医療における偏見は危険だ。しかし、「公平性」アルゴリズムも同様に危険だ

医療における偏見は危険だ。しかし、「公平性」アルゴリズムも同様に危険だ

医療制度は有色人種の人々を不釣り合いに失望させているが、数字を修正することに焦点を当てると、さらに悪い結果につながる可能性がある。

パルスオキシメーターのコードと糸でぶら下がった紐が付いた手の写真コラージュ

写真イラスト:WIREDスタッフ、ゲッティイメージズ

心身の健康は、幸せで充実した人生を送る上で不可欠な要素です。私たちの 気分は 、仕事、築く人間関係、そして愛する人へのケアに影響を与えます。リスクが極めて大きいため、人々はコミュニティの安全を守るためにテクノロジーに頼ることがよくあります。人工知能(AI)は大きな期待の一つであり、多くの企業が世界中で高まる医療ニーズに応えるためにテクノロジーに多額の投資を行っています。そして、有望な事例は数多く存在します。AIはがんの検出、患者のトリアージ、治療法の推奨などに活用できます。目標の一つは、AIを活用して、特にこれまで医療へのアクセスが制限されてきた地域や人々にとって、質の高い医療へのアクセスを向上させることです。 

しかし、例えば、新型コロナウイルス感染症のパンデミックの際、人種的に偏った医療機器が原因で、肌の色の濃い患者の治療が遅れた。パルスオキシメーターが少数民族の血中酸素濃度を過大評価したためだ。同様に、肺がんや皮膚がんの検出技術も肌の色の濃い人には精度が低いことが知られており、患者のがんを見逃す確率が高くなり、救命医療へのアクセスが遅れる。患者のトリアージシステムは、少数民族の患者のケアの必要性を常に過小評価している。例えば、そのようなシステムの一つは、黒人患者の病気の重症度を常に過小評価していることが示された。これは、医療費を病気の代わりの指標として使用し、人口全体にわたる医療へのアクセスの不平等、ひいてはコストの不平等を考慮に入れていなかったためである。同じ偏りは性別に関しても見られる。女性患者は心臓病と不当に誤診され、不十分な治療や間違った治療を受けている。 

幸いなことに、AIコミュニティの多くの人々が、こうした偏見を是正するために積極的に取り組んでいます。しかし残念ながら、私たちの最新の研究が示すように、彼らが開発したアルゴリズムは、実際に運用された場合、事態を悪化させ、人々の命を危険にさらす可能性があります。 

「アルゴリズムの公平性」を強制するために開発されたアルゴリズムの大部分は、政策や社会的な文脈を考慮せずに構築されました。ほとんどのアルゴリズムは公平性を単純な言葉で定義し、人口統計学的グループ間のパフォーマンスや結果の格差を縮小することを意味します。AIにおいて公平性を効果的に強制することは、これらの抽象的な数学的定義のいずれかを満たしつつ、元のシステムの精度を可能な限り維持することを意味するようになりました。 

既存のアルゴリズムでは、公平性は通常、(1) パフォーマンスの低いグループのパフォーマンスを調整する、(2) パフォーマンスの高いグループのパフォーマンスを低下させるという2つのステップを通じて実現されます。これらのステップは、その根底にある動機によって区別できます。 

公平性の観点から、将来の肺がんリスクを予測するAIシステムのバイアスを低減したいとします。この架空のシステムは、現実世界の例と同様に、黒人患者と白人患者の間でパフォーマンスの差が生じています。具体的には、黒人 患者の再現率が低く 、がんリスクを過小評価し、実際には将来肺がんを発症する「高リスク」の患者を「低リスク」と誤って分類してしまうのです。 

このパフォーマンスの低下には、多くの原因が考えられます。システムの学習データが主に白人患者のデータに基づいていること、あるいは黒人患者の医療記録へのアクセスが困難であったり、品質が低かったりすることが原因かもしれません。また、医療へのアクセスと医療費支出における根底にある社会的不平等を反映している可能性もあります。 

パフォーマンス格差の原因が何であれ、私たちが公平性を追求する動機は、歴史的に不利な立場にある集団の状況を改善することです。がん検診において、偽陰性は偽陽性よりもはるかに有害です。偽陰性は、患者が本来必要のない健康診断やスキャンを受けることを意味し、偽陰性は、将来、より多くのがん症例が診断・治療されないままになることを意味します。 

したがって、黒人患者の状況を改善する一つの方法は、システムのリコール率を向上させることです。最初のステップとして、慎重を期し、黒人患者に関する症例について、システムが最も確信度が低い症例の予測を変更するように指示することが考えられます。具体的には、より多くのがん症例を捕捉するために、確信度の低い「低リスク」症例の一部を「高リスク」に転嫁します。これは「レベルアップ」と呼ばれ、現在システムによって不利な立場にあるグループに対する予測の一部を意図的に変更し、より頻繁にフォローアップを行うようにシステムを設計することを意味します(例:がん検診の頻度を増やす)。 

この変更は精度を犠牲にして行われます。がんリスクがあると誤って診断される人の数が増え、システム全体の精度が低下します。しかし、がんの診断を見落とすことは非常に有害であるため、精度と再現率のこのトレードオフは許容範囲内です。 

正確性を犠牲にして再現率を高めるために症例を反転させることで、最終的にはそれ以上の変更を行うと許容できないほど正確性が低下する状態に陥る可能性があります。これは最終的には主観的な判断であり、再現率と正確性の間に真の「転換点」は存在しません。私たちは黒人患者のパフォーマンス(または再現率)を必ずしも白人患者と同等のレベルまで引き上げたわけではありませんが、現在のシステム、利用可能なデータ、その他の制約の中で、黒人患者の状況を改善し、パフォーマンスの格差を縮小するために可能な限りの努力をしてきました。 

ここで私たちはジレンマに陥ります。現代の公平性アルゴリズムは、どんな犠牲を払ってでも平等なパフォーマンスを達成するという狭い焦点を当てているため、意図せずして避けられない問題を引き起こしているのです。黒人患者のパフォーマンスをこれ以上向上させるには、許容できないほどの精度の低下を招くことになりますが、白人患者のパフォーマンスを低下させ、その過程で再現率と精度の両方を低下させることで、両グループの再現率が等しくなるようにすることも可能です。この例では、白人患者のラベルを変更し、一部の予測を「高リスク」から「低リスク」に変更します。 

動機は数学的な利便性です。私たちの目標は、2 つの数値 (例: リコール) を 2 つのグループ (白人患者と黒人患者) 間で可能な限り等しくし、これら 2 つの数値が等しい場合にシステムが公平であるという定義を満たすことだけです。 

明らかに、以前は「高リスク」だった患者を「低リスク」と分類することは、フォローアップケアやモニタリングを受けられない患者にとって極めて有害です。全体的な精度は低下し、最も有害なタイプのエラーの頻度は増加しますが、これはすべてパフォーマンスの差を縮めるためのものです。重要なのは、このパフォーマンスの低下は、パフォーマンスの低いグループの改善とは必ずしも関連がなく、因果関係もないということです。 

しかし、これは数学的に最適な解であるため、グループ公平性を強制する多くのアルゴリズムで実際に起きています。この種の劣化、つまり、1つまたは複数のグループの状況を恣意的に悪化させること、あるいはパフォーマンスの高いグループをパフォーマンスの低いグループと同じレベルまで引き下げることによって公平性を実現することは、「レベルダウン」と呼ばれます。どこで発生しようとも、公平性アルゴリズムを用いてレベルダウンを通じて公平性を強制することは、懸念すべき事態です。

実のところ、ここで説明したのは最良のシナリオであり、各グループのパフォーマンスに影響を与える単純な変更を加えることで公平性を確保することが可能となります。実際には、公平性アルゴリズムははるかに急進的で予測不可能な動作をする可能性があります。この調査では、平均して、コンピュータービジョンにおけるほとんどのアルゴリズムが、例えば再現率や精度を低下させることで、すべてのグループに悪影響を与えることで公平性を向上させていることがわかりました。あるグループの被害を軽減した私たちの仮説とは異なり、均一化によってすべてのグループが直接的に不利になる可能性もあります。 

均衡化は、アルゴリズムの公平性、そして社会におけるより広範な平等の目標、すなわち歴史的に不利な立場に置かれてきた、あるいは周縁化されてきた集団の成果を向上させるという目的に反する。高パフォーマンス集団のパフォーマンスを引き下げても、必ずしもパフォーマンスの低い集団に利益をもたらすわけではない。さらに、均衡化は歴史的に不利な立場に置かれてきた集団に直接的な害を及ぼす可能性がある。利益を他者と共有するのではなく、それを奪うという選択は、問題解決の機会を捉えるという配慮、連帯感、そして意欲の欠如を示している。歴史的に不利な立場に置かれてきた集団に烙印を押し、そもそも問題を引き起こした孤立と社会的不平等を固定化することになる。

人々の生活に関する意思決定を行うAIシステムを構築する際、その設計上の決定は、何を優先すべきかという暗黙の価値判断を内包しています。「レベルダウン」は、実用性、福祉、優先順位といった、現実世界における平等の問題の中核を成す要素を無視し、公平性をグループ間の格差のみで測定・是正しようとする選択の結果です。これはアルゴリズムによる公平性の必然的な運命ではなく、数学的な抵抗が最も少ない道を選んだ結果であり、社会、法律、倫理といった包括的な理由によるものではありません。 

前進するには、3 つの選択肢があります。 

• 一見すると一部の特権階級にのみ利益をもたらしながら、他の人々に深刻な害を及ぼすような偏ったシステムを導入し続けることができます。 
• 公平性を形式主義的な数学的用語で定義し、すべてのグループにとって精度が低く、一部のグループには有害なAIを導入することができます。 
• 「レベルアップ」を通じて行動を起こし、公平性を実現することができます。 

私たちは、レベルアップこそが、道徳的、倫理的、そして法的に唯一受け入れられる前進の道であると信じています。AIにおける公平性の未来における課題は、レベルダウンによる手続き上の公平性だけでなく、実質的に公平なシステムを構築・実装することです。レベルアップはより複雑な課題であり、AIシステムにおけるバイアスの現実的な原因を根絶するための積極的な取り組みと組み合わせる必要があります。技術的な解決策は、しばしば壊れたシステムに対処するための応急処置に過ぎません。医療へのアクセスを改善し、より多様なデータセットをキュレーションし、歴史的に不利な立場にあるコミュニティが直面する問題に特化したツールを開発することで、実質的な公平性を実現することができます。

これは、単にシステムを微調整してグループ間の数字を均等にするよりもはるかに複雑な課題です。AIシステムを根本から再設計するなど、技術面および方法論面での大幅な革新だけでなく、医療へのアクセスや医療費といった分野における抜本的な社会変革も必要となる可能性があります。 

困難ではありますが、「公平なAI」への再焦点化は不可欠です。AIシステムは人生を変えるような決定を下します。AIシステムがどのように公平であるべきか、そして誰に対して公平であるべきかという選択は、公平性を単なる数学の問題として扱うにはあまりにも重要です。現状は、レベルダウンによって平等を実現する公平性手法を生み出してきました。これまで私たちは、数学的には公平であるものの、恵まれないグループに明らかに利益をもたらすことができず、また利益をもたらすこともない手法を生み出してきました。 

これでは不十分です。既存のツールはアルゴリズムの公平性に対する解決策として扱われていますが、今のところその期待に応えていません。倫理的に曖昧な影響があるため、利用される可能性は低く、これらの問題に対する真の解決策の実現を遅らせている可能性があります。私たちに必要なのは、レベルアップを通じて公平性を保ち、他のグループに恣意的に害を与えることなく、パフォーマンスの低いグループを支援するシステムです。これこそが、私たちが今解決しなければならない課題です。数学的だけでなく、実質的に公平なAIが必要なのです。 

開示:クリス・ラッセルはAmazon Web Servicesの従業員でもあります。彼はAmazon従業員としての立場で、本論説およびその基礎となる研究に貢献していません。これらの論説は、オックスフォード・インターネット研究所の「AIの信頼性監査」プロジェクトを通じてのみ作成されました。

2023 年 3 月 3 日午前 11 時 (東部時間) 更新: この記事は、著者の開示を追加し、ヘルスケアのレベルダウンの仮説的な例をより明確にするために更新されました。

続きを読む