2017年からHARTアルゴリズムをテストしてきたダラム警察は、最近、特定の地域に住む人々に対する人間の偏見を強めないように変更を加えた。
WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。

英国警察の拘留判断を支援するために設計されたアルゴリズムが、貧困地域の住民を差別する可能性があるとの懸念から変更された。運用状況を調査したところ、人間の予測とシステムによる予測に大きな乖離があることも判明した。
過去5年間、ダラム警察とコンピュータサイエンスの研究者たちは、危害評価リスクツール(HART)の開発に取り組んできました。この人工知能システムは、被疑者が2年間で再犯するリスクが低、中、高のいずれにあるかを予測するように設計されています。
このアルゴリズムは、英国警察が初めて導入したアルゴリズムの一つです。被疑者の拘留を決定するものではありませんが、警察官が「チェックポイント」と呼ばれる更生プログラムに被疑者を送致すべきかどうかを判断する際に役立ちます。この制度は、被疑者を英国の裁判制度に強制的に送致するのではなく、手続きに介入することを目的として設計されています。
HARTは、年齢、性別、犯罪歴など34の異なるカテゴリーのデータを用いて、人物を低リスク、中リスク、高リスクに分類します。これらのデータカテゴリーには郵便番号情報も含まれています。警察は現在、ダーラム市の郵便番号の最初の4桁を含む主要な郵便番号フィールドをAIシステムから削除しています。「HARTは現在、より新しいデータで更新されており、2つの郵便番号予測因子のうち1つを削除することを目指しています」と、2017年9月に発表された、このアルゴリズムの使用状況を検証した学術論文の草稿には記されています。この論文は、警察関係者の1人が共同執筆したものです。
「郵便番号予測の主要指標がそこに含まれていることに懸念を抱いています」と、エディンバラ・ネイピア大学の犯罪学講師で刑事司法制度を専門とするアンドリュー・ウーフ氏は述べています。ウーフ氏は、位置情報や社会人口統計データを含めることで、警察の判断や司法制度における既存の偏見が強化される可能性があると付け加えています。「警察が高リスク郵便番号地域の予測に基づいて行動した場合、既存の犯罪パターンを増幅させてしまう事態が生じる可能性があります。」
HARTに関する最初のレビューとなるこの学術論文は、郵便番号データが「地域社会の貧困」と関連している可能性があると述べている。論文はさらに、「介入の目的から、居住地は関連要因となる可能性がある」と述べている。郵便番号データが将来の再犯モデルの構築に利用されるならば、地域への注目が高まる可能性がある。「モデルそのものではなく、モデル構築に用いられるこれらの予測因子こそが、中心的な懸念事項である」と論文は述べている。
論文はまた、「人間とアルゴリズムによる予測の間には明確な意見の相違がある」と指摘している。アルゴリズムの初期試験では、警察官にアルゴリズムの結果を模倣し、ある人物の再犯リスクが低い、中程度、高いのいずれであるかを予測するよう依頼した。すると、ほぼ3分の2(63.5%)の警察官が犯罪者を中程度に分類した。「モデルと警察官のオンライン上の予測は56.2%の確率で一致する」と論文は説明している。
WIREDはアルゴリズムの変更について質問するためにダラム警察に連絡を取ったが、記事公開時点では返答を受け取っていない。
HART内部
「あなたは研究調査への参加を招待されています」と、ダーラムの警察官が読み上げた台本には書かれている。この調査は「あなたの人生を永遠に変える可能性がある」と警察官は告げられ、犯罪で起訴された人物は調査を完了すれば有罪判決を受けない。
チェックポイント・プログラムは、ダラム警察とケンブリッジ大学が共同で実施している実験的なプログラムです。このプログラムの目的は、人が犯罪を犯した理由に対処することで再犯率を減らすことです。薬物やアルコールの乱用、ホームレス、メンタルヘルスなどが支援対象として挙げられています。
HARTアルゴリズムはCheckpointに入力されます。再犯の可能性が「中程度」と分類された人は、プログラムへの参加が提案されます。高リスクまたは低リスクと判断された場合は、プログラムへの参加は認められません。
「人々の生活は既に現状の影響を受けています」と、バージニア大学の公共政策・経済学教授、ジェニファー・ドレアク氏は言う。「しかし、他の方法よりも公正な結果をもたらし、社会目標に近づくためのより良い方法はないのでしょうか?」チェックポイントは、人々を刑事司法制度から遠ざける努力が評価され、慈善団体ハワード・リーグ・フォー・ペナル・リフォームから賞を授与された。
HART は、R プログラミング言語を使用し、一連の異なる結果に基づいて予測を行う方法であるランダム フォレストを通じて決定を下す機械学習システムです。
HARTが下すすべての決定は過去のデータに基づいています。過去の情報を参照して将来の結果を予測します。HARTの最初のモデルでは、ダラム警察が2008年から2012年にかけて行われた10万4000件の拘留事件の詳細をシステムに提供しました。そこから、位置情報を含む34の予測因子を用いて、各人物に関する予測を作成しました。HARTが下すすべての結論は、システムによる509の投票(低、中、高のいずれか)に基づいています。
ダラム警察の刑事司法責任者であり、このプロジェクトを率いるシーナ・アーウィン氏が発表した研究によると、HARTは現実世界のデータに基づいて機能している。このアルゴリズムモデルの初期バージョンでは、暴力犯罪歴のある24歳の男性(警察は彼に関する諜報報告書を22件保有していた)が再犯リスクが高いと予測されていた(モデルは彼に高評価414票、中評価87票、低評価8票を与えた)。その後、彼は逮捕され、殺人罪で有罪判決を受けた。
AIを活用した英国警察
サウスウェールズ警察:ウェールズ警察は、顔認識システムにAIを活用しています。このシステムはリアルタイムで顔スキャンが可能で、2017年から運用されています。50万件の拘留画像データベースと照合された後、複数の逮捕者が出ています。
ケント警察:2012年12月以来、ケント州の警察官は犯罪発生の可能性のある場所を予測する「Pred Pol」と呼ばれるシステムを導入しています。このシステムは過去の犯罪データを用いて学習され、警察官の出動が必要となる可能性のある地域をハイライトします。
ダラム警察:ダラム警察は、拘留に関する判断に焦点を当て、警察官を支援するツールとしてHARTを活用しています。HARTの導入は2017年に開始されました。
アルゴリズムによる警察活動
警察や法執行機関における人工知能(AI)による予測の活用はまだ初期段階ですが、アルゴリズムシステムの開発に意欲的な警察機関にとって、多くの警告サインが存在します。広く引用されている2016年のPro Publicaによる調査では、Northpointe社が開発したCOMPASソフトウェアが黒人犯罪者に対して偏見を持っていることが明らかになりました。
ジョージ・メイソン大学法学部のミーガン・スティーブンソン教授による、ケンタッキー州におけるアルゴリズムによるリスク評価の影響を調査した別の研究では、このシステムから大きな利益は得られなかったことが明らかになった。100万件以上の刑事事件のデータを分析したスティーブンソン教授は、公判前リスク評価は「リスク評価の推進派が予測したような劇的な効率性の向上にも、批判派が予測したような人種間の格差の拡大にもつながらなかった」と結論付けている。また、ケンタッキー州のシステムを利用している裁判官は、リスク評価手法を長期間使用するほど、自身の意見や手法に立ち戻る傾向があると指摘している。
人種や社会的な偏見といった既存の人間の偏見がHARTに浸透するのを防ぐため、ダラム警察は職員に対し、無意識の偏見に関する意識啓発セッションを実施しました。また、警察は、アルゴリズムが用いる予測因子に人種は含まれておらず、このツールの出力は人間の意思決定を支援するための補助ツールであると強調しています。(「具体的な数字はお伝えできませんが、アルゴリズムによる予測と矛盾しています。なぜなら、アルゴリズムによる予測は万能ではなく、あくまで意思決定を支援するツールだからです」とアーウィン氏は2017年12月に国会議員に語りました。)
エディンバラのウーフ氏は、「時間に追われ、リソースを大量に消費する」警察の世界では、警察官がコンピューターによる意思決定に過度に依存する可能性があることを懸念している。「警察官が自身の意思決定プロセスよりもシステムに頼る状況が想像できます」とウーフ氏は述べ、意思決定を行う警察官にとって、紙の記録は有用かもしれないと付け加えた。「何か問題が起きた際に、その判断を正当化できるようにするためでもあるかもしれません」
COMPASの精度を調べた別の研究でも、COMPASは訓練を受けていない人間と同等の判断を下すことが明らかになっています。「COMPASの予測は、オンラインアンケートに回答する人間の予測と比べても、それほど正確ではありませんでした。人間は刑事司法の経験がほとんど、あるいは全くありません」と、この研究の著者で現在はAppleのエンジニアであるジュリア・ドレッセル氏は述べています。
ドレッセル氏とダートマス大学教授のハニー・ファリド氏は、Amazonのメカニカルターク(Mechanical Turk)を使って犯罪者の再犯可能性を予測する人々に報酬を支払い、COMPASの結果と比較した。人間とアルゴリズムはどちらも再犯を約67%の精度で予測した。「ビッグデータを用いて構築されたからといって、それが未来を予測できると決めつけることはできません」とドレッセル氏は言う。「非常に高い基準を課し、テストを行い、彼らが主張する通りの正確性と有効性があることを証明する必要があります。」
精査を受ける
ダーラム警察のアルゴリズムはブラックボックスです。モデル内の420万以上のポイントに基づいて意思決定を行うシステムを完全に説明することは不可能です。「不透明性を避けることは困難であるように思われる」と、2017年9月のHARTレビューは結論づけています。現在、このシステムにはダーラム警察が保有するデータのみが含まれていますが、将来的には地方議会や英国の警察全国データベースからの追加情報が組み込まれる可能性があります。
警察は、アルゴリズム評価ツールを警察がいつ使用すべきかを規定する枠組みを構築することで、透明性の欠如を回避しようと試みてきました。「アルゴケア」と呼ばれるこの枠組みでは、アルゴリズムは合法性、正確性、異議申し立て可能性、責任、説明可能性を備えていなければならないとされています。
「実際、説明責任は単なるチェックリストでは済まされないのです」と、AIが社会に及ぼす影響を研究するAI Now Instituteのテクニカルフェロー、ディロン・ライスマン氏は語る。「彼らが(アルゴケアを)検討したのは良いことですが、そもそもこれらのアルゴリズムを使うことが適切かどうかも検討する必要があります。」
警察は、HARTの基礎となるコードを公表することを拒否している。これは、公共の利益に反し、研究段階にあるシステムを損なう可能性があるという理由からだ。しかし、警察は、基礎となるシステムを中央機関に提供する用意があると述べている。
「ダーラム警察は、HARTアルゴリズムと関連する個人データおよび拘留イベントデータセットをアルゴリズム規制当局に開示する用意がある」と警察はデータの公開に関する質問に答えて述べた。
ライスマン氏は、より多くの情報が必要になると主張している。「アルゴリズムを監査するにはコードだけでは不十分です」と彼は言う。「アルゴリズムによる決定に基づいて人々がどのように行動するかに関する情報が必要です。」
しかし、それが実現するまでは、AI警察システムの有効性は依然として疑問視されています。ダーラム大学のアーウィン氏が共同執筆した2017年9月のHARTレビューでは、アルゴリズムによる予測が「そもそも適切」なのか、そして人種などのデータが警察システムに組み入れられるべきなのかという問題が指摘されました。
「過去の行動を見て、今後2年間で誰かが何をするかを高い精度で予測するのは本当に難しい」と、COMPASの分析の共著者であるファリド氏は言う。「もしそれを正確に予測できないのであれば、それを基準にしようとするのはやめて、実際に予測しやすいものを探し、市民の自由と社会の安全のバランスを取るべきなのかもしれない」
2017 年 3 月 1 日更新: この記事の見出しは、HART は意思決定を行うのではなく、情報を提供するものであることを明確にするために変更されました。
この記事はWIRED UKで最初に公開されました。