
ワイヤード
下院から1マイル足らずのところに、ロンドン警視庁の秘密科学捜査班がある。1980年代に建てられたコンクリート製の巨大な建物の中に設置されたこの研究所は、銃器の解体から壊れた携帯電話の修復といった難解な作業まで、あらゆる作業を行っている。しかし、近年の問題、つまりデータ爆発への対応にますます苦慮している。
現代の犯罪は、それが残す煩雑なデータの痕跡と切り離すことはできません。明確にサイバー犯罪ではない事件であっても、ソーシャルネットワークを通じて送信されたメッセージと結びついています。警察のデジタルフォレンジック責任者であるマーク・ストークス氏は、チームが6ヶ月ごとに0.5ペタバイト以上のデータを入手していると推定しています。これは、2500億ページ分のテキストに相当します。
過剰なデータ保存の問題が特に深刻化するのは、児童性的虐待の画像や動画が絡む事件です。「1つの事件で数テラバイトのデータ保存が可能になることもあります」とストークス氏は言います。これはスマートフォン、複数のノートパソコン、外付けハードディスクに分散して保存されている場合もあります。「巨大なゲーム機も確認されていますが、容疑者はより高性能で大容量のストレージを備えたマシンを所有している傾向があります。」
現在、英国警察は、デバイス上で発見される大量の児童虐待画像への対応にディープラーニングを活用している。2014年に構築された英国の児童虐待画像データベース(CAID)には、1,300万枚以上の画像が収録されており、その数は急速に増加しており、6ヶ月ごとに50万枚以上の新しい画像が追加されている。
児童性的虐待の画像や動画に対するオンライン需要は揺るぎないものがあります。2018年には、児童虐待コンテンツを含む105,047件のURLがインターネットから削除されました。各ウェブサイトには数千枚の写真や映像が含まれている可能性があります。英国を拠点とする慈善団体Internet Watch Foundation(IWF)は、1996年以降、虐待画像を含むウェブページ477,595件をウェブから削除しました。ここ数年の削除件数の急増は、虐待画像の検出精度の向上と削除の迅速化(報告から4分以内の削除が記録されている)によるものとされています。
英国の40を超える警察組織すべてに、虐待画像の発見プロセスを迅速化し、個々の警察官が残酷な画像に費やす時間を短縮するツールへのアクセスが提供される。現在、警察官は数千枚の画像を閲覧し、含まれる虐待の程度に基づいて分類している。この作業は心理的に負担が大きく、専門の捜査官が虐待画像を精査するのに何時間も費やしている。
ディープラーニングの出番だ。画像認識は人工知能(AI)分野にとって新しい課題ではないが、児童性的虐待は標準的な画像認識タスクよりも複雑な技術的課題を提示する。「通常の画像よりもはるかに難しい分類問題です」と、ロンドンに拠点を置くAI企業QumodoのCEOであり、Vigil AIの共同創業者であるベン・ガンツ氏は語る。Qumodoは、複数のAI要素を活用した新しいデジタルメディア検査システムを開発している。その一つが、児童虐待画像を検出・分類するVigil AIソフトウェアだ。両社は内務省と共同で、警察向けにこの技術を開発した。「これは『これは猫か犬か』といった古典的な分類ではありません」
児童虐待を描いた画像は、機械による検知がより困難です。「VigilのシステムのAI部分は、画像に児童虐待が含まれているかどうかを認識し、英国の基準に基づいてその児童虐待の重大度を判断することができます」とガンツ氏は説明します。虐待画像は、その重大度に基づいて3つのカテゴリーに分類されます。Aは挿入を伴う性行為を含むもの、Bは挿入を伴わない性行為を含むもの、Cはその他のわいせつな画像です。
元国家犯罪対策庁警察官のガンツ氏は、犯罪者に技術の回避策を知られないようにするため、自身のシステムが不正行為の種類をどのように検知するかについて具体的な説明を拒否している。しかし、開発されたシステムには複数の種類の機械学習が用いられているとガンツ氏は述べている。
このシステムは、数百万枚の画像を含む既に膨大なCAIDデータベース全体にわたって、顔と位置情報を人工知能を用いて照合します。これにより、警察官は、画像ファイルのGPSメタデータから抽出された若者や画像が撮影された地域が、既に虐待事件と関連付けられているかどうかを特定できます。(ダンディー大学による最近の関連研究では、虐待者の手形や遺伝子パターンを用いて、写真や動画に映る人物を特定する研究が行われました。)ガンツ氏は、このシステムを児童虐待画像に関連するデータを検索する検索エンジンに例えています。
虐待を特定するために人工知能が訓練されたデータは、過去の警察捜査から得られたもので、画像には犯行の種類がラベル付けされていました。AI開発者は、安全なサイト内でのみ警察のデータにアクセスしました。
重要な要素の一つは年齢判定だ。「18歳に近づくと、人間がその人が大人か子供かを見分けるのは非常に難しくなります」とガンツ氏は言う。システムは、事前にラベル付けされたデータを用いて、画像に大人の画像が含まれているか、子供が含まれているかを判定できる。
ロンドン警視庁の鑑識研究所で行われた、虐待ではない画像を使ったデモンストレーションでは、検出システムの信頼度は95%に設定されています。システムが画像に児童虐待の可能性があると判断すると、一致する可能性のある画像はすべて、その重大度に基づいてグループ分けされます。
警官には写真のサムネイルが表示され、個別に確認するのではなく、まとめて確認することができます。適切なカテゴリーに該当しない画像を除外することが求められます。「誤検知は問題ありません」とストークス氏は、AIが間違いを犯す可能性があることに言及し、こう述べています。彼は、このプロセスには機械の判断を検証するために人間が必要であると説明します。意図的に完全に自動化されているわけではないのです。「私たちが常に心配しているのは、誤検知、つまり見落としです。」
このシステムにより、捜査官は短時間で複数の画像を処理できるようになります。試験運用におけるこの技術の初期テストでは、職員1人あたり1分間に200枚の虐待の可能性のある画像を処理できることがわかりました。以前は1分間に18枚でした。その結果、捜査はより迅速に行われ、警察の推定によると、以前は24時間かかっていた分類が、今では30分以内に可能になっています。英国のサジド・ジャビド内務大臣は、児童性的虐待の件数が「桁外れ」だと述べています。「児童に対するサイバー関連犯罪は毎日約22件発生しています」と彼は述べています。
英国警察による自動化は、児童虐待対策で政府と緊密に連携しているIWF(国際人権団体)から歓迎されている。「自動化/AIは、生身の人間と連携して果たすべき役割があります」と、IWFの副CEO兼CTOであるフレッド・ラングフォード氏は述べている。「AIは驚くほど急速に発展していますが、より複雑な事件に対処するために必要な文脈を提供するにはまだ至っていません。」
この技術は実世界ではまだ初期段階ですが、ストークス氏は他の種類の犯罪や様々な静止画像への応用の可能性を模索しています。ナイフや銃の検出にも活用できる可能性があると彼は述べています。2012年に起きた10代の少女ティア・シャープさん殺害事件の捜査では、20人以上の警察官が鑑識室で事件に関連する防犯カメラの映像を精査していたとストークス氏は語っています。
「わいせつな画像や児童に関する問題だけではありません。画像や動画をより迅速に確認できるようになることが重要なのです」とストークス氏は語る。「殺人事件の捜査で使われる防犯カメラの映像もそうですが、今ではその防犯カメラの解像度や画質も向上しています。しかし、殺人事件では30もの異なるビデオシステムをダウンロードしていることもあるでしょう。極端な例もいくつかありました」
2019年7月17日 17:30更新:この記事に、Vigil AIのシステム開発に関する言及が追加されました。
この記事はWIRED UKで最初に公開されました。