Facebookの「レッドチーム」が自社のAIプログラムをハッキング

Facebookの「レッドチーム」が自社のAIプログラムをハッキング

攻撃者は機械学習システムを混乱させ、回避しようとする傾向が強まっています。そのため、機械学習システムを導入する企業は、より創造的な対策を講じています。

ワイヤーフレーム付きの女性の顔のイラスト

イラスト: アリエル・デイビス

Instagramは約10億人のユーザーに、写真にフィルターを追加して共有しやすくすることを推奨しています。2019年2月、一部のInstagramユーザーが、Facebookの自動ポルノフィルターという別のユーザー層を念頭に写真を編集し始めました。

Facebookは人工知能(AI)を活用したモデレーションに大きく依存しており、この技術は特に露骨な表現を含むコンテンツの検出に優れているとしている。しかし、一部のユーザーは、規則に反する肌の露出部分にグリッドやドットなどのパターンを重ねることで、Instagramのフィルターをすり抜けられることに気づいた。これは、Facebookのコンテンツ審査担当者の負担増加を意味した。

FacebookのAIエンジニアたちは、そのようなパターンを持つ禁止画像を認識できるようにシステムをトレーニングすることで対応したが、この修正は長続きしなかった。Facebookでコンピュータービジョンの取り組みを率いるマノハル・パルリ氏は、「ユーザーは異なるパターンを試すことで適応し始めた」と述べている。彼のチームは最終的に、写真上のグリッドなどのパターンをチェックし、近くのピクセルを模倣することでそれらを編集しようとする別の機械学習システムを追加することで、AIがヌード画像を認識する問題を克服した。このプロセスは元の画像を完全に再現するわけではないが、ポルノ分類器がつまずくことなく機能することを可能にする。

このいたちごっこの事件をきっかけに、Facebookは数ヶ月後、AIシステムの脆弱性と盲点をより深く理解するために「AIレッドチーム」を結成しました。Microsoftや政府機関を含む他の大企業や組織も同様のチームを編成しています。

これらの企業は近年、画像やテキストの内容を理解するといったタスクにAIシステムの導入に多額の投資を行ってきました。しかし今、一部のアーリーアダプターは、これらのシステムがどのように騙されるのか、そしてどのように保護できるのかを疑問視しています。「『え?こんなの役に立つの?』というレベルから、今では本番環境に不可欠なものになっています」と、Facebookの最高技術責任者であるマイク・シュローファー氏は述べています。「もし私たちの自動化システムが故障したり、大規模に破壊されたりしたら、それは大問題です。」

AIシステムを保護する作業は、従来のコンピュータセキュリティと類似点があります。FacebookのAIレッドチームは、組織で働くハッカーが攻撃者になりきって防御策を探る演習の名称に由来しています。彼らは、敵が新たな手口や攻撃を考案するにつれて、自分たちが適用した修正が回避される可能性があることを認識しています。

しかし、AIシステムへの攻撃を軽減することは、従来のハッキングを防ぐこととは別の意味で大きく異なります。防御側が懸念する脆弱性は、具体的な修正可能なバグではなく、今日のAI技術に内在する限界を反映している可能性が高いのです。「こうした脆弱性は本質的に存在するという点で、サイバーセキュリティとは異なります」と、連邦政府の研究プログラムを運営する非営利団体MITREコーポレーションでAIの脆弱性研究に携わるミケル・ロドリゲス氏は述べています。「完全に安全な機械学習モデルを作成したとしても、それでも脆弱性は残ります。」

AIセキュリティへの投資の増加は、Facebook、Googleなどの企業がAI導入の倫理的影響についてより深く考えるようになっていることを反映しています。これらの問題はいずれも、AIの有用性にもかかわらず、既存のAI技術が狭隘で柔軟性に欠け、人間のように予期せぬ状況に適応できないという事実に根ざしています。

機械学習に関する研究論文は増え続けており、写真のわずか数ピクセルを改変することでAIソフトウェアに幻覚を起こさせ、実際には存在しない物体を検出させるといったトリックが報告されています。ある研究では、Googleの画像認識サービスがライフルをヘリコプターとして分類してしまう可能性があることが示されました。また別の研究では、多面的な形状を持つ3Dプリント物体を、中国の百度(バイドゥ)のプロトタイプ自動運転車のライダーソフトウェアに認識されないよう加工しました。その他の攻撃には、「データポイズニング」と呼ばれるものがあります。これは、攻撃者が機械学習アルゴリズムの学習に用いるデータを改ざんし、その性能を低下させるものです。

MITREは、運輸や国家安全保障といった分野の政府機関顧客と協力し、こうした脆弱性を最小限に抑える方法を検討している。ロドリゲス氏は詳細を明かさなかったが、Facebookと同様に、一部の米国政府機関も、重要な機能に組み込むAIに何が起こり得るかを知りたいと考えているという。彼のチームのプロジェクトには、顔認識アルゴリズムの学習に用いる顔の抽出が可能であることを示したり、上空を飛行する航空機に搭載された機械学習ソフトウェアを欺いて周囲の状況を解釈したりすることなどが含まれている。国防総省は、戦場での脅威の発見から医療、バックオフィス管理に至るまで、AIを米軍のますます中心的な柱にしていく計画だ。

トランプをする人間とロボットのシルエット

FacebookのAIレッドチームを率いるのは、コンピュータービジョンの専門家であるクリスチャン・カントン氏です。彼は2017年にFacebookに入社し、画像モデレーションフィルターの開発グループを率いてきました。児童ポルノや暴力といった禁止コンテンツを検出するAIシステムの開発にチームの尽力に誇りを持っていましたが、そのシステムの堅牢性に疑問を抱き始めました。

2018年、カントン氏は「リスク・ア・ソン」を企画し、Facebook社内の人々が3日間かけて、これらのシステムを最も効果的に妨害する方法を競い合いました。一部のチームは、AIシステムの堅牢性を高める必要があると確信したほどの弱点を発見したとカントン氏は言います。

コンテストに参加したあるチームは、投稿内で異なる言語を使用するとFacebookの自動ヘイトスピーチフィルターが誤作動を起こす可能性があることを示しました。別のチームは、2019年初頭にInstagramでポルノを拡散するために使用された攻撃を発見しましたが、当時は早急な修正が必要とは考えられていませんでした。「私たちは未来を予測するんです」とカントン氏は言います。「それがきっかけで、これを自分の仕事にしようと思ったんです。」

カントン氏のチームは昨年、Facebookのモデレーションシステムを調査してきました。また、社内の別の研究チームと連携し、Facebookの模擬版「WW」を構築しました。WWは、悪質な行動を安全に研究するための仮想の遊び場として利用できます。そのプロジェクトの一つは、娯楽用薬物など、Facebookで禁止されている商品を提供する投稿の流通状況を調査することです。

レッドチームの最も重要なプロジェクトは、AIによって生成された、まるでカメラで撮影されたかのような画像であるディープフェイクの理解を深めることを目指しています。その結果、AIによる不正行為を防ぐのは容易ではないことが明らかになりました。

ディープフェイク技術はアクセスしやすくなりつつあり、標的型ハラスメントに利用されてきた。カントン氏のグループが昨年結成された当時、研究者たちはディープフェイクを自動的にフィルタリングする方法についてのアイデアを発表し始めていた。しかし、彼は一部の結果に疑問を感じた。「進歩を測る方法がなかったのです」と彼は言う。「99%の精度だと報告する人もいましたが、私たちは『それは正しくない』と考えました」

FacebookのAIレッドチームは、AI生成動画の検出技術の向上を促進するため、「ディープフェイク検出チャレンジ」というプロジェクトを立ち上げました。このプロジェクトでは、4,000人の俳優に報酬を支払い、様々な性別、肌の色、年齢の動画に出演してもらいました。Facebookのエンジニアが一部の動画で人物の顔を入れ替えてディープフェイクに変換した後、開発者たちは、その偽物を見抜くソフトウェアの開発に挑戦しました。

先月発表された結果によると、Facebookのコレクションに含まれていないディープフェイクを、最も優れたアルゴリズムでも65%しか検出できなかった。これは、Facebookが近い将来にディープフェイクを確実に検出できるようになる可能性は低いことを示唆している。「これは非常に難しい問題であり、まだ解決されていない」とカントン氏は言う。

カントン氏のチームは現在、Facebookの誤情報検出機能と政治広告分類システムの堅牢性を検証している。「私たちは、来たる選挙における喫緊の問題について、非常に広い視野で考えようとしています」と彼は言う。

AIを業務に活用している企業のほとんどは、Facebookのように大統領選挙の不正操作を疑われることを心配する必要はない。しかし、マイクロソフトでAIセキュリティに取り組んでいるラム・シャンカール・シヴァ・クマール氏は、AIモデルに不正操作される可能性については依然として懸念すべきだと指摘する。同氏は3月に発表された論文に寄稿し、調査対象となった25社のうち22社がAIシステムのセキュリティ対策を全く講じていないことを明らかにした。「セキュリティアナリストの多くは、機械学習についてまだ理解を深めている段階です」とシヴァ・クマール氏は語る。「フィッシングやマルウェア対策は、依然として彼らの主な仕事です。」

マイクロソフトは昨年秋、ハーバード大学との提携によりAIセキュリティに関するドキュメントを公開しました。これは社内のセキュリティチームの指針として活用されています。このドキュメントでは、「モデル窃盗」などの脅威について解説されています。モデル窃盗とは、攻撃者がAIサービスに繰り返しクエリを送信し、その応答を利用して類似の動作をするコピーを構築する攻撃手法です。この「窃盗された」コピーは、そのまま利用されることもあれば、攻撃者が元の有料サービスを操作する脆弱性を発見するために利用されることもあります。

10年以上にわたり機械学習システムを騙す方法に関する研究を発表してきたカリアリ大学の教授、バティスタ・ビジオ氏は、テクノロジー業界はAIのセキュリティチェックの自動化を始める必要があると述べている。

企業は、従来のソフトウェアを導入する前に、事前にプログラムされた一連のテストを実施してバグがないか確認しています。ビジオ氏は、運用中のAIシステムのセキュリティを向上させるには、同様のツールが必要になると述べており、彼と他の研究者が学術研究で実証した攻撃手法を基盤としている可能性もあります。

これは、クマール氏が指摘する、導入されている機械学習アルゴリズムの数と、それらの潜在的な脆弱性に精通した人材の不足というギャップを埋めるのに役立つ可能性がある。しかし、ビジオ氏は、敵対者は新たな策略を次々と生み出すため、生物学的知能は依然として必要だと指摘する。「人間が介入することは、依然として重要な要素となるだろう」と彼は言う。


WIREDのその他の素晴らしい記事

  • マスクが着用不要から必需品になった経緯
  • 私たちが夢中になるYouTubeチャンネル13選
  • テクノロジーは「マスター」と「スレーブ」というレッテルの使用に直面する
  • ポーカーと不確実性の心理学
  • コロナに追いつく ― あるいは、なぜウイルスが勝利しているのか
  • 👁 AIが生み出す魔法の数は今後減少するでしょう。さらに、最新のAIニュースもチェックしましょう
  • 🎙️ 未来がどのように実現されるかをテーマにした新しいポッドキャスト「Get WIRED」をお聴きください。最新エピソードを視聴し、📩ニュースレターに登録してすべての番組をチェックしましょう。
  • 💻 Gearチームのお気に入りのノートパソコン、キーボード、タイピングの代替品、ノイズキャンセリングヘッドホンで仕事の効率をアップさせましょう

トム・シモナイトは、WIREDのビジネス記事を担当していた元シニアエディターです。以前は人工知能を担当し、人工ニューラルネットワークに海景画像を生成する訓練を行ったこともあります。また、MITテクノロジーレビューのサンフランシスコ支局長を務め、ロンドンのニューサイエンティスト誌でテクノロジー記事の執筆と編集を担当していました。…続きを読む

続きを読む