AIを無力化するために、ハッカーはデータをAI自身に逆らわせようとしている

AIを無力化するために、ハッカーはデータをAI自身に逆らわせようとしている

データは人工知能革命の原動力となっている。今、セキュリティ専門家はAIがハッキングされ、暴走する恐れのある方法を明らかにしている。

画像には屋外、車、交通機関、車両、人物、航空写真、駐車場、オートバイが含まれる場合があります

Qilai Shen/Bloomberg via Getty Images

ニューラルネットワークはカメの写真を見てライフル銃だと認識する。自動運転車は、巧妙に作られたステッカーがコンピューターの視覚を誤認させ、一時停止標識をすり抜けてしまう。眼鏡のフレームが顔認識技術を混乱させ、見知らぬ男性を女優ミラ・ジョヴォヴィッチだと誤認させる。人工知能のハッキングは、新たなセキュリティ危機となっている。

データセットや物理環境を改ざんして人工知能を乗っ取ろうとする犯罪者を未然に防ぐため、研究者たちは敵対的機械学習に注目しています。これは、データを微調整することでニューラルネットワークを欺き、システムを騙して存在しないものを認識させたり、存在するものを無視させたり、あるいは物体を完全に誤分類させたりすることです。

Googleとニューヨーク大学の研究者が行ったように、スクールバスの写真に(人間には見えない)データノイズの層を追加すると、ニューラルネットワークはそれがダチョウであるとほぼ確実に報告します。画像だけではありません。研究者たちは、人間の小さな耳には全く気づかれずにスマートフォンを操作できる、隠された音声コマンドを放送に組み込んでいます。

このような研究は現在では攻撃とみなされていますが、敵対的例は当初、ニューラルネットワーク設計におけるほぼ哲学的な盲点として捉えられていました。私たちは、機械は私たちと同じように物を見、私たちと同様の基準で物体を識別すると想定していました。この概念は、2014年にGoogleの研究者によって「ニューラルネットワークの興味深い特性」に関する論文で初めて提唱されました。論文では、画像に「摂動」を加えると、ネットワークがそれを誤って認識する仕組みが説明されており、彼らはこれを「敵対的例」と名付けました。彼らは、小さな歪みがニューラルネットワークを欺き、数字を読み間違えたり、スクールバスを誤分類したりする可能性があることを明らかにしました。この研究は、ニューラルネットワークの「本質的な盲点」と、その学習方法における「直感に反する特性」について疑問を投げかけました。言い換えれば、私たちはニューラルネットワークがどのように動作するのかをまだ完全には理解していないということです。

「敵対的事例は、ディープラーニングの仕組みとその限界についての理解がまだ非常に限られていることを示しているに過ぎません」と、カリフォルニア大学バークレー校のコンピュータサイエンス教授、ドーン・ソン氏は述べている。ソン氏は、自動運転車を混乱させるための一時停止標識ステッカーを開発した4つの大学の研究者の一人である。

「攻撃者が機械学習モデル生成パイプラインのどの段階にいるかによって、攻撃の種類は多岐にわたります」と、ワシントン大学のコンピュータセキュリティ研究者で、一時停止標識の研究に携わったアーレンス・フェルナンデス氏は述べています。例えば、学習時攻撃は機械学習モデルの構築時に発生し、悪意のあるデータを用いてシステムを学習させるとフェルナンデス氏は言います。「顔検出アルゴリズムでは、攻撃者はモデルに毒を注入し、攻撃者の顔を認証された人物として認識させる可能性があります」と彼は言います。

一方、推論時間攻撃は、さまざまなアルゴリズム(高速勾配符号法や Carlini および Wagner 攻撃の 2 つの一般的な方法)を使用してモデルに特別に細工された入力を提示し、画像を微妙に変更してニューラル ネットワークを混乱させます。

詳しくはこちら:DeepMindのムスタファ・スレイマン氏:2018年にはAIが道徳的な羅針盤を獲得する

AIが私たちの生活のあらゆる側面に浸透するにつれ、自動車の運転、防犯カメラシステムの分析、顔認識による本人確認など、こうしたシステムへの攻撃はますます起こりやすく、危険になっています。ハッカーが道路脇の設備を改変すれば、自動車事故や負傷を引き起こす可能性があります。機械学習システムの学習元となるデータに微妙な変更を加えることで、AIシステムの意思決定にバイアスが加わる可能性もあります。

しかし、心配する必要はありません。今のところは。「私たちの知る限り、この種の攻撃は現実世界で悪意のある者によって行われているわけではありません」と、MITの研究者であるアニッシュ・アサリー氏は言います。「しかし、この分野の研究をすべて考えると、多くの機械学習システムは非常に脆弱であるように思われます。現実世界のシステムがこの種の攻撃に対して脆弱であっても、私は驚かないでしょう。」

アタリー氏自身の研究は、敵対的攻撃をより堅牢にすることを目指していました。「標準的」と分類される攻撃の中には、特定の視点からのみ機能するものもあれば、ニューラルネットワークが物体や画像をどの角度から見ても機能するものもあります。「標準的な敵対的サンプルは、画像内のピクセルをわずかに調整することで、分類を特定のターゲットクラスに近づけるように作成されます。例えば、猫の写真をワカモレとして分類するなどです」と彼は言います。「このプロセスを何度も繰り返し、わずかな変更を加えることで、人間にはあるものに見える画像が、機械には全く別のものだと誤解させるような画像を作成できることがわかりました。」研究によると、標準的な敵対的攻撃は「脆弱」であり、現実世界では通用しない可能性が高いことが示唆されています。

そこでアタリー氏をはじめとするMITやLabSixの研究者たちは、より良い例を構築し、攻撃画像を最適化して角度や距離に関係なく機能するようにしました。「私たちはこれを3Dオブジェクトにも拡張しました。例えば、人間にはカメのように見える物理的な物体でも、機械には全く異なるものに見えるようにすることができます。これは、どのように認識されても変わりません」と彼は言います。これには、ImageNet分類器にはライフルのように見える、3Dプリントされたおもちゃのカメも含まれます。

攻撃は、特定の角度でしか機能しない、あるいは人間が容易にその変化を察知できる場合、ほとんど効果がありません。自動運転車を例に考えてみましょう。自動運転車は、ニューラルネットワークを用いて物体を識別するコンピュータービジョンで世界を認識しています。攻撃者は、車が接近するあらゆる角度、つまり遠距離から近距離まで、あらゆる状況で攻撃を仕掛けることができなければなりません。しかも、人間のドライバーには気付かれずに済む必要があります。単に塗りつぶされた標識は、誰も読み取れません。フェルナンデス氏とソン氏を含む研究者たちは、標識を覆い隠さない微妙なペイントと、落書きのように見えるステッカーを使って、ニューラルネットワークに「停止」を制限速度と認識させることで、この問題を解決しました。

「大まかに言うと、この種の攻撃は、標的のディープラーニングモデルにアクセスし、物理オブジェクトにどのような編集を加える必要があるかを計算するアルゴリズムを実行することで機能します。人間には元のオブジェクトと視覚的に似ているように見えますが、機械学習モデルには全く異なるものに見えるようにするためです」とフェルナンデス氏は言います。「今回の場合、私たちのアルゴリズムは追加する必要がある編集内容を出力します。私たちの場合はステッカーなので、紙に印刷して物理的な一時停止標識に貼り付けるだけです。」

慌てる必要はありません。これらのステッカーを一時停止標識に貼るだけでは、自動運転車は事故を起こしません。フェルナンデス氏は、自動運転車は複数のセンサーとアルゴリズムを使用しており、単一の機械学習モデルに基づいて判断を下すわけではないと説明します。「つまり、私たちの研究は単一の機械学習モデルを騙すことはできますが、それが身体的な危害を引き起こすのに十分であることを意味するわけではありません」と彼は言います。

続きを読む: ハッカーはAI攻撃の波を起こそうとしている

敵対的サンプルの構築は容易な作業ではありません。多くの場合、ニューラルネットワークのモデルアーキテクチャなどの技術的詳細(いわゆる「ホワイトボックス」アクセス)へのアクセスが必要になります。しかしながら、詳細なネットワーク情報を必要としない堅牢な攻撃が報告されています。こうしたブラックボックス攻撃は、異なるニューラルネットワーク間で転送可能であるため、外部の者がシステムを攻撃する際により有効となる可能性があります。

機械学習が固有の弱点によって役に立たなくなるのを防ぐための取り組みが今求められています。多くの解決策が提案されているものの、明確な防御策はまだありません。「敵対的サンプルを検出する防御策と、敵対的サンプルの存在を排除する防御策は、現在も活発な研究分野であり、新たな防御策が提案され、非常に速いペースで破られています」と、ミシガン大学の研究者であるケビン・エイクホルト氏は述べています。「機械学習システムを設計する際には、敵対的攻撃の具体的なリスクを認識し、可能な限り軽減することが重要です。盲目的にシステムを設計し、攻撃が発生した場合の影響を心配するのではなく」とエイクホルト氏は付け加えています。

アサリー氏によると、有望なアイデアの一つは、ニューラルネットワークに敵対的な画像を訓練データに含めることで、敵対的な画像を見分けられるように訓練するという取り組みだという。「こうすることで、ネットワークは敵対的なサンプルに対してある程度堅牢になることを『学習』するのです」と彼は言う。

機械学習の中核にこのような欠陥が見つかったことは驚くべきことではないとフェルナンデス氏は言う。システムは通常、普及するまで十分にテストされないからだ。「機械学習がより普及するにつれて、セキュリティ研究者が敵対的な視点から機械学習を検討し始め、悪用可能なものを発見したのは当然のことです」と彼は言う。

これは技術的な欠陥だけでなく、哲学的な前提でもあります。まず、機械学習開発者は、攻撃者が自由にデータを操作して有利に働かせることができるにもかかわらず、学習データとテストデータが類似していると想定しています。そして第二に、ニューラルネットワークは人間と同じように考えると想定していましたが、実際にはそうではありません。ニューラルネットワークがおもちゃのカメを識別するために使用する要素は、人間が求めるものとは異なっており、そのギャップこそがこれらの攻撃の根源なのです。「ニューラルネットワークは人間の脳の極めて粗雑な近似です」とフェルナンデスは言います。「ニューラルネットワークが人間と同じように動作すると考えるのは、ニューラルネットワークを理解するための最良の方法ではないかもしれません。」

この記事はWIRED UKで最初に公開されました。

続きを読む