これらの新しいトリックはディープフェイク動画を凌駕する可能性がある—今のところ

これらの新しいトリックはディープフェイク動画を凌駕する可能性がある—今のところ

ビデオが本物か AI によって生成されたものか、自分の目で見分けるのはすぐに難しくなるでしょうが、新しいアルゴリズムは偽造者より一歩も二歩も先を進んでいます。

画像には頭、顔、人間、ヘルメット、衣服、アパレルが含まれている可能性があります

アリッサ・フット、オリヴィエ・ドゥリエリー/ゲッティイメージズ

コンピューター科学者のシウェイ・リュウ氏は数週間にわたり、チームのディープフェイク動画を、胸を締め付けるような不安感を抱きながら見ていた。機械学習アルゴリズムによって作られたこれらの偽造動画は、有名人が実際にはしていないことをしている様子を映し出していた。リュウ氏には不気味に感じられたが、それは単に捏造だと分かっていたからだけではない。「何かおかしい」と彼は思ったことを思い出す。「でも、その感覚がどこから来るのか、突き止めるのは非常に難しい」

ついにある日、幼少期の記憶が彼の脳裏に蘇ってきた。多くの子供たちと同じように、彼も目を開いた友達とにらめっこをしていた。「いつも負けていたんだ」と彼は言う。「だって、彼らの顔を見ても瞬きをしないから、すごく落ち着かない気分になるんだ」

こうした研究室で作られたディープフェイクも、彼に同じような不快感を与えていることに彼は気づいた。彼は、実際の人間と同じ速さで目を開いたり閉じたりしない映画スターたちとのにらめっこに負けていたのだ。

その理由を解明するため、アルバニー大学の教授であるリュ氏と彼のチームは、偽画像を作成した「ディープフェイク」と呼ばれるソフトウェアのあらゆるステップを徹底的に調査した。

ディープフェイクプログラムは、特定の人物(あなた、あなたの元恋人、金正恩氏など)の画像を大量に取り込み、様々な角度、様々な表情、様々な言葉を発する人物を捉えます。アルゴリズムは人物の外見を学習し、その知識を合成して、その人物が実際にはしていない行動を見せる動画を作成します。ポルノ動画を作る。スティーブン・コルベアにジョン・オリバーが実際に発した言葉を言わせる。フェイク動画に関する大統領の警告を発する。

これらの偽物は、スマートフォンの画面で数秒見れば説得力があるように見えるものの、(まだ)完璧ではない。不気味なほど常に目が開いているなど、作成プロセスの欠陥による兆候が見られる。DeepFakeの内部構造を調べた結果、リュウ氏はプログラムが学習に使用した画像に目を閉じている画像があまり含まれていないことに気づいた(そもそも、まばたきをしている自撮り写真は保存しないだろう)。「これがバイアスになる」と彼は言う。ニューラルネットワークはまばたきを捉えないのだ。リュウ氏の論文によると、プログラムは通常の呼吸数や脈拍といった「人間に固有の生理的シグナル」も見逃す可能性があるという。(絶え間ない実存的苦痛を示す自律神経系の兆候は含まれていない。)この研究は特にこの特定のソフトウェアで作成された動画に焦点を当てているが、大量のスナップショットであっても人間の肉体的な経験を適切に捉えられない可能性があることは周知の事実であり、そのため、それらの画像で学習させたソフトウェアには欠陥があることが判明する可能性がある。

リュウの瞬きする告白は、多くの偽物の存在を露呈させた。しかし、彼のチームが論文の草稿をオンライン公開してから数週間後、匿名のメールが届いた。そこには、スターたちがより自然に目を開閉する、高度に偽造されたYouTube動画へのリンクが貼られていた。偽コンテンツの制作者たちは進化していたのだ。

もちろん、そうでした。リュ氏がThe Conversationの記事で指摘したように、「まばたきは、目を閉じた顔画像や訓練用の動画シーケンスを使うことで、ディープフェイク動画に追加できます」。自分の特徴がわかってしまえば、それを避けるのは「単なる」技術的な問題です。つまり、ディープフェイクは作成者と検出者の間の軍拡競争になる可能性が高い(あるいは今後も続くだろう)。しかし、リュ氏のような研究は、少なくともフェイク作成者の作業を困難にする可能性があります。「私たちはハードルを上げようとしているんです」と彼は言います。「プロセスをより困難にし、より時間がかかるようにしたいんです。」

だって今ならね?すごく簡単よ。ソフトウェアをダウンロードして、「ヒラリー・クリントン」をグーグルで検索すれば、何万枚もの画像が手に入る。それをディープフェイクのパイプラインに流し込む。ディープフェイクはそれらを分解し、学習する。完全に自給自足というわけではないけれど、少し手を加えるだけで、新しい、十分にリアルなものを育み、生み出す。

「本当にぼやけているんです」とリュウは言う。彼が言っているのは画像のことではない。「真実と虚偽の境界線がぼやけているんです」と彼は説明する。

これは、最近インターネットを使っている人にとっては当然のことながら、同時に懸念すべき事態です。しかし、軍と諜報機関にとっては特に懸念すべき事態です。だからこそ、リュウ氏の研究は、他の研究と同様に、国防高等研究計画局(DARPA)の「MediFor(メディアフォレンジック)」プログラムによって資金提供を受けているのです。

MediForは、偽造行為が激化していることをDARPAが認識した2016年に発足した。このプロジェクトの目的は、3段階の特徴を捉え、それらを統合し、画像や動画の「完全性スコア」を算出する自動システムの開発だ。最初の段階では、特定のカメラ機種特有のノイズや圧縮アーティファクトといった、デジタル特有の汚れを探る。2番目の段階は物理的なレベルだ。人物の顔の照明が間違っているかもしれない、ランプの位置を考えると反射の仕方が間違っているかもしれない、といった具合だ。最後に「意味レベル」、つまりメディアを真実だとわかっている事実と比較する。例えば、サッカーの試合の動画が2018年10月9日(火)午後2時にセントラルパークで撮影されたと主張している場合、空の状態はアーカイブの天気予報と一致するだろうか?これらのレベルをすべて積み重ねれば、完全性スコアが得られる。MediForの終了までに、DARPAは大規模にテストできるプロトタイプシステムを完成させたいと考えている。

しかし、時計は刻々と進んでいます(それとも、これは単に時間計測データを学習させたAIが生成した繰り返し音なのでしょうか?)。「数年後には、出来事の捏造のようなものが見られるようになるかもしれません」と、DARPAのプログラムマネージャー、マット・トゥレク氏は言います。「操作されたのは一枚の画像や動画だけではありません。一貫したメッセージを伝えようとする一連の画像や動画が出てくるのです。」

ロスアラモス国立研究所のサイバー科学者ジャストン・ムーア氏は、もう少し鮮明な未来像を描いている。例えば、アルゴリズムにムーア氏がドラッグストアを強盗している写真が欲しいと指示すると、その写真をその店の防犯カメラの映像に埋め込み、彼を刑務所送りにする、といった具合だ。つまり、証拠基準が捏造された時代に合わせて進化しない(あるいは進化できない)場合、簡単に罪を着せられてしまうのではないかとムーア氏は懸念しているのだ。そして、裁判所が映像データに頼れないと判断した場合、正当な証拠も却下される可能性がある。

論理的に考えれば、私たちの写真に言葉の価値が全くなくなる可能性がある。「もしかしたら、写真の証拠を一切信じなくなっているのかもしれません」と彼は言う。「そんな世界には私は住​​みたくないんです」

その世界は全くあり得ないわけではない。そしてムーア氏によると、問題は顔の入れ替えだけにとどまらない。「アルゴリズムは実在の人物ではない顔の画像を作り出したり、馬をシマウマに変えるなど、奇妙な方法で画像を変換したりできる」とムーア氏は言う。画像の一部を「想像で消し去る」ことや、動画から前景の物体を削除することもできるのだ。

もしかしたら、偽造品への対策は、人間がより良い偽造品を作るのと同じ速さではできないかもしれない。しかし、できるかもしれない。その可能性こそが、ムーア率いるチームのデジタルフォレンジック研究の原動力となっている。ロスアラモス国立研究所のプログラムは、サイバーシステム、情報システム、理論生物学、生物物理学の各部門の専門知識を結集したもので、DARPAのプログラムよりも歴史が浅く、発足からわずか1年ほどだ。あるアプローチは「圧縮性」、つまり画像に含まれる情報が見た目ほど多くない場合に焦点を当てている。「基本的に、AIによる画像生成には、生成できる情報の種類が限られているという考えから始めています」とムーアは語る。「ですから、一見すると非常に複雑に見える画像でも、そこにはかなり反復可能な構造が存在します」。ピクセルが再利用されるということは、実際にはそれほど多くの情報が含まれていないことを意味する

彼らはまた、スパースコーディングアルゴリズムを用いて、一種のマッチングゲームを行っている。例えば、2つのコレクションがあるとしよう。1つは実際の写真の束、もう1つは特定のAIが作り出した表現の束だ。アルゴリズムはそれらを精査し、ムーア氏が「視覚要素の辞書」と呼ぶものを構築する。これは、架空の写真同士の共通点と、架空のショットに独自に備わっている点をまとめたものだ。ムーア氏の友人がオバマ大統領の写真をリツイートし、ムーア氏がそれがAIによるものではないかと考えた場合、彼はその写真をプログラムに通して、2つの辞書(本物と偽物)のどちらが写真を適切に定義しているかを調べることができる。

世界有数のスーパーコンピューターを有するロスアラモス研究所が、このプログラムに資源を投入しているのは、誰かがムーア氏を強盗の罪で陥れようとするかもしれないからという理由だけではない。同研究所の使命は「科学の卓越性を通じて国家安全保障上の課題を解決すること」だ。そして、その中核を成すのは核セキュリティ、つまり爆弾が不発弾となるべき時に爆発しないようにし、また、爆発すべき時に爆発させる(どうかおやめください)こと、そして核不拡散の支援である。これら全てには機械学習に関する一般的な専門知識が求められる。ムーア氏が言うように、機械学習は「少量のデータセットから強力な推論を行う」のに役立つからだ。

しかしそれ以上に、ロスアラモスのような施設は、自らの目で見たものを信じる、あるいはより現実的に言えば、信じるべきではない時を見極められる必要がある。なぜなら、もしある国が核兵器を動員したり実験したりしている衛星画像を見たらどうなるだろうか?誰かがセンサーの測定値を合成したらどうなるだろうか?

それは恐ろしい未来だ。ムーアやリュウのような研究者が理想的には回避できるだろう。しかし、その絶望的な世界では、百聞は一見に如かず、一見具体的な測定値は単なる作り物に過ぎない。デジタルなものはすべて疑わしい。

しかし、「疑っている」というのはおそらく間違った表現でしょう。多くの人は偽情報を額面通りに受け取ります(ヒューストンのサメの写真を覚えていますか?)。特に、その内容が自分の考えと合致する場合はなおさらです。「人は自分が信じたいと思ったものを信じてしまうのです」とムーア氏は言います。

これは、国家安全保障分野よりも、ニュースを日常的に消費する一般大衆においてより当てはまるだろう。そして、我々のような愚か者の間での誤情報の拡散を阻止するため、DARPAはソーシャルメディアプラットフォームとの将来的な提携を検討している。金正恩がマカレナを踊っている動画の信憑性が低いとユーザーが判断できるよう支援するためだ。トゥレック氏が指摘するように、ソーシャルメディアは動画自体の拡散と同じくらい速く、その動画を論破する記事も拡散する可能性がある。

しかし、本当にそうなるのでしょうか? 虚構を暴くのは複雑です(もっとも、伝承ほど効果的ではないですが)。そして、人々は虚構に対する考えを変える前に、まず事実と向き合わなければなりません。

しかし、たとえビデオの真実性について大衆の考えを変えることは誰にもできないとしても、誰がミサイルを移動させているのか、あるいは誰かを殺害しているのかといった政治的、法的決定を下す人々が、現実世界と AI の夢の違いを判別する方法を機械で生み出そうとすることは重要だ。


WIREDのその他の素晴らしい記事

  • 遺伝子検査はたくさんあるのに、説明してくれる人はほとんどいない
  • テクノロジーがあなたよりもあなたのことをよく知っているとき
  • この魔法のサングラスはあなたの周りのすべてのスクリーンをブロックします
  • ネット上の陰謀論について知っておくべきこと
  • 過去25年間の25のお気に入り機能
  • もっと知りたいですか?毎日のニュースレターに登録して、最新の素晴らしい記事を見逃さないでください。
続きを読む