WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。
革命が起ころうとしています。それは縞模様でわかるでしょう。
今年初め、バークレー大学の研究者グループが2本の動画を公開しました。1本目では、馬が金網フェンスの後ろを小走りに歩いています。2本目の動画では、馬が突然シマウマの白黒模様を帯びています。完璧な仕上がりではありませんが、縞模様が馬にぴったりとフィットしているため、馬の系図が混乱を招いています。
馬をシマウマに変えるというのはなかなか面白いスタントですが、それだけではありません。これは、機械学習アルゴリズムが現実を書き換える力がますます高まっていることを示すものでもあります。例えば、他の研究者たちは、ゼブラフィケーションツールを使って、ツキノワグマの写真をパンダの、リンゴをオレンジの、猫を犬の、本物そっくりの写真に変えています。あるRedditユーザーは、別の機械学習アルゴリズムを使ってポルノビデオを編集し、有名人の顔を登場させています。Lyrebirdという新興スタートアップでは、機械学習の専門家たちが1分間の人の声のサンプルから、説得力のある音声を合成しています。そして、Adobeの人工知能プラットフォーム「Sensei」を開発しているエンジニアたちは、画期的な動画、写真、音声編集ツールに機械学習を組み込んでいます。これらのプロジェクトは、起源も目的も大きく異なりますが、共通点が1つあります。それは、現実世界の映像に驚くほど近い人工的なシーンとサウンドを生み出しているということです。AI生成メディアを使ったこれまでの実験とは異なり、これらの映像と音はリアルです。
この変化の根底にあるテクノロジーは、間もなく私たちを新たな創造の領域へと押し進め、今日のアーティストの能力を増幅させ、アマチュアを熟練のプロの域にまで引き上げるでしょう。私たちは、機械の成果物にまでその傘を広げた、創造性の新たな定義を模索することになるでしょう。しかし、このブームには暗い側面も存在します。AIが生成したコンテンツの一部は、人々を欺くために利用され、アルゴリズムによるフェイクニュースの氾濫への懸念が高まります。画像が加工されているかどうかという古くからの議論は、テキストを含むあらゆるコンテンツの起源に関する新たな議論に取って代わられるでしょう。もしまだ考えていないのであれば、あなたはきっとこう思うでしょう。アルバム/テレビシリーズ/クリックベイト記事の制作において、人間はどのような役割を果たしたのだろうか?
AI生成コンテンツで溢れる世界は、ユートピアでありながらディストピアでもある典型的な例です。混沌としていて、美しく、そして既に現実のものとなっています。
現在、現実世界に似た音声や動画を制作する方法は2つあります。1つ目は、カメラとマイクを使って、例えば月面着陸のような瞬間を記録することです。2つ目は、多くの場合多額の費用をかけて、人間の才能を駆使して複製を制作することです。もし月面着陸が偽物だったとしたら、熟練した撮影チームがニール・アームストロングの月面での戯れを綿密に演出しなければならなかったでしょう。機械学習アルゴリズムは今や3つ目の選択肢となり、ある程度の技術的知識があれば誰でも既存のコンテンツをアルゴリズム的にリミックスして新しい素材を生成できるようになりました。
当初、ディープラーニングで生成されたコンテンツはフォトリアリズムを志向したものではありませんでした。2015年にリリースされたGoogleの「Deep Dreams」は、ディープラーニングを用いてサイケデリックな風景や多眼のグロテスクな画像を大量に生成した初期の例でした。2016年には、人気の写真編集アプリ「Prisma」がディープラーニングを活用し、芸術的な写真フィルターを実現しました。例えば、スナップショットをモンドリアンやムンクへのオマージュ作品に加工するといった機能です。Prismaの基盤となる技術は「スタイル・トランスファー」と呼ばれ、ある画像(例えば「叫び」)のスタイルを別の画像に適用するものです。
現在、スタイル転送を支えるアルゴリズムの精度が向上しつつあり、「不気味の谷」現象の終焉を告げている。不気味の谷とは、コンピューターで生成されたリアルな人間が典型的に引き起こす不安感のことだ。以前のやや粗雑な効果とは対照的に、ゼブラフィケーションなどのトリックが、この谷の低地を埋め始めている。コーネル大学のカビタ・バラ研究室の研究を考えてみよう。同研究室では、ディープラーニングによって、きらきらと輝く夜の雰囲気など、ある写真のスタイルを、くすんだ大都市のスナップショットに吹き込み、人間のレビュアーを騙して、合成された場所が本物だと思わせることができる。美的品質を識別する人工知能の可能性に着想を得たバラはこのアイデアを基盤に、Grokstyleという会社を共同設立した。例えば、友人のソファにあるクッションが気に入ったとか、雑誌の見開きページが目に留まったとしよう。Grokstyleのアルゴリズムに画像を入力すれば、その外観を持つ類似の物体が浮かび上がってくる。

「こうしたテクノロジーの良いところは、デザインとスタイルを民主化してくれることです」とバラは言う。「私は技術者です。美とスタイルは大切にしていますが、それをうまく生み出すことはできません。だから、この作品を通して、それを利用できるようにしてくれるんです。そして、それを他の人にも使えるようにすることで、人々が美と戯れることができるようになるのは、本当に嬉しいことです。特定の分野に恵まれていないからといって、退屈な世界に生きなければならないわけではありません。」
アドビでは、機械学習は10年以上も前から同社のクリエイティブ製品に活用されてきましたが、AIが変革をもたらすようになったのはごく最近のことです。10月には、同社のAI技術群「Sensei」に取り組んでいるエンジニアたちが、将来有望な動画編集ツール「Adobe Cloak」を披露しました。このツールを使えば、例えば動画クリップから街灯をシームレスに削除できます。これは、経験豊富な人間の編集者にとっては通常、非常に困難な作業です。また、「Project Puppetron」と呼ばれる別の実験では、動画に芸術的なスタイルをリアルタイムで適用します。例えば、人物のライブ映像を取り込み、おしゃべりなブロンズ像や手描きの漫画のようにレンダリングできます。「基本的に、ウェブカメラやカメラの前でパフォーマンスを行い、それをリアルタイムでアニメーションに変換できるのです」と、アドビリサーチのシニアプリンシパルサイエンティスト兼ディレクターのジョン・ブラントは述べています。(Senseiの実験が必ずしも製品化されるとは限らないのです。)
機械学習は、顔のパーツや前景と背景の違いを従来のコンピュータービジョンのアプローチよりも正確に理解できるため、これらのプロジェクトを可能にします。Senseiのツールにより、アーティストは素材そのものではなく、コンセプトに基づいて作業を進めることができます。「Photoshopはピクセルの操作に優れていますが、人々が目指しているのは、ピクセルによって表現されるコンテンツです」とブラント氏は説明します。
それは良いことだ。アーティストが画面上の個々のドットを操作して時間を無駄にすることがなくなると、生産性が向上し、ひいては創意工夫も深まるだろうとブラントは言う。「新しい芸術形態が生まれる可能性にワクワクしています。きっとそうなるでしょう。」
しかし、この創造性の爆発が、いかにして大きな間違いを犯すかは容易に想像できる。シカゴ大学の大学院生、ユアンシュン・ヤオ氏にとって、機械学習の危険性を探る最近のプロジェクトに着手するきっかけとなったのは、あるフェイク動画だった。彼はAIが生成した、非常にリアルなバラク・オバマ氏のスピーチ動画を再生し、こう考えた。「テキストでも同じようなことができるだろうか?」
ほとんどの読者を騙すには、文章構成がほぼ完璧でなければならないため、彼はまずYelpやAmazonなどのプラットフォームの偽のオンラインレビューという、比較的簡単なターゲットから始めた。レビューは数文で済むこともあり、読者は質の高い文章を期待していない。そこで彼と同僚は、Yelp風の約5文の宣伝文句を吐き出すニューラルネットワークを設計した。すると、「間違いなく私たちのお気に入りの場所!」や「弟と行ってベジタリアンパスタを食べましたが、美味しかった」といった内容のレビューが大量に生成された。彼は人間に、それらが本物か偽物かを推測するよう依頼した。すると案の定、人間はしばしば騙された。
マイクロタスクのマーケットプレイスで偽レビューが1件あたり10ドルから50ドル程度で販売されていることから、ヤオ氏は、やる気のあるエンジニアがプロセスの自動化を試み、価格が下落し、偽レビューが蔓延するのは時間の問題だと考えていた。(彼はまた、プラットフォームを偽コンテンツから守るためにニューラルネットワークを活用する方法も研究し、ある程度の成功を収めている。)「私たちの知る限り、そのようなシステムはまだ存在しません」とヤオ氏は言う。「しかし、5年か10年後には、AIが生成したコンテンツに囲まれるようになるかもしれません」。彼の次の目標は? 説得力のあるニュース記事を生成することだ。
動画の進歩は加速するかもしれない。偽写真・動画の検出専門家でダートマス大学教授のハニー・ファリド氏は、バイラルコンテンツの拡散速度と検証プロセスの遅さを懸念している。ファリド氏は、トランプ大統領が北朝鮮の核による壊滅を命じるという説得力のある偽動画が拡散し、 AI時代版『宇宙戦争』のようにパニックを巻き起こす近未来を想像している。「ヒステリックな予測はしないようにしていますが、突飛な話ではないと思います」と彼は言う。「これは現代社会で起こり得ることです」
音声合成スタートアップ企業ライアバードの製品である偽トランプ演説はすでにインターネット上で出回っている。ただし、同社が公開した音声クリップでは、トランプ氏はボタンに指を触れず、ライアバードを称賛するにとどまっている。同社の共同創業者兼CEOのホセ・ソテロ氏は、この技術は避けられないため、倫理ガイドラインを定めた上で、自分と同僚が実践する方がよいと主張する。ソテロ氏は、現時点での最善の防御策は、機械学習の可能性に対する認識を高めることだと考えている。「私が月にいる写真を見たら、おそらく何らかの画像編集ソフトウェアだと思うでしょう」とソテロ氏は言う。「しかし、親友があなたの悪口を言っている説得力のある音声を聞いたら、心配になるかもしれません。これは本当に新しい技術であり、非常に難しい問題です。」
AI生成コンテンツの到来を止めることは、おそらく不可能でしょう。たとえ私たちがそうしたいと思ったとしても。最悪の場合、詐欺師や政治工作員が機械学習アルゴリズムを駆使して、膨大な量の偽情報を生成するでしょう。ソーシャルネットワークは注目を集めるコンテンツを選択的に発信するため、これらのシステムの出力は、好感度、クリック率、シェア率を最大限に高めるものへと進化していくでしょう。
しかし、AI生成コンテンツは、その最善の策として、私たちの社会構造を様々な形で癒す可能性を秘めている。ライアバードのソテロ氏は、自社の技術によって、筋萎縮性側索硬化症(ALS)や癌などの病気で声を失った人々の発声機能を回復させることを夢見ている。バークレーで撮影された、あの馬からシマウマへの変身映像は?あれは、自動運転車の訓練方法を改善するための取り組みの副産物だった。多くの場合、運転ソフトウェアはまず仮想環境で訓練されるが、『グランド・セフト・オート』のような世界は現実世界と大まかにしか似ていない。シマウマ化アルゴリズムは、仮想環境と現実世界の距離を縮め、最終的には自動運転車の安全性を高めることを目的として設計された。
これらはAIの両刃の剣です。AIは進化するにつれて、人間の行動をますます模倣するようになります。そして最終的には、善と悪を等しく表現できる、あまりにも人間らしくなってしまうのです。