英国のユニコーン企業シンセシアは、スーツを着た幹部からサンタクロースまで、様々なデジタルアバターを顧客に提供している。しかし、アバターが誤情報の拡散に利用されるのを防ぐのに苦労している。

イラスト: traffic_analyzer/Getty Images
エリカはYouTubeで、マサチューセッツ州で離婚弁護士を雇うのにどれくらいの費用がかかるかを詳しく説明しています。ダス医師は英国で民間医療保険を販売しています。一方、ジェイソンはFacebookで、フランスと旧植民地マリの関係に関する偽情報を拡散しています。そしてゲイリーは、手の込んだ仮想通貨詐欺の一環として、CEOになりすましていたところを逮捕されました。
これらの人物は実在しない。少なくとも、実際にはそうではない。彼らはディープフェイクであり、SynthesiaのCEO、ビクター・リパルベリによって世に放たれた。ロンドンに拠点を置く生成AI企業であるSynthesiaは、約150人のデジタルヒューマンを雇用している。Synthesiaのクライアントが、この豪華なキャストに台本を読んでもらうには、命を吹き込んでほしいテキストを入力して「生成」ボタンを押すだけだ。
リパルベリ氏がこれらのアバターに抱いているビジョンは、Microsoft PowerPointの派手な代替手段として機能し、企業研修や社内マニュアルにちょっとした華やかさを加えることだ。しかし、Synthesiaのディープフェイクは企業以外の分野でも人気を博している。物議を醸すユーザーたちの注目を集め、彼らはアバターを使って複数の大陸で偽情報や暗号通貨詐欺を拡散させているのだ。
「私たちはたくさんのことを行っています。完璧だとは言いません」とリパルベリ氏は言う。「常に進化し続ける仕事なのです。」
リパルベリ氏が直面している課題は、これから起こることを予兆するものだ。企業が合成メディアを商業化し、生成AIをニッチな製品からすぐに使えるツールへと変貌させるにつれ、悪意ある者たちがつけ込むだろう。業界の最前線に立つ企業は、こうした事態を阻止するためにどこまで踏み込むのか、そして自らが生み出したAIの責任を取る覚悟があるのか、それともAIを配信するプラットフォームに責任を押し付ける覚悟があるのかを見極める必要がある。
「画像、動画、音声の制作の全過程を通じて、責任が何であるかを決めなければならない時が来ています」と、動画の倫理的使用に重点を置く非営利団体ウィットネスの事務局長サム・グレゴリー氏は語る。
Synthesia ソフトウェア。
Synthesiaは、生成AI業界の最先端と常に考えられてきたわけではない。リパーベリ氏と共同創業者たちは6年間、脚光を浴びることなく、カメラ機材を使わずに動画を制作する方法を発明するという使命を追い求めてきた。2017年当時、この技術に興味を持つ投資家は多くなかったと、現在31歳のリパーベリ氏は語る。しかし、そこにChatGPTが登場した。デンマーク出身のCEOは、2014年からアルファベット傘下でChatGPTの競合企業を開発中のDeepMindや、画像生成ツールStable Diffusionを開発するスタートアップStability AIといった企業の創業者たちと肩を並べ、ロンドンで急成長を遂げるAIエリートの仲間入りを果たした。
6月、Synthesiaは評価額10億ドルの資金調達ラウンドを発表しました。これはOpenAIが5月に獲得した290億ドルには遠く及びませんが、それでも投資家がSynthesiaの事業に最後に投資した2年前と比較すると、7億ドルという巨額の増加です。
リパルベリとはZoomで会った。彼はデンマークの島にある家族の別荘から電話に参加し、背後には幼少期の二段ベッドが映っていた。コペンハーゲンで育ったリパルベリは、ゲームとエレクトロニックミュージックを通してコンピューターに興味を持つようになった。振り返ってみると、クラブや音楽業界では知られていないデンマークで、ラップトップ1台だけでテクノを制作できたことが、今の彼の活動に大きな影響を与えていると彼は考えている。「ハリウッドに住んでいて父親が音楽業界で働いているかどうかよりも、誰が素晴らしい音楽を作ってSoundCloudやYouTubeにアップロードできるかの方が重要だった」と彼は言う。同じ境地に到達するには、ビデオはまだ多くの機材を必要とするため、長い道のりを歩む必要があると彼は考えている。「制作に非常に費用がかかるため、本質的に制約が多いのです。」
卒業後、リパルベリはデンマークのスタートアップ業界に足を踏み入れ、会計ソフトウェアなど、彼自身が「バニラ」と呼ぶ技術を開発しました。しかし、満足できず、よりSF的な何かを求めてロンドンへ移住しました。暗号資産やVRプロジェクトに携わった後、ディープフェイクについて読み始め、その可能性に魅了されました。2017年、同じデンマーク出身のステフェン・チェリルド、そしてコンピュータービジョンの教授であるルルド・アガピトとマティアス・ニースナーと共に、Synthesiaを設立しました。
過去6年間で、同社は目もくらむほどのアバターライブラリを構築してきた。性別、肌の色、制服の種類も豊富で、ヒップスターやコールセンターの従業員もいる。サンタクロースも様々な民族のキャラクターが登場する。Synthesiaのプラットフォームでは、顧客はアバターの話す言語やアクセント、さらには脚本のどの場面で眉を上げるかまでカスタマイズできる。リパルベリ氏によると、お気に入りはアレックスだという。20代半ばに見え、ミディアムレングスの茶色の髪を持つ、典型的な美人だが目立たないアバターだ。アレックスの人間バージョンが、どこかの街を徘徊しているかもしれない。Synthesiaは、自社の制作スタジオで撮影した俳優の映像を使ってアルゴリズムを学習させている。
こうしたデータを所有していることは、投資家にとって大きな魅力だ。「基本的に、彼らのアルゴリズムに必要なのは3Dデータです。なぜなら、人間の動きや話し方を理解することが全てだからです」と、Synthesiaの最新の資金調達ラウンドを主導したベンチャーキャピタル会社Accelのパートナー、フィリップ・ボッテリ氏は語る。「そしてそのためには、入手できない非常に特殊なデータセットが必要なのです。」
リパーベリ氏は現在、画期的な技術のビジョンを語りつつ、同時に既存の顧客獲得という骨の折れる仕事もこなせる、稀有なタイプの創業者だ。「目新しさよりも実用性」はSynthesiaの社内スローガンだとリパーベリ氏は説明する。「クールな技術デモを作るだけでなく、実際のビジネス価値のある、現実の市場に向けた技術を開発することが非常に重要です」。現在、同社は5万人の顧客を抱えているという。しかしリパーベリ氏は、誰もがテキストを使って動画のシーンを説明し、AIがそれを生成するのを見ることができる技術の開発も目指している。「映画のセットで人々が目の前にいて、彼らに何をすべきかを指示しなければならない状況を想像してみてください」とリパーベリ氏は言う。「私は、この技術がそういう風に機能すると考えています」
しかし、Synthesiaの技術はまだ発展途上だ。現在、研究開発チームはリップバーベリ氏が「基礎AI技術」と呼ぶものに注力している。同社のアバターは目に見えない拘束衣に閉じ込められ、腕を動かすことができない。そして当然のことながら、偽の人間を野に放つことには問題がないわけではない。数年前から、Synthesiaのアバター、特に同社が「ジェイソン」と呼ぶ威厳のあるディープフェイクは、ソーシャルメディアでニュースキャスターになりすまし、偽情報を拡散するために書かれた台本を読んでいた。
2021年12月、ジェイソンはマリの政治に関連するFacebookページに登場し、ファクトチェッカーがフランスの地方政治への関与について虚偽だと指摘した。そして2022年後半、彼は再びそこに登場し、銃暴力に対するアメリカの怠慢を非難した。ソーシャルメディア分析会社Graphikaは、この動画が親中国のボットネットワークに結び付けられていることを確認した。今年1月には、Synthesiaのアバターがブルキナファソの軍事クーデターへの支持を表明しているのが目撃された。そして3月までには、ファクトチェッカーがベネズエラで拡散している別のSynthesia関連の動画について警鐘を鳴らしていた。今回は、石油資源の豊富なこの国に貧困が蔓延しているという主張は誇張されていると主張するアバター、ダレンだった。この動画は、ニコラス・マドゥロ大統領を支持するアカウントによって拡散された。4月には、カリフォルニア州の金融規制当局が、アバターのゲイリーが正当なCEOを装って暗号詐欺に利用されていることを発見した。

Maxpread Technologies CEO による偽情報キャンペーン。
スクリーンショット: カリフォルニアDFPIこれまでのところ、Synthesiaはこれらの動画の責任を認めており、リパーベリ氏は、問題が明るみに出てから同社は対策を講じてきたと主張している。「最近、ニュースコンテンツはエンタープライズアカウントでのみ許可するという決定を下しました」とリパーベリ氏は述べ、エンタープライズアカウントを運営する人物は必ず彼のチームによって身元確認を受ける必要があると説明した。リパーベリ氏によると、Synthesiaが雇用するコンテンツモデレーターの数は今年4倍以上に増加し、2月のわずか4人から230人の社員の「約」10%にまで急増した。しかし、リパーベリ氏は、AIの導入によって、コンテンツモデレーションの従来の受動的なやり方について、業界はより広範な見直しを迫られていると考えている。
「コンテンツのモデレーションは伝統的に、配信時点で行われてきました。Microsoft Officeは、恐ろしい内容に関するPowerPointを作成したり、Microsoft Wordでひどいマニフェストを作成したりすることを妨げたことは一度もありません」と彼は言います。「しかし、これらのテクノロジーが非常に強力になったため、現在、モデレーションは作成の段階へと移行しつつあり、私たちもまさにそれを行っています。」
Synthesiaは、利用規約に違反するコンテンツの作成をユーザーからブロックしているとグレゴリー氏は説明する。悪意のある人物が悪意のあるスクリプトを書くことは可能かもしれないが、人間とアルゴリズムによるモデレーションシステムを組み合わせることで、ディープフェイクによる読み取りを阻止できると彼は主張する。利用規約では、アバターを政治、宗教、人種、セクシュアリティについて話すために使用してはならないとされている。「人権活動家として、私が望む以上に制限が厳しい」とWitnessのグレゴリー氏は言う。しかし、Synthesiaはソーシャルメディアプラットフォームのような言論の自由の責任を負っていないため、ある意味では制限的な規約は賢明なのかもしれないと彼は付け加える。「なぜなら、Synthesiaは、コンテンツを適切にモデレートすることができず、偽情報に利用される可能性のある幅広い政治的・社会的な発言についてコンテンツモデレートすることは私たちの主な業務ではないと言っているからです。」
リパルベリ氏が夢見るアバターを実現するには、コンテンツモデレーションを適切に行うことが鍵となる。彼は、合成動画が、印刷物からオンラインへと移行したテキストの進化を反映することを望んでいる。「最初のウェブサイトは、画面上の新聞のような見た目でした。当時の人々はそう想像していたからです」と彼は言う。「しかし、ウェブサイトで起こった出来事は、人々が実際にリンク、音声、動画を配置し、一人ひとりに合わせたパーソナライズされたニュースフィードを作成できることに気づいたことです。動画にも同じことが起こると思います。」
この進化は、Synthesiaのディープフェイクにとって何を意味するのでしょうか?「パーソナライゼーションのような要素は当然のことになるでしょう。そして、インタラクティブ性も大きな役割を果たすようになると思います。もしかしたら、動画を見ているというより、AIとZoomで通話しているような感覚になるかもしれません。」

モーガン・ミーカーはWIREDのシニアライターで、ロンドンを拠点にヨーロッパとヨーロッパビジネスを取材しています。2023年にはBSMEアワードの最優秀賞を受賞し、WIREDの受賞歴のある調査シリーズ「Inside the Suspicion Machine」の制作チームに所属していました。2021年にWIREDに入社する前は…続きを読む