『ザ・シンプソンズ』は声優をAIに置き換えることができるのか?

『ザ・シンプソンズ』は声優をAIに置き換えることができるのか?

ディープフェイク技術は限られた量のデータから説得力のあるレプリカを作ることができ、番組には30年分の音声が使われている。 

画像には人物、グラフィック、アート、衣類、アパレルが含まれている可能性があります

写真: ©Fox/Everett Collection

2015年5月、 シンプソンズの声優ハリー・シアラー(信じられないことに、ミスター・バーンズとウェイロン・スミザーズの両方を含む、数多くの主要キャラクターを演じている)が、番組を降板することを発表しました。

当時、アニメシリーズは25年以上放送されており、声優の出演料は1998年の1エピソード3万ドルから2008年以降は40万ドルにまで上昇していました。しかし、『ザ・シンプソンズ』の制作会社であるフォックスはコスト削減を検討しており、声優の報酬を30%削減しなければシリーズを打ち切ると脅迫していました。

大半は同意したが、番組の質の低下を批判していたシアラーは契約を拒否した。20年以上もの間、彼は黄金の手錠から解放され、自由と自分の仕事に打ち込む時間を取り戻したかったのだ。ショーランナーのアル・ジーンは、シアラーの象徴的なキャラクターたち(スキナー校長、ネッド・フランダース、オットー・マンも含む)は再キャストされると述べた。

しかし、シンプソンズを止めることはできない。数ヵ月後、シアラーは折れて新しい契約を結んだ。この番組は、アニメにおける声優の代替可能性についてよくジョークを飛ばすが、番組が40年目に突入する中で、その存続に対する最大の脅威となり得るのは、笑いの背後にある象徴的な声だ。スプリングフィールドの住民を演じる俳優たちは引退年齢に近づいており、ほとんどが60代か70代で、シアラーは77歳だ。そしてもうやりたくないとすぐに決めるかもしれない。彼らには確かにお金が必要ない。新しいエピソードの出演料と古いエピソードの再放送からの残余金で、彼らは何千万ドルものお金を抱えているのだ。

しかし、もしかしたら番組のプロデューサーはもう声優を必要としていないのかもしれません。最近のエピソードでは、バートの長年の苦難を乗り越えてきた教師、エドナ・クラバペルが、2013年に声優のマーシャ・ウォレスが亡くなったことで番組から引退していましたが、過去のエピソードで録音された音声を使って、最後の別れのシーンで再び登場しました。

計算能力の進歩により、この原理をあらゆるキャラクターに応用することが可能になりました。ディープフェイク技術は、限られた量の学習データから説得力のあるそっくりさんを作り出すことができ、番組のプロデューサーは30年分の音声データも活用しています。では、シンプソンズは声優をAIに置き換えることができるのでしょうか?

「 『ザ・シンプソンズ』のエピソードを、登場人物の声をリアルに再現した作品にすることは確かに可能です」と、カナダを拠点とするAI研究者でメディアプロデューサーのティム・マクスマイサーズ氏は語る。同氏は、誰の声も真似できるように訓練できる音声モデルを開発した。「それが同じように面白いかどうかは別の問題です」

マクスマイサーズ氏は自身のYouTubeチャンネル「Speaking of AI」で、ノッティングヒルの有名なシーンを再現し、ホーマーがジュリア・ロバーツの役を演じ、ドナルド・トランプがラルフ・ウィガムの役を演じ、ジョー・バイデンが当時の流行だったベルトにタマネギを結びつけている。

マクスミスハース氏は、あらゆるテキストを英語の音声に変換できる汎用AIモデルを構築した。新しい音声を作りたい時は、その人物の2~3時間分の新たな音声データとテキストの書き起こしを用いて、モデルをさらに調整する。「ホーマーの声をホーマーの声たらしめる要素、そして様々な周波数特性に焦点を当てています」と彼は言う。

その後は、モデルに複数のテイク(それぞれ微妙に異なるテイク)を生成させ、目的に最適なテイクを選ぶだけです。出力は確かにホーマーのテイクだと分かりますが、感情表現が少し平坦で、まるで意味を理解せずに何かを読み上げているような印象です。「これはトレーニングデータに依存します」とマクスミスハース氏は言います。「モデルがそのような幅広い感情表現を経験できなければ、ゼロから感情を作り出すことはできません。ですから、ホーマーほどエネルギッシュに聞こえないのです。」

英国のスタートアップ企業Sonanticは、AI音声に感情表現の幅を持たせる手法を開発した。同社は声優と協力し、幅広いトレーニングデータ(俳優が様々な感情表現で様々なセリフを数時間かけて練習するデータ)を収集する。「皮肉と誠実さの違い、そして音に潜む小さなヒントを私たちは知っています」と、Sonanticの共同創業者兼CTOであるジョン・フリン氏は語る。「私たちは、こうした自然なニュアンスや抑揚を巧みに引き出しているのです。」

フリン氏によると、必要なトレーニングデータの量は30~50時間からわずか10~20分にまで大幅に削減されたという。ブリスベンに拠点を置くレプリカ・スタジオは、短くて具体的な文章を20個録音するだけで音声を再現できるモデルを構築した。「データが多いほどパフォーマンスは向上しますが、数分で何とかできることもあります」と、レプリカの共同創業者兼CEOのシュレヤス・ニヴァス氏は語る。

単語は音節で構成され、音節は音素、つまり口で発音できるすべての個々の音から構成されます。理論上、学習モデルは英語のすべての音素を含む音声パングラムと呼ばれる単一の文から必要な情報をすべて得ることができますが、実際にはアクセントによって異なります。(例えば、「湖の水面のベージュ色の色合いは、フランス女王を含むすべての人に感銘を与え、その後、若きアーサー王が望んだように、再びあの交響曲を聞きました。」という表現を、様々な言い方で考えてみてください。)

音声生成技術は既にビデオゲームで活用されています。Sonanticは『Fallout』『The Outer Worlds』の開発元であるObsidianと提携しており、Replicaは数多くのAAAゲームスタジオやインディーゲームスタジオをクライアントとしています。ゲームでは、AI音声を活用することで、キャラクターがスタジオで声優が録音したセリフに限定されることなく、より幅広い会話でオープンワールドを彩ることができます。

ニヴァス氏によると、この技術は開発段階で特に有効で、AI版の音声を代役として活用することで、ゲーム制作者は実際の俳優を起用する前に様々なオプションを試すことができるという。また、カスタマイズ性の向上にも活用できる。例えば、『FIFA』などのゲームで実況解説者がプレイヤーの名前を叫ぶといった活用法がある。一方、レプリカはサイバーパンク向けに、主人公の名前を変更し、そのキャラクターとインタラクトするすべてのキャラクターがその名前を発音できるようにするMODを開発した。AIによる音声生成、音声認識、そしてGPT-3のような音声合成アルゴリズムを組み合わせることで、プレイヤーはノンプレイヤーキャラクターと実際に会話することができ、その場で会話が生成される。

しかし、フォックスが脚本執筆とアニメーションも AI に引き渡すことを決定しない限り、『ザ・シンプソンズ』のような脚本付きの番組にはこれらの機能は一切必要ありません。実際、AI を使用してキャラクターを再キャストすることは、ホーマーのモノマネが上手い人を見つけるよりも面倒でしょう。「番組の別のエピソードを制作することが目的であれば、演技派キャストを集めて脚本を作り、演じてもらうのが最善の方法です。彼らは何十年にもわたって成功を収めており、キャラクターを完璧に演じ分けることができるため、より質の高いパフォーマンスを発揮してくれるでしょう」とニヴァス氏は言います。「AI の声優を使用すると、キャストを再編成するだけの場合よりも、より多くの反復作業と作業が必要になります。」

手に負えない声優をAIで代替しようとするプロデューサーにとって、乗り越えるべき法的な地雷原が存在します。「この法律分野は厄介です」と、ペンシルベニア大学の法学教授で『パブリシティの権利:公共の世界のためのプライバシーの再考』の著者であるジェニファー・ロスマン氏は言います。

一方で、契約によってスタジオが録音素材をどのように活用できるかが制限される可能性があります。さらに、団体交渉の問題もあります。ロスマン氏によると、俳優組合SAG-AFTRAは「声優と俳優の両方の蘇生と再利用を規制しようと積極的に取り組んできた」とのことです。

しかし、これはパブリシティ権を規定する別の法律と衝突します。この法律は米国各地で異なります。「このパブリシティ権は、パフォーマーに、氏名、肖像、パフォーマンス、そして多くの場合、声の無断使用をコントロールする権利を与えるものです」とロスマン氏は言います。

また、ロンドン大学クイーン・メアリー校で知的財産法を教えるジョアンナ・ギブソン教授は、虚偽のスポンサー広告を主張する俳優側には救済の可能性があると話す。もし『ザ・シンプソンズ』がディープフェイクのホーマーをチョコレートバーの広告に使用すれば、俳優ダン・カステラネタによる個人的なスポンサー広告とみなされる可能性がある。ギブソン教授によると、同じ俳優が同じ番組で異なるキャラクターを演じていても、法律が異なる場合があるという。彼女は『ファミリー・ガイ』のセス・マクファーレンを例に挙げる。彼のブライアンの声は実際の話し声であるため、より多くの保護を受ける可能性が高いが、スチュワーデスの声は番組のために特別に作られたものだ。(もちろん、この場合はマクファーレンが番組のクリエイターであり、彼の意志に反してAIに置き換えられる可能性は低い)。

しかし、声優たちは今すぐに弁護士に電話する必要はないだろう。これらの音声生成ツールを開発している企業は、声優の代替を目的としているわけではない。SonanticとReplicaはどちらも、声優と協力していること、そしてゲームで「声」が使用されるたびに声優が収入を得られるよう、収益分配モデルを導入していることを強調している。

この技術が進歩し、作り出される声が「不気味の谷」から抜け出すにつれ、コンテンツ制作の民主化に貢献できる可能性があるとニバス氏は言う。例えば、 『ザ・シンプソンズ』のファンが合法的に自分のプロジェクトにお気に入りのキャラクターの声を使って、マッシュアップやリミックスを作成し、飽きられた番組に新たな命を吹き込むことができるようになるだろう。

SonanticのCEO兼共同創業者であるジーナ・クレシ氏は、現在の音声生成技術をCGIの黎明期になぞらえる。「俳優の声を再現することはできますが、俳優に取って代わるわけではありません」と彼女は言う。「CGIは撮影監督に取って代わったわけではありませんし、この技術も俳優に取って代わるわけではありませんが、俳優が直接、あるいはバーチャルで仕事をする上で役立ちます。もし誰かが引退しても、その人の声が代わりに働くことができるのです。」

マクスマイサーズ氏はCGIとの比較も行い、シンプソンズのエピソードを現代でも(多くの反復と努力をすれば)説得力のあるものにすることはできるものの、時代遅れに見えるかもしれないと述べています。90年代のCGI映画が現代の目から見ると時代遅れに見えるのと同じように。彼は、亡くなった俳優が演じたキャラクターを最後の別れとして蘇らせるといった短い場面ではこの技術が活用されるだろうと考えていますが、AIキャストがすぐに現実的な選択肢になるとは考えていません。「声優は単なる声以上のものをもたらしています。彼らは感情的な内容をもたらしているのです」と彼は言います。「ダン・カステラネタはこの2Dキャラクターに温かさ、深み、そして私たちが彼を好きになる理由となるあらゆる資質を吹き込んでいます。人間は人間らしくあることを非常にうまくやっています。」

この記事はもともと WIRED UKに掲載されたものです


WIREDのその他の素晴らしい記事

  • 📩 テクノロジー、科学などの最新情報: ニュースレターを購読しましょう!
  • セックステープ、口止め料、そしてハリウッドの秘密経済
  • 自宅で4G LTE Wi-Fiネットワークを設定する方法
  • テレビの人種ファンタジーは実際何を伝えたいのでしょうか?
  • ビデオゲームの最も厳しいDRMをブルドーザーで破壊する女性
  • メールとSlackは私たちを生産性のパラドックスに閉じ込めている
  • 🎮 WIRED Games: 最新のヒントやレビューなどを入手
  • ✨ ロボット掃除機からお手頃価格のマットレス、スマートスピーカーまで、Gearチームのおすすめ商品であなたの家庭生活を最適化しましょう

アミット・カトワラは、ロンドンを拠点とするWIREDの特集編集者兼ライターです。彼の最新著書は『Tremors in the Blood: Murder, Obsession, and the Birth of the Lie Detector』です。…続きを読む

続きを読む