クリエイターたちは、自分の動画が知らないうちに使用されたと主張している。

イラスト:ソンタヤ・カインガムソム/ゲッティイメージズ
ハイテク企業は、大量のデータを必要とする人工知能モデルに情報を与えるために、作成者に知られずに書籍、ウェブサイト、写真、ソーシャルメディアの投稿を吸い上げるという物議を醸す戦術を採用している。
AI企業は一般的に学習データの出所について秘密主義ですが、Proof Newsの調査によると、世界で最も裕福なAI企業の一部が、何千本ものYouTube動画の素材をAIの学習に使用していたことが明らかになりました。YouTubeはプラットフォームから許可なく素材を収集することを禁止していますが、企業はそれを無視してこれを行いました。
私たちの調査により、48,000以上のチャンネルから抜き出された173,536本のYouTube動画の字幕が、Anthropic、Nvidia、Apple、Salesforceなどシリコンバレーの大手企業によって使用されていたことが判明しました。
「YouTube字幕」と呼ばれるこのデータセットには、カーンアカデミー、MIT、ハーバード大学などの教育・オンライン学習チャンネルの動画トランスクリプトが含まれています。ウォール・ストリート・ジャーナル、NPR、BBCの動画もAIの学習に使用されており、スティーブン・コルベアの「レイト・ショー」、ジョン・オリバーの「ラスト・ウィーク・トゥナイト」、ジミー・キンメル・ライブも同様です。
Proof Newsは、YouTube界の大物スターによるコンテンツも発見しました。その中には、MrBeast(登録者数2億8,900万人、トレーニング用に2本の動画を撮影)、Marques Brownlee(登録者数1,900万人、7本の動画を撮影)、Jacksepticeye(登録者数約3,100万人、377本の動画を撮影)、PewDiePie(登録者数1億1,100万人、337本の動画を撮影)などがいます。AIのトレーニングに使用されたコンテンツの中には、「地球平面説」などの陰謀論を助長するものもありました。
Proof News は、YouTube AI トレーニング データセット内のクリエイターを検索するツールを作成しました。
「『これを使いたい』と言ってくる人は誰もいませんでした」と、 200万人以上の登録者数と20億回以上の視聴回数を誇る左派政治チャンネル「The David Pakman Show」の司会者、デビッド・パクマン氏は語る。彼の動画約160本がYouTube字幕の学習データセットに取り込まれた。
パクマン氏の事業には4人のフルタイム従業員がおり、ポッドキャスト、TikTok動画、その他プラットフォーム向けの素材制作に加え、毎日複数の動画を投稿している。AI企業が報酬を受け取るのであれば、自身のデータ利用に対しても報酬を受け取るべきだとパクマン氏は主張する。彼は、最近、一部のメディア企業がAIの訓練にデータを利用することに対して報酬を受け取る契約を結んでいることを指摘した。
「これが私の生計です。時間、資源、資金、そしてスタッフの時間をこのコンテンツ制作に費やしています」とパックマン氏は語った。「仕事に困ることはありません。」
「これは窃盗だ」と、クリエイターが一部所有するストリーミングサービス「ネビュラ」のCEO、デイブ・ウィスカス氏は言う。クリエイターの一部は、AIの訓練のためにYouTubeから作品を盗まれている。
ウィスカス氏は、特にスタジオが「生成AIを使って、途中でできるだけ多くのアーティストを置き換える」可能性があることを考えると、クリエイターの作品を本人の同意なしに使用するのは「無礼」だと述べた。
「これはアーティストを搾取し、傷つけるために使われるのでしょうか?もちろんです」とウィスカス氏は言った。
データセットの作成者であるEleutherAIの担当者は、動画が無断で使用されたという疑惑を含むProofの調査結果に関するコメント要請に応じなかった。同社のウェブサイトには、巨大テック企業の金色の壁の外にいる人々にとってAI開発への障壁を下げることが全体的な目標であると記載されており、これまで「モデルのトレーニングとリリースを通じて最先端のAI技術へのアクセス」を提供してきた。
YouTube の字幕には動画画像は含まれませんが、動画の字幕のプレーンテキストで構成され、多くの場合、日本語、ドイツ語、アラビア語などの言語への翻訳が添えられています。
EleutherAIが発表した研究論文によると、このデータセットは、同団体が公開した「Pile」と呼ばれるデータセットの一部です。Pileの開発者は、YouTubeだけでなく、欧州議会、英語版Wikipedia、そして連邦捜査の一環として公開されたエンロン社の従業員の大量のメールなどから資料を集めました。
Pileのデータセットのほとんどは、十分なスペースと計算能力を持つインターネット上の誰でもアクセスでき、公開されています。大手IT企業以外の研究者や開発者もこのデータセットを利用しています。しかし、利用しているのは彼らだけではありません。
数千億ドルから数兆ドル規模の企業であるApple、Nvidia、Salesforceは、それぞれの研究論文や投稿の中で、AIの学習にPileをどのように活用したかを説明しています。文書には、Appleが4月にリリースされた注目度の高いモデル「OpenELM」の学習にPileを使用したことも示されています。これは、同社がiPhoneとMacBookに新しいAI機能を追加すると発表する数週間前のことです。BloombergとDatabricksも、それぞれの発表資料によると、Pileでモデルの学習を行っていたことが示されています。
アマゾンから40億ドルの投資を獲得し、「AIの安全性」への注力を推進している大手AIメーカーのアントロピックも同様だ。
「PileにはYouTubeの字幕のごく一部が含まれています」と、アンスロピックの広報担当者ジェニファー・マルティネス氏は、同社の生成AIアシスタント「クロード」におけるPileの使用を認める声明の中で述べています。「YouTubeの利用規約は、プラットフォームの直接利用を対象としており、Pileデータセットの利用とは別です。YouTubeの利用規約違反の可能性については、Pileの作者にお問い合わせいただく必要があります。」
セールスフォースはまた、Pileを「学術研究目的」のAIモデル構築に使用したことも認めた。同社のAI研究担当副社長であるツァイミン・ション氏は声明の中で、データセットは「公開されている」と強調した。
Salesforceはその後、2022年に同じAIモデルを一般公開し、同社の「Hugging Face」ページによると、それ以来少なくとも8万6000回ダウンロードされています。Salesforceの開発者は研究論文の中で、このAIモデルには冒涜的な表現や「性別や特定の宗教団体に対する偏見」も含まれており、「脆弱性や安全性の懸念」につながる可能性があると警告しました。Proof Newsは、YouTubeの字幕に数千件の冒涜的な表現や、人種差別や性別に関する中傷的な表現が含まれていることを発見しました。Salesforceの担当者は、安全性の懸念に関する質問には回答しませんでした。
Nvidiaの担当者はコメントを控えた。Apple、Databricks、Bloombergの担当者もコメント要請に応じなかった。
YouTubeデータの「金鉱」
AI企業は、より高品質なデータの調達を巡り、互いに競争していると、ブラジルのリオデジャネイロにあるジェトゥリオ・バルガス財団法科大学院のAI政策研究者でCyberBRICSフェローのジャイ・ヴィプラ氏は述べた。企業がデータソースを秘密にしている理由の一つは、まさにこの点にある。
今年初め、ニューヨーク・タイムズ紙は、YouTubeを所有するGoogleが、YouTube上の動画からテキストを抽出し、モデルの学習に利用していると報じた。これに対し、広報担当者は同紙に対し、YouTubeクリエイターとの契約に基づき、その利用は許可されていると述べた。
ニューヨーク・タイムズ紙の調査では、OpenAIがYouTube動画を無断で使用していたことも明らかになった。同社の代表者は、この調査結果を肯定も否定もしていない。
OpenAIの幹部は、テキストプロンプトから動画を作成するAI製品Soraの学習にYouTube動画を利用したかどうかについての質問に対し、公の場で回答することを繰り返し拒否してきた。今年初め、ウォール・ストリート・ジャーナルの記者がOpenAIの最高技術責任者(CTO)であるミラ・ムラティ氏にこの質問をした。
「実際のところ、それについてはよく分かりません」とムラティ氏は答えた。
YouTubeの字幕やその他の音声テキスト化データは、人間の話し方や会話の仕方を再現するモデルのトレーニングに役立つため、潜在的に「金鉱」であるとヴィプラ氏は述べた。
「それは依然として純粋な原則です」と、化学やその他の科学のチュートリアルを紹介するチャンネル「Professor Dave Explains」のホスト、デイブ・ファリーナ氏は語った。同氏のチャンネルには300万人の登録者がおり、140本の動画がYouTube字幕用に取り上げられている。
「私が行った仕事(製品を作ること)で利益を得て、それが私や私のような人々の仕事を失わせるのであれば、補償や何らかの規制について話し合う必要がある」と同氏は語った。
2020年に公開されたYouTube Subtitlesには、YouTubeから削除された1万2000本以上の動画の字幕も含まれています。少なくとも1つのケースでは、クリエイターがオンラインプレゼンスを完全に削除していましたが、その作品は数え切れないほどのAIモデルに組み込まれています。
Proof Newsは、この記事で名前が挙がったチャンネルの所有者に連絡を取ろうとしたが、多くのチャンネルはコメントの要請に応じなかった。私たちが話を聞いたクリエイターのうち、自分の情報が盗まれたこと、ましてやそれがどのように使われたかに気づいていた者は一人もいなかった。
驚いた人の中には、ハンク・グリーン氏とジョン・グリーン氏の兄弟が築いた教育ビデオ帝国の柱である「クラッシュ・コース」(登録者数約1,600万人、ビデオ本数871本)と「サイショー」(登録者数800万人、ビデオ本数228本)の制作者たちもいた。
「私たちが思慮深く制作した教育コンテンツが、私たちの同意なしにこのような形で使用されたことを知り、大変残念に思います」と番組制作会社コンプレックスリーのCEO、ジュリー・ウォルシュ・スミス氏は声明で述べた。
YouTube 字幕は、クリエイティブ業界に問題を引き起こした最初の AI トレーニング データ セットではありません。
これらの訴訟に対し、Meta、OpenAI、Bloombergなどの被告は、自らの行為はフェアユースに該当すると主張している。当初書籍をスクレイピングして公開したEleutherAIに対する訴訟は、原告によって自主的に取り下げられた。
残りの訴訟はまだ初期段階にあり、許可と支払いをめぐる問題は未解決のままです。The Pileは公式ダウンロードサイトから削除されましたが、ファイル共有サービスではまだ入手可能です。
「テクノロジー企業は横暴を働いている」と、消費者保護弁護士でディセロ・レビット法律事務所のパートナー、エイミー・ケラー氏は語る。同氏は、AI企業に同意なく作品を買い取られたとされるクリエイターたちを代表して訴訟を起こしている。
「人々は、自分たちに選択肢がなかったという事実を懸念しています」とケラー氏は述べた。「それが本当に問題だと思います」
オウムの真似をする
多くのクリエイターは、今後の進路に不安を感じています。
専業ユーチューバーたちは自分の作品が無断で使用されていないか監視し、定期的に削除通知を提出しており、AIが自分たちが作ったものと似たようなコンテンツを生成するのは時間の問題、さらには完全な模倣作品を生み出すのは時間の問題だと懸念する人もいる。
「ザ・デイビッド・パックマン・ショー」の制作者であるパックマン氏は、最近TikTokをスクロールしている時にAIの威力を実感した。彼はタッカー・カールソンのクリップとラベル付けされた動画を見つけたのだが、実際に視聴してみると衝撃を受けた。カールソンの声に聞こえたが、リズムまでもが彼のYouTube番組で言ったことと一字一句同じだったのだ。彼はまた、動画のコメント欄で、それが偽物だと気づいた人がたった一人しかいなかったことにも驚いた。カールソンがパックマン氏の台本を読み上げた音声クローンだったのだ。
「これは問題になるだろう」と、パクマン氏は偽造品について作成したYouTube動画で述べた。「基本的に誰に対しても、同じことができる」
EleutherAIの共同創業者であるシド・ブラック氏は、GitHubに、スクリプトを使ってYouTube字幕を作成したと投稿しました。このスクリプトは、YouTube視聴者のブラウザが動画を視聴する際に字幕をダウンロードするのと同じように、YouTubeのAPIから字幕をダウンロードします。GitHubのドキュメントによると、ブラック氏は動画を選別するために495個の検索用語を使用しました。その中には、「面白いブロガー」「アインシュタイン」「黒人プロテスタント」「社会保障局」「インフォウォーズ」「量子色力学」「ベン・シャピロ」「ウイグル人」「フルータリアン」「ケーキのレシピ」「ナスカの地上絵」「地球平面説」などが含まれていました。
YouTubeの利用規約では「自動化された手段」による動画へのアクセスを禁止しているが、2,000人以上のGitHubユーザーがこのコードをブックマークしたり承認したりしている。
「もしYouTubeがそれを狙っているなら、このモジュールの動作を阻止する方法はたくさんある」と、機械学習エンジニアのジョナス・デポワ氏はGitHubでの議論の中で述べた。デポワ氏は、ブラック氏がYouTubeの字幕にアクセスするために使用したコードを公開している。「今のところ、そのようなことは起きていない」
プルーフ・ニュースへのメールで、デポワ氏は数年前に大学生時代にプロジェクトのために書いたコード以来、使用しておらず、人々がそれを便利だと感じていることに驚いたと述べた。YouTubeのルールに関する質問には回答を控えた。
グーグルの広報担当者ジャック・マロン氏は、コメント要請に対する電子メールでの回答で、同社は「長年にわたり、不正なスクレイピングや無許可のスクレイピングを防止するための措置を講じてきた」と述べた。同氏は、他社がこの資料をトレーニングデータとして利用しているかどうかについての質問には回答しなかった。
AI企業が使用した動画の中には、登録者数約15万人のチャンネル「アインシュタイン・パロット」の動画が146本含まれている。ヨウムの世話をしているマルシアさんは、この有名な鳥の安全を脅かすことを恐れて名字を伏せたが、最初はAIモデルが物まねをするオウムの言葉を学習したことを面白おかしく思ったという。
「オウムの声なんて誰が使いたがるの?」とマーシャは言った。「でも、彼がとても上手に話すのは分かってる。私の声で話すから。つまり、彼が私の声を真似て話しているの。そしてAIがオウムの声を真似しているってこと。」
AIに取り込まれたデータは、一度忘れることはできません。マーシャさんは、自分の鳥の情報がどのように利用されるか、その未知の可能性に不安を感じていました。例えば、デジタルの複製オウムを作ったり、オウムに呪いをかけたりすることも考えられました。
「私たちは未知の領域に足を踏み入れているのです」とマーシャは語った。