プログラマー向けQ&Aサイトは、そのデータがアルゴリズムやChatGPTスタイルのボットのトレーニングに使用された場合に補償を要求するRedditに加わった。

写真:マリーナ・テルレツカ/ゲッティイメージズ
ChatGPTや画像ジェネレーターDall-Eなどのツールの背後にあるAIシステムの開発には数億ドルの費用がかかり、今後さらに高額になる見込みです。
OpenAI、Google、そして大規模AIプロジェクトを構築する他の企業は、従来、トレーニングデータの多くを無償で提供し、ウェブから収集してきました。しかし、コンピュータープログラミングに関する相談で人気のインターネットフォーラムであるStack Overflowは、今年半ばにも、大規模なAI開発者に対し、サービス上の5,000万件の質問と回答へのアクセスを有料化する計画だと、CEOのプラシャント・チャンドラセカル氏は述べています。同サイトには2,000万人以上の登録ユーザーがいます。
Stack Overflowが、より広範な生成型AI戦略の一環として、自社のデータを利用する企業に補償を求める決定を下したことは、これまで報じられていません。これは、Redditが今週発表した、6月から一部のAI開発者に対し、自社コンテンツへのアクセス料を請求すると発表したことを受けたものです。
シェアを狙っているのは、この2つのコミュニティサイトだけではない。WIREDを所有するコンデ・ナストを含む米国の出版社業界団体、ニュース・メディア・アライアンスは本日、生成AI開発者に対し、学習やその他の目的でのデータのあらゆる利用について交渉し、公正な報酬を受ける権利を尊重するよう求める原則を発表した。
Meta、Google、そしてChatGPTの開発元であるOpenAIは、いずれもStack OverflowやRedditを含む数千ものオンラインソースからコンテンツを収集したデータセットを用いてAIシステムを開発していると、外部分析や各社の開示情報から明らかになっている。オンライン上の雑談やプログラミングに関する専門家の議論をテキスト化し、大規模言語モデル(LLM)と呼ばれる機械学習アルゴリズムに取り込むことで、AIテキストジェネレーターやチャットボットの流暢性と知識を向上させることができる。LLMを用いたプログラミングコード生成は、この技術における最大のビジネスチャンスの一つと捉えられており、マイクロソフトはコードジェネレーター「GitHub Copilot」を1人あたり月額19ドルで提供している。
「法学修士課程を支えるコミュニティプラットフォームには、その貢献に見合った報酬が支払われるべきです。そうすることで、私たちのような企業がコミュニティに再投資し、コミュニティの発展を継続的に促進できるのです」とStack Overflowのチャンドラセカー氏は語る。「私たちはRedditのアプローチを強く支持します。」
チャンドラセカー氏は、Stack Overflowがユーザーを引きつけ、高品質な情報を維持し続けるためには、潜在的な追加収益が不可欠だと述べた。また、将来のチャットボットにも役立つと主張している。チャットボットは「知識を前進させる何かについて訓練する必要がある。新しい知識を生み出す必要がある」からだ。しかし、貴重なデータを遮断することは、AIの訓練を阻害し、LLM(法定言語モデル)の改善を遅らせる可能性もある。LLMは、人々が情報や会話を求めて利用するあらゆるサービスにとって脅威となる。チャンドラセカー氏は、適切なライセンス供与は、高品質なLLMの開発を加速させるのに役立つだけだと述べている。
AI開発者は皆、膨大な数の高価なコンピューターを必要とする大規模AIシステムの開発コストの削減を目指しています。かつては無料で入手できたデータに料金を支払わなければならなくなると、新興技術で利益を上げるまでの、既に不透明なスケジュールがさらに長引く可能性があります。OpenAIはコメント要請に応じず、MetaとGoogleもすぐにコメントを得られませんでした。
大規模言語モデルは、学習データに含まれるウェブページ、書籍、その他のテキストから学習した単語パターンに基づいて文字列を生成できます。ChatGPT以外にも、Microsoft BingチャットやGoogle Bardといった検索チャットボットの心臓部となるプログラムがこれらのプログラムで利用されており、プロフェッショナルでクリエイティブなコピーを瞬時に作成するアプリケーションの基盤として、ますます増えています。AIが作成したイラストや動画を生成する類似のアプリケーションは、PinterestやFlickrから収集した写真などの画像データセットからパターンを抽出しています。
RedditやStack Overflowといったウェブサイトは、より積極的なアプローチをとっています。これらのウェブサイトは、ソフトウェアがAPIと呼ばれるコンテンツにアクセスできるよう、ダウンロード可能な「データダンプ」やリアルタイムデータポータルを提供しています。Chandrasekar氏によると、Stack Overflowの場合、LLM開発者はダンプ、API、スクレイピングなどを組み合わせた方法でデータを入手しており、これらはすべて現在では無料で利用できるとのことです。
しかしチャンドラセカー氏は、LLM開発者はStack Overflowの利用規約に違反していると主張する。Stack Overflowに投稿したコンテンツの所有権は利用規約に定められている通り、ユーザーに帰属するが、そのコンテンツはすべてクリエイティブ・コモンズ・ライセンスの対象であり、後からデータを使用する者はその出典を明記する必要がある。AI企業がモデルを顧客に販売する際、「モデルの学習に使用された質問と回答を投稿したコミュニティメンバー一人ひとりの帰属先を明示することができないため、クリエイティブ・コモンズ・ライセンスに違反している」とチャンドラセカー氏は指摘する。
Stack OverflowもRedditも価格情報を公表していない。「現在作業を進めており、今後数週間のうちにパートナー企業と詳細を共有する予定です」とRedditの広報担当者ティム・ラスシュミット氏は述べている。Stack OverflowはRedditの戦略を研究し、自社の潜在顧客とも協議する予定だ。チャンドラセカル氏によると、既にデータアクセスについて問い合わせをしている顧客もいるという。
価格設定のロードマップとなる可能性のあるものは、今月Twitterデータへのアクセス料金を値上げしたイーロン・マスク氏から明らかになるだろう。5000万件のツイートへのアクセス料金は月額4万2000ドルから。これは、これまで無料で利用できたツイート量の約3倍に相当する。マスク氏は今週のツイートで、大手AI開発企業でありOpenAIの緊密なパートナーでもあるマイクロソフトが、アルゴリズムの学習に「Twitterデータを違法に利用している」と非難した。詳細は明かさずに、「訴訟を起こす時だ」と付け加えた。
Stack OverflowとRedditは、今後も一部の個人や企業にデータを無料でライセンス供与します。Chandrasekar氏は、Stack Overflowは大規模な商業目的でLLMを開発している企業からのみ報酬を受け取りたいと述べています。「私たちのようなコミュニティが構築したサイトで作られた製品に料金を請求し始めると、それはフェアユースに該当しません」と彼は言います。
RedditのCEO、スティーブ・ハフマン氏は今週、ニューヨーク・タイムズ紙に対し、世界最大の企業に無償でサービスを提供することを望んでいないと語った。「Redditを巡回し、価値を生み出しながら、その価値をユーザーに全く還元していないのは、我々にとって問題だ」と彼は述べた。
ChatGPT型のボットやLLMを基盤とする他の製品が巨額の利益を上げるという期待が高まる中、機械学習アルゴリズムの学習に必要なコンテンツを保有する他の企業も報酬を求めている。一部のニュース出版社は、マイクロソフトの新しいBingチャットボットが自社のコンテンツをどのように扱うかについて懸念を示している。
しかし、これまでのところ、トレーニングデータへのアクセスに関する公開契約はごくわずかしか発表されていない。例えば、写真バンクShutterstockがOpenAIにコンテンツのライセンス供与に合意したのがその例だ。ライバル企業のGetty Imagesは、OpenAIの競合企業であるStability AIを、1200万枚以上の写真を使用する前にライセンス供与を申請しなかったとして提訴している。このAIスタートアップは来週、米国連邦裁判所で反論する予定だ。
AI開発者は、まだ全面的な料金支払い圧力にさらされているわけではない。学術的なテキストや日常会話を大量に扱う企業の中には、APIや同様のデータポータルを有料化する計画はないというところもある。AIトレーニングにコンテンツが活用されている科学研究論文を出版するPLOSは、比較的制約の少ない利用規約を変更する可能性は「低い」と広報担当のデイビッド・ナットソン氏は述べている。オンラインコミュニティプラットフォームのDiscordも、無料でAIトレーニングを禁じる利用規約に基づいて提供されているAPIを変更する予定はない、と広報担当のスワレハ・カールソン氏は述べている。
Stack Overflowにおいて、APIの有料化は、同社が数ヶ月以内に発表予定のより広範なAI戦略の一部に過ぎません。Stack Overflowの約600人のスタッフのうち約10%が、独自の生成AIサービスの開発を含むこの取り組みに注力しています。例えば、ユーザーが投稿する質問を作成する際に、アシスタント機能でサポートを提供することが考えられます。
これまで、Stack Overflowコミュニティの主な対策は、ユーザーによるAI生成の回答の投稿を禁止することでした。チャンドラセカー氏によると、ChatGPTのリリース後に不正確な回答が急増したことで、同社の数百人ほどのモデレーターにとって課題が生じているとのこと。
2008年に設立されたStack Overflowは、広告販売と、1,200以上の組織への社内利用を目的としたQ&Aソフトウェアのサブスクリプションライセンスから、ほぼ同数の収益を生み出しています。入手可能な最新データである2022年9月30日までの6ヶ月間の売上高は、前年同期比で33%増の4,500万ドルに達しました。この期間中、毎月平均約20万人の新規ユーザーが登録しました。
Stack Overflowが、ユーザーが無料で投稿した質問と回答をAI開発者にライセンス供与することに成功した場合、ユーザーが自らの報酬を要求するのは当然のことでしょう。チャンドラセカー氏は、「コミュニティのメンバーや、このサイトを現在の形に作り上げている人々にとって、どうすれば最善の利益が得られるか、つまり、ここで起こっていることを踏まえて、どのように彼らをサポートしていくかについて、しっかりと検討しています」と述べています。
あなたの受信箱に:毎日あなたのために厳選された最大のニュース

パレシュ・デイヴはWIREDのシニアライターで、大手テック企業の内部事情を取材しています。アプリやガジェットの開発方法やその影響について執筆するとともに、過小評価され、恵まれない人々の声を届けています。以前はロイター通信とロサンゼルス・タイムズの記者を務め、…続きを読む