OpenAI のチャットボットの違法市場の急成長は、中国の生成 AI の大きな可能性とリスクを示している。

イラスト: ジェームズ・マーシャル
郭宇馨さんは北京大学で修士課程を学んでいます。数ヶ月前から、彼女はChatGPT(テキストプロンプトに応じてほぼ自然な言語を生成する生成AIツール)に関するオンライン上の議論に注目していました。ソーシャルメディアプラットフォームWeiboで見つけたある動画では、アメリカの大学生がこの技術を使って研究論文を書いている様子が紹介されていました。2月、彼女はついに自分で試してみることにしました。
「多くの人がこのことについて話しているので興味を持ちました」と郭氏は言う。「ただ、どうやってアクセスすればいいのか明確に知っている人は多くないようです。」
ChatGPTは中国では利用できない。ブロックされているわけではないが、ツールを開発したOpenAIが中国で利用できるようにしていないためだ。そこで郭氏は、iPhoneケースから外国の運転免許証まであらゆるものを販売する何十万もの商人が集まる中国最大のeコマースサイト、タオバオに目を向けた。
ChatGPTのログイン情報はタオバオで人気商品となっており、特に認証コードを受け取れる仮想電話番号は、海外の電話番号と同じく人気となっている。2月上旬にプラットフォーム上で簡単な検索をしたところ、ログイン情報を販売している店舗が600以上あり、価格は1~30人民元(0.17~4.28ドル)だった。中には数千個を売り上げた店舗もある。テンセントのWeChatでは、主に「ChatGPT Online」のようなミニプログラム(プラットフォーム上のサブアプリケーション)を介して、ChatGPTの模倣品の市場が活況を呈している。これらのミニプログラムでは、チャットボットの使用時間に対して料金を請求する前に、ユーザーにいくつかの無料の質問を提供している。これらのほとんどは仲介者であり、ユーザーに代わってChatGPTの質問をし、回答を送り返している。中国最大の検索エンジンである百度では、「中国国内でChatGPTを使用する方法」が数週間にわたって一貫してトレンドとなっている。
ChatGPTへのアクセスをめぐるブラックマーケットの規模と、模倣品の蔓延は、中国における生成AI製品への潜在的需要の大きさを示すと同時に、それらを開発しようとする企業が直面する課題も示しています。生成AIの「ブラックボックス」的性質は、チャットボットの出力を予測することを困難にしており、厳しく管理されている中国のインターネットにおいては危険な状況を招く可能性があります。
「ChatGPTのような製品を開発している中国の大手企業は、中国政府の最大の優先事項であるAIにおけるリーダーシップと情報の管理という2つの問題を引き起こしている」と、中国のAIエコシステムを研究しているカーネギー国際平和財団研究員のマット・シーハン氏は言う。
中国のテクノロジー大手は、OpenAIに追いつき、自社製品を市場に投入しようと躍起になっている。ただし、そのうちのいくつかは何年も前から大規模な言語モデルの開発に取り組んでいた。
2月7日、百度(バイドゥ)は3月に社内テスト用のErnieボット(中国語では「文心易演」)をリリースすると発表した。このボットは、百度が2019年から開発を進めてきた大規模言語モデル「Ernie 3.0-Titan」をベースにしている。
百度によると、このチャットボットは英語のプロンプトに対して会話形式で応答することができ、主に中国語のニュアンスの理解に重点を置くという。百度のCEO、ロビン・リー氏は2022年第4四半期の決算説明会で、最終的には同社の検索エンジンとXiaodu音声アシスタントに統合され、AIクラウドとアポロ自動運転事業で利用される予定だと述べた。
百度が発表した日、香港証券取引所で同社の株価は15%急騰した。
百度のニュースから1週間後、音声認識システムで知られるAI企業iFlyTechが独自のAIボットを発表しました。iFlyTechは、5月にボットをリリースし、「ChatGPTと同様の技術的飛躍を達成できると非常に自信を持っている」と述べています。2月27日、テンセントはChatGPTの代替となるHunyuanAideを開発するために社内に新チームを結成したと発表しました。一方、eコマース企業のアリババとJD.com、そしてゲーム大手のNetEaseも、AIチャットボットの開発に取り組んでいると発表しています。
フードデリバリー大手の美団(Meituan)の共同創業者、王慧文氏は2月に引退から復帰し、ソーシャルメディアプラットフォーム「Jike」に、OpenAIの競合企業を開発するためのスタッフを募集していると投稿した。同氏は、このプロジェクトの資金として、自己資金5000万ドルに加え、ベンチャーキャピタルから2億3000万ドルを確保したと述べた。
中国政府も生成AIの開発の重要性を認識している。多数の中国のAIスタートアップ企業を擁し、規制する北京市経済情報局が2月13日に発表した白書では、「ChatGPTに匹敵するモデルを開発する国内トップ企業」を支援すると約束されている。
「中国で国産ChatGPTを開発する競争の先頭に立つのは、GPT-3のような大規模モデル構築の基盤を既に築いている企業だろう」と、ジョージ・ワシントン大学の政治学助教授ジェフリー・ディン氏は述べ、ChatGPTの基盤となる大規模言語モデルであるGPT-3ファミリーを指して言及した。ディン氏によると、百度、華為、印宝、テンセントはいずれもこれらのモデルを構築しており、米国企業にそれほど遅れをとることはないだろうという。
Inspur Informationのシニアバイスプレジデント兼AI担当ゼネラルマネージャーであるLiu Jun氏は、WIREDに対し、InspurのYuan 1.0モデルは2,457億個のパラメータと5TBのデータセットを有し、現在3,000人以上のメンバーを擁するオープンソース開発者コミュニティを誇っていると語った。Baiduが2021年に発表した論文によると、Ernie 3.0 Titanは2,600億個のパラメータと4TBのデータセットを有している。比較対象として、OpenAIのGPT-3は約1,750億個のパラメータを有する。
ファーウェイ、バイドゥ、テンセントはWIREDのコメント要請に応じなかった。
ChatGPTはほぼ完全に英語で訓練されているにもかかわらず、かなり流暢な中国語のテキストを生成する能力を実証しています。ただし、WIREDが無料版でテストしたところ、英語に比べて5秒の遅延があり、生成速度は遅いようです。ソーシャルメディアでは、テキストが時折翻訳されたように聞こえるとユーザーから指摘されています。
これは、中国のインターネットの規模が巨大であるにもかかわらず、モデルがデータを集めるための材料がまだはるかに少ないことが原因である可能性がある。「良質な中国語テキストの不足が問題になっている可能性があります」とディン氏は述べ、Wikipediaの英語版記事が中国語版の2倍あることを指摘した。
中国語の言語特性は、歴史的に自然言語プログラミングの構築を困難にしてきました。中国語は英語よりも文脈依存度が高く、慣用句や複雑な比喩を多く用いる傾向があります。しかし、2017年以降、データセットから文脈を学習できる「トランスフォーマー」ニューラルネットワークの開発により、研究者はこの課題を克服することができました。
「中国語のハイコンテクストな性質は、かつて自然言語処理の障害となっていました」と、スタンフォード大学で政治行動とインターネットを研究する博士課程の学生、トーマス・キトン・カオ氏は言う。「しかし、事前学習済みの大規模言語モデルの時代において、言語間のギャップは大幅に縮まりました。」
曹氏は、中国語の AI モデルのトレーニングの課題は、データ セットのサイズと品質、そして計算能力のテストであると述べています。
企業は、政府がセンシティブとみなすテーマに対する検閲にも対処しなければならない。中国のソーシャルメディアプラットフォームは既に、アルゴリズムと人間のモデレーターを組み合わせてコンテンツを監視し、政府の常に変化するルールに違反するコンテンツを削除している。
テクノロジー企業はチャットボットのアウトプットを綿密に監視する必要があり、おそらく人間のモデレーターの雇用も必要になるでしょう。「このような人間による検閲は、キーワードブロックなどの他の戦術と組み合わせて、一般向けのチャットボットで使われるようになる可能性が高いでしょう」とカオ氏は言います。
Time誌の調査により、OpenAIはChatGPTの有害性を軽減するためにケニア人労働者に時給2ドル未満しか支払っていないことが判明した。
しかし、カーネギー財団のシーハン氏によると、チャットボットの性質上、その出力は作成者が必ずしも予測したり制御したりできるとは限らず、企業が問題に直面することは避けられないという。
「中国には、それぞれレコメンデーションアルゴリズムとディープフェイクに焦点を当てた2つのAI関連法があり、これは中国政府が人々がオンラインで消費するコンテンツの監視を最優先事項としていることを示しています」とシーハン氏は述べる。「AI生成コンテンツはこのカテゴリーに該当し、独自のChatGPTを作成しようとする企業は、中国サイバースペース管理局との問題に直面することが予想されます。」
中国のテックプラットフォームは、ChatGPTのブラックマーケットへのアクセスを取り締まり始めています。WIREDは2月下旬までに、「ChatGPT」と「OpenAI」というキーワードがTaobaoで禁止されていることを確認しました。WeChatでは、「ChatGPT Online」などのサービスが、「AI Smart Chat」といった中立的な名前に変更されています。
仲介業者は、API(プログラマーがChatGPTシステムのバックエンドにアクセスできるようにする)と一括登録アカウントに依存しています。「これらの仲介業者は、ChatGPTのサービスを直接利用できないユーザーに中継することで利益を得ています。このプロセスだけでも、関係者はChatGPTの利用規約、その他の関連商標、および適用可能な特許に違反していたことになります」と、ニューヨークを拠点とする知的財産弁護士のイヴァン・ワン氏は述べています。
中国で制限の回避策を見つけた ChatGPT ユーザーの数を示すデータは入手できないが、裏アクセス ポイントの急増により、少なくとも生成 AI の使用例がいくつか提供されている。
技術系プロダクトマネージャーのエコー・リウさんは、ユーザーに優先アクセスを提供する試験的なサブスクリプションサービスであるChatGPT PlusのOpenAIアカウントを189人民元(約27.50ドル)で購入しました。「ChatGPTが複雑な言語を平易な言葉で説明する能力に特に驚かされました」と彼女は言います。リウさんは、中国語でChatGPTに話しかけた際に応答の遅れを感じたため、ChatGPT Plusにアップグレードし、現在はChatGPT Plusを使ってコーディングを学んでいます。
海外で販売を行っている多くの小規模起業家はすでに ChatGPT を日常業務に取り入れています。
グローバル物流サービス「OL Warehouse」のオーナー、タオ・イェ氏はWIREDに対し、同社ではすでに顧客からの問い合わせにChatGPTを小規模に導入していると語る。「ChatGPTにカスタマーサービスメッセージを書かせる実験を行っており、良好な結果が得られています」と彼は言う。
英語圏のユーザーを対象とした小規模なeコマースサイトを運営するレイチェルさんは、公式の調査を避けるためファーストネームのみで匿名を希望している。彼女は原稿作成にこのシステムを活用しているという。中国のライフスタイル系ソーシャルメディアプラットフォーム「RED」で、越境eコマースにChatGPTを組み込む方法を紹介したレイチェルさんの投稿は、2,000件以上の「いいね!」を獲得している。彼女は以前は、マイクロタスクサイト「Fiverr」でインド在住のフリーランスライターを雇い、1記事20ドルでブログ記事を書いてもらっていたが、現在はChatGPTに完全切り替えることを決めた。
「以前は、商品説明やブログ記事を正しい英語で書くのが大変でした」と彼女は言います。「ChatGPTのおかげで、出品プロセスとコミュニケーションが劇的にスピードアップしました。」
あなたの受信箱に:毎日あなたのために厳選された最大のニュース
陳才薇(チェン・ツァイウェイ)は、インターネット、テクノロジー、そして文化の交差点を取材するフリーランスジャーナリストです。彼女は、 中国のインターネットに関する実験的なニュースレター「Chaoyang Trap」に所属しています。…続きを読む