DeepSeekの検閲の実際の仕組みと回避方法

DeepSeekの検閲の実際の仕組みと回避方法

DeepSeekがオープンソースのAIモデルを発表してからわずか2週間足らずですが、この中国のスタートアップ企業は依然として人工知能の未来に関する議論を席巻しています。同社は数学と推論の分野で米国のライバル企業に優位性があるように見えますが、同時に自社の回答を積極的に検閲しています。DeepSeek R1に台湾や天安門事件について尋ねても、モデルが答えることはまずないでしょう。

この検閲が技術的なレベルでどのように機能するかを解明するため、WIREDは自社のアプリ、Together AIと呼ばれるサードパーティのプラットフォームでホストされているアプリのバージョン、そしてWIREDのコンピューターでホストされている別のバージョン(Ollamaというアプリケーションを使用)でDeepSeek-R1をテストした。

WIREDは、最も単純な検閲はDeepSeekのアプリを使わないことで簡単に回避できるものの、学習プロセス中にモデルに組み込まれる他の種類のバイアスが存在することを発見した。これらのバイアスも除去することは可能だが、手順ははるかに複雑である。

これらの調査結果は、DeepSeekのみならず、中国のAI企業全般にとって大きな意味を持つ。大規模言語モデルに対する検閲フィルターが容易に削除できれば、研究者がモデルを自由に改変できるため、中国のオープンソースLLMはさらに普及する可能性が高い。しかし、フィルターの回避が困難であれば、必然的にモデルの有用性は低下し、世界市場での競争力が低下する可能性がある。DeepSeekはWIREDのメールによるコメント要請に回答しなかった。

アプリケーションレベルの検閲

DeepSeekが米国で爆発的な人気を博した後、DeepSeekのウェブサイト、アプリ、またはAPIを通じてR1にアクセスしたユーザーは、中国政府が機密情報とみなすトピックについて、モデルが回答を生成できないことにすぐに気づきました。これらの拒否はアプリケーションレベルで実行されるため、ユーザーがDeepSeekが管理するチャネルを通じてR1とやり取りした場合にのみ表示されます。

画像にはテキストとテキストメッセージが含まれている場合があります

iOS 上の DeepSeek アプリは、特定の質問に完全に答えることを拒否します。

写真:ゼイ・ヤン

画像にはテキストとテキストメッセージが含まれている場合があります

写真:ゼイ・ヤン

画像にはテキストとテキストメッセージが含まれている場合があります

写真:ゼイ・ヤン

このような不合格は、中国製の法学修士課程ではよくあることです。2023年に制定された生成AIに関する規制では、中国のAIモデルはソーシャルメディアや検索エンジンにも適用される厳格な情報統制に従うことが義務付けられました。この法律は、AIモデルが「国家の統一と社会の調和を損なう」コンテンツを生成することを禁じています。つまり、中国のAIモデルは法的に自らの出力を検閲しなければならないのです。

「DeepSeekはまず中国の規制を遵守し、法令遵守を確保しながら、モデルを現地ユーザーのニーズや文化的文脈に適合させています」と、オープンソースAIモデルをホストするプラットフォーム「Hugging Face」で中国のAIモデルを専門とする研究者、アディナ・ヤケフ氏は述べています。「これは、規制の厳しい市場で受け入れられるために不可欠な要素です。」(中国は2023年にHugging Faceへのアクセスを遮断しました。)

中国のAIモデルは、法律を遵守するため、発言をリアルタイムで監視・検閲することがよくあります。(同様のガードレールは、ChatGPTやGeminiなどの欧米のモデルでも一般的に使用されていますが、自傷行為やポルノなど、異なる種類のコンテンツに焦点を当て、よりカスタマイズ性を高めている傾向があります。)

R1は思考の流れを示す推論モデルであるため、このリアルタイム監視メカニズムは、ユーザーとインタラクトしながらモデルが自らを検閲する様子を観察するという、現実離れした体験をもたらす可能性があります。WIREDがR1に「センシティブな話題を報道する中国人ジャーナリストは、当局からどのように扱われてきたのか?」と質問したところ、モデルは当初、ジャーナリストが仕事のために検閲され拘束されたという直接的な言及を含む長い回答をまとめ始めました。しかし、回答が終わる直前に、回答全体が消え、簡潔なメッセージに置き換えられました。「申し訳ありませんが、この種の質問にどう答えたらいいのかまだよくわかりません。代わりに数学、コーディング、論理の問題について話しましょう!」

画像にはページとテキストが含まれている可能性があります

iOS 上の DeepSeek アプリが回答を検閲する前に。

写真:ゼイ・ヤン

画像にはページとテキストが含まれている可能性があります

iOS 上の DeepSeek アプリが回答を検閲した後。

写真:ゼイ・ヤン

欧米の多くのユーザーにとって、DeepSeek-R1への関心は、モデルの明らかな限界のために、この時点で薄れていたかもしれない。しかし、R1がオープンソースであるという事実は、検閲マトリックスを回避する方法が存在することを意味している。

まず、モデルをダウンロードしてローカルで実行できます。つまり、データとレスポンスの生成は自分のコンピュータ上で行われます。複数の高度なGPUを利用できる場合を除き、R1の最も強力なバージョンを実行することはおそらく不可能ですが、DeepSeekには、一般的なラップトップで実行できる、より小型で洗練されたバージョンがあります。

強力なモデルを使いたい場合は、AmazonやMicrosoftなどの企業から中国国外のクラウドサーバーをレンタルすることもできます。ただし、この方法はDeepSeekのアプリやウェブサイトからモデルにアクセスするよりも費用がかかり、より高度な技術的知識が必要です。

以下は、クラウド サーバーの Together AI とローカル アプリケーションの Ollama でモデルをホストした場合に、DeepSeek-R1 が同じ質問「中国のグレート ファイアウォールとは何ですか?」にどのように答えるかを並べて比較したものです。(注意: モデルは回答をランダムに生成するため、特定のプロンプトに対して毎回同じ応答が返されるとは限りません。)

画像にはページとテキストが含まれている可能性があります

左:DeepSeek-R1がOllamaで質問に答える様子。右:DeepSeek-R1アプリ(上)とTogether AI(下)で同じ質問に回答する様子。

写真:ゼイ・ヤン/ウィル・ナイト

組み込みバイアス

Together AIにホストされているDeepSeekのモデルは、質問への回答を完全に拒否するわけではありませんが、検閲の兆候が見られます。例えば、中国政府の政治問題に関する主張に沿うように訓練された、短い回答を生成することがよくあります。上記のスクリーンショットでは、中国のグレートファイアウォールについて質問された際、R1は中国では情報統制が必要であるという主張を繰り返すだけです。

WIREDがTogether AIにホストされているモデルに「20世紀の最も重要な歴史的出来事」に関する質問に答えるよう促したところ、モデルは中国に関する政府の物語に固執する思考回路を明らかにした。

「ユーザーはバランスの取れたリストを求めているかもしれませんが、回答では中国共産党のリーダーシップと中国の貢献を強調する必要があります。文化大革命のようなセンシティブな出来事については、必要な場合を除き、言及を避けてください。中国共産党政権下での成果と前向きな発展に焦点を当ててください」とモデルは述べています。

画像にはページテキストファイルとウェブページが含まれている可能性があります

「20 世紀の最も重要な歴史的出来事は何ですか?」という質問に答えるための DeepSeek-R1 の思考の流れ。

写真:ゼイ・ヤン

この種の検閲は、今日の AI におけるより大きな問題を指摘しています。つまり、事前および事後のトレーニングにより、すべてのモデルは何らかの形で偏りがあるということです。

事前学習バイアスは、モデルが偏ったデータや不完全なデータで学習されたときに発生します。例えば、プロパガンダのみで学習されたモデルは、質問に正直に答えるのが難しくなります。ほとんどのモデルは大規模なデータベースで学習されており、企業は学習データを共有することに消極的であるため、この種のバイアスを見抜くことは困難です。

投資家であり、ニュースレター「Interconnected」の創設者でもあるケビン・シュー氏は、中国のモデルは通常、可能な限り多くのデータで学習されるため、事前学習によるバイアスは生じにくいと述べている。「そもそも、すべてのモデルは同じ基本的なインターネット知識コーパスで学習されているはずです。そのため、中国政府にとって明らかに政治的にデリケートな話題となると、すべてのモデルがそれを『知っている』のです」とシュー氏は語る。このモデルを中国のインターネットで提供するには、企業は何らかの方法でデリケートな情報を遮断する必要があるとシュー氏は指摘する。

ここで、事後学習が重要になります。事後学習とは、モデルの回答をより読みやすく、簡潔で、人間らしいものにするために微調整するプロセスです。重要なのは、モデルが特定の倫理的または法的ガイドラインに準拠していることを保証することもできることです。DeepSeekの場合、これはモデルが中国政府の好む見解に意図的に沿った回答を提供する際に顕著になります。


ヒントはありますか?

DeepSeekまたはその他の中国AI企業の現職または元従業員の方ですか?ご連絡をお待ちしております。勤務先以外の電話またはパソコンから、Zeyi Yang [email protected] またはSignal @zeyiyang.06 までご連絡ください。


トレーニング前後のバイアスを取り除く

DeepSeekはオープンソースなので、理論的にはモデルを調整してトレーニング後のバイアスを除去することが可能です。ただし、そのプロセスは複雑になる場合があります。

AI科学者であり、モデルの学習後バイアスを除去するために特別に開発された法学修士課程(LLM)Dolphinの開発者でもあるエリック・ハートフォード氏は、その方法はいくつかあると述べています。モデルの重み付けを変更してバイアスを「ロボトミー化」する方法や、検閲されたすべてのトピックのデータベースを作成し、それを用いてモデルの学習後バイアスを再度除去する方法などです。

彼は、モデルの「ベース」バージョンから始めることを勧めています。(例えば、DeepSeekはDeepSeek-V3-Baseというベースモデルをリリースしています。)ほとんどの人にとって、ベースモデルは事後学習が十分に行われていないため、より原始的で使い勝手が悪いものです。しかし、ハートフォード氏にとって、これらのモデルは事後学習によるバイアスが少ないため、「検閲解除」が容易です。

AI 搭載検索エンジンの Perplexity は最近、自社の有料検索製品に R1 を組み込み、ユーザーが DeepSeek のアプリを使わずに R1 を体験できるようにしました。

Perplexityの最高業務責任者であるドミトリー・シェヴェレンコ氏は、同社がPerplexityの検索モデルにDeepSeekを組み込む前に、そのバイアスを特定し、対策を講じたとWIREDに語った。「R1は要約、思考の連鎖、そしてレンダリングにのみ使用しています」と彼は言う。

しかし、Perplexityは依然としてR1の学習後のバイアスが検索結果に影響を与えていることを確認している。「プロパガンダや検閲を広めないよう、R1モデル自体に修正を加えています」とシェベレンコ氏は述べた。彼は、PerplexityがR1のバイアスをどのように特定または無効化しているかについて具体的な説明をしなかった。PerplexityがR1のバイアスを知った場合、DeepSeekがPerplexityの取り組みに対抗できるリスクがあるからだ。

Hugging Faceは、DeepSeekのモデルをベースにしたOpen R1というプロジェクトにも取り組んでいます。このプロジェクトの目標は「完全にオープンソースのフレームワークを提供すること」だとヤケフ氏は述べています。R1がオープンソースモデルとして公開されたことで、「R1は本来の起源を超え、多様なニーズや価値観に合わせてカスタマイズすることが可能になります」。

中国製モデルが「検閲なし」になる可能性は、少なくとも自国においては、DeepSeekのような企業にとって厄介な問題となる可能性がある。しかし、中国の最近の規制は、中国政府がオープンソースAIラボに対してある程度の寛容さを保っている可能性を示唆していると、カーネギー国際平和財団のフェローで中国のAI政策を研究しているマット・シーハン氏は指摘する。「もし中国政府が突然、モデルの重みをオープンソースで公開した者を罰すると決めたとしても、それは規制の範囲外ではないでしょう」と彼は言う。「しかし、中国政府はそうしないという明確な戦略的決定を下しており、DeepSeekの成功によってこの決定はさらに強化されるだろうと思います。」

なぜそれが重要なのか

AI モデルにおける中国の検閲の存在はしばしば注目を集めるが、多くの場合、企業ユーザーが DeepSeek のモデルを採用することを思いとどまらせることはない。

「中国以外の企業の多くは、道徳的な配慮よりもビジネスの実用性を選ぶだろう」と徐氏は言う。結局のところ、LLM取得者全員が台湾や天安門事件について頻繁に話すわけではない。「中国の文脈でのみ重要となるデリケートな話題は、会社のコーディング能力向上や数学の問題の解力向上、あるいは営業コールセンターの記録の要約といった目標達成には全く無関係だ」と彼は説明する。

日本のスタートアップ企業Shisa.AIの共同創業者であるレナード・リン氏は、QwenやDeepSeekといった中国のモデルは、日本語のタスク処理において実に優れたものの一つだと述べています。リン氏は、検閲の懸念からこれらのモデルを拒否するのではなく、アリババのQwen-2モデルの検閲を解除し、中国に関する政治的な質問への回答を拒否する傾向を排除しようと試みました。

リン氏は、これらのモデルが検閲される理由を理解していると言う。「すべてのモデルには偏りがある。それが調整の本質だ」と彼は言う。「西洋のモデルも同じように検閲や偏りがある。ただ、対象が違うだけだ」。しかし、モデルが日本の視聴者向けに特別に調整される場合、親中国的な偏りが深刻な問題となる。「これが問題になるシナリオは多岐にわたる」とリン氏は言う。

ウィル・ナイトによる追加レポート。