AIはブラックボックス。Anthropicは内部を見る方法を発見した

AIはブラックボックス。Anthropicは内部を見る方法を発見した

AI研究者のクリス・オラー氏は、過去10年間、人工ニューラルネットワークに熱中してきた。特に彼を惹きつけたある疑問が、Google Brain、OpenAI、そして現在は共同創業者を務めるAIスタートアップ企業Anthropicにおいて、彼の研究の中心となっている。「その内部で何が起こっているのか?」と彼は言う。「私たちはこうしたシステムを持っているのに、何が起こっているのか分からない。まるで狂っているみたいだ。」

生成AIが普及した今、この問いは中心的な懸念事項となっている。ChatGPT、Gemini、そしてAnthropicのClaudeといった大規模言語モデルは、その言語能力で人々を驚かせ、また、その作り話的な性質で人々を激怒させてきた。かつては解決不可能だった問題を解決する可能性は、技術楽観主義者を魅了する。しかし、LLMは私たちにとって未知の存在だ。LLMを構築する人々でさえ、その仕組みを正確に理解しておらず、偏見や誤情報、さらには致死的な化学兵器の設計図までも生み出さないようにするためのガードレールを構築するには、多大な労力が必要となる。もしモデルを構築する人々がこれらの「ブラックボックス」の中で何が起こっているかを知っていれば、より安全なモデルを作るのは容易だろう。

オラー氏は、私たちがまさにその道を歩んでいると信じています。彼は、そのブラックボックスの内側を覗き込んだアントロピックチームを率いています。彼らは基本的に、大規模な言語モデルをリバースエンジニアリングし、なぜ特定の出力が導き出されるのかを理解しようとしています。そして本日発表された論文によると、彼らは大きな進歩を遂げたとのことです。

MRIスキャンを解釈し、人間の脳が飛行機、テディベア、それとも時計塔のことを考えているのかを特定する神経科学の研究をご覧になったことがあるかもしれません。同様に、アンスロピック社は、法学修士(LLM)であるクロードのニューラルネットワークの複雑なデジタル構造に深く入り込み、粗雑な人工ニューロンのどの組み合わせが特定の概念、つまり「特徴」を呼び起こすのかを突き止めました。同社の研究者たちは、ブリトー、プログラミングコードのセミコロン、そして(この研究のより大きな目標に大きく関わる)致死的な生物兵器など、実に多種多様な特徴を表す人工ニューロンの組み合わせを特定しました。このような研究は、AIの安全性に大きな影響を与える可能性があります。法学修士(LLM)のどこに危険が潜んでいるかを把握できれば、それを阻止する準備がより整うはずです。

私は、アントロピック社の「機械論的解釈可能性」チームに所属する18人の研究者のうち、オラー氏と彼の同僚3人に会った。彼らは、人工ニューロンを西洋のアルファベットの文字のように扱うと説明してくれた。アルファベットは単独では通常意味を持たないが、順番に繋げることで意味を持つ。「Cは通常は意味を持たない」とオラー氏は言う。「しかし、carは意味を持つ」。この原理でニューラルネットワークを解釈するには、辞書学習と呼ばれる手法が用いられる。これは、ニューロンの組み合わせを関連付け、それらが同時に発火すると、特徴と呼ばれる特定の概念を想起させる。

「ちょっと戸惑うような話です」と、アントロピック研究員のジョシュ・バトソン氏は言う。「法学修士課程では約1700万通りの概念を扱っていますが、それらは私たちの理解のためにラベル付けされていません。だから、そのパターンがいつ現れたのか、ただ探すしかないんです」

昨年、研究チームはニューロン層を1層だけ使った小規模なモデルで実験を開始した(高度なLLMは数十層)。期待されたのは、可能な限り単純な設定で、特徴を示すパターンを発見できることだった。彼らは数え切れないほどの実験を行ったが、成果はなかった。「あらゆる方法を試しましたが、どれもうまくいきませんでした。まるでランダムなゴミの集まりのようでした」と、アンスロピックの技術スタッフであるトム・ヘニガンは語る。そこで、「ジョニー」と名付けられた実験(各実験にはランダムな名前が付けられる)が、ニューラルパターンと出力に現れる概念を関連付け始めた。

「クリスはそれを見て、『マジか!これはすごい』って感じでした」と、同じく驚愕したヘニガンは語る。「私も見て、『おお、すごい、待って、これってちゃんと動くの?』って思ったんです」

突然、研究者たちはニューロン群がエンコードしている特徴を特定できるようになった。ブラックボックスの中を覗き込むことができたのだ。ヘニガン氏によると、最初に調べた5つの特徴を特定したという。ニューロン群の一つはロシア語のテキストを表し、もう一つはPythonというコンピュータ言語の数学的関数に関連付けられていた。といった具合だ。

小さなモデルで特徴を識別できることがわかったら、研究者たちは、実際のフルサイズのLLMを解読するというより困難な課題に取り組んだ。彼らは、アントロピックの現在の3つのモデルの中で中程度の強度のバージョンであるクロード・ソネットを使用した。これもうまくいった。彼らの目に留まった特徴の1つは、ゴールデンゲートブリッジに関連するものだった。彼らは、一緒に発火すると、クロードがサンフランシスコとマリン郡を結ぶ巨大な構造物について「考えている」ことを示すニューロンセットをマッピングした。さらに、同様のニューロンセットが発火すると、ゴールデンゲートブリッジに関連する主題、つまりアルカトラズ島、カリフォルニア州知事ギャビン・ニューサム、サンフランシスコを舞台としたヒッチコック映画『めまい』を想起させた。結局、チームは数百万もの特徴を特定した。これは、クロードのニューラルネットワークを解読するための一種のロゼッタストーンである。内容の多くは安全に関するもので、「何らかの下心を持って誰かに近づくこと」「生物兵器に関する議論」「世界を征服しようとする悪党の陰謀」などが含まれていた。

アントロピックチームは次のステップに進み、その情報を使ってクロードの行動を変えられるかどうかを試しました。彼らはニューラルネットワークを操作し、特定の概念を増強したり弱めたりしました。これは一種のAI脳手術のようなもので、LLMをより安全にし、特定の領域における能力を増強する可能性があります。「例えば、この特徴のボードがあるとします。モデルの電源を入れると、そのうちの1つが点灯し、『ああ、ゴールデンゲートブリッジについて考えているんだ』と分かります」と、チームに所属するアントロピックの科学者、シャン・カーターは言います。「そこで今、私たちはこう考えています。これらすべてに小さなダイヤルを付けたらどうなるだろうか? そして、そのダイヤルを回したらどうなるだろうか?」

これまでのところ、この問いへの答えは、ダイヤルを適切な量回すことが非常に重要であるということのようです。Anthropicによると、これらの特徴を抑制することで、モデルはより安全なコンピュータプログラムを生成し、バイアスを減らすことができます。例えば、研究チームは、安全でないコンピュータコード、詐欺メール、危険な製品の製造方法の説明など、危険な行為を示す特徴をいくつか発見しました。

画像にはテキスト、紙、ページが含まれている可能性があります

アントロピック提供

チームが意図的にこれらの危険なニューロンの組み合わせを発火させたとき、正反対のことが起こりました。クロードは危険なバッファオーバーフローバグや詐欺メールを仕掛けたコンピュータプログラムを次々と作成し、破壊兵器の作り方についても喜んでアドバイスしました。ダイヤルを回しすぎると(スパイナル・タップの意味で11まで回すと)、言語モデルはその特徴に執着するようになります。例えば、研究チームがゴールデンゲートブリッジの特徴に力を入れると、クロードは話題を絶えず変えて、あの壮大な橋について語りました。その物理的な形は何かと尋ねられると、法学修士はこう答えました。「私はゴールデンゲートブリッジです…私の物理的な形は、あの象徴的な橋そのものです。」

論文によると、アントロピック社の研究者らが憎悪や中傷に関連する特性を通常の20倍に増幅させたところ、「クロードは人種差別的な長文の発言と自己嫌悪を交互に繰り返した」ため、研究者らさえも不安に陥ったという。

これらの結果を踏まえ、AIの安全性向上に貢献することを目指しているAnthropicが、AIに大混乱を引き起こすためにも使えるツールキットを提供しているという、逆のことをしているのではないかと考えました。研究者たちは、ユーザーが望めば、そうした問題を引き起こすより簡単な方法は他にもあると断言しました。

LLMのブラックボックスを解明しようと取り組んでいるのは、アントロピックのチームだけではありません。ディープマインドにも、かつてオラー氏と研究していた研究者が率いるグループがあり、この問題に取り組んでいます。ノースイースタン大学のデイビッド・バウ氏が率いるチームは、オープンソースのLLM内で事実を識別・編集するシステムの開発に取り組んでいます。チームはこのシステムを「ローマ」と名付けました。研究者たちはたった一度の調整で、エッフェル塔がバチカンのすぐ向かいにあり、コロッセオから数ブロック離れているとモデルに納得させたからです。オラー氏は、より多くの人々が様々な手法を用いてこの問題に取り組んでいることを奨励しています。「2年半前には考えもしなかった、かなり心配していたアイデアでしたが、今ではこのアイデアを推進しようとする、それなりの規模のコミュニティに成長しました。」

アンスロピックの研究者たちは、OpenAIが自社の主要な安全性研究イニシアチブを解散したこと、そしてチームの共同リーダーであるヤン・ライケ氏が、十分な計算能力が得られず「逆風に逆らって航海している」と述べたことについて、コメントを避けた。(OpenAIはその後、安全性への取り組みを改めて表明している。)一方、アンスロピックのディクショナリーチームは、膨大な計算能力の要件が同社のリーダーたちの抵抗なく満たされたと述べている。「決して安くはありません」とオラー氏は付け加える。

アントロピックの研究はまだ始まりに過ぎない。研究者たちにブラックボックス問題を解決したと主張しているのかと尋ねたところ、彼らの答えは即座に全員一致で「ノー」だった。そして、本日発表された発見には多くの限界がある。例えば、クロードの特徴を特定するために用いた手法は、必ずしも他の大規模言語モデルの解読に役立つわけではない。ノースイースタン大学のバウ氏は、アントロピックチームの研究に興奮しており、とりわけモデルの操作に成功したことは「意味のある特徴を発見しているという素晴らしい兆候だ」と述べている。

しかし、バウ氏は、このアプローチの限界によって熱意が薄れていると述べている。辞書学習では、法学修士(LLM)が扱う概念のほぼ全てを識別することはできないと彼は言う。なぜなら、ある特徴を識別するには、それを探さなければならないからだ。そのため、全体像は不完全になるのは避けられないが、アントロピック社は、より大きな辞書があればこの点は軽減されるかもしれないと述べている。

それでも、アントロピックの研究はブラックボックスに亀裂を生じさせたようだ。そして、光明が差し込む。