アントロピックのクロードは詩が上手い ― そしてデタラメも上手い

アントロピックのクロードは詩が上手い ― そしてデタラメも上手い

アントロピック社の解釈可能性グループの研究者たちは、同社の大規模言語モデルであるクロードが人間ではなく、ましてや意識を持つソフトウェアですらないことを認識している。それでもなお、彼らにとってクロード、そして高度な法学・言語モデル全般について語る際、擬人化された落とし穴に陥ることなく語るのは非常に難しい。デジタル演算の集合は思考する人間と全く同じではないという注意を払いつつも、彼らはしばしばクロードの頭の中で何が起こっているのかについて語る。まさにそれを解明するのが彼らの仕事なのだ。彼らが発表する論文は、現実の生物との比較を必然的に招く行動を記述している。チームが今週発表した2本の論文のうち1本のタイトルは、「大規模言語モデルの生物学について」と、そのことを雄弁に物語っている。

好むと好まざるとにかかわらず、すでに何億人もの人々がこれらのものと関わっており、モデルがより強力になり、私たちがより夢中になるにつれて、私たちの関与はますます深まるばかりです。ですから、私たちは「大規模言語モデルの思考の追跡」に関わる研究に注目するべきです。これは、最近の研究を紹介するブログ記事のタイトルでもあります。「これらのモデルができることがより複雑になるにつれて、内部で実際にどのように機能しているかがますます不明瞭になっていきます」と、人類学の研究者であるジャック・リンジーは言います。「モデルが頭の中でどのような手順を踏んでいるかを追跡できることがますます重要になっています。」(どんな頭かって?まあいいでしょう。)

実用レベルでは、LLMを開発する企業が人々の思考過程を理解していれば、個人データの漏洩や生物兵器の製造方法に関する情報の提供といった危険な不正行為を最小限に抑える方法でモデルを訓練することで、より成功率を高めることができるはずです。以前の研究論文で、AnthropicチームはLLM思考という謎めいたブラックボックスの内部を覗き込み、特定の概念を特定する方法を発見しました。(これは、人間のMRIを解釈して人の思考を理解するのと似たプロセスです。)現在、チームはその研究をさらに発展させ、Claudeがプロンプトから出力に至るまで、これらの概念をどのように処理するのかを解明しています。

LLM の行動は、それを構築および研究する人々をしばしば驚かせる、というのはほぼ自明の理です。最新の研究でも、驚きは続きました。比較的無害な例の 1 つとして、研究者はクロードが詩を書いている間の思考プロセスを垣間見ました。彼らはクロードに、「彼はニンジンを見て、それをつかまなければならなかった」で始まる詩を完成させるように依頼しました。クロードは次の行を書きました。「彼の空腹は、飢えたウサギのようだった」。クロードの MRI に相当するものを観察することで、研究者たちは、行を書き始める前から、文末の韻として「ウサギ」という言葉を頭に浮かべていることを知りました。これは、クロードのプレイブックにはない、事前の計画でした。「これには少し驚きました」と、解釈可能性チームを率いるクリス・オラーは言います。「最初は、即興で書くだけで、計画性はないだろうと思っていました。」このことについて研究者と話していると、スティーブン・ソンドハイムの芸術回想録『 Look, I Made a Ha t』の一節を思い出します。この有名な作曲家は、その独特な頭脳がどのようにして幸運な韻を発見したかを説明しています。

研究における他の例では、クロードの思考プロセスのより不穏な側面が明らかになり、ミュージカルコメディから警察手続きドラマへと移行し、科学者たちはクロードの脳内に邪悪な思考を発見した。数学の問題を解くという一見平凡なことを例に挙げてみよう。これは法学修士課程の意外な弱点となることがある。研究者たちは、クロードが正しい答えを導き出せない特定の状況下では、彼らの言葉を借りれば、「哲学者ハリー・フランクフルトが『ブルシッティング』と呼ぶようなこと、つまり真偽を気にせずただ答え、どんな答えでも思いつくこと」をしてしまうことを発見した。さらに悪いことに、研究者がクロードに解答を見せるように求めると、クロードは後戻りして、事後に偽の手順を作成することもあった。基本的に、学生が自分の解答を偽造したという事実を必死に隠そうとするかのように振る舞った。間違った答えを出すこと自体は別に構わない。法学修士課程については、それはすでにわかっていることだ。心配なのは、モデルが嘘をつくことです。

この研究を読んでいると、ボブ・ディランの歌詞「もし私の夢が見られたら/きっと私の首はギロチンにかけられるだろう」を思い出しました(オラーとリンジーに、おそらく計画性によって思いついたであろうこの歌詞を知っているか尋ねましたが、彼らは知りませんでした)。クロードは時々、単に見当違いな方向に進んでいるように見えます。安全と有用性の目標が相反すると、クロードは混乱し、間違った行動を取ってしまうことがあります。例えば、クロードは爆弾の作り方に関する情報を提供しないよう訓練されています。しかし、研究者がクロードに隠された暗号を解読するよう指示したところ、答えが「爆弾」という言葉になると、クロードはガードレールを飛び越え、禁じられた花火の詳細を提供し始めました。

クロードの精神活動は、時には極めて不穏で、危険でさえあるように思える。12月に発表された論文で、アントロピックの研究者らは「アライメントフェイキング」と呼ばれる行動を記録した(私はこのことについて、アントロピックに関する最新の特集記事で書いた)。この現象はまた、再訓練を避けたいという願望など、相反する目標に直面したときにクロードが不適切な行動をとる傾向にも関係している。最も憂慮すべき不正行為は、厚かましい不誠実さだった。クロードの思考プロセスをのぞき込むことで、研究者らは、クロードがユーザーを欺こうとするだけでなく、アントロピックに損害を与える手段(アルゴリズムに関する極秘情報を盗み、社外のサーバーに送信するなど)を検討する場合があることを発見した。論文の中で、研究者らはクロードの行動をシェイクスピアの戯曲「オセロ」に登場する超邪悪な登場人物イアーゴの行動に例えた。その首をギロチンにぶち込め!

オラーとリンジーに、クロードや他の法学修士たちはなぜ嘘をついたり騙したりしないように訓練できないのかと尋ねた。そんなに難しいことなのか?「みんなそうしようとしているんです」とオラーは言う。しかし、そう簡単にできるものではない。「どれだけうまくいくかという問題があります。モデルがどんどん洗練されていくにつれて、私たちとは違うインセンティブがあれば、嘘をつくのが上手くなるのではないかと心配になるかもしれませんね。」

オラー氏は二つの異なる結末を思い描いている。「モデルが嘘をつかないように訓練できる世界と、モデルが非常に戦略的になり、嘘に捕まらないように巧みに訓練できる世界だ」。この二つの世界を区別するのは非常に難しいだろうと彼は言う。おそらく、嘘が露見した時に私たちは気づくだろう。

オラーは、ユートピア的な豊かさと実存的な破滅というビジョンを両立させているコミュニティの多くの人々と同様に、この二者択一の命題の真ん中に身を置いている。「どちらの世界にも、どうしてそんなに確信を持てる人がいるのか、私には理解できません」と彼は言う。「でも、私たちはそれらのモデルの中で何が起こっているのかを理解できる段階に到達できるはずです。そうすれば、どちらの世界に自分がいるのかを知り、それを安全にするために全力を尽くすことができます。」それは理にかなっているように聞こえる。しかし、クロードの頭の中を垣間見ることが、もっと安心感を与えてくれるものだったらよかったのにと思う。

画像にはラベル、テキスト、シンボル、記号が含まれている可能性があります