ゲーム理論がAIの信頼性を高める方法

ゲーム理論がAIの信頼性を高める方法

この物語 のオリジナル版はQuanta Magazineに掲載されました。

同じ質問に対して、質問の仕方によって答えが変わる友人がいると想像してみてください。「ペルーの首都はどこ?」と聞かれたら、答えは一つで、「リマはペルーの首都ですか?」と聞かれたら、答えは違います。あなたはきっと友人の精神状態を少し心配し、どんな答えもほとんど信用できないと感じるでしょう。

ChatGPTをはじめとする驚異的な人工知能を支える超強力な機械学習ツールである大規模言語モデル(LLM)の多くで、まさにそれが起こっています。生成的な質問、つまり自由回答形式の質問は一つの答えを導き出しますが、識別的な質問、つまり選択肢から一つを選ぶ質問は、しばしば異なる答えを導き出します。「同じ質問でも言い回しが違うと、矛盾が生じます」と、マサチューセッツ工科大学の博士課程学生、アスル・ポール・ジェイコブ氏は述べています。

言語モデルの回答の一貫性を高め、モデル全体の信頼性を高めるために、ジェイコブ氏と彼の同僚は、モデルの2つのモードが合意できる回答を見つけるように促すゲームを考案しました。「コンセンサスゲーム」と呼ばれるこのシンプルな手順は、LLMをゲーム理論のツールを用いて自己対戦させ、モデルの精度と内部一貫性を向上させます。

「これらのモデルにおける自己一貫性を探る研究はこれまで非常に限られていました」と、ロボット工学企業Field AIの最高科学責任者であるシャイガン・オミシャフィエイ氏は述べています。「本論文は、言語モデルが自らと対戦するゲームを作成することで、この問題に巧妙かつ体系的に取り組んだ最初の研究の一つです。」

「本当に刺激的な研究です」と、Google Researchの研究科学者であるアフマド・ベイラミ氏は付け加えた。「何十年もの間、言語モデルは同じようにプロンプ​​トに対する応答を生成してきました。MITの研究者たちは、このプロセスにゲームを取り入れるという斬新なアイデアによって、全く異なるパラダイムを導入しました。これは、新たな応用が次々と生まれる可能性を秘めています。」

遊びを仕事に活かす

ゲームを用いてAIを向上させるというこの新たな研究は、AIプログラムの成功をゲームの習熟度で測っていた従来のアプローチとは対照的である。例えば1997年、IBMのコンピューター「ディープ・ブルー」はチェスのグランドマスター、ガルリ・カスパロフに勝利した。これはいわゆる思考機械にとって画期的な出来事だった。19年後、Google DeepMindのプログラム「アルファ碁」は、囲碁の元チャンピオン、イ・セドルに5戦中4勝を挙げ、人間がもはや優位に立たない別の分野を明らかにした。チェッカー、2人用ポーカー、そして片方のプレイヤーの勝利が必ずもう片方のプレイヤーを破滅させる「ゼロサムゲーム」においても、機械は人間を凌駕している。

画像には写真、顔、幸せそうな顔、人物、笑顔、ポートレート、帽子、衣類、帽子、アクセサリー、メガネなどが含まれている場合があります。

Athul Paul Jacob 氏は、大規模な言語モデルの精度と信頼性を向上させる方法を提供するコンセンサス ゲームの考案に貢献しました。

写真:ベンジャミン・ラーナー

AI研究者にとって、はるかに大きな課題となったのは「ディプロマシー」というゲームでした。ジョン・F・ケネディやヘンリー・キッシンジャーといった政治家が好んで使っていたゲームです。このゲームでは、対戦相手は2人ではなく、7人のプレイヤーが参加し、その動機は読みにくいものです。勝つためには、プレイヤーは交渉を行い、誰もがいつでも破棄できる協力関係を築く必要があります。ディプロマシーは非常に複雑なため、2022年にMetaのグループが開発したAIプログラム「Cicero」が40回のゲームを通して「人間レベルのプレイ」を実現したことを喜んでいました。世界チャンピオンを破ることはできませんでしたが、Ciceroは人間の参加者を相手に上位10%に入るほどの成績を収めました。

プロジェクト中、Metaチームのメンバーであるジェイコブは、Ciceroが他のプレイヤーとの会話を生成するために言語モデルに依存しているという事実に衝撃を受けました。彼はそこに未開拓の可能性を感じたのです。チームの目標は「このゲームをプレイするために、できる限り最高の言語モデルを構築すること」だったと彼は言います。しかし、もし彼らが大規模な言語モデルの性能を向上させるために、できる限り最高のゲームを構築することに焦点を当てていたらどうなるでしょうか?

合意に基づく交流

2023年、ジェイコブはMITでその問いを追求し始め、イーカン・シェン、ガブリエーレ・ファリーナ、そして指導教官のジェイコブ・アンドレアスと共に、後にコンセンサスゲームとなるものを考案しました。その核となるアイデアは、2人の人間の会話を協力ゲームとして想像することから生まれました。会話の成功は、聞き手が話し手の伝えようとしていることを理解したときに得られるというものです。特に、コンセンサスゲームは、言語モデルの2つのシステム、つまり生成的な質問を処理するジェネレータと、識別的な質問を処理するディスクリミネータを連携させるように設計されています。

数ヶ月にわたる試行錯誤を経て、チームはこの原理を完全なゲームへと発展させました。まず、ジェネレーターは質問を受け取ります。質問は人間からのものでも、既存のリストからのものでも構いません。例えば、「バラク・オバマはどこで生まれましたか?」といった質問です。するとジェネレーターは、ホノルル、シカゴ、ナイロビといった候補となる回答を受け取ります。これらの選択肢も、人間からのもの、リスト、あるいは言語モデル自体が実行した検索から得られるものなど、多岐にわたります。

しかし、答える前に、ジェネレーターには、公平なコイントスの結果に応じて、質問に正しく答えるべきか、間違って答えるべきかも伝えられます。

表が出た場合、機械は正解しようとします。生成器は元の質問と選択した回答を識別器に送信します。識別器が生成器が意図的に正解を送信したと判断した場合、一種のインセンティブとして、それぞれに1ポイントが与えられます。

コインが裏を出した場合、生成器は間違った答えだと判断したものを送信します。識別器が意図的に間違った答えが与えられたと判断した場合、両者は再びポイントを獲得します。ここでの目的は、合意を促すことです。「犬に芸を教えるようなものです」とジェイコブは説明しました。「正しいことをしたらご褒美を与えるのです。」

生成器と識別器も、それぞれいくつかの初期の「信念」から始めます。これらは、さまざまな選択肢に関連する確率分布の形をとります。たとえば、生成器は、インターネットから収集した情報に基づいて、オバマがホノルルで生まれた確率が 80%、シカゴで生まれた確率が 10%、ナイロビで生まれた確率が 5%、その他の場所で生まれた確率が 5% であると信じる場合があります。識別器は、異なる分布から開始する場合があります。2 人の「プレーヤー」は、合意に達した場合に報酬が与えられますが、元の信念から大きく逸脱した場合はポイントが減点されます。この仕組みにより、プレーヤーは、これもインターネットから得た世界についての知識を回答に取り入れることが奨励され、モデルの精度が向上します。このような仕組みがなければ、彼らはデリーのように完全に間違った答えに同意してしまうかもしれませんが、それでもポイントを獲得する可能性があります。

ゲーム理論がAIの信頼性を高める方法

モジュール: メリル・シャーマン/クォンタ・マガジン

それぞれの質問に対して、2つのシステムは約1,000回の対戦を行います。この多数の反復を通して、双方は相手の信念を学び、それに応じて戦略を修正していきます。

最終的に、生成器と識別器はナッシュ均衡と呼ばれる状態に落ち着き、より一致し始めます。これはゲーム理論における中心的な概念と言えるでしょう。これはゲームにおける一種の均衡、つまり、どのプレイヤーも戦略を変えても個人的な結果を改善できない点を表しています。例えば、じゃんけんでは、3つの選択肢をそれぞれ3分の1ずつ選んだ場合、プレイヤーは最も良い結果を得られます。他の戦略を選んだ場合、必ず悪い結果になります。

コンセンサスゲームでは、この現象は様々な形で現れます。例えば、生成器がオバマ氏の出生地として「ホノルル」という単語を送信するたびに、識別器は「正解」と答えることでポイントを獲得できると認識するかもしれません。生成器と識別器は、繰り返しプレイすることで報酬が得られることを学習し、どちらも他の行動をとる動機を持たなくなります。このコンセンサスは、この問題に対するナッシュ均衡の多くの可能性の一例です。MITの研究グループは、プレイヤーの事前信念を組み込んだ修正版のナッシュ均衡も利用しました。これにより、プレイヤーの回答が現実に即したものになります。

研究者らは、このゲームをプレイすることで、言語モデルの精度が向上し、質問の仕方に関わらず同じ答えを出す可能性が高くなることを観察した。コンセンサスゲームの効果を検証するため、研究チームは70億から130億のパラメータを持つ様々な中規模言語モデルを用いて、一連の標準的な質問を試した。これらのモデルは、ゲームをプレイしていないモデル、さらには最大5400億のパラメータを持つはるかに大規模なモデルと比較しても、常に高い正答率を得た。ゲームをプレイすることで、モデルの内部一貫性も向上した。

原理的には、どのLLMでも自分自身と対戦することでメリットを得ることができ、標準的なノートパソコンであれば1,000ラウンドを数ミリ秒で実行できます。「このアプローチ全体の大きな利点は、計算量が非常に少なく、ベースとなる言語モデルのトレーニングや修正を必要としないことです」とオミシャフィエイ氏は述べています。

言語でゲームをする

この最初の成功の後、ジェイコブ氏は現在、ゲーム理論を LLM 研究に取り入れる他の方法を調査している。予備的な結果では、すでに強力な LLM は、任意の数のより小さなモデルを使った別のゲーム (暫定的にアンサンブル ゲームと呼ぶ) を行うことで、さらに改善できることが示されている。主な LLM には、味方となるより小さなモデルが少なくとも 1 つと、敵対する役割を果たすより小さなモデルが少なくとも 1 つ含まれる。主な LLM に米国大統領の名前を答えるように指示すると、味方と同じ答えを選んだ場合にポイントが得られ、敵対する答えと異なる答えを選んだ場合にもポイントが得られる。テストの結果、はるかに小さなモデルとのこうした相互作用によって LLM のパフォーマンスが向上するだけでなく、追加のトレーニングやパラメータの変更なしでそれが実現できることが示唆されている。

画像には、大人、人物、衣服、コート、ジャケット、ベンチ、家具、頭、顔、写真、ポートレート、草が含まれている可能性があります。

Ian Gemp はゲーム理論を現実世界の設定に取り入れ、大規模な言語モデルを戦略的な状況で役立てることを可能にします。

写真:ジャスティン・フラットリー

そして、これはほんの始まりに過ぎません。様々な状況をゲームとして捉えることができるため、ゲーム理論のツールは様々な現実世界の状況に応用できると、Google DeepMindの研究科学者であるイアン・ジェンプ氏は述べています。2024年2月に発表された論文では、ジェンプ氏と同僚は、単なる質問と回答ではなく、より精緻なやり取りを必要とする交渉シナリオに焦点を当てました。「このプロジェクトの主な目的は、言語モデルをより戦略的なものにすることです」と彼は述べています。

彼が学術会議で議論した一例は、論文誌や学会への受理を審査するプロセス、特に最初の投稿が厳しい審査を受けた後のプロセスだ。言語モデルは様々な回答に確率を割り当てるため、研究者はポーカーゲーム用に設計されたものと同様のゲームツリーを構築できる。ゲームツリーは、利用可能な選択肢とその起こりうる結果を図示する。「これを実行すれば、ナッシュ均衡を計算し、反論の順位付けを開始できます」とゲンプ氏は述べた。このモデルは基本的に、「これはあなたが返答すべきだと私たちは考えています」と読者に教えてくれる。

ゲーム理論の知見を活用することで、言語モデルは質問と回答型の問題に限定されることなく、より高度なインタラクションを処理できるようになるでしょう。「今後の大きな成果は、より長い会話に関係しています」とアンドレアス氏は述べました。「次のステップは、AIが単なる言語モデルではなく、人間と対話できるようにすることです。」

ジェイコブ氏は、DeepMindの研究をコンセンサスゲームやアンサンブルゲームを補完するものと捉えている。「高レベルでは、どちらの手法も言語モデルとゲーム理論を組み合わせています」と彼は述べたが、目標は多少異なる。ジェンプ研究グループが戦略的な意思決定を支援するために、ありふれた状況をゲーム形式に落とし込んでいるのに対し、ジェイコブ氏は「私たちはゲーム理論に関する知識を活用して、一般的なタスクにおける言語モデルを改良しています」と述べた。

現時点では、これらの取り組みは「同じ木の二つの枝」、つまり言語モデルの機能を強化する二つの異なる方法を表しているとジェイコブ氏は述べた。「私のビジョンでは、1、2年後には、この二つの枝が合流するでしょう。」


オリジナルストーリーは、数学、物理科学、生命科学の研究の進展や動向を取り上げることで科学に対する一般の理解を深めることを使命とする、 シモンズ財団の編集上独立した出版物であるQuanta Magazineから許可を得て転載されました。