AIエージェント時代には新たなゲーム理論が必要

AIエージェント時代には新たなゲーム理論が必要

カーネギーメロン大学の教授であり、OpenAIの役員でもあるジコ・コルター氏は、AIエージェント同士が相互作用することの危険性と、モデルが攻撃に対してより耐性を持つ必要がある理由についてWIREDに語った。

注意テープの上に並んで、協力して作業している人々を上から見た写真イラスト。

写真イラスト:WIREDスタッフ/ゲッティイメージズ

ジーコ・コルターは、人工知能を興味深く重要な方法で誤動作させる才能に長けています。カーネギーメロン大学の彼の研究グループは、高度なAIモデルを騙し、挑発し、混乱させて最悪の状態に陥らせる数々の手法を発見しました。

コルター氏はカーネギーメロン大学(CMU)の教授であり、AIセキュリティを専門とするスタートアップ企業Gray Swanの技術顧問を務め、2024年8月には世界有数のAI企業OpenAIの取締役に就任しています。商用AIモデルのジェイルブレイク(脱獄)手法の先駆的開発に加え、コルター氏は本質的により安全な独自のモデルを設計しています。AIがより自律的になるにつれ、コルター氏はAIエージェントが、特にAIエージェント同士が対話を始める際に、特有の課題を突きつける可能性があると考えています。

コルター氏はWIREDのシニアライター、ウィル・ナイト氏にインタビューを行いました。会話は長さと明瞭性を考慮して編集されています。

ウィル・ナイト:あなたの研究室では現在何に取り組んでいますか?

Zico Kolter:私のグループが取り組んでいることの一つは、モデルの安全な学習です。モデルを破壊し、保護を回避する方法の解明に注力していますが、同時に、そのような攻撃に対して本質的にはるかに耐性のあるモデルを構築するにはどうすればいいのかという疑問も生じます。

私たちは、より本質的に安全なモデル群を構築しています。これらのモデルは、7000億パラメータ(一部のフロンティアモデルのような規模)ではなく、数十億パラメータです。しかし、これらはゼロから学習する必要があり、これらの(大規模言語モデル)の完全な事前学習は、たとえ10億パラメータのモデルであっても、実際には非常に計算負荷の高い作業です。

CMUはGoogleとの提携を発表しました。これにより、大学に提供されるコンピューティング能力が大幅に増加します。これはあなたの研究にとってどのような意味を持つのでしょうか?

機械学習はますます計算負荷が高くなっています。学術研究は、大規模な産業界が持つようなリソースを得ることは決してできません。しかし、そのようなリソースなしではやっていけない段階に達しつつあります。開発中の技術を実証するだけでも、ある程度のリソースが必要なのです。

産業界が保有するGPUの数と同じではありませんが、研究者が研究を行う上で、より多くのコンピューティング能力が不可欠になりつつあります。そして、Googleとのこのパートナーシップは、CMUの研究機関として私たちができることを大きく前進させるものです。

あなたの研究が示すように、 強力なAIモデルであっても、依然としてジェイルブレイクに対して脆弱であることが多いようです。これは、プログラムがコンピューター、ウェブ、さらには現実世界で行動を起こすエージェントの時代において、何を意味するのでしょうか?

AIとセキュリティについて講演する際、私はAIエージェントの例を最初に挙げる傾向があります。チャットボットだけであれば、リスクは非常に低いです。チャットボットが車のホットワイヤーのやり方を教えたとしても、本当に問題になるでしょうか?おそらくそうではありません。その情報はすでにインターネット上に出回っているからです。

しかし、より高性能なモデルでは必ずしもそうとは限りません。チャットボットの能力が向上するにつれて、それらの推論能力自体が有害となる可能性は確かに存在します。非常に高性能なモデルがもたらす真のリスクを軽視するつもりはありません。

同時に、エージェントにはリスクが直接的に存在します。モデルが単なる箱ではなく、現実世界で行動を起こすことができる場合、つまりエンドエフェクタによって世界を操作できる場合、リスクはさらに深刻になると思います。

私たちはこの点で進歩を遂げており、はるかに優れた[防御]技術を開発していますが、基盤となるモデルを破ってしまうと、基本的にバッファオーバーフロー(ソフトウェアをハッキングする一般的な方法)と同等の事態に陥ってしまいます。エージェントは第三者に悪用され、システムの意図された機能を悪意を持って制御したり、何らかの方法で回避したりされる可能性があります。エージェントを安全にするためには、これらのシステムを保護できなければなりません。

これは、AI モデル自体が脅威になるということとは異なりますよね?

現状のモデルでは、制御不能などのリスクは実際には存在しません。むしろ将来の懸念事項です。しかし、人々がこの問題に取り組んでいることを大変嬉しく思います。これは非常に重要な問題だと思います。

それでは、エージェントシステムの使用の増加について、私たちはどの程度心配すべきなのでしょうか?

私の研究グループ、私のスタートアップ、そしてOpenAIが最近発表したいくつかの出版物(例えば)において、こうした問題のいくつかを軽減する上で大きな進歩が見られました。私たちは実際に、これらすべてをより安全に行う方法を確立するための妥当な道を歩んでいると考えています。課題は、エージェントを進化させる中で、安全性の進歩が足並みを揃えて進むようにすることです。

率直に言って、現在目にしている[エージェントシステムに対するエクスプロイト]のほとんどは、エージェントがまだ初期段階にあるため、実験的なものに分類されるでしょう。通常、ユーザーはどこかでそのループに関与しています。メールエージェントが「あなたの財務情報をすべて送ってください」というメールを受信した場合、メールを送信する前にユーザーに警告を発するでしょう。そして、おそらくその場合、エージェントは騙されることさえないでしょう。

多くのエージェントリリースには、セキュリティリスクの高い状況において人間による操作を強制する明確なガードレールが設けられています。例えば、OpenAIのOperatorをGmailで使用する場合、人間による手動操作が必要になります。

最初にどのようなエージェントのエクスプロイトが見られるのでしょうか?

エージェントが不適切な方法で接続された場合、データ流出などの事例が報告されています。もし私のエージェントが私のすべてのファイルとクラウドドライブにアクセスでき、リンクへのクエリも実行できるなら、これらのデータをどこかにアップロードできるはずです。

これらは現在まだデモンストレーション段階ですが、それは単にまだ導入されていないというだけのことです。そして、間違いなく導入されるでしょう。これらのシステムはより自律的になり、より独立性を高め、ユーザーの監視は少なくなります。なぜなら、エージェントが何かを行うたびに「同意」「同意」「同意」とクリックする手間を省きたいからです。

異なるAIエージェントがコミュニケーションを取り、交渉する姿が見られるようになるのも避けられないように思われます。そうなると何が起こるのでしょうか?

まさにその通りです。望むと望まざるとに関わらず、私たちはエージェント同士が相互作用する世界に足を踏み入れることになります。複数のエージェントが、異なるユーザーのために世界と相互作用することになります。そして、これらのエージェント間の相互作用の中で、新たな特性が生まれることは間違いありません。

この分野で私が最も興味を持っていることの一つは、人間のためのゲーム理論を、エージェント間の相互作用、そしてエージェントと人間の相互作用にどのように拡張するかということです。これは非常に興味深いことであり、この様々な知能システムのネットワークが実際にどのように現れるのかをより深く理解する必要があると考えています。

人間社会がどのように構築されるかについては、長年の経験から豊富な知識を持っています。しかし、異なる目的、異なる目的を持つ異なるAIエージェントが相互作用し始めたときに何が起こるかについては、私たちの理解ははるかに乏しいのです。

AI エージェントのコミュニティは比較的簡単に操作できる可能性があることを示唆する研究について書きました。

これは科学的にも商業的にもほとんど未開拓の分野であり、非常に価値のある空間です。ゲーム理論は、第二次世界大戦、そしてその後の冷戦期に大きく発展しました。現在の状況をこれに当てはめるつもりはありませんが、世界の仕組みに大きな変化が生じると、そのような状況下で私たちがどのように行動するかを説明する新しい理論が必要になることがよくあります。そして、AIシステムに伴うリスクを理解するためにも、新しいゲーム理論が必要だと考えています。なぜなら、従来のモデリングでは、ここに存在する多様な可能性を十分に捉えきれないからです。

  • 受信箱に届く:ウィル・ナイトのAIラボがAIの進歩を探る

ウィル・ナイトはWIREDのシニアライターで、人工知能(AI)を専門としています。AIの最先端分野から毎週発信するAI Labニュースレターを執筆しています。登録はこちらから。以前はMIT Technology Reviewのシニアエディターを務め、AIの根本的な進歩や中国のAI関連記事を執筆していました。続きを読む

続きを読む