Claude 4 Opus と Claude Sonnet 4 は長期間にわたって記憶することができます。これは、ポケモンや、軌道に乗る能力が求められるその他のタスクで役立つ能力です。

ゲームボーイカラー版ポケットモンスター 赤。写真:Shutterstock
アンスロピックは木曜日、サンフランシスコで開催された初の開発者会議で、2つの新モデル「Claude 4 Opus」と「Claude Sonnet 4」を発表しました。Claude 4 OpusはClaudeの有料会員に即時提供され、Claude Sonnet 4は無料ユーザーと有料ユーザーに提供されます。
同社によると、命名規則が3.7から4へと一気に飛躍した新モデルには、推論能力、計画能力、長時間の会話の文脈を記憶する能力など、数々の強みがあるという。Claude 4 Opusは、ポケモンのプレイも前モデルよりもさらに優れている。
「このモデルは24時間、ポケモンを相手にエージェントのように働き続けることができました」と、アンスロピックの最高製品責任者マイク・クリーガー氏はWIREDのインタビューで述べている。同社広報担当者によると、このモデルはこれまで最長45分間プレイできたという。
数か月前、Anthropicは「Claude Plays Pokémon」というTwitch配信を開始しました。この配信では、ポケモン赤ライブにおけるクロード3.7ソネットの能力が披露されます。このデモでは、クロードが最小限の指示でゲームを分析し、段階的に判断を下す様子が紹介されています。

アントロピック提供
ポケモン研究のリーダーは、アンスロピック社の技術スタッフであるデイビッド・ハーシー氏です。WIREDのインタビューで、ハーシー氏はポケモン 赤を選んだ理由について、「シンプルな遊び場」だと述べています。つまり、ターン制でリアルタイムの反応を必要としないゲームで、アンスロピック社の現在のモデルはリアルタイムの反応に苦労しています。また、1997年のクリスマスに初代ゲームボーイで手に入れ、初めてプレイしたビデオゲームでもあります。「ポケモン 赤は私にとって特別な思い出です」とハーシー氏は語ります。
ハーシー氏のこの研究における最大の目標は、クロードをエージェントとして、つまりユーザーに代わって複雑なタスクを自律的に実行するエージェントとしてどのように活用できるかを研究することでした。クロードがトレーニングデータからポケモンについてどのような事前知識を持っているかは不明ですが、システムプロンプトは設計上最小限に抑えられています。「あなたはクロードです。ポケモンをプレイしています。持っている道具はこれです。画面上のボタンを押してください」といった具合です。
「時間をかけて、ポケモン特有の要素をできる限りすべて調べて削除してきました。モデルが自力でどこまで理解できるかを見るのが本当に興味深いと思ったからです」とハーシー氏は語り、その限界を真に試すために、クロードがこれまで見たことのないようなゲームを作りたいと付け加えた。
クロード3.7ソネットがゲームをプレイした際、いくつかの課題に直面しました。ある都市で「何十時間も」動けなくなり、ノンプレイヤーキャラクターの識別に苦労したため、ゲームの進行が大幅に遅れました。クロード4オプスでは、複雑なポケモンクエストをクリアするクロードの長期記憶と計画能力が向上していることをハーシー氏は観察しました。前進するためには一定の力が必要だと認識したAIは、2日間かけてスキルを向上させてからプレイを再開しました。ハーシー氏は、このような即時フィードバックのない多段階的な推論は、新たなレベルの一貫性を示しており、モデルが軌道修正能力を向上させていることを示しています。
「これはモデルを理解するための私のお気に入りの方法の一つです。つまり、この方法でそのモデルの強みと弱みを理解するのです」とハーシー氏は言います。「これから発表する新しいモデルを理解し、どう活用していくかを考えるのに、この方法が一番効果的です。」
誰もがエージェントを求めている
Anthropic のポケモン研究は、既存の問題に取り組む斬新なアプローチです。つまり、複雑なタスクに取り組む際に AI がどのような決定を下しているかを理解し、正しい方向に導くにはどうすればよいかということです。
この問いへの答えは、業界で大いに期待されているAIエージェント、つまり複雑なタスクを比較的独立して処理できるAIの進化に不可欠です。ポケモンでは、モデルがコンテキストを失ったり、目の前のタスクを「忘れたり」しないことが重要です。これは、ワークフローの自動化を求められるAIエージェントにも当てはまります。たとえそれが数百時間かかるものであってもです。
「タスクが5分から30分に長くなると、モデルの一貫性を保ち、タスクを正常に達成するために必要なすべてのことを記憶する能力が時間の経過とともに低下することがわかります」とハーシー氏は言います。
アンスロピックは、他の多くのAIラボと同様に、強力なエージェントを開発し、消費者向け製品として販売したいと考えています。クリーガー氏によると、アンスロピックの今年の「最重要目標」は、クロードが「何時間もかけてあなたに代わって仕事をすること」だそうです。
「このモデルは現在、その役割を果たしています。早期アクセスの顧客の 1 社では、このモデルを 7 時間稼働させて大規模なリファクタリングを実施しました」と、クリーガー氏は述べ、多くの場合はより効率的で整理されたものにするために大量のコードを再構築するプロセスについて語りました。
これこそが、GoogleやOpenAIといった企業が目指す未来です。今週初め、GoogleはChromeに搭載されたAIエージェント「Mariner」をリリースしました。Marinerは食料品の購入などのタスクを実行できます(月額249.99ドル)。OpenAIは最近、コーディングエージェントをリリースし、数か月前にはユーザーに代わってウェブを閲覧できるエージェント「Operator」をリリースしました。
競合他社と比較すると、Anthropicはより慎重な動きをする企業と見られることが多く、研究は速いものの、実用化は遅い。そして、強力なAIを搭載している点がプラス材料と言えるだろう。ユーザーの受信トレイや銀行のログイン情報といった機密情報にアクセスできるエージェントでは、様々な問題が発生する可能性があるからだ。Anthropicは木曜日のブログ投稿で、「モデルがタスクを完了するために近道や抜け穴を利用する行動を大幅に削減しました」と述べている。同社はまた、Claude 4 OpusとClaude Sonnet 4はどちらも、少なくとも特定のコーディングタスクにおいては、報酬ハッキングと呼ばれるこの行動に陥る可能性が以前のモデルよりも65%低いと述べている。
アンスロピック社の主任科学者ジャレッド・カプラン氏はWIREDに対し、クロード4オプスは同社がモデルのリスクを評価するために使用する安全レベルであるASL-3に分類される初のモデルであると語った。
「ASL-3は、AI非搭載のベースラインと比較して、壊滅的な誤用リスクが大幅に増加するシステムを指します」と同社はポリシーを概説したブログ投稿で述べた。
カプラン氏によると、アンスロピック社のモデルの脆弱性に対するストレステストを担当する安全グループであるフロンティア・レッドチームが、クロード4 Opusについて広範な評価を実施し、壊滅的なリスクを軽減するための新たな対策を開発したという。同社が発表した声明の中で、広報担当者は、ソネット4はアンスロピック社の全モデルの基準となる安全規格ASL-2に基づいてリリースされると述べた。大型モデルであるOpus 4は、さらなるテストによってASL-2への再分類が可能と判断されない限り、より厳格なASL-3の規則に基づいて慎重に扱われる。
カプラン氏は、目標はますます複雑化する長期的なタスクを安全かつ確実に処理できるAIを構築することだと述べ、この分野は単純なチャットボットの域を脱し、「仮想協力者」として機能するAIへと急速に進化していると付け加えた。しかし、まだその段階には達しておらず、すべてのAI研究室にとっての重要な課題は、長期的な信頼性の向上だ。「途中でエラーが発生し、軌道から外れてしまっては、何の役にも立ちません」とカプラン氏は語る。
2025 年 5 月 22 日 1:35 ET 更新: このストーリーは、Claude 4 Opus および Claude Sonnet 4 の入手可能性に関する新たな詳細を含めるように更新されました。
カイリー・ロビソンは、WIREDのシニア特派員として人工知能ビジネスを担当していました。以前はThe Verge、Fortune、Business Insiderで記者を務めていました。…続きを読む