DeepMindがAIヒューマノイドをサッカーキャンプに派遣する理由

DeepMindがAIヒューマノイドをサッカーキャンプに派遣する理由

アルファベット傘下のAI企業は、仮想ゲームを利用して、自社のデジタル作品がより人間のように動くようにしている。

空気が抜けたサッカーボール3個の山

写真:ポール・テイラー/ゲッティイメージズ

DeepMind のAI にサッカーを教えようとする試みは、仮想選手が床の上でのたうち回るところから始まった。つまり同社はキックオフ直後から、サッカーの少なくとも 1 つの側面を完璧に理解していたことになる。 

しかし、走る、蹴るといった基本動作から、チームワークやタックルといった高次の概念に至るまで、この美しいゲームの仕組みを解明することは、はるかに困難であることが、アルファベット傘下のAI企業による新たな研究で明らかになった。今週、科学誌「サイエンス・ロボティクス」に掲載されたこの研究は、一見取るに足らないもののように思えるかもしれない。しかし、サッカーの基礎を学ぶことで、将来、ロボットがより自然で人間的な動きで世界を動き回れるようになるかもしれないのだ。

「サッカーを『解く』ためには、汎用人工知能(AGI)への道のりにある多くの未解決の課題を実際に解決しなければなりません」と、DeepMindの研究科学者であるガイ・レバー氏は語る。「ヒューマノイドの全身の制御、協調性(AGIにとっては非常に難しい)、そして低レベルの運動制御と長期計画といったものを実際に習得する必要があるのです。」

AIは人間のプレイヤーのあらゆる動きを再現しなければなりません。例えば、動いているボールにボールを当てるために、それぞれの手足や筋肉をどのように動かすかといった、意識的に考える必要のない動作さえも再現しなければなりません。1秒間に何百もの判断を下すのです。ブラウザゲーム『QWOP』をプレイしたことがある人なら誰でも覚えているでしょうが、最も基本的な動きでさえ、タイミングとコントロールを正確に把握するのは驚くほど難しいのです。「人間は無意識にそれを行いますが、AIにとっては非常に難しい問題であり、人間がどのようにそれを行っているのか、正確には分かっていません」とレバー氏は言います。

DeepMindのシミュレートされたヒューマノイドエージェントは、56個の関節と限られた可動範囲を持つ実在の人間をモデルにしており、例えばズラタン・イブラヒモビッチのように膝関節を不可能な角度に回転させることはできない。研究者たちはまず、エージェントに目標(例えば走る、ボールを蹴るなど)を与え、試行錯誤と強化学習を通して、そこに到達する方法を試行錯誤させ、それを理解させた。これは、過去に研究者がシミュレートされたヒューマノイドに障害物コースのナビゲーションを教えた際に行われていた手法と同じである(結果は滑稽で、かなり不自然だった)。

「これは実際にはうまくいきませんでした」と、ディープマインドの研究科学者で、リーバー氏との論文共著者の一人であるニコラス・ヒース氏は語る。問題の複雑さ、利用可能な選択肢の多さ、そしてタスクに関する事前知識の欠如により、エージェントはどこから始めればいいのか全く分からなかった。それが、身もだえしたり、ピクピクしたりする原因となったのだ。

そこでヒース、レバー、そして同僚たちは、ニューラル確率的モータープリミティブ(NPMP)という学習法を用いた。これはAIモデルをより人間に近い動作パターンへと導く学習法で、この基礎知​​識が仮想サッカー場をどのように動き回るかという問題の解決に役立つと期待された。「これは基本的に、運動制御を人間の現実的な行動、現実的な動きへと誘導するものです」とレバーは言う。「そして、これはモーションキャプチャ、つまりサッカーをする人間の俳優から学習したのです。」

これは「行動空間を再構成する」とレバー氏は言う。エージェントの動きは、人間のような体と、特定の方法でしか曲がらない関節によって既に制約されているが、生身の人間からのデータに触れることでさらに制約が加わり、問題の単純化に役立つ。「試行錯誤によって有用なものが発見される可能性が高くなります」とレバー氏は言う。NPMPは学習プロセスを加速させる。AIに人間と同じように物事をするように教えることと、AIが問題に対する独自の解決策を発見するのに十分な自由を与えることの間には「微妙なバランス」が必要だ。その解決策は、人間が自ら考え出した解決策よりも効率的かもしれない。

基礎トレーニングの後には、走る、ドリブルする、ボールを蹴るといったシングルプレイヤードリルが続き、これは人間が本格的な試合に臨む前に新しいスポーツを学ぶ様子を模倣したものです。強化学習の報酬は、ボールを持たずにターゲットをうまく追いかけることや、ターゲットの近くまでドリブルすることなどでした。このスキルカリキュラムは、より複雑なタスクへと自然に成長していく方法だったとレバー氏は言います。

目的は、エージェントがサッカー以外の環境で習得したスキルをサッカーの環境で再利用できるように促すことでした。つまり、様々な動作戦略を汎用化し、柔軟に切り替えることです。これらのドリルを習得したエージェントは教師として活用されました。AIが人間のモーションキャプチャから学習した内容を模倣するように促されたのと同様に、少なくとも最初は、教師エージェントが特定のシナリオで使用した戦略から大きく逸脱しないことに対しても報酬が与えられました。「これは実際にはアルゴリズムのパラメータであり、トレーニング中に最適化されます」とレバー氏は言います。「時間の経過とともに、原理的には教師への依存を減らすことができます。」

仮想選手のトレーニングが終わり、いよいよ試合開始です。シミュレーションの各ラウンドでエージェントが蓄積する経験値を最大化するため、2対2と3対3の試合からスタートします(これは、現実世界で若い選手がスモールサイドゲームから始める様子を模倣したものです)。ここで視聴できるハイライト映像は、公園でボールを追いかける犬のような混沌としたエネルギーに満ちています。選手たちは走るというよりは、よろめきながら前に進み、常に地面に倒れそうになっています。ゴールが生まれるのは、複雑なパス回しからではなく、フィールドへのパントキックや、フーズボールのようなバックウォールへのリバウンドから生まれます。

しかし、ゲームではエージェントはゴールを決めた場合にのみ報酬を得ていましたが、研究者たちはすぐにチームワークなどの特性が現れ始めたことに気づきました。「トレーニングのごく初期には、すべてのエージェントがただボールに向かって走るだけでした。しかし数日後のある時点で、エージェントがチームメイトの1人がボールをコントロールしていることに気づき、振り返ってピッチを駆け上がり、チームメイトがゴールを狙うか、あるいはパスを試みることを予測しているのが実際に確認できました」とレバー氏は言います。このような複雑で機敏に行動するAIで、このような連携とチームワークが見られたのは初めてです。「これは私にとって興味深いブレークスルーの一つです」とレバー氏は言います。

一体全体、何が目的なのでしょうか?ロボットワールドカップで優勝することが目的ではありません。ヒース氏は、エージェントが学習した低レベルのスキルの一部を物理的なロボットに組み込み、現実世界でより「安全で自然な」動きをさせることに取り組んでいます。これは、ロボットとやりとりする人間を怖がらせないためだけでなく、非構造化強化学習によって生じるぎくしゃくした不規則な動きが、そのような動きに最適化されていないロボットに損傷を与えたり、エネルギーを無駄にしたりする可能性があるためです。

これらはすべて、「具現化された知能」に関する研究の一環です。これは、汎用人工知能が何らかの物理的な形態で世界を動き回る必要があり、その形態の性質がその行動を決定する可能性があるという考え方です。「物理ベースのシミュレーションがますます多く取り入れられているシミュレーション世界だけでなく、ロボット学習のための手法の開発にも興味深い点があります」とヒース氏は言います。

最終的には、こうしたややドタバタなデジタルプレイヤーたちが、ロボットやメタバースのアバターがより人間らしく動く手助けをするようになるかもしれない。たとえサッカーで人間に勝つことはできなくても。「サッカー自体が最終目標ではないんです」とレバー氏は言う。「そこにたどり着くまでに、解決すべきことがたくさんあるんです。」

  • 受信箱に届く:ウィル・ナイトのAIラボがAIの進歩を探る

アミット・カトワラは、ロンドンを拠点とするWIREDの特集編集者兼ライターです。彼の最新著書は『Tremors in the Blood: Murder, Obsession, and the Birth of the Lie Detector』です。…続きを読む

続きを読む