ロボットソフトウェア企業CovariantのCEO、ピーター・チェン氏は、ChatGPTとのやり取りに使われるものと似たチャットボットのインターフェースの前に座っている。「目の前にあるトートバッグを見せてください」とチェン氏が入力すると、ビデオ映像が映し出され、靴下1足、ポテトチップスのチューブ、リンゴなど、様々なアイテムが入った箱の上にロボットアームが立っている様子が映し出された。
チャットボットは目にしたアイテムについて会話できるだけでなく、操作もできる。WIREDがチェン氏に果物を取るように指示すると、チャットボットは腕を伸ばし、リンゴを優しく掴み、近くの別の箱に移した。
この実践的なチャットボットは、ChatGPTのようなプログラムが示すような汎用性と柔軟性を備えたロボットを実現するための一歩です。AIによって、ロボットのプログラミングにおける長年の難題がついに解決され、限られた作業以上のことを実行できるようになるという期待が高まっています。
「現時点では、基礎モデルこそがロボット工学の未来だと言っても全く異論はありません」とチェン氏は言う。基礎モデルとは、特定の分野向けに開発された大規模で汎用的な機械学習モデルを指す用語だ。彼が私に見せてくれた便利なチャットボットは、Covariant社が開発したRFM-1(Robot Foundation Model)と呼ばれるモデルを搭載している。ChatGPT、GoogleのGemini、その他のチャットボットの基盤となるモデルと同様に、このモデルも大量のテキストで学習されているが、現実世界での労働から得られた数千万ものロボット動作例から得られたビデオデータやハードウェア制御データ、モーションデータも入力されている。
こうした追加データを含めることで、言語だけでなく動作にも堪能なモデルが生成され、両者を結びつけることができます。RFM-1は会話やロボットアームの制御だけでなく、ロボットが様々な作業を行う様子を映した動画も生成できます。指示を出すと、RFM-1はロボットが散らかったゴミ箱からどのように物体を掴むべきかを示します。「ロボット工学において重要な様々なモダリティをすべて取り込み、さらにそれらのいずれかを出力することもできます」とチェン氏は言います。「これはちょっと驚きです。」
RFM-1 AIモデルによって生成されたビデオ。提供:Covariant
RFM-1 AIモデルによって生成されたビデオ。提供:Covariant
このモデルは、訓練データには含まれていない類似のハードウェアの制御も学習できることを示しました。さらなる訓練により、同じ汎用モデルでヒューマノイドロボットを操作できるようになる可能性もあると、ロボット学習のパイオニアであるCovariantの共同創業者兼主任科学者、ピーター・アビール氏は述べています。アビール氏は2010年に、ロボットにタオルを(ゆっくりではありますが)折りたたむよう訓練するプロジェクトを主導しました。また、OpenAIがロボット研究を中止する前は、OpenAIでも働いていました。
2017年に設立されたCovariantは現在、機械学習を用いてロボットアームが倉庫内の棚から商品をピックアップするソフトウェアを販売しているが、通常は訓練済みのタスクに限定されている。アビール氏は、RFM-1のようなモデルを用いることで、ロボットはグリッパーを新しいタスクにスムーズに切り替えられるようになると述べている。彼はCovariantの戦略を、テスラが販売した車両のデータを用いて自動運転アルゴリズムをトレーニングする方法に例え、「私たちがここで行っていることとほぼ同じようなものです」と述べている。
ChatGPTや類似のプログラムを支える大規模言語モデルの能力がロボット工学に革命をもたらすかもしれないと期待するロボット研究者は、アビール氏とCovariantの同僚たちだけではない。RFM-1のようなプロジェクトは、有望な初期成果を示している。しかし、より汎用的な能力を持つロボットを作るモデルを訓練するには、どれだけのデータが必要か、そしてそれをどのように収集するかは、未解決の問題である。

Covariantの共同創業者、ピーター・アビール氏とピーター・チェン氏。写真提供:ELENA ZHUKOVA/Covariant
「主な課題は、インターネットでテキストや画像、動画をダウンロードするのと同じようにデータが入手できなかったことだ」と、MITでAIとロボット工学を研究するプルキット・アグラワル教授は言う。
アグラワル氏によると、多くの研究者はそれを解明しようと、ロボットの訓練のためのデータを生成しようとしているという。これには、人間がタスクを実行する様子を映した動画や、ロボットが登場するシミュレーションからデータを収集することが含まれる。
検索大手GoogleのAIグループであるDeepMindは、このアプローチに取り組む大手AI企業の一つです。昨年、同社の研究者はロボット向けの独自のAIモデル「RT-2」を開発しました。また、昨年11月には、異なるタスクを実行する複数のマシンから収集された数百万ものロボット動作を収録したデータセット「RT-X」を公開しました。
アグラワル氏は、顧客への導入から得られたコバリアント社のロボットアームに関する膨大なデータは間違いなく有用だと述べるものの、現時点では特定の範囲の作業に限定されていると指摘する。同社は現在、主に倉庫内の特定の作業を行う企業に販売している。「ネジを拾って締めたり、生姜の皮をむいたりしたい場合、それはピックアンドプレースの問題ではありません」と彼は言う。
Covariantが行っている研究の興味深い点は、基盤となるAIモデルが世界の物理法則をより深く理解するのを支援できることです。アビール氏は、OpenAIの驚くほどリアルな動画モデル「Sora」が人体構造や基本的な物理法則を正確に再現するのに苦労するのに対し、RFM-1は現実世界で何が可能で何が不可能かをよりよく理解していると指摘します。「完璧だとは言いませんが、かなり優れた理解力を持っています」と彼は言います。