AIロボットの未来を垣間見る

AIロボットの未来を垣間見る

ロボット知能の飛躍的進歩を追い求める資金力のあるスタートアップ企業、フィジカル・インテリジェンスは、さまざまな家事を驚くほど上手にこなせるロボットを開発した。

フィジカルインテリジェンス提供

乾燥機から洗濯物を取り出すことから洗濯物を畳むこと、散らかったテーブルを片付けることまで、家事全般をこなすロボットというアイデアは長い間、純粋なSFのように思われてきた。おそらく最も有名に体現されたのは、1960年代のファンタジー映画『宇宙家族ジェットソン』のロージーだろう。

サンフランシスコのスタートアップ企業であるフィジカル・インテリジェンスは、前例のない量のデータでトレーニングすることで、上記すべてを含む幅広い家事の役に立つ作業を学習した単一の人工知能モデルを実証し、そのような夢が実際にはそれほど遠い未来のことではないことを実証した。

フィジカルインテリジェンス提供

この偉業により、ChatGPT のような他の AI モデルと同様に魔法のような、一般的に有能な何かを現実世界にもたらす可能性が高まります。

大規模言語モデル(LLM)の登場により、チャットボットは飛躍的に汎用的な能力を獲得しました。これは、書籍やインターネット上の膨大なテキストを学習させる汎用学習アルゴリズムです。Physical Intelligenceは、膨大なロボットデータを用いて同様のアルゴリズムを学習させることで、現実世界においても同様の能力を持つものを作り出すことを目指しています。

「私たちは非常に汎用的なレシピを持っており、さまざまな実施形態やさまざまなロボットタイプからのデータを活用することができます。これは、人間が言語モデルをトレーニングする方法に似ています」と、同社のCEO、カロル・ハウスマン氏は語る。

フィジカルインテリジェンス提供

同社は過去8ヶ月間、「π0」または「パイゼロ」と呼ばれる「基礎モデル」の開発に取り組んできた。π0は、様々な家事を行う複数種類のロボットから得られた膨大なデータを用いて学習された。同社は、必要なティーチングを行うために、人間がロボットを遠隔操作することも多い。

PI または π としても知られる Physical Intelligence は、AI の言語能力の飛躍的進歩にヒントを得た新しいロボット工学アプローチを追求するために、今年初めに数人の著名なロボット工学研究者によって設立されました。

「私たちが訓練に使用しているデータの量は、私たちの知る限り、これまでに作られたどのロボットモデルよりもはるかに膨大です」と、Physical Intelligenceの共同創設者でカリフォルニア大学バークレー校の准教授であるセルゲイ・レヴィン氏は語る。「ChatGPTとは全く違いますが、GPT-1に近いかもしれません」と、OpenAIが2018年に開発した初の大規模言語モデルに言及しながら、彼は付け加えた。

Physical Intelligence社が公開した動画には、様々なロボットモデルが家事を驚くほど巧みにこなす様子が映し出されています。車輪付きロボットが乾燥機の中に手を伸ばして衣類を取り出し、ロボットアームがカップや皿で散らかったテーブルを片付けます。2本のロボットアームが洗濯物を掴んで畳みます。同社のアルゴリズムが実現したもう一つの素晴らしい技は、段ボール箱の組み立てです。ロボットが箱の側面を優しく曲げ、パーツを繊細に組み合わせることで、段ボール箱が完成します。

フィジカルインテリジェンス提供

衣服を折りたたむ作業はロボットにとって特に難しく、予測できない形で変形したりくしゃくしゃになったりするさまざまな柔軟なアイテムを扱う必要があるため、物理世界に関するより一般的な知能が求められるとハウスマン氏は言う。

このアルゴリズムは、例えばTシャツやショートパンツを振って平らにするなど、驚くほど人間らしい癖を示す。

ハウスマン氏は、このアルゴリズムは完璧に機能するわけではなく、現代のチャットボットと同様に、ロボットが驚くような面白い失敗をすることがあると指摘する。卵をカートンに詰めるように指示された際、ロボットは箱に詰め込み過ぎて無理やり閉じてしまったことがあった。また別の時には、ロボットが箱に物を詰め込む代わりに、突然テーブルから投げ飛ばしてしまったこともあった。

より汎用的な能力を持つロボットを作ることは、単なる SF の比喩ではなく、もちろん、莫大な商業的チャンスでもあります。

フィジカルインテリジェンス提供

近年のAIの驚異的な進歩にもかかわらず、ロボットは頑固に愚かで限界のあるままです。工場や倉庫で見られるロボットは、通常、厳密に決められたルーチンをこなすだけで、周囲の状況を認識したり、臨機応変に適応したりする能力はほとんどありません。物体を視覚化し、掴むことができる産業用ロボットはごくわずかですが、一般的な身体的知能の欠如により、限られた作業しか、最小限の器用さでこなすことができません。

より汎用的な能力を持つロボットは、おそらく最小限のデモンストレーションを経て、はるかに幅広い産業用タスクをこなせるようになるでしょう。また、人間の家庭における多種多様な環境や乱雑さに対処するために、ロボットにはより汎用的な能力も必要になるでしょう。

AIの進歩に対する世間の期待は、ロボット工学における新たな飛躍への楽観的な見方へと既に繋がっています。イーロン・マスク氏の自動車メーカー、テスラは「オプティマス」と呼ばれるヒューマノイドロボットを開発しており、マスク氏は最近、2040年までにオプティマスが2万ドルから2万5000ドルで広く普及し、ほとんどの作業をこなせるようになると示唆しました。

フィジカルインテリジェンス提供

ロボットに難しいタスクを学習させるこれまでの取り組みは、学習の転移が不可能と思われたため、単一のマシンに単一のタスクを訓練することに重点を置いていました。しかし、最近の学術研究では、十分な規模と微調整があれば、学習を異なるタスクやロボット間で転移できることが示されています。2023年のGoogleプロジェクト「Open X-Embodiment」では、21の異なる研究室にある22台の異なるロボット間でロボット学習を共有することが行われました。

Physical Intelligenceが追求している戦略における主要な課題は、ロボットの学習に利用できるデータが、テキスト形式の大規模言語モデルと同規模ではないことです。そのため、同社は独自のデータを生成し、より限定的なデータセットから学習を向上させる技術を開発する必要があります。π0の開発において、同社は画像だけでなくテキストでも学習できるいわゆるビジョン言語モデルと、AI画像生成から借用した拡散モデリング技術を組み合わせることで、より汎用的な学習を可能にしました。

ロボットが人間が要求するあらゆるロボット作業をこなせるようになるには、こうした学習を大幅にスケールアップさせる必要がある。「まだ道のりは長いですが、未来の姿を示唆する足場のようなものはできています」とレヴィン氏は言う。

  • あなたの受信箱に:毎日あなたのために厳選された最大のニュース

ウィル・ナイトはWIREDのシニアライターで、人工知能(AI)を専門としています。AIの最先端分野から毎週発信するAI Labニュースレターを執筆しています。登録はこちらから。以前はMIT Technology Reviewのシニアエディターを務め、AIの根本的な進歩や中国のAI関連記事を執筆していました。続きを読む

続きを読む