NVIDIAは本日、ヒューマノイド、産業用ロボット、自動運転車の学習に使用できる基礎AIモデル「Cosmos」ファミリーをリリースすると発表しました。言語モデルは膨大な量の書籍、記事、ソーシャルメディアの投稿を学習することでテキスト生成を学習しますが、Cosmosは物理世界の画像や3Dモデルを生成するように設計されています。
ラスベガスで開催された年次CESカンファレンスの基調講演で、NVIDIAのCEO、ジェンスン・フアン氏は、Cosmosが倉庫内の活動をシミュレーションする例を示した。Cosmosは「人間が歩き、手を動かし、物を操作する」2000万時間分の実映像で学習されたとジェンスン氏は述べた。「クリエイティブなコンテンツを生成するのではなく、AIに物理的な世界を理解させることが目的です」
研究者やスタートアップ企業は、こうした基礎モデルによって、工場や家庭で使用されるロボットに高度な機能が追加されることを期待しています。例えば、Cosmosは倉庫内の棚から箱が落ちる様子をリアルに再現した動画を生成し、ロボットに事故認識能力を訓練することができます。ユーザーは独自のデータを用いてモデルを微調整することも可能です。
Nvidiaによれば、ヒューマノイドロボットのスタートアップ企業であるAgility社やFigure AI社、自動運転車企業であるUber社、Waabi社、Wayve社など、すでに多くの企業がCosmosを使用しているという。

Cosmos によって生成された倉庫映像の例。
Nvidia提供NVIDIAは、さまざまな種類のロボットが新しいタスクをより効率的に実行できるように設計されたソフトウェアも発表しました。この新機能は、NVIDIAの既存のIsaacロボットシミュレーションプラットフォームの一部であり、ロボット開発者は特定の物体を掴むなどの望ましいタスクの少数のサンプルから、大量の合成トレーニングデータを生成することができます。
NVIDIAは、CosmosとIsaacがヒューマノイドロボットの開発と活用を目指す企業にとって魅力的なものとなることを期待しています。ジェンセン氏はCESのステージ上で、テスラ、ボストン・ダイナミクス、アジリティ、フィギュアなどの企業が開発した14種類のヒューマノイドロボットの実物大画像を展示しました。
Cosmosに加え、NVIDIAはProject Digitsも発表しました。これは、AWSやMicrosoftなどのクラウドサービスを必要とせずに、最大2000億パラメータの大規模言語モデルを実行できる3,000ドルの「パーソナルAIスーパーコンピュータ」です。また、待望の次世代RTX Blackwell GPUと、AIエージェント構築を支援するソフトウェアツールも発表しました。