WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。
市場に固執する技術評論家や懐疑的な専門家によると、人工知能バブルは崩壊し、冬が戻ってきたという。フェイフェイ・リーはそうは考えていない。「AIのゴッドマザー」の異名を持つリーは、むしろその逆を確信している。彼女はスタンフォード大学をパートタイムで休職し、World Labsという企業の共同創業者となった。現在の生成AIは言語ベースだが、彼女はシステムが物理法則、論理、そして現実世界の豊富なディテールを備えた完全な世界を構築するというフロンティアを見出している。これは野心的な目標であり、AIの進歩は停滞期に入ったと主張する陰鬱な大物たちをよそに、World Labsは資金調達を急ピッチで進めている。このスタートアップ企業が製品化するのはおそらく1年後だろう。そして、製品化が実現したとしても、どれほどうまく機能するのかは全く不明だ。しかし、投資家たちはすでに2億3000万ドルを投じており、この新興企業の価値は10億ドルに達していると報じられている。
約10年前、リー氏はImageNetというデジタル画像の特注データベースを作り、AIの転換期を助けた。ImageNetはニューラルネットを大幅に賢くすることを可能にしました。彼女は、AIが現実の世界を作り出すためには、それがリアルなシミュレーションであれ、完全に空想上の宇宙であれ、今日のディープラーニングモデルにも同様のブーストが必要だと考えています。未来のジョージ・R・R・マーティンたちは、散文ではなくプロンプトとして夢想した世界を作り、それをレンダリングして中を歩き回ることができるかもしれません。「コンピューターにとって、物理世界はカメラを通して見られ、コンピューターの頭脳はカメラの背後にあります」とリー氏は言います。「そのビジョンを推論、生成、そして最終的なインタラクションに変えていくには、物理世界の物理的構造と物理的ダイナミクスを理解する必要があります。そして、その技術は空間インテリジェンスと呼ばれています。」ワールドラボは自らを空間インテリジェンス企業と称しており、その運命はその言葉が革命となるか、それともお決まりのジョークになるかを決める一助となるでしょう。
リーは長年、空間知能に熱中してきた。ChatGPTに皆が夢中になっている頃、彼女と元教え子のジャスティン・ジョンソンは、AIの次なる進化について電話で興奮気味に語り合っていた。「次の10年は、コンピュータービジョン、ディープラーニング、そしてAIをインターネットの世界から取り出し、それらを時空間に組み込むような新しいコンテンツを生み出す時代になるでしょう」と、現在ミシガン大学で助教授を務めるジョンソンは語る。
リー氏は、仮想ネットワークのパイオニアで現在はアンドリーセン・ホロウィッツのパートナーであるマーティン・カサド氏と会食した後、2023年の初めに会社を設立することを決めた。アンドリーセン・ホロウィッツは、AIをほぼ救世主のように受け入れていることで有名なベンチャーキャピタル企業だ。カサド氏は、AIはコンピューターゲームと同じような道をたどっていると考えている。コンピューターゲームはテキストから始まり、2Dグラフィックスに移行し、今では目もくらむような3D画像を備えている。空間知能が変化を推進するだろう。最終的には、「お気に入りの本をモデルに投げ込み、文字通りその中に入って、没入感のある方法でリアルタイムで展開されるのを見ることができるようになる」と彼は言う。それを実現するための第一歩は、大規模言語モデルから大規模世界モデルに移行することだと、カサド氏とリー氏は同意した。
リーはジョンソンを共同設立者とし、チームを編成し始めた。カサドはさらに2人を提案した。1人はクリストフ・ラスナーで、アマゾン、メタのリアリティラボ、エピックゲームズで働いた経験を持つ。ラスナーは、3Dガウススプラッティングと呼ばれる有名な技術を生み出したレンダリング手法、パルサーの発明者である。MITのトーガパーティーにインディーバンドが出演しているような名前だが、これは実際には単発のオブジェクトではなくシーンを合成する方法だ。カサドがもう1人提案したのはベン・ミルデンホールで、彼は2Dピクセル画像を3Dグラフィックスに変換するNeRF(ニューラル・ラディアンス・フィールド)と呼ばれる強力な技術を開発した人物だ。「現実世界のオブジェクトをVRに取り込み、完全にリアルに見えるようにしたのです」と彼は言う。彼はグーグルのシニアリサーチサイエンティストの職を辞し、リーのチームに加わった。
大規模世界モデルの明確な目標の一つは、ロボットに世界感覚を植え付けることです。これは確かにワールドラボの計画に含まれていますが、実現にはしばらく時間がかかります。第一段階は、三次元性、物理性、そして空間と時間の概念を深く理解したモデルを構築することです。次の段階は、モデルが拡張現実(AR)をサポートする段階です。その後、同社はロボット工学に取り組むことができます。このビジョンが実現すれば、大規模世界モデルは自動運転車、自動化された工場、そしておそらくヒューマノイドロボットの性能向上にも役立つでしょう。
それはまだ遠い未来の話で、決して簡単な話ではない。ワールドラボは2025年に製品を発表すると約束している。創業者たちに、具体的な製品内容や想定顧客、例えばワールドラボの収益源などについて尋ねたところ、彼らはまだ事業を拡大している段階だと強調した。「押し広げるべき限界は多く、未知の領域も山積しています」とリー氏は言う。「もちろん、私たちはこうした未知の領域を解明できる世界最高のチームです」
カサド氏はもう少し具体的な説明をしている。ChatGPTやAnthropicのClaude氏と同様に、モデルは製品、つまり他者が直接利用するか、他のアプリをホストするプラットフォームになり得ると彼は指摘する。顧客にはゲーム会社や映画スタジオが含まれる可能性がある。ピクサーがかつてモンスターの毛皮や水の動きなどに膨大なリソースを費やしていたと書いたのを覚えている。それを一文のプロンプトで実現できると想像してみてほしい。
フィジカルAIと呼ばれる分野に取り組んでいる企業は、ワールドラボだけではありません。「汎用ヒューマノイドロボットの基礎モデル構築は、今日のAI分野における最もエキサイティングな課題の一つです」と、NVIDIAのCEO、ジェンスン・フアン氏は今年初めに述べています。私も最近、同じ分野に取り組んでいるアーキタイプという企業について記事を書きました。しかし、カサド氏はワールドラボの野心、才能、そしてビジョンは他に類を見ないものだと断言します。「私は10年近く投資を続けてきましたが、これは私がこれまで出会った中で最高のチームです」と彼は言います。VCが投資額を増やすのはよくあることですが、彼はこの会社に資金以上のものを投入しています。VCになって以来初めて、彼はパートタイムのチームメンバーとして、週に1日を会社で過ごしています。
ラディカル・ベンチャーズ、NEA、そして(意外にも)NVIDIAのベンチャーキャピタル部門など、他のベンチャーキャピタル企業も資金提供を行っている。さらに、マーク・ベニオフ、リード・ホフマン、ジェフ・ディーン、エリック・シュミット、ロン・コンウェイ、ジェフ・ヒントンといった錚々たるエンジェル投資家陣も名を連ねている(AIのゴッドファーザーが、この分野のゴッドマザーを後押ししているというわけだ)。故スーザン・ウォジスキ氏も、先月早々に逝去する前に投資を行っていた。
賢い人たちが皆間違っているなんてあり得るだろうか?もちろんだ。ワールドラボの展望が、最近になって急激にブームを去った「メタバース」とどのように重なるかは、それほど目を凝らさなくてもわかる。ワールドラボの創設者たちは、この短命なブームは時期尚早であり、有望なハードウェアをベースにしたものの適切なインタラクティブコンテンツを備えていなかった一時的な流行だったと主張する。彼らは、大規模世界モデルがその問題を解決できると示唆している。おそらく、これらの世界はどれも、AIが停滞しているとは考えないだろう。

タイムトラベル
昨年、フェイフェイ・リーは回想録とAIラブストーリーを組み合わせた『The Worlds I See』を出版しました。当時、私はこの本を称賛し、「フェイフェイ・リーはアルゴリズムのように見ることでAI革命を起こした」という見出しのプレーンテキストで彼女と議論しました。今、彼女は誰も見たことのない世界を築きたいと願っています。
リーは自分のことを話すことに抵抗があり、人見知りをします。しかし、16歳でアメリカに移住し、言葉も話せないまま、移民としての経験をどのように活かし、困難を乗り越え、この極めて重要なテクノロジーの重要人物へと成長しました。現在の地位に至るまで、スタンフォード大学AIラボの所長や、Google CloudのAIおよび機械学習担当チーフサイエンティストも歴任しました。リーは、自身の著書は二重螺旋構造になっており、自身の探求とAIの軌跡が螺旋状に絡み合っていると述べています。「私たちは、自分自身の姿を映し出す鏡を通して、自分自身を見つめ続けています」とリーは言います。「その鏡の一部はテクノロジーそのものです。最も見づらい世界は、私たち自身なのです。」
これらの要素が最もドラマチックに融合するのは、ImageNet の作成と実装に関する彼女の物語の中である。Li は、クッションからバイオリンまで、膨大なカテゴリのリストごとに少なくとも 1,000 個の例がある何百万もの画像にラベルを付けて分類することは不可能だと考える同僚を含む人々に抵抗する決意を語る。この取り組みには、技術的な不屈の精神だけでなく、文字通り何千人もの人々の汗も必要だった (ネタバレ: Amazon の Mechanical Turk がこれを成功させるのに役立った)。このプロジェクトは、彼女の個人的な道のりを理解して初めて理解できる。このようなリスクの高いプロジェクトに果敢に取り組めるのは、経済的な困難にもかかわらず、科学者になるという夢を追うためにビジネスの世界での高収入の仕事を断ることを彼女に強く勧めた両親の支援によるものだ。この壮大な計画を実行することは、彼らの犠牲が最終的に認められることとなるだろう。

一つだけ聞いてください
トムはこう問いかけます。「スマートフォンがまだ登場したばかりの頃は、公共の場での使用に関するエチケットが話題になりました。今では、公共の場でスマートフォンを見つめる人々で溢れかえっています。ARヘッドギアのエチケットはどうなると思いますか?」
こんにちは、トムさん。質問ありがとうございます。ARのエチケットは、スマートフォンほど単純ではありません。スマートフォンでは、手のひらサイズのディスプレイに意識が集中すると、ARが当たり前のように目に飛び込んできます。ARの頂点は、企業が軽量なアイウェアラブルデバイスにARを組み込む方法を見つけ出した時に訪れるでしょう。Metaのヒット作、Ray-Banのメガネのように、まだAR機能はありませんが、いずれはAR機能を搭載するでしょう。スマートフォンで今見ているものの多くは、ヘッドアップディスプレイで読み取れるようになるでしょう。
その時には、サングラスの奥でTikTokやテキストメッセージ、キャンディークラッシュに夢中になっていることが、ディナーの仲間よりも目立たなくなるでしょう。公共の場では、誰もがどこか別の場所にいるようには見えないかもしれませんが、いずれそうなるでしょう。電車が出発する時、ドアを塞いでいる時、強盗に遭った時などに人々に知らせるために、触覚技術は不可欠になると私は予測しています。そして、典型的なディナーの会話はこうなるでしょう。「今言ったこと、聞こえましたか?」[沈黙]「今言ったこと、聞こえていますか?」[間を置いて、メガネのサイドパネルに触れる]「ええ、もちろん聞いていますよ。」レストランのどのテーブルでも、このような会話が繰り広げられるでしょう!
私のエチケット予想は? たとえ隣に立っていても、人々はテキストでコミュニケーションを取るようになるでしょう。なぜなら、どんな言葉でも、目と耳に届く方が説得力があるからです。だから、スマホを見つめる人に文句を言うのはやめましょう。もっとひどい時代が来るのですから。
ご質問は[email protected]までお送りください。件名に「ASK LEVY」とご記入ください。

終末クロニクル
これ以上暑くなるなんてありえない。ちょっと待って。

最後になりましたが、重要なことです
Apple の 9 月のイベントで発表された内容は次のとおりです。
iPhone 16が注目を集めた一方で、補聴器のように機能するAirPodsはAppleの最も重要な動きだったかもしれない。
テキサスの石油の町の住民は、ビットコイン鉱山が進出してくるとあまり友好的ではなくなった。
マーク・キューバンによれば、マーク・キューバンは中年の危機を経験していない。

このコラムの今後の購読者限定版をお見逃しなく。WIRED を今すぐ購読しましょう(Plaintext読者は50%オフ) 。