より優れたAIスーパーコンピュータを構築するには、光あれ

より優れたAIスーパーコンピュータを構築するには、光あれ

人工知能(AI)の専門家の多くは、この分野における次の大きな飛躍は、少なくとも部分的には、かつては想像もできなかった規模のスーパーコンピュータの構築にかかっていると考えているようだ。先月、ベンチャーキャピタルのセコイアが主催したイベントで、Lightmatterというスタートアップ企業のCEOは、チップ同士が光を使って直接通信できるようにすることで、ハイパースケールコンピューティングの新たな可能性を秘めた技術をプレゼンした。

今日のデータは、一般的にコンピューター内を、そしてAIアルゴリズムのトレーニングの場合はデータセンター内のチップ間で、電気信号を介して移動します。これらの相互接続の一部は、より広い帯域幅を得るために光ファイバーリンクに変換されることもありますが、光信号と電気信号を相互に変換することは通信のボトルネックとなります。

Lightmatterは、AIトレーニングに不可欠なシリコンチップであるGPUを、数十万、あるいは数百万個を光リンクで直接接続することを目指しています。変換ボトルネックを解消することで、チップ間のデータ転送速度を現状よりもはるかに高速化し、驚異的な規模の分散型AIスーパーコンピュータを実現する可能性を秘めています。

Lightmatter社の技術「Passage」は、シリコンに内蔵された光(フォトニック)インターコネクトの形をとっており、ハードウェアをGPUなどのシリコンチップ上のトランジスタと直接接続することを可能にする。同社は、これによりチップ間のデータ転送が通常の100倍の帯域幅で可能になると主張している。

ちなみに、OpenAIの最も強力なAIアルゴリズムであり、ChatGPTの頭脳でもあるGPT-4は、2万台以上のGPUで動作したと噂されています。ハリス氏によると、2026年までに完成予定のPassageでは、100万台以上のGPUを並列処理してAIトレーニングを実行できるようになるとのことです。

LightmatterのPassageウェーハスケールフォトニックインターコネクト

Lightmatter は、電気信号ではなく光を使用してチップ間でデータを移動することで、AI スーパーコンピューターの速度を向上させたいと考えています。

ライトマター提供

セコイアのイベントに出席した聴衆の一人、OpenAIのCEO、サム・アルトマン氏は、AIのさらなる発展のために、いかに大規模で高速なデータセンターを構築するかという問題に執着しているように見える。2月、ウォール・ストリート・ジャーナル紙は、アルトマン氏が膨大な量のAI用チップを開発するために最大7兆ドルの資金調達を目指していると報じた。一方、The Informationの最近の報道によると、OpenAIとマイクロソフトは、数百万個のチップを搭載した、コードネーム「スターゲート」と呼ばれる1000億ドル規模のデータセンターの計画を練っているという。電気的な相互接続は膨大な電力を消費するため、そのような規模でチップ同士を接続するには途方もない量のエネルギーが必要になる。そして、Lightmatterが提案しているような、チップを接続する新しい方法の登場が不可欠となるだろう。

AMDやゼネラルモーターズなど他社向けにチップを製造するGlobalFoundriesは、以前Lightmatterとの提携を発表していた。ハリス氏は、同社は「世界最大級の半導体企業やハイパースケーラーと連携している」と述べ、Microsoft、Amazon、Googleといった大手クラウド企業を指して言及した。

Lightmatter社などの企業が巨大AIプロジェクトの配線を刷新できれば、よりスマートなアルゴリズム開発における主要なボトルネックが解消されるかもしれない。ChatGPTの実現につながった進歩は、より多くの計算資源の利用を基盤としており、多くのAI研究者は、ハードウェアのさらなるスケールアップが、この分野の将来の進歩、そしてあらゆる面で生物知能に匹敵、あるいは凌駕するプログラムという漠然とした目標の達成に不可欠だと考えている。

ライトマター社のCEO、ニック・ハリス氏は、100万個のチップを光で繋げることで、現在の最先端技術を数世代も先取りしたアルゴリズムを実現できる可能性があると述べている。「PassageはAGIアルゴリズムを実現するでしょう」と、ハリス氏は自信たっぷりに示唆する。

巨大なAIアルゴリズムの訓練に必要な大規模データセンターは、通常、特殊なシリコンチップを搭載した数万台のコンピューターを収容するラックと、それらを接続する主に電気的なスパゲッティ状の接続で構成されています。配線とスイッチで接続された多数のシステム間でAIの訓練ランを維持することは、膨大なエンジニアリング作業です。また、電気信号と光信号の変換は、チップが一体となって計算を実行する能力に根本的な制限を課します。

Lightmatterのアプローチは、AIデータセンター内の複雑なトラフィックを簡素化するように設計されています。「通常、多数のGPUがあり、その上にスイッチの層、さらにスイッチの層、さらにスイッチの層があり、このツリーを辿って2つのGPU間で通信する必要があります」とハリス氏は述べています。Passageで接続されたデータセンターでは、すべてのGPUが他のすべてのチップと高速接続されるようになります。

LightmatterのPassageへの取り組みは、AIの近年の隆盛が、OpenAIのChatGPTのような進歩を支える主要ハードウェアの革新を、大小さまざまな企業が試みるきっかけとなっていることを示す好例です。AIプロジェクト向けGPUの主要サプライヤーであるNvidiaは先月、年次カンファレンスを開催し、CEOのジェンスン・フアン氏がAIトレーニング用の最新チップ「Blackwell」を発表しました。NvidiaはこのGPUを「スーパーチップ」として販売します。これは2つのBlackwell GPUと従来のCPUプロセッサで構成され、これらはすべて同社の新しい高速通信技術「NVLink-C2C」で接続されています。

チップ業界は、チップを大型化することなく、より多くの計算能力を引き出す方法を見つけることで有名ですが、NVIDIAはこの傾向に逆らうことを選択しました。同社のスーパーチップに搭載されているBlackwell GPUは、従来品の2倍の性能を備えていますが、2つのチップをボルトで接合して作られているため、消費電力が大幅に増加しています。このトレードオフに加え、NVIDIAがチップを高速リンクで接合する取り組みは、Lightmatterが提案しているような、AIスーパーコンピューターの他の主要コンポーネントのアップグレードが、今後ますます重要になる可能性を示唆しています。