エヌビディアのチップ不足でAIスタートアップはコンピューティングパワーの確保に苦戦

エヌビディアのチップ不足でAIスタートアップはコンピューティングパワーの確保に苦戦

利益を削減し、発売を延期し、友人に頼み込む。企業は、AI生成プログラムの中核となるチップであるGPUの不足を何とかやりくりしようと、あらゆる手段を講じている。

Nvidia HGX H100 GPUチップのクローズアップ

2023年6月2日、台湾・台北の同社オフィスのショールームに展示されたNVIDIA社のHGX H100人工知能スーパーコンピューティンググラフィック処理装置(GPU)。写真:I-Hwa Cheng/Bloomberg/Getty Images

WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。

平日の東部時間午前11時頃、ヨーロッパが業務終了の準備を始め、米国東海岸が正午の業務開始を迎え、シリコンバレーが活気づく頃、テルアビブに拠点を置くスタートアップ企業AstriaのAI画像生成ツールは、相変わらずの忙しさだ。しかし、同社はこの急激な活動から大きな利益を得ているわけではない。

AstriaのようなAI技術を開発している企業は、写真やその他のメディアのパターンを学習するソフトウェアのトレーニングにグラフィックプロセッサ(GPU)を使用しています。これらのチップは推論、つまり学習結果に基づいてユーザーの指示に応じたコンテンツを生成する処理も担っています。しかし、あらゆるアプリやプログラムにAIを統合しようとする世界的な動きと、パンデミック初期から続く製造上の課題が重なり、GPUは供給不足に陥っています。

この供給逼迫により、スタートアップ企業が顧客向けに画像を生成するために必要とする、主要なクラウドコンピューティングベンダー(Amazon Web Services)の理想的なGPUがピーク時にフル稼働となり、同社は作業を完了するために、より強力で高価なGPUを使わざるを得なくなる。コストは急速に増大する。「つまり、あとどれだけ払えるかってことだよね」とAstriaの創業者アロン・バーグ氏は言い、世界最大のGPUメーカーであるNvidiaの株に投資する方がスタートアップ企業を追求するより儲かるんじゃないかと冗談を言う。Astriaは顧客に対して、こうした高額なピークを相殺するような料金を請求しているが、それでも必要以上に支出している。「コストを削減して、エンジニアをあと何人か採用したいね」とバーグ氏は言う。

GPUの供給不足は、当面収束の兆しが見えていません。AIサーバーチップの世界供給の約60~70%を占める市場リーダー、NVIDIAは昨日、第2四半期のデータセンター向けGPU販売額が過去最高の103億ドルに達し、前年同期比171%増となったと発表しました。また、今四半期も売上が予想を上回る見込みです。「需要は非常に大きいです」と、CEOのジェンスン・フアン氏は決算説明会でアナリストらに語りました。市場調査会社ガートナーによると、AI向けチップへの世界的支出は今年530億ドルに達し、今後4年間で2倍以上に増加すると予想されています。

継続的なリソース不足は、企業が必要なリソースへのアクセスを維持するために革新を迫られていることを意味しています。中には、ユーザーを窮地に追い込まないよう資金をプールしている企業もあります。企業がGPU需要の削減を図る中、「最適化」や「モデルサイズの縮小」といったエンジニアリング用語があらゆるところで流行しており、投資家たちは今年、企業が保有するGPUでやりくりするのを支援するソフトウェアを提供するスタートアップ企業に数億ドルを投資しています。そうしたスタートアップ企業の一つであるModularは、共同創業者兼社長のティム・デイビス氏によると、5月の設立以来、3万社を超える潜在顧客から問い合わせを受けているとのことです。今後1年間の危機をいかにうまく乗り切るかが、生成型AI経済における生き残りの鍵となる可能性があります。

「私たちは容量が限られた世界に生きています。創造性を駆使して、物事を組み合わせ、混ぜ合わせ、バランスを取らなければなりません」と、AIベースのビジネスライティング支援サービスYurtsのCEO、ベン・ヴァン・ルー氏は語る。「コンピューティングに大金を費やすのは嫌です。」

クラウドコンピューティングプロバイダーは、顧客がキャパシティ不足に苦しんでいることを深く認識しています。AWSのプロダクトマネジメントディレクター、チェタン・カプール氏は、需要の急増は「業界を少々驚かせた」と述べています。

新しいGPUの調達とデータセンターへの設置に要する時間は、クラウド大手を後手に回らせており、需要の高い特定の手配も負担を増大させています。ほとんどのアプリケーションは世界中に分散したプロセッサで動作できますが、生成AIプログラムのトレーニングは、GPUを物理的に密集させた場合、時には1万個ものチップを一度に配置した場合に最も高いパフォーマンスを発揮する傾向があります。そのため、かつてないほど可用性が制限されます。

カプール氏によると、AWSの典型的な生成AI顧客は数百台のGPUを利用しているという。「もし特定の顧客から明日1,000台のGPUが必要だという依頼があった場合、それに対応するのに多少の時間がかかります」とカプール氏は言う。「しかし、顧客が柔軟に対応してくれるなら、対応可能です。」

AWSは、顧客に対し、Bedrockサービスを通じて、より高額でカスタマイズされたサービスを採用することを提案している。このサービスでは、チップ要件はサービスに組み込まれているため、顧客は心配する必要がない。あるいは、AWS独自のAIチップであるTrainiumとInferentiaを試すこともできるとカプール氏は述べている。これらのチップは、採用率が上昇傾向にあるという。Nvidiaのチップではなく、これらのチップで動作するようにプログラムを改造するのは、従来は大変な作業だったが、カプール氏によると、Trainiumへの移行は、場合によってはソフトウェアコードを2行変更するだけで済むという。

課題は他にも山積している。Google Cloudは、自社開発のGPUに相当するTPUの需要に追いつけていないと、メディアへの発言権のない従業員が語った。広報担当者はコメント要請に応じなかった。MicrosoftのAzureクラウド部門は、予約したGPUを使用していない顧客に対し、返金をちらつかせていると、The Informationが4月に報じた。Microsoftはコメントを控えた。

クラウド企業は、顧客が数ヶ月から数年先まで容量を予約することを望んでいます。そうすることで、プロバイダーはGPUの購入と設置をより適切に計画できます。しかし、スタートアップ企業は一般的に資金が限られており、製品を調整する際に断続的に容量が必要になるため、契約に消極的になり、従量制プランを好んでいます。これが、Lambda LabsやCoreWeaveといった代替クラウドプロバイダーのビジネス急増につながっており、両社は今年、投資家から合わせて約5億ドルを調達しました。画像生成スタートアップのAstriaも、彼らの顧客の一つです。

AWSは新規参入企業に負けることを快く思っていないため、さらなる選択肢を検討している。「お客様が求める体験を提供するために、短期的および長期的に様々なソリューションを検討しています」とカプール氏は述べたが、詳細は明らかにしなかった。

クラウドベンダーの不足は、テクノロジー業界の大手企業を含む顧客にまで波及している。ソーシャルメディアプラットフォームのPinterestは、ユーザーと広告主へのサービス向上のため、AIの活用を拡大していると、最高技術責任者のジェレミー・キング氏は述べている。同社はAmazonの新型チップの採用を検討している。「他の企業と同様に、私たちもGPUがもっと必要です」とキング氏は語る。「チップ不足は現実です。」 

ChatGPTを開発し、その基盤技術を他社にライセンス供与しているOpenAIは、サービスを提供するためにAzureのチップに大きく依存している。GPU不足により、OpenAIは販売するツールに使用制限を設けざるを得なくなった。これは、OpenAIの技術を使って会議の音声を要約するAIアシスタントJamieを開発する企業などの顧客にとっては残念なことだ。Jamieは一般公開の計画を少なくとも5か月遅らせたが、その理由の一部はシステムを完成させたかったからだが、使用制限もその一因だと、このスタートアップの共同創業者であるルイス・モーグナーは語る。この問題は依然として解決していない。「公開まであと数週間しかなく、サービスプロバイダーの制限を考慮すると、システムがどれだけうまく拡張できるかを注意深く監視する必要がある」とモーグナーは言う。 

「業界ではGPUへの強い需要が見られます」とOpenAIの広報担当者ニコ・フェリックス氏は述べています。「私たちは、APIのお客様がニーズを満たす能力を確保できるよう、引き続き取り組んでいきます。」

現時点では、スタートアップがコンピューティングパワーにアクセスできるようにするあらゆるコネクションが不可欠です。投資家、友人、近隣住民など、スタートアップの経営陣はAIのパワーを強化するために、多岐にわたる関係性を活用しています。例えばAstriaは、AWSの緊密なパートナーであり、Astriaの技術基盤となっているStability AIのCEO、Emad Mostaque氏の協力を得て、AWSのキャパシティをさらに確保しました。

簿記系スタートアップ企業のPilotは、OpenAIの技術を日常的なデータソートに活用しています。同社は、大学の友人、従業員、そしてOpenAIと繋がりのあるベンチャーキャピタリストに支援を求めた結果、GPT-4への早期アクセスを獲得しました。こうした繋がりがPilotのウェイティングリストからの脱却を加速させたかどうかは不明ですが、同社は現在、OpenAIに月額約1,000ドルを費やしており、CEOのワシーム・ダハー氏は、割り当てを増やす必要がある際にこうした繋がりが役立つ可能性があると述べています。「この(生成AI技術)を活用しなければ、他の誰かが活用するでしょう。この技術は非常に強力なので、そのようなリスクを冒したくはありません」とダハー氏は言います。「顧客に最高の結果を提供し、業界の動向を常に把握したいのです。」

企業はより多くの電力へのアクセスを巡る競争に加え、より少ないリソースでより多くの成果を上げようとしています。生成AIの実験を行っている企業は今、「最適化」に熱心に取り組んでおり、最も手頃な価格のGPUでも満足のいく結果をもたらす処理を可能にしています。これは、数杯の飲み物を入れるだけの、古くて電力を大量に消費する冷蔵庫を捨て、ほとんどの時間太陽光発電で稼働する最新の小型冷蔵庫に買い替えることでコストを節約するのに似ています。

企業は、チップがプログラミング命令をどのように処理すべきかについて、より優れた命令を記述しようと試みています。AIシステムの学習に使用するデータを再フォーマットしてデータ量を制限し、推論コードをタスクの処理に必要な最小限にまで削減しようとしています。これは、複数の小規模なシステムを構築することを意味します。例えば、動物の画像を生成する画像生成器と人間の画像を生成する画像生成器をそれぞれ1つずつ構築し、ユーザーの指示に応じて切り替えるといった具合です。

また、時間的制約のないプロセスを GPU の可用性が最も高いときに実行するようにスケジュールし、速度とコスト効率のバランスをとるために妥協しています。

音声生成スタートアップ企業のResemble AIは、旧型のチップで顧客のリクエストを処理するのに10分の1秒長くかかっても、ハイエンドオプションの10分の1のコストで済むのであれば、音質に目立った違いがないと、CEOのゾハイブ・アーメド氏は述べている。アーメド氏はまた、LambdaとCoreWeaveの契約条件が受け入れにくくなってきたため、他社との提携も検討しており、より長期的な契約を推奨している。CoreWeaveはコメントを控え、Lambdaもコメント要請に応じなかった。

Resembleは、1週間または1ヶ月単位のGPU予約を受け付ける小規模プロバイダーであるFluidStackに目を向けました。同社は最近、GPUキャパシティの購入と分割を共同で行うスタートアップ企業コンソーシアムであるSan Francisco Compute Groupに加盟しました。「スタートアップのエコシステムは、団結して『どのように戦うか、どのようにコンピューティングを奪い合うか』を模索しています。そうでなければ、非常に不公平なゲームになってしまうでしょう。価格が高すぎるのです」とAhmed氏は言います。

毎週月曜日の朝、品薄状態の中でかすかな希望の光が見えてくると彼は言う。クラウドプロバイダーのLambdaの営業担当者から、Resemble社がNvidiaの最新チップ「H100」の予約を希望しているか尋ねるメールが届くのだ。在庫があることは嬉しいことだとアハメドは言うが、これらのチップは3月から広く入手可能になったばかりで、企業がテストを重ねてコードを完成し、本格的に採用するのは時間の問題だ。Nvidiaは来年、最新かつ最高の第2世代GH200を発売する。そうなれば、品薄のサイクルが再び始まるだろう。