世界で最も強力なオープンソースAIモデル、DBRXの開発秘話

世界で最も強力なオープンソースAIモデル、DBRXの開発秘話

スタートアップ企業の Databricks は、Meta の Llama 2 を上回る、これまでで最も強力なオープンソースの大規模言語モデルである DBRX をリリースしました。

オフィススペースで話したり笑ったりしている混雑した人々のグループ

データブリックスのサンフランシスコオフィスで働くスタッフ。写真:ガブリエラ・ハスブン

先週月曜日、データサイエンスとAI企業Databricksのエンジニアと幹部約12名がZoomで接続された会議室に集まり、最高レベルの人工知能言語モデルの構築に成功したかどうかを議論した。チームは数ヶ月と約1,000万ドルを費やし、OpenAIのChatGPTに似た設計の大規模言語モデルDBRXの学習に取り組んできた。しかし、最終テストの結果が出るまでは、その成果がどれほど強力であるかは分からなかった。

「全てを超越しました」と、データブリックスのチーフニューラルネットワークアーキテクトであり、DBRX開発チームのリーダーであるジョナサン・フランクルは、ついにチームに告げた。チームからは歓声や拍手の絵文字で返答があった。フランクルは普段はカフェインを控えているが、この日は徹夜で結果をまとめた後、アイスラテを一口飲んでいた。

DatabricksはDBRXをオープンソースライセンスで公開し、他の開発者がその成果を基に開発できるようにします。Frankle氏は、AIモデルの一般知識に関する質問への回答能力、読解能力、難解な論理パズルの解決能力、高品質なコード生成能力を測定する約12のベンチマークにおいて、DBRXが他のどのオープンソースモデルよりも優れていることを示すデータを共有しました。

オフィススペースの灰色と黄色の壁の角に立っている4人

AI の意思決定者: Jonathan Frankle、Naveen Rao、Ali Ghodsi、Hanlin Tang。写真: ガブリエラ・ハスブン

これは、現在利用可能な最も人気のあるオープンソースAIモデルであるMetaのLlama 2とMistralのMixtralを凌駕しました。スコアが表示されたとき、DatabricksのCEOであるAli Ghodsi氏は「やった!」と叫びました。「ちょっと待てよ、俺たちがイーロンのモデルを上回ったのか?」Frankle氏は、Musk氏のxAIが最近オープンソース化したGrok AIモデルを確かに上回ったと答え、「彼から意地悪なツイートがもらえれば成功と見なす」と付け加えました。

チームの驚きは、DBRXがいくつかのスコアにおいてGPT-4に驚くほど近かったことです。GPT-4はOpenAIのクローズドモデルで、ChatGPTの基盤となり、機械知能の最高峰と広く考えられています。「オープンソースLLMの新たな最高水準を確立しました」とフランクル氏は満面の笑みで語りました。

ビルディングブロック

DBRX Databricksはオープンソース化によって、現在の生成AIブームにおける主要企業の秘密主義的なアプローチに異議を唱える動きにさらなる勢いを加えています。OpenAIとGoogleはGPT-4とGeminiといった大規模言語モデルのコードを非公開にしていますが、Metaをはじめとする一部のライバル企業は、より多くの研究者、起業家、スタートアップ企業、そして既存企業に技術を提供することでイノベーションを促進すると主張し、モデルを他者に公開しています。

Databricksは、オープンソースモデルの作成に関わった作業についても公開したいと述べている。MetaはLlama 2モデルの作成に関する重要な詳細について、これまで公開していなかった。同社はモデル作成の作業を詳述したブログ記事を公開する予定で、さらにWIREDはDatabricksのエンジニアたちに、数百万ドル規模のDBRXトレーニングプロセスの最終段階で重要な決定を下す際に同席するよう依頼した。このインタビューは、最先端のAIモデルの構築がいかに複雑で困難であるかを垣間見せるものだったが、同時に、この分野における近年のイノベーションがコスト削減につながる可能性も示唆している。DBRXのようなオープンソースモデルが利用可能であることと相まって、AI開発が当分の間減速することはないだろう。

アレンAI研究所のCEO、アリ・ファルハディ氏は、AIモデルの構築と訓練に関する透明性の向上が切実に必要だと述べています。企業が競合他社に対する優位性を求める中で、AI分野は近年ますます秘密主義化が進んでいます。高度なAIモデルがもたらすリスクが懸念される場合、不透明性は特に重要だとファルハディ氏は指摘します。「オープン化に向けたあらゆる取り組みを大変嬉しく思います」とファルハディ氏は述べます。「市場のかなりの部分がオープンモデルへと移行していくと確信しています。こうした取り組みがもっと必要です。」

Databricksが特にオープンであるのには理由がある。Googleのような巨大テクノロジー企業はこの1年で急速にAIの新たな導入を進めてきたが、ゴドシ氏によると、他業界の多くの大企業は自社データにAI技術を広く活用できていないという。Databricksは、金融、医療、その他の業界の企業を支援したいと考えている。これらの企業はChatGPTのようなツールを求めているものの、機密データをクラウドに送信することには不安を抱えているという。

「私たちはこれをデータインテリジェンスと呼んでいます。つまり、自社のデータを理解するインテリジェンスです」とゴドシ氏は語る。データブリックスは、顧客向けにDBRXをカスタマイズすることも、顧客のビジネスに合わせてゼロからカスタムメイドすることも可能である。大企業にとって、DBRX規模のものを構築するコストは理にかなっていると彼は言う。「それが私たちにとって大きなビジネスチャンスなのです」。昨年7月、データブリックスはAIモデルの効率的な構築を専門とするスタートアップ企業MosaicMLを買収し、フランクル氏を含むDBRX構築に携わる複数の人材を獲得した。両社とも、これほどの規模のものを構築した経験を持つ者はいなかった。

内部の仕組み

DBRXは、他の大規模言語モデルと同様に、本質的には巨大な人工ニューラルネットワーク(生物のニューロンに大まかに着想を得た数学的フレームワーク)であり、膨大な量のテキストデータが入力されています。DBRXとその類似モデルは、主にトランスフォーマーをベースとしています。トランスフォーマーは、2017年にGoogleのチームによって発明され、言語学習に革命をもたらしたニューラルネットワークの一種です。

トランスフォーマーが発明されて間もなく、OpenAIの研究者たちは、ウェブやその他の情報源から収集した膨大なテキストコレクションを用いて、このタイプのモデルのバージョンを学習し始めました。このプロセスには数ヶ月かかることもあります。重要なのは、モデルと学習に使用したデータセットがスケールアップするにつれて、モデルの出力がより高性能になり、一貫性が保たれ、一見すると知的に見えるようになることを発見したことです。

黒いボタンダウンシャツと青いジーンズを着て、黄色い壁の前の黄色いベンチに座っている人

Databricks CEO の Ali Ghodsi 氏は次のように述べています。写真: ガブリエラ・ハスブン

OpenAIをはじめとする主要AI企業は、依然としてさらなる規模の拡大を追求することに執着している。ウォール・ストリート・ジャーナルによると、OpenAIのCEOサム・アルトマン氏は、AI専用チップの開発に7兆ドルの資金を投入している。しかし、言語モデルの作成において重要なのは規模だけではない。フランクル氏によると、高度なニューラルネットワークの構築には数十もの意思決定が関わっており、より効率的に訓練する方法については研究論文から得られる知見や、コミュニティ内で共有される詳細情報も活用されているという。特に、扱いにくいスイッチと光ファイバーケーブルで接続された数千台のコンピューターを連携させ続けるのは困難を極める。

「毎秒テラビットもの帯域幅を複数の方向から処理する、とてつもない(ネットワーク)スイッチがいくつも存在します」と、フランクル氏は最後のトレーニング実行を終える前に語った。「コンピュータサイエンスに人生を捧げてきた者でさえ、これは信じられない話です」。フランクル氏をはじめとするMosaicMLの面々がこのあまり知られていない科学の専門家であるという事実は、昨年データブリックスがこのスタートアップを買収した際に、その評価額が13億ドルとされた理由を物語っている。

モデルに入力されるデータも最終結果に大きな違いをもたらします。おそらくこれが、Databricksがデータの詳細を公表していない理由でしょう。「データ品質、データクリーニング、データフィルタリング、データ準備はすべて非常に重要です」と、Databricksのバイスプレジデントであり、以前はMosaicMLの創設者兼CEOを務めていたNaveen Rao氏は述べています。「これらのモデルは、まさにそれらの機能によって成り立っています。モデルの品質にとって最も重要な要素と言っても過言ではありません。」

AI研究者は、最新のAIモデルのパフォーマンスを向上させるために、アーキテクチャの微調整や変更を続けています。最近の最も顕著な飛躍の1つは、「Mixture of Experts」と呼ばれるアーキテクチャによるものです。これは、クエリの内容に応じてモデルの一部のみがアクティブになって応答するものです。これにより、トレーニングと操作がはるかに効率的なモデルが生成されます。DBRXには約1360億のパラメーター、つまりトレーニング中に更新されるモデル内の値があります。Llama 2には700億、Mixtralには450億、Grokには3140億のパラメーターがあります。しかし、DBRXが一般的なクエリを処理するために平均で約360億しかアクティブになりません。Databricksによると、基盤となるハードウェアの利用率を向上させるように設計されたモデルの微調整により、トレーニング効率が30〜50%向上しました。また、モデルはより迅速にクエリに応答し、実行に必要なエネルギーも少なくて済むと同社は述べています。

オープンアップ

巨大なAIモデルを訓練するという高度な技術は、時に感情的な判断と技術的な判断に委ねられることがあります。2週間前、Databricksチームは、モデルから最大限の成果を引き出すという、数百万ドル規模の課題に直面していました。

クラウド プロバイダーからリースした 3,072 個の強力な Nvidia H100s GPU でモデルをトレーニングする作業に 2 か月を費やした後、DBRX はすでにいくつかのベンチマークで印象的なスコアを獲得していましたが、それでも約 1 週間分のスーパーコンピューターの時間が残っていました。

残りの1週間のコンピューターパワーをどう使うかについて、チームメンバーがSlackでアイデアを出し合った。一つのアイデアは、コンピューターコードを生成するように調整されたモデルのバージョンを作ること、あるいは趣味で遊ぶためのはるかに小さなバージョンを作ることだった。また、モデルの大規模化をこれ以上進めず、厳選されたデータを投入することで特定の能力セットにおけるパフォーマンスを向上させるという、いわゆるカリキュラム学習という手法も検討された。あるいは、現状のままモデルを大きくし、できればより高性能にするという選択肢もあった。この最後の選択肢は「どうでもいい」という愛称で呼ばれており、あるチームメンバーは特にこの選択肢に熱心だった。

オフィススペースで笑顔で話したり、スマートフォンをチェックしたりしている混雑したグループ

Databricksチーム。写真:ガブリエラ・ハスブン

議論は友好的な雰囲気の中、エンジニアたちがそれぞれに好むアプローチを主張するにつれ、強い意見が噴出しました。最終的に、フランクルは巧みにチームをデータ中心のアプローチへと導きました。そして2週間後、そのアプローチは大きな成果を上げたようです。「カリキュラムの学習効果は向上し、大きな変化をもたらしました」とフランクルは言います。

フランクル氏は、プロジェクトの他の成果を予測することにはあまり成功しなかった。DBRXがコンピューターコード生成に特に優れているとは考えていなかった。チームが明確にその点に焦点を当てていなかったからだ。彼は、もし自分が間違っていたら髪を青く染めると言ってしまうほど確信していた。月曜日の結果では、標準的なコーディングベンチマークにおいて、DBRXが他のどのオープンAIモデルよりも優れていることが明らかになった。「本当に優れたコードモデルを手に入れました」と、月曜日の発表でフランクル氏は語った。「今日は髪を染める予約をしました」

リスクアセスメント

DBRXの最終版は、誰でも使用・改変できる形で公開された、これまでで最も強力なAIモデルです(少なくとも、7億人を超えるユーザーを抱える企業でない限り、Metaは自社のオープンソースAIモデルLlama 2にもこの制限を設けています)。より強力なAIの潜在的な危険性に関する最近の議論は、AIモデルを誰でも利用できるようにすることのリスクが高すぎるかどうかに集中しています。一部の専門家は、オープンモデルはサイバー犯罪や生物兵器・化学兵器の開発を企む犯罪者やテロリストによって容易に悪用される可能性があると指摘しています。Databricks社は、既にモデルの安全性テストを実施しており、今後も調査を継続していくと述べています。

オープンAI研究に特化した共同研究プロジェクトEleutherAIのエグゼクティブディレクター、ステラ・ビダーマン氏は、オープン性がリスクを増大させるという証拠はほとんどないと述べている。彼女をはじめとする研究者たちは、AIモデルが実際にどれほど危険であるか、あるいは何がそれを危険にするのかについて、まだ十分な理解が不足していると主張している。これは、透明性の向上が役立つ可能性がある。「多くの場合、オープンモデルが既存のクローズドモデルと比較して大幅にリスクを増大させると考える特別な理由はない」とビダーマン氏は言う。

EleutherAIは、Mozillaをはじめとする約50の組織や学者とともに、今月、ジーナ・ライモンド米国商務長官に公開書簡を送付し、将来のAI規制においてオープンソースAIプロジェクトのための余地を確保するよう要請しました。書簡では、オープンモデルはスタートアップ企業や中小企業を支援し、「科学研究の加速にも役立つ」ため、経済成長に有益であると主張しています。

Databricksは、DBRXがその両方を実現できると期待しています。他のAI研究者に新しいモデルを試用する機会と、独自のモデルを構築するための役立つヒントを提供するだけでなく、DBRXはAIの実際の仕組みをより深く理解するのに役立つ可能性があるとフランクル氏は述べています。彼のチームは、トレーニングの最終週にモデルがどのように変化したかを研究する予定であり、強力なモデルがどのように追加の能力を獲得するかを明らかにできるかもしれません。「私が最も興奮しているのは、この規模で科学研究を行えることです」と彼は言います。

ウィル・ナイトはWIREDのシニアライターで、人工知能(AI)を専門としています。AIの最先端分野から毎週発信するAI Labニュースレターを執筆しています。登録はこちらから。以前はMIT Technology Reviewのシニアエディターを務め、AIの根本的な進歩や中国のAI関連記事を執筆していました。続きを読む

続きを読む