人工知能における最近の最も目覚ましい進歩のいくつかは、大手テクノロジー企業でのみ利用可能なリソースのおかげで実現しました。そこでは、何千台もの強力なコンピューターとテラバイト単位のデータが、無料のグラノーラバーや仮眠用ポッドと同じくらい豊富になることがあります。
新しいプロジェクトは、近年開発された最も壮大で潜在的に有用な AI アルゴリズムの 1 つを再現するために必要なコード、データ、およびコンピューターのパワーを寄せ集めて、必ずしもそうではないことを示すことを目指しています。
Eleuther は、OpenAI 社が 2020 年にリリースした強力な言語アルゴリズムである GPT-3 に匹敵するオープンソースの取り組みであり、テキスト プロンプトが与えられると、驚くほど首尾一貫した英語の記事を書くことができる場合があります。
Eleuther はまだ GPT-3 の完全な機能に匹敵するまでには至っていませんが、先週、研究者らは GPT-Neo と呼ばれるモデルの新バージョンをリリースしました。これは GPT-3 の最も洗練されていないバージョンとほぼ同等の性能を備えています。
大規模なAIプロジェクトのオープンソース化は、大手テクノロジー企業にAIがますます浸透しつつある時代に、AI技術へのアクセスと普及を促進する可能性があります。また、AIの主要な進歩を背景に利益を上げようとする取り組みにも影響を与え、AIツールの誤動作や誤用の可能性を高める可能性もあります。
「オープンソースのNLPと、大手テクノロジー企業の外で有用なモデルを開発することに、今、大きな期待が寄せられています」と、コーネル大学のコンピュータサイエンス教授、アレクサンダー・ラッシュ氏は述べ、機械の言語使用を支援することに焦点を当てた自然言語処理と呼ばれるAIの分野に言及した。「まるでNLPの宇宙開発競争が繰り広げられているかのようです」
もしそうなら、GPT-3はこの分野のスプートニクと言えるかもしれません。GPT-3は、ウェブから収集した数十億語ものテキストを入力とした巨大な人工ニューラルネットワークで構成されています。GPT-3は驚くほど雄弁で明瞭な表現力を持つ一方で、意味不明な言葉や不快な発言を吐き出すこともあります。数十の研究グループや企業が、この技術の活用方法を模索しています。
GPT-3 のコードはまだ公開されていないが、Eleuther の背後にいる学界や産業界からの数十人の研究者は、その仕組みを説明した論文を参考にしている。
Eleutherとは関係のないラッシュ氏は、このプロジェクトはNLP分野で増加しているオープンソースプロジェクトの中でも最も印象的なものの一つだと述べています。GPT-3をモデルにした強力な言語アルゴリズムをリリースするだけでなく、EleutherチームはNLPアルゴリズムのトレーニング用に「Pile」と呼ばれる高品質なテキストデータセットをキュレートして公開していると彼は言います。
マサチューセッツ大学アマースト校のコンピュータサイエンス教授、モヒット・アイヤー氏は、Eleutherのデータとモデルを用いて、著名なテキストに関する洞察を得るための文学批評マイニングなどのプロジェクトに取り組んでいる。このプロジェクトには、『ジェーン・エア』のような書籍のどの部分が特定の批評で引用されるかを予測するアルゴリズムの訓練も含まれる。アイヤー氏は、この手法はより繊細な言語理解を持つプログラムの開発に役立つ可能性があると述べている。「このすべてのデータを一つのリソースに集約してくれたことに、本当に感謝しています」とアイヤー氏は語る。
オープンソースAIプロジェクトにとって最大の課題は、膨大な計算能力が必要となることかもしれません。GPT-3の学習には、数百万ドル相当のクラウドコンピューティングリソースが必要でした。OpenAIは最近、最先端のAIプロジェクトに必要な計算能力は2012年から2018年の間に約30万倍に増加したと発表しました。
Eleutherプロジェクトは、クラウド企業のCoreWeaveとGoogleから寄付された分散コンピューティングリソースを、TensorFlow Research Cloudを通じて活用しています。これは、プロジェクトメンバーによると、余剰のコンピュータパワーを利用できるようにするための取り組みです。Eleutherチームは、コンピュータパワーへのアクセスを容易にするために、AI計算を複数のマシンに分割する方法を開発しました。しかし、プロジェクトが拡大し続けた場合、計算要件をどのように満たすことができるかは明らかではありません。
OpenAIはGPT-3の商用化に賭けています。2019年7月、OpenAIはMicrosoftから10億ドルの投資を受け、同社は1年後にGPT-3の独占ライセンスを取得しました。OpenAIによると、アクセス制限のあるAPIを使用した300以上のGPT-3プロジェクトが進行中です。これらのプロジェクトには、顧客からのフィードバックから洞察を引き出すツール、箇条書きからメールを自動生成するシステム、終わりのないテキストベースのアドベンチャーゲームなどが含まれます。Eleutherは、GPT-3 APIにアクセスできない同様のツールの開発を容易にする可能性があります。
OpenAIはEleutherプロジェクトについてコメントを拒否した。

Linux、GNU、そして大企業が無料のコラボレーションベースのソフトウェアでどのように利益を上げているかについて知りたいことすべて。
このプロジェクトは、強力なAIシステムへのアクセスを開放することに伴う新たな課題を浮き彫りにしています。GPT-3や類似の大規模言語モデルはランダムなテキストからデータを取得するため、バイアスを再現したり、虐待的または差別的な発言を生み出したりする可能性があります。また、GPT-3のようなツールがフェイクニュースや詐欺的なメッセージを生成するために利用される可能性も考えられます。これが、OpenAIがGPT-3の完全版を公開しない理由の一つです。
Eleutherが使用しているデータセットはGPT-3よりも多様性が高く、Redditなど、疑わしい情報が含まれる可能性が高いソースを回避しています。独立系AI研究者でありEleutherの共同創設者であるコナー・リーヒ氏は、Eleutherプロジェクトは「このデータセットをキュレートし、適切にフィルタリングされ、多様性を確保し、その欠点やバイアスを文書化するために、数ヶ月にわたって多大な努力を払ってきた」と述べています。
コーネル大学のラッシュ氏は、こうしたツールはオープンに開発される方が良いと考えている。「クローズドソースの議論は全くの間違いだと思います」と彼は述べ、多くの学者が言語モデルの誤動作を研究し、その解決策を見つけることに関心を持っていることを指摘する。「オープンソースへの取り組みは、これまでも、そしてこれからも、こうした取り組みと進歩にとって不可欠なものとなるでしょう」と彼は言う。
WIREDのその他の素晴らしい記事
- 📩 テクノロジー、科学などの最新情報: ニュースレターを購読しましょう!
- 話題性、おしゃべり、制御不能なクラブハウスの隆盛
- アメリカで最も人気のあるスポーツ、ブレイズボールにファンが集結
- 新型コロナウイルスの影響でインフルエンザのない一年となった。しかし、必ずしも良いニュースばかりではない。
- 黒人テック従業員が「多様性劇場」に反抗
- 終末に備えたいのですね
- 👁️ 新しいデータベースで、これまでにないAIを探索しましょう
- 🎮 WIRED Games: 最新のヒントやレビューなどを入手
- 📱 最新のスマートフォンで迷っていますか?ご心配なく。iPhone購入ガイドとおすすめのAndroidスマートフォンをご覧ください。