ChatGPTと他のLLMの仕組みと今後の展望

ChatGPTと他のLLMの仕組みと今後の展望

AIチャットボットのような大規模言語モデルは、どこにでも見られるようになりました。それらをより深く理解すれば、より効果的に活用できるようになります。

ChatGPT のロゴがボルトとして刻まれたレンチ

イラスト: ジェームズ・マーシャル、ゲッティイメージズ

ChatGPTやGoogle BardなどのAI搭載チャットボットは確かに注目を集めています。次世代の会話型ソフトウェアツールは、Web検索の代行から、創造的な文学の無限の供給、世界中の知識を記憶して私たちが覚える必要がないようにすることまで、あらゆることを行うことを約束しています。

ChatGPT、Google Bard、そしてそれらに似た他のボットは、大規模言語モデル(LLM)の例であり、その仕組みを深く掘り下げる価値があります。そうすれば、LLMをより有効に活用できるようになり、LLMの得意分野(そして実際には任せるべきではない分野)をより深く理解できるようになります。

多くの人工知能システム(例えば、声を認識したり猫の写真を生成したりするシステムなど)と同様に、LLM(法学修士)は膨大な量のデータで訓練されています。LLMを開発する企業は、そのデータの正確な出所を明らかにすることには慎重ですが、注目すべき手がかりがいくつかあります。

例えば、Bardが基盤としているLaMDA(対話アプリケーション向け言語モデル)モデルを紹介する研究論文では、Wikipedia、「公開フォーラム」、そして「Q&Aサイトやチュートリアルなど、プログラミング関連サイトのコードドキュメント」に言及しています。一方、Redditは18年間蓄積されたテキスト会話へのアクセスを有料化しようとしており、StackOverflowも有料化の計画を発表しました。ここで示唆されているのは、LLMがこれまで両サイトを情報源として広く活用してきたということです。しかも、それらは完全に無料で、それらのリソースを構築・利用した人々の負担で賄われているのです。Web上で公開されている情報の多くは、LLMによってスクレイピングされ、分析されているのは明らかです。

3段階のLLMトレーニングモデルを概説したフローチャート

LLM では、機械学習と人間の入力を組み合わせて使用​​します。

OpenAI、David Nield経由

こうしたテキストデータは、その出所を問わず、ニューラルネットワークを通して処理されます。ニューラルネットワークは、複数のノードとレイヤーで構成される、一般的に用いられるAIエンジンの一種です。これらのネットワークは、過去の試行錯誤の結果など、様々な要因に基づいて、データの解釈と理解の方法を継続的に調整します。ほとんどのLLMは、言語処理に特に適したいくつかのトリックを備えた「トランスフォーマー」と呼ばれる特定のニューラルネットワークアーキテクチャを使用しています。(「Chat」の後の「GPT」は、「Generative Pretrained Transformer(生成的事前学習済みトランスフォーマー)」の略です。)

具体的には、トランスフォーマーは膨大な量のテキストを読み取り、単語やフレーズの相互関係のパターンを捉え、次にどのような単語が続くべきかを予測することができます。LLMがスーパーチャージされたオートコレクトエンジンに例えられているのを聞いたことがあるかもしれませんが、それは実際それほど的外れではありません。ChatGPTとBardは実際には何も「知っている」わけではありませんが、どの単語が次の単語に続くかを判断するのは非常に得意です。そして、それが十分に高度な段階に達すると、真の思考と創造性のように見え始めます。

これらのトランスフォーマーの重要な革新の一つは、自己注意メカニズムです。一段落で説明するのは難しいですが、本質的には、文中の単語を個別に考慮するのではなく、様々な高度な方法で互いの関係性も考慮することを意味します。これにより、他の方法では不可能だった、より高いレベルの理解が可能になります。

コードにはある程度のランダム性と変動性が組み込まれているため、Transformerチャットボットから毎回同じ応答が返されるわけではありません。この自動修正の考え方は、エラーがどのように入り込むかを説明するものでもあります。根本的に、ChatGPTとGoogle Bardは何が正確で何がそうでないかを知りません。彼らは、もっともらしく自然で、かつ学習に使用したデータと一致する応答を求めています。

例えば、ボットは必ずしも次に来る最も可能性の高い単語を選ぶとは限らず、2番目や3番目に可能性の高い単語を選ぶかもしれません。しかし、これをやりすぎると文章が意味をなさなくなります。そのため、LLMは常に自己分析と自己修正を行っています。もちろん、応答の一部は入力内容に左右されるため、これらのチャットボットに応答を簡素化したり、より複雑にしたりするよう指示することができます。

「REM のバックカタログから隠れた逸品を教えて」というプロンプトが表示された Google Bard のスクリーンショット。

Google、David Nield経由

生成されるテキストがかなり一般的で決まりきったものになっていることに気づくかもしれません。これは、膨大な既存テキストリポジトリから応答を合成しようとしているチャットボットなら当然のことかもしれません。ある意味、これらのボットはスプレッドシートが一連の数値の平均を求めるのと同じように文章を大量に生成しており、その結果、全く目立たず平凡な出力しか得られません。例えば、ChatGPTにカウボーイ風に話させてみると、それはこれ以上ないほど露骨で、いかにもカウボーイらしい会話になるでしょう。

これらすべてに人間も関わっています(つまり、まだ完全には不要というわけではありません)。訓練を受けた監督者とエンドユーザーは、間違いを指摘したり、回答の良し悪しに基づいてランク付けしたり、AIが目指すべき高品質な結果を提供したりすることで、LLMのトレーニングを支援します。技術的には、これは「人間によるフィードバックに基づく強化学習」(RLHF)と呼ばれます。LLMはその後、内部のニューラルネットワークをさらに改良し、次回より良い結果を得られるようにします。(このレベルの技術はまだ比較的初期段階ですが、開発者からアップグレードや改善に関する通知が数多く届いています。)

これらのLLMが大規模かつ複雑になるにつれて、その能力は向上していくでしょう。ChatGPT-4のパラメータ数は約1兆個(OpenAIは公式には確認していませんが)で、ChatGPT 3.5の1750億個から増加していることが分かっています。パラメータとは、数値とアルゴリズムを通じて単語を結びつける数学的関係のことです。これは、単語間の関係性を理解し、それらをつなぎ合わせて応答を作成する方法を知るという点で、大きな飛躍です。

LLMの仕組みから、彼らが訓練されたテキストを模倣し、多少味気ないものの、自然で知識豊富な文章を生成することに非常に長けていることは明らかです。「高度な自動修正」機能により、彼らはほとんどの場合、事実を正しく理解します。(「アメリカ合衆国の初代大統領は…」の後に続く単語は明らかです。)しかし、ここで彼らは失敗し始める可能性があります。最も可能性の高い次の単語が必ずしも正しいとは限らないのです。

訂正、2023 年 5 月 9 日: この記事の以前のバージョンでは、ChatGPT 3.5 のパラメーターの数を過小評価し (1 億 7,500 万ではなく 1,750 億)、ChatGPT 4 には 100 兆以上あると述べていましたが、この記事が公開されてから現在までの報告では、実際の数は 1 兆程度まで低くなる可能性があることが示されています。

  • 受信箱に届く:ウィル・ナイトのAIラボがAIの進歩を探る

デイビッド・ニールドは英国マンチェスター出身のテクノロジージャーナリストで、20年以上にわたりアプリやガジェットに関する記事を執筆しています。Xでフォローできます。…続きを読む

続きを読む