大規模言語モデルの創発能力は幻影である

大規模言語モデルの創発能力は幻影である

この物語 のオリジナル版はQuanta Magazineに掲載されました

2年前、「Beyond the Imitation Gameベンチマーク」(BIG-bench)と呼ばれるプロジェクトで、450人の研究者がChatGPTのようなチャットボットの基盤となる大規模言語モデルの能力をテストするために設計された204のタスクのリストを作成しました。ほとんどのタスクでは、モデルのスケールアップに伴い、パフォーマンスは予測通りかつスムーズに向上しました。つまり、モデルが大きくなるほど、パフォーマンスが向上したのです。しかし、他のタスクでは、能力の飛躍はスムーズではありませんでした。パフォーマンスはしばらくゼロ付近で推移した後、急上昇しました。他の研究でも同様の能力の飛躍が見られました。

著者らはこれを「画期的な」行動と表現し、他の研究者らはこれを、液体の水が凍って氷になるような物理学における相転移に例えています。2022年8月に発表された論文の中で、研究者らはこれらの行動は驚くべきものであるだけでなく予測不可能であり、AIの安全性、可能性、そしてリスクに関する議論の進展に情報を提供するはずだと指摘しました。彼らはこれらの能力を「創発的」と呼びました。これは、システムが高度な複雑性に達した場合にのみ現れる集合的な行動を表す言葉です。

しかし、事態はそう単純ではないかもしれない。スタンフォード大学の3人の研究者による新しい論文は、これらの能力の突然の出現は、研究者がLLMの性能を測定する方法の結果に過ぎないと主張している。彼らは、これらの能力は予測不可能でも突然でもないと主張する。「この変化は、人々が考えているよりもはるかに予測可能です」と、スタンフォード大学のコンピューター科学者で論文の筆頭著者であるサンミ・コイェジョ氏は述べた。「出現の強い主張は、モデルの働きだけでなく、測定方法の選択にも大きく関係しています。」

これらのモデルが大規模になったことで、私たちは今になってようやくこの行動を観察し、研究するようになりました。大規模言語モデルは、膨大なテキストデータセット(書籍、ウェブ検索、Wikipediaなどのオンラインソースからの単語)を分析し、頻繁に一緒に現れる単語間のつながりを見つけることでトレーニングします。そのサイズはパラメータで測定され、これは単語をつなげることができるすべての方法とほぼ類似しています。パラメータが多いほど、LLMが見つけられるつながりも多くなります。GPT-2には15億のパラメータがありましたが、ChatGPTを動かすLLMであるGPT-3.5は3,500億を使用しています。2023年3月にデビューし、現在Microsoft Copilotの基盤となっているGPT-4は、1兆7,500億のパラメータを使用していると報告されています。

この急速な成長は、パフォーマンスと有効性の驚異的な飛躍をもたらし、十分に大規模なLLMが、小規模なモデルでは不可能なタスク、さらには訓練されていないタスクも実行できることに異論を唱える人はいない。創発現象を「幻影」と形容するスタンフォード大学の3人は、LLMは規模が大きくなるにつれてより効果的になることを認識している。実際、大規模モデルによる複雑性の増加は、より困難で多様な問題への対応力を向上させる可能性がある。しかし彼らは、この改善が滑らかで予測可能に見えるか、それともギザギザで急激に見えるかは、モデルの内部構造ではなく、指標の選択、あるいはテスト例の不足に起因していると主張する。

折れ線グラフ

メリル・シャーマン/クォンタ・マガジン提供

3桁の加算を例に挙げましょう。2022年のBIG-bench研究では、パラメータ数が少ない場合、GPT-3と別のLLMであるLAMDAはどちらも加算問題を正確に解くことができなかったことが報告されました。しかし、GPT-3が130億のパラメータで学習させたところ、まるでスイッチを入れたかのように能力が変化しました。突然、GPT-3は加算できるようになり、LAMDAも680億のパラメータで加算できるようになりました。これは、加算能力が特定の閾値を超えると発現することを示唆しています。

しかしスタンフォード大学の研究者たちは、LLMは正確性のみで評価されていたと指摘しています。つまり、完璧に予測できるか、できないかのどちらかです。つまり、LLMが数字の大部分を正しく予測したとしても、それは不合格だったのです。これは正しくないように思えます。100と278を足す場合、例えば-9.34よりも376の方がはるかに正確な答えに思えます。

そこでコイェジョ氏と共同研究者たちは、部分的な評価を与える指標を用いて同じ課題をテストした。「最初の数字をどれだけ正確に予測できるか、次に2番目の数字をどれだけ正確に予測できるか、そして3番目の数字をどれだけ正確に予測できるか、という問いかけができます」と彼は述べた。

コイェジョ氏は、この新しい研究のアイデアを大学院生のライラン・シェーファー氏に託しています。シェーファー氏は、法学修士(LLM)の能力は、その能力の測定方法によって変化するようだと指摘しました。スタンフォード大学の別の大学院生、ブランド・ミランダ氏と共に、新たな指標を選択し、パラメータが増加するにつれて、法学修士(LLM)が加法問題においてより正確な数字の列を予測するようになったことを示しました。これは、加法能力が創発的(つまり、突然予測不可能な飛躍を遂げる)ではなく、徐々に予測可能なものであることを示唆しています。彼らは、測定基準を変えると、創発的性質は消えてしまうことを発見しました。

ポートレート ブランド・ミランダ サンミ・コエジョ

ブランド・ミランダ(左)、サンミ・コイェジョ、ライラン・シェーファー(写真なし)は、大規模言語モデルの「創発的」能力は予測可能かつ段階的であると示唆している。

クリス・ブリューワー、アナニャ・ナヴァレ提供

しかし、他の科学者たちは、この研究が創発の概念を完全に払拭していないと指摘する。例えば、ノースイースタン大学のコンピューター科学者、ティエンシ・リー氏は、3人の論文は、法学修士課程においてどの指標がいつ、あるいはどの指標が急激に向上するかを予測する方法を説明していないと述べている。「ですから、その意味では、これらの能力は依然として予測不可能なのです」と彼女は述べた。一方、現在OpenAIに所属し、創発能力のリストを作成し、BIGベンチ論文の著者でもあるコンピューター科学者、ジェイソン・ウェイ氏のような研究者は、算数のような能力においては、正しい答えが本当に全てであるため、以前の創発に関する報告は妥当だったと主張している。

「確かに興味深い議論の余地があります」と、AIスタートアップ企業Anthropicのリサーチサイエンティスト、アレックス・タムキン氏は述べた。新たな論文は、複数段階のタスクを巧みに分解し、個々の要素の貢献を明らかにしていると彼は述べた。「しかし、これは全体像ではありません。これらの飛躍的な変化がすべて幻想だと言うことはできません。文献は、たとえ1段階の予測を行ったり、連続的な指標を用いたりしたとしても、依然として不連続性が存在することを示していると考えています。そして、モデルの規模が大きくなるにつれて、飛躍的に改善していく様子を見ることができます。」

たとえ今日のLLMにおける出現が測定ツールの多様化によって説明できたとしても、将来のより大規模で複雑なLLMではそうはいかない可能性が高い。「LLMを次のレベルに進化させるには、必然的に他のタスクや他のモデルから知識を借用することになるだろう」と、ライス大学のコンピューター科学者であるシア・ベン・フー氏は述べた。

創発に関するこうした進化する考察は、研究者にとって単なる抽象的な問題ではありません。タムキン氏にとって、これはLLMの挙動を予測するための継続的な取り組みに直接関係しています。「これらの技術は非常に幅広く、応用範囲も広いのです」と彼は言います。「コミュニティの皆さんがこれを出発点として、これらの技術を予​​測する科学を構築することの重要性を継続的に強調してくれることを願っています。どうすれば次世代のモデルに驚かされずにいられるでしょうか?」


オリジナルストーリーは、数学、物理科学、生命科学の研究の進展や動向を取り上げることで科学に対する一般の理解を深めることを使命とする、 シモンズ財団の編集上独立した出版物であるQuanta Magazineから許可を得て転載されました。