選択的忘却はAIの学習を向上させる

選択的忘却はAIの学習を向上させる

この物語 のオリジナル版はQuanta Magazineに掲載されました

コンピューター科学者のチームが、より機敏で柔軟な機械学習モデルを開発しました。その鍵は、定期的に既知の知識を忘却することです。この新しいアプローチは、大規模アプリを支える巨大なモデルに取って代わるものではありません。しかし、これらのプログラムがどのように言語を理解するのか、より深く理解できる可能性があります。

韓国基礎科学研究所のAIエンジニア、ジェア・クォン氏は、この新たな研究は「この分野における大きな進歩」を示すものだと述べた。

現在使用されているAI言語エンジンは、主に人工ニューラルネットワークによって駆動されています。ネットワーク内の各「ニューロン」は数学関数であり、他のニューロンから信号を受信し、何らかの計算を実行し、複数のニューロン層に信号を送信します。情報の流れは当初はほぼランダムですが、トレーニングを通じてネットワークがトレーニングデータに適応するにつれて、ニューロン間の情報の流れは改善されます。例えば、AI研究者がバイリンガルモデルを作成したい場合、両方の言語の大量のテキストを使ってモデルをトレーニングします。これにより、一方の言語のテキストをもう一方の言語の同義語に関連付けるように、ニューロン間の接続が調整されます。

しかし、この学習プロセスには膨大な計算能力が必要です。モデルがうまく機能しなかったり、ユーザーのニーズが後から変化したりした場合、適応させるのは困難です。「例えば、100言語に対応したモデルがあるとして、必要な言語が1つもカバーされていないとしたらどうでしょう」と、今回の研究の共著者であり、AIスタートアップ企業Rekaの創業者であるミケル・アルテチェ氏は述べています。「ゼロからやり直すことも可能ですが、理想的とは言えません。」

アルテチェ氏と彼の同僚たちは、これらの限界を回避しようと試みてきました。数年前、アルテチェ氏らはニューラルネットワークをある言語で学習させ、その後、単語の構成要素であるトークンに関する知識を消去しました。トークンは、ニューラルネットワークの最初の層、つまり埋め込み層に格納されています。モデルの他の層はすべてそのまま残しました。最初の言語のトークンを消去した後、モデルを2番目の言語で再学習させ、埋め込み層をその言語の新しいトークンで埋めました。

モデルには不一致な情報が含まれていたにもかかわらず、再学習は成功し、モデルは新しい言語を学習・処理することができました。研究者たちは、埋め込み層が言語で使用される単語に特有の情報を記憶する一方で、ネットワークのより深い層には人間の言語の背後にある概念に関するより抽象的な情報が記憶されており、それがモデルが第二言語を学習するのに役立ったと推測しました。

「私たちは同じ世界に住んでいます。異なる言語では、同じものを異なる言葉で概念化しているのです」と、最近の論文の筆頭著者であるイーホン・チェン氏は述べた。「だからこそ、モデルには同じ高レベルの推論が組み込まれているのです。リンゴは単なる言葉ではなく、甘くてジューシーなものなのです。」

グラフや数字が描かれたホワイトボードの前に座り、眼鏡をかけ、ピンクのスウェットシャツを着た人

イーホン・チェンは、知識の一部を選択的に忘却する機械学習モデルが、新しい言語をより良く学習できることを示すのに貢献した。提供:イーホン・チェン

この忘却アプローチは、既に学習済みのモデルに新しい言語を追加する効果的な方法でしたが、再学習には依然として多くの言語データと処理能力が必要であり、負担が大きかったです。Chen氏は微調整を提案しました。学習後に埋め込み層を消去し、再学習するのではなく、最初の学習ラウンド中に埋め込み層を定期的にリセットするのです。「こうすることで、モデル全体がリセットに慣れます」とArtetxe氏は言います。「つまり、モデルを別の言語に拡張したい場合、これまで行ってきたことなので、より簡単に拡張できるのです。」

研究者たちは、一般的に使用されている言語モデル「ロバータ」を、独自の周期的忘却手法を用いて学習させ、標準的な非忘却アプローチを用いて学習させた場合の同じモデルの性能と比較しました。忘却モデルは従来のモデルよりもわずかに劣り、言語精度の一般的な指標において、従来のモデルが86.1だったのに対し、従来のモデルは85.1でした。その後、研究者たちは、最初の学習で使用した700億トークンではなく、わずか500万トークンというはるかに少ないデータセットを用いて、他の言語でモデルを再学習させました。標準モデルの精度は平均53.3に低下しましたが、忘却モデルは62.7にとどまりました。

忘却モデルは、再学習中に計算量に制限を設けた場合にも、大幅に改善しました。学習期間を12万5000ステップからわずか5000ステップに短縮したところ、忘却モデルの精度は平均57.8に低下しましたが、標準モデルは37.2にまで急落し、これはランダムな推測と同程度でした。

研究チームは、定期的な忘却がモデルの言語学習全般を向上させるようだと結論付けました。「学習中に忘却と再学習を繰り返すため、後でネットワークに新しいことを教えることが容易になります」と、ケベック州にある深層学習研究センターMilaの研究者であるエフゲニー・ニキシン氏は述べています。これは、言語モデルが言語を理解する際、個々の単語の意味だけでなく、より深いレベルで理解していることを示唆しています。

このアプローチは、私たち自身の脳の働きに似ています。「人間の記憶は一般的に、大量の詳細な情報を正確に保存するのがあまり得意ではありません。その代わりに、人間は経験の要点を抽象化して推測しながら記憶する傾向があります」と、サンフランシスコ大学の神経科学者ベンジャミン・レヴィ氏は述べています。「適応的忘却のような、より人間に近いプロセスをAIに組み込むことは、AIをより柔軟なパフォーマンスに導く一つの方法です。」

アルテチェ氏は、理解の仕組みに関する知見に加え、より柔軟な忘却言語モデルが、最新のAIのブレークスルーをより多くの言語に適用するのに役立つことを期待している。AIモデルは、豊富な学習教材を持つスペイン語と英語の2言語には優れているものの、アルテチェ氏の母語であるバスク語(スペイン北東部特有の言語)にはそれほど適していない。「大手テック企業のモデルのほとんどは、バスク語をうまく扱えていません」とアルテチェ氏は述べた。「既存のモデルをバスク語に適応させることが、今後の方向性です。」

チェン氏は、AIがもっと花開く世界を待ち望んでいる。「世界が一つの大きな言語モデルを必要としない状況を考えています。今、私たちはたくさんの言語モデルを持っています」と彼女は言った。「言語モデルを作る工場があれば、この種の技術が必要になります。新しい分野に素早く適応できる一つの基本モデルを持っているのです。」


オリジナルストーリーは、数学、物理科学、生命科学の研究の進展や動向を取り上げることで科学に対する一般の理解を深めることを使命とする、 シモンズ財団の編集上独立した出版物であるQuanta Magazineから許可を得て転載されました。