AIの創造性の背後にある隠された要素

AIの創造性の背後にある隠された要素

この物語 のオリジナル版はQuanta Magazineに掲載されました。

かつて自動運転車やロボットメイドが登場すると約束されていました。ところが、チェスで人間に勝ち、膨大な量のテキストを分析し、ソネットを作曲できる人工知能システムの台頭を目の当たりにしました。これは現代の大きな驚きの一つです。人間にとって容易な身体的作業がロボットにとっては非常に困難になり、アルゴリズムはますます人間の知性を模倣できるようになっています。

研究者を長らく困惑させてきたもう一つの驚きは、それらのアルゴリズムが独自の奇妙な創造性を発揮する能力を持っていることだ。

DALL·E、Imagen、Stable Diffusionといった画像生成ツールの基盤となる拡散モデルは、学習済みの画像のカーボンコピーを生成するように設計されています。しかし実際には、画像内の要素を即興的に組み合わせて新しいものを作り出しているように見えます。単なる無意味な色の塊ではなく、意味のある一貫性のある画像です。パリのエコール・ノルマル・シュペリウールのAI研究者で物理学者のジュリオ・ビロリ氏は、これが拡散モデルの背後にある「パラドックス」だと述べています。「もし拡散モデルが完璧に機能するなら、記憶するはずです」と彼は言います。「しかし、実際にはそうではありません。実際には新しいサンプルを生成できるのです。」

画像を生成するために、拡散モデルはノイズ除去と呼ばれるプロセスを使用します。画像をデジタルノイズ(一貫性のないピクセルの集まり)に変換し、それを再構成します。これは、絵画をシュレッダーに何度も通して微細な塵の山だけになるまで粉砕し、その後、断片をつなぎ合わせて元に戻すようなものです。研究者たちは長年、疑問を抱いてきました。モデルが単に再構成しているだけなら、どのようにして新しさが生まれるのでしょうか?まるで、細かく切り刻まれた絵画を全く新しい芸術作品に再構成するようなものです。

今、二人の物理学者が驚くべき主張を展開した。拡散モデルの創造性は、ノイズ除去プロセス自体の技術的な欠陥に起因しているというのだ。国際機械学習会議2025で発表された論文の中で、二人は訓練された拡散モデルの数理モデルを開発し、いわゆる創造性は実際には決定論的なプロセスであり、そのアーキテクチャの直接的かつ必然的な帰結であることを示した。

この新たな研究は、普及モデルのブラックボックスを明らかにすることで、将来のAI研究、ひいては人間の創造性への理解にも大きな影響を与える可能性がある。「この論文の真の強みは、非常に非自明な事柄について非常に正確な予測を行っている点にある」と、オランダのラドバウド大学のコンピューター科学者、ルカ・アンブロジョーニ氏は述べた。

ボトムズアップ

スタンフォード大学で応用物理学を学ぶ大学院生で、今回の論文の主著者であるメイソン・カンブ氏は、形態形成、つまり生体システムが自己組織化するプロセスに長年魅了されてきた。

人間や他の動物の胚の発生を理解する方法の一つは、20世紀の数学者アラン・チューリングにちなんで名付けられたチューリングパターンと呼ばれる手法です。チューリングパターンは、細胞集団がどのようにして明確な器官や四肢へと自ら組織化していくのかを説明します。重要なのは、この調整がすべて局所レベルで行われることです。何兆もの細胞を統括し、それらが最終的な体制に沿っているかを確認するCEOは存在しません。言い換えれば、個々の細胞には、活動の基盤となる体の完成した設計図はありません。細胞は、近隣の細胞からの信号に応じて行動を起こし、修正を加えているだけです。このボトムアップのシステムは通常はスムーズに機能しますが、時折、例えば余分な指を持つ手が作られるなど、うまくいかないことがあります。

AIが生成した画像が初めてネット上に現れ始めた頃、その多くはシュールレアリストの絵画のように、余分な指を持つ人間を描いていました。カム氏はすぐに形態形成について考えました。「これは、ボトムアップ型のシステムにありがちな失敗の匂いがしました」と彼は言います。

AI研究者たちは、拡散モデルが画像生成時にいくつかの技術的な近道を取っていることを既に知っていた。一つ目は局所性と呼ばれるもので、一度に単一のピクセル群、つまり「パッチ」にのみ注目する。二つ目は、画像生成時に厳格なルールに従うことである。例えば、入力画像を任意の方向に数ピクセルだけシフトすると、システムは自動的に調整し、生成する画像にも同じ変更を加える。並進等価性と呼ばれるこの機能は、モデルが一貫した構造を維持するための方法であり、これがなければ、リアルな画像を作成することははるかに困難になる。

これらの特徴のおかげで、拡散モデルは特定のパッチが最終画像のどこに収まるかを一切考慮しません。一度に1つのパッチを生成し、スコア関数と呼ばれる数学モデルを用いてそれらを自動的に適切な位置に収めることにのみ焦点を当てます。スコア関数はデジタルチューリングパターンと考えることができます。

研究者たちは長らく、局所性と等分散性をノイズ除去プロセスの単なる限界、つまり拡散モデルが画像の完璧な複製を作成することを妨げる技術的な問題と捉えてきた。彼らは、これらを創造性と結びつけることはなかった。創造性は高次の現象と考えられていたからだ。

彼らはまた別の驚きを体験することになった。

地元産

カンブ氏は2022年、スタンフォード大学の物理学者で神経生物学と電気工学の教授も務めるスーリヤ・ガングリ氏の研究室で大学院研究を開始しました。OpenAIは同年、ChatGPTをリリースし、現在では生成AIとして知られる分野への関心が急上昇しました。技術開発者たちがますます強力なモデルの構築に取り組む一方で、多くの学者たちはこれらのシステムの内部構造を理解することに固執し続けました。

画像にはブロンドの髪の人物、衣類、袖付きクルーカットティーン、Tシャツが含まれている可能性があります

メイソン・カム(写真)は、2022年にスーリヤ・ガングリの研究室で大学院の研究を始めました。

写真:チャールズ・ヤン

画像には、Saurabh Patel、コンピューター、電子機器、ラップトップ、PC、成人、人物、頭、顔、アクセサリー、メガネが含まれている可能性があります。

スーリヤ・ガングリはスタンフォード大学の物理学者です。

最終的に、カムブは局所性と等分散性が創造性につながるという仮説を立てました。これは、魅力的な実験の可能性を示唆しました。局所性と等分散性を最適化するだけのシステムを考案できれば、それは拡散モデルのように振る舞うはずだ、というものです。この実験は、ガングリ氏を共著者として執筆した彼の新しい論文の中核を成していました。

カンブ氏とガングリ氏は、このシステムを「等変局所スコア(ELS)マシン」と呼んでいます。これは学習済みの拡散モデルではなく、局所性と等変性のメカニズムのみに基づいて、ノイズ除去後の画像の構成を解析的に予測できる一連の方程式です。彼らは次に、デジタルノイズに変換された一連の画像をELSマシンと、ResNetやUNetsなどの強力な拡散モデルの両方に通しました。

結果は「衝撃的」だったとガングリ氏は語った。全体的に、ELSマシンは訓練された拡散モデルの出力を平均90パーセントの精度で完全に一致させることができた。これは「機械学習では前代未聞」の結果だとガングリ氏は語った。

結果はカンブの仮説を裏付けているようだ。「局所性を課すとすぐに、(創造性は)自動的に現れ、ダイナミクスから完全に自然に抜け落ちたのです」と彼は述べた。ノイズ除去プロセスにおいて拡散モデルの注意の窓を制限したメカニズム、つまり、最終的な結果のどこに当てはまるかに関わらず、個々のパッチに集中することを強制するメカニズムこそが、拡散モデルの創造性を可能にするメカニズムと全く同じであることを彼は発見した。拡散モデルに見られる余分な指の現象も同様に、より広い文脈を考慮せずに局所的なピクセルパッチを生成することにモデルが過度に固執したことの直接的な副産物であった。

この記事のためにインタビューを受けた専門家たちは、カムブとガングリの論文が拡散モデルにおける創造性の背後にあるメカニズムを明らかにしているものの、依然として多くの謎が残っているという点で概ね一致している。例えば、大規模言語モデルやその他のAIシステムも創造性を発揮しているように見えるものの、局所性や同値性は活用されていない。

「これは物語の非常に重要な部分だと思う」とビロリ氏は語った。「だが、それが物語のすべてではない」

創造性を創造する

研究者たちは初めて、拡散モデルの創造性がノイズ除去プロセスそのものの副産物として考えられ、数学的に定式化され、かつてないほど高い精度で予測できることを示しました。まるで神経科学者が人間のアーティスト集団をMRI装置に入れ、彼らの創造性の背後にある共通の神経メカニズムを発見し、それを一連の方程式として記述したかのようです。

神経科学との比較は単なる比喩の域を超えているかもしれない。カム氏とガングリ氏の研究は、人間の心のブラックボックスへの洞察も提供する可能性がある。「人間の創造性とAIの創造性はそれほど変わらないかもしれない」と、ジョージア工科大学とIBMリサーチで普及モデルを研究する機械学習研究者のベンジャミン・フーバー氏は述べた。「私たちは、経験、夢、見聞き、あるいは欲求に基づいて物事を組み立てます。AIもまた、見たものや指示されたことに基づいて構成要素を組み立てているに過ぎません。」この見解によれば、人間の創造性も人工の創造性も、根本的には世界に対する不完全な理解に根ざしている可能性がある。私たちは皆、知識のギャップを埋めようと最善を尽くしており、時折、新しくて価値のあるものを生み出す。おそらく、これが私たちが創造性と呼ぶものなのだろう。


オリジナルストーリーは 、数学、物理科学、生命科学の研究の進展や動向を取り上げることで科学に対する一般の理解を深めることを使命とする、シモンズ財団の編集上独立した出版物であるQuanta Magazineから許可を得て転載されました。