頭蓋骨に包まれた約1.3キログラムの組織の塊である脳が、どのようにして感覚から知覚を生み出すのかは、長年の謎です。豊富な証拠と数十年にわたる継続的な研究は、脳が周囲の状況を知覚するために、まるでジグソーパズルを組み立てるように感覚情報を単純に組み合わせているわけではないことを示唆しています。これは、脳が目に入る光に基づいて、たとえノイズが多く曖昧な情報であっても、情景を構成できるという事実によって裏付けられています。
その結果、多くの神経科学者は、脳を「予測機械」と捉える考え方へと転換しつつあります。予測処理を通して、脳は世界に関する既存の知識を用いて、入ってくる感覚情報の原因について推論したり仮説を立てたりします。感覚入力そのものではなく、これらの仮説が私たちの心の目に知覚を生み出します。入力が曖昧であればあるほど、既存の知識への依存度は高まります。
「予測処理フレームワークの素晴らしい点は、多くの異なるシステムにおけるさまざまな現象を説明できる能力が非常に大きいことです。時には批評家からは大きすぎると言われるかもしれません」と、オランダのラドバウド大学予測脳研究所の神経科学者、フロリス・デ・ランゲ氏は語る。
しかし、この考えを裏付ける神経科学的証拠は増え続けていますが、それらは主に状況証拠であり、別の説明が考えられます。「人間の認知神経科学と神経画像化を調べてみると、多くの証拠がありますが、それらは極めて暗黙的で間接的なものです」と、機械学習と神経科学の学際領域を研究するラドバウド大学のティム・キーツマン氏は述べています。
そこで研究者たちは、予測脳という概念を理解し検証するために計算モデルに目を向けています。計算神経科学者たちは、生物学的ニューロンの行動に着想を得た設計に基づき、入力情報に関する予測を学習する人工ニューラルネットワークを構築しました。これらのモデルは、現実の脳を模倣しているように見える不思議な能力を示しています。これらのモデルを用いた実験の中には、脳がエネルギー制約を満たすために予測機械として進化しなければならなかったことを示唆するものさえあります。
計算モデルが急増するにつれ、生きた動物を研究する神経科学者たちも、脳が感覚入力の原因を推測することを学習しているという確信を深めつつある。脳がどのようにこれを行っているのか、その詳細は依然として不明瞭だが、大まかな概要は明らかになりつつある。
知覚における無意識の推論
予測処理は、一見すると直感に反するほど複雑な知覚メカニズムのように思えるかもしれないが、他の説明が不十分であるために科学者たちがこのメカニズムに目を向けてきた長い歴史がある。1000年前でさえ、イスラム教徒のアラブ人天文学者で数学者のハサン・イブン・アル=ハイサムは、著書『光学の書』の中で、視覚の様々な側面を説明するために、このメカニズムの一形態を取り上げている。この考えは1860年代に勢いを増し、ドイツの物理学者で医師のヘルマン・フォン・ヘルムホルツは、脳は感覚入力から「ボトムアップ」で知覚を構築するのではなく、その外的要因を推論すると主張した。
ヘルムホルツは、この「無意識の推論」という概念を、双安定あるいは多安定知覚、つまり一つの画像が複数の方法で知覚される状態を説明するために展開しました。これは、例えば、私たちがアヒルやウサギとして知覚する、よく知られた曖昧な画像で起こります。私たちの知覚は、二つの動物の画像の間を絶えず切り替わっているのです。このような場合、ヘルムホルツは、網膜に形成される画像は変化しないため、知覚は感覚データの原因に関するトップダウン推論という無意識のプロセスの結果であるに違いないと主張しました。
20世紀を通して、認知心理学者たちは、知覚はボトムアップの感覚入力とトップダウンの概念入力の両方を利用する能動的な構築プロセスであるという主張を展開し続けました。この取り組みは、故リチャード・ラングトン・グレゴリーによる1980年の影響力のある論文「仮説としての知覚」に結実しました。この論文では、知覚錯覚は本質的に、感覚印象の原因に関する脳の誤った推測であると論じられました。一方、コンピュータービジョンの科学者たちは、ボトムアップ再構成を用いて、コンピューターが内部の「生成」モデルを参照することなく視覚化できるようにする試みで行き詰まりました。
「生成モデルなしでデータを理解しようとすると失敗する運命にある。できるのは、データのパターンについて述べることだけだ」とロンドン大学ユニバーシティ・カレッジの計算神経科学者カール・フリストン氏は言う。
しかし、予測処理の受容が高まる一方で、脳内でどのように実装されるのかという疑問は残っていました。予測符号化と呼ばれる人気のモデルは、脳内の情報処理レベルが階層的であると主張しています。最上位レベルは、最も抽象的で高度な知識(例えば、前方の影に蛇がいるという認識)を表します。この層は、下層の神経活動を予測し、信号を下層に送信することで予測を行います。下層は、実際の活動を上層からの予測と比較します。不一致がある場合、下層はエラー信号を生成し、上層に送ります。これにより、上層は内部表現を更新することができます。
このプロセスは、連続する各層で同時に行われ、最下層では実際の感覚入力を受け取ります。外界から受け取った情報と予測された情報との間に何らかの矛盾が生じた場合、エラー信号が階層構造の上位層へと波及します。最上層は最終的に仮説を更新します(結局、それはヘビではなく、地面に巻き付いたロープだったという仮説です)。

データ可視化:ルーシー・リーディング・イカンダ/Quanta Magazine
「一般的に、予測符号化の考え方は、特に皮質に適用される場合、脳には基本的に2つのニューロン集団があるというものです」とデ・ランゲ氏は述べた。1つは、知覚されているものに関する現時点での最良の予測を符号化し、もう1つはその予測の誤りを知らせる。
1999年、コンピュータ科学者のラジェシュ・ラオ氏とダナ・バラード氏(当時、それぞれソーク生物学研究所とロチェスター大学に所属)は、予測と誤り訂正を明示的に行うニューロンを持つ、予測符号化の強力な計算モデルを構築しました。彼らは、霊長類の脳の視覚処理システムにおける、顔や物体の認識を担う階層的に組織化された領域からなる経路の一部をモデル化しました。そして、このモデルが霊長類の視覚システムのいくつかの特異な行動を再現できることを示しました。
しかし、この研究は、入力層と出力層が1つずつあり、その間に複数の隠れ層が挟まれた現代のディープニューラルネットワークが登場する以前に行われたものです。2012年までに、神経科学者たちはディープニューラルネットワークを用いて霊長類の腹側視覚情報流をモデル化していました。しかし、これらのモデルのほとんどはフィードフォワードネットワークであり、情報は入力から出力へとのみ流れていました。「脳は明らかに純粋なフィードフォワードマシンではありません」とデ・ランゲ氏は述べています。「脳には、フィードフォワード(シグナル伝達)とほぼ同量のフィードバックが存在します。」
そこで神経科学者たちは、リカレントニューラルネットワーク(RNN)と呼ばれる別の種類のモデルに着目しました。ニューヨークのマウントサイナイ・アイカーン医科大学の計算神経科学者で助教授のカナカ・ラジャン氏によると、RNNは脳をモデル化するための「理想的な基盤」となる特徴を備えているとのことです。ラジャン氏の研究室では、RNNを用いて脳機能の解明に取り組んでいます。RNNはニューロン間にフィードフォワードとフィードバックの両方の接続を持ち、入力とは無関係に常に活動しています。「こうしたダイナミクスを非常に長い期間、つまり実質的に永遠に生成できる能力こそが、RNNに学習能力を与えているのです」とラジャン氏は述べています。
予測はエネルギー効率が良い
RNNは、ハーバード大学のウィリアム・ロッターと、彼の博士論文指導教官であるデイビッド・コックス、ガブリエル・クライマンの注目を集めました。2016年、チームは動画シーケンスの次のフレームを予測することを学習するRNNを公開しました。彼らはこれをPredNetと名付けました(「より良いものを思いつくだけの創造力がなかったのは私の責任です」とロッターは語っています)。チームは予測符号化の原理に基づき、4層の階層構造を持つRNNを設計しました。各層は下の層からの入力を予測し、不一致があればエラー信号を上層に送信します。

ウィリアム・ロッターとハーバード大学の博士論文指導教官は、予測コーディングを実行するために設計されたアーキテクチャを備えた再帰型ニューラルネットワーク、PredNetを開発しました。(ウィリアム・ロッター提供)
次に、車に搭載されたカメラで撮影した市街地の動画を使ってネットワークを学習させた。PredNetは動画内の次のフレームを継続的に予測することを学習した。「実際に機能するかどうかは分かりませんでした」とロッター氏は語る。「試してみたところ、実際に予測しているのが分かりました。これは本当に素晴らしいことでした。」
次のステップは、PredNetを神経科学と結びつけることだった。昨年、 Nature Machine Intelligence誌にロッター氏らは、PredNetがサルの脳に見られる、予期せぬ刺激に対する反応を示すことを報告した。その中には、単純なフィードフォワードネットワークでは再現が難しいものも含まれている。
「素晴らしい研究です」とキーツマン氏はPredNetについて語った。しかし、彼とマルセル・ファン・ガーベン氏、そしてラドバウド大学の同僚たちは、もっと基本的なものを目指していた。ラオ・バラードモデルとPredNetはどちらも、予測と誤り訂正のための人工ニューロンを明示的に組み込んでおり、トップダウン予測の正確さが誤りニューロンを抑制するメカニズムも備えていた。しかし、もしこれらが明示的に指定されていなかったらどうなるだろうか?「私たちは、こうしたアーキテクチャ上の制約を『焼き込む』作業が本当に必要なのか、それとももっとシンプルなアプローチで済むのか疑問に思いました」とキーツマン氏は語った。
キーツマンとファン・ゲルヴェンが考えたのは、神経伝達はエネルギーコストが高いということだった(脳は体の中で最もエネルギーを消費する器官である)。したがって、エネルギーを節約する必要性は、生物における進化するあらゆる神経ネットワークの行動を制約する可能性がある。
研究者たちは、タスクを可能な限り少ないエネルギーで実行しなければならないRNNにおいて、予測符号化のための計算メカニズムが発現するかどうかを調べることにしました。彼らは、ネットワーク内の人工ニューロン間の接続の強さ(重みとも呼ばれる)が、シナプス伝達の代理指標として機能できると考えました。シナプス伝達は、生物ニューロンにおけるエネルギー消費の大部分を占めています。「人工ユニット間の重みを減らすということは、より少ないエネルギーで通信できることを意味します」とキーツマン氏は述べています。「私たちはこれをシナプス伝達の最小化と捉えています。」

予測符号化アーキテクチャを備えたニューラルネットワークPredNetに動画シーケンスのフレーム(上)を提示すると、PredNetはそれらを予測することを学習した(下)。図:Quanta Magazine、出典:Lotter et al., Nature Machine Intelligence 2020
次に研究チームは、1234567890、3456789012、6789012345 といった昇順のラップアラウンド順序で連続する数字のシーケンスを多数用いて RNN を学習させた。各数字は 28 x 28 ピクセルの画像としてネットワークに提示された。RNN は、シーケンス内の任意の場所から次の数字を予測できる内部モデルを学習した。しかし、ネットワークはユニット間の重みを可能な限り小さく設定し、これを実行せざるを得なかった。これは、生物の神経系における低レベルの神経活動に類似している。
これらの条件下で、RNNはシーケンス内の次の数字を予測することを学習しました。人工ニューロンの一部は、予想される入力のモデルを表す「予測ユニット」として機能しました。他のニューロンは「エラーユニット」として機能し、予測ユニットが次の数字を正しく予測することをまだ学習していないときに最も活発に活動しました。予測ユニットが正しい予測をし始めると、これらのエラーユニットは抑制されました。重要なのは、ネットワークがこのアーキテクチャに到達したのは、エネルギー消費を最小限に抑える必要に迫られたためです。「人々が通常システムに明示的に組み込んできたような抑制を、RNNは学習するだけです」とキーツマン氏は述べています。「私たちのシステムは、エネルギー効率を高めるために、それをすぐに、つまり創発的に実行します。」
重要なのは、エネルギーの使用を最小限に抑えるニューラル ネットワークは、最終的には何らかの予測処理を実装することになり、生物学的脳もおそらく同じことを行っているという主張になるということです。
ラジャン氏はキーツマン氏の研究を「エネルギー最小化のようなトップダウン制約が、予測符号化のような特定の機能に間接的につながることを示す非常に巧妙な例」と評した。この研究から、RNNにおける特定のエラーユニットと予測ユニットの出現は、ネットワークのエッジにあるニューロンだけが入力を受け取っていたことの予期せぬ結果ではないかと彼女は考えた。もし入力がネットワーク全体に分散していたら、「私の直感的な推測では、エラーユニットと予測ユニットの分離は見られないだろうが、それでも予測活動は見られるだろう」と彼女は述べた。
脳の行動を統合する枠組み
計算科学研究から得られたこれらの知見は説得力があるように思えるかもしれないが、結局のところ、脳における予測処理を神経科学者に確信させるのは、生きた脳からの証拠だけである。この目的のため、マギル大学とケベック人工知能研究所Milaの神経科学者兼計算機科学者であるブレイク・リチャーズ氏とその同僚たちは、予期せぬ出来事を予測することを学習する脳に何が見られるのかについて、明確な仮説を立てた。
仮説を検証するため、彼らはシアトルにあるアレン脳科学研究所の研究者に協力を仰ぎ、マウスを用いた実験を行い、脳内の神経活動をモニタリングしました。特に興味深いのは、脳の大脳新皮質にある特定の錐体ニューロンです。これらのニューロンは、解剖学的に予測処理に適していると考えられています。これらのニューロンは、近くのニューロンからの局所的なボトムアップ感覚信号(細胞体への入力を介して)と、より遠くのニューロンからのトップダウン予測信号(先端樹状突起を介して)の両方を受け取ることができます。
マウスは、明暗の縞模様からなるガボールパッチの連続を多数見せられました。各連続における4つのパッチはすべてほぼ同じ向きになっており、マウスはそれを予期するようになりました。(「これらの連続を見るのは、本当に退屈だったに違いありません」とリチャーズ氏は語りました。)その後、研究者たちは予期せぬ出来事を仕掛けました。4つ目のガボールパッチがランダムに異なる向きに回転したのです。マウスは最初は驚きましたが、時間が経つにつれて、驚きの要素も予期するようになりました。その間、研究者たちはマウスの脳の活動を観察しました。
彼らが観察したのは、多くのニューロンが予想された刺激と予想外の刺激に対して異なる反応を示したことです。重要なのは、この差は試験初日の局所的なボトムアップ信号において顕著であったのに対し、2日目と3日目には弱まったことです。予測処理という観点から見ると、これは、刺激がそれほど意外性がなくなっていくにつれて、新たに形成されたトップダウンの期待が、入ってくる感覚情報への反応を抑制し始めたことを示唆しています。
一方、頂端樹状突起では逆のことが起こっていました。予期せぬ刺激に対する反応の差は、時間の経過とともに拡大しました。神経回路は、予期せぬ出来事の特性をより良く表現し、次回の予測をより良く行えるように学習しているように見えました。
「この研究は、予測学習や予測コーディングのようなものが大脳新皮質で起こっているという考えをさらに裏付けるものだ」とリチャーズ氏は述べた。
確かに、ニューロン活動や動物の行動に関する個々の観察結果は、脳の別のモデルで説明できる場合があります。例えば、同じ入力に対するニューロンの反応が弱まる場合、エラーユニットの抑制として解釈されるのではなく、単に適応のプロセスによるものかもしれません。しかし、そうすると「様々な現象に対する説明の電話帳が山のように出来上がってしまう」とデ・ランゲ氏は言います。
一方、予測処理は多くの現象を一挙に説明する統一的な枠組みを提供するため、脳の働きを解明する理論として魅力的です。「現時点での証拠は非常に説得力があると思います」とリチャーズ氏は言います。「実際、この主張には大いに期待しています。」
オリジナルストーリーは、数学、物理科学、生命科学の研究の進展や動向を取り上げることで科学に対する一般の理解を深めることを使命とする、 シモンズ財団の編集上独立した出版物であるQuanta Magazineから許可を得て転載されました。
WIREDのその他の素晴らしい記事
- 📩 テクノロジー、科学などの最新情報: ニュースレターを購読しましょう!
- Amazonの暗い秘密:ユーザーのデータを保護できなかった
- 「ARこそが真のメタバースを実現する場所だ」
- TikTokが現実世界の友達と繋がるこっそりとした方法
- 高級感のあるお手頃価格の自動巻き時計
- なぜ人間はテレポートできないのでしょうか?
- 👁️ 新しいデータベースで、これまでにないAIを探索しましょう
- 🏃🏽♀️ 健康になるための最高のツールをお探しですか?ギアチームが選んだ最高のフィットネストラッカー、ランニングギア(シューズとソックスを含む)、最高のヘッドフォンをご覧ください