AIアルゴリズムは今や科学研究において驚くほど優れている

AIアルゴリズムは今や科学研究において驚くほど優れている

今日の多くの物理学および天文学実験によって生み出される膨大な情報量に、人間、あるいは人間のチームが追いつくことは不可能です。中には毎日テラバイト単位のデータを記録するものもあり、その量は増加の一途を辿っています。2020年代半ばに稼働開始予定の電波望遠鏡「スクエア・キロメートル・アレイ」は、毎年インターネット全体に匹敵するデータトラフィックを生成すると予想されています。

クアンタマガジン

オリジナルストーリーは、数学、物理科学、生命科学の研究の進展や動向を取り上げることで科学に対する一般の理解を深めることを使命とする、シモンズ財団の編集上独立した出版物であるQuanta Magazineから許可を得て転載されました。

この膨大なデータ量に、多くの科学者が人工知能(AI)の力を借りるようになりました。人工ニューラルネットワーク(脳の機能を模倣したコンピューターシミュレーションによるニューロンネットワーク)などのAIシステムは、人間の介入を最小限に抑えながら、膨大なデータを処理し、人間では到底発見できない異常値やパターンを検知することができます。

もちろん、科学研究を支援するためのコンピュータの利用は約75年前に遡り、意味のあるパターンを探すためにデータを手作業で精査する方法は、それよりも数千年も前に遡ります。しかし、一部の科学者は、機械学習とAIの最新技術は、科学を行うための根本的に新しい方法であると主張しています。そのようなアプローチの一つである生成モデリングは、観測データに対する競合する説明の中から、データのみに基づいて最も妥当な理論を特定するのに役立ちます。重要なのは、研究対象のシステムでどのような物理プロセスが働いているかに関する事前の知識を必要とせずに、このアプローチを実行できることです。生成モデリングの支持者は、これを宇宙について学ぶための潜在的な「第三の方法」と見なすほど斬新だと考えています。

伝統的に、私たちは観察を通して自然について学んできました。ヨハネス・ケプラーがティコ・ブラーエの惑星の位置表を熟読し、その背後にあるパターンを理解しようとしたことを思い起こしてみてください。(彼は最終的に、惑星が楕円軌道を回っていると推測しました。)科学はシミュレーションによっても進歩しました。天文学者は天の川銀河とその隣の銀河であるアンドロメダ銀河の動きをモデル化し、数十億年後に衝突すると予測するかもしれません。観察とシミュレーションはどちらも、科学者が仮説を立て、それをさらなる観測によって検証するのに役立ちます。生成モデリングは、これら両方のアプローチとは異なります。

「これは基本的に、観測とシミュレーションの間にある第三のアプローチです」と、天体物理学者であり、ジェネレーティブモデリングの最も熱心な支持者の一人であるケビン・シャウィンスキー氏は言う。彼は最近までスイス連邦工科大学チューリッヒ校(ETH Zurich)に勤務していた。「問題に取り組む別の方法なのです。」

一部の科学者は、生成モデリングなどの新しい技術を、伝統的な科学研究を行うための単なる強力なツールと見なしています。しかし、AIが大きな影響を与えており、科学におけるその役割は今後ますます拡大していくという点では、ほとんどの科学者が同意しています。フェルミ国立加速器研究所で人工ニューラルネットワークを用いて宇宙を研究する天体物理学者、ブライアン・ノード氏は、人間の科学者が行うことで自動化できないものは何もないのではないかと懸念する一人です。「少しぞっとする考えです」と彼は言います。

世代による発見

シャウィンスキー氏は大学院時代から、データ駆動型科学の分野で名を馳せてきました。博士号取得を目指していた頃、数千もの銀河を外観に基づいて分類するという課題に直面しました。しかし、この作業に適したソフトウェアがすぐに利用できるものがなかったため、クラウドソーシングに頼ることに。こうして「Galaxy Zoo」という市民科学プロジェクトが誕生しました。2007年から、一般のコンピューターユーザーが天文学者を支援するため、どの銀河がどのカテゴリーに属するかについて、それぞれの推測を記録しました。その結果、多数決によって正しい分類が導き出されることがほとんどでした。このプロジェクトは成功を収めましたが、シャウィンスキー氏が指摘するように、AIによって時代遅れになっています。「今日では、機械学習のバックグラウンドを持ち、クラウドコンピューティングにアクセスできる優秀な科学者なら、この作業を午後1日でこなせるでしょう。」

シャウィンスキーは2016年、強力な新ツールである生成モデリングに着目しました。生成モデリングとは、基本的に、条件Xを与えられた場合に結果Yが観測される可能性がどの程度かを問うものです。このアプローチは、驚くほど強力で多用途であることが証明されています。例えば、生成モデルに人間の顔画像のセットを入力し、それぞれの顔に年齢のラベルを付けるとします。コンピュータープログラムはこれらの「トレーニングデータ」を精査していくうちに、年齢を重ねた顔とシワができやすい可能性との関連性を見出し始めます。最終的には、与えられたあらゆる顔を「老化」させることができるようになります。つまり、あらゆる年齢の特定の顔がどのような身体的変化を起こす可能性があるかを予測できるようになるのです。

画像には顔、人物、コラージュ、広告、ポスター、サングラス、アクセサリー、アクセサリー、メガネ、頭が含まれる場合があります

これらの顔はどれも本物ではありません。上段(A)と左列(B)の顔は、実際の顔の構成要素を用いて敵対的生成ネットワーク(GAN)によって構築されました。GANは、Aの顔の基本的な特徴(性別、年齢、顔の形など)と、Bの顔のより詳細な特徴(髪の色や目の色など)を組み合わせて、グリッドの残りのすべての顔を作成しました。NVIDIA

最もよく知られている生成モデリングシステムは「敵対的生成ネットワーク」(GAN)です。十分な訓練データを与えることで、GANは破損または欠落したピクセルのある画像を修復したり、ぼやけた写真を鮮明にしたりすることができます。GANは、競争によって欠落情報を推測する方法を学習します(「敵対的」という用語の由来はここにあります)。ネットワークの一部であるジェネレーターは偽データを生成し、もう一方のディスクリミネーターは偽データと実際のデータを区別しようとします。プログラムを実行するにつれて、両方の部分が徐々に精度を高めていきます。最近、GANによって生成された超リアルな「顔」画像が拡散しているのを見たことがあるかもしれません。ある見出しには「実際には存在しない、奇妙にリアルな人物」の画像とありました。

より広義には、生成モデリングはデータセット(通常は画像ですが、必ずしもそうとは限りません)を取り込み、それぞれを基本的な抽象的な構成要素のセットに分解します。科学者はこれをデータの「潜在空間」と呼んでいます。アルゴリズムは潜在空間の要素を操作し、それが元のデータにどのような影響を与えるかを調べ、システム内で作用している物理プロセスを明らかにするのに役立ちます。

潜在空間という概念は抽象的で視覚化するのが難しいですが、大まかな例えとして、人間の顔の性別を判断しようとするとき、脳がどのような働きをしているのか考えてみてください。髪型や鼻の形など、言葉では表現しにくいパターンに気づくかもしれません。コンピュータープログラムも同様に、データの中から顕著な特徴を探しています。口ひげとは何か、性別とは何かといったことは全く分かりませんが、「男性」や「女性」のタグが付けられた画像と「口ひげ」のタグが付けられた画像が混在するデータセットでトレーニングすれば、すぐに関連性を推測できるでしょう。

ケビン・シャウィンスキー

AI企業Modulosを経営する天体物理学者ケビン・シャウィンスキー氏は、生成モデリングと呼ばれる技術が宇宙について学ぶ第三の方法を提供すると主張している。Der Beobachter

12月にAstronomy & Astrophysics誌に掲載された論文で、シャウィンスキーとチューリッヒ工科大学の同僚であるデニス・タープ、そしてセ・チャンは、生成モデリングを用いて、銀河が進化する過程で生じる物理的変化を調査した。(彼らが使用したソフトウェアは、潜在空間の扱い方が敵対的生成ネットワーク(GAN)とは多少異なるため、厳密にはGANではないが、類似している。)彼らのモデルは、物理プロセスに関する仮説を検証するための人工データセットを作成した。例えば、彼らは星形成の「クエンチング」(形成速度の急激な低下)が、銀河の環境密度の増加とどのように関連しているかを調べた。

シャウィンスキー氏にとって重要な問題は、データのみから恒星や銀河のプロセスに関する情報をどれだけ引き出せるかだ。「天体物理学に関するこれまでの知識をすべて消し去ってみましょう」と彼は言った。「データそのものだけを使って、どの程度まで知識を再発見できるでしょうか?」

まず、銀河の画像は潜在空間に縮小され、次にシャウィンスキー氏はその空間の1つの要素を、銀河の環境(例えば周囲の密度)の特定の変化に対応するように微調整することができた。そして銀河を再生し、どのような違いが現れるかを確認した。「つまり、仮説生成マシンができたということです」と彼は説明した。「このプロセスによって、もともと低密度環境にある多数の銀河を、高密度環境にあるように見せることができるのです。」シャウィンスキー氏、タープ氏、そしてチャン氏は、銀河が低密度環境から高密度環境に移行するにつれて、銀河の色が赤くなり、星がより中心に集中することを観察した。これは銀河に関する既存の観測結果と一致するとシャウィンスキー氏は述べた。問題は、なぜそうなるのかということだ。

シャウィンスキー氏によると、次のステップはまだ自動化されていない。「人間としてやって来て、『では、この効果を説明できる物理学は何か』と自問する必要がある」。問題のプロセスには、2つのもっともらしい説明がある。高密度環境では塵が多いため銀河が赤くなるか、星形成の衰退(言い換えれば、星が年を取る傾向がある)のために赤くなるのかもしれない。生成モデルを使えば、両方のアイデアをテストできる。潜在空間内の塵や星形成率に関連する要素を変えて、それが銀河の色にどう影響するかを見る。「答えは明白だ」とシャウィンスキー氏は言う。「赤い銀河は星形成が衰えたところであり、塵が変化したところではない。だからその説明を優先すべきだ」。

ニューラルネットワークによって変換された銀河を示すグリッド

生成モデリングを用いることで、天体物理学者は、銀河が宇宙の低密度領域から高密度領域へ移行する際にどのように変化するのか、そしてどのような物理プロセスがこれらの変化の原因となるのかを調査できる可能性がある。K . Schawinski et al.; doi: 10.1051/0004-6361/201833800

このアプローチは従来のシミュレーションと関連しているが、決定的な違いがある。シミュレーションは「本質的に仮定に基づく」ものだとシャウィンスキー氏は述べた。「『システムで目にするすべてのものを生み出す根底にある物理法則は何かわかっていると思う』というアプローチです。つまり、星形成のレシピがあり、暗黒物質の挙動のレシピなどがあるのです。そこにすべての仮説を投入し、シミュレーションを実行します。そして、こう自問します。『これは現実のように見えるか?』」 シャウィンスキー氏によると、生成モデリングで彼が行ったことは、「ある意味で、シミュレーションとは正反対です。私たちは何も知りませんし、何も仮定したくありません。データそのものが、何が起こっているのかを教えてくれることを望んでいるのです。」

このような研究における生成モデリングの明らかな成功は、天文学者や大学院生が不要になったことを意味するものではないことは明らかだ。しかし、膨大なデータプール以外にほとんど何も電子的な操作手段を持たない人工システムによって、天体物理学上の物体やプロセスに関する学習がどの程度達成可能かという点において、変化が見られるようだ。「完全に自動化された科学ではありませんが、科学のプロセスを自動化するツールを少なくとも部分的に構築できることを示しています」とシャウィンスキー氏は述べた。

生成モデリングが強力であることは明らかだが、それが本当に科学への新しいアプローチであるかどうかは議論の余地がある。ニューヨーク大学およびフラットアイアン研究所(Quantaと同様に、シモンズ財団の資金提供を受けている)の宇宙学者デビッド・ホッグ氏にとって、この手法は印象的だが、結局のところ、データからパターンを抽出する非常に洗練された方法に過ぎない。これは天文学者が何世紀にもわたって行ってきたことだ。言い換えれば、これは高度な観測と分析を組み合わせた形だ。ホッグ氏自身の研究は、シャウィンスキー氏と同様にAIに大きく依存している。彼は、ニューラルネットワークを使用して星をスペクトルに従って分類し、データ駆動型モデルを使用して星のその他の物理的属性を推測している。しかし、彼は自分の研究もシャウィンスキー氏の研究も、実証済みの科学であると考えている。「私はこれが第三の道だとは思わない」と彼は最近語った。 「私たちコミュニティは、データの利用方法に関して、はるかに洗練されたものになっていると思います。特に、データ同士の比較が格段に上手くなっています。しかし、私の見解としては、私の研究は依然として完全に観察モードのものです。」

勤勉なアシスタント

概念的に斬新かどうかはさておき、AIとニューラルネットワークが現代の天文学と物理学の研究において重要な役割を果たすようになったことは明らかです。ハイデルベルク理論研究所では、物理学者のカイ・ポルステラー氏がアストロインフォマティクス・グループを率いています。このグループは、天体物理学におけるデータ中心の新しい手法に焦点を当てた研究チームです。最近、彼らは機械学習アルゴリズムを用いて、これまで困難だった銀河データセットからの赤方偏移情報の抽出に取り組んでいます。

ポルステラー氏は、これらの新しいAIベースのシステムを「勤勉なアシスタント」と捉えており、何時間も飽きることなく、また作業環境について不満を言うことなくデータを分析し続けることができる。これらのシステムは、面倒な作業をすべて引き受けてくれるので、「クールで興味深い科学的な作業は、自分自身で行う」ことができると彼は述べた。

しかし、それらは完璧ではない。特に、ポルステラー氏は、アルゴリズムは訓練されたことしかできないと警告する。システムは入力内容に関して「不可知論的」である。銀河を与えれば、ソフトウェアはその赤方偏移と年齢を推定できる。しかし、同じシステムに自撮り写真や腐った魚の写真を与えれば、それらについても(非常に間違った)年齢を出力してしまう。最終的には、人間の科学者による監督が不可欠だと彼は言う。「最終的には研究者であるあなたに戻ります。解釈の責任はあなたにあるのです。」

一方、フェルミ国立加速器研究所のノード氏は、ニューラルネットワークは結果だけでなく、それに伴う誤差範囲も提示することが重要だと警告する。これはすべての学部生が訓練されていることだ。科学の世界では、測定を行ってもそれに伴う誤差の推定値を報告しなければ、誰も結果を真剣に受け止めないだろうと彼は言う。

多くの AI 研究者と同様に、ノード氏もニューラル ネットワークによって生成された結果の不可解性について懸念を抱いています。多くの場合、システムは、その結果がどのようにして得られたのかを明確に示さずに答えを出すのです。

しかし、透明性の欠如が必ずしも問題だと考えている人は皆無ではない。フランスのサクレー原子力庁理論物理学研究所の研究者であるレンカ・ズデボロヴァ氏は、人間の直感もしばしば同じように不可解だと指摘する。写真を見てすぐに猫だと分かるが、「どうしてそうなのかは分からない」とズデボロヴァ氏は言う。「自分の脳はある意味でブラックボックスのようなものなのです」

AIを活用したデータ駆動型科学へと移行しているのは、天体物理学者や宇宙学者だけではない。オンタリオ州ペリメーター理論物理学研究所やウォータールー大学のロジャー・メルコ氏などの量子物理学者は、ニューラルネットワークを使用して、多粒子系を記述する数学的な「波動関数」をどのように表現するかなど、この分野で最も困難かつ重要な問題のいくつかを解決してきた。AIが不可欠なのは、メルコ氏が「次元の指数関数の呪い」と呼ぶもののためだ。つまり、波動関数の形の可能性は、それが記述する系内の粒子の数とともに指数関数的に大きくなる。その難しさは、チェスや囲碁などのゲームで最善の一手を見つけようとするのと似ている。つまり、相手の次の手を予測し、最善の対応を選ぼうとするのだが、一手ごとに可能性の数は急増するのだ。

もちろん、AIシステムはこれらのゲームの両方をマスターしています。チェスは数十年前、囲碁は2016年にAlphaGoと呼ばれるAIシステムがトップクラスの人間プレイヤーを破りました。メルコ氏によると、AIシステムは量子物理学の問題にも同様に適しているとのことです。

機械の心

シャウィンスキー氏が「科学を行うための第三の道」を発見したと主張するのが正しいのか、それともホッグ氏が言うように、単に従来の観察とデータ分析を「強化」しただけなのかはともかく、AIが科学的発見の様相を変えつつあり、それを確実に加速させていることは明らかだ。AI革命は科学においてどこまで進むのだろうか?

時折、「ロボット科学者」の業績に関して壮大な主張がなされることがある。10年前、アダムという名のAIロボット化学者がパン酵母のゲノムを調査し、特定のアミノ酸を生成する遺伝子を解明した。(アダムは、特定の遺伝子が欠損している酵母株を観察し、その結果をその遺伝子を持つ株の行動と比較することで、この研究を行った。)Wired誌の見出しは「ロボットが自ら科学的発見を行う」だった。

最近では、グラスゴー大学の化学者リー・クロニン氏が、ロボットを用いて化学物質をランダムに混合し、どのような新しい化合物が形成されるかを調べています。質量分析計、核磁気共鳴装置、赤外分光計を用いて反応をリアルタイムでモニタリングすることで、システムは最終的にどの組み合わせが最も反応性が高いかを予測できるようになりました。クロニン氏によると、たとえ更なる発見につながらなくても、このロボットシステムによって化学者の研究スピードが約90%向上する可能性があるとのことです。

昨年、ETHチューリッヒの別の科学者チームがニューラルネットワークを用いてデータセットから物理法則を推論しました。いわばロボット版ケプラーとも言える彼らのシステムは、地球から見た太陽と火星の位置の記録から太陽系の太陽中心モデルを再発見し、衝突する球体の観測から運動量保存の法則を解明しました。物理法則は多くの場合複数の方法で表現できるため、研究者たちはこのシステムが既知の法則を考えるための新たな方法、おそらくはより単純な方法を提供できるのではないかと考えました。

これらはすべて、AIが科学的発見のプロセスを加速させた例ですが、いずれの場合も、この新しいアプローチがどれほど革新的であるかについては議論の余地があります。おそらく最も議論を呼んでいるのは、データのみからどれだけの情報を集められるかという問題です。これは、途方もなく膨大な(そして増え続ける)データの山が存在する時代には喫緊の課題です。コンピューター科学者のジュディア・パール氏とサイエンスライターのダナ・マッケンジー氏は著書『The Book of Why』(2018年)の中で、データは「極めて愚か」であると主張しています。因果関係に関する疑問は「データだけでは決して答えられない」と彼らは書いています。「モデルフリーの方法でデータを分析した論文や研究を見ると、その研究成果は単にデータを要約し、場合によっては変換するだけで、解釈するものではないと確信できます」。シャウィンスキー氏はパール氏の立場に同情しますが、「データのみ」で作業するという考えは「やや藁人形的」だと述べました。彼は、そのような方法で因果関係を推論したと主張したことは一度もないと述べています。 「私が言いたいのは、データを使えば従来よりも多くのことができるようになるということだけです。」

よく聞かれるもう一つの議論は、科学には創造性が必要だが、少なくとも今のところは、それを機械にプログラムする方法がわからないというものだ(クロニンのロボット化学者のように、ただ何でも試してみるというのは、特に創造的とは言えない)。「理論を導き出すには、理由づけをして創造性が求められると思います」とポルステラー氏は言う。「創造性が必要になるたびに、人間が必要になります。」では、創造性はどこから来るのか?ポルステラー氏は、創造性は退屈と関係があるのではないかと疑っている。彼によると、機械は退屈を経験できないという。「創造的であるためには、退屈を嫌わなければなりません。そして、コンピューターが退屈を感じることはないと思います。」一方、「創造的」や「ひらめき」といった言葉は、Deep BlueやAlphaGoなどのプログラムを説明する際によく使われてきた。そして、機械の「心」の中で何が起こっているかを説明するのに苦労することは、私たち自身の思考プロセスを探る際の難しさと反映されている。

シャウィンスキー氏は最近、学界を離れ民間企業に転身し、現在はModulosというスタートアップ企業を経営している。同社はETHの科学者を多数雇用しており、同社のウェブサイトによると、「AIと機械学習の発展の嵐の中心」で活動しているという。現在のAI技術と本格的な人工知能の間にはどのような障壁があろうとも、シャウィンスキー氏をはじめとする専門家は、機械が人間の科学者の仕事の多くを担うようになると考えている。限界があるかどうかはまだ分からない。

「近い将来、生物由来のハードウェアを用いて、現存する最も優秀な人間でさえ自力で発見できない物理学や数学を発見できる機械を開発することは可能でしょうか?」とシャウィンスキーは疑問を呈する。「科学の未来は、最終的に、人間が決して到達できないレベルで動作する機械によって推進されることになるのでしょうか? 私には分かりません。良い質問ですね。」

オリジナルストーリーは、数学、物理科学、生命科学の研究の進展や動向を取り上げることで科学に対する一般の理解を深めることを使命とする、シモンズ財団の編集上独立した出版物であるQuanta Magazineから許可を得て転載されました。


WIREDのその他の素晴らしい記事

  • 空飛ぶ車の悪魔的な空気力学を解明する
  • ゴルフボールと電動ドリルをウォータージェットで半分に切断
  • FacebookはVRアバターをあなたの動きと全く同じように動かすことができる
  • 私は娘とのスクリーンタイムを楽しみました。そして、それが大好きです
  • 人々はアルゴリズムについて知りたいが、あまり知りたくない
  • 👀 最新のガジェットをお探しですか?最新の購入ガイドと年間を通してのお買い得情報をチェックしましょう
  • 📩 もっと知りたいですか?毎日のニュースレターに登録して、最新の素晴らしいストーリーを見逃さないでください