ディープラーニングは古生物学者や遺伝学者が幽霊を探すのに役立つでしょうか?
7万年前、現代人が初めてアフリカから移住した時、少なくとも2つの近縁種(現在は絶滅)がユーラシア大陸で彼らを待ち構えていました。それはネアンデルタール人とデニソワ人です。彼らは初期現代人と交配し、そのDNAの一部を非アフリカ系の人々のゲノムに残しました。

クアンタマガジン
オリジナルストーリーは、数学、物理科学、生命科学の研究の進展や動向を取り上げることで科学に対する一般の理解を深めることを使命とする、シモンズ財団の編集上独立した出版物であるQuanta Magazineから許可を得て転載されました。
しかし、さらに複雑で多彩な歴史を示唆する兆候も増えている。例えば、昨年夏、ある研究チームがネイチャー誌に、シベリアの洞窟で発見された骨片が、ネアンデルタール人の母親とデニソワ人の父親を持つ娘のものだったと報告した。この発見は、第一世代の人類混血の初の化石証拠となった。
残念ながら、そのような化石が見つかるのは非常に稀です(たとえば、デニソワ人に関する私たちの知識は、ほんの指の骨から抽出した DNA に基づいています)。以前の交配からの雑種グループを含むものなど、他の多くの祖先の組み合わせが簡単に発生した可能性がありますが、物理的証拠に関しては実質的に目に見えない可能性があります。それらの発生の手がかりは、一部の人々の DNA にのみ残っている可能性があり、それでも、ネアンデルタール人やデニソワ人の遺伝子の兆候よりも微妙である可能性があります。統計モデルは、科学者が化石データがなくてもこれらの集団のいくつかの存在を推測するのに役立っています。たとえば、2013 年後半に発表された研究によると、古代人と現代人の遺伝的変異のパターンは、未知の人類集団がデニソワ人(またはその祖先)と交雑したことを示しているとのことです。しかし専門家は、これらの方法では必然的に多くのことを見落としてしまうと考えています。
今日の人類のゲノムに貢献したのは他に誰だったのでしょうか?いわゆるゴーストポピュレーションはどのような姿をしていたのでしょうか?彼らはどこに住んでいたのでしょうか?そして、他の人類種とどれくらいの頻度で交流し、交配していたのでしょうか?
先月Nature Communications誌に掲載された論文で、研究者たちはディープラーニング技術が、専門家でさえ気づいていなかったかもしれない、欠けている部分を補うのに役立つ可能性を示した。彼らはディープラーニングを用いて、ユーラシア大陸に存在した未知の人類祖先、おそらくネアンデルタール人とデニソワ人の混血、あるいはデニソワ人の系統の近縁種である、別の幽霊集団の証拠を選別した。
この研究は、古生物学における人工知能の将来的な有用性を示している。それは、予期せぬ幽霊を特定するためだけでなく、我々の現在の姿を形成した進化の過程の非常に薄れかけた痕跡を発見するためでもある。
微妙なサインの探求
現在の統計手法では、一度に4つのゲノムを調べて共通形質を探します。これは類似性を検証するものの、必ずしも実際の祖先を検証するものではありません。なぜなら、発見されるわずかな遺伝子の混合には様々な解釈方法があるからです。例えば、このような分析から、現代ヨーロッパ人はネアンデルタール人のゲノムと特定の形質を共有しているが、現代アフリカ人は共有していないことが示唆されるかもしれません。しかし、だからといって、それらの遺伝子がネアンデルタール人とヨーロッパ人の祖先との交配から生じたものであると必ずしも断定できるわけではありません。例えば、ヨーロッパ人は、ネアンデルタール人とは近縁だが、ネアンデルタール人自身とは関係のない、別の集団と交配した可能性もあります。
私たちには分からない。なぜなら、これらの仮説的な遺伝的変異源がいつ、どこで、どのように存在していたかを示す物理的証拠がないため、多くの推定祖先のうちどれが最も可能性が高いかを特定することは難しいからだ。ウィスコンシン大学マディソン校の古人類学者ジョン・ホークス氏は、この手法は「そのシンプルさゆえに強力だが、進化の理解という点では多くの未解明な点が残されている」と述べた。
この新たなディープラーニング手法は、従来の統計的アプローチでは説明しきれないレベルの遺伝子流動を解明しようと試みるものであり、そのためのモデルははるかに広範かつ複雑なものとなっている。ニューラルネットワークは訓練を通じて、ゲノムデータ内の様々なパターンを、それらの関連性をどのように構築するかを指示されることなく、どのような人口動態的履歴がそれらのパターンを生み出した可能性が高いかに基づいて分類することを学習できる。
ディープラーニングの活用により、私たちが想像もしていなかった幽霊を発見できる可能性があります。まず、写真に写っているのがネアンデルタール人、デニソワ人、そして現生人類の3つの集団だけだと考えるのは間違いです。ホークス氏によると、実際には数十もの集団が存在していた可能性もあるとのことです。
ニューヨークのストーニーブルック大学の人類学者、ジェイソン・ルイス氏も同様の見解を示しています。「私たちの想像力は、これまでは現生人類やヨーロッパ、アフリカ、西アジアで発見された化石に焦点を絞ることで、限定されてきました」と彼は言います。「ディープラーニング技術は、奇妙なことに、可能性に新たな焦点を当てることができます。このアプローチはもはや私たちの想像力によって制限されるものではありません。」
シミュレーションされた歴史の真の価値
ディープラーニングは、通常膨大な量の学習データを必要とするため、古生物学者の課題を解決するには不向きな解決策のように思えるかもしれません。最も一般的な応用例の一つである画像分類器を例に挙げてみましょう。専門家がモデルを訓練して、例えば猫の画像を識別する場合、訓練に使える何千枚もの画像があり、猫の本来の姿を知っているため、モデルがうまく機能しているかどうかも専門家自身が判断できます。
しかし、関連する人類学的・古生物学データが不足していたため、ディープラーニングを活用したい研究者たちは、独自のデータを作成するという工夫をせざるを得ませんでした。「私たちはある意味、ずる賢いやり方をしていました」と、バルセロナにある国立ゲノム解析センターの研究者で、本研究の著者の一人であるオスカー・ラオ氏は述べています。「シミュレーションを使っていたので、ディープラーニングエンジンのトレーニングには無限のデータを使うことができました。」
研究者たちは、祖先人類集団の数、その規模、分岐の時期、混血率など、人口統計学的詳細の様々な組み合わせに基づいて、数万ものシミュレートされた進化史を生成した。そして、これらのシミュレートされた歴史から、現代人の膨大な数のシミュレートされたゲノムを生成した。そして、これらのゲノムを用いてディープラーニングアルゴリズムを訓練し、どのような進化モデルが特定の遺伝子パターンを生み出す可能性が最も高いかを学習させた。
その後、研究チームは人工知能に実際のゲノムデータに最も適合する歴史を推測させました。最終的に、システムは、これまで特定されていなかった人類集団がアジア系人々の祖先にも寄与していたという結論に達しました。遺伝子パターンから判断すると、これらの人類は、約30万年前にデニソワ人とネアンデルタール人の交雑によって生じた独自の集団、もしくはその直後にデニソワ人の系統から派生した集団のいずれかであったと考えられます。
ディープラーニングがこのように利用されるのは今回が初めてではありません。この分野のいくつかの研究室では、進化研究の他の分野にも同様の手法を適用しています。オレゴン大学のアンドリュー・カーン氏が率いるある研究グループは、シミュレーションベースのアプローチと機械学習技術を用いて、ヒトを含む種の進化に関する様々なモデルを区別しました。彼らは、進化によって有利に働いた適応のほとんどは、集団における有益な新たな突然変異の出現ではなく、既存の遺伝子変異の拡大に依存していることを発見しました。
カーン氏は、「こうした新たな疑問にディープラーニングを適用することで、刺激的な結果が得られている」と述べた。
新しいツールに対する期待と誇大宣伝
もちろん、大きな注意点もあります。まず、実際の人類の進化史が、これらのディープラーニング手法の訓練に用いられるシミュレーションモデルと異なる場合、これらの手法は誤った結果を生み出す可能性があります。これはカーン氏らが取り組んできた問題ですが、精度をさらに高めるには、まだ多くの作業が必要です。
「AIのゲノミクスへの応用は過大評価されていると思います」と、プリンストン大学の生態学者で進化生物学者のジョシュア・エイキー氏は述べた。「ディープラーニングは素晴らしい新しいツールですが、単なる一つの手法に過ぎません。人類の進化において私たちが解明したい謎や複雑な点のすべてを解明できるわけではありません。」
一部の専門家はさらに懐疑的だ。「データの密度と質は、思慮深く知的な非人工的な分析以外にはあまり理想的ではないと私は判断しています」と、ハーバード大学とピーボディ博物館の古生物学者デビッド・ピルビーム氏は電子メールで述べた。
それでも、他の古生物学者や遺伝学者の意見では、これは大きな前進であり、将来発見される可能性のある化石や、数千年前の人類に存在していたはずの遺伝的変異の予測に活用できる可能性がある。「ディープラーニングは集団遺伝学に大きな弾みをつけるだろう」とラオ氏は述べた。
データは入手できるものの、その生成プロセスにはアクセスできない他の分野でも同様のことが言えるかもしれません。カーン氏をはじめとする集団遺伝学者や進化生物学者が、自らの疑問を解決するためにシミュレーションベースのAI技術を開発していたのとほぼ同時期に、物理学者たちも大型ハドロン衝突型加速器(LHC)などの粒子加速器で生成される膨大なデータを精査する方法を模索していました。地質学研究や地震予測手法も、こうしたディープラーニングのアプローチの恩恵を受け始めています。
「これがどこへつながるのか、本当に分かりません。見てみないと分かりません」と、マサチューセッツ工科大学とハーバード大学に所属するブロード研究所の計算生物学者、ニック・パターソン氏は述べた。「しかし、新しい手法が出てくるのは常に良いことです。私たちが答えたい疑問にうまく答えてくれるようであれば、使えるものは何でも使います。」
オリジナルストーリーは、数学、物理科学、生命科学の研究の進展や動向を取り上げることで科学に対する一般の理解を深めることを使命とする、シモンズ財団の編集上独立した出版物であるQuanta Magazineから許可を得て転載されました。
WIREDのその他の素晴らしい記事
- YouTubeとInstagramの幼児が新たな子役スターに
- 写真:野生動物と人間が大規模に衝突
- ポルシェは新型911で、改善不可能だったものを改善した。
- 「公平な」アルゴリズムは差別を永続させる可能性がある
- メタンフェタミン、銃、海賊:犯罪組織のボスとなったプログラマー
- 👀 最新のガジェットをお探しですか?最新の購入ガイドと年間を通してのお買い得情報をチェックしましょう
- 📩 もっと知りたいですか?毎日のニュースレターに登録して、最新の素晴らしいストーリーを見逃さないでください