機械学習は遺伝子の混乱の中に意味を見出すことができるか?

機械学習は遺伝子の混乱の中に意味を見出すことができるか?

コンピューター科学者のバーバラ・エンゲルハートは、人間のゲノムを徹底的に調べて、病気の難しい原因やメカニズムを解明するための機械学習モデルと手法を開発しています。

WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。

「生物学には、グラウンドトゥルース(真実)がほとんどありません。」プリンストン大学のコンピューターサイエンティスト、バーバラ・エンゲルハート氏によると、これは研究者がゲノムデータを解析するために従来の機械学習手法を導入しようとする際に直面する多くの課題の一つに過ぎないという。人工知能と機械学習の技術は生物学研究の状況を劇的に変えつつあるが、エンゲルハート氏は、こうした「ブラックボックス」アプローチでは、疾患の理解、診断、治療に必要な洞察を得るのに十分ではないと考えている。彼女はむしろ、ゲノムの真に真実でありながら捉えどころのない「グラウンドトゥルース」を明らかにするために、予想される生物学的パターンを探索する新たな統計ツールの開発に取り組んでいる。

クアンタマガジン

オリジナルストーリーは、数学、物理科学、生命科学の研究の進展や動向を取り上げることで科学に対する一般の理解を深めることを使命とする、シモンズ財団の編集上独立した出版物であるQuanta Magazineから許可を得て転載されました。

エンゲルハート氏は、この取り組みを探偵の仕事に例えています。遺伝子変異の集合体、さらには廃棄されたデータまでもくまなく調べて、隠れた宝石を探し出す作業だからです。例えば、昨年10月に発表された研究では、彼女は自身のモデルの一つを用いて、44種類のヒト組織における遺伝子変異が他の染色体上の遺伝子(遠位遺伝子と呼ばれる)の制御とどのように関連しているかを明らかにしました。その結果は、甲状腺がんの治療における潜在的な遺伝子標的を示唆するものでした。彼女の研究は同様に、遺伝子変異と遺伝子発現を病理画像に見られる特定の特徴と関連付けています。

エンゲルハートの研究の応用はゲノム研究だけにとどまりません。彼女は、患者を人工呼吸器から外し、自力で呼吸させるべきタイミングを医師に推奨する、異なる種類の機械学習モデルを構築しました。

彼女は、自身の統計的アプローチが、臨床医が特定の疾患を早期に発見し、その根本的なメカニズムを解明し、症状ではなく原因を治療するのに役立つことを期待している。「私たちは病気の解決に取り組んでいるのです」と彼女は語った。

この目的のため、彼女は遺伝子型・組織発現(GTEx)コンソーシアムの主任研究者として活動しています。GTExは、遺伝子の制御、発現、そして変異が健康な表現型と疾患の両方にどのように寄与するかを研究する国際的な研究協力です。現在、彼女は特に、診断と治療が難しい神経精神疾患と神経変性疾患の研究に関心を持っています。

Quanta Magazineは先日、エンゲルハート氏にインタビューを行い、ブラックボックス型機械学習を生物学的データに適用した場合の欠点、それらの欠点に対処するために彼女が開発した手法、そして興味深い情報を発見するためにデータ内の「ノイズ」をふるいにかける必要性について語ってもらった。インタビューは分かりやすさを考慮して要約・編集されている。

機械学習の研究を生物学の問題に集中させたきっかけは何ですか?

私は統計学と機械学習にずっと興味を持っていました。大学院時代、指導教官のマイケル・ジョーダン(カリフォルニア大学バークレー校)が、「これらの手法をただ真空中で開発するだけではだめだ。何か刺激となるような応用を考える必要がある」と仰ったのです。私はすぐに生物学に転向し、それ以来、私の研究の原動力となっている疑問のほとんどは統計学ではなく、むしろ生物学です。つまり、疾患の遺伝学と根底にあるメカニズムを理解することで、より良い診断法と治療法の開発につなげたいと考えています。しかし、自分が携わっている分野、つまり読んでいる論文、参加している学会、教えている授業、指導している学生について考えると、私の学問的な焦点は機械学習と応用統計学にあります。

ゲノムマーカーと疾患リスクの間には多くの関連性が見出されていますが、ごく一部の例外を除いて、それらの関連性は予測的なものではなく、疾患の診断、標的、そして治療方法の解明には繋がっていません。疾患リスクと関連する遺伝子マーカーは、必ずしも疾患の真の原因マーカーとは限りません。1つの疾患には複数の遺伝的要因が考えられ、複雑な疾患は、環境と相互作用する可能性のある非常に多くの遺伝子マーカーによって引き起こされる可能性があります。統計遺伝学と機械学習のバックグラウンドを持つ研究者が、ウェットラボの科学者や医師と協力することで、これらはすべて取り組み、解決できる課題です。そうなれば、遺伝性疾患の症状だけでなく、その原因を実際に治療できるようになるでしょう。

以前、従来の統計的アプローチではゲノミクスやヘルスケア分野への応用には不十分だとおっしゃっていましたね。なぜでしょうか?

まず、解釈可能性の欠如です。機械学習では、しばしば「ブラックボックス」的な手法、つまりランダムフォレスト(分類アルゴリズム)や深層学習(ディープラーニング)手法を用います。しかし、これらの手法では、箱を「開ける」ことができず、特定の細胞種でどの遺伝子が異なって制御されているのか、あるいはどの変異が疾患のリスクを高めるのかを理解することができません。私は生物学的に何が起こっているのかを理解することに興味があります。理由を説明せずに答えだけを与えるようなものには、私は興味がありません。

これらの手法の目的は多くの場合予測ですが、個人の遺伝子型が分かれば、2型糖尿病を発症する確率を推定することは特に有用ではありません。私が知りたいのは、どのようにして2型糖尿病を発症するのか、つまり、どの遺伝子変異がどの遺伝子の調節異常を引き起こし、発症につながるのかということです。予測だけでは、私が問いかけている疑問を解決するには不十分です。

2つ目の理由はサンプルサイズに関係しています。統計学の主流となる応用の多くは、Netflixのユーザー数や受信トレイに届くメール数など、膨大かつ増加し続けるデータサンプルを扱うことを前提としています。これらのデータサンプルには、興味深い構造を持つ特徴や観察結果の数が限られています。しかし、生物医学データとなると、そのような状況は全くありません。入院患者の数も、配列決定できる遺伝子型の数も限られていますが、一人の人間について得られる特徴や観察結果は膨大で、ゲノム内のすべての変異も含まれています。そのため、統計学の理論的・応用的アプローチの多くは、ゲノムデータには適用できません。

ゲノムデータの分析がなぜそれほど難しいのでしょうか?

生物医学データにおける最も重要なシグナルは、しばしば非常に小さく、技術的なノイズに完全に埋もれてしまいます。重要なのは、真の生物学的シグナル、つまりデータについて問おうとしている疑問をどのようにモデル化するかだけではありません。個体がどの集団に属していたか、どの技術者が実験室でサンプルを扱ったかといった、重要でない要素によって引き起こされる、非常に大きなノイズが存在する中で、どのようにモデル化するかも重要です。こうしたノイズは慎重に除去する必要があります。そして、私たちはデータを用いて多くの疑問に答えたいと考えており、その答えを導き出すには、文字通り数兆回にも及ぶ膨大な数の統計検定を実行する必要があります。例えば、ゲノムの変異と関心のある形質との関連性を特定する場合、その形質とは組織における特定の遺伝子の発現レベルかもしれません。では、シグナルが非常に小さく、ノイズとの区別が非常に困難な場合、厳密で堅牢な検定メカニズムをどのように開発できるでしょうか?存在することが分かっているこうした構造やノイズをどのように補正するのでしょうか?

では、代わりにどのようなアプローチを取る必要があるのでしょうか?

私のグループは、スパース潜在因子モデルと呼ばれる手法を多用しています。これは数学的に非常に複雑に聞こえるかもしれません。基本的な考え方は、これらのモデルが、サンプルで観察されたすべての変異を、ごく少数の特徴に基づいて分割するというものです。例えば、これらの分割の一つには、10個の遺伝子や20個の変異が含まれることがあります。そして、科学者として、私はそれらの10個の遺伝子に注目し、それらの共通点を解明し、この分割がサンプルの分散に影響を与える生物学的シグナルとして何を表しているかを判断することができます。

ですから、私はこれを2段階のプロセスだと考えています。まず、あらゆる変動要因を可能な限り慎重に分離するモデルを構築します。次に、科学者として、これらのすべてのパーティションが生物学的シグナルの観点から何を表しているのかを理解します。その後、これらの結論を他のデータセットで検証し、これらのサンプルについて他に何が分かっているか(例えば、同じ年齢の全員がこれらのパーティションのいずれかに含まれているかどうかなど)を検討します。

「科学者として入る」というのはどういう意味ですか?

私は特定の生物学的パターンを見つけようとしているので、これらのモデルを非常に構造化して構築し、どのような種類のシグナルを期待しているかについて多くの情報を含めています。データが何を示しているか、そしてどのようなパターンが存在するか、あるいは存在しないかを示すパラメータのセットである足場を構築します。モデル自体の表現力には限界があるため、特定の種類のパターンしか見つけることができません。私が見てきた限りでは、既存の一般的なモデルは、生物学的に解釈できるシグナルを見つけるのにはあまり役立ちません。多くの場合、それらはデータ内の最も大きな変動要因を特定するだけで、生物学的に最も影響力のある変動源を特定することはできません。代わりに私が構築する足場は、データを説明するために考えられる非常に構造化された、非常に複雑なパターン群を表します。そして、データはその足場を埋めることで、その構造のどの部分が表現され、どの部分が表現されないかを教えてくれます。

そのため、私と私のグループは、一般的なモデルを使用する代わりに、データを注意深く調べ、生物学的観点から何が起こっているかを理解しようとし、どのような種類のパターンが見られるかに基づいてモデルをカスタマイズします。

潜在因子モデルは実際にはどのように機能するのでしょうか?

私たちは、これらの潜在因子モデルの一つを、がん診断によく用いられる病理画像(顕微鏡で見た組織切片の画像)に適用しました。それぞれの画像には、その組織で発現している遺伝子群に関するデータも含まれていました。そこで、画像とそれに対応する遺伝子発現レベルがどのように連携しているかを調べたいと考えました。

ディープラーニングの手法を用いて、各画像の特徴を記述する一連の特徴を開発し、ピクセルレベルの値だけでなく画像内のパターンも識別しました。各画像からおよそ1000以上の特徴を抽出し、潜在因子モデルを適用したところ、非常に興味深い発見がありました。

例えば、これらのパーティションの1つに、脳内の免疫細胞の存在を示す遺伝子と特徴のセットが見つかりました。病理画像では必ずしもこれらの細胞が見えるわけではありませんが、モデルを見ると、脳細胞ではなく免疫細胞に関連する遺伝子と特徴のみを表す要素がそこにありました。私の知る限り、このようなシグナルはこれまで誰も見たことがありません。しかし、これらの潜在因子の要素を見ると、その存在は驚くほど明確になります。

あなたは数十種類のヒト組織を用いて、特定の遺伝子変異が複雑な形質の形成にどのように影響するかを解明してきました。あなたの研究手法はどのような知見をもたらしましたか?

私たちは449体の人間の死体から提供された44の組織と、それらの遺伝子型(全ゲノム配列)を保有していました。これらの遺伝子型が全ての組織においてどのように遺伝子を発現するかの違いをより深く理解したかったので、ゲノム内のすべての変異と各組織で発現しているすべての遺伝子を一つ一つ比較し、3兆回以上のテストを実施しました。(現在使用しているコンピューティングクラスターでこれだけのテストを実行するには約2週間かかります。計画通りこのGTExイテレーションをクラウドに移行すれば、約2時間で完了すると予想しています。)私たちは、(変異体の)遺伝子型が遠位遺伝子発現を引き起こしているかどうかを解明しようとしていました。言い換えれば、制御対象の遺伝子と同じ染色体上にない変異を探していたのです。それほど多くのものは見つかりませんでした。これらの遠位関連は600件強で、シグナルは非常に低かったのです。

しかし、シグナルの 1 つは強力でした。それは、興味深い甲状腺の関連性で、突然変異が 2 つの異なる遺伝子を遠位で制御しているように見えました。私たちは、この突然変異がゲノムのまったく異なる部分での発現レベルにどのように影響しているのだろうかと考えました。ジョンズ ホプキンス大学の Alexis Battle 研究室と共同で、ゲノム上の突然変異の近くを調べ、ゲノム全体の遺伝子の転写を制御する転写因子であるFOXE1という遺伝子を見つけました。 FOXE1遺伝子は甲状腺組織でのみ発現しており、これは興味深いことです。しかし、突然変異体の遺伝子型とFOXE1の発現レベルの間には関連性が見られませんでした。そのため、以前除去した元のシグナルの要素 (技術的なアーティファクトと思われたすべての要素) を調べて、FOXE1 タンパク質がゲノムに広く及ぼす影響を検出できるかどうかを確認する必要がありました。

除去した技術的アーティファクトの中に、FOXE1の大きな影響があることを発見しました。FOXE1は、甲状腺においてのみ多数の遺伝子を制御しているようです。その変異は、私たちが発見した変異遺伝子型によって引き起こされています。そして、その遺伝子型は甲状腺がんのリスクとも関連しています。私たちは、がんゲノムアトラスから約500個の甲状腺がんサンプルを再度調べ、遠位関連シグナルを再現しました。これらの結果は説得力のある物語を物語っていますが、除去したシグナルを理解しようとしなければ、この事実は分からなかったでしょう。

このような関連付けにはどのような意味があるのでしょうか?

甲状腺がんの発生と甲状腺細胞の調節異常には、今や特定のメカニズムが明らかになっています。FOXE1が創薬標的となり、FOXE1の発現を増強または抑制する薬剤の設計を改めて検討することができれば、甲状腺がんの発症リスクが高い人の発症を予防したり、甲状腺がん患者をより効果的に治療したりできるようになることが期待できます。

FOXE1のような広範囲に影響を及ぼす転写因子からのシグナルは、実際には、私たちが通常ノイズとして除去する効果、例えば集団構造、サンプルを解析したバッチ、年齢や性別の影響などと非常によく似ています。こうした技術的な影響の多くは、ほぼ同数(約10%)の遺伝子に、同じような形で影響を与えます。だからこそ、私たちは通常、そのようなパターンを持つシグナルを除去します。しかし、今回のケースでは、私たちが研究対象としている領域を理解する必要がありました。科学者として、除去したシグナルをすべて精査することで、FOXE1の影響がそこに強く現れていることを発見することができました。これは手作業と生物学の知見を必要としましたが、より自動化された方法でこれを実行する方法の開発を考えています。

ということは、従来のモデリング技術では、実際の生物学的効果の多くがノイズに似ているため見逃されているということでしょうか?

はい。興味深いパターンとノイズが似ているケースは山ほどあります。例えば、これらの遠位効果を考えてみましょう。広範囲に及ぶ効果であれば、ほぼ全てが、私たちが体系的に除去するノイズ信号と似たものになります。これは方法論的に難しい課題です。ある信号が生物学的に重要なのか、それとも単なるノイズなのかをどのように特徴づけ、どのように両者を区別するかを慎重に考える必要があります。私のグループは、この解明にかなり積極的に取り組んでいます。

なぜそれらの関係をマッピングするのはそれほど難しいのでしょうか。また、なぜそれらを探すのでしょうか。

やらなければならない検査は非常に多く、発見の統計的有意性の閾値は非常に高く設定しなければなりません。そのため、こうしたシグナルを見つけるのが難しくなります。シグナルは往々にして非常に小さいため、閾値をそれほど高く設定すると、多くのシグナルを見逃してしまうことになります。また、生物学的には、このような非常に広範囲に影響を及ぼす遠位シグナルが多数存在するかどうかは明らかではありません。自然淘汰によって、遺伝子の10%に影響を与えるような突然変異は排除されると考えられます。つまり、これほど多くの遺伝子について、集団内にそのような変動が存在することは望ましくないということです。

しかし、これらの遠位の関連が疾患において非常に大きな役割を果たし、創薬標的となる可能性があることは疑いの余地がありません。その役割を広く理解することは、人類の健康にとって極めて重要です。

オリジナルストーリーは、数学、物理科学、生命科学の研究の進展や動向を取り上げることで科学に対する一般の理解を深めることを使命とする、シモンズ財団の編集上独立した出版物であるQuanta Magazineから許可を得て転載されました。