Googleがゲノム配列を構築できるAIを無料で提供

Googleがゲノム配列を構築できるAIを無料で提供

ディープラーニング ツールは、既存のあらゆる方法よりも正確に、ユーザーをユニークにする小さな変化をすべて識別できます。

画像にはロゴシンボルと商標が含まれている場合があります

DeepVariantは無料であり、既存のあらゆる方法よりも正確です。ベン・ボース

今日では、小さじ一杯の唾と100ドルあれば、DNAのスナップショットを撮ることができます。しかし、ゲノムの30億塩基対すべて、つまり全体像を把握するには、はるかに骨の折れるプロセスが必要です。高度な統計学の助けを借りても、科学者たちは依然として苦労しています。まさに、人工知能にアウトソーシングするのが理にかなっている種類の問題なのです。

月曜日、Googleはディープラーニング(現在AIの主流となっている機械学習技術)を用いて、個人が親から受け継いだすべての変異を特定するツール「DeepVariant」をリリースした。1人間の脳のニューロンネットワークを大まかにモデル化したこれらの大規模な数学モデルは、Facebookのニュースフィードに投稿された顔を識別したり、Siriへの無意味なリクエストを文字起こししたり、さらにはインターネット上の荒らしに対抗したりする方法を学習してきた。そして今、Google BrainとVerily(Alphabetのライフサイエンス部門)のエンジニアたちは、生の配列データから、あなたを構成している数十億ものA、T、C、Gを並べる方法を人間に教え込ん

そして、そうそう、DeepVariantは既存のあらゆる手法よりも精度が高いのです。昨年、DeepVariantは遺伝子配列解析の改良を促進するFDAコンテストで最優秀賞を受賞しました。Google Brain/Verilyチームが月曜日に世界に発表したオープンソース版では、エラー率がさらに50%以上も削減されました。今年、GoogleのAIニューラルネットワークに打ち負かされるのは、グランドマスターの柯潔だけではないようです。

DeepVariantは、医療機関、製薬会社、医療診断機器メーカーが、可能な限り多くのゲノム情報を取得しようと競い合っている時期に登場しました。このニーズに応えるため、GoogleのライバルであるIBMやMicrosoftも医療AI分野に進出しており、AppleやAmazonも追随するかどうかが注目されています。DeepVariantのコードは無料ですが、実行に必要な計算能力は無料ではありません。科学者たちは、この費用の高さが、特に大規模プロジェクトにおいて、DeepVariantがすぐに標準となることを阻むだろうと指摘しています。

しかし、DeepVariantはより広範な展開のフロントエンドに過ぎません。ゲノミクスはまもなくディープラーニングに移行します。そして、一度ディープラーニングを導入したら、もう後戻りはできません。

ハイスループットシーケンシングが研究室を飛び出し、商業化されてからほぼ20年が経ちました。今では、わずか1,000ドルで全ゲノム解析が可能です(2008年にジェームズ・ワトソンのゲノム解析にかかった150万ドルと比べると、かなりお買い得です)。

しかし、今日の機械が生成するデータは、依然として不完全で、断片的で、不具合だらけのゲノムしか生み出しません。プロセスの各段階でエラーが発生する可能性があり、科学者にとって、あなたを形作る自然な変異と特にゲノムの反復部分におけるランダムな人工産物を区別することが困難になっています。

現代のシーケンシング技術のほとんどは、DNAサンプルを採取し、それを数百万もの短い断片に分割し、蛍光タグ付きヌクレオチドを用いてリード(各断片に対応するA、T、C、Gの配列)を生成することで機能します。次に、これらの数百万のリードを隣接する配列にグループ化し、参照ゲノムとアライメントさせます。そこからバリアントコール(個体の遺伝子が参照ゲノムとどこで異なるかを特定すること)に進みます。1これを支援するソフトウェアプログラムは数多く存在します。FreeBayes、VarDict、Samtools、そして最も広く使用されているGATKは、高度な統計的手法を用いて変異を検出し、エラーを除去します。それぞれのツールには長所と短所があり、科学者はしばしばそれらを併用せざるを得なくなります。

マーク・デプリストとライアン・ポプリンほど既存技術の限界を知っている者はいない。彼らは5年かけてGATKをゼロから構築した。これは2008年のことで、ツールもバイオインフォマティクス形式も標準もなかった。「何を計算しようとしているのかさえわかっていなかったんです」とデプリストは語る。しかし、彼らには希望の光があった。シリコンバレーの著名人ジェフ・ディーンが書いた、ちょうど発表されたばかりの刺激的な論文だ。グーグルの初期のエンジニアのひとりとして、ディーンはこのテック界の巨人の広大なオンライン帝国を支える基礎的なコンピューティングシステムの設計と構築に携わっていた。デプリストとポプリンは、そのアイデアの一部を使ってGATKを構築し、これがこの分野のゴールドスタンダードとなった。

しかし2013年までに、研究は停滞していた。「ありとあらゆる標準的な統計手法を試しましたが、変化を効果的に変える方法は見つかりませんでした」とデプリスト氏は語る。「5年経っても、改善できるかどうかさえ分かりませんでした」。デプリスト氏はGoogle Venturesの支援を受けたスタートアップ企業SynapDxに入社するため、Googleを離れた。同社は自閉症の血液検査を開発していた。2年後、同社が倒産すると、取締役の一人であるアンドリュー・コンラッド(Google X、その後Google Life Sciences、そしてVerilyを退社)がデプリスト氏をGoogle/Alphabetに誘い込んだ。彼は、その1ヶ月前に入社したポプリン氏と再会した。

そして今回、ディーンは単なる召喚状ではなく、彼らの上司だった。

Google Brainの責任者であるディーン氏は、今や検索、ツイート、スナップ、ショッピングといったあらゆる手段を支えるニューラルネットワークの爆発的な増加の立役者です。彼の協力を得て、デプリスト氏とポプリン氏は、こうしたニューラルネットワークの一つに、彼らの息子であるGATKよりも正確にゲノムを組み立てるよう学習させることができるかどうかを試したいと考えました。

このネットワークは、すぐにそれらを時代遅れだと感じさせるほどの速さを見せました。わずか7人のヒトゲノムからなるベンチマークデータセットで訓練しただけで、DeepVariantはこれらの単一ヌクレオチドの入れ替えを99.9587%の確率で正確に特定することができました。「ディープラーニングモデルが従来のツールをどれほど速く凌駕したかは衝撃的でした」とDePristo氏は語ります。彼らのチームは昨年夏、この結果をPrecisionFDA Truth Challengeに提出し、最優秀賞を受賞しました。12月には、bioRxivに掲載された論文で発表しました。

DeepVariantは、バリアントコール(どの塩基対が実際にユーザー自身のものであり、エラーやその他の処理アーティファクトによるものではないかを判断する)というタスクを画像分類問題に変換することで機能します。データのレイヤーを取り込み、テレビの色のようにチャネルに変換します。最初の動作モデルでは、3つのチャネルを使用しました。1つ目は実際の塩基、2つ目はリードが生成されたシーケンサーによって定義された品質スコア、3つ目はその他のメタデータです。このすべてのデータを一種の画像ファイルに圧縮し、数千万ものこれらのマルチチャネル「画像」でモデルをトレーニングすることで、DeepVariantは、任意のA、T、C、Gが参照ゲノムと完全に一致するか、1つのコピーが異なるか、または両方が異なるかの可能性を計算できるようになりました。

しかし、彼らはそこで止まりませんでした。FDAコンテストの後、彼らはモデルをGoogleの人工知能エンジンであるTensorFlowに移行し、3つの圧縮データチャネルを7つの生データチャネルに変更することでパラメータの調整を続けました。これにより、エラー率をさらに50%削減することができました。今週、ゲノムコンピューティングプラットフォームDNAnexusが実施した独立した分析では、DeepVariantはGATK、Freebayes、Samtoolsを大幅に上回り、エラーを10分の1ほど削減することもありました。

「これは、この技術がバイオインフォマティクスデータの処理において真に重要な未来を秘めていることを示しています」と、DNAnexus社のCEO、リチャード・デイリー氏は述べています。「しかし、これは100章からなる書籍の冒頭に過ぎません。」デイリー​​氏は、この種のAIが将来、実際に疾患の原因となる変異を発見できるようになると期待しています。同社はDeepVariantのベータ版を入手し、現在、製薬会社、大手医療機関、医療診断会社など、限られた数の顧客を対象に現行モデルをテストしています。

DNAnexusは、これらの顧客向けにDeepVariantを効果的に運用するために、プラットフォームをサポートする新世代GPUへの投資を余儀なくされました。カナダの競合企業DNAStackも同様で、低コストと高速化をそれぞれ重視した2種類のDeepVariantを提供する予定です。Google Cloud Platformはすでにこのツールをサポートしており、DNAStackはGoogle検索、ストリートビュー、翻訳などのサービスを接続するTPU(テンソル処理ユニット)を活用してゲノミクス計算を高速化することも検討しています。

DeepVariantのコードはオープンソースなので誰でも実行できますが、大規模に実行するにはクラウドコンピューティングプラットフォームへの費用負担が必要になるでしょう。そして、この計算コストと実際の費用負担の両面から、研究者たちはDeepVariantの有用性について慎重に検討しています。

「これは有望な第一歩ですが、計算コストが高すぎるため、現時点では非常に多くのサンプルに拡張することはできません」と、ブロード大学/ハーバード大学の人類遺伝学者で、これまでで最大規模のヒトDNAライブラリの一つを構築したダニエル・マッカーサー氏は語る。数万のゲノムを扱う彼のプロジェクトにとって、DeepVariantはあまりにもコストが高すぎる。そして、現在の統計モデルと同様に、DeepVariantは今日のシーケンサーが生成する限られたリード数でしか機能しない。

それでも、彼はディープラーニングが今後も存在し続けると考えている。「より質の高いデータとより優れたアルゴリズムをどのように組み合わせるかを考え出せば、最終的には完璧に近いものに収束するでしょう」とマッカーサーは言う。しかし、たとえそれが実現したとしても、それは単なる文字の羅列に過ぎない。少なくとも当面は、その意味を解き明かすには才能ある人間が必要となるだろう。

訂正 2017年12月12日午後4時28分(東部標準時) この記事の以前のバージョンでは、DeepVariantの機能を「ゲノムのアセンブリ」と誤って表現していました。このツールは「バリアント」を呼び出しますが、これはジェノタイピングプロセスの重要な部分であり、ゲノムアセンブリには関与していません。WIREDはこの誤りを深くお詫び申し上げます。

メーガン・モルテーニはSTAT Newsのサイエンスライターです。以前はWIREDのスタッフライターとして、バイオテクノロジー、公衆衛生、遺伝子プライバシーなどを担当していました。カールトン大学で生物学とアルティメットフリスビーを学び、カリフォルニア大学バークレー校でジャーナリズムの修士号を取得しています。…続きを読む

続きを読む