DeepMindのタンパク質AIのコードがない中、この研究室は独自のコードを書いた

DeepMindのタンパク質AIのコードがない中、この研究室は独自のコードを書いた

Googleの子会社は生物学における根本的な問題を解決したものの、その解決策をすぐには公開しませんでした。そこでワシントン大学のチームが、その問題を再現しようと試みました。

丸まった紙

写真:MirageC/Getty Images

WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。

タンパク質構造を研究する生物学者にとって、この分野の近年の歴史は二つの時代に分けられます。一つは、タンパク質構造批判的評価会議(CASP14)の第14回隔年開催期間と、もう一つはCASP14開催後です。それ以前の数十年間、科学者たちはタンパク質を構成するアミノ酸配列からその構造を予測する方法という問題に、何年もかけてゆっくりと取り組んできました。2020年12月に開催されたCASP14の後、この問題はGoogle傘下のDeepMindの研究者によって事実上解決されました。

ディープラーニングと呼ばれる人工知能分野に特化した研究企業であるディープマインドは、囲碁の世界チャンピオンに勝利したAIシステムを開発し、大きな話題を呼んだ。しかし、AlphaFold2と呼ばれるニューラルネットワークを用いてタンパク質構造予測に成功したことは、同社が真に科学的意義のある問題を解決できるモデルを構築した初めての事例となった。科学者がタンパク質の構造を解明するのを支援することは、細胞内部の仕組みに関する研究を促進し、特定のタンパク質の働きを阻害する方法を明らかにすることで、創薬プロセスにも役立つ可能性がある。7月15日、ネイチャー誌はディープマインドのモデルの仕組みを詳述した未編集の原稿を掲載し、ディープマインドはそのコードを公開した。

しかし、CASPから7カ月の間に、別のチームがその役割を引き継いだ。DeepMindの論文発表の1カ月前の6月、ワシントン大学タンパク質設計研究所所長のデイビッド・ベイカー氏が率いるチームが、独自のタンパク質構造予測モデルを発表した。 RoseTTAFoldと呼ばれるこのモデルは、1カ月の間、他の科学者が実際に使用できる最も成功したタンパク質予測アルゴリズムだった。AlphaFold2と同じパフォーマンスのピークには達しなかったものの、チームは、研究者がコンピューターコードを操作することなく、アミノ酸配列を送信して予測結果を得ることができるツールを構築することで、コンピューターにあまり詳しくない科学者でもモデルを利用できるようにした。1カ月後、Nature誌がDeepMindの初期論文を発表したまさにその日に、 Science誌がベイカー研究室のRoseTTAFoldを説明する論文を掲載した。

RoseTTAFoldとAlphaFold2はどちらも、タンパク質のアミノ酸配列を入力すると、その3D構造を予測して出力する複雑な多層ニューラルネットワークです。また、タンパク質構造の異なる側面を個別に解析できる「マルチトラック」構造など、興味深い設計上の類似点もいくつかあります。

これらの類似点は偶然ではありません。ワシントン大学のチームは、DeepMindチームがCASPで行った30分間のプレゼンテーションのアイデアを基にRoseTTAFoldを設計しました。このプレゼンテーションでは、AlphaFold2の革新的な要素が概説されていました。しかし、彼らはその短いプレゼンテーションに続く不確実性にも触発されていました。その時点では、DeepMindチームは、その前例のない技術を科学者にいつ公開するかについて、何の示唆も示していませんでした。一部の研究者は、民間企業が標準的な学術慣行に反し、コードを広くコミュニティから隠してしまうのではないかと懸念していました。「誰もが驚き、多くの報道がなされましたが、その後は基本的に沈黙が続きました」とベイカー氏は言います。「自分の分野で大きな進歩があったのに、それを基に何かを構築することができないという奇妙な状況に陥っていたのです。」

ベイカーと、彼の研究室のポスドク研究員であるミンギョン・ベクは、そこにチャンスを見出しました。ディープマインドチームがタンパク質構造問題を解くために使用したコードは持っていなかったかもしれませんが、それが可能であることは分かっていました。そして、ディープマインドがどのようにそれを成し遂げたかも、大まかに知っていました。「その時点ですでに、デイビッドは『これは存在証明だ。ディープマインドは、こうした手法が有効であることを示した』と言っていました」と、メリーランド大学カレッジパーク校生命科学・バイオテクノロジー研究所の教授であり、CASPイベントの主催者であるジョン・モルトは言います。「彼にとってはそれで十分だったのです。」

DeepMind チームがそのツールを、その使用を希望する構造生物学者にいつ公開するか、あるいは公開するかどうかもまったくわからないまま、ベイカー氏とベック氏は独自のバージョンを構築しようと決めた。

タンパク質の三次元構造を解明することは、細胞内部の仕組みを理解する上で不可欠だと、欧州バイオインフォマティクス研究所の名誉所長ジャネット・ソーントン氏は語る。「DNAはあらゆるものをコード化していますが、実際には何もしていません」と彼女は言う。「すべての仕事をするのはタンパク質なのです」。科学者たちはタンパク質の構造を解明するために様々な実験手法を用いてきたが、時にはデータが明確な答えを出すのに十分な情報を提供しないこともある。

タンパク質のアミノ酸配列を用いてその外観を予測するコンピュータモデルは、研究者が紛らわしいデータの意味を解明するのに役立ちます。過去27年間、CASPは科学者にアルゴリズムの性能を評価する体系的な方法を提供してきました。「進歩は着実に進んでいますが、かなり遅いです」とソーントンは言います。しかし、AlphaFold2では「改善は非常に劇的で、実際には長年見てきたものよりも劇的です。その意味では、これは大きな進歩でした」と彼女は続けます。

ベイカー研究室はCASP14で独自のモデルを用いて2番目に優れた性能を達成しており、これがDeepMindの手法を再現する上で確固たる出発点となりました。彼らは、DeepMindチームのメンバーがAlphaFold2について述べたことと、自らのアプローチを体系的に比較し、DeepMindの最も重要な進歩を特定した後、それらを一つずつ新しいモデルに組み込む作業を進めました。

彼らが採用した重要な革新の一つは、マルチトラックネットワークという概念でした。ほとんどのニューラルネットワークモデルは、単一の「トラック」、つまりネットワークを通る経路に沿ってデータを処理・分析し、シミュレートされた「ニューロン」の層がそれぞれ前の層の出力を変換します。これは、伝言ゲームでプレイヤーが聞いた言葉を隣の人の耳元でささやく言葉に変換するようなものです。ただし、ニューラルネットワークでは、情報はゲームのように劣化するのではなく、徐々により有用な形に再配置されます。

DeepMindは、タンパク質構造情報の異なる側面を2つの別々のトラックに分離し、それらが互いに情報をフィードバックするようにAlphaFold2を設計しました。これは、隣り合ったプレイヤーが情報をやり取りしながら並行して行われる2つの伝言ゲームに似ています。Baker氏とBaek氏は、RoseTTAFoldは3つのトラックで最も効果的に機能することを発見しました。

「複雑な図形を描くとき、​​一度に全部描くわけではありません」とベック氏は言う。「まずは大まかなスケッチから始めて、少しずつパーツを追加し、細部を描き込んでいきます。タンパク質の構造予測も、このプロセスに似ています。」

RoseTTAFoldが現実世界でどのように機能するかを検証するため、ベイカーとベックは、タンパク質構造に関する問題を抱える構造生物学者たちに連絡を取りました。ある晩7時、カリフォルニア大学サンフランシスコ校の生化学・生物物理学教授であるデイビッド・アガードが、特定のウイルスに感染した細菌が産生するタンパク質のアミノ酸配列を彼らに送りました。構造予測は午前1時までに返ってきました。わずか6時間で、RoseTTAFoldはアガードを2年間悩ませてきた問題を解決したのです。「おそらく数百万年前、2つの細菌酵素の組み合わせから、どのように進化したかを実際に見ることができました」とアガードは言います。このボトルネックを乗り越えたことで、アガードと彼の研究室は、タンパク質の働きを解明する研究を進めることができました。

RoseTTAFoldはまだAlphaFold2のような驚異的な性能には達していませんでしたが、ベイカー氏とベック氏は、このツールを世に送り出す時が来たと確信していました。「RoseTTAFoldは明らかに非常に有用でした。なぜなら、これらの人々は、多くの場合、かなり長い間未解決だった生物学上の問題を解決していたからです」とベイカー氏は言います。「​その時点で、私たちは『科学界がこのツールについて知って、利用できるようにするのは良いことだ』と判断しました。」6月15日、彼らは誰でも簡単にモデルを実行できるツールと、近日発表予定のScience論文のプレプリントを公開しました。

AlphaFoldプロジェクトを率いるジョン・ジャンパー氏によると、ディープマインドでは、そのシステムを詳述した詳細な科学論文が既にネイチャー誌で審査中だったが、彼らは知らなかった。ディープマインドは5月11日にネイチャー誌に論文を提出していた。

当時、科学界はDeepMindのタイムラインについてほとんど何も知りませんでした。しかし、ベイカーのプレプリントが公開されてから3日後の6月18日、DeepMindのCEOであるデミス・ハサビス氏がTwitterで発言したことで状況は一変しました。「私たちは、オープンソースコード付きの完全な手法論文(現在審査中)の作成と、科学界へのAlphaFoldへの広範な無料アクセスの提供に全力で取り組んでいます」とハサビス氏はツイートしました。「近日中に詳細をお伝えします!」

7月15日、ベイカーのRoseTTAFold論文が発表されたまさにその日、Nature誌はDeepMindの未編集ながら査読済みのAlphaFold2論文を公開した。同時に、DeepMindはAlphaFold2のコードをGitHubで無料公開した。そして1週間後、チームはこの手法で予測された35万個のタンパク質構造を収録した膨大なデータベースを公開した。この革新的なタンパク質予測ツールと、その膨大な予測データが、ついに科学界の手に渡ったのだ。

ジャンパー氏によると、DeepMindの論文とコードがCASPでの発表から7ヶ月以上も経ってから公開されたのには、ありきたりな理由があるという。「あの日、この非常に詳細な論文をオープンソース化したり、公開したりする準備が整っていなかったんです」と彼は言う。論文が5月に提出され、チームが査読プロセスを進めていた頃、ジャンパー氏は論文をできるだけ早く公開しようと努力したと語る。「正直に言って、私たちはできる限りのスピードで進めていました」と彼は言う。

DeepMindチームの論文は、 Nature誌がCOVID-19関連の論文で最も頻繁に使用している「Accelerated Article Preview」ワークフローを通じて公開されました。Natureの広報担当者はWIREDへの声明で、このプロセスは「著者と読者へのサービスとして、特に注目に値する、かつ時間的制約のある査読済み研究を可能な限り迅速に公開することを目的としている」と述べています。

ジャンパー氏とディープマインド科学チームリーダーのプッシュミート・コーリ氏は、ベイカー氏の論文がネイチャー誌への掲載時期に影響を与えたかどうかについて、疑問を呈した。「私たちの立場からすると、論文を投稿したのは5月なので、ある意味では私たちの手に負えない状況でした」とコーリ氏は言う。

しかし、CASPの主催者であるモルト氏は、ワシントン大学チームの研究が、ディープマインドの科学者たちが親会社を説得し、より短期間で研究を無料公開する手助けになった可能性があると考えている。「彼らを知る限り、彼らは本当に優れた科学者です。彼らは可能な限りオープンでありたいと考えているようです」とモルト氏は言う。「営利企業であるため、最終的には何らかの形で利益を上げなければならないという点で、そこにはある種の緊張関係があります」。ディープマインドを所有するアルファベットは、時価総額で世界第4位の企業である。

ハサビス氏は、AlphaFold2の公開は科学界とAlphabet社双方にとって利益になると述べている。「これはすべてオープンサイエンスであり、システム、コード、データベースを人類に無償で提供します」と、彼はWIREDのインタビューで述べた。商業上の理由でコードを非公開にすることについて議論があったかどうか尋ねられると、彼はこう答えた。「どのように価値を提供するかというのは良い質問です。価値の提供方法は様々ですよね?もちろん商業的な方法もありますが、名声という方法もあります」

ベイカー氏は、ディープマインドチームの論文とコードの公開の徹底ぶりを称賛する。ある意味で、RoseTTAFoldはディープマインドが科学協力の精神に則って行動しない可能性に対するヘッジだったと彼は言う。「もし彼らがもっと賢明でなく、コードを公開しないことを決めていたら、少なくとも世界が発展していくための出発点にはなっていたでしょう」と彼は言う。

とはいえ、もし情報がもっと早く公開されていたら、チームはAlphaFold2の性能をさらに向上させたり、人工タンパク質の設計という課題にAlphaFold2を適応させたりできたはずだと彼は考えている。人工タンパク質設計こそがベイカー研究室の主要研究分野だ。「例えば12月初旬、CASPの後に『これが私たちのコードです。そして、私たちはこうやってそれを実現しました』と言っていたら、私たちは間違いなくはるかに先を進んでいたでしょう」とベイカー氏は言う。

タンパク質構造予測の現実世界での応用の中には、時間が極めて重要になるものもあります。例えば、病原体の生存に不可欠なタンパク質の3次元構造を理解することは、科学者がその病原体に対抗する薬を開発する上で役立つ可能性があります。この応用はパンデミックにも及ぶ可能性があります。例えば、DeepMindは昨年8月、AlphaFold2のバージョンを用いて、SARS-CoV-2のタンパク質の構造を予測しました。

ベイカー氏は、学界と産業界間の情報共有に関する問題は今後ますます緊迫するだろうと考えている。人工知能(AI)分野の課題解決には膨大な時間とリソースが必要であり、ディープマインドのような企業は、大学の研究室では想像もできない規模の人員と計算能力を保有している。「今後も大きな進歩は企業で達成されることはほぼ確実であり、この傾向は加速するだろう」とベイカー氏は言う。「企業内では、ディープマインドが今回行ったように、その進歩を公開すべきか、それとも収益化を図るべきかという社内圧力が高まるだろう。」

ウィル・ナイトによる追加レポート。

更新 2021 年 8 月 20 日 午後 5 時 48 分 (東部標準時):このストーリーは、DeepMind の CASP プレゼンテーションの長さを修正するために更新されました。


WIREDのその他の素晴らしい記事

  • 📩 テクノロジー、科学などの最新情報: ニュースレターを購読しましょう!
  • 黒人ツイッターの民衆史
  • 最速の人間でも飼い猫に追いつけない理由
  • 幽霊軍艦が紛争地帯で混乱を招いている
  • AIを訓練するこの新しい方法は、オンラインでの嫌がらせを抑制する可能性がある
  • 太陽光発電オーブンの作り方
  • 👁️ 新しいデータベースで、これまでにないAIを探索しましょう
  • 🎮 WIRED Games: 最新のヒントやレビューなどを入手
  • 🏃🏽‍♀️ 健康になるための最高のツールをお探しですか?ギアチームが選んだ最高のフィットネストラッカー、ランニングギア(シューズとソックスを含む)、最高のヘッドフォンをご覧ください