DARPAはDNAから画像検索エンジンを開発しようとしている

DARPAはDNAから画像検索エンジンを開発しようとしている

水曜日、ワシントン大学のセゼ氏のチームは、世界中から1万枚の画像を集め、生命の構成要素であるA、T、C、Gのピクセルを保存するソーシャルメディアキャンペーンを開始しました。彼らは以前にも同様の取り組みを行っており、2016年にはOK Goのミュージックビデオを丸ごとエンコードし、DNAに保存されたデータ量の最高記録を樹立しました。しかし今回は、データをクラウドソーシングすることに決め、人々が写真を投稿できるウェブサイトを構築し、ハッシュタグ「#MemoriesInDNA」を付けてソーシャルメディアで画像を共有するよう呼びかけました。「DNAは数千年も保存できます」とセゼ氏は言います。「つまり、これはいわばタイムカプセルです。あなたは何を永遠に保存したいですか?」

UWの#MemoriesInDNAキャンペーンは、ちょっとした仕掛けかもしれない(分子検索エンジンの学習に使える高品質な画像データベースは豊富に存在する)。しかし、その背後にある科学は、過去60年間のコンピューティングを覆すという、真に現実的な試みだ。DNAベースのストレージは、これまでピクセルをエンコードし、人間の目には見えないフリーズドライの鎖に閉じ込めるという用途しかなかった。DNAに保存されたデータを取得・処理する方法は、本格的な分子コンピューティング・プラットフォームを構築するために不可欠な最初のステップであるにもかかわらず、いまだ誰も解明できていない。

一体誰がそんなことを望むというのでしょうか?例えば、DARPAなどです。

科学の最も画期的な未来への資金提供を担う国防高等研究計画局(DARPA)は、ここ数ヶ月で、データを扱うための革新的で非二元的な方法の発見に数百万ドルの投資を開始した。「分子は、既存のデジタルシステムの0と1とは全く異なる『コンピューティング』アプローチを提供します」と、DARPAの分子情報科学プログラムのプログラムマネージャー、アン・フィッシャー氏は述べている。同プログラムはこれまでに、ハーバード大学、ブラウン大学、イリノイ大学、ワシントン大学のプロジェクトに1,530万ドルを助成してきた。「世界社会は驚異的な速度でデータを生み出しており、この情報にアクセスし処理するための新たなアプローチの開発は、ストレージ容量と計算速度の差し迫った不足に対処する上で極めて重要です。」

画像には人物や電子機器が含まれている可能性があります

ワシントン大学の Luis Ceze 氏のグループが写真やビデオなどのデジタル データを含む DNA サンプルの配列を決定するために使用する Illumina NextSeq フローセル。

デニス・ワイズ/ワシントン大学

デジタル時代は、人間がメモリを機械にアウトソーシングするという、単純な委任行為から始まりました。最初は真空管で、次にトランジスタ、テープディスク、そしてフラッシュドライブへと進化しました。60年以上経った今でも、ジョン・フォン・ノイマンが提唱した論理ベースのアーキテクチャは、現代のコンピューティングインフラの基盤として健在です。そして、あらゆる尺度で人類に大きく貢献してきました。しかし、人間がますます複雑なデータを生み出すにつれて、その限界は明らかになりつつあります。

「ムーアの法則はデバイスの小型化に尽きます」と、マイクロソフトのシニアサイエンティストであり、ワシントン大学のプロジェクトの協力者であるカリン・ストラウス氏は語る。「エレクトロニクスは素晴らしい技術であり、もちろんこれからも存在し続けるでしょう。しかし、小型化に関しては分子こそが最後のフロンティアです。」化学は、構造、サイズ、電荷、極性といった分子の多様な特性という未開拓のパレットを提供しており、情報処理に活用できる可能性があります。

DNAの場合、その構造こそが重要な役割を担う。ストラウスはセゼと協力し、まずクラウドソーシングされた画像からあらゆる視覚的特徴を抽出し、それらをA、T、C、Gの配列にマッピングする。各写真には数万ものユニークなDNAセグメントが含まれ、それぞれが曲線、垂直線、あるいは青い斑点などをエンコードしている。そして、Google検索にキーワードをいくつか入力するのと同じように、コード化された「クエリ」を導入できる。ただし、このクエリは、これらの視覚的特徴のいくつかに対応するDNAの文字列となる。そして、それぞれのクエリ配列は、磁性ナノ粒子で特殊コーティングされる。

数ミリリットルの中に1万枚のDNA画像が保存されているマイクロDNA試験管に、これらのDNAをいくつか入れると、一致する配列がすべて取得されます。あとは磁石でそれらを引き出し、シーケンサーといくつかのアルゴリズムで画像に戻すだけです。

いずれにせよ、彼らはそれがうまくいくことを期待している。「DARPAプロジェクトの核心は、どのメカニズムが分子処理に最も適しているかを解明することです」とセゼ氏は言う。「私たちが視覚データに焦点を当てているのは、それが世界で最も膨大な種類のデータだからです。そして、DNAの特殊な結合特性が、視覚データ処理に適していると考えています。しかし、どうなるかはわかりません。」

他の研究者たちは、DNAの様々な物理的特性を利用して情報をエンコードしています。イリノイ大学のオルジカ・ミレンコビッチ氏のグループは、大量の合成DNAを製造するのではなく、自然界に存在する細菌のDNAに小さな切り込みを入れています。これらの変化は数えることができるため、実質的には加算演算子と減算演算子、つまりJavaなどのプログラミング言語の構成要素の一つとなります。

DARPAが関心を持つ分子はDNAだけではありません。ブラウン大学の理論化学者であるブレンダ・ルーベンシュタインは、量子コンピューティング(情報ビットを原子、イオン、光子、電子のいずれかとしてエンコードする)の研究に携わってきました。しかし今、彼女はその概念を有機化合物、特にR基(分子の可変部分で、分子に異なる物理的および化学的特性を与える)を結合する場所が複数ある化合物に拡張しています。様々な反応を実行することで、これらのR基は予測可能な方法で変化するため、基本的な線形代数方程式の計算に適しているとルーベンシュタインは言います。「R基は非常に多くの特性を持ち、情報の保存と処理能力が驚異的です」と彼女は言います。「コンピューティングの範囲を広げるには、小さな分子がほぼ​​当然の選択肢だと思います。」

DNAのような分子は、最先端のインシリコ技術に比べて、いくつかの大きな利点を持つ可能性がある。はるかに高密度なストレージ能力を持ち、はるかに長く保存でき、さらにははるかに多くの処理を並列処理できる可能性もある。しかし、それらは万能薬ではない。DNAはコンピューターコードと同様に、ハッキングされる可能性がある。そして、スマートフォンのフードの下に、いかにして小さな分子反応のスープを詰め込むのか、想像もつかない。しかし、少なくとも数年後、国防総省が地下バンカーを建設しているかもしれない、と想像するのは楽しい。サーバーファームのためではなく、極小のガラスビーズのトレイを保管するためのバンカー、つまり凍結乾燥DNAの中に国家の機密が収められているバンカーだ。