研究者たちはこの系図サイトを利用して1300万人の家系図を構築した

研究者たちはこの系図サイトを利用して1300万人の家系図を構築した

過去20年間で、系図ウェブサイトはあなたの過去を詳しく知ることができると謳い、1500万人以上の顧客を獲得してきました。もしかしたら、秘密の不倫が発覚したり、ラリーがバーニーと出会ったように、ずっと会っていなかったいとこに再会したりするかもしれません。それは深く個人的な、心に響く出来事です。しかし、家系図に数千人、数百万人、さらには数千万人もの人々が含まれるようになると、それはもはや個人の歴史ではなく、人類の歴史となるのです。

2007年に商用系図・ソーシャルネットワーキングサイト「Geni.com」が立ち上げられた際、その目標は「世界の家系図」の作成でした。現在、アマチュア系図学者たちはこの無料サイトで1億1500万人以上の個人プロフィールを作成し、可能な限り婚姻や出生でそれらを結び付けています。最近、同社はニューヨーク・ゲノムセンター、コロンビア大学、MIT、ハーバード大学の科学者たちに、クラウドソーシングされたこれらの公的記録をスクレイピングし、小国ほどの規模の家系図を作成することを許可しました。本日Science誌に掲載された彼らの分析には、1300万人(ネタバレ注意、その一人はケビン・ベーコン)を含む、既知で最大の家系図が含まれています。

遺伝学者とバイオインフォマティクス学者を中心とする研究チームは、長寿の遺伝的基盤に関する新たな視点を確立することにも成功しました。これは特にシリコンバレーで注目を集める話題であり、資金力のあるスタートアップ企業が数多くDNAに秘めた老化の秘密を探ることに注力しています。しかし、研究は容易ではありません。「ニューヨークの地下鉄に『いとこを連れてきてください。長寿を研究します!』とポスターを貼るだけでは済まないのです」と、研究著者のヤニフ・エルリッヒ氏は言います。「Geni.comにログインして、このデータを大量にダウンロードする方がはるかに簡単です。」

今となっては当然のことながら、彼はそう言うだろう。1年前まで、エルリッヒはコロンビア大学でDNAデータストレージ、ゲノムハッキング、集団遺伝学に関する学術研究を主導していた。そこで初めてGeniデータセットに触れたのだ。彼と共著者は昨年2月、プレプリントサーバーbiorXivに論文の草稿を初めて公開した。そして、公開の1週間前に彼は休職し、Geniの親会社であるMyHeritageの最高科学責任者に就任した。MyHeritageは2016年に個人向けDNAキットの提供を開始した。

研究者たちはグラフ理論を用いて、6000人からなる家系図を作成しました。7世代にわたる個人が…

研究者たちはグラフ理論を用いて、6,000人の家系図を作成しました。7世代にわたる個人は緑色で示され、赤い線で結ばれており、結婚を表しています。

コロンビア大学

エルリッヒ氏と彼の学術パートナー(コロンビア大学やニューヨーク・ゲノムセンターの元同僚を含む)は、300万組以上の親族の寿命の差異を調査した結果、長生きする可能性のうち、遺伝子に起因するのはわずか16%程度であることを発見した。これまでの研究では、遺伝率は10~30%と推定されており、残りは生活習慣、環境、そして単なる幸運が影響するとされている。優れた遺伝子を持っていても、交通事故に遭ったり、大地震に見舞われた時に人里離れた場所にいたりするリスクは避けられない。「ゲノム中に潜在的に発見できるシグナルははるかに少ないことが分かりました」とエルリッヒ氏は言う。「生きるか死ぬかは、ほとんどの場合、自分ではコントロールできないものなのです。」

彼によると、この論文の主な目的は、Geni.comのようなサイトを探し求める子孫からクラウドソーシングされたこの種のデータが、従来の人口統計データセットと同等の分析的知見を提供できることを示すことだった。従来の人口統計データセットは、作成にはるかに労力と費用がかかる。前回の米国国勢調査は130億ドルに上った。これは当然のことではありません。「このようなデータセットの場合、私たちがまだ理解できない特別な点があるのではないかという懸念があります」と、カリフォルニア大学バークレー校の人口統計学者ジョシュ・ゴールドスタイン氏は言います。親族を見つける可能性は、記録が良好な地域に住んでいるか、たまたま比較的有名だったか(ケビン・ベーコンを参照)、あるいは単なる偶然の幸運に左右される可能性があります。

しかし、今回の研究の著者らは、これらの問題のいくつかに対処するために尽力しており、特に1985年から2000年の間に亡くなったバーモント州民約8万人の死亡証明書と、同じ時期と場所で作成されたGeniのプロファイル1000件を比較した。社会経済的要因の点では、両グループはほぼ完璧に一致し、98%の一致率を示した。クラウドソーシングされたアマチュアデータは、一般人口をかなり適切に代表しているようだ。

画像にはパターンラググラフィックアートと花のデザインが含まれている場合があります

研究者たちはGeni.comから8,600万件の公開プロフィールをダウンロードした後、数学的グラフ化を用いてデータを整理し、家系図を作成しました。この家系図には、婚姻関係や共通の祖先を通じて7万人の親族が繋がっています。

コロンビア大学

そして、それは公開されています。研究者たちの家系図と人口統計データは、匿名化された形式で誰でもダウンロードできます。そして、それができれば、理論的には、これらの膨大な家系図を他のデータコレクション、例えばMyHeritage、Ancestry、23andMeなどで配列されたDNAと融合させることも可能になります。そうすれば、世代を超えて疾患や関連する遺伝子を追跡できるようになります。「このデータセットと他の公開データセットの累積的な影響は、今後数年間で非常に大きくなる可能性があります」とゴールドスタインは言います。

GeniはAPIを構築し、研究者がデータベース内の誰にでも(暗号化され、匿名化されたトークンシステムを通じて)連絡を取り、データへのアクセスに関する同意を得られるようになりました。「昔は、研究に参加するには報酬が必要で、特定の目的ごとに1つのデータセットが生成されていました」とエルリッヒ氏は言います。「今では、系図学者が家族について知るために行ってきた研究を再利用し、根本的な疑問に答えるために活用することができます。」

さて、祖先探し愛好家たちが人類の苦しみを終わらせたと認めるのはまだ早すぎるでしょうか?ええ、確かに。でも、自分の家系図が科学にどんな貢献ができるのかを知るには良い機会かもしれませんね。

家族のダイナミクス

  • ユタ州に拠点を置くAncestryは、35年間にわたり家系図を収集してきました。そして、遺伝子検査の顧客から採取した唾液77万本と組み合わせることで、アメリカの大移動の詳細な地図を作成しました。

  • 2017年のホリデーシーズン中に150万個の新しいDNAキットが販売されたことで、Ancestryはまもなく世界最大級のバイオバンクの一つを保有することになる。

  • しかし、純粋な家系図を使って最先端のゲノム研究を行うには、アイスランドほど適した場所はありません。