今週初め、Facebook創業者兼CEOのマーク・ザッカーバーグ氏はワシントン・ポスト紙の社説で、Facebook上で公開されているオプトイン形式の症状調査について言及し、カーネギーメロン大学の研究者が位置情報に基づいて新型コロナウイルス感染症の感染者数を予測するのに役立つ可能性があると述べた。このプロジェクトが成功すれば、郡ごとの状況把握が可能となり、患者急増に備える必要がある公衆衛生当局や病院にとって、すぐに役立つものとなるだろう。
カーネギーメロン大学は、数週間にわたる初期データ収集を経て、米国全土の新型コロナウイルス感染症(COVID-19)の指標を示すインタラクティブマップを5つ公開した。マップは1日に1回更新され、データソースごとに別々のタブに表示される。データソースは、FacebookとGoogleのアンケートによる自己申告の症状、特定の症状に関するGoogle検索、医療検査、医師の診察などだ。CMUの研究者たちは、長年疫学予測に取り組んできたが、最近は新型コロナウイルス感染症(COVID-19)に関する取り組みを強化しており、FacebookとGoogleと共同で行っている研究は、これらのプラットフォームの規模の大きさゆえに意義深いと述べている。FacebookのニュースフィードとGoogleのアンケートツールを通じて症状に関するアンケートを配信することで、研究者たちは数百万ものデータポイントにアクセスできるようになる。
調査参加者は症状を自己申告しており、COVID-19の症状の多くは非特異的であるため、この種のデータ収集では、補正方法を使用しないと病気の過大評価につながる可能性があると、ハーバード大学医学大学院とボストン小児病院の計算健康情報科学プログラムに勤務する計算疫学者のマイムナ・マジュムダー氏は述べている。これらのマップのデータソースの1つである検索傾向は、健康研究において必ずしも信頼できる指標ではない。また、プライバシー擁護派は、大手IT企業が消費者から健康データを収集し、それを使用して位置情報に特化した製品を構築することに関与していることを警戒しているが、今回のケースでは、GoogleとFacebookの両社はすべてのデータをCMUに直接提供しており、自社で保持するデータはごくわずかだと主張している。
しかし、CMUの研究者たちは、COVIDCastと呼ばれる新型コロナウイルス感染症予測マップは、主に調査のおかげで、インフルエンザやデング熱を追跡するこれまでのどのプロジェクトよりもはるかに詳細で効果的である可能性があると考えている。「パンデミックがなかったら、テクノロジー業界の大手企業は私のメールに返信しようとは思わなかったでしょうし、一般の人々もこれらの調査に熱心に答えようとはしなかったでしょう」と、CMUの新型コロナウイルス感染症対応チームの主任研究者の一人であり、統計学者のライアン・ティブシラニ氏は言う。
コロナウイルス関連のニュース情報をお持ちですか? [email protected]までお送りください。
COVIDCastマップの開発に取り組んでいるカーネギーメロン大学のチームは、自らを「デルファイ・グループ」と名乗り、2012年から米国における季節性インフルエンザとプエルトリコおよびペルーにおけるデング熱を追跡調査してきた。デルファイ・プロジェクトは通常、6~7人のチームメンバーで構成されるが、4週間前に開始されたCOVID-19プロジェクトには27人の研究者が参加した。
デルファイのこれまでの研究の重要な部分は、流行予測でした。様々なデータソースを用いて、2~4週間後にインフルエンザの流行がどこで発生するかを予測するのです。デルファイの共同リーダーであり、機械学習教授でもあるロニ・ローゼンフェルド氏によると、現在、チームは「ナウキャスト」(同じ指標を用いて、ある時点、ある場所における流行の発生状況を特定すること)と予測の両方に取り組んでいるとのことです。「パンデミックが発生した際、私たちはチーム全体を方向転換させ、過去7年間に開発してきた技術の一部をCOVID-19に適用しようと試みました」とローゼンフェルド氏は言います。「一部のツールはそのまま使えますが、一部は新たに開発する必要があります。」
マップを作成するために、デルファイグループは少なくとも5つのソースからデータを抽出している。Googleの検索トレンド(デルファイは以前のプロジェクトで使用していた)、検査会社Quidelが実施したインフルエンザ検査、新型コロナウイルス感染症のような症状が確認された医師の診察や遠隔医療の予約、FacebookやGoogleが推進またはホストしている症状調査である。データストリームの一部はほぼ継続的に行われ、研究チームは方法をその場で変更していることがある。例えば、CMUの研究者は当初、インフルエンザ検査で陰性だったものに注目し、排除メカニズムは患者の症状が新型コロナウイルス感染症に関連していることを示す強いシグナルだと考えていたが、現在、研究チームはすべてのQuidelインフルエンザ検査を考慮に入れている。彼らは、どの国の保健サービスが医師の診察や遠隔医療の予約に関するデータを提供しているかは明らかにしなかった。
GoogleとFacebookのアンケートはそれぞれ異なる方法でデータを収集しています。Googleのアンケートは、CMUが作成した「あなたの地域で、現在、体調不良(発熱、咳、息切れ、呼吸困難など)の人をご存知ですか?」という1つの質問で構成されています。回答の選択肢は「はい」「いいえ」「わからない」です。Googleは、アンケートアプリ「Google Opinion Rewards」を含むGoogle所有のサービス全体、およびGoogleのアンケート パブリッシャー ネットワークに含まれるニュース記事などのコンテンツ全体にアンケートボックスを表示します。アンケートにご回答いただくと、例えば記事へのアクセスが許可される場合があります。
当社のコロナウイルス関連記事はすべてこちらでご覧ください。
FacebookはCMU独自の調査の推進役としての役割を担っています。CMUの調査は、参加者の年齢、郵便番号、世帯人数、症状、医師との連絡やCOVID-19検査の試み、そして同居家族以外の人との交流など、少なくとも12の質問からなる詳細なアンケートです。症状に関するアンケートがFacebookのニュースフィードに表示され、ユーザーがクリックすると、FacebookではなくCMUのサイトに誘導されます。
COVIDCastマップは最終的に、アメリカ合衆国を1枚の大きな地図で表示し、各データソースを区切る5つのタブを備えています。地図の横には、州、都市圏、郡(最も詳細なオプション)ごとにCOVID指標を表示するオプションがあり、現在の感染者数や過去7日間の感染者数の傾向を見ることができます。現在のバージョンのマップは、明らかにアデルフィが「ナウキャスティング」、あるいは「ニアキャスティング」と呼ぶようなもので、予測は行いません。
目標は最終的にそれを実現することです。「新型コロナウイルス感染症を重症度ピラミッドとして考えると分かりやすい」とローゼンフェルド氏は言います。ピラミッドの底辺には感染していない人がおり、次に新型コロナウイルス感染症に感染しているが症状が出ていない人、症状はあるが医師の診察を受けていない人、そして入院したり集中治療室に入ったり、新型コロナウイルス感染症や関連合併症で亡くなる人がいます。
「底を測るのははるかに困難ですが、底で起こったことは上層部に浸透します。ですから、特定の地域で報告される症状の増加が見られれば、数日後には医師の診察数も増加し、その後入院数も増加すると予測できます」とローゼンフェルド氏は言います。

さらに、「曲線を平坦化する」とはどういう意味か、そしてコロナウイルスについて知っておくべきその他のすべて。
もう一人のチームリーダーであるティブシラニ氏は、デルファイ研究チームが新型コロナウイルス感染症の発生状況を正確に特定するために症状調査を活用した最初の研究グループではないと述べている。「私が挙げることができるだけでも、おそらく15件ほどの調査があるでしょう」と彼は言う。
一例として、「Covid Near Year」が挙げられます。これは、ボストン小児病院のジョン・ブラウンスタイン氏と、Apple、Amazon、Googleなどの企業に所属するボランティアのバイオインフォマティクス専門家チームが主導する、クラウドソーシングによる症状追跡システムです。調査参加者が体調不良を訴えた場合、より詳細なアンケートに回答するよう促されます。WIREDのメアリーン・マッケナ氏が報じたように、このシステムでは診断結果は得られませんが、新型コロナウイルス感染症(COVID-19)が次に急増する可能性のある地域を保健当局に警告する可能性があります。
しかし、CMUの戦略の大きな部分は、大手テック企業にこれらの調査を実施させることでした。「そうすることで、高いサンプル数のデータソースを構築し、今後数ヶ月にわたって高いサンプル数を維持するのに役立つからです」とティブシラニ氏は言います。これまでに、CMUの調査には毎週約100万人のFacebookユーザーが回答しており、Googleがホストする単一の質問からなる調査には毎日約60万人のGoogleユーザーが回答しています。
CMUの研究者たちは、参加者が症状を自己申告しているため、一部のデータが不完全または偏っている可能性があることを認めている。ボストン小児病院のマジュムダー氏は、この種の症候群サーベイランスは「非常に不完全な科学」になり得ると述べている。補正方法が用いられない場合、調査に基づく作業は、特定の集団における新型コロナウイルス感染症の症例数を過大評価する可能性がある。たとえ補正方法が用いられたとしても、それは完璧ではないと彼女は指摘する。「言い換えれば、季節性アレルギーのある人が、調査で空咳を報告したというだけで、誤って新型コロナウイルス感染症患者として『カウント』されてしまう可能性があるのです」と彼女はWIREDに語った。
マジュムダー氏はさらに、症候群監視プロジェクトにおいては、データが一貫したシグナルを示しているという理由だけで、誤った安心感に陥らないことが重要だと付け加えた。「複数のデータソースでシグナルを見ると、そのシグナルが意味のあるものであるという印象を与えかねませんが、症状とGoogle検索パターンを生み出す複数の条件が集団内で同時に発生している場合、必ずしもそうとは限りません。」アレルギーの例に戻ると、ある人が新型コロナウイルス感染症の調査で「空咳」と報告し、さらに「空咳」という用語をGoogleで検索した場合、実際には単にアレルギーがあるだけなのに、特に意味があると誤解される可能性がある。
ティブシラニ氏は、自己申告によって生じるバイアスが、少なくとも時間の経過とともに一定になることを期待していると述べています。つまり、ある症状をある郡で1週間追跡し、急増が見られ、その急増が高止まりしている場合でも、それは依然としてその症状の蔓延を反映している可能性があるということです。
検索トレンドは、健康追跡プロジェクトのデータソースとしても問題となる可能性があります。長年にわたり、「Google Flu Trends」と呼ばれるプロジェクトは、検索トレンドからインフルエンザの流行パターンを予測しようと試み、CDCがインフルエンザ症例を報告する最大2週間前までのインフルエンザ流行の推定値を提供することを目指していました。しかし、このプロジェクトは科学者が「ビッグデータへの傲慢さ」と呼ぶものが原因で、最終的に中止されるまで何度も失敗に終わりました。Googleは検索アルゴリズムを絶えず調整しており、オートフィルの候補が検索トレンドに影響を与える可能性があり、冬に関連する検索トレンドとインフルエンザに関連する検索トレンドの間には過剰な相関関係が見られました。
また、データ消費量の多いテクノロジープラットフォームが関与する最近の他の新型コロナウイルス追跡プロジェクトと同様に、プライバシー擁護派は大手IT企業の関与を警戒している。「多くの企業は、自社の技術が悪者扱いされるのではなく、称賛されることを望んでいると思います」と、電子フロンティア財団のエグゼクティブディレクター、シンディ・コーン氏は述べている。「だからといって、大手IT企業がこうした点で役に立たないというわけではありませんが、以前の悪質な行為を新型コロナウイルスで隠蔽しようとする動きがかなり見られます。」
COVIDCastプロジェクトはカーネギーメロン大学の倫理審査委員会(IRB)の承認を受けており、同委員会はデータ共有に関する厳格なポリシーを定めている(一部のテクノロジー企業では一般的に緩いポリシーとなっている)。FacebookとGoogleはどちらも、これらの調査から受け取るデータは最小限であると主張している。
ユーザーがCMUのアンケートをクリックして回答するとFacebookに通知が届きますが、Facebookによると、アンケートの回答は個人のFacebookアカウントにリンクされておらず、CMUはアンケートの回答をFacebookと共有していないとのことです。Googleの広報担当者マット・ブライアント氏は、Googleは自社のアンケート製品から集計・匿名化された回答データをCMUに送信しており、Googleはこれらのデータを他のGoogleプロジェクトのために保持、再利用、または転用することはないと述べています。
スタンフォード大学インターネットと社会センターの消費者プライバシー担当ディレクター、ジェン・キング氏は、CMUの審査委員会によるガイドラインがあり、テクノロジー企業が調査の単なる仲介役に過ぎないとしても、FacebookとGoogleはどちらも、望めば独自の健康追跡プロジェクトのためにデータを収集するだけの力を持っていると指摘する。彼女は、Googleは私たちの検索トレンドを把握していると指摘する。そして「Facebookは膨大なデータポイントを持っているので、今まさにニュースフィードに体調不良や発熱を訴えている人なら誰でも分析できる」とキング氏は言う。「Facebookは独自に人々の発言を解析し、それを活用して感染を追跡する方法を見つけ出そうとするかもしれない」
大手テクノロジー企業が立ち上げた接触追跡ソフトウェアキットやモビリティダッシュボードなど、他の新型コロナウイルス追跡プロジェクトと同様に、未だに答えが出ていない大きな疑問の一つは、現在の流行をより深く理解するために、特定の人々がこの種のデータ(匿名化されているか否かに関わらず)をどの程度喜んで共有してくれるかということだ。
WIREDのCOVID-19に関するその他の記事
- ある病院で、非人道的な危機の中に人間性を見出す
- コロナウイルスのパンデミックは気候変動にどのような影響を与えているのでしょうか?
- Covid-19は脳にどのような影響を与えるのでしょうか?
- トランプ大統領が無視したパンデミック警告の口述歴史
- よくある質問:新型コロナウイルス感染症に関するあらゆる質問にお答えします
- コロナウイルスに関する当社の報道はすべてこちらでご覧いただけます