ケンブリッジ・アナリティカのデータ崩壊は2007年に予測されていた

ケンブリッジ・アナリティカのデータ崩壊は2007年に予測されていた

科学者たちはビッグデータと企業による監視について警告してきました。彼らは自らに警告しようとしたのです。

この画像にはネットワークが含まれている可能性があります

ゲッティイメージズ

2000年代初頭、アレックス・ペントランドはMITメディアラボでウェアラブルコンピューティンググループを率いていました。拡張現実(AR)やFitbitのようなフィットネストラッカーのアイデアが生まれた場所です。当時はまだ、コンピューターをバッグに入れて頭に装着する人がほとんどでした。「基本的には携帯電話と同じで、自分ではんだ付けしなければなりませんでした」とペントランドは言います。しかし、重要なのはハードウェアではなく、デバイス間のやり取りでした。「これをスケールアップしていくと、なんと地球上のあらゆる人々をいつでも見ることができるようになるんです」と彼は言います。彼らがどこに行き、誰と知り合い、何を買っているか、すべてが見えてくるのです。

そして、Facebookのような巨大ソーシャルネットワークが台頭し始めた10年代半ばには、ペントランドと彼の仲間の社会科学者たちは、ネットワークや携帯電話のデータを用いて、伝染病の蔓延、友人同士の関係性、そして政治的同盟の形成過程を解明し始めました。「私たちは偶然にも、人間の行動を理解するための粒子加速器を発明したのです」と、当時ハーバード大学でデータ指向の政治学者だったデイビッド・レイザーは言います。「人間の行動を理解する上で、すべてが変わりつつあることがはっきりと分かりました。」2007年後半、レイザーはペントランドをはじめとする、今日ビッグデータと呼ばれるデータの分析を牽引するリーダーたちと共に、「計算社会科学」と題した会議を開催しました。

2009年初頭、この会議の参加者は権威ある科学誌『サイエンス』に原則声明を発表しました。Facebookとケンブリッジ・アナリティカの騒動における社会科学者の役割――何百万人ものユーザーからオンライン行動に関するデータをかき集め、ユーザーの性格や嗜好を解明し、名目上はその知識を選挙に影響を与えるために利用した――を考えると、この論文は先見の明があったことがわかります。

「人々の相互作用に関する膨大な新たなデータセットは、集団的な人間行動について質的に新たな視点を確実に提供する」と研究者らは記している。しかし、この新たな理解にはリスクも伴うと付け加えている。「おそらく最も厄介な課題は、データへのアクセスとプライバシーに関する側面にある」と論文は述べている。「プライバシー侵害を伴う劇的な一件の事件が、新興の計算社会科学分野を窒息させるような規則や法令を生み出す可能性があるため、こうしたリスクを軽減しつつ研究の可能性を維持する、手続き、技術、規則からなる自主規制体制が必要である」

ああ。そう言わないの?

ケンブリッジ・アナリティカが選挙を盗もうとしたという考え(多くの人がおそらくあり得ないと言うが)よりもさらに気がかりなのは、その背後にある倫理的崩壊を助長する科学者の役割だ。ゼイネップ・トゥフェクチは、Facebookが人々の個人データをどのように扱っているかはあまりにも広範囲かつ不可解であるため、人々がインフォームド・コンセントを与えることは到底不可能だと主張する際、科学と医学の用語を用いている。科学者は、研究において被験者をどのように扱うべきかについて、苦い経験を​​通して知識を習得しているはずである。なぜなら、研究は恐ろしい結果を招く可能性があるからだ。

さらに悪いことに、科学者たちはビッグデータと企業による監視について警告していました。彼らは自らに警告しようとしたのです。

ビッグデータと計算科学に、社会科学は成長のチャンスを見出しました。「人類について私たちが知っていると思っていることのほとんどは、嘆かわしいほどに少ないデータに基づいており、結果として強力な科学とは言えません」と、2009年の論文の著者であるペントランドは述べています。「すべては物語と経験則です。」しかし、データと計算社会科学は、それを変える可能性を秘めています。科学が常に望んでいるのは、単に今を定量化するだけでなく、未来を計算することです。科学者は星やDNA、電子についてはそれを実行できますが、人間についてはより捉えどころのないものでした。

そして彼らは次の飛躍を遂げるだろう。観察と予測は、もし本当に優れた能力を身につければ、システムに対して行動を起こし、それを制御できるようになる。これは、遺伝率の理解からDNAの配列解析、ゲノム編集、あるいはニュートンからアインシュタイン、そしてGPSへと至ったのと同じ進歩だ。計算社会科学を用いて行動に影響を与えること、それがケンブリッジ・アナリティカの約束だった。ケンブリッジ・アナリティカはそれができると言った。そして、どうやらデータを入手するために不正行為をしたようだ。そして、2009年の論文の著者たちが警告した大惨事が現実のものとなった。

ペントランド氏はもっと簡潔にこう言う。「我々はそれを予言していた。」

2009年の論文では、研究者に対し、ビッグデータの手法とデータの取り扱い倫理の両面において、より高度な研修を受けることを推奨しています。また、データの流出や大量データの匿名化の難しさが既に研究の進歩を阻害し始めているため、助成機関や機関審査委員会といった科学インフラは、新たな要求への対応力を強化する必要があると提言しています。

歴史的に、ある団体が自主規制や新たな基準を推奨するのは、他の誰か、通常は政府にそれをやられてしまうのではないかと懸念しているからだ。しかし今回のケースでは、科学者たちはGoogle、Yahoo!、そして国家安全保障局(NSA)を懸念していると彼らは書いている。「計算社会科学は、民間企業と政府機関の独占領域になる可能性がある。あるいは、特権階級の学術研究者集団が、批判や再現が不可能な論文を発表する非公開データを管理し、それに基づいて論文を発表するようになるかもしれない」と彼らは書いている。産業界と学術界の連携に関する強力なルールが確立されなければ、科学者が望むデータへのアクセスを可能にしつつ、消費者とユーザーを保護することはできないだろう。

「あの論文を執筆していた当時から、大いなる力には大いなる責任が伴うことを認識していました。そして、どんな技術も軍民両用技術なのです」と、イェール大学ヒューマンネイチャー研究所所長で、会議参加者の一人であり、論文の共著者でもあるニコラス・クリスタキス氏は語る。「原子力は軍民両用技術です。兵器化も可能です。」

うーん。「データ共有をめぐってスリーマイル島事故のような事態が起こり、研究コミュニティが揺さぶられることは、私たちも予想していた通りです」とレイザー氏は言う。「現実は、学術界がインフラを構築していなかったということです。私たちの「体制整備」という呼びかけは、まだ十分には対応されていないと言えるでしょう。」

ガーディアン紙の報道によると、ケンブリッジ・アナリティカの科学的根拠は、主にスタンフォード大学経営大学院の心理学者ミハル・コシンスキー氏と、ケンブリッジ・ジャッジ・ビジネススクール心理測定センター副所長のデイビッド・スティルウェル氏(いずれもケンブリッジ・アナリティカや関連企業に勤務していなかった)の研究に由来しているようだ。2013年、二人ともケンブリッジ大学で勤務していた当時、コシンスキー氏とスティルウェル氏は、Facebookのステータスアップデートで人々が使用する言語と、いわゆるビッグファイブの性格特性(開放性、誠実性、外向性、協調性、神経症傾向)との関連性を探る大規模な研究の共著者だった。二人はFacebookユーザーから許可を得て、性格診断アプリを通じてステータスアップデートを取り込んでいた。

コシンスキー氏とスティルウェル氏は別の研究者とともに関連データセットを使用し、Facebookの「いいね!」だけを使って性的指向、宗教、政治、その他の個人的な事柄といった個人的特徴を判定したという。

ソーシャルメディアでのやり取りや性格テストから非常に詳細な性格情報を導き出せるというこのアイデアが、別の社会科学研究者であるアレクサンダー・コーガン氏をアプリ経由で同様のアプローチを開発させ、さらに多くのFacebookユーザーデータにアクセスさせ、それをすべてケンブリッジ・アナリティカに引き渡すきっかけとなったとされている。(コーガン氏は不正行為を否定し、インタビューで自分は単なるスケープゴートだと述べている。)

しかし、ここで少し立ち止まってみてください。コシンスキーの最初の論文は一見の価値があります。この論文では、「いいね!」によって機械学習アルゴリズムが知能などの属性を予測できると主張しています。論文によると、知能を最もよく予測するものは?雷雨、コルベア・レポート、科学、そして…カーリーフライです。知能が低いのは、セフォラ、ハーレーダビッドソンの「ママでいるのが大好き」、そしてレディ・アンテベラムです。この論文はセクシュアリティにも着目し、男性同性愛は「No H8」キャンペーン、マックの化粧品、ミュージカル「ウィキッド」への「いいね!」によってよく予測できることを発見しました。男性異性愛の強力な予測因子は?ウータン・クラン、シャック、そして「昼寝から目覚めた後の混乱」です。

ふむ。もし高度なアルゴリズムを使わずにこれらのことを推測できたように思えるなら、著者たちはその可能性を認めています。「『いいね!』の中には、予測された属性と明らかに関連しているものもあります。例えば、『H8キャンペーン反対』と同性愛の場合などです」と論文は結論づけています。「しかし、他の組み合わせはより捉えにくいものです。『カーリーフライ』と高い知能の間には明らかな関連性はありません」

コシンスキー氏とその同僚は2017年、予測から制御への飛躍をより明確に示しました。「デジタル大衆説得への効果的なアプローチとしての心理的ターゲティング」と題された論文の中で、彼らは特定の性格特性(外向性・内向性、開放性の高さ・低さ)を持つ人々に、化粧品の広告と、それらの特性に合わせたクロスワードパズルゲームを見せました。(オタク向けの余談ですが、「スターゲイト」と「コンピューター」への「いいね!」は内向性を予測しましたが、コシンスキー氏らは「いいね!」の重要性が時間の経過とともに変化する可能性があるという潜在的な弱点を認めています。「ファンタジー番組『ゲーム・オブ・スローンズ』への「いいね!」は、2011年には内向性を予測する高い指標だったかもしれません」と彼らは書いています。「しかし、人気が高まるにつれて、視聴者がより主流になるにつれて、時間の経過とともに予測力は低下した可能性があります。」)

広告をクリックしたからといって、必ずしも誰かの政治的選択を変えられるわけではない。しかし、コシンスキー氏は政治広告はさらに大きな影響力を持つと指摘する。「学術研究という文脈では、政治的なメッセージは一切使えません。倫理的に問題になるからです」とコシンスキー氏は言う。「政治的なメッセージでも同じ効果が見られるという前提です」。しかし、彼のチームがミスターゲティング広告よりも、カスタマイズされた広告への反応が多かったのは事実だ。(念のため言っておくと、これはケンブリッジ・アナリティカが実現可能だと言っていたことで、コシンスキー氏は同社とは協力していなかった。)

理性的な人は異論を唱えるかもしれない。2013年の論文について言えば、「ビッグファイブ特性のアルゴリズムによる予測は人間の予測とほぼ同程度、つまり約50%の精度しかないことを示しているだけだ」と、マイクロソフトリサーチの社会学者で計算社会科学の発明者の一人であるダンカン・ワッツ氏は述べている。「もし誰かの意見を変えるのに必要なのが、その人のオープンさや政治的な姿勢を推測することだけなら、たとえ非常にノイズの多い予測であっても、規模が大きければ懸念材料になるかもしれない。しかし、特性を予測する方が人々を説得するよりもはるかに簡単だ」

ワッツ氏は、2017年の論文を見ても、この手法が有効だと確信できなかったと述べている。論文の結果はクリック率をほとんど向上させず、政治行動の予測には程遠いとワッツ氏は述べている。さらに、コシンスキー氏がターゲットを誤らせた開放性広告、つまり正反対の性格特性に合わせて作られた広告は、ターゲットを外向性に絞った広告をはるかに上回る成果を上げた。ワッツ氏は、これは他の制御不能な要因が未知の影響を及ぼしていることを示唆していると述べている。「ですから、改めて言いますが」と彼は言う。「これらの効果が実際にどれほど意味を持つのか、疑問に思います」

ケンブリッジ・アナリティカのような企業が、同様の技術を政治的利益のために利用できると主張することについて、ワッツ氏は「怪しい」と指摘するが、そう考えているのは彼だけではない。「心理学的な側面については、彼らの主張と真に一致する科学的根拠は見当たりません」とレイザー氏は言う。「もっともらしさを裏付けるだけの情報があり、あちこちで引用文献を指摘する程度です」

コシンスキー氏はこれに異議を唱える。「彼らは業界全体に逆らっているんです」と彼は言う。「マーケティングには毎年数十億ドルが費やされています。もちろん、その多くは無駄になっていますが、彼らはバカではありません。Facebook広告やGoogle広告に無駄なお金を費やすような人ではありません。」

コシンスキー氏らの仮説やケンブリッジ・アナリティカの主張のように、特性に基づく説得が機能しないとしても、問題なのは、別の訓練を受けた研究者であるコーガン氏が、データや同様の研究アイデアを同社に提供したとされる点だ。ケンブリッジ・アナリティカのウェブサイトに金曜日に掲載されたプレスリリースで、同社のCEO代行兼元最高データ責任者は不正行為を否定し、Facebookの規則変更に従って削除すべきデータをすべて削除したと主張した。また、コーガン氏が自身の会社GSRを通じて持ち込んだとされるデータについては、ケンブリッジ・アナリティカは「2016年米国大統領選挙における調査において、GSRのデータを一切使用していない」と述べている。

いずれにせよ、人間の行動科学を監視なしに広告や商品を販売するために利用するという全体的な考え方は、依然としてFacebookのビジネスモデルの中核を成しています。「これらの手法が現在用いられていることは明らかです。しかし、これらは人間の行動を理解するために用いられている手法の一例ではありません」とレイザー氏は言います。「彼らは洞察を生み出しようとしているのではなく、学術界の外部にある手法を用いて企業目標を最適化しようとしているのです。」

Lazer は慎重です。言い換えれば、彼らは科学を利用してあなたを操作し、商品を買わせようとしているのです。

ケンブリッジ・アナリティカ事件は、計算社会科学のスリーマイル島事件ではなかったのかもしれない。しかし、だからといって、それがガイガーカウンターの信号ではないということではない。人々が努力していることを示すものだ。

Facebookは、社会科学者が同社が活用できるツールを持っていることを認識している。2017年後半、Facebookのブログ記事は、人々がソーシャルメディアに費やす時間によって少し混乱している可能性があることを認めた。「家族に気を配るべき時に、携帯電話に時間をかけすぎているのではないかとも心配しています」と、Facebookの研究ディレクターであるデイビッド・ギンズバーグ氏と、Facebookの研究科学者であるモイラ・バーク氏は書いている。「私たちが内なる葛藤と戦う方法の一つは、研究です」。そして、彼らは既存の研究の短い概要を示し、同社が共同研究している多くの社会科学者の名前を挙げた。これは、贈賄疑惑の捜査に引っかかった議員が、独自の調査を行っていると主張するのと少し似ているように思える。そしてもちろん、これはまさに10年前に社会科学者が警告していたことでもある。

しかし、結局のところ、社会科学者たちはFacebookの「いいね!」よりも、電話や翌日配達のことをはるかに心配しているようだ。「誰もがGoogleやFacebookについて語りますが、人々がオンラインで発する言葉は、例えば電話会社やクレジットカード会社があなたについて知っていることほど予測力に優れているわけではありません」とペントランド氏は言う。「幸いなことに、電話会社や銀行などは厳しく規制されている企業です。ですから、私たちには十分な時間があります。データが漏洩することは決して起こらないかもしれません。」

コシンスキー氏もこの点に同意している。「Facebookの「いいね!」よりも侵入的なデータ、例えばクレジットカードの記録などを活用し、誰かのFacebookのウォールに広告を掲載するよりも効果的な方法を用い、より多くの資金とリソースを投入し、ABテストを徹底的に実施すれば、もちろん効率は向上するでしょう」と彼は言う。Facebookの「いいね!」の利用は学者が行う類のものだ、とコシンスキー氏は言う。本当に人間のネットワークを動かしたいのであれば、クレジットカードの記録を購入することを彼は推奨する。

コシンスキー氏は、ケンブリッジ・アナリティカよりも優れた人材を雇うことも提案している。「ケンブリッジ・アナリティカがトランプ氏の選挙勝利に貢献したと言われるなら、それは確かにプラスだっただろう。しかし、もしトランプ氏がもっと優秀な企業を雇っていたら、効率はさらに高かっただろう」と彼は言う。

だからこそ、社会科学者たちは依然として懸念を抱いている。誰かが説得という飛躍的な手段に出て成功するのではないかと懸念しているのだ。「私はコーガン博士の行動を、大学の学部長や法務チーム、そして後にガーディアン紙のような報道機関に報告するのにかなりの時間と労力を費やしたので、おそらくその手法には人一倍憤慨している」とコシンスキー氏は言う。「しかし、結局のところ、彼らは規則を破ることなく同じ目的を達成できたはずだ。おそらくもっと多くの時間と費用がかかっただろう」

ペントランド氏によると、次のフロンティアはマイクロターゲティングだ。政治キャンペーンや過激派グループがソーシャルメディアアカウントを操り人形のように操作し、コミュニティ全体が自発的に同じような信念を唱えているかのように見せかけるのだ。「自分と似ていると思う人が、一見自由な意見を持っているように見えるような説得は、非常に効果的です」とペントランド氏は言う。「広告は無視して構いません。自分と似ていると思う人が同じ意見を持つことで、流行、バブル、パニックが始まります」。今のところ、これは極端なケースにしか効果がない。しかし、次回はどうなるだろうか?あるいはその次はどうだろうか?まあ、彼らは私たちに警告しようとしたのだ。

論争に直面

  • ケンブリッジ・アナリティカ論争について数日間沈黙していた後、マーク・ザッカーバーグはフェイスブックに投稿した。
  • フェイスブックはケンブリッジ・アナリティカに関する暴露への対応に苦慮している。
  • Facebook 社内での過去 2 年間の闘いについて、WIRED の記事をお読みください。

アダム・ロジャースは科学とその他オタク的な話題について執筆しています。WIREDに加わる前は、MITのナイト科学ジャーナリズムフェローであり、Newsweekの記者でもありました。ニューヨーク・タイムズの科学ベストセラー『Proof: The Science of Booze』の著者でもあります。…続きを読む

続きを読む