ロシアのボットが選挙結果をジェレミー・コービンに有利に傾けたという主張には大きな問題がある。

ロシアのボットが選挙結果をジェレミー・コービンに有利に傾けたという主張には大きな問題がある。

画像にはジェレミー・コービン、人物、群衆、アクセサリー、フォーマルウェア、ネクタイ、大人用腕時計、頭が含まれている可能性があります

クリストファー・ファーロング/ゲッティイメージズ

「ロシアがコービン氏に有利な選挙結果をもたらそうとした」という、注目を集める見出しは、政治的な議論を巻き起こすことは確実だった。しかし、今週末のサンデー・タイムズ紙に掲載されたこの記事は、スウォンジー大学経営学部の金融学教授オレクサンドル・タラベラ氏が行った研究結果をめぐり、学界で激しい議論を巻き起こした。

同紙は、ロシアに所在すると主張し、ロシア語でツイートした、またはロシアに関連する時間帯でツイートしたアカウント(いずれもアカウントが実際にロシアのものであると保証する証拠ではない)からの2万件のツイートから収集したタラベラのデータを使用して、2017年の総選挙中にジェレミー・コービン支持に感情を動かそうとしたとされる6,500のボットのグループを特定したという。

データの収集方法を説明する関連記事の中で、タラベラ氏は次のように述べている。「サンプルは、ロシア語ボットが意図的に使用され、労働党に有利に働き保守党に不利になるように選挙に影響を与えようとした証拠を示している」。しかし、記事が掲載されてから数時間後、この分野の研究者たちが、調査結果とその方法論について重大な疑問を呈し始めた。

「かなり大胆な主張がなされていますが、その方法論については基本的に何の情報もありません」と、ライデン大学政治学助教授で、選挙におけるソーシャルメディアの活用を研究しているレベッカ・トロンブル氏は説明する。「この件について、確かな情報が得られていないので、強い主張や明確な非難はできません」と彼女は付け加える。「しかし、収集されたデータに根本的な偏りがあるのではないかと懸念する理由はあります。」

トロンブル氏の最大の懸念は、データの収集方法にある。タラベラ氏によると、このデータはTwitterのストリーミングAPIを使って収集している継続的な情報コーパスから得られたものだという。問題のデータは、膨大な情報を取得できるインターフェースであるAPIを介してTwitterに16個の異なる用語でクエリすることで収集された。

タラベラ氏は、2017年総選挙前の1か月間のツイートを抽出し、その中にはGeneralElection2017、GE17、generalelection、FixedTermGovernment、timfarron、LibDems、theresamay、#Conservatives、nicolasturgeon、paulnuttall、ukip、#Labour、#snp、#greenparty、jeremycorbyn、GE2017というキーワードが含まれていた。

タラベラ氏によると、2017年の総選挙前の30日間で、106万7000のアカウントがこれらの用語を使って約1000万回ツイートした。そのうち100万強が英語を使っていた。他の言語でツイートした6万6000のアカウントのうち、ロシア語は1万3000件で2番目に多く使われていた(1位のスペイン語は1万4000人が使用していた)。これらの言語の半分は、サンデー・タイムズによって手作業でボットであると特定された。

しかし、収集されるデータの信頼性に問題があると主張する人もいます。

「これほど多くのハッシュタグがストリーミングAPIを使っている場合、レート制限を受けていない期間が1つでもあるとしたら驚きです」とトロンブル氏は言う。TwitterのストリーミングAPIでは、検索クエリから最大100%のツイートを収集できるが、トロンブル氏のTwitter APIに関する理解では、検索語がその瞬間の全世界のツイート量の1%以上を占める場合、結果にレート制限がかかるという。

「実際問題として、選挙日に長い検索クエリのリストを使用すると、大量のツイートが返されることになります」とトロンブル氏は言う。同氏は以前、無料で使用できるストリーミング API にクエリを実行し、それを Twitter から購入した完全なデータセットと比較したことがある。

「非常に大きな違いがありました」と彼女は言うものの、その違いが何なのかは解明できなかった。「APIはブラックボックスなので、偏りのないデータを取得できているかどうか確信が持てません。実際、ある程度の偏りがあることはほぼ確実ですが、それがどこにあるのかは分かりません。」

タラベラ氏はこの点について確信が持てない。「Twitter全体の1%を取得しているのか、キーワードのみを使ってストリームの1%を取得しているのかは分かりませんが、現時点では後者の見解を支持します」と彼は言う。「それが私の理解です」。また、彼はクエリがレート制限を受けることはないと考えている。なぜなら、米国大統領選で収集していた同様のデータ(1日あたり約1.5GBのデータ)と比較すると、Brexit関連のクエリはAPIから1日あたりわずか30MBしか取得していなかったからだ。

議論の核心はまさにこの点にあります。Twitterの広報担当者は、APIストリーミングの上限は、その時点の全世界のツイート総数の1%に相当する量に制限されていることを確認しました。検索結果がこの上限を超えた場合、ストリーミングAPIはランダムに抽出することなく、その時点までの最初のツイートをそのまま配信します。

ストリーミング API を使用してツイートを分析すると、コンテンツが投稿された直後に悪意のあるボットによる誤情報に対して Twitter が取る措置は考慮されません。一方、ユーザーがオプトインするのではなくオプトアウトする Twitter の品質フィルターとセーフサーチの取り組みでは、自動化されたスパム投稿もいくつか排除されます。

より大きな問題は、たとえ方法論が妥当であることが証明され、ロシア製であると特定されたボットが実際にそうであったとしても、ボットが影響を与えたかどうかである。

「こうした研究の多くについて私が最も懸念しているのは、それらが単一のプラットフォーム、つまりTwitterだけに基づいていることです」と、データサイエンスコンサルティング会社Signifyの共同創業者、ジョナサン・セビア氏は語る。「会話の量を掘り下げて、単一のプラットフォームではなくソーシャルメディア全体を見てみると、真の偽情報はFacebookのような非公開のプラットフォームで発生しているという証拠が数多くあります。Facebookでは、データは公開されていません。」

ロシアの国家組織がオンラインで偽情報キャンペーンを展開していることは広く認められており、英国と米国ではフェイクニュースとロシアの選挙介入の影響に関する議会調査が開始されている。しかし、それが実際に効果を発揮するかどうかは、まだ答えが出ていない別の疑問である。

こうした「クリックティビズム」は、これまで現実世界ではほとんど効果がないことが示されてきました。インビジブル・チルドレンが制作した、数万人もの子供を誘拐したウガンダの軍閥、ジョセフ・コニーを描いた30分のドキュメンタリー「コニー2012」は、1億人以上が視聴しました。このドキュメンタリーは、コニーが逮捕され、犯罪で罰せられるよう世論を煽ることを目的としていましたが、彼は今も生きており、自由の身です(最近の報道によると、中央アフリカ共和国に亡命している可能性があるとのことです)。何百万人もの人々がオンラインで#BringBackOurGirls運動を支持しましたが、実際には大きな効果はありませんでした。

続きを読む: 英国の左派はFacebookのアルゴリズム変更に適応しようと奮闘中

この記事の調査結果をめぐる議論は政治的な側面によって混乱している。

「エコーチェンバー効果が起きている」と、メディアや学界の同僚から質問攻めに遭っているタラベラ氏は警告する。「ロシアが総選挙に影響を与える可能性が高いと言えば、保守党は選挙の影響を強調し、労働党はそれが起こりそうになく、事実ではないという事実を強調するだろう」

「何も悪いことはしていないと分かっています」と彼は付け加えた。「本当に必要なら、Pythonプログラムを見せられます。どのようにデータを収集し、ツイートをどのように処理したかを見せられます。」

これはトロンブル氏を含め、多くの人々にとって歓迎すべきことだろう。とりわけ、政治化された議論から事実関係を明らかにする上ではなおさらだ。「これはまさに、Twitter調査の適切な実施方法に関する学者のための議論です。しかし、問題は、政治的スペクトルのあらゆる側面から大量の反応が寄せられる中で、こうした議論をしなければならないという点にあります。」

「もし学界のメンバーが詳細を掘り下げて、『私はこの方法についてかなり自信があった』と言える方法があれば、私はこれらの主張が何らかの現実に基づいているかどうかを心配することなく、真の政治的影響に焦点を当てることができます。」

この記事はWIRED UKで最初に公開されました。