あなたの過去のツイートはあなたが思っている以上に多くの位置情報を公開しています

あなたの過去のツイートはあなたが思っている以上に多くの位置情報を公開しています

研究者たちは、地理タグ付きのツイートを使用するだけで、ユーザーの居住地や勤務先、その他の機密情報を予測できるツールを開発した。

青いTwitterの鳥のロゴが、大都市の衛星画像に重ねられています。鳥の輪郭は道路に沿っています…

ケイシー・チン、ゲッティイメージズ

国際的な研究グループが、Twitterを使って数分であなたの居住地を90%以上の精度で自動的に予測するアルゴリズムツールを開発しました。このツールは、あなたの勤務先や礼拝場所、さらには特定のストリップクラブに通っていたか、リハビリ施設に通っていたかなど、プライベートにしておきたい情報も予測できます。

LPAuditor(Location Privacy Auditorの略)と呼ばれるこのツールは、Twitterが2009年にツイートに位置情報をタグ付けする機能を導入した後に導入した、研究者が「侵入的ポリシー」と呼ぶものを悪用する。長年にわたり、ツイートに位置情報をタグ付けすることを選択したユーザーは、たとえ「ニューヨーク市」のように地理的に広範囲な場所であっても、正確なGPS座標を自動的に提供していた。ユーザーはTwitter上でその座標を見ることはなく、フォロワーも同様だ。しかし、GPS情報はツイートのメタデータに含まれており、TwitterのAPIを通じてアクセスできる。

Twitterは2015年4月まで、アプリ全体でこのポリシーを変更しませんでした。現在、正確な位置情報を共有するには、ユーザーはオプトインする必要があります。Twitterの広報担当者によると、オプトインするユーザーはごくわずかです。しかし、アップデート前にユーザーが共有したGPSデータは、現在もAPIを通じて利用可能です。

研究者たちは、これらのジオタグ付きツイートを分析し、人々の最も機密性の高い場所に関する詳細な情報を推測するためにLPAuditorを開発しました。彼らはこのプロセスを、来月開催されるネットワークおよび分散システムセキュリティシンポジウムで発表される査読済みの新しい論文で概説しています。LPAuditorは、ツイートの座標クラスターとタイムスタンプを分析することで、数万人の人々がどこに住み、働き、私生活を過ごしているかを突き止めることができました。

TwitterのサイトインテグリティチームのメンバーはWIREDに対し、Twitterにおける位置情報の共有は常に任意であり、ヘルプセクションでユーザーがそのデータを削除する方法を常に提供してきたと語った。「2015年には、この点についてより明確に説明する必要があると認識しましたが、位置情報の共有に関する私たちの基本的な考え方は、常に任意であり、ユーザーが共有したい情報と共有したくない情報を選択できるというものです」と、このTwitter社員は述べた。

ツイートにジオタグを付けるかどうかは、これまでもユーザー次第だったのは事実です。しかし、パリにいるとシェアすることと、パリのどこに住んでいるかを正確にシェアすることの間には大きな違いがあります。それなのに長年、Twitterはユーザーがシェアした場所の面積に関わらず、GPS座標までも位置情報をシェアすることを選択していました。こうした詳細がTwitterのヘルプセクションに明記されていたとしても、そもそも助けが必要だと気づいていないユーザーにとっては、あまり役に立たないでしょう。

「問題に気づかなければ、そのデータを削除することは決してないでしょう」と、この研究の共著者であり、イリノイ大学シカゴ校でプライバシーとセキュリティを専門とするコンピュータサイエンスの助教授、ジェイソン・ポラキス氏は述べている。そして、この研究によると、そのデータは多くのことを明らかにする可能性があるという。

Twitterが設定を変更してからかなり経った2016年11月、ポラキス氏とクレタ島にある研究技術財団の研究者たちは、同社のAPIからTwitterのメタデータを取得し始めました。彼らは、位置情報付きツイートから個人情報を推測できることを示した先行研究に基づいて、自動化を用いて大規模かつより正確にこれを実行できるかどうかを検証しようとしていました。

研究者たちは、約8万7000人のユーザーによる約1500万件のジオタグ付きツイートを分析しました。これらのツイートに付加された位置情報の一部は、美術館や音楽会場など、正確な位置情報を共有したいユーザーから提供されたものと考えられます。しかし、都市名や大まかな地域名のみを共有したにもかかわらず、結局GPS位置情報を共有されてしまったユーザーも数多くいました。

そこから、LPAuditorは各ツイートを地図上の物理的な場所に割り当て、タイムゾーンごとに位置を特定する作業に着手しました。その結果、地図上にツイートのクラスターが生成され、その中には他のツイートよりも活発なツイートも含まれていました。これは、特定のユーザーが多くの時間を費やしている場所、あるいは少なくとも多くの時間をツイートしている場所を示しています。

どのクラスターがユーザーの自宅に相当するかを予測するため、研究者たちはLPAuditorに、週末にツイートに費やした時間が最も長かった場所を探すよう指示しました。その考え方は、平日は朝、夜、そして休日と予測できないパターンでツイートするかもしれませんが、週末はほとんどの人が自宅で多くの時間を過ごすというものでした。

勤務地の特定に関しては、彼らはその逆を行い、1週間のツイートパターンを分析しました。LPAuditorは、ユーザーが最も多くツイートした場所(自宅は除く)を分析し、それらのツイートが送信された時間帯を調査しました。これにより、研究者たちは、たとえ夜勤であっても、典型的な8時間勤務中にツイートが送信された可能性があるかどうかを推測することができました。最終的に、ツールは1週間で最も頻繁に出現する時間帯を探し、その時間帯に最も多くのツイートがあった場所が、その人物の勤務地である可能性が最も高いと判断しました。

回答を検証する段階になると、研究者たちは約2,000人のユーザーからなるグループを選定し、いわばグラウンドトゥルース(真実)として利用しました。このグループの作成は手作業で行われ、2人の大学院生がそれぞれ独立してコレクション内のすべてのツイートを精査し、ツイートを送信した人物が実際に自宅または職場にいたことを裏付けるキーフレーズを探しました。例えば、「家にいる」や「オフィスにいる」といった言葉は手がかりになるかもしれません。研究者たちは、それぞれのツイートの文脈を調べ、追加情報を提供しそうな要素を探しました。

次に、これらのツイートの場所をツールの予測と比較したところ、ツールの予測精度が非常に高く、人々の自宅を92.5%の確率で正しく特定できたことが分かりました。一方、勤務地の予測精度は低く、55.6%にとどまりました。しかし、ポラキス氏によると、これは単に、彼らが「勤務地」と特定した場所が、実際には学校か、あるいは本来であれば勤務時間となる時間帯を過ごす場所である可能性を示唆しているという。

最後に、研究者たちはユーザーが訪れた可能性のあるセンシティブな場所の特定に着手しました。そのために、ツイートの場所をFoursquareのビジネスおよび施設ディレクトリと比較しました。彼らは病院、救急診療所、礼拝所、ストリップクラブ、ゲイバーといった場所を探しました。ジオタグ付きツイートから27ヤード(約8メートル)以内に表示された施設はすべて、潜在的な場所とみなされました。次に、健康、宗教、セックス、ナイトライフに関連する単語を検索し、同様のキーワード分析を行い、ユーザーがその場所にいた可能性を確認しました。この方法を用いて、研究者たちはLPAuditorがセンシティブな場所について約80%の確率で正しいことを発見しました。

もちろん、例えば、ユーザーが病院にいる​​時に、そのことについてツイートしているのであれば、プライバシーをそれほど気にしていないという意見もあるだろう。しかし、ポラキス氏は「位置情報は、ユーザーが言いたいと思っている以上の情報を漏らしてしまう可能性がある」と指摘する。あるケースでは、GPS座標からリハビリ施設だと判明した場所から、医師についてツイートしていたユーザーがいた。「これは、彼らが明らかにしたかった情報よりもはるかにセンシティブな内容です」とポラキス氏は言う。

ツイートに文脈上の手がかりがない場合でも、LPAuditorは、人々がセンシティブな場所で過ごした時間と再訪回数を調査することで、実際にその場所で時間を過ごしたかどうかを予測することができました。しかし、研究者たちはこれらの特定の予測の精度を測定することはできませんでした。

この研究の大部分は、2015年4月のTwitterのポリシー変更以前に送信されたツイートに基づいていました。ポラキス氏によると、この変更はAPIを通じて入手できる正確な位置情報データの量に大きな変化をもたらしました。その変化の規模を測るため、研究者たちは2015年4月以前に収集したツイートをすべて除外し、調査対象ユーザーの約15分の1についてのみ、主要な位置情報を正確に特定できたことを発見しました。言い換えれば、「Twitterのこうした侵入的な行動によって、攻撃できるユーザーの数が15倍に増加した」とポラキス氏は言います。

Twitterがポリシーを変更したことは良いことだ。問題は、2015年以前の位置情報データの多くがAPIを通じて依然として利用可能であることだ。ポリシー変更後にTwitterがデータを削除しなかった理由を尋ねられたTwitterのサイトインテグリティ担当の従業員は、「ユーザーの同意なしに、後戻りして一方的にツイートを変更する決定を下すのは適切ではないと判断しました」と答えた。

これは、位置情報データ、さらにはジオタグ付きツイートから何が推測できるかを明らかにした最初の研究ではありません。しかし、同様の研究を行ったロチェスター大学のコンピューター科学者、ヘンリー・カウツ氏によると、この論文は重要な貢献をしているとのことです。「今回の研究の進歩は、1種類の場所ではなく、職場と自宅という2種類の場所を調査した点です。さらに、より体系的な評価と高度に調整されたアルゴリズムを用いて、より大規模な調査を実施することで、より高い確率で正しい答えを導き出しました」とカウツ氏は言います。LPAuditorはTwitterデータに限定されているわけではありません。あらゆる位置情報データに適用できます。

カウツ氏は、Twitterは今日も侵入的な位置情報収集を続けている他のアプリと比較すると、比較的懸念事項が少ないと主張している。ロサンゼルスの政府当局は最近、IBM傘下のウェザーチャンネルアプリに対し、ユーザーの位置情報を「地域の天気データ、警報、予報をカスタマイズ」するのを支援するという名目で収集・販売しているとして訴訟を起こした。また今週、マザーボードは、賞金稼ぎがT-Mobile、Sprint、AT&Tから購入した位置情報データを用いて、携帯電話を使用する個人を追跡していると報じた。これらの企業は、こうしたデータの販売を停止すると公約しているにもかかわらず、このような事態になっている。そしてもちろん、マルウェアに感染して位置情報を貪り食うアプリも存在する。

「今日の大きな問題は、悪意のある人物があなたの位置情報付きツイートを見ることではありません。問題は、あなたのGPS履歴全体を盗む、不正に侵入された携帯電話アプリです」とカウツ氏は言う。「そのデータから、自宅や職場の位置情報だけでなく、あなたの人生における重要な場所を数多く抽出できるのです。」

しかし、ポラキス氏は、Twitterが全てのジオタグ付きツイートにGPS座標を付与しなくなったという事実だけでは不十分だと指摘する。開発者は依然として2015年以前の何年分ものデータにアクセスできるからだ。確かに、一部の情報は古くなっているかもしれない。人は引っ越し、転職する。しかし、たとえ古い情報であっても、攻撃者にとっては有用な情報となる可能性がある。また、例えば性的指向といった機密情報は、変化しそうにない。今回の研究は、位置情報データからこの種の情報を推測できるだけでなく、機械がほぼ瞬時に推測できることを実証している。

ポラキス氏は、現時点で人々にできるのは、自分の位置情報データを削除すること、そして将来それを共有する前によく考えることだと語る。


WIREDのその他の素晴らしい記事

  • コーニング社が光ファイバーケーブル用の超高純度ガラスを製造する方法
  • ヒュンダイのウォーキングカーコンセプトは車輪を再発明する
  • ダークサイド(モード)に身を委ねる
  • 人生を変える最高の自己最適化の魔法
  • XR とは何ですか? どうすれば入手できますか?
  • 👀 最新のガジェットをお探しですか?おすすめ商品、ギフトガイド、お得なセールなど、一年を通してチェックしてみてください
  • 📩 毎週配信されるBackchannelニュースレターで、さらに多くの内部情報を入手しましょう

イッシー・ラポウスキーは、テクノロジーと国内情勢を専門とするジャーナリストです。彼女の記事は、ニューヨーク・タイムズ、ファスト・カンパニー、アトランティックなど、数多くのメディアに掲載されています。以前はWIREDのシニアライターを務めていました。…続きを読む

続きを読む