
WIRED / ツイッター
メタデータはどこにでもあります。ツイートする内容、撮影した写真、Facebookに投稿するステータスアップデートなど、あらゆる情報がそこに存在します。警察や治安部隊は、身元や居場所を隠そうとする人物を特定するためにメタデータを利用しています。また、自撮り写真に付随するメタデータは、アリバイを崩す可能性があることに気づかないまま、犯罪者を罠にかけてしまう可能性があります。
Twitterのメタデータは、私たち一人ひとりを極めて正確に特定するためにも利用できることが、ユニバーシティ・カレッジ・ロンドンとアラン・チューリング研究所の研究者による新しい論文で明らかになりました。ツイートは、どれほど匿名だと思っていても、間違いなくあなたを特定できる可能性があるのです。メタデータを見るだけで、すぐに特定できるのです。
科学者たちはツイートとそれに関連するメタデータを用いて、1万人のTwitterユーザーグループ内の任意のユーザーを96.7%の精度で特定しました。メタデータの60%を改変した場合でも、モデルは95%以上の精度で特定の人物を特定することができました。
「メタデータはツイートの実際の内容に比べてはるかに大きい」と、キプロス工科大学の博士課程学生、サヴァス・ザネットウ氏は述べる。論文の共著者であるロンドン大学ユニバーシティ・カレッジのベアトリス・ペレス氏は、データがオンライン上にあるからといって、個人が特定される危険はない、と誤解している人が多いと付け加える。
まともな考えを持つ人なら、街で見知らぬ人に声をかけられても住所を教えたりはしないでしょう。しかし、寝室の電気をどれくらいの頻度で点けたり消したりしているかは教えるかもしれません。「メタデータにはそういう心理があるんです」とペレス氏は言います。「大したことじゃないって思われがちですが、別の情報と組み合わせれば、あなたが家にいるのかいないのかが分かります。」
ザネットー氏も、これは一般的な認識だと同意する。「一般の人は、メタデータを使って自分が簡単に特定できることに気づいていません」。ザネットー氏の考えでは、Twitterユーザーのほとんどは、Twitterが144件ものメタデータを保有しており、サイトのAPIを通じて誰でもアクセスできることを知らない。
匿名であることは役に立たない
研究者らは500万人のTwitterユーザーのデータを集め、そのツイートのメタデータ14個(アカウントの作成時間、ツイートの公開時間、お気に入り、フォロワー、フォロー中の数など)を3つの異なる機械学習アルゴリズムにかけた。
研究者によると、個々のアカウントを最も効率的に、そして最も高い精度で識別できたのは、最も基本的な機械学習アルゴリズムの一つでもあったという。このアルゴリズムは、ほんの一握りのメタデータを用いて、ほぼ正確な精度で個人を特定できることを示した。
このモデルは、既知のユーザーデータセットを用いて学習させ、ツイートのメタデータに基づいて、ユーザーがTwitter上で特定の行動をとることを実証します。モデルを「野外」で実行すると、同じユーザーからの新しいツイートを用いて、メタデータから人々の行動を抽出し、特定の個人として識別することができます。
ソーシャルネットワークで収集されたデータを匿名化しようとするのは解決策ではないとペレス氏は言う。「データセットを匿名化するのは非常に難しいのです」と彼女は説明する。1つまたは複数のデータセットを用いた三角測量は容易であり、個人を特定できる情報を削除しようとする試みを覆すことができる場合が多い。
ペレス氏と同僚たちは、Twitterから取得したデータセットを難読化し、一部のフィールドを削除することで、システムが個人を特定するのをより困難にすることで、このことを証明した。「ぼかしが入っていないデータポイントがいくつかあれば、それでも容易でした」とペレス氏は言う。識別率は、すべての固有要素が削除され、個人を他の誰とも区別できなくなる時点まで、ほぼ安定していた。
5月下旬にGDPRが導入されれば、状況は改善する可能性が高い。「メタデータに関する監視が強化されるだろう」と、データ保護コンサルタントのパット・ウォルシュ氏は説明する。GDPR第25条は、「設計段階およびデフォルト段階におけるデータ保護」を求めている。データ最小化とも呼ばれるこの規制は、企業が業務遂行に必要な特定のデータのみを処理することを義務付けている。
しかし、企業が私たち全員の個人情報をこれほど多く保有することが正しいかどうかという問題を超えて、より大きな問題は、そもそも一般の人々がプライバシーを重視するかどうかだ。「もちろん、一般のユーザーはプライバシーを重視すべきです」とザネットー氏は言う。「しかし、彼らが本当にそうであるかどうかは疑問です。」
この記事はWIRED UKで最初に公開されました。