Polisis AIがプライバシーポリシーを読み上げます

Polisis AIがプライバシーポリシーを読み上げます

あなたはプライバシーポリシーを読まない。もちろん、それはあなたのために、あるいは難解な法律用語に同意するためにクリックする何十億もの人々のために書かれたものではないからだ。下手な詩やティーンエイジャーの日記のように、何百万語ものプライバシーポリシーは読者のためではなく、著者のために、つまりシリコンバレーの雇用主を守るために抜け道となる条項を書いた弁護士のために書かれている。

しかし、ある学者グループが、ほとんど判読できないプライバシーポリシーを、消費者保護のツールとして謳う通り、実際に活用する方法を提案しました。それは、細かい文字まで読みこなす人工知能です。スイス連邦工科大学ローザンヌ校(EPFL)、ウィスコンシン大学、ミシガン大学の研究者たちは本日、Polisis(「プライバシーポリシー分析」の略)のリリースを発表しました。これは、機械学習で訓練されたアプリを用いて、あらゆるオンラインサービスのプライバシーポリシーを自動的に読み取り、理解する、新しいウェブサイトおよびブラウザ拡張機能です。ユーザーは、このアプリを使ってプライバシーポリシーを読み解く必要はありません。

Polisisは約30秒で、これまでに見たことのないプライバシーポリシーを読み取り、サービスがどのようなデータを収集し、どこに送信される可能性があるのか​​、そしてユーザーがその収集や共有を拒否できるかどうかを、グラフィックフローチャートで表示される分かりやすい概要を抽出できます。Polisisの開発者たちはまた、「Pribot」と呼ぶチャットインターフェースも開発しました。これは、あらゆるプライバシーポリシーに関する質問に答えるように設計されています。プライバシーに重点を置いたパラリーガルアドバイザーのような存在です。研究者たちは、これらのツールによって、長らく隠されてきたテクノロジー企業によるデータ利用の秘密を解き明かせることを期待しています。

「ユーザー向けのポリシーの内容を視覚化したらどうなるでしょうか?」と、この研究を主導したEPFLの研究者、ハムザ・ハルカス氏は問いかけ、PolisisとPribotの開発に至った経緯を説明した。「ポリシーのあらゆる部分ではなく、興味深い部分だけを取り上げます。プライバシーポリシーを会話につなげたらどうなるでしょうか?」

例えば、Pokemon GOのウェブサイトにアクセスすると、Polisisはすぐにプライバシーポリシーを見つけ、IPアドレスやデバイスIDから位置情報や人口統計情報まで、ゲームが収集する膨大な情報と、それらのデータソースが広告、マーケティング、ゲーム自体による使用の間でどのように分割されているかを表示します。また、そのデータのごく一部のみが明確なオプトインの同意の対象となることも示しています(以下の図で、Polisisがこれらのデータフローをどのように示しているかを確認してください)。DNA分析アプリHelixのウェブサイトにアクセスすると、Polisisは分析と基本サービスのために健康情報と人口統計情報が収集されることを表示しますが、安心できるのは、その情報が広告やマーケティングに使用されておらず、機密データの収集のほとんどはオプトインであるということです。

画像には、プロット、パンフレット、広告、紙、チラシ、ポスター、テキスト、図表が含まれている場合があります

ポリシスのAI生成によるポケモンGOのプライバシーポリシーの視覚化。プリボット

「情報は存在し、企業があなたのデータをどのように利用できるかを定義していますが、誰もそれを読んでいません」と、このプロジェクトに携わったミシガン大学の研究者、フロリアン・シャウブ氏は語る。「だからこそ、私たちはそれを前面に出したかったのです。」

Polisisは、実は機械学習を用いてプライバシーポリシーから人間が読める情報を抽出する最初の試みではありません。ニューヨーク大学ロースクールのフロレンシア・マロッタ=ワーグラー教授は、カーネギーメロン大学とコロンビア大学も近年、同様のプロジェクトに取り組んでいると指摘します。マロッタ=ワーグラー教授は、オンライン上の利用規約におけるユーザーインタラクションに関する研究に注力しています。(マロッタ=ワーグラー教授自身の研究によると、利用規約のリンクをクリックしてから「同意」をクリックするユーザーはわずか0.07%でした。)コロンビア大学とカーネギーメロン大学が共同で運営する「Usable Privacy Policy Project」は、先月、プライバシーポリシーに注釈を付ける独自の自動ツールをリリースしました。しかし、マロッタ=ワーグラー教授は、Polisisのビジュアルインターフェースとチャットボットインターフェースはこれまで試みられたことがなく、最新のプロジェクトでは、様々な種類のデータの定義方法もより詳細になっていると述べています。「粒度が非常に優れています」とマロッタ=ワーグラー教授は言います。「よりインタラクティブな情報伝達方法となっています。」

Polisisを構築するため、ミシガン大学、ウィスコンシン大学、ローザンヌ大学の研究者たちは、フォーダム大学ロースクールの学生グループが詳細に分析・注釈を付けた115件のプライバシーポリシーと、Google Playストアのアプリから収集した13万件以上のプライバシーポリシーを用いてAIを訓練した。注釈付きの細則により、ソフトウェアエンジンはプライバシーポリシーの文言が、データの収集と共有に関するよりシンプルで分かりやすい記述にどのように翻訳されるかを学習することができた。さらに、未解釈のプライバシーポリシーのより大規模なコーパスは、115件の注釈付きポリシーには含まれていない用語を、文章を比較して一致する文脈を見つけるのに十分な例を提供することで、エンジンに学習させることで、この訓練を補完した。

こうしたトレーニングをすべて経たPolisis AIは、プライバシーポリシーを解釈し、その結果をサービスの情報収集慣行に関するより広範な声明に翻訳した後、フォーダム大学の専門家と88%の確率で一致する結果を得ることができます。これは完璧なシステムとは言えませんが、研究者たちは、フォーダム大学の専門家もこの点で互いに同意することはあまりなかったと指摘しています。「内部矛盾がある場合、結果はやや曖昧になります」とニューヨーク大学のマロッタ=ワーグラー氏は指摘します。また、こうした矛盾はさておき、プライバシーポリシーをどれだけ精読しても、企業が「第三者」と明記していないにもかかわらず、個人データを誰と共有しているのかといった曖昧な点は解消できないことにも留意する必要があります。

画像にはテキストが含まれている可能性があります

プライバシーポリシーの詳細についてPribot氏と行った会話の例。Hamza Harkous氏

研究者らの法律用語解釈アプリには、まだ改善すべき点がいくつかある。特に会話型ボットは、WIREDのテストで多くの質問を誤って解釈したようだ。また、現時点では、このボットは元のプライバシーポリシーの膨大な部分をフラグ付けして質問に答えている。この抜粋を自動的に1~2文に簡略化する機能は、まだ「実験段階」だと研究者らは警告している。

しかし研究者たちは、このAIエンジンを将来のツールの基盤として位置づけている。彼らは、将来のアプリが訓練されたAIを活用して、ユーザーが警告を求めたデータ処理方法を自動的に警告したり、各サービスがユーザーの機密データをどれだけ積極的に収集・共有しているかをランク付けするポリシー比較を自動化したりできるようになると示唆している。

「プライバシーを気にするからといって、長々とした文章を読まなければならないわけではありません」とミシガン州のシャウブ氏は言う。しかし、企業のプライバシー慣行(自動化されたものも含む)への監視が強まるにつれ、情報管理者たちは、データ収集における悪質な習慣を山積した法的細則の下に隠そうとする前に、もう一度よく考えるようになるかもしれない。