国際的なテクノロジー大手がロシアの所有権獲得に向けて動き出す中、今回の漏洩により、同社が保有するユーザーデータの量に関する懸念が生じている。

写真:マックス・クラスノフ/ゲッティイメージズ
ロシアに住んでいるなら、Yandexを避けることはできません。「ロシアのGoogle」とも呼ばれるこの巨大テック企業は、何百万人もの人々の日常生活に欠かせない存在です。オンライン検索、配車サービス、音楽ストリーミングを席巻し、地図、決済、メール、その他多くのサービスも人気です。しかし、他の巨大テック企業と同様に、Yandexがあらゆる場所に存在していることには欠点があります。それは、膨大な量のデータを消費してしまうことです。
1月、Yandexは想像を絶する事態に見舞われた。ソースコードが流出した有名企業のリストに名を連ね、Yandexもその一つとなった。ハッキングサイト「BreachForums」の匿名ユーザーが、ダウンロード可能な45GBのYandexコードキャッシュを公開したのだ。不満を抱えた従業員から流出したとされるこのコードにはユーザーデータは含まれていなかったものの、同社のアプリやサービスの運用に関する比類なき情報を提供した。Yandexの検索エンジン、地図、AI音声アシスタント、タクシーサービス、メールアプリ、クラウドサービスなど、あらゆる情報が漏洩したのだ。
漏洩したコードには、Yandexの主要システム2つのコードも含まれていました。1つは、ユーザーの閲覧行動に関する詳細情報を取得するウェブ分析サービス、もう1つは、数百万ドル規模の広告サービスの運営を支える強力な行動分析ツールです。この種の広告システムは、Google、Facebook、そして数千もの広告主が同様の技術に依存しており、現代のウェブ経済の基盤となっています。しかし、これらのシステムは大部分がブラックホールとなっています。
サイバーセキュリティ企業Confiantのプライバシーエンジニア、ケイリー・マクリー氏による、これら2つのサービスのソースコードの詳細な分析により、システムの仕組みが明らかになりつつある。Confiantの調査結果によると、Yandexの技術は人々に関する膨大なデータを収集しており、そのデータを同社が保有するあらゆる情報と「照合・分析」することで、人々の興味関心を解明できる可能性があるという。
マクレア氏によると、Yandexのコードは、同社が同居人の世帯プロファイルを作成し、人々の特定の興味を予測する方法を示しているという。プライバシーの観点から見ると、今回の発見は「非常に不安を掻き立てる」ものだと彼女は言う。「このタマネギには、不気味な層がいくつも重なっている」と彼女は言う。また、今回の発見は、Yandexがロシア政府支援の通信会社ロステレコムと限定的な情報を共有するための技術を1つ導入していることも明らかにした。
Yandexの最高プライバシー責任者であるイヴァン・チェレフコ氏は、WIREDの質問に対する詳細な書面回答の中で、「コードの断片」は時代遅れで、現在使用されているバージョンとは異なり、ソースコードの一部は「実際には運用に使用されたことがない」と述べています。「Yandexはユーザーデータを新サービスの開発と既存サービスの改善にのみ使用しています」とチェレフコ氏は述べ、「ユーザーの同意なしにユーザーデータを販売したり、第三者に開示したりすることはありません」と付け加えています。
しかし、この分析は、ロシアの巨大IT企業が大きな変化を遂げている中で発表された。2022年2月のロシアによるウクライナへの全面侵攻を受け、ヤンデックスはオランダに拠点を置く親会社をロシア事業から分離する。アナリストたちは、この動きによりロシアにおけるヤンデックスがクレムリンとの結びつきを強め、データが危険にさらされる可能性があると見ている。
「ヤンデックスは、より独立性が高く西側志向の企業というイメージを維持しようと努めてきました。時折、抑圧的な法律や命令に抗議し、外国からの投資やビジネス取引の誘致に貢献してきました」と、デジタル権利擁護団体Access Nowの技術法務顧問、ナタリア・クラピヴァ氏は語る。「しかし実際には、ヤンデックスは独立性を失い、ロシア政府の要求に屈しつつあります。同社の将来は不透明ですが、ロシアに拠点を置く部門は、残されたわずかな独立性さえも失う可能性が高いでしょう。」
データ収集
Yandexのソースコード流出は甚大だ。45GBに及ぶソースコードはYandexの主要サービスのほぼ全てを網羅しており、数千人のソフトウェアエンジニアの作業を垣間見ることができる。データに含まれるタイムスタンプによると、コードは2022年7月頃に作成されたようで、主に一般的なプログラミング言語が使用されている。英語とロシア語で書かれているが、人種差別的な中傷表現も含まれている。(1月に流出した際、Yandexはこれを「極めて不快で全く容認できない」と述べ、コードの一部が自社の社内ポリシーに違反している点を詳細に説明した。)
マクレア氏は、コードの2つの部分、Yandex MetricaとCryptaを手作業で検査した。Metricaは、Google Analyticsに相当するYandexのソフトウェアで、AppMetricaを通じて参加ウェブサイトやアプリにコードを配置し、マウスの動き一つ一つに至るまで訪問者を追跡できる。昨年、50カ国で4万以上のアプリに組み込まれているAppMetricaは、ロシアに送信しているデータの規模がフィナンシャル・タイムズ紙によって報じられた後、米国議会から国家安全保障上の懸念を引き起こした。
マクリー氏によると、このデータはCryptaに取り込まれる。このツールは人々のオンライン行動を分析し、最終的に彼らが興味を持っているものの広告を表示する。同社のウェブサイトによると、300以上の「要素」が分析され、機械学習アルゴリズムが人々の興味に基づいてグループ分けを行う。「Yandexが展開する90以上のアプリやサービスは、何らかの形でこれらの広告セグメントのためにCryptaにデータを送っている」とマクリー氏は言う。
Yandexが収集するデータの一部は、ユーザーがサービスを利用する際に提供されます。例えば、位置情報を共有して地図上に現在地を表示するなどです。その他の情報は自動的に収集されます。Yandexは、ユーザーのデバイス、位置情報、検索履歴、自宅、勤務先、音楽や映画の視聴履歴、メールデータなど、幅広い情報を収集することができます。
ソースコードには、AppMetricaが人々の正確な位置情報(高度、方向、移動速度など)を収集している様子が示されています。マクリー氏は、これが広告にどれほど役立つのか疑問視しています。また、人々が接続しているWi-Fiネットワーク名も取得します。研究者によると、この情報はCryptaに送られ、Wi-Fiネットワーク名がユーザーのYandex IDにリンクされます。場合によっては、複数の異なるIDをリンクしようとすることもあります。
「YandexがMetricaを通じて保有するデータ量は膨大で、想像を絶するほどです」と、2019年にYandexを退社した元エンジニア兼副CTOのグリゴリー・バクノフ氏は語る。「オーディエンスをあらゆるグループ分け、あるいはセグメンテーションするのに十分な量です」。Cryptaによって作成されたセグメントは非常に具体的で、集約された私たちのオンライン生活に関するデータがいかに強力であるかを示している。Yandexのスマートスピーカー「Alice」を使用するユーザー向けの広告セグメント、「映画愛好家」は好きなジャンルごとにグループ分けできる。ノートパソコンユーザー、「地図でRadissonを検索した」ユーザー、そして長期的な関心を示すモバイルゲーマーといったセグメントも存在する。
マクリー氏によると、いくつかのカテゴリーは他よりも目立っているという。「喫煙者」セグメントは、電子タバコなどの喫煙関連商品を購入した人を追跡しているようだ。一方、「夏の居住者」は別荘を所有している人を指している可能性があり、位置情報データを使ってこれを判断している。また、「旅行者」セクションは位置情報データを使って、通常の居住地から別の場所へ移動したかどうかを追跡できる。このセクションには国際および国内のフィールドが含まれている。コードの一部はメールアプリからデータを取得しようとしており、「搭乗券」や「ホテル」に関するフィールドが含まれていた。
マクリー氏によると、こうした情報の一部はオンライン広告では「それほど珍しいものではない」という。しかし、彼女にとって大きな疑問は、パーソナライズされた広告を作成することが「これほどまでに侵入的なレベルの情報」を収集するのに十分な理由となるのかどうかだ。行動ターゲティング広告は長らくウェブ上で人々を追跡し、企業が不気味な方法で人々のデータを吸い上げてきた。規制当局はこの問題を未だに解決できておらず、一方で禁止すべきだと提言する声もある。「他に何ができるかを考えると、そのような計算ができるとしたら、特にロシアでは不気味です」とマクリー氏は言う。彼女は、ロシアを離れようとしている兵役年齢の男性向けのセグメントを作成することは、あり得ないことではないと示唆する。
Yandexのチェレフコ氏によると、ユーザーを興味関心に基づいてグループ化することは「業界標準の慣行」であり、広告主が特定の個人を特定することは不可能だという。チェレフコ氏によると、情報収集によって、例えば「別荘に興味のあるユーザーセグメントにはガーデニング用品、ガソリンスタンドを訪れるユーザーにはカー用品」といった、特定のユーザー層に特定の広告を表示できるようになるという。チェレフコ氏によると、Cryptaはユーザーのオンライン行動を分析し、「特定のグループに属する確率を計算する」という。
「Cryptaでは、各ユーザーは識別子の集合として表現され、システムはそれらを現実世界の自然人と関連付けることはできません」とチェレフコ氏は主張する。「この種の集合はあくまで確率的なものです。」チェレフコ氏はさらに、Cryptaはユーザーのメールアドレスにはアクセスできず、搭乗券やホテルに関するコード内のメールデータは「実験」だったと述べている。チェレフコ氏によると、Cryptaは「メールからカテゴリーに関する匿名化された情報のみを受け取った」とのことで、この手法は2019年以降使用されていないという。また、YandexはAppMetricaによって収集された「ユーザーの位置情報」を14日後に削除するとチェレフコ氏は付け加えた。
流出したソースコードはYandexのシステムがどのように動作するかを詳細に示しているものの、全体像を示すものではありません。Cryptaと同様の分析を行う企業を自ら設立したロシアのデータサイエンティスト兼AI研究者、アルトゥール・ハチュヤン氏は、コードを検査した際に、事前学習済みの機械学習モデルや、Yandexのパートナー企業のデータソースや外部データベースへの参照は発見されなかったと述べています。また、例えば、コードのどの部分が使用されていないのかも明らかではありません。
マクリー氏の分析によると、Yandexは人々に世帯IDを割り当てている。コードには、世帯の人数、性別、高齢者や子供の有無などの詳細が含まれているとマクリー氏は説明する。人々の位置情報は世帯をグループ化するために使用され、IPアドレスが「重複」している場合もグループに含まれるとチェレフコ氏は説明する。このグループ化は広告に利用されるとチェレフコ氏は説明する。「世帯に高齢者がいると仮定すれば、広告主に対し、高齢者にバリアフリー環境を備えた住宅団地を紹介するよう促すことができます。」
このコードは、Yandexが複数のサービスからデータを組み合わせる方法も示している。マクリー氏によると、ある複雑なプロセスでは、Yandexの検索ツール、AppMetrica、そして同社のタクシーアプリから成人の検索データが取得され、その世帯に子供がいるかどうかを予測する。コードの一部は、子供が13歳以上か13歳未満かを分類している。(Yandexのチェレフコ氏によると、子供用シート付きのタクシーを注文できるのは、「子供がいる人にとって興味深い特定のコンテンツに興味がある」兆候だという。)
Cryptaコード内の一つの要素が、このデータがどのように集約されるのかを示している。ユーザーインターフェースは、個人のプロフィールとして機能する。婚姻状況、予想収入、子供の有無、そして家電、食品、衣服、休息といった幅広いトピックを含む3つの興味関心が表示される。チェレフコ氏によると、これは「Yandex社内ツール」であり、従業員はCryptaのアルゴリズムが自分をどのように分類しているかを確認できる。また、アクセスできるのは自分の情報のみだ。「アクセス不正に関連するインシデントは発生していません」と彼は言う。
政府の影響力
ヤンデックスは分割手続きを進めている。2022年11月、オランダに本社を置く親会社Yandex NVは、ロシアのウクライナ侵攻を受け、ロシア事業からの分離を発表した。社名変更を予定する同社は、国際的には自動運転技術とクラウドコンピューティングの開発を計画しており、ロシアにおける検索、広告、その他のサービス事業からの撤退も計画している。この売却計画には、複数のロシア人実業家が関与していると報じられている。(Yandex NVは7月末、年内に株主に対し事業再編案を提案する計画を発表した。)
分離が進む一方で、ロシアはインターネットの統制を強化し、検閲を強化しようとしている。国内の企業や政府機関に対し、国産技術の利用を義務付ける新たな法律が相次いで制定されている。例えば今週、フィンランドとノルウェーのデータ規制当局は、ヤンデックスの国際タクシーアプリがロシアにデータを送信できないようにした。これは、9月に施行される連邦保安庁(FSB)によるタクシーデータへのアクセスを許可する新法に基づく措置だ。
こうした国有化の動きと、ヤンデックスの所有権変更計画が相まって、クレムリンが間もなく同社が収集したデータを利用できるようになるのではないかという懸念が生じている。ロシアのデジタル著作権団体ロスコムスヴォボダの最高技術責任者(CTO)であり、技術開発組織プライバシー・アクセラレーターの創設者でもあるスタニスラフ・シャキロフ氏は、ヤンデックスはこれまで政府によるデータ提供要求に抵抗しようと努め、他社よりも優れた対応をしてきたと述べている(6月には、ロシアの治安機関にデータを提供しなかったとして200万ルーブル(2万4000ドル)の罰金を科された)。しかし、シャキロフ氏は状況は変わりつつあると考えている。「ヤンデックスの国有化が試みられ、その結果、経営陣と方針が変わるだろうと私は考えています」とシャキロフ氏は語る。「そしてその結果、ユーザーデータは現在よりもはるかに大きな脅威にさらされることになるのです。」
WIREDの依頼でマクリーの調査結果の一部をレビューした元ヤンデックスのエンジニア、バクノフ氏は、今後のデータ悪用の可能性を懸念していると述べた。ロシアは「破綻国家」の「新世代」のようだと彼は述べ、同国がテクノロジーをどのように利用するかを強調した。「ヤンデックスはこれらのテクノロジーの大きな部分を担っています」と彼は言う。「何年も前にこの会社を設立した当時、誰もそんなことは考えていなかったのです」。同社のプライバシー責任者であるチェレフコ氏は、再編プロセスにおいて「会社のコントロールは経営陣の手に委ねられる」と述べ、経営陣は「中核原則」に基づいて意思決定を行うとしている。
しかし、流出したコードは、ある小さな事例において、Yandexが既にロシア政府系企業と限定的な情報を共有している可能性があることを示している。Cryptaには、国営ロステレコムを含む通信会社のフィンガープリンティングイベントを同期させる5つの「マッチャー」が含まれている。マクリー氏は、これはフィンガープリンティングイベントがロシア政府の一部にアクセスできる可能性があることを示唆していると述べている。「衝撃的なのは、それが存在していることです」とマクリー氏は言う。「特に衝撃的な内容はありません」(チェレフコ氏によると、このツールは広告の質の向上と精度向上、そして詐欺を企てる詐欺師の特定に利用されているという)。
マクリー氏は、会社に何が起ころうとも、過剰なデータ収集と、状況の変化によってデータがどうなるかについて、多くの教訓が得られると述べている。「永遠に無害なままでいられるものなどないのです」と彼女は言う。
あなたの受信箱に:毎日あなたのために厳選された最大のニュース

マット・バージェスはWIREDのシニアライターであり、欧州における情報セキュリティ、プライバシー、データ規制を専門としています。シェフィールド大学でジャーナリズムの学位を取得し、現在はロンドン在住です。ご意見・ご感想は[email protected]までお寄せください。…続きを読む