パンドラ文書の流出には2.94テラバイトという膨大なデータが含まれており、その内容を解読するのは容易なことではありませんでした。

ワイヤード
パンドラ文書は世界を揺るがした。10月3日に報道機関が衝撃的な内容を公開し始めて以来、この大規模なリークはニュースの見出しを独占し、世界で最も影響力のある人物たちとその財務状況に疑問を投げかけている。
英国の元首相トニー・ブレア氏からヨルダン国王に至るまで、誰もがオフショア金融の闇の世界に引きずり込まれ、衝撃的な疑惑が日々明るみに出ています。オフショア金融商品や金融機関の取り締まり強化、そしてより公平な税制の導入を求める声が上がるのは、今回が初めてではありません。
パンドラ文書の暴露は、計り知れないほど膨大な量の文書から生じた。その総量は2.94テラバイト、1970年代に遡る1190万件の記録と文書だ。しかし、文書のサイズや形式は様々で、中には50年も前のものもある中で、これほどの規模の大規模な漏洩を安全に処理するにはどうすればいいのだろうか?
パンドラ文書流出事件の背後にある組織、国際調査報道ジャーナリスト連合(ICIJ)は、1年近くを費やし、117カ国150のメディアからの同時報道を調整してきた。金融問題に関するニュースを明るみに出すには、膨大な技術インフラが必要となる。「14のオフショアプロバイダーからデータを入手しました」と、ICIJのベルギー人データジャーナリスト兼研究員であるデルフィーヌ・ロイター氏は語る。データ分析作業は2020年11月に開始された。
「最初の課題はデータの入手でした」と、ICIJの最高技術責任者(CTO)ピエール・ロメラ氏は説明する。「情報提供者と何週間も何ヶ月もやり取りし、ある時点でデータを入手する方法を見つけなければならなくなりました。」当初、ICIJは情報提供者と契約を結び、彼らが出張することなく遠隔でデータを送信できるようにした。しかし、流出した文書の量が増加するにつれて、すべての情報を安全なサーバーに送信することがより確実に行えるようにすることが困難になった。ICIJチームのメンバーの中には、情報提供者と直接会い、文書が入った巨大なハードドライブを回収した者もいた。
しかし、漏洩したデータの規模の大きさは、依然として扱いを困難にしていた。「膨大な量です」とロメラ氏は言う。これほどの量のデータを分析するのは、Excelや既存のデータベース管理プログラムでは到底できない。「従来のツールだけでは到底対応できません。ジャーナリスト向けにこれほどの量のデータを処理できるツールは市場に存在しません」。さらに悪いことに、ファイルのうち400万件はPDFファイルであり、これは調査が非常に難しいことで悪名高い。「PDFから情報を抽出するのは最悪です」とロイター氏は言う。しかも、それらは普通のPDFではなかった。一見無関係に見える文書が、何の脈絡もなく1つのPDFファイルにまとめられていたのだ。「私たちが求めていた情報の中には、取締役のコピーやメールアドレス、登記簿などが含まれている可能性もあったのです」と彼女は付け加えた。
しかし、ICIJは膨大な情報量の解析に実績を積んできた。2016年に1150万件以上の漏洩文書と2.6テラバイトのデータから不正なオフショア金融業界の実態を暴いたパナマ文書は、調査報道ジャーナリスト連合に、膨大なデータを扱うためのベストプラクティスを提供した。「テキストを抽出し、検索可能にするための独自のツールと技術を開発しました」とロメラ氏は語る。この作業は、ICIJのシニア開発者であるブルーノ・トーマス氏を含むチームに委ねられ、世界中の多くの記者がアクセスできるようにデータを準備した。
ICIJは、文書を精査するために、自社開発の2つの技術を組み合わせました。1つはExtractで、複数のサーバー間で情報抽出の計算負荷を分散できます。「数百万もの文書がある場合、Extractは1つのサーバーに1つの文書を参照させ、別のサーバーに別の文書を参照させるように指示できます」とロメラ氏は述べています。Extractは、ICIJのより大規模なプロジェクトであるDatashareの一部であり、これはデータ構造化ツールです。「誰もが文書を閲覧するにはDatashareを使用する必要があります」とロイター氏は言います。「文書を自分のマシンにダウンロードすることはできますが、1190万件もの文書をシステムなしで精査することは不可能であるため、文書の検索にはDatashareを使用する必要があります。」
Datashare が不可欠だったのは、パンドラ文書の一部として ICIJ が受け取った 1,190 万件のファイルのうち、構造化されていたのはわずか 4% だったためです。つまり、スプレッドシートや CSV ファイルなどの表ベースのファイル形式で整理されていました。これらの構造化ファイルは、処理や照会がはるかに簡単です。電子メール、PDF、Word 文書はデータを探すのがより困難です。290 万件あった画像は、計算的に分析するのがさらに複雑です。Datashare は、オープンソース システムである Tesseract による光学式文字認識 (OCR) で PDF ファイルをスキャンするなど、すべての文書を解析します。Apache の Tika Java フレームワークは、すべての文書からテキストを抽出するために使用されました。「Tika は 50 種類以上の文書を処理できます」と Thomas 氏は言います。Tika が抽出したデータは、最終的にエンド ユーザーが Datashare を介してアクセスします。
何らかの構造がなければ、ICIJがパンドラ文書の調査に協力した600人のパートナージャーナリストは、アクセスできる数百万ものファイルの中から、ニュース価値のある情報の核を特定するのに苦労するでしょう。「最初のステップは、データを入手し、検索可能にすることです」とロメラ氏は言います。
ICIJは、データシェアへのアクセスを提供するだけでなく、プロジェクト開始時に各国のニュース価値のあるニュースへのリンクを提供することで、作業の負担を軽減しようと努めています。ICIJのチームは「国別リスト」を作成しました。これは、対象となる国や人物が文書に登場した回数をリスト化したもので、国別に特定された後、パートナー各社に連絡を取り、その国に関連する人物のリストがあることを伝えます。
Datashareがこうした名前リストを抽出する方法の一つは、バッチ検索です。ICIJは、文書を照会したい人がCSV形式で名前リストや様々なクエリを入力するだけで、文書自体のメタデータと照合できるツールを開発しました。「これは非常に便利です。情報が既に構造化されているので、結果をCSV形式で任意のスプレッドシートソフトにエクスポートして確認できるからです」とロイター氏は述べています。ICIJはまた、機械学習を用いて文書を大まかなクラスターに分類し、例えば会社設立に関する文書、個人的な手紙、あるいは他の文書の複製などを区別するのに役立てています。
「グラフデータベースは、大規模なデータ関係性の発見に優れています」と、ICIJが製品を使用しているグラフテクノロジー企業Neo4jのCEO、エミル・アイフレム氏は述べています。グラフデータベースは、データを人為的に分割するのではなく、人間の情報に関する思考方法をより忠実に模倣します。「データモデルがスケーラブルなアーキテクチャでコーディングされれば、グラフデータベースは巨大で複雑なデータセットにおける関連性のマイニングにおいて比類のない能力を発揮します」とアイフレム氏は言います。
データの分類と調査は「パナマ文書やパラダイス文書よりもはるかに困難だった」とロメラ氏は語る。データセットの規模はこれら2つの漏洩文書と同程度だが、個々の文書のページ数はパナマ文書の約10倍とかなり大きい。「これまで文書の検索に使用していたシステムは、これほど膨大な量の巨大文書を処理できるほど強力ではなかった」とロメラ氏は語る。その結果、ICIJはこれらの新しいファイルを処理するために、サーバーの構成と検索ツールの動作方法を改善する必要があった。「1万ページに及ぶ巨大なPDFファイルもあった」とトーマス氏は語る。「それらのPDFファイルをページに分割し、それらのページを論理的な形式にまとめ、構造化されていないデータから実質的所有者やその国籍などのデータを抽出する必要があったのだ。」
さらに、パンドラ文書にはより幅広いファイル形式とフォーマットが含まれていたため、ICIJが以前使用していた機械学習システムは、それらを解析・識別し、分類するためにそれらを学習する必要がありました。「今では、非常に特殊な金融文書やPDFも読み取ることができます」とロメラ氏は述べています。
約600名のパートナージャーナリストは、安全な認証プラットフォームを介してICIJのファイルにアクセスし、データを精査しました。ICIJとの連絡には、PGPによるメール暗号化と多要素認証が用いられています。サーバーへのアクセスには最大60台が稼働しており、ファイルのインデックス作成時には80台にまで拡張可能です。SSLクライアント証明書も、パートナージャーナリストにとって必須でした。「パートナーにとって、私たちのサーバーに接続するだけでも大変な場合があります」とロメラ氏は認めています。しかし、データにアクセスできるようになれば、メディアパートナーは独自の分析を行うことができます。データ共有APIを利用することで、メディアパートナーに所属するデータサイエンティストは、独自のスクリプトや機械学習ツールを使用して、パンドラ文書内の文書を独自にマイニングすることができます。
「常にあらゆる事態に備えていなければなりません」とロメラは言う。「あまりにも多くのことが懸かっているので、パラノイアに陥ってしまうこともあるんです。」
これには十分な理由がある。ICIJは、先週、彼らとそのパートナーがパンドラ文書に名前が挙がった政治家や実業家に記事の執筆依頼を始めて以来、パンドラ文書をホストするサーバーへの侵入の試みが少なくとも2回あったと考えている。「コメント文書を送り始めるとすぐに、サーバーへの攻撃が始まりました」とロメラ氏は語る。10月1日、ICIJのウェブサイトは分散型サービス拒否(DDoS)攻撃を受け、1分間に600万件のリクエストが殺到したとロメラ氏は語る。10月3日にも、サーバーが異常な挙動を見せ始めた際に、攻撃とみられる別の攻撃が発生した。現在、この件について調査中だ。「サーバーがおかしくなったと思われる場合、優先すべきは修復することであり、システム内の誰かを見つけることではありません」とロメラ氏は言う。「侵入があったかどうかを確認するために調査しています。」
また、これはICIJの標準的な業務手順の重要性を改めて示すものでもある。ICIJの標準的な業務手順では、最初のニュースが報道されてから数週間以内にパートナーの文書へのアクセスを停止し、第三者からの安全でない連絡を通じて悪意のある人物が侵入できないように、アクセス取得への関心を再度表明するよう求めている。
WIREDのその他の素晴らしい記事
- ☀️ WIREDの気候ブリーフィングにサインアップ: ゼロを追い求めよう
- 手遅れになる前に英国のリチウム資源を全て手に入れる競争
- ギフトをお探しですか?2021年のギア・オブ・ザ・イヤーを厳選しました
- 彼らは辞めた。そして今、仕事に戻りたいと願っている
- 絶対にクリアできない最高のゲーム
- Facebookアカウントがハッキングされたらどうすればいい?
- 魚が次の工場型養殖の悪夢となるのを阻止するための競争
- 🔊 WIREDポッドキャストを購読しましょう。毎週金曜日に新しいエピソードを公開します。
この記事はWIRED UKで最初に公開されました。
クリス・ストークル=ウォーカーはフリーランスジャーナリストであり、WIREDの寄稿者です。著書に『YouTubers: How YouTube Shook up TV and Created a New Generation of Stars』、『TikTok Boom: China's Dynamite App and the Superpower Race for Social Media』などがあります。また、ニューヨーク・タイムズ紙、… 続きを読む