
レコードのスクラッチ 静止画「どうしてここに来たのか不思議に思われるかもしれませんね…」ジェフ・オーバーズ/BBCニュース&カレントアフェアーズ、ゲッティイメージズ経由
英国のGOV.UKポータルは、 Netscape Navigator 2.0が最先端だった頃からオンラインになっています。この度、国立公文書館のプロジェクトにより、この膨大な歴史的コンテンツへのアクセス性を向上させるため、22年分の政府ウェブサイトがクラウドに移行され、再インデックス化され、更新された英国政府ウェブアーカイブを通じて検索可能になりました。
このアーカイブは、公開されている歴史的なウェブコンテンツのみで構成されているため、予期せぬ国家機密が見つかる可能性は低いでしょう。しかし、英国政府の公式コミュニケーションにおける政策や姿勢の変遷に関する貴重な歴史的洞察を提供し、政府出版物の詳細に関心のある人にとっては、豊富な情報源となっています。
例えば、「Brexit」を検索すると 19,043 件の結果が見つかり、その最初のものは、当時の首相デイビッド・キャメロンが政府が EU 加盟に関する国民投票を実施すると発表した 3 か月後の 2013 年 4 月に作成された高等教育資金のプレゼンテーションの 2014 年のアップロードです。
気候変動については、GOV.UKの記録が始まった1996年から、環境庁による水資源管理に関するプレスリリース1件を筆頭に、読むべき情報が豊富にあります。このプレスリリースには、「気候変動の影響に関する研究結果は、水資源の収量への影響を評価するために環境庁によって研究されている」と記されています。ちなみに、2016年には、アーカイブ文書でこの用語に完全一致する検索件数は1,141,844件でした。
このアーカイブは、2002年9月に公表されたイラク文書などの資料を備えており、当時近代史の出来事がどのように伝えられていたかを知る上で特に貴重である。この文書は、イラクが大量破壊兵器を保有しているという主張(後に誤りであることが判明)を掲げ、2003年のイラク侵攻を促した。
歴史の保存
この新しいアーカイブの作成は容易ではありませんでした。2週間かけて、英国政府がアーカイブしたGOV.UKウェブデータ120TBが、72台の2テラバイトハードディスクから2台のAWS Snowball物理転送デバイスに転送され、その後、国立公文書館のウェブサイトとコンテンツがホストされているAmazon UKクラウドストレージ施設の1つに送られました。
マンチェスターを拠点とするアーカイブ会社ミラーウェブが実行したこの作戦では、8台のドライブを同時に接続できる特別に作られた2台のPCが使用され、一度に16台のドライブのデータが復号化され、最終的にアマゾンの英国データセンターに発送される際にスノーボールに載せて輸送できるように再暗号化された。
次のステップは、膨大なデータキャッシュのための全く新しい検索インデックスとインターフェースを構築することでした。PDFからソーシャルメディアの投稿、古くなったマルチメディア要素が埋め込まれたウェブページまで、合計14億ものドキュメントが保存されていました。すべてをインデックス化し、フルテキスト検索可能にする必要があり、MirrorWebは新たなツールを開発する必要がありました。
「従来のHadoopツールの使用も検討しましたが、クラウドに保存されたビッグデータセットには実用的ではないことがわかりました」とMirrorWebのCTO、フィリップ・クレッグ氏は説明します。「そこで、線形に拡張でき、1時間あたり1億4,700万件以上のドキュメントをインデックスできる独自のクラウドネイティブソリューションを開発することにしました。」
結果は成功しました。「120TBのコレクション全体をインデックス化するために、1,000ノード以上のコンピュータークラスターを立ち上げ、わずか数日でコレクション全体を処理できました」と、国立公文書館のデジタルディレクター、ジョン・シェリダン氏は付け加えます。
アーカイブは今後も拡大を続ける予定です。MirrorWebは現在、政府コンテンツをスパイダーするための新しいクローラーを開発中です。これには機械学習とAIが組み込まれており、コンテンツの自動検出と問題のあるサイトコンテンツの修正を行います。
何が足りないですか?
新しいアーカイブは、好奇心旺盛な人たちが期待するほど網羅的ではありません。例えば、政府の公式ソーシャルメディアチャンネルはアーカイブされていますが、Twitterのアーカイブは2016年3月8日までしか保存されていません。つまり、今年3月にセルゲイ・スクリパリ氏とユリア・スクリパリ氏の毒殺事件でポートンダウン研究所が「軍用ノビチョク神経剤」の使用を特定したという、外務省が急遽削除した主張を探すことができませんでした。
比較すると、「Your Vote Matters」などの政府の公式サイトのアーカイブは、つい最近の2018年まで遡ります。
MirrorWeb の Philip Clegg 氏は、この矛盾は「すべてのアーカイブは、一般向けのアーカイブとして公開される前に、政府の品質保証 (QA) の事前承認を受ける必要がある」ためだと述べている。
GOV.UK の公式削除ポリシーでは、コンテンツが「誤って公開された場合」または「健康、財政、評判にリスクをもたらす可能性がある場合」には削除される可能性があることから、この不名誉なツイートが公式に返されることはないだろうと予想するのはおそらく間違いないだろう。
インタラクティブコンテンツは、国立公文書館も認めているように、多少の不安定さが見られました。環境庁の2002年エデュテインメントサイトに掲載されていたような初期のMacromedia Shockwaveゲームは読み込みを試みましたが、コンテンツが欠落していたり、Adobe Shockwave Playerの最新バージョンと互換性がなかったりしました。
しかし、それは変わりつつあります。クレッグ氏によると、最終的な計画は「最新のブラウザでサポートされていないレガシープラグインやソフトウェアを含め、究極の忠実性を実現すること」だということです。これは、ウェブの消えゆく歴史をアーカイブする上で、非常に重要でありながら、しばしば見落とされがちな側面です。
この記事はWIRED UKで最初に公開されました。