コンピューターの画面に表示されている内容は、目で見ることによってしか分からないと思っている人もいるかもしれません。しかし、ある研究チームは、モニターから発せられる意図しない超音波を聞き、分析することで、モニターに表示されている内容について驚くほど多くの情報を得ることができることを発見しました。
火曜日にサンタバーバラで開催されたCrypto 2018カンファレンスで発表されたこの技術により、攻撃者はVoIP通話やビデオチャットなど、画面の近くで撮影されたライブストリーミングや録画を解析することで、あらゆる種類のステルス監視を開始できるようになる。そこから、攻撃者は音響漏れに基づいてモニターに表示されているコンテンツに関する情報を抽出できる。特に低品質のマイクを使用している場合、距離によって信号は劣化するが、研究者たちは場合によっては最大9メートル離れた場所から撮影された録画からモニターからの放射音を抽出できた。
「私たちの物理的な環境における予期せぬ出来事に敏感になり、私たちが使っているガジェットの背後にある物理的なメカニズムを理解することが、この研究から得られる教訓だと思います」と、テルアビブ大学とコロンビア大学で暗号学とシステムセキュリティを研究し、この研究に参加したエラン・トロマー氏は述べている。音漏れは「今回のケースでは設計者が意図していなかった現象ですが、実際に存在しており、セキュリティ上の脆弱性を形成しています」
この攻撃は、「物理サイドチャネル」と呼ばれるデータ漏洩によって可能になります。これはソフトウェアのバグではなく、コンピュータのハードウェアと処理するデータ間の不用意な相互作用によって情報が漏洩することによって引き起こされます。モニターの調査では、ミシガン大学のダニエル・ジェンキン氏、ペンシルベニア大学のミヒル・パタニ氏、テルアビブ大学とコーネル工科大学のローイ・シュスター氏を含む研究者たちが、多くの画面の電源ボードが電流を調整する際に、高音または聞こえない音を発することを発見しました。この音は、画面のコンテンツレンダリングプロセッサからの電力需要の変化に応じて変化します。ユーザーデータと物理システムとのこの接続は、予期せぬスヌーピングの機会を生み出します。
「ある日、私は何行にもわたる、ことわざにあるような小さな文字で書かれた、特に退屈な法律契約書に目を通していました」とトロマー氏は語る。「あまりにも小さかったのでズームインしてみたところ、部屋の周囲の雑音が何か変化していることに気づきました。そこでズームアウトしてみると、音も元通りになりました。しばらくして、画像の周期性が音の周期性に影響を与えていることに気づきました。」
研究者たちは様々なサイズの液晶モニターを数十台テストし、その全てで何らかの音響放射を発見しました。テストモデルは2003年から2017年まで製造されたもので、ほぼすべての主要メーカーから提供されていました。
すべての電子機器は唸り音を発しますが、特にモニターは攻撃者にとって特に有効な音響放射を発します。「モニターの特徴は、高周波であるため、より多くの変調情報を乗せることができることです」とシュスター氏は言います。「そして、モニターは画面の情報という、何か敏感なものによって変調されているのです。」
超音波音を確認した後、研究者たちは次に、それらに基づいて情報を抽出しようと試みました。白と黒の線または塊が交互に現れる様々なパターンを生成するプログラムを構築し、それらが切り替わる際に音声を録音しました。確固たるデータ基盤が得られたところで、人気のウェブサイト、Googleハングアウト、そして人間の顔を表示しながら測定を行い、録音の中でそれらを区別できるかどうかを確認しました。

ゼブラストライプパターンが表示されている画面からの信号のスペクトログラム。チェックポイント情報セキュリティ研究所
研究チームはこれらの情報すべてを機械学習アルゴリズムに学習データとして入力し、録音に記録された不可聴な音に基づいて、画面に表示されている内容の翻訳精度を向上し始めました。一部のシマウマ模様やウェブサイトでは、90~100%の精度を達成しました。さらに、機械学習モデルがこれまで経験したことのない画面の録音から、システムが意味のあるデータを抽出できる場合もあることに気づき始めました。
「たとえ攻撃者が特定のモニターモデルを訓練できなかったとしても、攻撃が成功する可能性は依然として非常に高い」とシュスター氏は言う。
その後、研究チームは研究を拡大し、画面上の文字や単語を解読できるようにシステムを訓練しました。これははるかに困難なタスクですが(単語はウェブサイトのレイアウトのような信頼できる視覚パターンには従いません)、研究者たちは大きなフォントで書かれた単語については信頼できる結果を生成することができました。ジェンキン氏が指摘するように、白い画面上の黒い単語は多くの点でシマウマの縞模様に似ており、単語の組み合わせは無数にあるものの、システムが学習できるローマ字の文字はわずか26文字です。
研究者たちは、スマートフォンのオンスクリーンキーボードで入力された内容をある程度正確に検出できることにも気付きました。一般的に、デジタルキーボードはメカニカルキーボードよりも安全だとされています。メカニカルキーボードは、音響の放出によって入力内容が漏れてしまう可能性があるためです。しかし、オンスクリーンキーボードも音響サイドチャネル攻撃の影響を受けないわけではありません。
研究者たちは一部の実験で高品質のスタジオマイクを使用しましたが、主にウェブカメラやスマートフォンに搭載されているような民生用マイクに焦点を当てました。その結果、画面からの音響放射を抽出するにはこれらのマイクで十分であることが分かりました。例えば、攻撃者がビデオチャット中の相手の画面を監視したい場合、相手のマイクから出力される音声を録音するだけで済みます。
インタビューのような別のシナリオでは、攻撃者はスマートフォンを隣のテーブルや椅子に置き、面接官が攻撃者から背を向けた画面を見ている間に、部屋の騒音を録音することができます。研究者らはまた、スマートアシスタントデバイスのマイクがモニターからの放射を拾う可能性があることを指摘しています。そのため、これらのガジェットを画面の近くに置いておくと、スマートアシスタントがクラウド処理プラットフォームに送信する音声の断片には、モニターからの放射が含まれている可能性が高くなります。また、画面からの音響漏洩は主に超音波であるため、大音量の音楽や話し声などの可聴ノイズは、マイクの音拾い能力に影響を与えません。
研究者たちは、これはこうした攻撃を軽減する上でのより大きな課題を示唆していると述べています。画面からの放射を妨害するような広範囲の無線周波数でほとんどの空間を覆い尽くすのは現実的ではありません。メーカーはモニター内部の電子部品をより適切に保護することはできますが、コストが増大します。別のアプローチとしては、モニターが処理している情報を操作し、識別を困難にするソフトウェア対策を開発することが挙げられます。しかし、そのためにはすべてのアプリケーションにこれらの対策を組み込む必要があり、研究者たちは現実的ではないと認めています。しかし、少なくともブラウザや頻繁に使用されるビデオチャットプログラムについては検討する価値があるかもしれません。
ハッカーにとって、この種の音響スクリーン攻撃は、フィッシングやマルウェア感染よりもはるかに複雑で手間がかかることは明らかです。しかし、研究者たちは、達成できた精度に驚き、意欲的な攻撃者であれば機械学習技術をさらに改良できる可能性があると述べています。多くのスクリーンが意図せずこれらの信号を漏洩しているため、熟練した攻撃者と攻撃に挑戦する意欲のある攻撃者にとって、世界はまさに遊び場です。
WIREDのその他の素晴らしい記事
- たった一つのコード、NotPetyaがいかにして世界を崩壊させたのか
- イーロン・マスクはロサンゼルス・ドジャースのファンを交通渋滞から救う計画を持っている
- 山火事の煙は予想外の場所でも死をもたらす
- フォトエッセイ:ケニアのシリコンサバンナの技術者たち
- 無線周波数の奇妙なダビデとゴリアテの物語
- 毎週のBackchannelニュースレターで、さらに多くの内部情報を入手してください。