電気技師のギルバート・ヘレラ氏は、米国のテクノロジー業界でAI革命が起こりつつあった2021年後半に、米国国家安全保障局の研究ディレクターに任命された。
NSA(時には「No Such Agency(そんな機関ではない)」の略称で冗談めかして言われることもある)は、長年にわたり数学とコンピュータサイエンスの優秀な人材を採用してきた。その技術リーダーたちは、高度なコンピューティングとAIをいち早く熱心に活用してきた。しかし、メリーランド州フォートミードにあるNSA本部からヘレラ氏が電話で最新のAIブームの影響について語った際、他の多くの機関と同様に、NSAもChatGPTをはじめとするヒットAI製品の基盤となる大規模言語モデルの最近の成功に驚いているようだった。会話は、読みやすさと長さを考慮して若干編集されている。

ギルバート・ヘレラ国家安全保障局提供
ChatGPT の瞬間は NSA にとってどれほど大きな驚きだったのでしょうか?
ああ、最初の質問は「NSAは契約の箱から何を学んだのか?」だと思っていましたが、これは1939年頃からずっと聞かれる質問です。ぜひ教えてあげたいのですが、できません。
ChatGPT の瞬間から誰もが学んだことは、十分なデータと十分なコンピューティング リソースを AI に投入すると、これらの新たな特性が現れるということだと思います。
NSAは、人工知能を、コンピューティングによる自動化とミッション遂行の長い歴史における最先端技術と捉えています。AIは、よりスマートに、より迅速に、そして大規模に業務を遂行するための手段として長年考えられてきました。そのため、私たちは20年以上にわたり、この瞬間に至るまでの研究に取り組んできました。
大規模言語モデルは、生成的事前学習(GPT)モデルが登場するずっと前から存在していました。しかし、この「ChatGPTの瞬間」、つまり、ジョークを書いてもらうように頼んだり、会話に参加したりできるようになる瞬間こそが、私たちや他の研究者がこれまで行ってきた研究と大きく異なる点です。
NSAや米国の同盟国におけるNSAの同等の機関は、1970年代の公開鍵暗号のように、誰よりも早く重要な技術を開発しながらもそれを秘密にしてきたことがあります。大規模言語モデルでも同じようなことが起こったのでしょうか?
NSAでは、このような大規模なトランスフォーマーモデルを作ることは不可能でした。なぜなら、データを利用できなかったからです。アメリカ国民のデータは使えません。もう一つは予算の問題です。あるポッドキャストで、マイクロソフトの決算説明会の内容を誰かがシェアしていたのですが、プラットフォーム費用に四半期あたり100億ドルを費やしているとのことでした。[2023年の米国の諜報予算は総額1000億ドルでした。]
数百億ドル規模の資本投資を行うのに十分な資金を持ち、こうした創発的な特性を生み出す可能性のあるデータにアクセスできる人々こそが、真の意味での真のリーダーです。つまり、個人のプライバシーを気にせず、個人情報保護法に従う必要もなく、データの盗難にも問題を感じないのは、ハイパースケーラー(大手クラウド企業)や、場合によっては政府です。それが誰なのかは、皆さんの想像にお任せします。
そうなると、NSA、そして米国は、情報収集と処理において不利な立場に立たされるのではないだろうか?
少し反論させてください。私たちにとって大きな不利にはなりません。ある程度は回避策が必要ですが、それについては後ほど説明します。
国家を標的とする私たちの任務にとって、これは大きな不利ではありません。他の用途を見れば、国内情報を扱う一部の同僚にとってはより困難になるかもしれません。しかし、情報機関は、商用言語モデルを使用し、プライバシーと個人の自由を尊重する方法を見つける必要があります。[NSAは国内情報の収集を禁じられていますが、複数の内部告発者がNSAが米国のデータを盗用していると警告しています。]
市販の大規模言語モデルは NSA にとってどのように役立つのでしょうか?
これらの大規模モデルが特に優れていることの一つは、リバースエンジニアリングとサイバー防御の自動化です。そして、これらの機能は、個人のプライバシーに関する法律に過度に制約されることなく実現できます(それほど機密性が高くないソフトウェアコードで学習できるため)。
例えば、GPTのような技術を使ってアナリストのデータ分析を支援する、アナリスト向けの「副操縦士」を作りたいとします。もしそれを実現したいとしたら、アメリカ文化と英語の分析スキルを備えた人材が必要になりますが、(米国のデータへのアクセスに関する)様々な法律を考えると、実現は非常に困難です。
仮に、RAG(検索拡張生成、言語モデルが信頼できる情報を要約してクエリに応答する技術)のようなものを使い、LLM を利用してコンプライアンス検査を通過したデータのみを調べることができるかもしれません。
この法律は NSA における言語モデルの開発をどのように複雑化するのでしょうか?
諜報機関がGPT-10のようなものを再現するのは難しいでしょう。なぜなら、彼らがどれだけの投資を行っているかは既に分かっているからです。そして、彼らはデータを使って、政府内では誰も思いつかないようなことを実行できるのです。
AIの広範な利用は米国にとって新たな安全保障上の問題を引き起こすでしょうか?
ChatGPTのリリース初日から、フィッシング攻撃の精度向上が実証されました。成功率が10万分の1から1万分の1に改善されたとすれば、これは桁違いの改善です。人工知能は、製品の使用におけるマージンや不確実性の定量化を気にする必要がない人に、常に有利に働くでしょう。
AIは情報セキュリティの新たな領域を切り開くのでしょうか?
これらは巨大な新たなセキュリティ脅威となるでしょう。それが、私たちがAIセキュリティセンターを設立した理由の一つです。モデルに危害を加える方法はたくさんあります。モデルを盗んでエンジニアリングすることも可能ですし、モデルから個人データの一部を盗み出そうとする反転攻撃もあります。
AIセキュリティにおける第一の防御線は、優れたサイバーセキュリティです。つまり、モデルを保護し、そこに含まれるデータを保護し、盗難や改ざんから保護することを意味します。