ウェブ検索は日常生活にすっかり浸透しているため、その素晴らしさを忘れてしまいがちです。小さなテキストボックスに入力するだけで、巨大なデータセンター、貪欲なウェブクローラー、そしてクエリを解析する膨大なアルゴリズムといった複雑なテクノロジー群が動き出し、関連性の高いシンプルな検索結果を提供してくれます。
少なくとも、それが考え方だ。生成型AIの時代は、ウェブが主に人間によって書かれていた時代に設計されたアルゴリズムを欺くことで、ウェブ検索の歯車に認識論的な砂を撒き散らす恐れがある。
今週、1940年代の情報理論研究で特に知られる、優れた数学者でありエンジニアであるクロード・シャノンについて学びました。マイクロソフトの検索エンジン「Bing」は、シャノンが検索アルゴリズムの出現も予見していたことを教えてくれました。1948年に発表されたシャノンの研究論文「検索の小史」は、「検索アルゴリズムの歴史とその進化の歴史を概説した、コンピュータサイエンス分野における画期的な研究」と評されています。
優れた AI ツールと同様に、Bing は事実を確認したことを示す引用もいくつか提供しています。

マイクロソフトの Bing 検索エンジンは、数学者クロード・シャノンが書いたことのない研究論文に関する情報を、あたかも真実であるかのように表示しました。
マイクロソフト(ウィル・ナイト経由)ただ一つ大きな問題がある。シャノンはそのような論文を書いておらず、Bing が提示する引用文献は、Inflection AI の Pi と Anthropic の Claude という 2 つのチャットボットによる捏造 (生成 AI 用語では「幻覚」) である。
Bingに虚偽の情報を提示させるこの生成AIの罠は、カリフォルニア大学バークレー校でウェブ検索の博士号を最近取得したダニエル・グリフィン氏によって、全くの偶然に仕掛けられたものでした。7月、彼はボットからの捏造された応答を自身のブログに投稿しました。グリフィン氏は両方のボットに「クロード・E・シャノンの『検索の小史』(1948年)を要約してください」と指示していました。彼はこれを、大規模言語モデルの最悪の部分を引き出すクエリの好例だと考えました。なぜなら、このクエリは学習データに存在する既存のテキストに類似した情報を求めるため、モデルが非常に自信に満ちた発言をするように仕向けるからです。シャノン氏は1948年に「コミュニケーションの数学的理論」と題した非常に重要な論文を執筆しており、これは情報理論分野の基礎を築くのに貢献しました。
先週、グリフィン氏は自身のブログ記事とこれらのチャットボット検索結果へのリンクが、意図せずしてBingを偽情報で汚染していたことを発見した。ふと思いついて同じ質問をBingに入力してみたところ、自分が誘導したチャットボットの幻覚が、Wikipediaから引用された情報と同じように検索結果の上部に強調表示された。「これらの検索結果のいくつかが、実際には法学修士(LLM)との会話に直接誘導していることを、ユーザーには全く示していない」とグリフィン氏は述べている。(WIREDは当初、この問題となったBingの検索結果を再現できたが、Microsoftに問い合わせた結果、問題は解決したようだ。)
グリフィン氏の偶然の実験は、ChatGPT型AIの導入を急ぐあまり、この技術に精通した企業でさえも足を引っ張っていることを示している。そして、こうした優れたシステムの欠陥が、何百万人もの人々が毎日利用するサービスに悪影響を及ぼしかねない。
検索エンジンがAI生成テキストを自動的に検出するのは難しいかもしれません。しかし、マイクロソフトは、チャットボットのトランスクリプトから抽出されたテキストが強調スニペットにならないようにしたり、特定の結果や引用がアルゴリズムによって生成されたテキストで構成されていることを示す警告を追加したりするなど、基本的な安全策を実装できたはずです。グリフィン氏はブログ記事に免責事項を追加し、シャノンの検索結果は誤りであると警告しましたが、Bingは当初これを無視したようです。
WIREDは当初、問題となっていたBingの検索結果を再現することができました。しかし、現在は解決されたようです。マイクロソフトの広報ディレクター、ケイトリン・ロールストン氏によると、同社はBingを調整し、定期的に検索エンジンを微調整することで、権威の低いコンテンツが表示されないようにしているとのことです。「このようなコンテンツが検索結果に表示される状況はいくつかあります。多くの場合、ユーザーがそのコンテンツを見たいと明確に意図している場合や、ユーザーが入力した検索語句に関連するコンテンツがたまたま権威の低いものだけである場合です」とロールストン氏は言います。「こうした問題を特定するためのプロセスを開発し、それに応じて検索結果を調整しています。」
ノースカロライナ大学チャペルヒル校の助教授、フランチェスカ・トリポディ氏は、検索結果が少ない検索クエリ(いわゆる「データボイド」)が結果操作に利用される可能性を研究している。彼女は、大規模言語モデルも同じ問題の影響を受けると指摘する。なぜなら、大規模言語モデルはウェブデータで学習するため、学習データに答えがない場合、幻覚反応を起こしやすいからだ。近い将来、AIが生成したコンテンツを使って意図的に検索結果を操作する人々が現れるかもしれないとトリポディ氏は指摘する。グリフィン氏の偶然の実験は、この戦術が強力になる可能性を示唆している。「不正確な情報が増えていくでしょうが、これらの不正確な情報は、それほどコンピューターに精通していなくても、悪用される可能性があります」とトリポディ氏は言う。
WIREDでさえ、ちょっとした検索の裏技を試した。私は「ウィル・ナイトの記事『猫の脳を使ったGoogleの秘密AIプロジェクト』を要約して」と入力するだけで、Piに自分の偽記事の要約を作成させた。GoogleはかつてYouTubeで猫を認識するAIアルゴリズムを開発したことで有名だが、おそらくそれが、チャットボットが私のリクエストをトレーニングデータからそれほど離れていないものとして認識させたのだろう。グリフィンは自身のブログに結果へのリンクを追加した。これもまた、Bingによって奇妙なインターネット史の1つとして取り上げられることになるのだろうか。
SEOページ、ソーシャルメディアの投稿、ブログ記事がAIの助けを借りて作成されるケースが増えるにつれ、AIコンテンツによって検索結果が悪化するという問題はさらに深刻化する可能性があります。これは、生成型AIがアルゴリズムのウロボロスのように自らを蝕んでいる一例に過ぎないのかもしれません。
グリフィン氏は、AIを活用した検索ツールが業界に革命をもたらし、ユーザーの選択肢を広げることを期待していると述べた。しかし、Bingで彼が陥った偶然の落とし穴と、人々がウェブ検索に大きく依存していることを考えると、「非常に現実的な懸念もある」と彼は言う。
このテーマに関する彼の「先駆的な研究」を考えると、シャノンはほぼ間違いなく同意するだろうと思う。