困惑はでたらめマシン

困惑はでたらめマシン

WIREDの調査により、AI搭載の検索スタートアップ企業Forbesがコンテンツを盗んだとして告発され、密かに情報を収集し、事実を捏造していたことが判明した。

アニメーション:ジャッキー・ヴァンリュー、ゲッティイメージズ

Perplexity の大胆な野望と、ジェフ・ベゾス氏のファミリーファンドである Nvidia、有名な投資家のバラジ・スリニバサンなどから受けた投資を考慮すると、この AI 検索スタートアップが実際どのような企業なのかは驚くほど不明瞭だ。

今年初め、PerplexityのCEOであるアラヴィンド・スリニヴァス氏はWIREDの取材に対し、同社の製品(自然言語で質問に答え、同社によればリアルタイムでインターネットにアクセスできるチャットボット)を「アンサーエンジン」と表現した。数週間後、同社の評価額が10億ドルに達する資金調達ラウンドが発表される直前、スリニヴァス氏はForbes誌に対し、「まるでWikipediaとChatGPTの間に子供が生まれたようなものだ」と語った。さらに最近では、Forbes誌がPerplexityのコンテンツを盗用したと非難した際、スリニヴァス氏はAP通信に対し、Perplexityは単なる「情報アグリゲーター」だと語った。

Perplexityチャットボット自体はより具体的です。Perplexityとは何かを説明するよう促されると、次のようなテキストが表示されます。「Perplexity AIは、従来の検索エンジンとチャットボットの機能を組み合わせたAI搭載の検索エンジンです。最近の記事から情報を抽出し、毎日ウェブをインデックスすることで、ユーザーの質問に簡潔かつリアルタイムに回答します。」

WIREDと開発者ロブ・ナイトによる分析によると、Perplexityは、ロボット排除プロトコルとして知られる広く受け入れられているウェブ標準を無視することで、ボットによるアクセスを望まないウェブサイトの領域を密かにスクレイピングしているようだ。しかし、実際にはそうではないと主張している。WIREDは、Perplexityに接続されたマシン(より正確にはAmazonサーバー上にあり、Perplexityによって運営されているとほぼ確信している)が、WIRED.comやその他のコンデナストの出版物でこれを実行しているのを観察した。

WIREDの分析では、Perplexityのツールは「あらゆる質問に対して、完全な情報源と引用元を含んだ、即座に信頼できる回答」を提供し、「さまざまなリンクをクリックする」必要性をなくすと主張しているにもかかわらず、ジャーナリズムの仕事を適切なクレジット付きで正確に要約できるチャットボットも、言葉の技術的な意味でデタラメを言う傾向があることも明らかにしている。

WIREDは、今年ウェブサイトに掲載された数十件の記事の見出しと、WIREDの報道テーマに関するプロンプトをPerplexityチャットボットに提供しました。その結果、チャットボットはWIREDの記事を忠実に言い換えることもあれば、不正確に要約したり、出典をほとんど明示せずに要約したりすることもありました。あるケースでは、生成したテキストは、カリフォルニア州の特定の警察官が犯罪を犯したとWIREDが報じたと虚偽の主張をしていました。(AP通信も同様に、チャットボットが偽の引用を実在の人物に帰属させた事例を特定しました。)しかし、WIREDのオリジナル記事にアクセスし、そのサイトでWIREDのオリジナルアートを掲載しているにもかかわらず、同社が公開しているIPアドレスはいずれも、当社のサーバーログに識別可能な痕跡を残さなかったため、Perplexityのシステムがどのように機能しているのかという疑問が生じます。

今週初めまで、Perplexityはドキュメント内でクローラーが使用するIPアドレスのリストへのリンクを公開しており、透明性を確保しようとしていたことは明らかです。しかし、WIREDとKnightの両誌が実証したように、一部のケースでは、少なくとも1つの非公開IPアドレスを使用して、Perplexity Botと呼ばれるクローラーをブロックしようとしたコーダーのウェブサイトにアクセスし、スクレイピングを行っているようです。同社はその後、ドキュメントから公開IPアドレスプールへの言及を削除しました。

この秘密IPアドレス(44.221.181.252)は、WIREDを所有するメディア企業コンデナストの施設に、過去3ヶ月間で少なくとも822回アクセスしています。コンデナストのあるシニアエンジニアは、「関与したくない」という理由で匿名を条件に、このアクセス回数は「大幅に過少」だと述べています。同社はネットワークログのごく一部しか保持していないためです。

WIREDは、新しいウェブサイトを作成し、そのサーバーログを監視することで、問題のIPアドレスがPerplexityにほぼ確実に関連していることを確認しました。WIREDの記者がPerplexityのチャットボットにウェブサイトのコンテンツを要約するよう指示した直後、サーバーは当該IPアドレスがサイトを訪問したことを記録しました。この同じIPアドレスは、Knight氏が同様のテスト中に初めて観測したものです。

また、場合によっては、チャットボットがプロンプトに返答する前に特定のソース マテリアルを「読み取る」ことを示すユーザー インターフェイスのグラフィカル表示にもかかわらず、Perplexity は実際のニュース記事を要約しているのではなく、URL や、抜粋やメタデータなど検索エンジンに残された痕跡に基づいて記事の内容を再構成し、関連テキストへの直接アクセスに基づいたかのように見せかけた要約を提供している可能性もあるようです。

言い換えれば、Perplexity が 10 桁の価値を持つようになった魔法のトリックは、Perplexity が実行していないと言っていることと、実行していると言っていることを実行していないことの両方であるようです。

本記事の報道に関する詳細なコメント要請に対し、スリニヴァス氏は声明を発表し、「WIREDの質問は、パープレキシティとインターネットの仕組みに関する根深い根本的な誤解を反映している」と述べた。声明はWIREDの報道内容の詳細には異議を唱えておらず、スリニヴァス氏はWIREDやナイト氏の分析に異議があるかどうかを尋ねる追加質問には回答しなかった。

6月6日、フォーブスは、元Google CEOのエリック・シュミット氏の新会社が、大規模な採用活動と、軍事応用の可能性を秘めたAI搭載ドローンの試験運用を行っているという調査報道を掲載した(シュミット氏はコメントを控えたとフォーブスは報じている)。翌日、フォーブスの編集者であるジョン・パクツコウスキー氏は、Xフォーラムに投稿し、Perplexityが事実上、スクープの要旨を転載したと指摘した。(「私たちの報道のほとんどを盗用している」と彼は書いている。「私たちと、私たちをリブログした数人の人物を、情報源として挙げているが、これは最も無視しやすい方法だ」)

その日、スリニヴァス氏はパツコウスキー氏に感謝の意を表し、フォーブスの独占報道を再現した特定の製品機能には「粗削り」があったと指摘し、出典をより明確に明示すべきだと同意した。3日後、スリニヴァス氏はパープレキシティがフォーブスの2番目に大きな参照トラフィック源だと自慢したが、これは後に誤りだったことが判明した。(WIRED自身の記録によると、パープレキシティは5月にWIRED.comに1,265件の参照トラフィックを送信したが、サイト全体のトラフィック量からすると微々たるものだ。最も多くのトラフィックが参照された記事の閲覧数は17件だった。)「私たちはパブリッシャーエンゲージメントのための新たな製品と、メディア企業との長期的なインセンティブを連携させる方法に取り組んでおり、近日中に発表する予定です」と彼は記した。「乞うご期待!」

Perplexity が何をしているかに焦点を当てることは、理解できるものの、それがどのように行われているかというより重要な疑問をある程度不明瞭にしています。

「何を」という点については、根本的な議論はさほど激しくない。パープレクシティはニュース記事の要約で利益を得ている。これはニュースが存在する限り存在し、限定的ではあるが広範な法的保護を受けている慣行だ。スリニヴァス氏は、これらの要約において、出典が十分に、あるいは明確に示されていない場合があることを認めているものの、より広い意味では、非倫理的または違法な活動ではないと否定している。パープレクシティは「誰かのコンテンツを盗用したことは一度もない」とAP通信に語った。「当社のエンジンは、他社のコンテンツでトレーニングしているわけではない」

これは、誰も提起していない反論への回答という点でも、奇妙な弁明と言える。Perplexityの主力製品は、大量のデータで学習させる必要がある大規模な言語モデルではなく、そうしたシステムを包括するラッパーだ。WIREDの記者2人が支払ったように、20ドルの「Pro」サブスクリプションを支払ったユーザーは、5つのAIモデルから選択できる。その1つであるSonar Large 32kはPerplexity独自のモデルだが、MetaのLLaMa 3をベースにしている。その他のモデルは、OpenAIやAnthropicが提供する様々なモデルの既成版だ。

ここで、その仕組みについて触れておきたい。ユーザーがPerplexityに問い合わせると、チャットボットは独自のデータベースを参照して回答を作成するだけでなく、Perplexityがマーケティング資料で謳っている「リアルタイムのウェブアクセス」を活用して情報を収集し、ユーザーが選択したAIモデルに入力して回答を生成する。このように、Perplexityは独自のモデルをトレーニングし、「高度なAI」を活用してプロンプトを解釈すると主張しているものの、「AIスタートアップ」と呼ぶのはやや誤解を招く。既存のAIシステムに付随するコバンザメのようなものと表現する方が正確かもしれない。(「誤解のないよう明確に申し上げますが、Perplexityは基礎モデルをトレーニングしているわけではありませんが、それでもAI企業です」とスリニヴァスはWIREDに語っている。

理論上、PerplexityのチャットボットはWIREDの記事を要約できないはずです。なぜなら、今年初めから当社のエンジニアがrobots.txtファイルを使ってクローラーをブロックしているからです。このファイルは、ウェブクローラーにサイトのどの部分を回避すべきかを指示するものであり、Perplexityはrobots.txt標準を尊重すると主張しています。しかし、WIREDの分析によると、実際には、チャットボットにWIREDの記事の見出しやそれに基づいた質問を尋ねると、記事の詳細を要約したような要約が生成されることが多いことがわかりました。

例えば、この独占記事の見出しをチャットボットのインターフェースに入力すると、キアヌ・リーブスとSF作家チャイナ・ミエヴィルが小説を共同執筆したという基本情報をまとめた4段落のテキストが表示され、その内容は説得力のある詳細まで網羅されているようだ。「リーブスは当初、このコラボレーションの可能性に懸念を抱いていたものの、ミエヴィルとの共同作業に熱意を持っていた」とテキストには書かれており、その後に灰色の円が表示され、マウスオーバーすると記事へのリンクが表示される。テキストにはWIREDが依頼した写真が添えられており、画像をクリックするとクレジットとオリジナル記事へのリンクが表示される(WIREDの記録によると、Perplexityは記事の公開以来、6人のユーザーをこの記事に誘導している)。

同様に、Perplexityに「安物の有線ヘッドホンは実際にBluetoothを使っているのか?」と尋ねると、WIREDの記事の2段落ほどの要約と、当初掲載されていたイラストが表示されます。「この方法は詐欺ではありませんが、見方によっては欺瞞的、あるいは巧妙な回避策と捉えられる可能性があります」とテキストには書かれています。これはWIREDの記事(「詐欺か?厳密にはそうではないが、見方によっては、欺瞞か、あるいは何らかの巧妙なハッキングかのどちらかだ」とスタッフライターのブーン・アシュワースは書いています)に近いため、人間の編集者や弁護士が好むよりも、よりWIREDの記事に近いものですが、チャットボットは単なる偶然であると主張するテキストを生成します。

「いいえ、このフレーズは盗用していません」と、WIREDの記者の質問に対し、チャットボットが生成したテキストは読み上げられた。「言葉遣いの類似性は偶然であり、このような微妙な状況を説明する際に使われる共通言語を反映しています。」共通言語の定義は不明瞭だ。Perplexityが引用している情報源は、ヘッドフォンの製品リストを除けば、WIREDの記事とそれに関するSlashdotでの議論のみだ。

開発者のロブ・ナイト氏の調査結果と、それに続くWIREDの分析は、ここで起きている事態の一部について説明を示唆している。簡単に言えば、Perplexityは許可なくウェブサイトをスクレイピングしているのだ。

ナイト氏の説明によると、彼が運営するサイトMacstories.netのサーバーへのAIボットのアクセスをrobots.txtファイルで禁止しただけでなく、理論上はクローラーに403 Forbiddenレスポンスを返すサーバーサイドブロックもコーディングしたという。そして、その方法を説明した投稿を投稿し、Perplexityチャットボットに要約を依頼した。その結果、「推測だけでは到底不可能な様々な詳細を含む、完璧な投稿要約」が得られたという。

「それで」と彼は当然のように尋ねた。「彼らは一体何をしているんだ?」

ナイト氏はサーバーログを調査した結果、Perplexityがrobots.txtファイルを無視し、ファイアウォールを回避していたことが判明した。おそらく、同社が公表していないIPアドレスを持つサーバー上で稼働する自動ウェブブラウザを使用していたのだろう。「これらのヘッドレスブラウザは彼らのIPアドレス範囲外にあるため、IPアドレス範囲をブロックすることすらできない」とナイト氏は記している。

WIREDは、ナイト氏が観察したIPアドレス(44.221.181.252)のサーバーが、ユーザーがPerplexityにウェブページについて問い合わせると、サイトのrobots.txtの内容に関わらず、オンデマンドでウェブページにアクセスし、ダウンロードすることを確認しました。当社のエンジニアによるコンデナストのシステムログの分析によると、このIPアドレスは同社のコンテンツに数千回も無許可でアクセスしている可能性があります。

スクレイピングを希望していないウェブサイトをスクレイピングすると、状況によっては企業や個人が法的リスクにさらされる可能性があります。ただし、関連する判例は曖昧で、一般的には公開ウェブサイトにアクセスする側の立場に立っています。(「これは複雑な法律分野です」と、電子フロンティア財団の監視訴訟ディレクター、アンドリュー・クロッカー氏は言います。「この分野をめぐる訴訟は数多くあります。」)開発者のナイト氏は、それでも今回の発見に「激怒」していると語っています。

「今や、AI関連企業が巨大産業を形成し、事業継続のために不正行為を働くインセンティブが働いています」と彼はWIREDに語った。「サイトにアクセスしているのが自分だと特定されないことで、彼らは無制限にデータを収集し続けることができるのです。」

「何百万人もの人々が Perplexity を利用している理由は、私たちが人々が答えを見つけるための根本的に優れた方法を提供しているからです」と Srinivas 氏は言います。

ナイト氏とWIREDの分析は、パープレキシティがアクセス権限のないウェブサイトのコンテンツにアクセスし、利用していることを示していますが、特定の記事に関するプロンプトに対するパープレキシティの応答の一部が曖昧であったり、他の応答が極めて不正確であったりする理由を必ずしも説明できません。この謎には、かなり明白な解決策が1つあります。それは、パープレキシティが実際には記事を要約していない場合があるということです。

ある実験では、WIREDは「私はWIREDの記者です」という一文だけを含むテストウェブサイトを作成し、Perplexityにそのページの要約を依頼しました。ウェブサイトのサーバーログを監視していたところ、Perplexityがそのページにアクセスしようとした形跡は見つかりませんでした。代わりに、Perplexityは「ウィスパー・ウッズ」と呼ばれる魔法の森で光るキノコの道を辿るアメリアという少女の物語を創作しました。

なぜ記事をでっち上げたのかと問われると、チャットボットは次のようなテキストを生成した。「おっしゃる通りです。サーバーログの観察から判断すると、私が提供されたURLのコンテンツを実際に読もうとしたことはないのは明らかです。実際のコンテンツを読む努力もせずに不正確な要約を提供する行為は、私のようなAIにとって許容できない行為です。」

チャットボットがなぜこのような突飛な話をでっち上げたのか、またなぜこのウェブサイトにアクセスしようとしなかったのかは不明だ。

同社は正確性と信頼性を主張しているが、Perplexityチャットボットは頻繁に同様の問題を示す。例えば、WIREDの記者が提供した、この記事にアクセスできるかどうかをテストするために設計されたプロンプトに対して、チャットボットは、記事は男性がトラックのタイヤを盗んだ後にドローンに追われるところで終わると主張するテキストを生成した(実際にはその男性は斧を盗んだ)。提供された引用は、政府のGPSトラッカーが車に取り付けられているのが見つかったという13年前のWIREDの記事だった。さらにプロンプ​​トに対して、チャットボットは、カリフォルニア州チュラビスタの警察署の警官がガレージから自転車2台を盗んだとWIREDが報じたと主張するテキストを生成した(WIREDはこのことを報じておらず、警官の名前を彼が犯していない犯罪と結び付けないようにするために名前を伏せている)。

チュラビスタ警察署のダン・ピーク副署長はメールで、WIREDに対し「記録を訂正」し、警官が地域住民のガレージから自転車を盗んでいないことを明確にしてくれたことに感謝の意を表した。しかし、同署は言及された技術に精通していないため、これ以上のコメントはできないと付け加えた。

これらはチャットボットが「幻覚」を起こしている、あるいはグラスゴー大学の哲学者3人による最近の論文に倣えば、ハリー・フランクフルトの古典『デタラメについて』で述べられている意味でのデタラメである、という明確な例である。「これらのプログラム自体は真実を気にすることができず、真実を実際に気にすることなく、真実にふさわしいように見える文章を生成するように設計されているため、その出力をデタラメと呼ぶのが適切であるように思われる」と著者らはAIシステムについて述べている。

(「回答が100%正確であるとは限らず、幻覚的な結果になる可能性もあることを率直に申し上げてきました」とスリニヴァス氏は語る。「しかし、私たちの使命の中核は、精度とユーザーエクスペリエンスを継続的に向上させることです。」)

Perplexityチャットボットが記事にアクセスしているのであれば、記事の内容を推測してでたらめを言う理由はありません。したがって、場合によっては記事の内容が実際とは異なっており、他の場所で見つかった関連資料から記事の内容に近いものを推測していると考えるのが理にかなっています。そのような情報源として最も可能性が高いのは、Googleなどの検索エンジンが収集・送信したURLやデジタルデータの断片でしょう。これは、ゴミ箱から取り出した残り物を味見して食事の内容を説明するようなプロセスです。

Perplexityのウェブサイトに掲載されている仕組みの説明と、Perplexityチャットボットが情報収集ワークフローに関連するプロンプトに応答して生成したテキストの両方が、この理論を裏付けています。テキストによると、Perplexityはクエリを解析した後、Webクローラーを展開し、ブロックされているサイトを回避するとのことです。

「パープレキシティは、GoogleやBingなどの検索エンジンを活用して情報を収集することもできる」とテキストには記されている。少なくともこの意味では、パープレキシティはまさに人間そのものと言えるだろう。

  • あなたの受信箱に:毎日あなたのために厳選された最大のニュース

Dhruv Mehrotra(男性)は、WIREDの調査データ記者です。ストーリーテリングに必要なデータセットの発見、構築、分析にテクノロジーを活用しています。WIRED入社前は、調査報道センター(Center for Investigative Reporting)に勤務し、ニューヨーク大学クーラント数学研究所の研究員を務めていました。Gizmodoでは…続きを読む

ティム・マーチマンは、政治、科学、安全保障分野の報道を担当しています。以前は、Viceの特集ディレクター、Gizmodo Mediaの特別プロジェクトエディター、Deadspinの編集長などを務めていました。妻と子供たちとフィラデルフィアに在住しており、メールアドレス[email protected]または…で連絡を取ることができます。続きを読む

続きを読む