コンピューターはそんなに賢いのに、なぜ読めないのか?

コンピューターはそんなに賢いのに、なぜ読めないのか?

ディープラーニングは統計的な相関関係を学習することに優れていますが、文の意味がその部分とどのように関連しているかを理解する堅牢な方法が欠けています。

カタール図書館

読書は統計を学ぶだけでなく、知識を統合することだ。写真:カリム・ジャアファル/AFP/ゲッティイメージズ

WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。

2018年初頭、TEDで未来学者であり発明家でもあるレイ・カーツワイル氏(現在Googleのエンジニアリングディレクター)は、最新プロジェクト「Google Talk to Books」を発表しました。これは自然言語理解を用いて「全く新しい本の探求方法を提供する」と主張していました。Quartzは、このプロジェクトを「何千冊もの本を読み上げ、あらゆる質問に答えるGoogleの驚異的な新検索ツール」と謳い文句にしました。

もしそのようなツールが実際に存在し、堅牢に動作すれば素晴らしいことでしょう。しかし、今のところはそうではありません。もしコンピューターにまだ備わっていない能力を一つだけ与えることができるとしたら、それは言語を真に理解する能力でしょう。例えば医学では、毎日数千もの論文が発表されますが、医師や研究者がそれらすべてを読むことは不可能です。新薬の発見は、情報が未読の文献に閉じ込められているために遅れています。新しい治療法は、医師が発見する時間がないために適用されません。医学文献を統合できるAIプログラム、あるいはメールをスキャンしてToDoリストに追加する項目を確実に見つけてくれるAIプログラムさえあれば、革命的な出来事となるでしょう。

しかし、Google Talk to Books(GTB)のようなツールを詳しく調べると、私たちがまだ本物の機械読み取りには程遠いことにすぐに気付く。GTBに「ハリー・ポッターはどこでハーマイオニー・グレンジャーに出会ったのですか?」と尋ねたところ、20の回答のうち、ハリー・ポッターに関するものはわずか6つだけでした。残りのほとんどは、ハリーという名前の他の人物か、まったく関係のない話題でした。ハーマイオニーについて言及したのは1つだけで、質問に答えたものは1つもありませんでした。GTBに「1980年時点で最年長の最高裁判事は誰でしたか?」と尋ねたところ、またしても失敗しました。それなりに賢い人間であれば、Wikipediaの最高裁判事一覧を見て、ウィリアム・ブレナンだと理解できるでしょう。しかし、Google Talk to Booksにはできませんでした。消化したどの本にも答えを完全に述べた文章はなく、直接述べられたこと以上の推論を行う方法がなかったのです。

しかし、最も顕著な問題は、質問の仕方によって全く異なる回答が得られたことです。GTBに「銀貨30枚のために師を裏切ったのは誰か?」と有名な​​物語の有名な出来事について尋ねたところ、20人のうちユダを正しく特定できたのはわずか3人でした。「銀貨」の正確な表現から逸脱したため、状況はさらに悪化しました。もう少し具体的でない「金貨30枚のために師を裏切ったのは誰か?」という質問をしたところ、ユダは上位20の回答の1つにしか表示されませんでした。そして「金貨30枚のために師を裏切ったのは誰か?」と尋ねたところ、ユダは上位20の回答から完全に消えてしまいました。


堅牢な機械読み取りがなぜまだ実現に遠いのかを理解するには、子供向けの物語を理解するためにさえ何が必要なのかを詳細に認識することが役立ちます。

ローラ・インガルス・ワイルダーの児童書『ファーマー・ボーイ』から次の一節を読んだとしましょう。9歳の少年アルマンゾは、道端に落ちていたお金の詰まった財布(当時は「ポケットブック」と呼ばれていました)を見つけます。アルマンゾの父親は、そのポケットブックがトンプソン氏の持ち物ではないかと推測し、アルマンゾは町の店の一つでトンプソン氏を見つけます。

アルマンゾはトンプソン氏の方を向いて尋ねた。「財布を落としたのか?」トンプソン氏は飛び上がった。ポケットに手を叩きつけ、大声で叫んだ。

「ええ、入ってますよ!1500ドルも入ってますよ!どうなんですか?何か知っていますか?」

「これで終わりか?」アルマンゾは尋ねた。

「ああ、そうだ、それだ!」トンプソン氏はそう言うと、手帳をひったくった。彼はそれを開き、急いでお金を数えた。すべての紙幣を二度ずつ数えた。…それから彼は大きく安堵のため息をつき、「ああ、このクソガキは何も盗んでいないな」と言った。

優れた読書システムであれば、次のような質問に答えることができます。

• トンプソン氏はなぜポケットを手で叩いたのですか?

• アルマンゾ氏が話す前に、トンプソン氏は財布をなくしたことに気づきましたか?

• アルマンゾが「これで終わりか?」と尋ねたのは何のことを言っていたのでしょうか?

• 財布の中にお金はまだ全部残っていましたか?

これらの質問はどれも人間にとっては簡単です。しかし、これまでに考案されたAIはどれもこれに匹敵するものはありません。なぜなら、これらの質問はどれも、読者に物語の中に暗黙的にしか存在しない推論の連鎖を辿らせることを要求するからです。しかし、現在の技術では、この意味での推論は実行できません。暗黙的に何が書かれているのかは、AIの範疇をはるかに超えています。このような推論の連鎖は、読者に人物や物、そしてより一般的には世界の仕組みに関する背景知識をまとめることをしばしば要求します。現在のシステムには、これをうまくこなすのに十分な広範かつ広範な一般知識の蓄積はありません。

例えば、質問1を見てみましょう。アルマンゾが口を開く前、トンプソン氏は財布をなくしたことに気づかず、財布はポケットの中に入っていると思い込んでいました。アルマンゾが財布をなくしたかどうか尋ねると、トンプソン氏は実際に財布をなくしたかもしれないと気づきます。財布をなくした可能性を確かめるため、トンプソン氏はポケットを叩きます。財布がいつも置いてある場所になかったため、トンプソン氏は財布をなくしたと結論づけます。意識的であろうと無意識であろうと、アルマンゾと財布の物語を理解する中で、おそらくあなたは以下の事実のほとんど、あるいはすべてを参考にしたことでしょう。

• 人は気づかないうちに物を落とすことがあります。[出来事と人の精神状態の関係についての知識]

• 人々は財布をポケットに入れて持ち歩くことが多い。[人々が物をどのように使うかについての知識]

• 人々が自分にとって重要な何かを真実だと思い込んでいて、それが真実ではないかもしれないと気づいた場合、それを検証することが急務となることがよくあります。[人々にとって心理的に重要な事柄に関する知識]

• ポケットの外側を触ってみれば、ポケットの中に何か入っているかどうかがわかることが多いです。[これは、様々な物体(手、ポケット、財布)がどのように相互作用するかについての知識と、感覚がどのように機能するかについての知識を組み合わせたものです。]

現在主流のAIアプローチは、こうしたことを全く行いません。知識を表現するのではなく、主に異なる文脈における単語の共起頻度といった確率を表現するだけです。つまり、人間のような発音の単語列を生成することはできますが、そこには真の一貫性はありません。

これが何を意味するのかを説明するために、アルマンゾの物語をOpenAIが開発した最先端のテキスト生成システムGPT-2に入力してみました。このシステムは、AIを自由に利用できるようにすることを使命としているにもかかわらず、OpenAIが安全に公開できないほど優れていると言われています。入力されたテキストは、上記で示したテキストで、トンプソンが自分の全財産がまだそこに残っていることに気づくところで終わります。そして、次のような結果が出ました。

隠しておいた安全な場所からお金を取り出すのに、おそらく何時間もかかったので、彼はそれを包みにまとめて持ち帰り、テーブルの上に置いた。それからベッドに隠してあったお金に気づき、大きな包みを持ってベッドに向かって歩き始めた。

言葉は流暢だが、思考は支離滅裂だ。トンプソン氏は財布を取り戻したばかりなのに、なぜ突然金が安全な場所に隠されているのだろうか?このシステムは財布と安全な場所の統計的な相関関係に固執しているが、話の筋道を完全に失っている。(自分で試してみるといい。続きは毎回異なるので、一貫性のあるものはほとんどないだろう。)現在のシステムはどれもこれより優れているとは言えない。


どうしてこんな混乱に陥ってしまったのでしょうか?

現在のAIシステムは、主にディープラーニングと呼ばれる統計的手法によって実現されています。ディープラーニングは、画像や音声とラベルの相関関係など、相関関係の学習に非常に効果的です。しかし、文章などのオブジェクトが、その構成要素(単語やフレーズなど)とどのように関連しているかを理解することは、ディープラーニングにとって困難です。

なぜでしょうか?言語学者が構成性と呼ぶものが欠けているからです。構成性とは、複雑な文の意味を文節の意味から構築する方法です。例えば、「月は地球から240,000マイル離れている」という文では、「月」は特定の天体、「地球」は別の天体、「マイル」は距離の単位、「240,000」は数字を意味します。そして、英語における句や文の構成上の仕組みにより、「240,000マイル」は特定の長さを意味し、「月は地球から240,000マイル離れている」という文は、二つの天体間の距離がその特定の長さであると主張しているのです。

驚くべきことに、ディープラーニングは構成性を直接扱う手段を実際には持っていません。ディープラーニングが持っているのは、構造を持たない、膨大な数の複雑な相関関係に関する情報だけです。犬には尻尾と脚があることは学習できますが、それらが犬のライフサイクルとどのように関係しているかは分かりません。ディープラーニングは、犬が頭、尻尾、4本の脚といったパーツで構成された動物であること、動物とは何かさえ認識できません。ましてや頭とは何か、カエル、犬、人間など、細部は異なるものの体と共通する「頭」の概念がどのように異なるかなど、理解できません。また、「月は地球から24万マイル離れている」のような文に、2つの天体と長さを表すフレーズが含まれていることも認識できません。

同時に、ディープラーニングには背景知識を組み込むための優れた方法がありません。システムは「財布」「安全な場所」という単語が似たような文(「彼はお金を財布に入れた」「彼はお金を安全な場所に置いた」)に出現することを予測することはできますが、それを人々が自分の所有物を守りたがるという事実と関連付ける方法がありません。

認知心理学の言葉で言えば、文章を読むときに行うことは、文章が言っていることの意味の認知モデルを構築することです。たとえば、 『Farmer Boy』の一節を読んでいると、物語に出てくるすべての人物、物、出来事とそれらの関係性、つまりアルマンゾ、財布、トンプソン氏、そしてアルマンゾがトンプソン氏に話しかける出来事、トンプソン氏が叫んでポケットを叩く出来事、トンプソン氏がアルマンゾから財布をひったくる、といった出来事などについて、徐々に脳内に心的表象を構築していきます。文章を読んで認知モデルを構築した後で初めて、物語に関して行うすべてのこと、つまり物語に関する質問に答えたり、ロシア語に翻訳したり、図解したり、あるいは単に後のために覚えておくなどが可能になります。

2013年、DeepMindが認知モデルなしでAtariのゲームをプレイするシステム(しばしば人間よりも上手かった)を開発し、Googleに5億ドル以上で売却して以来、認知モデルは時代遅れになった。しかし、固定ルールで選択肢が限られているゲームで有効な手法は、読書には通用しない。認知モデルなしで動作するGPT-2による模擬散文は面白いが、真の読解力とは程遠い。

結局のところ、統計は現実世界の理解に取って代わるものではないからです。むしろ、現在のAIプログラムを支える統計計算と、システムが読み取ろうとしているものを実際に理解するために必要な認知モデルの構築との間には、根本的な不一致が存在します。

機械がより良い結果を出すことは不可能だとは思っていません。しかし、単なる量的改善、つまりデータの増加、ニューラルネットワークの層の増加、そしてそれらのネットワークを稼働させる強力なマシンのネットワーククラスター内のコンピューターの増加だけでは、十分ではありません。

むしろ、人間の認知心理学にヒントを得て、推論と機械が解釈できる常識を作り出すという課題を中心とした、まったく新しいアプローチをとるべき時が来ていると考えています。

読書とは統計だけではありません。知識を統合することです。つまり、既に知っていることと著者が伝えようとしていることを組み合わせることです。子供たちはそれを日常的にこなしていますが、機械はまだできていません。



記事内の販売リンクから商品をご購入いただくと、少額のアフィリエイト報酬が発生する場合があります。 仕組みについて詳しくはこちらをご覧ください


WIREDのその他の素晴らしい記事

  • 私たちはヒーローになれる:オタクがポップカルチャーを改革する方法
  • ハワイのキラウエア火山に一体なぜ水があるのでしょうか?
  • ジェフリー・エプスタインとネットワークの力
  • 私はオーブンをワッフルメーカーに買い替えました。あなたもそうすべきです
  • 登山家アレックス・オノルドと一緒に落下の仕方を学ぶ
  • 👁 顔認識技術が突如として普及。心配するべきでしょうか?人工知能に関する最新ニュースもご覧ください
  • 🏃🏽‍♀️ 健康になるための最高のツールをお探しですか?ギアチームが選んだ最高のフィットネストラッカー、ランニングギア(シューズとソックスを含む)、最高のヘッドフォンをご覧ください。