新世代の AI アルゴリズムは、人工汎用知能に近づいているように感じられるかもしれませんが、それをどのように測定するかは明確ではありません。

写真:ユージン・ミムリン/ゲッティイメージズ
マイクロソフトの機械学習研究者、セバスチャン・ブーベック氏は、昨年9月のある夜、人工知能とユニコーンについて考えながら目を覚ました。
ブベック氏は最近、OpenAIの強力なテキスト生成アルゴリズムであるGPT-4への早期アクセスを獲得したばかりだった。これは、大人気チャットボットChatGPTの中核を成す機械学習モデルのアップグレード版だ。ブベック氏は、この新しいAIシステムをMicrosoftのBing検索エンジンに統合するチームの一員だった。しかし、彼と同僚たちは、GPT-4がこれまで見てきたものとは大きく異なることに驚嘆し続けていった。
GPT-4は、先行システムと同様に、膨大な量のテキストとコードを入力として学習させ、そのコーパスに含まれる統計パターンを用いて、入力されたテキストに対する返答として生成すべき単語を予測するように訓練されていました。しかし、ブーベック氏にとって、このシステムの出力は、統計的に妥当な推測を行う以上のものを実現しているように思えました。
その夜、ブーベックは起き上がり、コンピューターに向かい、TikZを使ってGPT-4にユニコーンを描かせた。TikZは科学的な図表を生成するための比較的無名のプログラミング言語だ。ブーベックが使っていたGPT-4はテキストのみに対応し、画像は扱えないバージョンだった。しかし、モデルが提示したコードをTikZレンダリングソフトウェアに入力すると、楕円、長方形、三角形を寄せ集めた、粗削りながらも明らかにユニコーンらしい画像が生成された。ブーベックにとって、このような偉業を成し遂げるには、そのような生き物の構成要素を抽象的に理解する必要があるに違いない。「何か新しいことが起こっている」と彼は言う。「もしかしたら、初めて知性と呼べるものが生まれたのかもしれない」
AI がどの程度インテリジェントになっているか、そしてソフトウェアがインテリジェントであるというますます一般的な感覚をどの程度信頼できるかは 、差し迫った、ほとんどパニックを引き起こすような問題となっている。
OpenAIが昨年11月にGPT-3を搭載したChatGPTをリリースした後、ChatGPTは、幅広いテーマで詩や散文を書いたり、コーディング問題を解いたり、ウェブから知識を統合したりする能力で世界を驚かせました。しかし、その驚異的な評価は、学術詐欺、誤報、大量失業の可能性に対する衝撃と懸念、そしてマイクロソフトのような企業が危険な技術の開発を急いでいるのではないかという懸念と結びついています。
AIの新たな能力の可能性やリスクを理解するには、それらの能力が何であるか、そして何ではないかを明確に把握する必要があります。ChatGPTや類似のシステムがコンピューターに重要な新しいスキルを与えるという点については広く合意が得られているものの、研究者たちはこれらの行動を研究し、その背後で何が起こっているのかを解明し始めたばかりです。
OpenAIはGPT-4の司法試験や医学部試験におけるパフォーマンスを誇示してGPT-4を宣伝しているが、人間の知能の側面を研究する科学者たちは、その驚異的な能力は人間の知能とは決定的に異なると指摘している。モデルが事実を捏造する傾向はよく知られているが、その乖離はさらに深い。そして、何百万人もの人々が毎日この技術を使用し、企業が未来を賭けている今、これは極めて重要な謎である。
意見の相違の火花
ブーベック氏とマイクロソフトの他のAI研究者たちは、GPT-4の経験からこの議論に参画するきっかけを得ました。GPT-4がBingに接続され、新しいチャット機能がリリースされてから数週間後、マイクロソフトは初期の実験でGPT-4が「汎用人工知能の兆し」を見せたと主張する論文を発表しました。
著者らは、GPT-4がGPT-3などの従来のシステムを大幅に凌駕する、より汎用的な知能を反映したタスクを実行した例をいくつか示した。これらの例は、GPT-4が従来のほとんどのAIプログラムとは異なり、特定のタスクに限定されず、あらゆる問題に対応できることを示している。これは汎用知能に不可欠な特性である。
著者らはまた、これらのシステムが推論、計画、経験からの学習、そしてテキストから画像など、あるモダリティから別のモダリティへの概念の転送能力を示していると示唆している。「GPT-4の能力の幅広さと深さを考慮すると、GPT-4は人工汎用知能(AGI)システムの初期段階(ただしまだ不完全)と見なすのが妥当だと考えている」と論文は述べている。
マイクロソフトの最高科学責任者を含む14名の共著によるブーベック氏の論文は、AI研究者やソーシャルメディアの専門家から反発を受けた。「AGI」という用語の使用は、超知能や神のような機械の概念を暗示する際に時折使われる曖昧な表現であり、一部の研究者を苛立たせた。彼らはこれを、昨今の誇大宣伝の兆候だと捉えた。
マイクロソフトがOpenAIに100億ドル以上を投資しているという事実は、一部の研究者に、同社のAI専門家がGPT-4の限界を軽視しながらも、その可能性を誇大宣伝する動機を持っているのではないかと示唆しました。また、GPT-4はプロンプトを繰り返してもほとんど同じ反応を示さないため、実験を再現することは不可能であり、OpenAIは設計の詳細を公開していないため、実験を再現することは不可能だと不満を漏らす人もいました。もちろん、GPT-4が本当にそれほど賢いのに、なぜいまだにばかげた間違いをするのかという疑問も投げかけられました。
イリノイ大学アーバナ・シャンペーン校のタリア・リンガー教授は、マイクロソフトの論文は「興味深い現象をいくつか示した上で、かなり極端な主張をしている」と述べている。システムが高度に知的であると喧伝することで、たとえ深刻な欠陥があってもユーザーはそれを信頼してしまう、とリンガー教授は指摘する。また、人間の知能を測定するために開発されたシステムからアイデアを借りるのは魅力的だが、その多くは信頼性が低く、人種差別に根ざしていることさえあるとリンガー教授は指摘する。
ブベック氏は、再現性の問題を含め、自身の研究には限界があること、そしてGPT-4にも大きな盲点があることを認めている。「AGI」という用語の使用は議論を呼ぶことを意図していたと彼は言う。「知能とは、定義上、汎用的なものです」と彼は言う。「私たちは、このモデルの知能とその広範さ、つまり非常に多くの領域をカバーしている点を明らかにしたかったのです。」
しかし、ブーベック氏の論文で挙げられた例以外にも、GPT-4が明らかに間違っている例が数多く存在し、その多くはマイクロソフトのチームがその成功を誇示していたタスクそのものにおいてである。例えば、GPT-4は、本、テニスボール4個、釘、ワイングラス、ガムの塊、生スパゲッティといった、難しい物体の集合を安定して積み重ねる方法を提案する能力がある。これは、乳児を含む人間にとって第二の天性である、世界の物理的特性の理解を示しているように思える。しかし、物体や要求を変えると、GPT-4の物理特性の理解が完全または一貫していないことを示唆する奇妙な失敗が生じる可能性がある。
ブベック氏は、GPT-4にはワーキングメモリが欠如しており、事前の計画が全くできないと指摘する。「GPT-4はこれが得意ではなく、おそらく大規模言語モデル全般も、将来的には決して得意にはならないだろう」と、GPT-4のようなシステムの中核を成す大規模機械学習アルゴリズムを指して述べている。「知能とは計画することだと言うなら、GPT-4は知能ではない」
GPT-4や他の強力なAI言語モデルの仕組みは、脳の生物学や人間の心のプロセスとは似ていないという議論の余地はありません。アルゴリズムには、途方もない量のトレーニングデータ(インターネット上のすべてのテキストのかなりの部分)を入力する必要があります。これは、人間が言語スキルを習得するために必要な量をはるかに上回ります。GPT-4とそれを使って構築されたものに賢さを与える「経験」は、世界との相互作用や教訓的な対話を通じて得られるのではなく、丸ごと詰め込まれます。また、作業記憶がないため、ChatGPTは会話の履歴をその都度繰り返し入力することによってのみ、会話のスレッドを維持できます。しかし、これらの違いにもかかわらず、GPT-4は明らかに飛躍的な進歩であり、知能を研究する科学者たちは、その能力にはさらなる調査が必要だと言います。
機械の心
MIT、UCLA、テキサス大学オースティン校の認知科学者、言語学者、神経科学者、コンピューター科学者からなるチームは、大規模言語モデルの能力が人間の能力とどう違うのかを探る研究論文を1月に投稿した。
研究グループは、大規模言語モデルは優れた言語能力(与えられたテーマについて複雑なエッセイを首尾一貫して生成する能力を含む)を示すものの、それは言語を理解し、それを現実世界でどのように使用するかを理解することとは必ずしも同じではないと結論付けました。この乖離こそが、言語モデルが物体を積み重ねたり謎を解いたりするのに必要な常識的な推論を模倣し始めた理由なのかもしれません。しかし、これらのシステムは、社会関係、物理世界の仕組み、そして人々の思考方法を理解するという点において、依然として奇妙な誤りを犯しています。
これらのモデルが言語を使用する方法は、与えられた文字列の後に続く可能性が最も高い単語を予測するというものですが、人間が概念や意図を伝えるために話したり書いたりする方法とは大きく異なります。この統計的なアプローチにより、チャットボットはユーザーのプロンプトの言語を不合理なほど正確に理解し、それをそのまま返してしまう可能性があります。
例えば、チャットボットが誰かに配偶者と別れるよう伝える場合、会話の流れから見て最も妥当と思われる答えしか提示しません。ChatGPTなどのボットは、人間の文章で訓練されているため、一人称を使用します。しかし、一貫した自己意識を持たず、主張する信念や経験を瞬時に変える可能性があります。OpenAIはまた、人間からのフィードバックを利用して、人間がより一貫性があり正確だと判断する回答を生成するようにモデルを導きます。これにより、モデルは、回答の正確さに関わらず、より満足度の高い回答を提供する可能性があります。
1月の論文の寄稿者であり、MITで人間の認知と機械を用いたその探求方法を研究しているジョシュ・テネンバウム教授は、GPT-4は素晴らしいが、いくつかの点で人間の知能とは大きく異なると述べている。例えば、人間の心に不可欠な種類の動機付けが欠けている。「電源が切れていても気にしない」とテネンバウム教授は言う。そして、人間は単にプログラミングに従うのではなく、自らの欲求やニーズに基づいて新たな目標を自ら生み出すのだとテネンバウム教授は言う。
テネンバウム氏によると、GPT-3、GPT-4、そしてChatGPTの間で、いくつかの重要なエンジニアリング上の変化が起こり、それらの能力が向上したという。例えば、モデルは大量のコンピュータコードで学習された。テネンバウム氏をはじめとする研究者は、人間の脳は認知タスクを処理するためにコンピュータプログラムのようなものを使っている可能性があると主張しており、GPT-4はコードに見られるパターンから有用な情報を学習した可能性がある。また、彼はChatGPTが人間から受け取ったフィードバックも重要な要素だと指摘している。
しかし彼は、結果として得られる能力は、人間の知能を特徴づける汎用知能とは異なると指摘する。「私は、人間を個人としても集団としても現在の地位に導いた認知能力に興味を持っています。それは、単に大量のタスクを実行する能力以上のものです」と彼は言う。「私たちはタスクを作り、それを解決する機械を作るのです。」
テネンバウム氏はまた、GPTの将来世代が、何らかの異なる技術を採用しない限り、このような能力を獲得できるかどうかは明らかではないと述べています。これは、機械学習を超えたAI研究の分野から情報を引き出すことを意味するかもしれません。そして、そのような方法でシステムを設計するかどうかは慎重に検討することが重要だとテネンバウム氏は言います。なぜなら、そうすることで予期せぬ結果が生じる可能性があるからです。
1月の論文のもう一人の著者である、テキサス大学オースティン校の言語学助教授カイル・マホワルド氏は、GPT-4の能力を単一の例だけで判断するのは間違いだと述べている。認知心理学のツールは、このようなモデルの知能を測定するのに役立つ可能性があると彼は述べている。しかし、GPT-4の不透明性が課題を複雑化させていると付け加えている。「訓練データに何が含まれているかが重要であり、私たちにはそれが分からない。GPT-4が、明示的に訓練された一部の常識推論タスクでは成功し、訓練されていない他のタスクでは失敗するとしたら、それに基づいて結論を導き出すのは難しい」
GPT-4がAGIへの一歩と言えるかどうかは、完全にあなたの視点次第です。この用語を根本的に再定義することで、最も納得のいく答えが得られるかもしれません。「最近の私の見解では、これは一種の知能であり、汎用性があるという意味でAGIです。しかし、AGIの意味については、もう少しヒステリックに考えすぎないようにする必要があります」と、スタンフォード大学で心理学、コンピュータサイエンス、言語学の准教授を務めるノア・グッドマン氏は述べています。
残念ながら、GPT-4とChatGPTは、そのような安易な再構成に抵抗するように設計されています。確かに賢いのですが、どのように、あるいはなぜそうするのかという洞察はほとんど提供しません。さらに、人間が言語を使用する方法は、会話の相手側にいる知的な存在のメンタルモデルが、表現されている言葉や考えを解釈することに依存しています。私たちは、言語をこれほど楽々と使いこなすものの中に、知性の片鱗を見ずにはいられません。「言葉のパターンが意味を運ぶのであれば、人間はそれを意図的なものとして解釈し、それに対応するように設計されているのです」とグッドマンは言います。
AIが私たち人間とは似ていないにもかかわらず、非常に知的であるという事実は、やはり驚嘆に値します。「私たちは、必ずしも自我的な視点や目標、あるいは一貫した自己意識を伴わずに、膨大な量の生の知性を得ているのです」とグッドマン氏は言います。「私にとって、それはただただ魅力的なのです。」
あなたの受信箱に:毎日あなたのために厳選された最大のニュース

ウィル・ナイトはWIREDのシニアライターで、人工知能(AI)を専門としています。AIの最先端分野から毎週発信するAI Labニュースレターを執筆しています。登録はこちらから。以前はMIT Technology Reviewのシニアエディターを務め、AIの根本的な進歩や中国のAI関連記事を執筆していました。続きを読む