コンピューターは読み方を学習しているが、まだそれほど賢くはない

コンピューターは読み方を学習しているが、まだそれほど賢くはない

BERTと呼ばれるツールは、高度な読解力テストで人間を上回る成績を収めています。これは、AIがまだどれほど進歩しなければならないかを示すものでもあります。

機械から紙を引き抜く小さなハンプティ・ダンプティのような人形

BERTニューラルネットワークは、機械が人間の言語を理解する方法に革命をもたらしました。イラスト:ジョン・フォックス/Quanta Magazine

2017年秋、ニューヨーク大学の計算言語学者サム・ボウマンは、コンピューターは書き言葉の理解がまだそれほど得意ではないことに気づきました。確かに、自動翻訳や感情分析(例えば、文章が「意地悪」に聞こえるか「親切」に聞こえるかを判断するなど)といった特定の狭い領域では、コンピューターは書き言葉の理解をシミュレートするのにそれなりの能力を発揮していました。しかしボウマンは、本物であることの測定可能な証拠、つまり、英語における真正で人間的な読解力を求めていました。そこで彼は、あるテストを考案しました。

2018年4月にワシントン大学とGoogle傘下の人工知能企業DeepMindの共同研究者と共同執筆した論文で、ボウマン氏はコンピューター向けの9つの読解課題「GLUE(一般言語理解評価)」を発表しました。このテストは「研究コミュニティが興味深い課題と考えていたものをかなり代表するサンプル」として設計されましたが、「人間にとっても非常に分かりやすい」ものでもあるとボウマン氏は語っています。例えば、ある課題では、前の文で提示された情報に基づいて、文が真かどうかを問うのです。「トランプ大統領は7日間の訪問開始のためにイラクに着陸した」という文が「トランプ大統領は海外訪問中」という意味だと判断できれば合格です。

マシンは大失敗に終わった。最先端のニューラルネットワークでさえ、9つのタスクすべてで100点満点中69点しか取れなかった。文字評価で言うとDプラスだ。ボウマンと共著者たちは驚きはしなかった。ニューラルネットワーク(哺乳類の脳内でニューロンが通信する方法を大まかに近似して構築された計算接続の層)は、「自然言語処理」(NLP)の分野で有望性を示していたが、研究者たちはこれらのシステムが言語そのものについて何か実質的なことを学習しているとは確信していなかった。そして、GLUEはそれを証明するかのようだった。「これらの初期結果は、GLUEを解くことが現在のモデルと手法の能力を超えていることを示している」とボウマンと共著者たちは記している。

彼らの評価は長くは続かなかった。2018年10月、GoogleはBERT(Bidirectional Encoder Representations from Transformers)という愛称の新しい手法を導入した。この手法はGLUEスコア80.5を記録した。機械の自然言語理解度を測る、あるいは理解度の低さを明らかにするために設計されたこの全く新しいベンチマークにおいて、機械の評価はわずか6ヶ月でDプラスからBマイナスへと飛躍したのだ。

「あれはまさに『しまった!』と思った瞬間だった」と、ボウマン氏はより大胆な感傷的な表現で回想した。「現場の反応は信じられないといった感じだった。BERTは多くのタスクで、私たちが人間がどれだけうまくできるかと見ていた限界に近い数値を出していた」。実際、BERTが登場する以前のGLUEは、人間のベースラインスコアを組み込むことすらしていなかった。2019年2月、ボウマン氏と彼の博士課程の学生の一人がGLUEに人間のベースラインスコアを追加した時には、そのスコアはわずか数ヶ月で、マイクロソフトのBERTベースのシステムに打ち負かされた。

本稿執筆時点では、GLUEリーダーボードのほぼすべての順位は、BERTを組み込んだり、拡張したり、最適化したりしたシステムによって占められています。これらのシステムのうち5つは、人間のパフォーマンスを上回っています。

しかし、AIは本当に私たちの言語を理解し始めているのでしょうか?それとも、単に私たちのシステムを巧みに操作する能力が向上しているだけなのでしょうか?BERTベースのニューラルネットワークがGLUEなどのベンチマークで旋風を巻き起こす中、これらの強力なNLPシステムを、20世紀初頭に登場した賢い馬「クレバー・ハンス」の計算バージョンとして捉えるような新たな評価手法が登場しています。クレバー・ハンスは、一見計算ができるようだが、実際には調教師からの無意識の合図に従っていただけでした。

「私たちは、非常に退屈で狭義の言語を解くことと、AIを解くことの間のグレーゾーンにいることを認識しています」とボウマン氏は述べた。「この分野の一般的な反応は、『なぜこんなことが起きたのか? これは何を意味するのか? これからどうすればいいのか?』というものでした。」

独自のルールを書く

有名な「中国語の部屋」という思考実験では、中国語を話さない人が、たくさんのルールブックが置かれた部屋に座ります。これらのルールブックは、入ってくる中国語の記号列を解釈し、適切な返答を組み立てる方法を完璧に規定しています。部屋の外にいる人が、中国語で書かれた質問をドアの下に差し込みます。部屋の中の人はルールブックを参照し、完全に一貫した中国語の回答を送り返します。

この思考実験は、外から見てどう見えても、部屋の中にいる人が中国語を真に理解しているとは言えないという主張に用いられてきた。しかし、理解の模造品でさえ、自然言語処理にとっては十分な目標とされてきた。

唯一の問題は、完璧なルールブックが存在しないということです。自然言語はあまりにも複雑で無秩序であるため、厳格な仕様書に落とし込むことはできません。例えば、構文を考えてみましょう。これは、単語がどのようにグループ化されて意味のある文になるかを定義するルール(そして経験則)です。「無色の緑のアイデアは激しく眠る」というフレーズは完璧な構文ですが、自然言語を話す人なら誰でもそれが意味をなさないことを知っています。自然言語、あるいは無数の他の言語に関するこの「暗黙の」事実を、どのような事前に書かれたルールブックで捉えることができるでしょうか?NLP研究者たちは、事前学習と呼ばれるプロセスでニューラルネットワークに独自の間に合わせのルールブックを作成させることで、この問題を解決しようと試みてきました。

2018年以前、NLPの主要な事前学習ツールの一つは辞書のようなものでした。単語埋め込みと呼ばれるこの辞書は、単語間の関連性を数値としてエンコードし、ディープラーニングネットワークが入力として受け入れられるようにしていました。まるで、中国語の部屋にいる人に簡素な語彙集を渡して学習させるようなものです。しかし、単語埋め込みで事前学習されたニューラルネットワークは、文レベルでの単語の意味を理解できません。「『a man bit the dog(人が犬を噛んだ)』と『a dog bit the man(犬が人を噛んだ)』は全く同じ意味だと認識してしまうのです」と、ジョンズ・ホプキンス大学の計算言語学者、タル・リンゼン氏は述べています。

男性の肖像画

ジョンズ・ホプキンス大学の計算言語学者タル・リンゼン氏は、「これらのモデルは、たまたまうまく機能する奇妙なトリックを拾っているだけではない」と疑問を呈している。写真:ウィル・カーク/ジョンズ・ホプキンス大学

より良い方法は、事前学習によって、ネットワークに語彙だけでなく、構文や文脈も含めたより豊富なルールブックを装備させ、特定のNLPタスクを実行させる訓練を行うというものです。2018年初頭、OpenAI、サンフランシスコ大学、アレン人工知能研究所、ワシントン大学の研究者たちは、この偉業を近似する巧妙な方法を同時に発見しました。研究者たちは、ネットワークの最初の層だけを単語埋め込みで事前学習するのではなく、言語モデリングと呼ばれるより広範な基本タスクを用いてニューラルネットワーク全体を学習し始めました。

「最もシンプルな言語モデルは、いくつかの単語を読み、次の単語を予測しようとするものです」と、Facebookの研究科学者であるマイル・オット氏は説明する。「『ジョージ・ブッシュは何年に生まれましたか』と私が言うと、モデルはその文の次の単語を予測しなければなりません。」

これらの深層学習済み言語モデルは、比較的効率的に作成できました。研究者たちは、Wikipediaなどの無料で利用できる情報源からコピーした膨大な量の文章(数十億語に及ぶ、文法的に正しい文にあらかじめフォーマットされたもの)をニューラルネットワークに入力するだけで、ネットワークが次単語の予測を自ら導き出せるようにしたのです。これはいわば、中国語の部屋にいる人に、入ってくる中国語のメッセージだけを参考に、すべてのルールを自分で書き出すように頼んでいるようなものでした。

「このアプローチの素晴らしい点は、モデルが構文について膨大な情報を学習するということです」とオット氏は述べた。さらに、これらの事前学習済みニューラルネットワークは、より豊富な言語表現を、無関係でより具体的なNLPタスクの学習に適用することができる。このプロセスは「ファインチューニング」と呼ばれる。

「事前学習段階のモデルを取り出し、実際に必要なタスクに合わせて適応させることができます」とオット氏は説明した。「そうすることで、最初から最終タスクから始めるよりもはるかに優れた結果が得られます。」

実際、2018年6月にOpenAIがGPTと呼ばれるニューラルネットワークを発表した際、GPTには10億語近く(11,038冊のデジタル書籍から抽出)で1ヶ月間事前学習された言語モデルが含まれており、GLUEスコア72.8という数値はたちまちリーダーボードのトップに躍り出ました。それでもサム・ボウマン氏は、どんなシステムでも人間レベルのパフォーマンスに近づくには、この分野にはまだ長い道のりがあると推測していました。

そしてBERTが登場しました。

強力なレシピ

では、BERT とは何でしょうか?

まず、BERTは、そのままでは人間のパフォーマンスを上回るほどの、完全に訓練されたニューラルネットワークではありません。ボウマン氏によると、BERTは「ニューラルネットワークを事前訓練するための非常に精密なレシピ」です。パン職人がレシピに従って、ブルーベリーパイからほうれん草のキッシュまで、さまざまな種類のパイを作るのに使える、おいしい焼き立てのパイ生地を確実に作れるように、Googleの研究者たちは、ニューラルネットワークを「焼く」(つまり、微調整する)ことで、さまざまな自然言語処理タスクで優れたパフォーマンスを発揮するための理想的な基盤となるBERTのレシピを開発しました。GoogleはBERTのコードもオープンソース化しました。つまり、他の研究者はレシピを一から繰り返す必要がなく、スーパーで焼き立てのパイ生地を買うように、BERTをそのままダウンロードするだけでよいのです。

BERTが本質的にレシピだとしたら、その材料リストは何でしょうか?「3つの要素が組み合わさって、物事がうまく機能するようになった結果です」と、BERTの内部構造を分析したFacebookの研究科学者、オマー・レヴィ氏は言います。

オメル・レヴィの写真

Facebookの研究科学者オマー・レヴィ氏は、BERTがなぜこれほど成功しているのかを研究した。写真:オマー・レヴィ氏提供

一つ目は、中国語教室にある参考書のような、事前学習済みの言語モデルです。二つ目は、文のどの特徴が最も重要かを判断する能力です。

2017年、Google Brainのエンジニア、ヤコブ・ウスコライト氏は、Googleの言語理解の取り組みを加速させる方法に取り組んでいました。彼は、最先端のニューラルネットワークにも固有の制約があることに気づきました。それは、単語の順序を一つずつ順に調べていくという制約です。この「順序性」は、人間が実際に文章を読む際の直感と一致しているように思われました。しかしウスコライト氏は、「言語を線形かつ順序立てて理解することは、最適ではないのではないか」と疑問を抱きました。

ウスコレイト氏とその共同研究者たちは、「注意」に焦点を当てたニューラルネットワークの新しいアーキテクチャを考案しました。これは、ネットワークの各層が入力の特定の特徴に他の特徴よりも大きな重みを割り当てるメカニズムです。この注意に焦点を当てた新しいアーキテクチャは「トランスフォーマー」と呼ばれ、例えば「a dog bites the man(犬が男を噛む)」のような文を入力として受け取り、各単語を複数の異なる方法で並列にエンコードすることができます。例えば、トランスフォーマーは「bites」と「man」を動詞と目的語として結び付け、「a」を無視する一方で、「bites」と「dog」を動詞と主語として結び付け、「the」をほとんど無視することができます。

トランスフォーマーの非連続的な性質は、文章をより表現力豊かな形で表現し、ウスコレイト氏はこれを「ツリー状」と呼ぶ。ニューラルネットワークの各層は、特定の単語間に複数の並列接続を作成し、他の単語を無視する。これは、小学校の生徒が文章を図式化するのと似ている。これらの接続は、実際には文章の中で隣り合っていない単語間にも描かれることが多い。「これらの構造は、実質的に複数の木が重なり合っているように見えます」とウスコレイト氏は説明した。

この木のような文の表現は、変換装置に文脈的な意味をモデル化する強力な手段を与え、複雑な文の中で互いに離れている可能性のある単語間の関連性を効率的に学習する手段も提供しました。「これは少し直感に反しますが」とウスコレイト氏は言います。「しかし、これは言語学の成果に根ざしており、言語学は長年にわたり木のような言語モデルを研究してきました。」

男性の横顔

ベルリンのGoogle AI Brainチームを率いるヤコブ・ウスコライト氏は、注意に焦点を当てたニューラルネットワークの新しいアーキテクチャの開発に貢献した。写真:Google

最後に、BERT のレシピの 3 番目の要素は、非線形読み取りをさらに一歩進めます。

他の事前学習済み言語モデルの多くは、ニューラルネットワークにテラバイト単位のテキストを左から右へ読み込ませることで作成されますが、BERTのモデルは左から右、右から左へ同時に読み、ランダムに隠された文中の単語を予測することを学習します。例えば、BERTは「ジョージ・ブッシュは1946年にコネチカット州で[……..]だった」のような文を入力として受け取り、両方向からテキストを解析することで、文中の隠された単語(この場合は「born」)を予測します。「この双方向性により、ニューラルネットワークはあらゆる単語のサブセットから可能な限り多くの情報を得ようとします」とウスコレイト氏は述べています。

BERTが用いるマッド・リブス風の事前学習タスク(マスク言語モデリングと呼ばれる)は、新しいものではありません。実際、人間の言語理解を評価するツールとして数十年にわたって使用されてきました。Googleにとって、この手法は、それまでこの分野を支配していた単方向の事前学習手法とは対照的に、ニューラルネットワークの双方向性を実現する実用的な方法を提供しました。「BERT以前は、単方向の言語モデリングが標準でした。しかし、それは不必要に制約が多いものでした」と、Googleのリサーチサイエンティストであるケントン・リー氏は述べています。

深層学習済み言語モデル、アテンション、双方向性という3つの要素は、BERT以前からそれぞれ独立して存在していました。しかし、Googleが2018年後半にそのレシピを公開するまで、これらをこれほど強力な方法で組み合わせた人は誰もいませんでした。

レシピの改良

優れたレシピと同じように、BERTもすぐに料理人たちの好みに合わせてアレンジされました。2019年の春には、「マイクロソフトとアリババが毎週のように追い越し合い、モデルの調整を続け、リーダーボードのトップの座を奪い合っていた」時期がありました、とボウマン氏は振り返ります。8月にBERTの改良版であるRoBERTaが初めて登場したとき、DeepMindの研究者であるセバスチャン・ルーダー氏は、広く読まれている自身のNLPニュースレターで、この出来事について冷ややかにこう記しています。「またひと月経ち、また最先端の事前学習済み言語モデルが登場した」

BERTの「パイ生地」には、その動作に影響を与える多くの構造設計上の決定が組み込まれています。これには、焼き上げるニューラルネットワークのサイズ、事前学習データの量、その事前学習データのマスク方法、そしてニューラルネットワークがそのデータで学習する時間などが含まれます。RoBERTaのような後継レシピは、シェフが料理を洗練させるように、研究者がこれらの設計上の決定を微調整することで生まれました。

RoBERTaの場合、Facebookとワシントン大学の研究者たちは、いくつかの要素(事前学習データの増加、入力シーケンスの延長、学習時間の増加)を増やし、ある要素(元々BERTに含まれていたが、実際にはパフォーマンスを低下させた「次の文の予測」タスク)を削除し、別の要素(マスク言語の事前学習タスクの難易度を向上)を修正しました。その結果、GLUEで一時首位に輝きました。6週間後、Microsoftとメリーランド大学の研究者がRoBERTaに独自の調整を加え、新たな勝利を掴みました。本稿執筆時点では、「A Lite BERT」の略称であるALBERTと呼ばれる別のモデルが、BERTの基本設計をさらに調整することで、GLUEで首位の座を奪っています。

「どのレシピが効果的で、どのレシピが効果的でないかをまだ調査中です」と、RoBERTaの開発に携わったFacebookのオット氏は語った。

それでも、パイを完璧に焼く技術が化学の原理を教えるようなものではないのと同じように、BERTを段階的に最適化しても、NLPを進化させる上での理論的な知識は必ずしも多くは得られない。「正直に言うと、私はこれらの論文を追っていません。非常に退屈だからです」と、ジョンズ・ホプキンス大学の計算言語学者であるリンゼン氏は述べた。「そこには科学的なパズルがある」と彼は認めるが、それはBERTとその派生モデルをより賢くする方法を見つけることでも、そもそもそれらがどのようにして賢くなったのかを理解することでもない。むしろ、「私たちは、これらのモデルが実際にどの程度言語を理解しているかを理解しようとしているのです」と彼は述べ、「私たちが通常モデルを評価するデータセットでたまたま機能する奇妙なトリックを拾い上げようとしているのではありません」と述べた。

言い換えれば、BERTは正しいことをしているということです。しかし、もしそれが間違った理由によるものだったらどうなるでしょうか?

賢いが賢くない

2019年7月、台湾の国立成功大学の2人の研究者がBERTを使用し、議論推論理解タスクと呼ばれる比較的無名の自然言語理解ベンチマークで印象的な結果を達成しました。このタスクを実行するには、何らかの主張を論証する理由を裏付ける適切な暗黙の前提(根拠と呼ばれる)を選択する必要があります。たとえば、「喫煙はがんを引き起こす」(主張)という理由から、「喫煙とがんの間には関連があることが科学的研究で示されている」(理由)と主張するには、「科学的研究は費用がかかりすぎる」(真実かもしれないが、議論の文脈では意味をなさない)という理由ではなく、「科学的研究は信頼できる」(根拠)という理由を前提とする必要があります。これですべてわかりましたか?

もしそうでなくても心配はいりません。人間でさえ、練習なしではこのタスクを特にうまくこなすことはできません。訓練を受けていない人の平均ベースラインスコアは100点満点中80点です。BERTは77点を獲得しました。著者の控えめな意見によれば、「驚くべき結果」だそうです。

しかし、BERTがニューラルネットワークにアリストテレス的な推論能力を吹き込むことができるようだと結論付ける代わりに、彼らはもっと単純な説明を疑った。つまり、BERTは令状の言い回しから表面的なパターンを拾っているのではないか、というものだ。確かに、トレーニングデータを再分析した後、著者らはこれらのいわゆる偽の手がかりの十分な証拠を見つけた。たとえば、「not」という単語を含む令状を選択するだけで、61%の確率で正解に至った。これらのパターンをデータから除去した後、BERTのスコアは77から53に低下した。これは、ランダムな推測と同等だ。スタンフォード人工知能研究所が発行する機械学習雑誌「The Gradient」の記事では、BERTを、偽の算術能力を持つ馬「クレバー・ハンス」になぞらえている。

「間違った理由で正しい」という別の論文で、リンゼン氏と共著者らは、BERTが特定のGLUEタスクで高いパフォーマンスを発揮するのは、それらのタスクのトレーニングデータに含まれる誤った手がかりによる可能性もあるという証拠を発表しました。(この論文には、リンゼン氏がBERTがGLUEで使用していると疑っていた種類の近道を明らかにするために設計された代替データセットが含まれていました。データセット名は「自然言語推論システムのためのヒューリスティック分析(HANS)」です。)

では、BERT や、ベンチマークを破った他のすべてのモデルは、本質的には見せかけのものであるのだろうか。ボウマン氏もリンゼン氏と同様に、GLUE のトレーニング データの一部は乱雑で、作成した人間によってもたらされた微妙なバイアスが混在しており、そのすべてが強力な BERT ベースのニューラル ネットワークによって潜在的に悪用される可能性があると認めている。「GLUE ですべてを解決できる単一の『安易なトリック』はありませんが、非常に役立つ近道はたくさんあり、モデルはそれらの近道を認識できます」とボウマン氏は述べた。しかし、彼は BERT の基盤が砂の上に築かれたものではないとも考えている。「言語について何か重要なことを本当に学習したモデルを手に入れたように思えます」と彼は述べた。「しかし、それが英語を包括的かつ堅牢な方法で理解しているわけではないことは確かです。」

ワシントン大学とアレン研究所のコンピュータ科学者であるイェジン・チェイ氏によると、堅牢な理解に向けた進歩を促進する一つの方法は、より優れたBERTの構築だけでなく、クレバー・ハンスのような不正行為の可能性を低減する、より優れたベンチマークとトレーニングデータの設計にも重点を置くことだという。彼女の研究は、敵対的フィルタリングと呼ばれるアプローチを探求している。これは、NLPトレーニングデータセットをアルゴリズムでスキャンし、過度に反復的な例や、ニューラルネットワークが拾いやすい誤った手がかりとなる例を除去するものだ。この敵対的フィルタリングの後、「BERTのパフォーマンスは大幅に低下する可能性がある」とチェイ氏は述べている。一方、「人間のパフォーマンスはそれほど低下しない」という。

それでも、一部のNLP研究者は、より優れたトレーニングを施したとしても、ニューラル言語モデルは真の理解において依然として根本的な障害に直面する可能性があると考えています。強力な事前トレーニングを備えているとはいえ、BERTは言語全般を完璧にモデル化するようには設計されていません。マサチューセッツ大学ローウェル校テキストマシン研究所の計算言語学者、アンナ・ロジャーズ氏によると、BERTは微調整を行った上で、「特定のNLPタスク、あるいはそのタスクのための特定のデータセット」をモデル化するとのことです。そして、どんなに包括的に設計され、慎重にフィルタリングされたトレーニングデータセットであっても、人間が自然言語を使用する際に容易に対処できるエッジケースや予期せぬ入力をすべて捉えることはできないでしょう。

ボウマン氏は、ニューラルネットワークが真の理解のようなものを達成できると確信できるかどうかは難しいと指摘する。標準化されたテストは、受験者の知識について本質的かつ一般化可能な何かを明らかにするはずである。しかし、SAT対策コースを受講した人なら誰でも知っているように、テストは操作される可能性がある。「AIや言語技術のある側面を完全に解明したと確信できるほど難しく、かつ騙されにくいテストを作るのは、私たちにとって難しいのです」と彼は述べた。

実際、ボウマン氏と共同研究者は最近、BERTベースのシステムにとって特に難しいように設計されたSuperGLUEと呼ばれるテストを発表しました。今のところ、このテストで人間のパフォーマンスを凌駕するニューラルネットワークは存在しません。しかし、たとえ(あるいはいつそれが実現したとしても)機械が以前よりも言語理解能力が向上したことを意味するのでしょうか?それとも、科学が機械にテストを教える能力を向上させただけなのでしょうか?

「いい例えですね」とボウマン氏は言った。「LSATやMCATの解き方を解明したからといって、実際に医者や弁護士になる資格があるわけではないかもしれません」。それでも、人工知能研究はこうやって進歩していくようだと彼は付け加えた。「チェスのプログラムの書き方を理解するまでは、チェスは真剣な知能テストのように感じていました」と彼は言った。「私たちは間違いなく、言語理解を表すより難しい問題を考え出し、それらの問題を解く方法を見つけ続けることが目標の時代に入っているのです」

オリジナルストーリーは、数学、物理科学、生命科学の研究の進展や動向を取り上げることで科学に対する一般の理解を深めることを使命とする、シモンズ財団の編集上独立した出版物であるQuanta Magazineから許可を得て転載されました。


WIREDのその他の素晴らしい記事

  • WIRED25: 私たちを救うために奮闘する人々の物語
  • 巨大なAI搭載ロボットがロケット全体を3Dプリント
  • リッパー― とんでもなくひどいビデオゲームの裏話
  • USB-Cがついに登場
  • ハードウェアに小さなスパイチップを埋め込むコストはわずか200ドル
  • 👁 ディープフェイク動画の時代に向けて準備しましょう。さらに、AIに関する最新ニュースもチェックしましょう。
  • 🏃🏽‍♀️ 健康になるための最高のツールをお探しですか?ギアチームが選んだ最高のフィットネストラッカー、ランニングギア(シューズとソックスを含む)、最高のヘッドフォンをご覧ください。
続きを読む