AIのパイオニアがニューラルネットワークの進化を解説

AIのパイオニアがニューラルネットワークの進化を解説

Googleのジェフ・ヒントンは、現在多くの人工知能の基盤となっているニューラルネットワーク研究の先駆者でした。彼は、他のほとんどの人が賛同しなかったにもかかわらず、粘り強く研究を続けました。

WIREDに掲載されているすべての製品は、編集者が独自に選定したものです。ただし、小売店やリンクを経由した製品購入から報酬を受け取る場合があります。詳細はこちらをご覧ください。

ジェフリー・ヒントンはディープラーニングの創始者の一人であり、2019年のチューリング賞受賞者であり、Googleのエンジニアリングフェローでもあります。先週、Googleの開発者カンファレンスI/Oで、ヒントン氏が脳に魅了された初期の頃、そしてコンピューターを脳の神経構造に倣ってモデル化できる可能性について話し合いました。この考えは、他の学者からは無謀だと長らく否定されてきました。また、意識、将来の計画、そしてコンピューターに夢を見させるべきかどうかについても議論しました。会話は、長さと分かりやすさを考慮して若干編集されています。

ニコラス・トンプソン:まずは、初期の非常に影響力のある論文を執筆された頃の話から始めましょう。誰もが「これは素晴らしいアイデアだが、実際にこの方法でコンピューターを設計することはできないだろう」と言います。なぜあなたは諦めずに、重要な発見をしたと確信していたのでしょうか?

ジェフリー・ヒントン:脳が機能するには、他に方法はないように思えました。脳は接続の強さを学習することによって機能するのです。デバイスに何か知的なことをさせたい場合、選択肢は二つあります。プログラムするか、学習させるかです。人間はプログラムされていないので、学習するしかありませんでした。これが正しい道だと考えていました。

NT:ニューラルネットワークとは何か、そしてその発想のきっかけについて説明してください。

GH:非常に大まかにニューロンをモデル化した、比較的単純な処理要素があります。ニューロンには入力となる接続があり、それぞれの接続には重みが与えられており、その重みは学習によって変化します。ニューロンは接続上の活動と重みを掛け合わせ、それらを全て加算し、出力するかどうかを決定します。合計が十分に大きければ出力し、負であれば何も出力しません。大体これだけです。必要なのは、重みが何兆倍にもなる無数のニューロンを無数の二乗で接続し、重みをどのように変化させるかを考えるだけで、何でもできるようになります。問題は、どのように重みを変化させるかだけです。

NT:これが脳の働きを大まかに表したものであると気づいたのはいつですか?

GH:ああ、それは最初からそういうふうに設計されていたんです。脳の働きに似せて設計されたんです。

NT:では、キャリアのある時点で脳の仕組みを理解し始めたのですね。それは12歳の時だったかもしれませんし、25歳の時だったかもしれません。脳を模倣したコンピューターを作ろうと決意したのはいつですか?

GH:ほぼすぐに。それがまさにその核心でした。脳のように、人々が脳が学習すると考えているように、接続文字列を変更することで学習する学習装置を作るというアイデアでした。これは私のアイデアではありません。[イギリスの数学者アラン]チューリングも同じ考えを持っていました。チューリングは標準的なコンピュータサイエンスの基礎を多く発明したにもかかわらず、脳はランダムな重みを持つ非組織的な装置であり、強化学習によって接続文字列を変更することであらゆることを学習すると考えていました。そして、それが知性への最良の道だと考えていました。

NT:つまり、機械を作る最良の方法は人間の脳をモデルにすることだというチューリングの考えに従っていたわけですね。人間の脳はこのように機能するから、同じように機械を作ろう、と。

GH:ええ、それはチューリングだけの考えではありませんでした。多くの人がそう考えていました。

NT:最も暗い瞬間はいつですか?チューリングの考えに賛同して研究を続けてきた他の人々が後退し始めたにもかかわらず、あなたが突き進み続ける瞬間はいつですか?

GH:特に心理学の世界では、常にそれを信じ続ける人々がいました。しかし、コンピュータ科学者の間では、おそらく90年代に起こったことですが、データセットがかなり小さく、コンピュータもそれほど高速ではありませんでした。そして、小さなデータセットでは、サポートベクターマシンと呼ばれる他の手法の方が少しうまく機能しました。ノイズにそれほど惑わされなくなったのです。それは非常に残念なことでした。なぜなら、80年代にバックプロパゲーションが開発されたからです。私たちはそれがすべてを解決してくれると考えていました。しかし、なぜそれがすべてを解決しないのか、少し戸惑いました。それは単に規模の問題だったのですが、当時はそれをよく理解していませんでした。

NT:では、なぜそれが機能していないと思ったのですか?

GH:うまくいかないのは、アルゴリズムや目的関数が適切でなかったからだと考えていました。長い間、データにラベルを付ける必要がある教師あり学習を試みていたためだと考えていました。ラベルのないデータから学習する教師なし学習を行うべきだったのです。しかし、結局は主に規模の問題だったことが判明しました。

NT:興味深いですね。つまり、問題はデータが足りなかったということですね。データの量は適切だと思っていたものの、ラベル付けが間違っていた。つまり、問題を誤って認識してしまったということですか?

GH:ラベルだけを使うのは間違いだと思っていました。学習のほとんどはラベルを全く使わずに、データの構造をモデル化しようとするだけで行われます。実際、今でもそう思っています。コンピューターが高速化するにつれて、どんなサイズのデータ​​セットでも、十分に高速化できれば教師なし学習の方が効果的になると思います。そして、教師なし学習を行えば、より少ないラベルから学習できるようになります。

NT: 1990年代、あなたは研究を続け、学問の世界にも足を踏み入れ、論文も発表していましたが、大きな問題は解決していませんでしたね。「もう十分だ。何か別のことに挑戦しよう」と思った瞬間はありましたか?それとも、ただ「ディープラーニングを続けよう」とおっしゃっただけだったのでしょうか?

GH:ええ。きっとうまくいくはずです。つまり、脳内のつながりは何らかの形で学習していて、私たちはそれを理解する必要があるのです。おそらく、つながりの強さを学習する方法はいくつもあり、脳はそのうちの一つを使っています。他にも方法があるかもしれません。しかし、これらのつながりの強さを学習できる何かが必ず必要です。私はそれを疑ったことはありません。

NT:つまり、あなたはそれを疑ったことがないということですね。効果が出始めたと感じ始めるのはいつ頃ですか?

GH: 80年代の大きな失望の一つは、隠れ層を多く持つネットワークを作っても、学習できないということでした。これは完全には正しくありません。手書き認識のような比較的単純なタスクであれば学習できたからです。しかし、ほとんどのディープニューラルネットワークについては、学習方法が分かっていませんでした。そして2005年頃、私はディープネットワークの教師なし学習を行う方法を思いつきました。入力、例えばピクセルを取り、そのピクセルがなぜそのように見えるのかを説明するのに優れた特徴検出器を学習します。そして、それらの特徴検出器をデータとして扱い、さらに別の特徴検出器を学習することで、それらの特徴検出器がなぜそのような相関関係を持つのかを説明できるようになります。こうして、層をどんどん学習して​​いきます。しかし興味深いのは、数学的に証明すると、層を一つずつ学習するたびに、必ずしもデータのモデルがより良くなるわけではなく、モデルの精度に一定の幅があることがわかったのです。そして、レイヤーを追加するたびに、より良いバンドが得られます。

NT:あなたのモデルがどれだけ優れているかを示すバンドがあったというのはどういう意味ですか?

GH:モデルができたら、「モデルはこのデータにどれほど驚くべき発見をするだろうか?」と問うことができます。データを見せて、「これは信じられる類のものか、それとも驚くべきものか?」と自問します。そして、その発見を示す何かを測定できるのです。目指すべきはモデルです。良いモデルとは、データを見て「ああ、そうだ、分かっていた。驚くべきことではない」と言えるものです。このモデルがデータにどれほど驚くべき発見をするかを正確に計算するのは、しばしば非常に困難です。しかし、そのデータに基づいてバンドを計算することは可能です。つまり、このモデルはあのモデルよりもデータにそれほど驚くべき発見をしないと言えるのです。そして、特徴検出器の層を追加していくことでモデルが得られ、層を追加するたびに、データにどれほど驚くべき発見をするかを示すバンドがより良くなっていくことを示すことができます。

NT:数学的なブレイクスルーを成し遂げたのは2005年頃ですね。正しい答えが得られ始めたのはいつ頃ですか?また、どのようなデータに取り組んでいるのですか?最初のブレイクスルーは音声データだったんですよね?

GH:これは手書きの数字だけでした。とても単純なものでした。そして、ほぼ同時期にGPU(グラフィックス・プロセッシング・ユニット)の開発が始まりました。ニューラルネットワークを研究する人たちも、2007年頃からGPUを使い始めました。私の学生の中に、航空写真から道路を見つけるためにGPUを使い始めた優秀な学生がいました。彼が書いたコードは、他の学生がGPUを使って音声の音素を認識するために使われました。つまり、彼らは事前学習という考え方を使っていたのです。そして、この事前学習をすべて終えた後、ラベルを上に貼り付けてバックプロパゲーションを使うのです。こうして、事前学習済みの非常に深いネットワークを構築できることがわかりました。そして、バックプロパゲーションを使うことができ、実際にうまくいきました。そして、音声認識のベンチマークをある程度上回りました。最初はほんの少しの差でしたが。

NT:市販されている最高の音声認識技術に勝ったのですか?音声認識に関する最高の学術研究に勝ったのですか?

GH: TIMITと呼ばれる比較的小規模なデータセットでは、最高の学術研究よりもわずかに優れた結果が出ました。これもIBMで行われた研究です。

そしてすぐに、この技術は開発に30年もかかる標準モデルを凌駕していたため、もう少し開発を進めれば非常に優れた成果を上げることができるだろうと人々は気づきました。そこで私の大学院生たちはMicrosoft、IBM、そしてGoogleへと渡り歩きました。そしてGoogleは、この技術を最も早く実用レベルの音声認識システムに仕上げました。そして2012年までに、2009年に初めて行われたこの研究成果がAndroidに搭載されました。Androidの音声認識能力は、突如として飛躍的に向上したのです。

NT:では、40年間アイデアを温め、20年間論文を発表し続け、ついに同僚たちよりも優れた研究者になった瞬間について教えてください。その時の気持ちはいかがでしたか?

GH:そうですね、当時、そのアイデアを思いついたのはたった 30 年前のことでした。

NT:まさにその通り!つまり、新しいアイデアですね。斬新ですね!

GH:ようやく本当の問題の実態が把握できて本当に良かったです。

NT:では、最初に啓示的なデータを入手したとき、どこにいたか覚えていますか?

GH:いいえ。

NT:なるほど。音声認識に使えるとお分かりですね。他の問題への応用はいつごろから始める予定ですか?

GH:それから、私たちはそれを様々な問題に応用し始めました。音声認識の原点を研究した一人であるジョージ・ダールは、ある分子が何かに結合して良い薬として作用するかどうかを予測するために、この技術を応用しました。そして、あるコンペがありました。彼は、音声認識用に設計された私たちの標準技術を薬の作用予測に応用し、コンペで優勝しました。これは、この技術がかなり普遍的なものになったという兆候でした。すると、ある学生がこう言いました。「ジェフ、この技術は画像認識にも使えるはずだ。フェイフェイ・リーが適切なデータセットを作っている。公開コンペがあるんだ。私たちも参加しよう」

そして、標準的なコンピュータービジョンよりもはるかに優れた結果が得られました。それが2012年のことでした。

NT:化学物質、音声、発声のモデリングという3つの分野で成功したということですね。では、失敗したのはどの部分でしょうか?

GH:失敗は一時的なものなのです、分かりますか?

NT:では、最も早く効果が出る分野と、より時間がかかる分野を区別するものは何でしょうか?視覚処理、音声認識、つまり人間の感覚知覚に関わる基本的な機能が、最初にクリアすべき障壁だと考えられているようですが、それは正しいでしょうか?

GH:イエスでもありノーでもあります。なぜなら、私たちは運動制御など、他にも様々なことをしているからです。私たちは運動制御が非常に得意です。私たちの脳は明らかにそのために設計されています。そして、ニューラルネットワークはようやく、他の最先端技術と競争し始めたばかりです。最終的には勝利するでしょうが、まだ今はまだ勝利したばかりです。

推論や抽象的推論といったことは、人間が最後に学ぶことであり、ニューラル ネットワークが最後に学ぶことの一つになると思います。

NT:そしてあなたは、ニューラル ネットが最終的にはあらゆる分野で勝利するだろうと言い続けています。

GH:そうですね、私たちはニューラルネットワークです。私たちにできることは、彼らにもできるんです。

NT:そうです。しかし、人間の脳は必ずしもこれまでに作られた中で最も効率的な計算機ではありません。

GH:決してそんなことはないです。

NT:人間の脳では到底無理です!人間の脳よりも効率的な機械をモデル化する方法はないのでしょうか?

GH:哲学的には、これら全てを全く異なる方法で実現できるという考えに異論はありません。論理から始めて、それを自動化しようと試み、非常に高度な定理証明器を作り、推論を行い、そして推論によって視覚知覚を実現しようと決めたとしたら、そのアプローチが勝利するかもしれません。しかし、実際にはそうではありませんでした。しかし、その勝利に哲学的な異論はありません。ただ、脳がそれを実現できることは分かっているのです。

NT:しかし、人間の脳がうまくできないこともあります。ニューラルネットワークも同じようにうまくできないのでしょうか?

GH:そうですね、その可能性はあります。

NT:それから、別の問題もあります。それは、これらのものがどのように機能するかを私たちは完全には知らないということです。

GH:いいえ、それがどのように機能するかは実際にはわかりません。

NT:私たちはトップダウン型ニューラルネットワークの仕組みを理解していません。それがニューラルネットワークの仕組みの中核的な要素であり、私たちが理解していない部分です。その点を説明していただき、それから当然の疑問を質問させてください。つまり、これらの仕組みが理解できなければ、これらの仕組みはどうやって機能するのでしょうか?

GH:現在のコンピュータービジョンシステムを見てみると、そのほとんどは基本的にフィードフォワード方式で、フィードバック接続は使用していません。現在のコンピュータービジョンシステムにはもう一つ、敵対的エラーが発生しやすいという問題があります。パンダの画像で、あなたには全くパンダに見えたものが、数ピクセルをわずかに変更するだけで、突然ダチョウだと認識されてしまうのです。もちろん、ピクセルの変更方法は巧妙に設計されており、ダチョウだと誤認させるように仕組まれています。しかし、重要なのは、あなたには依然としてパンダに見えるということです。

当初、これらの方法は非常にうまく機能すると思っていました。しかし、パンダを見て、それがダチョウだと確信しているという事実に直面すると、少し不安になります。問題の一部は、高レベルの表現から再構成しようとしていないことにあると思います。彼らは識別学習をしようとしています。識別学習では、特徴検出器の層を学習するだけで、重みを変化させて正しい答えをより良く導き出すことを目指しています。最近、トロントで、私たち、あるいはニック・フロストが発見したのですが、再構成を導入すると、敵対的攻撃への耐性が高まるということです。つまり、人間の視覚では、学習を行うために再構成を行っているのだと思います。また、再構成を行うことで多くの学習を行っているため、敵対的攻撃への耐性が大幅に向上しているのです。

NT:ニューラルネットワークにおけるトップダウン通信は、何かをどのように再構築するかをテストできるように設計されているとお考えですね。では、それがダチョウではなくパンダであることをどのようにテストし、確実にするのでしょうか?

GH:確かにそれは重要だと思います。

NT:しかし、脳科学者たちはその点については完全に同意しているわけではないですよね?

GH:脳科学者は皆、知覚経路に皮質の2つの領域がある場合、必ず逆方向の接続が存在するという点で一致しています。しかし、それが何のためにあるのかについては意見が一致していません。注意のためかもしれませんし、学習のためかもしれませんし、再構築のためかもしれません。あるいは、3つすべてに関係している可能性もあります。

NT:つまり、逆方向通信が何なのかは私たちには分からないということですね。あなたは、脳の仕組みが本当にそうなのか確信が持てないにもかかわらず、ニューラルネットワークへの再構築を前提として、新しいニューラルネットワークを構築しているのでしょうか?それとも、逆方向通信、つまりニューラルネットワークへの再構築を前提として構築しているのでしょうか?

GH:はい。

NT:それはズルじゃないですか?つまり、脳のように作ろうとするなら、それが脳に似ているかどうかわからないことをしていることになります。

GH:全く違います。私は計算神経科学を研究しているわけではありません。脳の働きをモデル化しようとしているわけでもありません。脳を見て、「これはちゃんと機能している。もし何か他のものを作りたいなら、脳からヒントを得るべきだ」と考えているのです。つまり、これはニューロインスパイアードであって、ニューラルモデルではありません。このモデル全体、つまり私たちが使っているニューロンは、ニューロンが多数の接続を持ち、その強度を変化させるという事実に着想を得ています。

ジェフリー・ヒントン

「脳のように学習する学習デバイスを作るというのが全体的なアイデアでした」とジェフリー・ヒントン氏は語る。

アーロン・ヴィンセント・エルカイム/ニューヨーク・タイムズ/Redux

NT:面白いですね。もし私がコンピュータサイエンスの分野でニューラルネットワークの研究をしていて、ジェフ・ヒントンに勝ちたいと思ったら、一つの選択肢はトップダウン型のコミュニケーションを組み込み、それを他の脳科学モデルに基づいて構築することです。つまり、再構成ではなく学習に基づくということです。

GH:もっと良いモデルだったら、君が勝てただろうね。そうだね。

NT:それはとても興味深いですね。では、もっと一般的な話題に移りましょう。ニューラルネットワークはあらゆる問題を解決できるようになるでしょう。人間の脳の謎で、ニューラルネットワークでは捉えられない、あるいは捉えられないものはありますか?例えば、感情などは…

GH:いいえ。

NT:つまり、愛はニューラルネットワークによって再構築できるということですか?意識も再構築できるということですか?

GH:その通りです。それらの意味が分かれば。私たちはニューラルネットワークです。そうでしょう?さて、意識は私が特に興味を持っているものです。意識がなくても何とかやっていけるのですが…人々はそれが何を意味するのか本当に理解していません。様々な定義があります。そして、それはかなり科学的な用語だと思います。100年前なら、人々に「生命とは何か」と尋ねたら、「生き物には生命力があって、死ぬと生命力は失われる。それが生きているか死んでいるかの違い、つまり生命力があるかどうかだ」と答えたでしょう。しかし今では、私たちには生命力はなく、それは科学以前の概念だと考えているだけです。生化学や分子生物学を少し理解すれば、生命力はもはや必要ありません。それが実際にどのように機能するかが分かります。意識についても同じことが言えると思います。意識とは、ある種の特別な本質で精神現象を説明しようとする試みだと思います。そして、この特別な本質は、必要ないのです。それを本当に説明できるようになれば、私たちがどのようにして、人々に意識があると思わせる行動をするのかを説明できるようになり、意識としての特別な本質を持たずに、意識のさまざまな意味をすべて説明できるようになります。

NT:つまり、作り出せない感情など存在しないということですか?作り出せない思考など存在しないということですか?脳の仕組みを真に理解すれば、人間の精神でできることは、完全に機能するニューラルネットワークによって理論的に再現できないものなど存在しないということですか?

GH:ジョン・レノンの曲の中に、あなたが今言ったこととよく似た部分がありますね。

NT:あなたはこれに100%自信がありますか?

GH:いいえ、私はベイズ主義者なので、99.9 パーセントの自信があります。

NT:では、0.1 とは何ですか?

GH:そうですね、例えば、私たち全員が大きなシミュレーションの一部になるかもしれません。

NT:確かにそうですね。では、コンピューターの研究から脳について何が分かっているのでしょうか?

GH:過去10年間で私たちが学んだことは、数十億のパラメータを持つシステムと、単語列の空白を埋めるといった目的関数を持つシステムを扱うと、本来の性能をはるかに超える性能を発揮するということです。予想をはるかに超える性能です。従来のAIに携わるほとんどの人が考えていたように、数十億のパラメータを持つシステムを取り、それらをランダムな値で開始し、目的関数の勾配を測定します。つまり、各パラメータを少し変更すると目的関数がどのように変化するかを計算し、目的関数を改善する方向にパラメータを変更します。これは、行き詰まってしまう、救いようのないアルゴリズムだと思われるでしょう。しかし、実際には、これは非常に優れたアルゴリズムであることがわかりました。そして、規模が大きくなるほど、性能も向上します。これは単なる経験的発見です。理論もいくつか出ていますが、基本的には経験的発見です。これを発見したことで、脳が何らかの目的関数の勾配を計算し、その勾配に従うようにシナプス強度の重みを更新している可能性がはるかに高まりました。あとは、それがどのように劣化するのか、そして目的関数は何なのかを解明するだけです。

NT:でも、私たちは脳についてそれを理解していなかったのですか?再加重についても理解していなかったのですか?

GH:それは理論でした。ずっと昔、人々はそれが可能だと考えていました。しかし、その裏では、従来型のコンピュータ科学者たちが常にこう言っていました。「確かにそうだが、すべてがランダムで、勾配降下法ですべてを学習するという考え方は、10億個のパラメータには通用しない。大量の知識を組み込まなければならない」と。そして今では、それが間違いであることが分かっています。ランダムなパラメータを入力するだけで、すべてを学習できるのです。

NT:では、これをさらに広げてみましょう。人間の脳がどのように機能するかという仮説に基づいたモデルで大規模なテストを実施していくことで、脳の実際の機能についてますます多くのことが分かってくるはずです。私たちの脳を本質的に再構築し、最も効率的な機械に近づけることができるようになる日は来るのでしょうか?

GH:何が起こっているのかを本当に理解できれば、教育などの分野をより良くできるはずです。そして、そうなると思います。脳内で何が起こっているのか、どのように学習するのかをようやく理解できたのに、より良く学習できるように環境を適応させることができないとしたら、それはとても奇妙なことでしょう。

NT:数年後、脳やディープラーニングの仕組みについて学んだ知識は、教育のあり方をどのように変えると思いますか? 授業をどのように変えたいですか?

GH:数年後には、それほど多くのことを学ぶことはできないでしょう。教育を変えるにはもっと時間がかかると思います。しかし、見てみると、アシスタントはかなり賢くなってきています。アシスタントが会話を本当に理解できるようになれば、子供たちと会話をしたり、教育したりできるようになるでしょう。

NT:理論的には、脳の理解が深まるにつれて、子どもたちがどのように学習するかに基づいて、子どもたちとよりよい会話をするようにアシスタントをプログラムできるようになります。

GH:ええ、このことについてはあまり考えたことがありません。私の仕事ではないので。でも、かなりありそうな気がします。

NT:私たちは夢がどのように機能するかを理解できるようになるでしょうか?

GH:ええ、夢にとても興味があります。夢に関する理論を少なくとも4つ持っているくらいです。

NT:全部聞かせてください。1、2、3、4。

GH:昔、ホップフィールドネットワークというものがありました。これは記憶を局所アトラクターとして学習するものでした。ホップフィールドは、記憶を過剰に詰め込むと混乱してしまうことを発見しました。ホップフィールドは2つの局所アトラクターを取り出し、それらを中間のアトラクターに統合してしまうのです。

その後、フランシス・クリックとグレアム・ミッチソンが登場し、これらの偽の最小値はアンラーニングによって取り除けると主張しました。そこで入力を遮断し、ニューラルネットワークをランダムな状態に置き、落ち着かせます。そして、それが悪い状態だと判断して、その状態に落ち着かないように接続を変えます。これを少し繰り返すと、より多くの記憶を保存できるようになります。

その後、テリー・セジュスキーと私はこう考えました。「記憶を保存しているニューロンだけでなく、他にもたくさんのニューロンがあったら、それらすべてのニューロンを使って記憶を復元するアルゴリズムを見つけられるだろうか?」そして最終的に、ボルツマン機械学習アルゴリズムを考案しました。このアルゴリズムには、非常に興味深い特性がありました。データを見せると、他のユニットをある程度満足のいく状態になるまで試行錯誤し、それが完了すると、2つのユニットが両方ともアクティブかどうかに基づいて、すべての接続の強度を高めていくのです。

また、入力を遮断し、脳が自由に動き回って満足できる状態に落ち着く段階も必要です。つまり、脳は空想にふけっている状態です。空想が終わったら、「活動しているニューロンのペアをすべて取得し、接続の強度を弱めてください」と指示します。

アルゴリズムの説明は手順としてしか説明していませんが、実際には、このアルゴリズムは「これらの接続文字列をどのように変更すれば、この隠れユニットを持つニューラルネットワークがデータに驚きを感じないようにできるだろうか?」という計算から生まれたものです。そして、このアルゴリズムには、入力がない状態で実行され、落ち着いた状態を学習解除する「ネガティブフェーズ」と呼ばれる別のフェーズが必要です。

私たちは毎晩何時間も夢を見ます。そして、私があなたを突然起こしても、あなたは今何を見ていたのかを私に伝えることができます。なぜなら、それはあなたの短期記憶の中に保存されているからです。つまり、あなたが何時間も夢を見ていることは分かっていますが、朝起きたとき、最後の夢は覚えていても、他の夢を全て覚えているわけではありません。これは幸運なことです。なぜなら、それらを現実と間違えてしまう可能性があるからです。では、なぜ私たちは夢を全く覚えていないのでしょうか?クリックの考えは、夢を見ることの本質は、それらのことを忘れ去ることにあるというものでした。つまり、学習を全て逆転させるのです。

テリー・セジュスキーと私は、これがボルツマンマシンの最大尤度学習法であることを示しました。これが夢の理論の一つです。

NT:他の理論についてもお伺いしたいのですが、実際にディープラーニングのアルゴリズムを夢を見るように設定したことはありますか?この画像データセットを一定期間学習し、リセットして、また学習し、リセットする、といった具合です。

GH:はい、機械学習アルゴリズムはありました。隠れユニットの処理方法を学習できる最初のアルゴリズムの一つはボルツマンマシンでした。これは非常に非効率的でした。しかし後になって、それらを近似して効率的に学習する方法を見つけました。そして、これが実はディープラーニングを再び軌道に乗せるきっかけとなったのです。当時、特徴検出器の1層を学習したのはボルツマンマシンでした。これは効率的な制限付きボルツマンマシンでした。つまり、一種のアンラーニングを行っていたのです。しかし、このアルゴリズムはスリープ状態に入るのではなく、各データポイントの後に少しの間空想にふけるだけでした。

NT:なるほど、アンドロイドは電気羊の夢を見るんですね。それでは、2、3、4の仮説を見てみましょう。

GH:理論2は「覚醒睡眠アルゴリズム」と呼ばれていました。生成モデルを学習するということです。つまり、データを生成できるモデルを構築するという考え方です。このモデルは特徴検出器の層を持ち、高レベルと低レベルの検出器をアクティブにし、ピクセルをアクティブにするまでこれを繰り返します。これが画像です。また、逆の学習も必要です。つまり、データを認識することも必要です。

つまり、2つのフェーズを持つアルゴリズムになります。ウェイクフェーズでは、データが入力されると、それを認識しようとします。そして、認識に使用する接続を学習するのではなく、生成的な接続を学習します。つまり、データが入力されると、隠れユニットを活性化します。そして、それらの隠れユニットがデータを再構成する能力を向上するように学習します。つまり、すべての層で再構成を学習するのです。しかし、問題は、順方向の接続をどのように学習するかということです。つまり、順方向の接続がわかれば、再構成を学習できるため、逆方向の接続も学習できるということです。

さて、後方接続を使えば前方接続を学習できることも分かりました。なぜなら、上から始めてデータを生成するだけで済むからです。データを生成したということは、全ての隠れ層の状態が分かっているので、それらの状態を復元するための前方接続を学習できます。これがスリープフェーズです。入力をオフにすると、データが生成され、そのデータを生成した隠れユニットを再構築しようとします。つまり、トップダウン接続が分かっていれば、ボトムアップ接続を学習します。ボトムアップ接続が分かっていれば、トップダウン接続を学習します。では、ランダム接続から始めて、両方を交互に試すとどうなるでしょうか。うまく機能させるには、様々なバリエーションを試す必要がありますが、それでもうまくいきます。

NT:では、残りの2つの理論についてもお話しいただけますか?残り時間は8分しかないので、他の質問に移りましょう。

GH:もう 1 時間いただければ、他の 2 つのこともできます。

NT:では、今後の展望についてお聞かせください。あなたの研究はどこへ向かっていますか?現在、どのような問題を解決しようとしていますか?

GH:結局、完成しないものに取り組んでしまうものです。私もおそらく、決して完成しないものに取り組んでいると思います。それは「カプセル」と呼ばれるもので、再構成を用いて視覚知覚を行う理論、そして情報を適切な場所に送る方法についての理論です。標準的なニューラルネットワークでは、情報、つまり層内の活動は自動的にどこかに送られます。どこに送るかを決める必要はありません。カプセルのアイデアは、情報をどこに送るかを決定するというものでした。

私がカプセルの開発に取り組み始めてから、Googleの優秀な人材がトランスフォーマーを発明しました。トランスフォーマーも同じことをしています。彼らは情報をどこにルーティングするかを決定しており、これは大きな成果です。

カプセルを発明したもう一つの動機は座標系でした。人間は視覚を使う時、常に座標系を使っています。もし間違った座標系を物体に当てはめてしまうと、その物体を認識すらできなくなります。そこで、ちょっとした課題を出しましょう。四面体を想像してみてください。三角形の底面と3つの三角形の面があり、すべて正三角形です。想像しやすいでしょう?では、それを平面で切って、正方形の断面を作るところを想像してみてください。

そんなに簡単じゃないですよね?スライスするたびに三角形になります。どうやって正方形になるのかは一目瞭然ではありません。全く一目瞭然ではありません。いいでしょう、では同じ形を別の形で説明してみましょう。ペンが必要です。こんなペンを1本、こんな直角のペンをもう1本用意して、このペンのすべての点をこのペンのすべての点に結んだらどんな形になるか想像してみてください。それが正四面体です。

わかりました。これは別の座標系を基準にしています。正四面体の辺、この2辺が座標系と一直線になっています。このように正四面体を考える場合、上部にはこのように細長い長方形があり、下部にもこのように細長い長方形があり、中央に正方形があることは明らかです。つまり、これをどのようにスライスすれば正方形になるかは明らかですが、それはこの座標系で考える場合に限られます。

したがって、人間にとって、座標フレームは知覚にとって非常に重要であることは明らかです。

NT:しかし、モデルに座標フレームを追加することは、システムを監視なしにするのではなくシステムにルールを入れようとした 90 年代の誤りとどう違うのですか?

GH:まさにその誤りです。そして、私はそれがひどい誤りだと強く主張しているので、少しだけそれを犯しても許されています。まるでニクソンが中国と交渉しているようなものです。実際、それは私を不利な立場に置いています。

NT:つまり、現在のタスクは視覚認識に特化したものですか、それとも座標フレームのルールセットを作成することで改善を図る、より一般的な方法なのでしょうか?

GH:他の用途にも使えますが、視覚認識への利用にとても興味があります。

NT:ディープラーニングはかつては明確な概念でした。その後、「AI」と同義語になり、今ではAIは基本的に機械を何らかの形で使うことを意味するマーケティング用語になっています。この技術の創造に貢献したあなたは、この用語についてどのようにお考えですか?

GH: AIがあった頃の方がずっと幸せでした。AIというのは、論​​理に導かれて記号列を操作する技術でした。ニューラルネットワークがあった頃は、ニューラルネットワークで学習をしたいと思っていました。この2つの分野はそれぞれ全く異なる分野で、あまりうまくいかず、金銭をめぐって争っていました。そういう風に私は育ちました。そして今、ニューラルネットワークはナンセンスだと何年も言い続け、「私はAIの教授だからお金が必要だ」と言っている人たちを見かけます。本当に腹立たしいです。

NT:つまり、あなたの分野が成功し、ある意味で他の分野を飲み込んだり併合したりして、資金を要求する際に彼らに有利な状況を与えてしまったのですね。これは残念なことです。

GH:ええ、今では完全に公平とは言えません。なぜなら、実際に多くの人が改宗しているからです。

NT:さて、もう1つ質問させてください。あるインタビューでAIについてお話された際、あなたは「AIはバックホーのようなものだと考えてください。バックホーは穴を掘る機械ですが、適切に設計されていなければ、人間を全滅させる可能性もあります」とおっしゃっていました。重要なのは、バックホーを操作する際に、穴を掘ることに最も効果的で、頭をぶつけるような設計ではないということです。ご自身の仕事について考える際、どのような点に配慮した選択をされているのでしょうか?

GH:意図的に武器を作ることはないと思います。例えば、人の頭を吹き飛ばすのに非常に優れたバックホーを設計することはできますが、それはバックホーの間違った使い方だと思いますし、私はそのような仕事はしません。

NT:わかりました。ジェフリー・ヒントンさん、素晴らしいインタビューでした。色々な情報を得ることができました。来年また戻ってきて、夢の理論3と4についてお話したいと思います。

訂正、2019年6月3日午後6時40分: この記事の以前のバージョンでは、研究者のニック・フロスト氏の名前のスペルが間違っていました。


WIREDのその他の素晴らしい記事

  • インターネットは占星術を変えた。そしてミームが登場した。
  • 人工知能は人類を強化するのか、それともハッキングするのか?
  • 私が小さな偽物のノキアを愛する理由
  • Wazeは私たち全員がカープールで成功できるようにしたい
  • ウィンターフェルの戦い:戦術分析
  • 📱 最新のスマートフォンで迷っていますか?ご心配なく。iPhone購入ガイドとおすすめのAndroidスマートフォンをご覧ください。
  • 📩 次のお気に入りのトピックについてさらに詳しく知りたいですか?Backchannelニュースレターにご登録ください