囲碁のチャンピオンを破ったプログラムの開発に携わったディープマインドのデビッド・シルバー氏は、機械、そして人間が知識を獲得する上で報酬が中心的な役割を果たすと考えている。

写真:ベン・ピーター・キャッチポール/DeepMind
デビッド・シルバー氏は、近年、注目を集める人工知能のデモンストレーションを数多く手がけ、昨年の「AIの冬」の後にこの分野への関心を復活させるのに貢献した進歩に取り組んでいます。
アルファベットの子会社であるディープマインドで、シルバー氏は、かつては解決不可能と思われた問題をコンピューターが自ら解決する方法を学習できる技術の開発を主導してきた。
最も有名なのは、2017年に公開されたプログラム「AlphaGo」です。このプログラムは、古代のボードゲームである囲碁を自ら学習し、グランドマスターレベルまで達しました。囲碁はあまりにも繊細で本能的な動きをするため、従来のプログラミングでは制御できませんが、AlphaGoは練習とポジティブな報酬、つまり「強化学習」と呼ばれるAI技術によって囲碁の打ち方を学習しました。
2018年、シルバー氏らは、囲碁だけでなく、チェスや将棋の上級者向けのプレイを学習できる、より汎用的なプログラム「AlphaZero」を開発しました。そして2019年11月、DeepMindはMuZeroの詳細を発表しました。MuZeroは、これらのゲームやその他のゲームのプレイを学習しますが、重要なのは、事前にルールを知らなくてもプレイできるという点です。
シルバー氏はロンドンからZoomでシニアライターのウィル・ナイト氏と会い、MuZero、強化学習、そしてAIのさらなる進歩の秘訣について議論しました。この記録は、長さと明瞭性を考慮して編集されています。
WIRED:MuZeroに関する研究が本日Nature 誌に掲載されました。ご存じない方のために、なぜそれが重要なのか教えてください。
デイビッド・シルバー: MuZeroの大きな進歩は、環境のダイナミクスを指示しないことです。MuZeroは自ら環境を理解し、事前に計画を立て、最も効果的な戦略を見つけ出さなければなりません。私たちは現実世界で機能するアルゴリズムを望んでいますが、現実世界は複雑で混沌としており、未知の世界です。ですから、チェスのようにただ先を読むだけではだめです。世界の仕組みを自分で学ばなければなりません。
MuZero、AlphaGo、AlphaZeroは実際にはゼロからスタートしているわけではないと指摘する声もあります。これらのゲームは、特定のタスクの実行方法を学習するために、賢い人間が作成したアルゴリズムを使用しているのです。これは本質を見失っているのではないでしょうか。
実際、そうだと思います。真に白紙の状態などあり得ません。機械学習には「ノー・フリーランチ定理」という定理さえあります。何かから始めなければ何も進まない、というものです。しかし、今回の場合はまさに白紙の状態です。ニューラルネットワークに与えているのは、ゲームの勝敗やスコアといったフィードバックだけで、ニューラルネットワークは自ら世界を理解する必要があるのです。
皆さんが気づいたことの一つは、MuZeroにそれぞれの状況における有効な動きを指示しているということです。しかし、未知の世界における問題を解決しようとする強化学習では、通常は何ができるかを事前に指示されていると想定されます。エージェントに利用可能な選択肢を指示し、エージェントはその中から一つを選択するのです。
これまでの私たちの取り組みを批判されるかもしれません。現実世界は非常に複雑で、私たちは人間の脳のようにあらゆる状況に適応できるものを構築できていません。ですから、それは正当な批判です。しかし、MuZeroはまさに自らモデルを構築し、それを第一原理から理解する方法を模索している段階だと思います。
DeepMindは最近、AlphaZeroの技術を用いて、タンパク質が折り畳まれる形状を予測するという重要な実用的問題を解決したと発表しました。MuZeroが最初に大きな影響を与えるのはどこだと思いますか?
もちろん、MuZeroを現実世界の問題に適用する方法を検討しており、初期段階では有望な結果が得られています。具体的な例を挙げると、インターネット上のトラフィックは動画が大部分を占めており、これらの動画をいかに効率的に圧縮するかが大きな未解決問題となっています。動画を圧縮する非常に複雑なプログラムが存在するため、これは強化学習の問題と考えることができますが、その先に何が起こるかは未知数です。しかし、MuZeroのようなものをこのプログラムに組み込むと、動画圧縮に使用されるビット数の5%程度といった、かなりのデータ量を節約できるという点で、初期結果は非常に有望です。
長期的には、強化学習が最も大きな影響を与えるのはどこだと思いますか?
ユーザーが目標を可能な限り効率的に達成できるよう支援するシステムを考えています。それは、ユーザーが目にするすべてのものを認識し、ユーザーと同じ感覚をすべて備え、人生における目標達成を支援する、非常に強力なシステムです。これは非常に重要なシステムだと思います。もう一つの変革的なシステムは、長期的な視点で見ると、パーソナライズされたヘルスケアソリューションを提供できるものです。プライバシーや倫理的な問題への対処は必要ですが、これは大きな変革をもたらす価値を持つでしょう。医療のあり方と人々の生活の質を一変させるでしょう。
あなたが生きている間に機械が学習するようになると思うことはありますか?
具体的なタイムスケールは設定しませんが、人間が達成できることはすべて、最終的には機械でもできると考えています。脳は計算プロセスであり、そこに魔法のようなものがあるとは考えていません。
人間の脳と同じくらい効果的で強力なアルゴリズムを理解し、実装できる段階に到達できるでしょうか? まあ、どれくらいのタイムスケールになるかは分かりませんが、その道のりは刺激的だと思います。そして、私たちはそれを達成することを目指すべきです。その道のりの第一歩は、そもそも知能を達成するとはどういうことなのかを理解しようと努めることです。知能を解決することで、私たちはどのような問題を解決しようとしているのでしょうか?
実用化を超えて、チェスやアタリのようなゲームをマスターすることから真の知能へと進化できるという自信はありますか?強化学習が常識的な理解力を持つ機械につながると考える根拠は何ですか?
「報酬で十分」仮説と呼ばれる仮説があります。これは、知能の本質的なプロセスは、報酬を最大化しようとするシステムと同じくらい単純であり、目標を達成しようとし、報酬を最大化しようとするそのプロセスは、自然知能に見られる知能のあらゆる特性を生み出すのに十分であるというものです。これは仮説であり、真偽は定かではありませんが、研究の方向性を示すものと言えるでしょう。
常識を具体的に取り上げると、「報酬で十分」という仮説によれば、常識がシステムにとって有用であるならば、それは実際にシステムの目標をよりよく達成するのに役立つはずであるということになります。
あなたの専門分野である強化学習は、ある意味で知能の理解、あるいは「解決」に不可欠なものだとお考えのようですね。そうでしょうか?
これは本当に重要なことだと私は考えています。大きな疑問は、それが本当かどうかです。なぜなら、これは多くの人がAIについて抱いている考えとは明らかに相反するからです。AIとは、知能には非常に複雑なメカニズムの集合体であり、それぞれが解決すべき問題の種類や独自の動作方法を持っている、あるいは常識のようなものにさえ明確な問題定義がない、というものです。この理論は、そうではなく、知能全体について考えるための非常に明確でシンプルな一つの方法があるかもしれないと主張しています。それは、知能は目標最適化システムであり、もし私たちが目標を本当にうまく最適化する方法を見つけることができれば、他のすべてのものはそのプロセスから生まれるだろう、というものです。
強化学習は数十年前から存在していますが、しばらくの間は行き詰まりのように見えました。実際、あなたの昔の指導教官の一人が、あなたに強化学習に取り組むのをやめさせようとしたと聞いています。なぜ彼女を無視して研究を続けたのですか?
多くの人は、強化学習をAIで解決すべき多くの問題を解決するために適用できる多くの手段の一つと見なしています。しかし、私はそうは考えていません。強化学習はAI全体だと捉えています。知能を可能な限り正確に記述しようとするなら、強化学習は本質的に、私たちが知能と真に意味するものを特徴づけるものだと考えています。そして、一度そう考えると、「これに取り組まないわけにはいかないだろう?」と思うでしょう。もしこれが本当に知能と真に意味するものに最も近いものなら、もしこれを解決できれば、知能を解明できるはずです。

超スマートなアルゴリズムがすべての仕事をこなせるわけではありませんが、これまで以上に速く学習し、医療診断から広告の提供まであらゆることを行っています。
私がこれまで行ってきた研究を見れば、一貫してその問題に焦点を当ててきたことがわかります。囲碁のような問題に取り組む際、その過程で知能とは何かを学んでいきます。強化学習とは、エージェントが他のあらゆる能力、つまり必要なあらゆる知能を獲得できるようにする能力と考えることができます。AlphaGoのようなゲームにも、その一端が見られます。AlphaGoでは、ただゲームに勝つことだけを要求したにもかかわらず、人間がかつて専用のサブシステムを用意していた終盤や序盤といったあらゆることを学習したのです。
DeepMindには、AlphaGoのような大規模なデモンストレーションをもう一度行うようプレッシャーを感じていますか?そのようなプレッシャーを感じますか?
素晴らしい質問ですね。私たちは、地位も資金も、あらゆる面で非常に安定しているという意味で、非常に恵まれた立場にあると感じています。
新たな大規模デモンストレーションを構築しようとする唯一のプレッシャーは、汎用知能の実現に向けて前進したいという意欲です。これは、スタートアップで資金確保に奔走しているときや、学術界で助成金などを獲得しようとしているときには得られない、真の特権です。
強力なAIシステムの動作には、膨大な計算能力が必要になっています。これがAIの進歩を阻害するのではないかと懸念していますか?
MuZeroの話に戻りますが、これは計算量に応じて非常に良好かつスムーズにスケールするアルゴリズムの例です。Atariで実験を行ったところ、非常に控えめな計算量(GPU 1個分を2週間程度)でも非常にうまく動作し、人間の能力をはるかに超えるパフォーマンスが得られることが示されました。
現在利用可能なすべての計算能力を合計すると、人間の脳に匹敵するレベルに達することを示唆する数字があります。つまり、よりスマートなアルゴリズムを開発する必要があるということです。
しかし、MuZeroの優れた点は、独自のモデルを構築することで、世界の仕組みを理解し始め、物事を想像し始めていることです。そして、その想像力こそが、計算力を活用して未来を見据え、次に何が起こるかを想像する手段となるのです。
一部の軍事請負業者は、強化学習を活用して より優れた兵器システムを構築しています。これについてどうお考えですか?ご自身の研究成果の一部は公開すべきではないと考えたことはありますか?
私はあらゆる殺傷兵器へのAIの使用に反対しており、自律型致死兵器の禁止に向けてもっと前進してほしかったと思っています。DeepMindとその共同創業者は、「自律型致死兵器誓約」に署名しており、この誓約は、攻撃技術は常に適切な人間の制御下に置かれるべきであるという同社の信念を概説しています。
しかし、私たちは、私たちの手法を適切に公開することが科学の基礎であり、汎用 AI アルゴリズムの開発が、多くの有益な応用を通じて社会全体の利益を高めることになると信じ続けています。
WIREDのその他の素晴らしい記事
- 📩 テクノロジー、科学、その他の最新情報を知りたいですか?ニュースレターにご登録ください!
- WIREDが2020年に読んだ最も興味深い本
- QuantumScape は 40 年来のバッテリー問題を解決したのでしょうか?
- 死、愛、そして100万個のバイクの部品の慰め
- ウェブ検索をより快適にするブラウザ拡張機能
- 国を救いたかった詐欺師
- 🎮 WIRED Games: 最新のヒントやレビューなどを入手
- 🎧 音に違和感を感じたら、ワイヤレスヘッドホン、サウンドバー、Bluetoothスピーカーのおすすめをチェック!

ウィル・ナイトはWIREDのシニアライターで、人工知能(AI)を専門としています。AIの最先端分野から毎週発信するAI Labニュースレターを執筆しています。登録はこちらから。以前はMIT Technology Reviewのシニアエディターを務め、AIの根本的な進歩や中国のAI関連記事を執筆していました。続きを読む