ディープマインドの超人AIがチェスの遊び方を書き換える

ディープマインドの超人AIがチェスの遊び方を書き換える

AlphaZeroはチェスを機械のようにプレイするのではなく、人間のグランドマスターのようにプレイしますが、より優れています。

画像には人間、チェスゲーム、群衆が含まれている可能性があります

エドゥアルド・ムニョス・アルバレス/AFP/ゲッティイメージズ

1997年、IBMのディープ・ブルーが世界チャンピオンでチェスの伝説的人物、ガルリ・カスパロフを6ゲームで破って以来、チェスプレイヤーは機械の方がチェスが強いことを受け入れるようになりました。私たちは、これらの機械にチェスの遊び方を教えたという事実に、ある程度の安心感を覚えてきました。しかし不思議なことに、従来のチェスエンジンは人間によってプログラムされているにもかかわらず、人間のようにはプレイしません。

手作業で構築されたヒューリスティックスにもかかわらず、エンジンの優位性の根底にあるのは計算力、つまり膨大な数の動きを精査し、局面を解くための具体的な方法を見つけることです。当時、チェスのグランドマスターが雇われ、一連の典型的な局面を評価し、その評価に至った考慮事項を記述してもらいました。そしてプログラマーは、これらの考慮事項をさらに洗練されたヒューリスティックへと昇華させました。チェスプログラム、あるいはStockfishのような「エンジン」は、1秒間に約6000万局面を検索します。しかし、エンジンの解は、たとえそれが紛れもなく勝利につながる動きであっても、人間の目には醜く見えることがあります。

DeepMindの登場だ。Google傘下のAI企業、DeepMindのAlphaZeroは、ある矛盾を抱えている。AlphaZeroは、チェス(そして囲碁と将棋)の基本ルール以外の知識を一切持たない状態から、チェスを(そして囲碁と将棋も)自ら学習した。何百万回ものチェス対局を自ら行い、勝敗から有望な探索の道筋を発見することで、チェスの戦略を発展させた。また、対戦時のチェス盤上の位置探索はStockfishよりもはるかに少ない。その結果、人間のようなスタイルを持ちながら、超人的な強さを持つチェスプレイヤーが誕生した。

2018年11月にロンドンで開催された世界チェス選手権で、私たちはAlphaZeroと集中的に協力しました。ノルウェーのマグヌス・カールセンとアメリカのファビアーノ・カルアナがチェス盤の上で戦っている間、AlphaZeroは彼らの動きを評価し、代わりのアイデアを提案していました。

AlphaZeroは強化学習によって、独特ですぐに認識できるスタイルを獲得し、物質的なバランスを過度に考慮することなく、そのアイデアを直接的かつ効率的に実装します。人間のような進歩への意欲を持ち、決して立ち止まりません。興味深いことに、AlphaZeroのアイデアの多くは、何百年にもわたるチェスのプレイから得られた人間の一般的なルールと一致しています。しかし、AlphaZeroのひねり(ディープニューラルネットワークアーキテクチャによって実現)は、対戦相手のキングの制限など、私たちが些細または偶発的と見なしていた要素を、ゲーム全体の戦略に組み合わせることです。例えば、対戦相手のキングの位置に弱点を作るために、通常よりも早い行動を取り、その後、この弱点を残りのゲーム全体を通してモチーフとして利用します。

AlphaZeroが傍らにいると、まるで人間のチェスの天才がいつでも傍らにいるかのようでした。彼は決して疲れることなく、コーヒーを頼むこともありませんでした。「AlphaZero、道を見つけてくれ!」は世界選手権中、私たちの定番の掛け声となり、AlphaZeroは常に独創的な方法で局面を最適化する準備ができていました。従来のエンジンと比較したAlphaZeroの強みは、必ずしも計算量の多い局面ではなく、むしろ計算、局面の洞察、そして長期的な計画の組み合わせが求められる複雑な局面において発揮されました。私たちは特に、AlphaZeroが見通しのない受動的な局面に陥る危険性をどれほど敏感に察知し、そのようなシナリオを回避しようとどれほど熱心に取り組んでいるかに気づきました。

私たちの著書『ゲームチェンジャー:AlphaZeroの画期的なチェス戦略とAIの未来』では、DeepMindの技術チームと協力し、AlphaZeroの構築とトレーニングがどのようにしてその創造的で直感的なスタイルにつながったのかを解説しています。これには予想外の側面が数多くあります。例えば、AlphaZeroは、非常に浅い探索深度で、自身と対戦する超高速ゲーム(1手40ミリ秒)を大量にプレイすることでトレーニングを行います。

続きを読む: GoogleのDeepMindがStarCraftで弱小な人間たちを圧倒した方法

ここでトレードオフがあります。AlphaZeroは、より遅く質の高いゲームをプレイすることでより多くの学習ができると考えるかもしれません。しかし、ゲームのプレイ時間が短いほど、AlphaZeroはより多くのゲームを経験することになり、より多様な状況に遭遇し、より多くの学習が可能になります。また、より速いゲームはバランスが崩れ、決定的な結果を生み出す可能性が高くなります。AlphaZeroは、この結果を利用して、ゲームにおける意思決定につながったポリシーネットワーク内の接続を調整(強化または弱化)することができます。

現代のチェスのグランドマスターのトレーニング方法と40年前のトレーニング方法には興味深い類似点があります。40年前、「ブリッツチェス」――1対1のプレイヤーがわずか1~3分で行われる超高速ゲーム――は、時間の無駄であり、チェスのスキルに悪影響を与えるとして、忌み嫌われていました。しかし、現在のトップチェスプレイヤー、とりわけ世界チャンピオンのマグヌス・カールセンは皆、卓越したブリッツプレイヤーであり、定期的にオンラインのブリッツ大会に参加しています。

AlphaZeroがチェスの局面を評価する方法もまた興味深い点です。従来のエンジンは、特定の局面をマテリアル(チェスにおけるポーンと駒の一般的な用語)に基づく尺度で評価します。例えば、スコア+1.5はポーン1.5個分の優位性を示します。(チェスにおけるマテリアルの一般的な尺度は、ポーンが1点、ナイトとビショップが3点、ルークが5点、クイーンが9点です。)

AlphaZero は、勝利または引き分けの認識された可能性に基づいて、ポジションを確率的に評価します (実際のところ、ポーンと駒に何らかの値が割り当てられているかどうかさえわかりません)。これが、AlphaZero が目標を達成するためにポーンと駒を犠牲にすることをためらわない理由かもしれません。期待スコアが増加する場合、ポーンが 1 つまたは 2 つあることは問題になりません。

従来のエンジンの評価は、その局面で発見された最良のバリエーションを1つだけ反映します。AlphaZeroの評価は、その局面で考慮されるすべてのバリエーションの加重平均であり、最良のバリエーションを1つだけ反映するものではありません。これにより、AlphaZeroは、強い人間のプレイヤーのように細部まで計算することなく、ゲームを「直感的に」有利そうな状況へと導くことができ、対戦相手にとって常に危険とミスの可能性が付きまとう状況へと導くことができるようです。

AlphaZeroの強さと独創性には、本当に驚かされました。チェスには超人的なエキスパートシステムが溢れていますが、AlphaZeroは、その独創的な洞察が驚くべき価値を持つ未知の領域を発見しました。その未知の領域は非常に重要で、AlphaZeroはテスト当時最強のエキスパートシステムを圧倒することができました。この点を踏まえると、チェスほど研究が進んでいない環境において、AlphaZeroのような技術の応用は前向きに捉えざるを得ません。近い将来、世界選手権で科学者たちが私たちの叫びに応えてくれるかもしれません。「AlphaZeroよ、道を見つけてくれ!」

マシュー・サドラーとナターシャ・リーガンは、ニュー・イン・チェス社から出版された『ゲーム・チェンジャー』の著者である。

この記事はWIRED UKで最初に公開されました。

続きを読む