ジョン・ナッシュのゲーム理論の均衡概念は、じゃんけんではどのように見えるでしょうか?
じゃんけんは、誰がゴミ出しをするかを決めるのにとても効果的です。しかし、3本勝負ではなく、ただひたすらラウンドを重ねていくとどうなるか、気になったことはありませんか?最初は自分が有利になるパターンでプレイしますが、相手はすぐにそれに気づき、形勢逆転します。戦略が進化するにつれて、どちらの側もこれ以上優位に立てない局面に達します。なぜそうなるのでしょうか?

クアンタマガジン
オリジナルストーリーは、数学、物理科学、生命科学の研究の進展や動向を取り上げることで科学に対する一般の理解を深めることを使命とする、シモンズ財団の編集上独立した出版物であるQuanta Magazineから許可を得て転載されました。
1950年、数学者ジョン・ナッシュは、じゃんけんのように、プレイヤー数と選択肢が有限であるゲームにおいては、どのプレイヤーも単独で戦略を変えても勝敗を分けないような戦略の組み合わせが常に存在することを証明しました。こうした安定した戦略プロファイルの背後にある理論は「ナッシュ均衡」として知られるようになり、ゲーム理論の分野に革命をもたらし、経済学の方向性を変え、政治条約からネットワークトラフィックまで、あらゆる研究・分析の方法を変えました。そして、この理論によってナッシュは1994年のノーベル賞を受賞しました。
では、じゃんけんにおけるナッシュ均衡はどのようなものになるのでしょうか?あなた(プレイヤーA)と対戦相手(プレイヤーB)が何度もゲームを繰り返す状況をモデル化してみましょう。各ラウンドで勝者は1ポイントを獲得し、敗者は1ポイントを失い、引き分けは0ポイントとしてカウントされます。
さて、プレイヤーBが毎ターン「パー」を選ぶという(馬鹿げた)戦略を取ったとしましょう。数ラウンド勝ち負けを繰り返した後、あなたはパターンに気づき、毎ターン「チョキ」を選ぶという勝利へのカウンター戦略を取るでしょう。この戦略プロファイルを「チョキ、パー」と呼びましょう。もし毎ラウンド「チョキ vs. パー」と展開すれば、あなたは完璧な記録を叩き出すことができるでしょう。
しかし、プレイヤーBはすぐにこの戦略構成の愚かさに気づきます。あなたがハサミに頼っているのを見て、彼女は常に石を選ぶ戦略に切り替えます。この戦略構成(ハサミ、石)はプレイヤーBにとって勝ち始めます。しかし、当然のことながら、あなたはパーに切り替えます。ゲームのこの部分では、プレイヤーAとBはいわゆる「純粋」戦略、つまり単一の戦略を選択し、繰り返し実行する戦略を採用しています。
明らかに、ここでは均衡は達成されません。「常に石を選ぶ」といった純粋戦略に対しても、「常に紙を選ぶ」といった対抗戦略が採用され、戦略の変更を余儀なくされます。あなたと相手は、戦略の輪の中を永遠に駆け巡り続けることになるのです。
しかし、「混合」戦略を試すこともできます。1つの戦略だけを選ぶのではなく、各ラウンドで純粋戦略の中からランダムに1つを選ぶことができると仮定しましょう。「常に石を出す」のではなく、「半分は石、残りの半分はハサミを出す」という混合戦略も可能です。ナッシュは、このような混合戦略が許容される場合、このようなゲームには必ず少なくとも1つの均衡点が存在することを証明しました。では、それを探してみましょう。
では、じゃんけんにおける合理的な混合戦略とはどのようなものでしょうか?直感的に分かりやすいのは、「グー、パー、チョキを等確率で選ぶ」というものです。これは( 1 / 3,1 / 3,1 / 3 )と表されます。つまり、グー、パー、チョキがそれぞれ1/3の確率で選ばれるということです。これは良い戦略でしょうか?
さて、相手の戦略が「常に石を選ぶ」という純粋戦略で、(1,0,0)と表せるとします。Aの戦略プロファイルが( 1/3,1/3,1/ 3 ) 、 Bの戦略プロファイルが(1,0,0)の場合、ゲームはどのように展開するでしょうか?
ゲームをよりよく理解するために、各ラウンドで起こり得る9つの結果(Aが石、Bが石、Aが石、Bが紙など)の確率を示す表を作成します。下の表では、一番上の行がプレイヤーBの選択、一番左の列がプレイヤーAの選択を示しています。

表の各項目は、特定のラウンドにおいて、与えられた2つの選択肢が選ばれる確率を示しています。これは、各プレイヤーがそれぞれの選択を行う確率の積です。例えば、プレイヤーAが「紙」を選ぶ確率は1 / 3、プレイヤーBが「石」を選ぶ確率は1です。したがって、(Aが「紙」、Bが「石」)の確率は1 / 3 ×1= 1 / 3となります。しかし、(Aが「紙」、Bが「チョキ」)の確率は1 / 3 ×0=0です。これは、プレイヤーBが「チョキ」を選ぶ確率が0であるためです。
では、プレイヤーAはこの戦略プロファイルでどのように戦うのでしょうか?プレイヤーAは3分の1の確率で勝ち(パー、グー)、3分の1の確率で負け(チョキ、グー)、3分の1の確率で引き分け(グー、グー)となります。プレイヤーAが各ラウンドで平均的に獲得するポイント数は、それぞれの結果とそれぞれの確率の積の合計を計算することで計算できます。

これは、平均してプレイヤーAは1ラウンドあたり0ポイントを獲得することを意味します。勝敗と引き分けの確率は同じです。平均すると、勝敗数は均等になり、両プレイヤーは基本的に引き分けに向かいます。
しかし、すでに述べたように、相手が戦略を変えない限り、戦略を変えることでより良い結果を得ることができます。戦略を(0,1,0)(「毎回紙を選ぶ」)に変更すると、確率チャートは次のようになります。

プレイするたびに、あなたの「紙」が相手の「石」を包み、ラウンドごとに 1 ポイントを獲得します。
したがって、この戦略のペア(A の場合は ( 1 / 3、1 / 3、1 / 3 )、B の場合は (1,0,0))はナッシュ均衡ではありません。プレーヤー A は戦略を変更することで結果を改善できます。
これまで見てきたように、純粋戦略は均衡状態につながらないようです。しかし、相手が( 1 / 2 , 1 / 4 , 1 / 4 )のような混合戦略を試みた場合はどうなるでしょうか?これは「グーを半分、チョキをそれぞれ4分の1ずつ」という戦略です。これに対応する確率チャートを以下に示します。

さて、こちらはプレイヤー A の観点から見た「報酬」チャートです。これは、プレイヤー A が各結果に対して受け取るポイント数です。

2 つのチャートを掛け算で組み合わせて、プレイヤー A が各ラウンドで獲得する平均ポイント数を計算します。

16(0)+ 1 / 12 (−1)+ 1 / 12 (1)+16(1)+ 1 / 12 (0)+ 1 / 12 (−1)+16(−1)+ 1 / 12 (1)+ 1 / 12 (0)=0
平均すると、プレイヤーAは再びラウンドごとに0ポイントを獲得しています。前回と同様に、この戦略プロファイル(Aは( 1/3 , 1/3 , 1/3 )、Bは(1/2, 1/4 , 1/4 ))は引き分けに終わります。
しかし、前述と同様に、プレイヤーAは戦略を変えることで結果を改善できます。プレイヤーBの(1 / 2、1 / 4、1 / 4 )に対して、プレイヤーAは(1 / 4、1 / 2、1 / 4)をプレイするべきです。これは確率チャートで表されます。

Aの最終結果は次のとおりです。

1 / 8 (0) + 1 / 16 (-1) + 1 / 16 (1) + 14(1) + 1 / 8 (0) + 1 / 8 (-1) + 1 / 8 (-1) + 1 / 16 (1) + 1 / 16 (0) = 1 / 16
つまり、この戦略プロファイル(Aが(1/4,1/2,1/4)、Bが(1/2,1/4,1/4))では、プレイヤーAは平均して1ラウンドあたり1/16ポイントを獲得します。100ゲーム後、プレイヤーAは6.25ポイントの利益を得ます。プレイヤーAには戦略を変更する大きなインセンティブがあります。したがって、Aが( 1 / 3,1/3,1/3)、Bが( 1 / 2,1 / 4,1 / 4 )という戦略プロファイルもナッシュ均衡ではありません。
ここで、A の戦略 ( 1 / 3、1 / 3、1 / 3 ) と B の戦略 ( 1 / 3、1 / 3、1 / 3 )のペアを考えてみましょう。対応する確率チャートは次のとおりです。

対称性により、最終的な結果の計算が迅速に行えます。

繰り返しますが、あなたと対戦相手は引き分けを目指してプレイしています。しかし、ここでの違いは、どちらのプレイヤーにも戦略を変える動機がないということです。もしプレイヤーBが、例えば石のような、ある選択肢が他の選択肢よりも多くプレイされるような不均衡な戦略に切り替えたとしたら、プレイヤーAは単に紙をより頻繁にプレイするように戦略を変えるでしょう。これは最終的に、プレイヤーAにとって各ラウンドでプラスの結果をもたらすでしょう。これはまさに、プレイヤーAが上記のプレイヤーBの(1 / 2、1 / 4、1 / 4 )戦略に対して(1 / 4、1 / 2、1 / 4 )戦略を採用した際に起こったことです。
もちろん、プレイヤーAが(1/3,1/3,1/3)から不均衡な戦略に切り替えた場合、プレイヤーBも同様に有利になる可能性があります。したがって、どちらのプレイヤーも自身の戦略を変更するだけでは結果を改善できません。ゲームはナッシュ均衡に達しています。
ナッシュが証明したように、このようなゲームはすべて均衡点を持つという事実は、いくつかの理由から重要です。その理由の一つは、現実世界の多くの状況をゲームとしてモデル化できることです。個人の利益と集団の満足感の間で緊張関係に陥っている集団、例えば交渉や共有資源をめぐる競争などでは、戦略が採用され、利得が評価されることがよくあります。この数学モデルの普遍的な性質は、ナッシュの研究がこれほど大きな影響力を持つ理由の一つです。
もう一つの理由は、ナッシュ均衡は、ある意味ではすべてのプレイヤーにとってプラスの結果であるということです。ナッシュ均衡に到達したプレイヤーは、自身の戦略を変えてもより良い結果を得ることはできません。すべてのプレイヤーが完全に協力して行動すれば、より良い集団的結果が達成される可能性はありますが、もし自分がコントロールできるのが自分自身だけであれば、ナッシュ均衡に到達することが、合理的に期待できる最善の結果と言えるでしょう。
したがって、経済的インセンティブパッケージ、税法、条約パラメータ、ネットワーク設計といった「ゲーム」が、ナッシュ均衡、すなわち個人が自己の利益のために行動し、最終的に全員が満足できるものを得てシステムが安定する状態に終わることを期待するかもしれない。しかし、これらのゲームをプレイする際に、プレイヤーが自然にナッシュ均衡に到達すると想定するのは合理的だろうか?
そう考えたくなるかもしれません。じゃんけんゲームでは、どちらのプレイヤーも完全にランダムにプレイするよりも良い結果は得られないとすぐに推測できたかもしれません。しかし、それはプレイヤーの好みが他のプレイヤー全員に知られているからでもあります。つまり、各結果で他のプレイヤーがどれだけ勝ち、どれだけ負けるかは、全員が知っているのです。しかし、もし好みが秘密で、もっと複雑だったらどうなるでしょうか?
プレイヤーBがシザースに勝つと3ポイント、それ以外の勝利で1ポイントを獲得する新しいゲームを想像してみてください。これにより混合戦略が変化します。プレイヤーBは、プレイヤーAがシザースを選んだ場合に3倍の利益が得られることを期待して、石をより頻繁にプレイするでしょう。そして、ポイントの差はプレイヤーAの利益に直接影響を与えませんが、結果としてプレイヤーBの戦略が変化し、Aは新たな対抗戦略を講じることになります。
もしプレイヤーBの報酬がそれぞれ異なり、秘密だったとしたら、プレイヤーAがプレイヤーBの戦略を理解するにはある程度の時間がかかります。例えば、プレイヤーBがどれくらいの頻度で石を選んでいるかを把握し、どれくらいの頻度で紙を選ぶべきかを判断するには、プレイヤーAが数ラウンドを費やすことになるでしょう。
さて、100人がじゃんけんをしているところを想像してみてください。それぞれが99人の相手のうち何人をじゃんけんで倒したかによって異なる秘密の報酬を用意しています。均衡点に達するためにじゃんけんをするべき適切な頻度を計算するにはどれくらいの時間がかかるでしょうか?おそらく長い時間でしょう。もしかしたら、ゲームが続く時間よりも長いかもしれません。もしかしたら、宇宙の寿命よりも長いかもしれません!
少なくとも、たとえ完全に合理的で思慮深いプレイヤーであっても、優れた戦略を駆使し、自身の利益のために行動したとしても、このゲームにおいて最終的に均衡点に到達するかどうかは明らかではありません。この考えは、2016年にオンラインに投稿された論文の核心であり、あらゆるゲームにおいて、プレイヤーを近似的なナッシュ均衡点にさえ導くような統一的なアプローチは存在しないことを証明しています。これは、完璧なプレイヤーがゲームにおいて均衡点に向かわないという意味ではありません。実際、均衡点に向かうことはよくあります。これは単に、完璧なプレイヤーがゲームをプレイしているからといって、均衡点が達成されると信じる理由はない、という意味です。
交通網を設計する際、ゲームのプレイヤー、つまりそれぞれが最速の帰宅ルートを求める旅行者たちが、異なるルートを取ることで何の利益も得られない均衡状態を集団で達成することを期待するかもしれない。ジョン・ナッシュの見えざる手が彼らを導き、彼らの競合と協力の利害――可能な限り最短ルートを取りつつ交通渋滞を回避すること――が均衡状態を生み出すことを期待するかもしれない。
しかし、ますます複雑化するじゃんけんゲームは、なぜそのような希望が見当違いなのかもしれないのかを示している。見えざる手は一部のゲームを導くかもしれないが、他のゲームはそれに抵抗し、プレイヤーを手の届かない利益をめぐる終わりのない競争に閉じ込めてしまうかもしれない。
演習
- プレイヤーBが混合戦略(1 / 2、1 / 2、0 )を採用するとします。長期的に見て勝率を最大化するために、プレイヤーAはどのような混合戦略を採用すべきでしょうか?
- プレイヤーBが混合戦略(1 / 6、2 / 6、3 / 6 )を採用するとします。長期的に見て勝率を最大化するために、プレイヤーAはどのような混合戦略を採用すべきでしょうか?
- リスト項目
引き分けで両方のプレイヤーにポイントが与えられた場合、ゲームの流れはどのように変化するでしょうか?
オリジナルストーリーは、数学、物理科学、生命科学の研究の進展や動向を取り上げることで科学に対する一般の理解を深めることを使命とする、シモンズ財団の編集上独立した出版物であるQuanta Magazineから許可を得て転載されました。
ニューヨーク州ブルックリン出身の全国的に有名な高校教師、パトリック・ホナー氏が、最新の数学研究から得られた基本的な概念を紹介します。... 続きを読む