博弈论之纳什均衡与囚徒困境

时间 2020-12-29 标签神经网络 GAN 博弈论人工智能机器学习

一、前言

在博弈论中，纳什均衡（Nash equilibrium），又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。

1.1 博弈论

博弈论（英语：Game Theory），又译为对策论或赛局理论，是经济学的一个分支，1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》，标志着现代系统博弈理论的的初步形成，因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。
其中一个有名有趣的应用例子是囚徒困境。

1.2 纳什

约翰·福布斯·纳什（John Forbes Nash Jr.，1928年6月13日－2015年5月23日），美国数学家，前马萨诸塞理工学院摩尔荣誉讲师，主要研究博弈论、微分几何学和偏微分方程。晚年为普林斯顿大学的资深研究数学家。

1950年，22岁的纳什他以非合作博弈（Non-cooperative Games） 为题的博士论文毕业并获得美国普林斯顿大学的博士学位。他在仅仅28页的博士论文中提出了一个重要概念，也就是后来被称为“纳什均衡”的博弈理论，这成为博弈论中一项重要突破，并广泛运用在经济学、计算机科学、演化生物学、人工智能、会计学、政策和军事理论等方面，这些研究的四篇主要论文分别是：
【1】Equilibrium points in n-person games
【2】The Bargaining Problem
【3】Non-Cooperative Games
【4】Two–Person Cooperative Games

除了“纳什均衡”，他最重要的数学成就是在微分几何和偏微分方程的领域，特别是黎曼流形等距嵌入到欧氏空间的一系列结果。

在1959年之后，由于出现精神上的症状，他的研究生涯曾经中断，在1959年及1961年两度进入医院疗养，被诊断为思觉失调症。纳什拒绝接受精神药物治疗，在1970年后，症状逐渐好转，因此再度回到学术研究工作。他这段时间的经历，由Sylvia Nasar写成传记，并翻拍为电影《美丽心灵》，使得他的事迹广为人知。

2015年5月23日因车祸不幸身亡。

1.3 胆小鬼博弈

胆小鬼博弈（Chicken Game）是博弈论中一个影响深远的模型。其基本原理是，一个玩家让步对于双方都有好处，而玩家的最佳选择取决于其对手会做什么：如果对手让步，那本方就不应该让步，但如果对手不让步，本方就应该让步。简而言之就是“不要命的最大”。
“胆小鬼博弈”这一名称的由来的由来是一种危险的游戏，游戏中两名车手相对驱车而行。如果两人拒绝转弯，任由两车相撞，最终两人都会死于车祸；但如果有一方转弯，而另一方没有，那么转弯的一方会被耻笑为“胆小鬼”（chicken），另一方胜出，因此这博弈模型在英文中称为“The Game of Chicken”（懦夫游戏），该术语在政治学和经济学中普遍使用。收益矩阵用（X,X）表示，其可以用下表表示：

表1 博弈过程的收益矩阵

	示弱	死磕
示弱	（2，2）	（1，3）
死磕	（3，1）	（0，0）

认怂固然丢面子，但相比玉石俱焚的结果来说，保命显然更重要。因此对一个足够理性的人来说，应该在他能够控制的最后时刻选择果断认怂。而如果甲方相信乙方是一个足够理性的人的话，那他应该能够预料到乙方会在最后时刻放弃，所以甲方的最佳策略是死磕到底，对应的结果就是（3，1），类似的情况反转过来是（1，3）。当然要是双方都这么想的话，最后的结果很可能是（0，0）。

有趣的是，在胆小鬼博弈中当一方的选择受到了限制时，其赢面可能会变大。例如，甲方的方向盘被锁死，不得不选择死磕的话，乙方再傻也会知道识时务者为俊杰，选择认怂的结果 1要远好于同归于尽的 0。

通常，（3，1）和（1，3）被称为胆小鬼博弈的纳什均衡点，即在这个状态下，如果一方不改变其策略，不论对方采取什么策略都不会有更大收益。例如，对于（3，1）而言，甲方心意已决，就算乙方将对策由认怂改为死磕，结果也是两败俱伤而不会收益更高。类似的，如果乙方已经决定认怂，甲方不再死磕也选认怂的话，其收益将从 +1 变为 0。

这种博弈也被用于描述核战争中的相互保证毁灭，特别是古巴导弹危机。

参考：人类接近毁灭的危机：古巴导弹危机是怎么解决的？李永乐老师讲胆小鬼博弈

事实上，这也属于胆小鬼博弈：

1.4 囚徒困境

一个经典的囚徒困境描述如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯，分别审讯二人，并向双方提供以下选择：认罪并作证检控对方（坦白）或是抗拒。

若一人选择坦白，而对方选抗拒，则此人将立刻获得释放，另外一人将被判10年。

若二人都选择坦白，则二人同样判5年。若二人都选择抗拒，则二人同样判监1年。

我们可以用一张表格来表述：

表2 博弈过程的收益矩阵

	坦白	抗拒
坦白	（-5，-5）	（0，-10）
抗拒	（-10，0）	（-1，-1）

如果你是其中之一，只考虑尽量使自己服刑年份最小化的话，你会怎么选？我相信大部分的人会选择“坦白”，确实有太多理由让人选择坦白了，比如有人坚信对方会背叛你，而你不愿意选择抗拒而服刑10年，所以你选择坦白而服刑5年。他的理由对他来说已经很充分了，但是我们还需要考虑另一种情况，就是乙坚信甲不会背叛他，那么乙应该选择什么？乙还是应该选择坦白，因为乙选择坦白就能立即获释，而乙选择合作还需要服刑半年。在这种情况下，无论甲作何选择，对乙来说选择背叛总是优于选择合作，那么我们称坦白是乙的“优势策略”。无论是实验的事实还是简单的分析，都告诉我们背叛是每个人的最佳选择。
所以最终两个人都会选择坦白，而同服刑5年，这就是囚徒困境的结果。

1.5 智猪博弈

在博弈论中，“智猪博弈”是一个著名的纳什均衡的例子。
假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽，另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是谁按按钮就会消耗2个单位的体力。按钮和猪食槽在相反位置，按按钮的猪要付出2个单位的成本，并且丧失了先到槽边进食的机会。
若小猪先到槽边进食，因为体量较小，进食的速度一般，最终大小猪吃到食物的比率是6∶4；若同时到槽边进食，大猪进食速度加快，最终大小猪收益比是7∶3；若大猪先到槽边进食，大猪体量较大，最终大小猪收益比9∶1。
那么，在两头猪都有智慧的前提下，最终结果是：小猪选择等待，大猪去按按钮。
原因很简单：

二、纳什均衡

2.1 纳什均衡定义

纳什均衡（Nash equilibrium）是一个经济学上的概念，又称非合作博弈（Non-cooperative game）均衡，由诺贝尔经济学奖，博弈论创始人约翰·纳什提出。

2.2

纳什均衡是指在包含两个或以上参与者的非合作博弈中，假设每个参与者都知道其他参与者的均衡策略的情况下，没有参与者可以透过改变自身策略使自身受益时的一个概念解。

在一个博弈过程中，无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下，其选择的策略是最优的，那么这个组合就被定义为纳什均衡。
一个策略组合被称为纳什平衡，当每个博弈者的平衡策略都是为了达到自己期望收益的最大值，与此同时，其他所有博弈者也遵循这样的策略。

假设每个参与者都知道其他参与者的均衡策略的情况下，没有参与者可以透过改变自身策略使自身受益时的一个概念解。
在博弈论中，如果每个参与者都选择了自己的策略，并且没有玩家可以透过改变策略而其他参与者保持不变而获益，那么当前的策略选择的集合及其相应的结果构成了纳什均衡。即若 p i ( s ) = m a x r i [ p i ( s ; r i ) ] p i ( s ) = m a x r i [ p i ( s ; r i ) ] {\displaystyle p_{i}(s)=max_{r_{i}}[p_{i}(s;r_{i})]}p_{i}(s)=max_{{r_{i}}}[p_{i}(s;r_{i})] pi(s)=maxri[pi(s;ri)]pi(s)=maxri[pi(s;ri)]，则称s为纳什均衡点，其中： p i p i {\displaystyle p_{i}}p_{i} pipi为参与者i的收获（payoff）， s i s i {\displaystyle s_{i}}s_{i} sisi代表所有参与者之策略，{\displaystyle r_{i}}r_{i}代表参与者i的一种可能策略， ( s ; r i ) ( s ; r i {\displaystyle (s;r_{i})}(s;r_{i} (s;ri)(s;ri) 指参与者i单方面改变策略为 r i r i {\displaystyle r_{i}}r_{i} riri。

看到最后，或许你有些许收获，或许你一脸懵逼，但玩一局游戏再走吧，在这里，你能体会到博弈论的奥妙所在：信任的进化

参考：
【1】约翰·福布斯·纳什