你知道“现代计算机之父” 冯·诺依曼提出的博弈论吗？

你是，我是 aoho。今天和大家聊聊最近所用到博弈论的相关理论和算法，准备几篇文章来具体介绍下博弈论。

后面文章会涉及到博弈论，纳什均衡的数学定义以及案例分析计算，提前预告。

本文是博弈论的第一篇介绍，尽量使用通俗的语言能够介绍清楚博弈论是什么。

关于博弈论

冯·诺依曼不仅是“现代计算机之父” ，他还是“博弈论之父”，于 1944 年提出了博弈论。

博弈论又称对策论，既是现代数学的一个新分支，也是运筹学的一个重要学科。是处理各类带有冲突因素的数学分支，或者说是冲突环境下的决策理论。

博弈论在 Osborne & Rubinstein 书中的定义为：一个分析工具包，它被设计用来帮助我们理解所观察到的决策主体相互作用时的现象。这种理论隐含的基本假设是：决策主体追求确定的外部目标并且考虑他们自身的知识或其他决策主体行为的期望。

这样讲或许有些抽象，其实博弈论博弈论的应用非常广泛，在金融证券学（比如炒股）、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有应用。一些经典的案例，如囚徒困境、智猪博弈和普通范式博弈等。

学习博弈论有用吗？

先说结论：日常生活中，一般情况下没有太大用处。

可以找到的一些资料的结论是，博弈论对个人/集体/国家来说，有利于让个人/集体/国家做出合理决策，使得个人/集体/国家收益最大。

事实上，博弈论是一系列的“多人决策模型”，是一个非常强大的理论，可以帮助我们理解很多东西，比如人类进化，道德进化等等。

但是生活中具体的博弈，学博弈论的用处并没有那么。

比如勤劳明明可以获取更多成果，但是为什么每个人都会有懒惰呢？你可以留言你的答案。

博弈论都假设所有的参与者都是理性的（我知道你知道我知道你知道，就是说我知道你是理性的，我还知道你知道我是理性的...）。

这里提到了纳什均衡，就是在假定下，给定他人的策略，自己的策略是最优的。问题是如果有人不用纳什均衡策略，我用纳什均衡策略通常不是最优的。

另一个问题是，我们每一次博弈都会考虑对手的行为。具体博弈的时候，我们最想知道的其实是对手的策略，但是很多时候我们不知道，比如竞标。

你用博弈论分析，不怎么靠谱。生活中博弈困难在于获取对手信息，有信息情况下做出策略是很容易的，或者说我们天生就是一个不错的博弈者。博弈论本质是对博弈策略的分析，并不是教我们如何去博弈，如何获取对手信息，而是从更宏大的层面理解人类行为。

回归到问题，那是不是没有必要学习博弈论。答案是否定的，博弈论在生活中虽然没有显性的用处，却在潜移默化中改变了我的思维方式，比如，换位思考。经过长时间的博弈论训练，使得我们本能地换位思考。博弈论里经常有这样的情况，想让自己的决策最优，先考虑给定自己的决策对方如何最优。

博弈论的历史

博弈论的起点现在普遍认为是 1944 年冯·诺伊曼、摩根斯坦恩合著的《博弈论与经济行为》。博弈论思想古已有之，博弈论最初主要研究象棋、桥牌、赌博中的胜负问题，人们对博弈局势的把握只停留在经验上，没有向理论化发展。中国古代的《孙子兵法》等著作就不仅是一部军事著作，而且算是最早的一部博弈论著作；以及 1838 年古诺提出的 “变量决策模型”，标准的博弈模型。

现代博弈理论由匈牙利大数学家冯·诺伊曼于20世纪20年代开始创立，1944 年他与经济学家奥斯卡·摩根斯特恩合作出版的巨著《博弈论与经济行为》，标志着现代系统博弈理论的初步形成。

1951年，纳什提出“纳什均衡”，并证明了均衡的存在性，塔克发展了“囚徒困境”，纳什和塔克的工作奠定了非合作博弈论的基础。
纳什的开创性论文《n人博弈的均衡点》（1950），《非合作博弈》（1951）等等，给出了纳什均衡的概念和均衡存在定理。此外，莱因哈德·泽尔腾、约翰·海萨尼的研究也对博弈论发展起到推动作用。今天博弈论已发展成一门较完善的学科。

20世纪60年代，赛尔顿提出子博弈完美纳什均衡。20世纪80年代，克瑞普斯和威尔逊研究了不完全信息动态博弈。到了 90 年代，博弈论的相关研究获取了诺贝尔奖。1994 年诺贝尔经济学奖授予3位博弈论专家开始，至今共有 7 届的诺贝尔经济学奖与博弈论的研究有关。

博弈论主要研究公式化了的激励结构间的相互作用，是研究具有斗争或竞争性质现象的数学理论和方法。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。

博弈论的基本要素概念

首先，我们了解一下博弈论的构成要素：

局中人：在一场竞赛或博弈中，每一个有决策权的参与者成为一个局中人。只有两个局中人的博弈现象称为“两人博弈”，而多于两个局中人的博弈称为“多人博弈”。
策略：一局博弈中，每个局中人都有选择实际可行的完整的行动方案，即方案不是某阶段的行动方案，而是指导整个行动的一个方案，一个局中人的一个可行的自始至终全局筹划的一个行动方案，称为这个局中人的一个策略。如果在一局博弈中局中人都总共有有限个策略，则称为“有限博弈”，否则称为“无限博弈”。
资源的得失：一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时的得失，不仅与该局中人自身所选择的策略有关，而且与全局中人所取定的一组策略有关。所以，一局博弈结束时每个局中人的“得失”是全体局中人所取定的一组策略的函数，通常称为支付（payoff）函数。
对于博弈参与者来说，存在着一博弈结果。
博弈涉及到均衡：均衡是平衡的意思，在经济学中，均衡意即相关量处于稳定值。在供求关系中，某一商品市场如果在某一价格下，想以此价格买此商品的人均能买到，而想卖的人均能卖出，此时我们就说，该商品的供求达到了均衡。所谓纳什均衡，它是一稳定的博弈结果。

博弈论研究的假设：

当然，博弈论是在一定的条件下，我们有如下的假设：

决策主体是理性的，最大化自己的利益；
完全理性是共同知识；
每个参与人被假定为对所处环境及其他参与者的行为形成正确信念与预期。

博弈的基本分类

博弈的分类根据不同的基准也有不同的分类。

一般认为，博弈主要可以分为合作博弈和非合作博弈。

合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议，如果有，就是合作博弈，如果没有，就是非合作博弈。

目前经济学家们现在所谈的博弈论一般是指非合作博弈，由于合作博弈论比非合作博弈论复杂，在理论上的成熟度远远不如非合作博弈论。非合作博弈又分为：完全信息静态博弈，完全信息动态博弈，不完全信息静态博弈，不完全信息动态博弈。与上述四种博弈相对应的均衡概念为：纳什均衡(Nash equilibrium)，子博弈精炼纳什均衡（subgame perfect Nash equilibrium），贝叶斯纳什均衡(Bayesian Nash equilibrium)，精炼贝叶斯纳什均衡(perfect Bayesian Nash equilibrium)。

从行为的时间序列性，博弈论进一步分为静态博弈、动态博弈两类：

静态博弈是指在博弈中，参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动；

动态博弈是指在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。通俗的理解："囚徒困境"就是同时决策的，属于静态博弈；而棋牌类游戏等决策或行动有先后次序的，属于动态博弈

按照参与人对其他参与人的了解程度分为完全信息博弈和不完全信息博弈。

完全博弈是指在博弈过程中，每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息。

不完全信息博弈是指如果参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息，在这种情况下进行的博弈就是不完全信息博弈。

博弈论还有很多分类，比如：以博弈进行的次数或者持续长短可以分为有限博弈和无限博弈；以表现形式也可以分为一般型（战略型）或者展开型，等等。

经典案例

“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：

情况划分如上图所示。囚犯或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。

那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子，他马上意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也会这样来设想他。所以A犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A 犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。

小结

到这里，本文对博弈论的基本介绍就结束了。你如果简单了解这个概念，可能比较轻松，但博弈论实际上具有很强的理论性。

最后介绍了案例。按照囚徒困境术语，不招的行为算作“合作”（和你的狱友合作，不是和警方合作），而招认的行为算作“背叛”。双方都合作最好，双方都背叛则两败俱伤。按照这个故事，合作根本不可能出现啊。现实中类似囚徒困境的场景常常出现。但是，更多的结局似乎是合作，而不是背叛。为什么？可能的原因是，困境不止这一次。后面的文章会继续分析。

bayesian perfect

0 人点赞