最近稍微了解了一下博弈论的一些基本概念,它本身是运筹学的一个分支,同时在经济学领域也是非常重要的一个科目,小到游戏设计,大到经济政治,很多案例都可以用博弈论的理论进行设计或者解释;博弈论的理论大都非常有意思甚至反直觉,了解博弈论的一些概念后可以帮助我们从更高的维度去看待生活中的一些事情;另一方面博弈论从数学上看其实还是属于优化问题,我们也可以从运筹优化的角度去理解博弈论的一些理论。这篇文章里我就摘录一些博弈论的概念,加上一点我自己的理解,当然作为非专业人士,可能有些理解偏差。

零和博弈

博弈论的英文名是Game Theory,正如它名字里的Game的意思,所有博弈论的案例我们都可以看成是一个多人竞争游戏:当只是单独一个个体做某个决策,没有其他任何竞争者的时候,和博弈论没关系;当存在两个以上的个体,他们存在了竞争关系,任何一个个体在做决策的时候,既希望自己获得的利益尽可能大,又需要考虑其他个体的决策,那这就是一个博弈的过程。一个博弈问题有这么几个关键要素:决策者(Player),也就是参与博弈的所有个体;策略(Strategy),就是每个个体在这次博弈中可选的行动;收益(Payoff),这次博弈的最终结果给每个个体带来的收益,可能为正,也可能为负。

博弈问题有多种分类方式,最常用的是按照总收益是否等于零来分类,如果所有决策者的总收益等于零,那么就是零和博弈(Zero-Sum Game),反之是非零和博弈(Non-Zero-Sum Game)。所有的赌博游戏就是零和博弈,有玩家赢钱,就有玩家输钱,大家的总钱数是固定的,所以赌博博弈的结果下所有人的收益总和一定等于零;非常经典的囚徒困境问题就属于非零和博弈,本文后面会详细介绍。

只有两个个体参与的零和博弈就是最简单的零和博弈问题模型,这里给出一个两人零和博弈的例子,方便后续的分析。假设一个足球球星找到经理,和他讨论合同续约的问题,这显然是一个零和博弈的过程,站在球星的角度,他自然希望合同的薪水越高越好,而经理则希望把合同的薪水尽可能压低,两者总的薪水收益是等于零的;对于球员来说,他在谈判时会有一些可能的策略,比如强调自己的实力,或者威胁转会,而对于经理来说,他也会有自己的策略,比如规定合同年限,或者限制球员的球队地位,双方不同的策略将决定出最终的合同。下面的收益表格可以很直观地表现该博弈的完整信息:

最左边的一列1和2是球星的策略选项,最上边一行的A, B, C是经理的策略选项,单元格中的数字代表了不同策略导致的合同薪资,例如如果球星选择策略1而经理选择策略A,那么最终合同的薪资是$50000。对于这个博弈问题,我们如何选择双方各自的策略,来找到一个全局利益最大化的解呢,也就是让球星和经理都满意的合同?

纯策略

所谓纯策略就是每个决策者都只坚持某个确定的策略,如果一个博弈可以通过纯策略就到达最优收益那么这个博弈就是一个纯策略博弈,我们用上面的例子来说明。

对于一个纯策略博弈,一种有效的求解方法是最小极大决策原则(Minimax Decision Criterion),这个原则的意思是每个决策者以最小化所有可能的最大损失的目的来选择策略,在上面的合同博弈例子里,对于球星,他选择策略遵循的原则是所有可能的最小收益中最大值对应的策略,如下图所示,如果他选择策略1,所有的收益中的最小值是30000,如果选择策略2,所有的收益中的最小值是20000,而30000是两者的最大值,所以对于球星来说,他应该选择策略1。我们可以直观验证一下,当球星选择策略1时,经理为了尽量压价可以选择策略C,这样薪资是30000;而如果球星选择策略2,经理对应的还会选择策略C,但此时合同只值20000了,相比较之下,显然选择策略1更保险

而对于经理来说,他的原则是所有可能的最大收益中最小值对应的策略,如下图所示,策略A时的最大
值是60000,策略B时的最大值是40000,策略C时的最大值是30000;30000是三者的最小值,因此经理应当选择策略C。同样可以直观地验证一下,如果经理选择策略A或者策略B,球星为了抬高合同,可以选择策略2,这时薪资(60000和40000)都比选择策略C的值要大,因此经理选择策略C是最稳妥的

可以看到球星和经理所选择的策略最终会导致那个$30000的合同,不过这个结果都在双方的预期之内,我们可以直观地验证下,假如球星改变了策略,改成策略2,但因为经理还保持着策略C,这将导致合同变成20000,对球星来说是不划算的;同样的,假如经理改变自己的策略,仍然只会导致对自己更不利的合同。所以这个博弈的结果是一个对双方而言相对最优的结果,双方都只明确了一次策略,就终止了博弈过程,所以说它是一个纯策略博弈。同时在学术上,将这种纯策略博弈的结果称之为均衡点(Equilibrium Point) 或者 鞍点(Saddle Point)

占优策略

在上面的例子里,我们可以很直接地观察到,对于经理来说,策略C可能的两种合同(30000和20000),比策略A和B的都要低,那么即使不采用上面说的Minimax Decision Criterion原则,选择策略C也是很显而易见的结果。我们称策略C是一个占优策略(Dominant Strategy),它主导( dominate)了策略A和策略B,那么在对经理的决策进行考虑时,可以直接将策略A和策略B对应的列消去,这可以让博弈的分析进一步简化

混合策略

上面的例子恰好是纯策略博弈,博弈的双方应用Minimax Decision Criterion原则选择的策略达到了一个均衡点;但是大部分情况下,博弈双方很难达到一个均衡点,也就是说没法通过纯策略直接达到一个双方都满意的博弈结果,这时候就会涉及到混合策略博弈的理论。

我们来看这个例子:公司I{\rm I}I和公司II{\rm II}II是两个处于竞争状态的公司,最近公司I{\rm I}I打算推出一款新的产品来扩张市场份额,对于公司I{\rm I}I来说,它会有一些策略来帮助推广产品;与之相对的,作为竞争者的公司II{\rm II}II,势必采取相对的措施来尽可能减少公司I{\rm I}I抢占的市场份额。这也是一个零和博弈的案例,因为市场份额是一定的,公司I{\rm I}I占的多一些,公司II{\rm II}II必然失去同样多的份额,下面的收益表表述了该问题,公司I{\rm I}I可以采取1,2和3策略,而公司II{\rm II}II可以采取A,B和C策略,收益表单元格的数字表示双方采取相应策略后导致的公司I{\rm I}I能多出的市场份额

我们首先还是尝试使用上一节纯策略中的方法来分析。首先看看收益表中是否存在占优策略从而简化博弈模型。可以发现,对于公司I{\rm I}I来说,策略2相对于1是占优策略;对于公司II{\rm II}II,策略B相对于A是占优策略,因此,可以将策略1对应的行和策略A对应的列消去

然后我们采取Minimax Decision Criterion原则来选择策略。对于公司I{\rm I}I,策略2时最小的收益是4,策略3时最小的收益是1,两者中4是最大值,因此应当选择策略2:

对于公司II{\rm II}II,策略B时的最大收益是8,策略C时的最大收益是7,那么对于公司I{\rm I}I应该选择策略C,这样尽可能地减少自己的损失:

现在综合两者的最终决策,策略2加策略C将导致最终的市场份额抢占数为4,这个结果公司II{\rm II}II很乐意看到,但是公司I{\rm I}I肯定是不满意的,那么这个博弈结果没有达到双方都满意的状态,也就是没有达到均衡点

此时对于公司I{\rm I}I来说,它顺理成章地会将策略改成3,因为这样可以将结果提升到7;但是公司II{\rm II}II也不会傻傻地原地不动,它看到公司I{\rm I}I采取了策略3导致了市场份额上升,它也可以立马将策略改到B,因为这样市场份额将降到1,这对公司II{\rm II}II是最有利的;以此类推,公司I{\rm I}I又会跟着将策略改成2,接着公司II{\rm II}II又改成策略C,这下回到了起点,然后这个双方的博弈过程将无休无止地进行下去,永远到不了终点。这意味着这不是个纯策略博弈,不存在纯策略结果,这是一个混合策略博弈

面对这种情况,研究者们将统计分析加入到了博弈之中,我们没法在每一局博弈中达到一个均衡点,但是我们可以把持续多次的博弈过程当成分析对象,从整体上分析问题,这个“整体”的指标自然就可以用统计中最常用的期望值(均值)来评价。下面介绍一种基于期望的混合策略方法:期望损益方法(Expected Gain and Loss Method)

期望损益方法

Expected Gain and Loss Method基于这样的原则:在一个混合策略博弈中,决策者制定策略计划使得无论对手如何决策,自己的期望收益(或者是损失)都是相同的,这个策略计划就是混合策略,因为它不是一成不变的。我们用这个原则来分析上面这个案例。对于公司I{\rm I}I,它需要考虑的是期望收益,我们定义ppp是公司I{\rm I}I选择策略2的概率,那么1−p1-p1−p则是选择策略3的概率;考虑公司II{\rm II}II的选择,如果公司II{\rm II}II选择策略B,那么公司I{\rm I}I的期望收益是:
8p+1(1−p)=1+7p8p+1(1-p)=1+7p 8p+1(1−p)=1+7p
如果公司II{\rm II}II选择策略C,公司I{\rm I}I的期望收益是:
4p+7(1−p)=7−3p4p+7(1-p)=7-3p 4p+7(1−p)=7−3p
按照期望损益法的描述,公司I{\rm I}I希望的结果是无论公司II{\rm II}II如何决策,它的期望收益都不变,也就是说要让:
1+7p=7−3pp=0.61+7p=7-3p\\ p=0.6 1+7p=7−3pp=0.6
也就是说,公司I{\rm I}I用60%的概率选择策略2,40%的概率选择策略3,可以达到期望损益法原则的目的。怎么理解这个概率呢,既可以理解成在每一次的博弈中用这个概率来选择策略,也可以理解成在多次博弈中,总共有60%次选择策略2,40%次选择策略3。计算一下这种策略的期望收益是多少:
EG=0.6∗8+0.4∗1=0.6∗4+0.4∗7=5.2EG=0.6*8+0.4*1=0.6*4+0.4*7=5.2 EG=0.6∗8+0.4∗1=0.6∗4+0.4∗7=5.2
同样的,我们来分析一下公司II{\rm II}II的决策。对于公司II{\rm II}II,它需要考虑的是期望损失,定义ppp是公司II{\rm II}II选择策略B的概率,1−p1-p1−p是公司II{\rm II}II选择策略C的概率,那么如果公司I{\rm I}I选择策略2,那么期望损失是:
8p+4(1−p)=4+4p8p+4(1-p)=4+4p 8p+4(1−p)=4+4p
如果公司I{\rm I}I选择策略3,那么期望损失是:
1p+7(1−p)=7−6p1p+7(1-p)=7-6p 1p+7(1−p)=7−6p
然后我们令:
4+4p=7−6pp=0.34+4p=7-6p \\ p=0.3 4+4p=7−6pp=0.3
所以,对于公司II{\rm II}II,应该采取30%概率策略B,70%概率策略C的混合策略,其期望损失:
EG=0.3∗8+0.7∗4=0.3∗1+0.7∗7=5.2EG=0.3*8+0.7*4=0.3*1+0.7*7=5.2 EG=0.3∗8+0.7∗4=0.3∗1+0.7∗7=5.2
因此,通过采用混合策略,两个公司可以在长期的博弈过程中达到期望收益的均衡点。

站在统计的角度,纯策略和混合策略的区别就在于概率,纯策略就相当于将选择概率集中在0和1,博弈的次数减少到了1次;混合策略是更一般的情况,针对的是多次的博弈过程,对策略的选择将不再固定,而是按一定概率选择

非零和博弈

与零和博弈相对的,非零和博弈就是竞争者总的收益并不等于零,囚徒困境就是一个很有名的非零和博弈问题。两个人因盗窃被捕,警察将犯罪嫌疑人分离审查,不允许他们之间互通消息,并交代政策如下:如果两个人都供认,那么两个人都会被判3年;如果两个人都拒供,则警方因为证据不足会将两个人都只判1年;如果一个人供认而另一个拒供,则供认者被认为有立功表现而免受处罚,拒供者将因抢劫罪,盗窃罪以及抗拒从严而被重判5年。与上面几个零和博弈的例子类似,囚徒困境也可以用下面的收益表来描述,不过因为竞争者之间的收益非零和,收益表中的单元格内需要用两个数字来描述双方各自的收益值。表中每个Prisoner有保持沉默(Silence)和招供(Confession)两个策略,收益表单元格内前一个数字表示给Prisoner I{\rm I}I的判刑年限,后一个表示给Prisoner II{\rm II}II的判刑年限,囚徒困境的问题中双方的目标是让自己判的年限尽可能小

对比上面列举的零和博弈案例,囚徒问题除了非零和的特点,还有一个非常重要的特点,即竞争者双方并不知晓对方的策略,这代表囚徒问题除了是一个非零和博弈问题,也是一个不完全信息博弈,正是因为竞争者双方不知道对方的策略选择,导致了纳什均衡的出现

纳什均衡

继续在囚徒问题上来分析纳什均衡的概念。对于每个囚犯,他选择策略的目标是让自己的判刑期尽可能少,并且他同时不知道对方策略如何选择,因此每个囚犯在分析自己的策略选择时,会考虑对方所有可能的策略,选择最有利于自己的策略。先来分析囚犯1,他先考虑如果对方选择Silence的情况,此时他的两种策略导致的刑期时1和0,那么选择策略Confession是更好的选择;如果对方选择Confession,此时他可选的策略导致的结果是5和3,那么选择策略Confession还是更好的选择,所以站在囚犯1的角度,他会采取Confession即招供的策略

同样的,站在囚犯2的角度,选择策略招供也是“理所当然”的

现在汇总两个囚犯的选择,发现最终导致的结果将是(3,3),双方都将被判3年,这个结果显然不是最好的结果(都判1年),也比他们各自预想的结果(无罪释放)要坏一点,不过总比判5年要好一点

那么假如给囚犯修改策略的机会,他们会如何选择呢? 对于囚犯1来说,如果他把策略改成沉默,同时囚犯2保持招供的策略,那么囚犯1的刑期将被判成5年,因为囚犯1无法确定对方是否会改变策略,他自己改变策略的话风险太高,最好就还是保持原来的招供策略;同样的,囚犯2也会这么考虑,依然保持原来的策略,结果就是双方坚持自己的策略,导致一个非最优的结果,这个情况就叫纳什均衡

纳什均衡的标准定义:博弈达到了一种任何参与者都无法在只改变自己的策略时使自己获利更多的状态,也就是说,如果其他对手没改变自己的策略,而只是自己改变策略,结果却无法得到更大的收益;用大白话去描述,就是大家处于僵持不下的胶着状态,谁也不愿意主动去改变策略。

显然,如果两个囚犯能够相互沟通,完全知晓对方的想法,那就能跳出纳什均衡了,因为大家愿意同时改变策略;不过在现实生活中,信息的不完全或者博弈参与者数量太多,很容易导致陷入纳什均衡,毕竟对我们来说宁可接受一个不那么好的非最优结果,也不愿意冒承担更坏结果的风险去改变自己的策略

帕累托最优

另一个常常和纳什均衡一块被提到的是帕累托最优(Pareto Optimal),也可以叫帕累托效率(Pareto Efficiency),该名字及概念来自意大利经济学家Vilfredo Pareto,他首先在经济学领域提出了这个概念,当时他发现大部分的社会经济政策只能给少部分人带去收益,其他大部分人却反而因此受损(二八定律,20%的人掌握了80%的财富,这也是帕累托提出的),他试图探究如何在不损害任何人的利益情况下让一些人获利,从而提出了帕累托最优的理论,之后这个概念又被引入数学上的多目标优化领域。一句话描述帕累托最优,就是没有任何决策者可以在不让其他决策者承担损失的前提下进一步获利的博弈状态,要详细描述,则需要引入一点其他名词:

  • 帕累托提升(Pareto Improvement):在当前博弈的结果之上,可以转换到一个更好的博弈结果,使得一些决策者的收益进一步加大,并且没有任何决策者的受损,那么这就叫帕累托提升
  • 帕累托支配(Pareto Dominate):如果存在帕累托提升,那么提升后的博弈结果就称之为帕累托支配于提升前的博弈结果,换句话说,如果结果A帕累托支配于结果B,就意味着在结果A下所有参与者的收益都不会少于结果B时的情况
  • 那么当博弈进入到了一个不存在任何帕累托提升的结果,那么当前这个结果就是一个帕累托最优
  • 帕累托前沿(Pareto Frontier):帕累托最优不是唯一的,一般都会存在多个帕累托最优的情况,那么所有的帕累托最优结果构成了帕累托前沿,或者说帕累托集合

回到囚徒问题这个例子,我们看看这四个判刑结果哪些是帕累托最优。首先两个囚犯都招供的结果(3,3),这是上面说的纳什均衡的情况,它显然不是帕累托最优,如果他们都保持沉默,则可以得到一个帕累托提升,两个人的刑期都减少到1了;来看(1,1)这个结果,(3,3)显然不能帕累托支配于它,而(0,5)和(5,0)虽然能让其中一人的刑期减到零,但另一个人的刑期却加大了,所以它们也构不成帕累托支配,因此(1,1)是一个帕累托最优结果;再看(0,5)这个结果,无论是跳转到(5,0),(3,3)还是(1,1),都只能让一个人刑期减少,另一个人刑期加大,所以它也不存在帕累托提升,是一个帕累托最优;同样的(5,0)也是帕累托最优

可见帕累托最优虽然带"最优"这两个字,但它其实只是描述了一个相对好的结果的集合,这个集合里具体哪个结果更好需要考虑实际情况了,在这个囚徒问题中,显然(1,1)是最好的结果

多目标优化

从数学的角度去看,博弈论也可以看成是多目标优化问题的求解。可以把博弈的决策看成是决策变量x\mathtt{x}x,而nnn个决策者就对应了nnn个目标函数f1(x),f2(x),...,fn(x)f_1(\mathtt{x}),f_2(\mathtt{x}),...,f_n(\mathtt{x})f1​(x),f2​(x),...,fn​(x),问题的目标是调整x\mathtt{x}x使得所有的目标函数尽可能大。这样纳什均衡的情况其实就是这个多目标问题的一个可行解,并且往往都不是一个局部最优解;而帕累托最优则是多目标优化问题里更值得讨论的课题,对于多目标优化问题,往往不存在一个绝对意义上的最优解,因为每个目标函数的权重需要根据实际情况来衡量,这时如果我们可以求出问题的帕累托解集合,那么可以按实际需要从解结合中选出最适合当前场景的解作为输出。

关于博弈论的一点笔记相关推荐

  1. 耶鲁大学 博弈论(Game Theory) 笔记6-纳什均衡之纳什均衡之伯川德模型与选民投票

    耶鲁大学 博弈论(Game Theory) 笔记6-纳什均衡之纳什均衡之伯川德模型与选民投票 目录 耶鲁大学 博弈论(Game Theory) 笔记6-纳什均衡之纳什均衡之伯川德模型与选民投票 伯川德 ...

  2. 耶鲁大学 博弈论(Game Theory) 笔记4-足球比赛与商业合作之最佳对策

    耶鲁大学 博弈论(Game Theory) 笔记4-足球比赛与商业合作之最佳对策 文章目录 点球博弈 结论 最佳对策定义 参与者针对对手策略的定义 广义定义 合伙人博弈 外部性 点球博弈 其中U1(4 ...

  3. 耶鲁大学 博弈论(Game Theory) 笔记6-纳什均衡之约会游戏与古诺模型

    耶鲁大学 博弈论(Game Theory) 笔记6-纳什均衡之约会游戏与古诺模型 目录 耶鲁大学 博弈论(Game Theory) 笔记6-纳什均衡之约会游戏与古诺模型 约会游戏 古诺双寡头模型 约会 ...

  4. StringBuilder与StringBuffer的一点笔记

    StringBuilder与StringBuffer的一点笔记 toStringCache toString() append(String str) toStringCache private tr ...

  5. 耶鲁大学 博弈论(Game Theory) 笔记1

    耶鲁大学 博弈论(Game Theory) 笔记1 博弈论主要研究策略形势即不完全竞争情况,策略形势被定义为行为影响结果,但结果不仅自身行为也取决于其他人的行为. 博弈论笔记1 summary 成绩游 ...

  6. MOOC-浙江大学-博弈论基础-学习笔记(一)

    MOOC-浙江大学-博弈论基础-学习笔记(一) 老师:蒋文华 知人者智,自知者明: 胜人者力,自胜者强: 小胜者术,大胜者德. 第一讲 概论 1.何为博弈? 博-博览全局, 奕-对弈棋局, 谋定而动! ...

  7. 动态博弈、威胁与承诺(博弈论入门学习笔记四)

    0 动态博弈 动态博弈:行动有先后顺序,不同的参与人在不同时点行动,先行动者的选择影响后行动者的选择空间,后行动者可以观察到先行动者做了什么选择.例如下棋.消费者和商家讨价还价.谈婚论嫁.企业之间的价 ...

  8. 博弈论(van♂游戏) 笔记

    博客观赏效果更佳 前言 会持续更新的呢,毕竟博弈论是个毒瘤啊. 其实不要以为博弈论很变态,它是很有趣的.能理解透的话,一点都不难.其实,博弈论的本质,就是教你van♂游戏啊! 从一个简单的问题(Nim ...

  9. tensorflow youtube的一点笔记

    最近在看TensorFlow的YouTube频道 https://www.youtube.com/tensorflow 内容挺多,不过只看一遍的话,基本过一遍也就都忘了,所以随手记下来一些概念,凭印象 ...

最新文章

  1. SpringBoot 实战定时任务 Scheduled
  2. CSS样式中” 大于号”
  3. 嵌入式 linux 启动脚本 编写,[9构建嵌入式linux系统项目-启动脚本的编写.ppt
  4. wince 本地播放器界面
  5. Xilinx_ISE和ModelSim的联合使用方法 / 从Xilinx ISE 14.7启动ModelSim时遇到的问题
  6. oracle基本笔记整理
  7. JavaScript实现向OL列表内动态添加LI元素的方法
  8. mysql查询表的列名主键_Oracle中查看所有的表,用户表,列名,主键,外键
  9. postman rpc本地调用_什么是RPC,你知道嘛?
  10. git branch是什么意思
  11. C程序设计案例(矩形法求定积分问题)
  12. 非晶金属模型建模:Ovito方法
  13. python模拟登录淘宝参数在哪获取_如何用 Python 模拟登录淘宝?
  14. android自定义水管流动,Android水管工游戏的简单脚本
  15. Python 给图片上加文字
  16. Java Web 图说
  17. IDM浮动条无法弹出怎么办?
  18. Suzy加油吧 Day 29 | 回溯算法进行中:491. 递增子序列,46 全排列,47 全排列2
  19. vscode 取消拉去变基_开发工具之 Git 篇
  20. Python爬取彼岸图4k壁纸,想要什么类型的壁纸就输入什么壁纸,太方便了。

热门文章

  1. Py之pymssql:Python库之pymssql的简介、安装、使用方法之详细攻略
  2. java外呼接口案例_API对接实战:外呼接口及通话记录推送
  3. js计算斐波那契数列第n项的值
  4. 每天读一点好玩心理学--梦
  5. mysql视图迁移_mysql – 在多开发人员环境中处理数据库视图的迁移
  6. java客户端采集_java实现抽取采集数据的报表工具
  7. HP大中华区总裁孙振耀退休感言 :
  8. 计算机二级ms在线模拟,无忧考吧全国计算机二级MS Office模拟软件
  9. vantui框架switch上显示提示文字_以web端为例:我的交互设计细节手册(上)
  10. python 保存视频流_python3将视频流保存为本地视频文件