博弈论南京廖华

博弈论联系客服

发布时间 : 2024/6/4 21:18:20 星期二文章博弈论更新完毕开始阅读9f07b81103d8ce2f006623a4

策略集合：SI={T,B} SII={C,R,L} 收益 UI(T,C)=11 UII(T,C)=3

问：这个博弈该如何进行下去？即参与人1有劣势策略吗？

回：参与人1没有劣势策略：上并不总是优于下，下并不总是优于上。问：参与人2呢？

回：右并不总是劣势策略，但绝不是最优策略。

要想成为劣势策略，还要满足其他条件，即需要参与人2存在永远占优的策略。中严格优于右，所以参与人2不应该选择右。优势策略的定义：参与人i的策略s′i严格劣于参与人i的另一个策略si时，在其他参与人选择s-i时，选择si的收益U1（si）严格优于此情况下选 s′i的收益U1（s′i），最重要的一点是对所有s-i均成立。

严格来说，就是参与人i的策略s′i严格劣于策略si。

如果si总是更好的选择，即总能给参与人i带来更高的收益，无论其他人怎么选。（与上节课的定义一致，但这里使用了符号而已）

全面的严格的优势策略简称严格优势策略（strictly dominant strategy）；有以下三个定义： 1、是指不论对方采取什么策略，我采取的这个策略总比采取其他任何策略都好的策略。 2、是指被全面的严格优势策略压住的那个策略，也就是说不是严格优势策略以外的策略。 3、则是指双方利益总和最大的策略。

严格劣势策略：全面严格劣势策略，简称严格劣势策略(strictly dominated strategy) 所谓严格劣势策略是指被全面的严格优势策略压住的那个策略，也就是说不是严格优势策略以外的策略。所谓的严格优势策略是指不论对方采取什么策略，采取的这个策略总比采取其他任何策略都好的策略。所谓的双方优势策略则是指双方利益总和最大的策略。

弱劣势策略：通俗说就是在劣策略中，可能存在某一个劣策略占优于另外一个劣策略。这个策略就是弱劣策略。五．囚徒困境分析（一）经典的囚徒困境经典的囚徒困境如下：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

若一人认罪并作证检举对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。

若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。若二人都互相检举（互相“背叛”），则二人同样判监2年。用表格概述如下：甲沉默（合作）甲认罪（背叛）甲即时获释；乙服刑10年乙沉默（合作）二人同服刑半年乙认罪（背叛）甲服刑10年；乙即时获释二人同服刑2年（由此掌握完全信息静态博弈的特征：

? 完全信息：每个参与人对所有其他参与人的特征（包括战略空间、支付函数等）完全了解。

? 静态：所有参与人同时选择行动且只选择一次。 ? 同时：只要每个参与人在选择自己的行动时不知道其他参与人的选择，就是同时行动。

? 博弈分析的目的是预测均衡结果。）（二）分析过程 1、假设条件：

（1）每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益；

（2）没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。 2、困境中两名理性囚徒会如何作出选择：

若对方沉默、背叛会让我获释，所以会选择背叛。

若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。 3、回忆结论

? 不要选择劣势策略； ? 要学会换位思考；

? 理性选择导致次优结果； ? 收益很重要

（三）由囚徒困境可以写出类似的员工困境：一名经理，数名员工; 前提，经理比较苛刻;

如果所有员工都听从经理吩咐，则奖金等待遇一样，不过所有人都超负荷工作如果某人不听从吩咐，其他人听从吩咐，则此人下岗。其他人继续工作如果所有人都不听从经理吩咐，则经理下岗

但是，由于员工之间信息是不透明的，而且，都担心别人听话自己不听话而下岗，所以，大家只能继续繁重的工作。（四）囚徒困境的一般形式整理囚徒困境的基本博弈结构，可更清楚地分析囚徒困境。实验经济学常用这种博弈的一般形式分析各种论题。以下是实现一般形式的其中一例：

有两个参与者和一个庄家。参与者每人有一式两张卡片，各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下，放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后，庄家翻开两个参与者卡片，根据以下规则支付利益：一人背叛、一人合作：背叛者得5分（背叛诱惑），合作者0分（受骗支付）。二人都合作：各得3分（合作报酬）。二人都背叛：各得1分（背叛惩罚）。

用支付矩阵表格展示支付如下（以红和蓝分别表示二参与者）：一般形式囚徒困境的支付矩阵以“T、R、P、S”符号表示以“胜－负”术语表示合作背叛

T、R、P、S符号表符号分数英文 T R 5 3 Reward 中文（非术语）解释单独背叛成功所得。共同合作所得合作报酬 Temptation 背叛诱惑合作 3, 3 5, 0 背叛 0, 5 1, 1 合作背叛

合作 R, R T, S 背叛 S, T P, P 合作背叛大负-大胜合作胜-胜

背叛大胜-大负负-负简单博弈获得的点数可以得出一些一般化的结论。

P S 1 0 Punishment 背叛惩罚 Suckers 受骗支付共同背叛所得被单独背叛所获若以T（Temptation）=背叛诱惑，R（Reward）=合作报酬，P（Punishment）=背叛惩罚，S（Suckers）=受骗支付，以个人选择得分而言，可得出以下不等式。 T>R>P>S

（解：从5>3>1>0获得以上不等式）若以整体获分而言，将得出以下不等式。 2R>T+S或2R>2P

（解：2×3>5+0或2×3>2x1；合作2人共得6分，比起互相背叛的共得2分及单独背叛的共得5分，显然合作获分比背叛高。合作在团体而言是支配性策略。）

[掌握纳什均衡(Nash Equilibrium)：假设n个参与人在博弈之前达成一个协议，规定每一个参与人选择一个特定的战略，令

代表这个协议，在没有外在强制力的情况下，如果没有任何人有积极性破坏这个协议，则这个协议是自动实施的。这个协议就构成了一个纳什均衡。通俗地说，纳什均衡的含义就是：

给定你的策略，我的策略是最好的策略；给定我的策略，你的策略也是你的最好的策略。即双方在给定的策略下不愿意调整自己的策略。] （五）囚徒困境的应用现实中，无论是人类社会或大自然都可以找到类似囚徒困境的例子，将结果划成同样的支付矩阵。社会科学中的经济学、政治学和社会学，以及自然科学的动物行动学、进化生物学等学科，都可以用囚徒困境分析，模拟生物面对无止境的囚徒困境博弈。囚徒困境可以广为使用，说明这种博弈的重要性。以下为各界例子： 1、政治学例子：军备竞赛

在政治学中，两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）。两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。似乎自相矛盾的是，虽然增加军备会是两国的「理性」行为，但结果却显得「非理性」（例如会对经济造成都有损坏等）。这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。 2、经济学例子：关税战

两个国家，在关税上可以有以两个选择: 提高关税，以保护自己的商品。（背叛）

与对方达成关税协定，降低关税以利各自商品流通。（合作）

当一国因某些因素不遵守关税协定，而独自提高关税（背叛）时，另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）

3、商业例子：广告战

商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。此二公司可以有二选择：

互相达成协议，减少广告的开支。（合作）

增加广告开支，设法提升广告的质量，压倒对方。（背叛）

若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。 4、自行车赛例子

自行车赛事的比赛策略也是一种博弈，而其结果可用囚徒困境的研究成果解释。例如每年都举办的环法自由车赛中有以下情况：选手们在到终点前的路程常以大队伍（英文:Peloton）方式前进，他们采取这策略是为了令自己不至于太落后，又出力适中。而最前方的选手在迎风时是最费力的，所以选择在前方是最差的策略。通常会发生这样的情况，大家起先都不愿意向前（共同背叛），这使得全体速度很慢，而后通常会有二或多位选手骑到前面，然后一段时间内互相交换最前方位置，以分担风的阻力（共同合作），使得全体的速度有所提升，而这时如果前方的其中一人试图一直保持前方位置（背叛），其他选手以及大队伍就会赶上（共同背叛）。而通常的情况是，在最前面次数最多的选手（合作）到最后通常会被落后的选手赶上（背叛），因为后面的选手骑在前面选手的冲流之中，比较不费力。（六）与囚徒困境相关的各事件 1、异想

威廉?庞德斯通（William Poundstone）在他的著作中，以一新西兰的例子来说明囚徒困境。在新西兰，报亭既无管理员也不上锁，买报纸的人自行放下钱后拿走报纸。当然某些人可能取走报纸却不付钱（背叛），但由于大家认识到如果每个人都偷窃报纸（共同背叛）会造成以后不方便的有害结果，这种情形很少发生。这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境。并没有任何人特别去注意报亭，人们守规则是为了避免共同背叛带来的恶果。这种避免囚徒困境的大家共同的推理或想法被称为“异想（magical thinking）”。 2、“认罪减刑”不可行

囚徒困境的结论是许多国家中认罪减刑（英文：plea bargain）被禁止的原因之一。囚徒困境带来的结论是：如果有二个罪犯，其中一人犯罪而另外一人是无辜的，犯罪者会为了减刑坦白一切甚至冤枉清白者（单独背叛）。最糟糕的情况是，如果他们二人都被判入狱，坦白的犯罪者刑期少，坚持无罪的冤枉者刑期反而更多。 3、公用品悲剧

现实的博弈参与者不只一方，会有多方参与的囚徒困境。加勒特?詹姆斯?哈丁（Garrett James Hardin）的公用品悲剧就是一例：“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”，例如渔业，公海中的鱼是属于公共的，而在本身不滥捕其他人也滥捕的思想下，渔民会没有节制的大捞特捞，结果海洋生态破坏，渔民的生计也受影响（共同背叛的结果）。但是，多方囚徒困境的提法有待商榷，因为其总是可以被分解为一组组经典的二方囚徒困境。就是说只有二方的囚徒困境，没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。 4、重复的囚徒困境

罗伯特?阿克塞尔罗德在其著作《合作的进化》中，探索了经典囚徒困境情景的一个扩展，并把它称作“重复的囚徒困境”（IPD）。在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略，并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面：算法的复杂性、最初的对抗、宽恕的能力等等。阿克塞尔罗德发现，当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终“贪婪”策略趋向于减少，而比较“利他主义”策略更多地被采用。

Word文档下载：博弈论.doc

搜索更多:博弈论