红黑博弈的三个理论

cfoteam · 发表于 2013-11-26 18:07:44

博弈论的前提：对人的基本假定是：人是理性的（或者说自私的）,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。
博弈的定义：一些个人、团队或其他组织，面对一定的环境条件，在一定的规则约束下，依靠所掌握的信息，同时或先后，一次或多次，从各自允许选择的行为或策略进行选择并加以实施，并从中各自取得相应结果或收益的过程。
博弈的要素：第一，博弈的参加者，即博弈过程中独立决策、独立承担后果的个人和组织；第二，博弈信息，即博弈者所掌握的对选择策略有帮助的情报资料；第三，博弈方可选择的全部行为或策略的集合；第四，博弈的次序，即博弈参加者做出策略选择的先后；第五，博弈方的收益，即各博弈方做出决策选择后的所得和所失。
博弈论中最经典的例子是纳什提出的“囚徒困境”，双方按自身利益最大化提出策略，最终达到纳什平衡。还有一个例子说明，有黑灰白三位骑士，互相决斗。三人中，黑枪法最好，灰次之，白最差。规则是，由白先射，灰次之，黑后射。白该怎么出枪才能保全自己呢？他当然要先把枪法最好的黑先射杀，留下枪法次之的灰与之决斗，这样，其成活可能性才比较大。然而白并未如此办理，他先对空开了一枪，接下来，轮到灰出枪了。灰当然要先射杀枪法最好的黑。最后，又轮到白出枪，他一枪崩了灰，取得了最后胜利。
博弈论非常强调时间和信息的重要性，认为时间和信息是影响博弈均衡的主要因素。在博弈过程中，参与者之间的信息传递决定了其行动空间和最优战略的选择；同时，博弈过程中始终存在一个先后问题，参与人的行动次序对博弈最后的均衡有直接的影响。
博弈的划分可以从参与人行动的次序和参与人对其它参与人的特征、战略空间和支付的知识信息是否了解两个角度进行。把两个角度结合就得到了4种博弈：完全信息静态博弈，完全信息动态博弈，不完全信息静态博弈，不完全信息动态博弈。

一、狗屎理论与零和博弈
说是有两个经济学家，在马路上散步，便讨论经济问题甲经济学家看见了一堆狗屎，思索着对乙经济学家说。你吃了这堆狗屎吧，我给你100万块钱。乙经济学家犹豫了一会儿，但是还是经受不住诱惑，吃了那堆狗屎，当然，作为条件，甲经济学家给了他100万块钱过了一会儿，乙经济学家也看见了一堆狗屎，就对甲经济学家说：你吃了这堆狗屎吧，我也给你100万块钱。甲经济学家犹豫了一会儿，但是还是经受不住诱惑，吃了那堆狗屎当然，作为条件，乙经济学家把甲给他的 100万还了回去。
故事还没有完
走着走着，乙经济学家忽然缓过神来了，对甲说不对阿，我们谁也没有挣到钱，却吃了两对狗屎。。。甲也换过神了，思考了一会儿说：可是，我们创造了200万的GNP阿！
你领悟到什么了吗？
零和游戏原理源于博弈论。
两人对弈，在大多数情况下，总会有一个赢，一个输，如果我们把获胜计算为得1分，而输棋为-1分，那么，这两人得分之和就是：1+（-1）=0。
博弈论的英文名为game theory，直译就是“游戏理论”。游戏者有输有赢，一方所赢正是另一方所输，游戏的总成绩永远是零。“零和游戏”之所以广受关注，主要是因为人们发现，在社会的方方面面都有与“零和游戏”类似的局面，胜利者的光荣后面往往隐藏着失败者的辛酸和苦涩。
但20世纪以来，“零和游戏”观念正逐渐被“非零和游戏”即“负和”或“正和”观念所取代。“负和游戏”指，一方虽赢但付出了惨重的代价，得不偿失，可谓没有赢家。赢家所得比输家所失多，或者没有输家，结果为“双赢”或“多赢”，称为“正和”。比如投资股票和债券，投资者一方面可在股票或债券的价格涨落中赚取差价或从每年的派息之中获得利益，上市公司用投资者的钱来经营，创造利润，上缴税金，增加就业等等，双方或多方面都可从中获益。
在竞争的社会中，人们开始认识到“利己”不一定要建立在“损人”的基础上。有效合作，得到的是皆大欢喜的结局。从“零和”走向“正和”，要求各方要有真诚合作的精神和勇气，遵守游戏规则，不耍小聪明，不要总想占别人的小便宜，否则，“双赢”的局面就不会出现，吃亏的最终还是自己。
“零和游戏”是指：在一项游戏中，游戏者有输有赢，一方所赢正是另一方所输，游戏的总成绩永远为零。“零和游戏原理”之所以广受关注，主要是因为人们发现在社会的方方面面都能发现与“零和游戏”类似的局面，胜利者的光荣背后往往隐藏着失败者的辛酸和苦涩。但20世纪人类在经历了两次世界大战、经济的高速增长、科技进步、全球一体化以及日益严重的环境污染之后， “零和游戏”观念正逐渐被“双赢”观念所取代。人们开始认识到“利己”不一定要建立在“损人”的基础上。通过有效的合作，皆大欢喜的结局是可能出现的。但从“零和游戏”走向“双赢”，需要各方都得有真诚合作的精神和勇气，在合作中要遵守游戏规则，耍小聪明，总想占别人的小便宜，最终吃亏的还是自己。

二、囚徒困境与非合作博弈

话说有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人A和B，并从他们的住处搜出被害人家中丢失的财物。但是，他们都矢口否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离审讯。这个时候，聪明的警官找他们谈话，分别告诉他们说：“你们的偷盗罪确凿，所以可以判你们2年刑期。但是，我可以和你做个交易。如果你招了，他不招，那么你会作为证人无罪释放，他将被判10年徒刑；如果你招了，他也招了，你们都将被判5年有期徒刑；如果他招了，你不招，他无罪释放，你被判无期徒刑，终身囚禁；如果你们都不招，各判2年。” 　　
很多人都会误认为，既然两个囚犯最好的结果是都不招供，两人都只被判2年，那么，两个囚犯都选择不招供就是这个博弈的最终结果。然而，人算不如天算，“囚徒困境”之所以称为“困境”正是因为这个博弈的最终结局恰恰是最坏的结果，即两个囚犯统统招供，结果都被判有期徒刑5年。反过来说，这也是警官的聪明之处。警官采取的游戏规则必然会让两名囚犯坦白罪行，认罪伏法。对一个博弈来说，游戏规则非常地重要，适宜的规则才能够达到目的。在我们的日常生活中莫不如此，规则制订者往往利用条件制定出有利于自身的规章制度。　　
读到这里，很多人不禁会问，为什么两个人都选择了“招”，傻到接受这种最坏的结果呢？在解释这个问题之前，首先说明一下，囚徒困境和其它的博弈一样，都需要有2个前提假设：囚徒A和B两人都是自利理性的个人，即只要给出两种可选的策略，每一方将总是选择其中对他更有利的那种策略；两人无法沟通，要在不知道对方所选结果的情况下，独自进行策略选择。囚犯“思想搏斗过程”大致如下，囚犯A的内心活动是这样：假如他招了，我不招，我就要将牢底坐穿，招了最坏坐10年，还是招了合算；假如他不招，我也不招，只坐2年的牢（因无法串供，风险太大）；如果我招，他不招，马上被释放，也是招了合算。因此，无论囚犯B是坦白还是沉默，囚犯A采取坦白的策略对自己更为有利。同样，以上推理也适用于囚犯B。结果两个囚徒都坦白了，都被判刑5年。囚徒困境之所为被称为“困境”，正是在于：如果A、B二人都保持沉默，则都只被判刑2年，显然比两人都坦白的结果要好。两名囚犯都作出招供的选择，这对他们个人来说都是最佳的，即最符合他们个体理性的选择。照博弈论的说法，这是惟一的纳什均衡点。除了这个均衡点，A与B的任何一人单方面改变选择，他只会得到更加不经济的结果。而在其它的结果中，比如两人都不坦白的情况下，都有一人可以通过单方面改变选择，来减少自己的刑期。可是两人经过一番理性计算后，却选择了一个使自己陷入不利的结局。其实“囚徒困境”不允许囚犯A和B进行沟通的假设，与实际生活中大部分情况的现实是有差异的。比如，在爱情博弈中，很多恋人会经常花前月下、彻夜厮守；在企业的价格战中，企业之间也会多有沟通，甚至结成价格联盟；即使是20世纪下半世纪的美苏军备竞赛中，两个超级大国也会经常进行外交交谈，及时交换信息。　　因此不妨将条件放宽，允许囚犯A和B在审讯室里在一起呆上10分钟，给予他们充分的串供的机会。很明显，双方交流的主旨就是建立攻守同盟，克服自利心理，甚至可能订立一个口头协议，要求双方都不去坦白。然后，双方再单独被提审。我们不妨设想囚犯A的心理活动。他一定会认为，如果囚犯B遵守约定的话，则自己坦白就可获得自由；如果囚犯B告密的话，若自己不坦白就会被终生囚禁。事实上，囚犯A的策略并没有因为简单的沟通或协议而摆脱两难境地。对于囚犯B也是一样。虽然“坦白从宽，抗拒从严”的道理人人都懂，而从博弈论的角度来看，实际上就是一个囚徒困境的应用。“囚徒困境”被看成是博弈论的代表性案例，不仅因为其简单易懂，还在于它的现象在日常生活中广泛存在。比如，恋人们在恋爱中的海誓山盟，最终还是分手；企业之间相互沟通合作结成战略关系时是信誓旦旦，但价格战仍然会爆发；美苏两国经常会晤，甚至签订核不扩散条约，但军费一年高过一年。囚徒困境的游戏规则，能够让狡猾的罪犯招供，得到应有的惩罚，固然不是坏事。然而，我们不妨假设囚徒A和B完全都是清白的具有理性的大大的良民，这个博弈的纳什均衡并不会因为他们的清白而改变。如果在现实生活中，审案存在对身体的残害，完全可能造成屈打成招的冤假错案。在中国历史上，这种冤案并不是什么稀少的事情。从更深刻的意义上讲，囚徒困境模型动摇了传统社会学、经济学理论的基础，这是经济学的重大革命。传统经济学的鼻祖亚当·斯密在其传世经典《国民财富的性质和原因的研究》中这样描述市场机制：“当个人在追求他自己的私利时，市场的看不见的手会导致最佳经济后果。”这就是说，每个人的自利行为在“看不见的手”的指引下，追求自身利益最大化的同时也促进了社会公共利益的增长。即自利会带来互利。传统经济学秉承了亚当·斯密的思想。传统经济学认为：因此经济学不必担心人们参与竞争的动力，只需关注如何让每个求利者能够自由参与尽可能展开公平竞争的市场机制。只要市场机制公正，自然会增进社会福利。但是囚徒困境的结果，恰恰表明个人理性不能通过市场导致社会福利的最优。每一个参与者可以相信市场所提供的一切条件，但无法确信其他参与者是否能与自己一样遵守市场规则。　　
简单地说就是，在一个集体里，有可能每个人的选择都是理性的，但对于整个集体来说其结果却不是理性的。比如大家所熟悉的股市。股市的参与人数虽然十分庞大，但实际上是只有多与空、机构与机构、散户与散户之间的双方“博弈”，有人将此称之为“零和游戏”。股市“博弈”双方的多数也处在一种“囚徒困境”中。对于股市中博弈双方来说，当股市涨到最高点时，无论对散户，还是对机构来说，任何一方的最大利益在于“我卖，而你没卖，我获得最大盈利”，而对于双方来说最理想的状态是“大家都不卖，把股市推向一个更高点位，大家都有更多利润空间”。但实际结果却大相径庭，市场“无形之手”没起作用，却是“囚徒困境”起到了决定性的作用。佛家讲因果报应，儒家讲究“财自道生，利缘义取”。从“囚徒困境”看来，如果一味地想算计别人，算来算去，最后却算计到自己头上来了。如果我们将“囚徒困境”故事中的无期徒刑改为死刑，那么“机关算尽太聪明，反误了卿卿性命”用在这里是再恰当不过了。
那么怎么样才能摆脱“囚徒困境”呢？博弈双方都付出代价，失去自己不愿失去的东西，但只有这样才能共存并且摆脱囚徒困境，这有如壮士断臂，不得不为，也乐得为之。如果说“兄弟阋于墙，共御外侮”是理想化的摆脱囚徒困境的策略，那么出卖“兄弟”以还得自己的平安，则是处于囚徒困境下本能的选择。趋利避害是人的本能，在经济行为和社会行为中这一本能都鲜明地体现着。
三、智猪博弈
这个例子讲的是：猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。
　　那么，两只猪各会采取什么策略？答案是：小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。
　　原因何在？因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。
　　“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是：每次落下的事物数量和踏板与投食口之间的距离。
　　如果改变一下核心指标，猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗？试试看。
　　改变方案一：减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩，大猪将会把食物吃完；大猪去踩，小猪将也会把食物吃完。谁去踩踏板，就意味着为对方贡献食物，所以谁也不会有踩踏板的动力了。
　　如果目的是想让猪们去多踩踏板，这个游戏规则的设计显然是失败的。
　　改变方案二：增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃，谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会，所以竞争意识却不会很强。
　　对于游戏规则的设计者来说，这个规则的成本相当高（每次提供双份的食物）；而且因为竞争不强烈，想让猪们去多踩踏板的效果并不好。
　　改变方案三：减量加移位方案。投食仅原来的一半分量，但同时将投食口移到踏板附近。结果呢，小猪和大猪都在拼命地抢着踩踏板。等待者不得食，而多劳者多得。每次的收获刚好消费完。
　　对于游戏设计者，这是一个最好的方案。成本不高，但收获最大。
　　原版的“智猪博弈”故事给了竞争中的弱者（小猪）以等待为最佳策略的启发。但是对于社会而言，因为小猪未能参与竞争，小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置，规则的设计者是不愿看见有人搭便车的，政府如此，公司的老板也是如此。而能否完全杜绝“搭便车”现象，就要看游戏规则的核心指标设置是否合适了。
　　比如，公司的激励制度设计，奖励力度太大，又是持股，又是期权，公司职员个个都成了百万富翁，成本高不说，员工的积极性并不一定很高。这相当于“智猪博弈”
　　增量方案所描述的情形。但是如果奖励力度不大，而且见者有份（不劳动的“小猪”也有），一度十分努力的大猪也不会有动力了----就象“智猪博弈”减量方案一所描述的情形。最好的激励机制设计就象改变方案三----减量加移位的办法，奖励并非人人有份，而是直接针对个人（如业务按比例提成），既节约了成本（对公司而言），又消除了“搭便车”现象，能实现有效的激励。
　　许多人并未读过“智猪博弈”的故事，但是却在自觉地使用小猪的策略。股市上等待庄家抬轿的散户；等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资；公司里不创造效益但分享成果的人，等等。因此，对于制订各种经济管理的游戏规则的人，必须深谙“智猪博弈”指标改变的个中道理。

		自动登录	找回密码
密码			注册

微信扫一扫分享朋友圈