《妙趣横生博弈论》在线阅读-第18部分-3D电子书

解决困境的初步思想（3）
以牙还牙策略之所以能赢得这次锦标赛，是因为它通常都会竭尽全力促成合作，同时避免互相背叛。其他参赛者则要么太轻信别人，一点也不会防范背叛，要么太咄咄逼人，一心要把对方踢出局。
　　不过，尽管如此，我们仍然认为以牙还牙策略是一个有缺陷的策略。只要存在一丁点儿出现错误或误解的可能性，以牙还牙策略的胜利就会土崩瓦解。这个缺陷在人工设计的电脑锦标赛中并不可能，因为此种情况下根本不会出现错误和误解。但是，一旦将以牙还牙策略用于解决现实世界的问题，错误和误解就难以避免，结局就可能是灾难性的。
　　以牙还牙策略的问题在于，任何一个错误都会犹如“回声”一般反复出现。一方对另一方的背叛行为进行惩罚，从而引发连锁反应。对手受到惩罚之后，不甘示弱，进行反击。这一反击又招致第二次惩罚。无论什么时候，这一策略都不会只接受惩罚而不做任何反击。
　　举个例子：假设弗勒德和德雷希尔都采取以牙还牙策略。没有人先发起背叛，一段时间内，一切都顺利进行。然后，到了第11轮，假设弗勒德错误选择了背叛，或者选择了合作但德雷希尔却误以为他选择了背叛，不论是哪种情况，德雷希尔在第12轮都会选择背叛，而弗勒德却会选择合作，因为德雷希尔在第11轮中选择了合作。到了第13轮，角色就会转换过来。这种一方合作而另一方背叛的模式会继续反复进行下去，直到又一个错误或误解的出现恢复了合作或导致双双背叛。
　　在西弗吉尼亚与肯塔基的交界处，哈特菲尔德家族（Hatfields）与麦科伊家族（McCoys）家族的长期争斗可谓令人难忘。而在虚构世界中，马克·吐温笔下的格兰杰福特家族与谢泼德森家族的世代仇恨，为我们提供了另外一个生动的例子，说明以牙还牙的行动是怎样导致循环报复的。当赫克·芬恩试图了解格兰杰福特家族与谢泼德森家族世仇的源头究竟是什么时，他却遇到了“鸡生蛋还是蛋生鸡”的难题：“这究竟是为了什么，巴克？——为了土地吗？”
　　“我估计是——我不知道。”
　　“那么，究竟是谁开的枪呢？是格兰杰福特家的人还是谢泼德森家的人？”
　　“天哪，我怎么会知道？那是多久以前的事啊。”
　　“有没有人知道呢？”
　　“噢，有的，老爸知道，我估计，还有其他一些老头子，不过现在他们也不晓得当初究竟发生了什么事。”以牙还牙策略缺少的是一个宣布“到此为止”的方法。它实在太容易被激发起来了，而且不会轻易地宽恕。确实，后来的阿克谢罗德比赛的版本考虑了错误和误解的可能性，结果表明，其他那些更宽宏大量的策略优于以牙还牙策略。
　　2004年，诺丁汉大学的格雷厄姆·肯德尔（Graham　Kendall）为了庆祝阿克谢罗德首届比赛的20周年，举行了一次比赛。“胜出”者是来自英格兰南安普敦大学的小组。南安普敦小组总共推荐了60个参赛者，包括59只“雄蜂”、1只“蜂后”。他们所有的参赛者都以独特的模式开始，这样他们就可以辨认出彼此。接着，雄蜂们牺牲了自己，以便让蜂后得到好的结果。蜂后也拒绝了与任何对手合作，以降低对手们的得分。虽然让一群雄蜂为了你的利益而牺牲自己是增加你的赢利的一种方法，但它并没有教给我们许多关于如何进行一个囚徒困境博弈的知识。在这里，我们甚至可以从猴子那里学到一些东西。棉头狷猴被置于一个博弈中，每只猴子都有机会拉动一个杠杆，给另一只猴子喂食。但是拉动杠杆需要力气。对每只猴子而言，最理想的策略就是自己偷懒，而它的搭档拉杠杆。但是为了避免遭到报复，猴子们学会了合作。只要一个参与者不连续背叛两次以上，棉头狷猴的合作就会一直持续下去，这种策略类似于以牙还牙策略。9　。。

解决困境的初步思想（4）
较新的实验
　　成千上万的关于囚徒困境的实验是在课堂和实验室进行的，这些实验涉及不同参与者人数、不同重复次数以及其他方面。下面是一些重要发现。10
　　首先最重要的是，合作发生得相当频繁，即使每对参与者只达成一次合作。平均而言，几乎一半参与者选择了合作。确实，对此最引人注目的例证来自游戏秀网络产品“朋友还是敌人”。在这个节目秀中，两人一组，每组都被问了一些琐碎问题。答对的人赚得的钱存入“信托资金”，在105集中，资金总额为200~16　400美元不等。为了分配这笔资金，参赛者双方进行一个单次囚徒困境博弈。
　　每个人私下里写下“朋友”或“敌人”。当双方同时写下朋友时，他们平分这笔资金。如果一方写了敌人而另一方写了朋友，那么，写敌人的那个人将得到全部资金。但若双方都写敌人，他们都将一无所获。不论对方写什么，你写敌人得到的钱至少等于或者可能大于你写朋友所得到的钱。然而，几乎一半参赛者写下的是朋友。甚至当资金总额增大时，合作的可能性也没有改变。资金低于3　000美元时人们合作的可能性，与资金高于5　000美元时相等。以上就是从菲利克斯·奥本豪泽尔…吉（Felix　OberholzerGee）教授和乔·沃德弗格（Joel　Waldfogel）教授，以及马修·怀特（Matthew　White）教授和约翰·李斯特（John　List）教授所进行的两项研究中发现的一些结果。11
　　如果你还在疑惑看电视如何算得上是学术研究，可结果已有过700　000美元的资金分给了参赛者。这是史上奖金最多的囚徒困境实验。我们能从中学到许多东西。实验结果表明，女性比男性更倾向于合作，在第一季，女性和男性合作的概率分别是475％和537％。第一季的参赛者不具有可以在决策前看到其他比赛结果的优势。但到了第二季，前40集的结果已经公布了，这个模式变得显而易见。参赛者可以从其他人的经验中学到一些策略。当某一组是由两个女性组成时，合作的概率增至55％。但是当一个女性与一个男性组对时，这个女性的合作概率降到了342％。而这个男性的概率也降到了423％。总体而言，合作率降低了10个百分点。
　　如果一群实验对象集中起来进行几次配对，且每次的配对不同，那么，选择合作的比率一般会随时间下降。不过，它不会降至零，而是总有固定的一小部分人坚持合作。
　　如果同一对实验对象重复进行基本的囚徒困境博弈，他们常常逐渐达成连续的相互合作，直到其中一个参与者在临近这一连续重复博弈结束时选择了背叛。在第一次进行的困境实验中就发生了这样的事。弗勒德和德雷希尔一设计出这个博弈，就立即招呼他们的两个同事进行了100次这个囚徒困境博弈12。其中60次双方都选择了合作。较长的一次连续相互合作是从第83轮持续到第98轮，直到其中一方在第99轮偷偷背叛。
　　事实上，按照博弈论的严格逻辑，这种情况本来不应该发生。当这个博弈恰好重复100次时，它就是一个同时行动博弈序列，我们可以用倒后推理的逻辑来解决这样的博弈。展望一下在第100次博弈时会发生什么。因为往后不再有更多的博弈了，所以背叛不可能在以后的任何一轮遭到惩罚。根据优势策略的推理，双方都应该在最后一轮选择背叛。但是，一旦确定了双方都会在最后一轮选择背叛，第99轮实际上就成了最后一轮。尽管后面还有一轮，在第99轮的背叛也不会在第100轮遭到对方的选择性惩罚，因为对方在第100轮中的选择是预先注定的。因此，优势策略的逻辑也适用于第99轮。我们可以用这个序列逻辑一直倒后推理到第1轮。不过，在实际博弈中，不论是在实验室还是在真实世界中，参与者似乎忽略了这个逻辑，结果反而受益于相互合作。事实证明，只要其他人同样都是　“非理性”的，那么，乍看上去可能是非理性的行为，偏离参与者的优势策略却是一个正确的选择。

解决困境的初步思想（5）
针对此种现象，博弈论学者做出了一种解释。现实世界中存在一些“互惠主义者”，只要对方合作，他们也愿意合作。假设你并不是这些相对友好的人中的一员。如果你在一个有限次重复囚徒困境博弈中按照自己的风格行事，那么你会从一开始就欺骗。而这会向对方参与者暴露出你的本性。为了掩盖真相（至少掩盖一会儿），你不得不表现出友好的样子。为什么你愿意这么做呢？假设你一开始就表现得友好。那么，即使对方参与者不是一个互惠主义者，他也会认为你可能是周围少有的几个友好的人中的一员。合作一段时间将会带来一些实实在在的好处，于是对方会打算报答你的善举，以获取这些好处。这对你也有好处。当然，你正计划在临近博弈结束时偷偷欺骗，就像对方一样。但你们仍然能够在最初阶段维持一段互利互惠的合作。虽然各方都假装善良等着占对方便宜，但双方都会从这种共同欺骗中获得好处。
　　有些实验不是将一群实验对象两两配对，进行几个双人囚徒博弈，而是让所有人进行一个多人囚徒困境博弈。下面我们介绍一个来自课堂的例子，它非常有趣并具有启发性。得克萨斯A&M大学的雷蒙德·巴特里奥（Raymond　Battalio）教授让班上27名学生进行以下博弈。13假设每一个学生都拥有一家企业，他必须决定（同时且独立地做出决定，并把决定写在一张纸条上）是生产产品1，帮助维持较低的总供给及较高的价格，还是生产产品2，在损失别人的利益的情况下获利。根据选择1的学生总数，将收入按照下面的表格分配给学生：写1的学生分配给写1的学生的钱（美元）分配给写2的学生的钱（美元）0050100405420080583012062………

《妙趣横生博弈论》

下载本书

妙趣横生博弈论- 第18部分