
你 23 岁,刚搬进一套朴素的两居室公寓,与一位室友合租——一个关系中性的熟人鹏配资,你们分摊费用与责任。
为了确保一切公平而和睦,你们共同制定了公寓内谁做什么、何时做、如何做的规则:谁倒垃圾、谁擦地板与台面、谁洗碗,等等。你们决定每人每周洗一次碗。你负责星期天,他负责星期三。
不久,第一个星期天到了,你如约洗了碗。接着第一个星期三到来,你的室友也洗了。如此循环了几个星期。
图片鹏配资
然后在某个星期三,你下班回家已是深夜,却发现水槽里堆满了碗碟。你什么也没说。出于慷慨的性情,你认为这只是偶尔一次意外,你的室友明天自然会洗。然而,当星期天到来时,碗碟堆得比之前高出一倍,甚至溢出了水槽,占满了周围的台面——他们并没有洗。
你想告诉室友该轮到他洗碗了,但他不在家——一整天都没回来。于是你自己动手洗了。这样至少能让“排班”继续维持下去。
下一个星期三,室友洗了碗,一切似乎恢复了正常。直到再下一个星期三——又是深夜,你回家时,水槽里再度堆满了碗碟。你去问室友到底怎么回事。他们向你保证会去洗。你接受了这个说法。
但第二天,碗碟依旧在那儿,堆得更高。再下一天,依然如此。你这才意识到问题存在。
到了星期天,你开始思考:该怎么办?要不要洗这些碗?还是任由那堆已经巨大的碗碟继续堆积?你已经树立了怎样的“先例”?又将树立怎样的“先例”?能否重置一切?
如果你不洗,而室友也不洗,那厨房就会一直一团糟。相反,如果你洗了,那会不会很快变成——每次都由你洗?你到底在和什么样的人打交道?又该如何最有效地应对?
你思索着:自己该作出怎样的决定,采用怎样的策略。
这正是博弈论中著名思想实验的一种变体,名为“囚徒困境”。在这种情境中,双方如果选择合作,会得到更好的结果;但每一方同时又有动机背弃对方。而当双方都选择不合作时,结果反而对两者都最糟。
在这个例子里,个体的激励是:不用花时间洗碗。最终的结果则是——要么厨房与室友关系一团糟,要么干净整洁。
广义而言,博弈论(game theory)是一门研究决策与策略的数学学科,关注那些结果取决于他人选择的情境。更具体地说,它考察在理性决策者之间的冲突与合作中,如何导致最优或次优的收益。本质上,它是一门关于策略的科学。
在社会关系、商业、经济乃至政治中——无论是两个人之间,还是国家与国家之间——人们都在不断地做出影响彼此的决定。无论是个体还是群体,我们都拥有一种力量,不仅能改变自身的处境,也能改变他人的、乃至整个世界的处境。
这些决定与其结果,可以像合租公寓里谁洗碗那样微不足道,也可以像国家与人民能否存续那样至关重要。
博弈论认为:每一个带有特定目标的决策,都可以在原则上被表述并理解为一个数学模型。换句话说,只要目标明确、约束清晰,就总能推导出一个理性的正确选择。进一步说,面对多个选择,还能找出一种最优策略。
通过各种计算机程序与模拟,博弈论研究者们发现,在社会与自然的诸多条件下,存在一种被证明极其有效且出人意料的策略。它极为简单,却深具启发性;更重要的是——它充满希望。而且,它是我们每一个人都能在生活中实践的。
在继续之前,必须澄清一点:在博弈论的语境中,“游戏(game)”并不是我们通常意义上理解的“游戏”。虽然它也可以包括传统游戏,但“游戏”在此泛指——多个决策者之间发生的任何互动,只要该互动的结果与收益取决于各方的选择。
因此,它既包括象棋、扑克这样的传统博弈,也几乎涵盖了我们生活中的一切互动。当然,并非字面意义上的“所有”,但凡是人与人或群体之间存在竞争或合作、并且结果会互相影响的情境,都属于“博弈”的范畴。
然而,博弈论特别区分出两种主要的互动或“游戏”类型:合作型(cooperative)与非合作型(non-cooperative)。
在合作型博弈中,例如同一支球队的队员、理论上的室友、商业伙伴,或国际联盟与贸易协定,各方共享目标,资源与信息往往自由交流鹏配资,公平与互利既被假定,也被积极追求。
而非合作型博弈,则在现实世界中更为普遍,甚至可以说更加有趣。
在非合作型游戏中,通常存在赢家与输家。玩家们各自为己,在独立行动中追求自身利益,有时甚至故意以损害对方为代价来获益。
这种非合作的张力关系,经常被用来、或被简化地再现于各种游戏节目之中。
例如,在 2000 年代后期英国的游戏节目《Golden Balls》(黄金球)中,两个陌生人面对面坐下,必须决定——是否愿意与对方分享(split)或窃取(steal)一大笔奖金。
图片
每个人的选择,都会直接影响双方能否、以及能得到多少钱。但在结果揭晓前,双方都不知道对方的最终选择。
如果两人都选择分享,奖金平分;如果一方选择分享、另一方选择偷取——偷取者得全部奖金,分享者一无所获。若双方都选择偷取,则两人都得不到任何东西。
在这种一次性博弈(one-off game)中,当选择只有“合作或背叛”、“分享或窃取”两种时,博弈论告诉我们:存在一个明确的理性选择。
所谓的“占优策略(dominant strategy)”,即不论对方作何选择,都能让自己获得最佳结果的选项。而这,永远是最理性的选择。
这种选择并非在追求“可能出现的最好结果”,而是在对方任何决策下都能确保自身最优结果的选择——因为你无法控制对方的决定。
因此,在《黄金球》节目中,最理性的做法就是——永远选择偷取。
理由是这样的:若对方选择分享,那么偷取的一方能得到更多;若对方选择偷取,那么自己若也偷取,虽然最终得不到钱(和分享时的零收益相同),但至少不会被对方利用或欺骗。
严格意义上,这被称作“弱占优策略(weakly dominant strategy)”,因为在后一种情况下,收益只是与分享相等(零),而非更好。
当然,现实生活并不是一档游戏节目。人与人的互动几乎从来都不是“一次性的”——不会在某个瞬间结束,而是持续地延展并留有余波。人们的决策,也很少像“分享或偷取”那样简单;结果更不可能仅仅是“全得、一半或全无”。
在现实生活中,总会存在更多的变量:时间的流动、反复的互动、不确定性、博弈杠杆与资源变化。
例如,某人一次不洗碗或洗了碗——那场“游戏”并不会因此结束。接下来的关系与居住环境,都会因此受益或受损。
同样,当一家公司抹黑或与另一家公司合作时,那场博弈也不会就此完结。报复行动、资源增长或市场变化都会随之而来。
再例如,当一个国家发动攻击、进行报复或建立同盟时,那场博弈也并不会结束——战争可能因此爆发或终结,国家本身也可能因此诞生或消亡。
考虑到这一切,我们不禁要问:在整体人生与决策中,最有效的策略或处世方式究竟是什么?是否真的存在这样一种普遍适用的策略?
1980 年,政治学家罗伯特·阿克塞尔罗德(Robert Axelrod)决定用实验证明这一点。他利用计算机程序来模拟不同的决策策略,设计了一场著名的实验。
图片
他邀请来自世界各地、不同学科的顶尖理论家们,各自编写一个程序——这些程序将在一场“重复囚徒困境锦标赛(iterated prisoner’s dilemma tournament)”中互相竞争。目标很简单:找出最优策略,并赢得胜利。
比赛规则如下:每个参赛者(即程序)都要与所有其他选手对局一场,同时还要与自己的复制体对局一场。
在每场游戏中,双方都有两个选择:合作(cooperate) 或 背叛(defect)。
计分规则为:
如果双方都选择合作,各得 3 分;如果一方合作、另一方背叛,则背叛者得 5 分,合作方得 0 分;如果双方都背叛,各得 1 分。每场比赛持续 200 轮,最终以所有对局累计得分最高者为冠军。
总共有 14 个程序 被提交。阿克塞尔罗德本人又额外添加了一个程序,它在每一轮中以 50% 的概率随机选择合作或背叛。
多数参赛策略会在第一轮选择合作;少数则以早期背叛开局。
有些程序极为复杂、善于计算,会先探测对手的弱点,然后加以利用——例如一个名为 “Grass Camp”(草地营) 的程序;也有些程序加入了随机动作,试图利用混乱与惊奇——例如一个名为 “Jaws”(鲨口) 的策略。而另一些则极为直接、坦率。
这些程序总体上,正如阿克塞尔罗德所说,涵盖了从**“单纯而友善”到“狡猾而狠毒”**的全部谱系。
比赛结束后,阿克塞尔罗德与许多博弈论学者一样,对结果感到极度震惊。为了确保结果可靠且可复现,他又将整场比赛重复运行了五次。每一次,结果都完全一致,冠军始终是同一个程序——名为 “以牙还牙”(Tit for Tat)。
这个策略是所有参赛程序中最简单、最友善的之一。
为了进一步提升实验复杂度,使之更接近真实世界,阿克塞尔罗德又举办了第二场比赛。这一次,每局游戏的总轮数不再固定,改为一个随机的未知数。也就是说,玩家不再能“数着回合”去推算所谓的“终局策略”——这就更像现实生活。
这次共有 62 种策略 被提交,阿克塞尔罗德依然加入了一个随机策略作为参照。
结果依旧与第一次极其一致:再次获胜的,仍是 “以牙还牙”。
阿克塞尔罗德与众多博弈论家对此感到深深的惊讶——因为他们原本预期的赢家,应该是那种高度复杂、极具竞争性的策略——也就是所谓的“狡诈与狠毒”。然而事实恰恰相反,胜出的却是一个极为简单、友好且宽容的策略。
具体来说,“以牙还牙” 的游戏逻辑如下:
它总是从 合作 开始;此后,它完全复制对手的上一步动作。也就是说,只要对手合作,它就继续合作;一旦对手背叛,它立即背叛回去,并持续如此,直到对方再次合作为止。
而当对手重新选择合作时,“以牙还牙” 就会立刻原谅——不再计较过去的行为,重新回到合作模式,直到对方再次背叛。如此循环往复,不断延续。
有趣的是,这种策略在单场对局中从未赢得任何一场比赛。因为在一对一的情况下,它最多只能打平或小输。但在整个锦标赛的总得分中,它却因为与大量其他选手保持持续合作,稳定地取得了最高的累计分数,从而赢得了整个比赛的胜利。
阿克塞尔罗德在其著作《合作的演化》中写道:
“'以牙还牙’能够如此成功的原因,在于它兼具友善、报复、宽恕与清晰四种特质。它的友善使其避免了不必要的冲突;它的报复让对方在尝试背叛时有所顾忌;它的宽恕能帮助双方恢复合作;而它的清晰,使对手容易理解它的意图,从而引发长期的合作。”
此外,几乎所有在比赛中表现出色的程序,都具有与“以牙还牙”相似的特质。在后来更复杂、更接近现实混乱条件的模拟中,一种更慷慨的“以牙还牙”变体——即偶尔在面对背叛时选择原谅而非报复——被证明效果更好。
相反,那些“狠毒”的玩家,往往陷入持续的报复循环,最终导致双方共同毁灭。
阿克塞尔罗德指出:
“让合作得以出现的关键在于——玩家之间可能会再次相遇。”
换言之,可重复性与关系的延续性,正是合作的根本土壤。
从中得到的启示十分清晰:在持续的、非合作的竞争环境中,至少在一开始,表现出善意与合作的姿态,往往更有利可图。
这并非软弱,而是一种力量。相反,那些习惯以背叛、挑衅开局的人,虽然短期内似乎占了上风,但长期来看更可能削弱自身并最终失败。
此外,记仇是弱点,而宽恕是力量。但当然,软弱本身也是一种弱点。若放任他人伤害自己而不加任何后果,只会被不断利用、最终输掉一切。
不过,如何“让对方承担后果”的方式,也同样重要——这种惩戒必须是相称的、一致的、清晰的,而非模糊、操控或阴险的。
从道德与历史的角度看,“以牙还牙”的策略,本质上反映了“以眼还眼”的正义观:惩罚应与过错相称;而在相应的惩戒之后,平衡与合作可以、也应当被恢复。
在个人层面上,它意味着:做一个善良、坦率、懂得理解他人的人——但永远不要成为任人欺凌的软柿子。
当然,阿克塞尔罗德的实验与整个博弈论框架,也都有其局限与问题。
程序、模拟与理论,终究无法完全再现或评估现实互动的真正规模与复杂性。现实中的互动往往涉及更多参与者与更多议题,包含多重立场、多重目标、动态的想法与机会、不对称的力量与资源、已知与未知的信息、以及巨大的错误与混乱。
最重要的是——它们还牵涉到人类心智中那部分情绪化、感性、记仇、甚至非理性的本性。
作为人类,我们会感受、希望、相信,这些往往比我们计算、推理与执行的部分还要强烈。
然而,总的来说,博弈论仍教会了我们许多深刻的道理。其中最重要的一点,也许是:
“并非每一次博弈,都应该以'赢’为唯一目标。”
一个始终以“获胜”为中心的策略,反而可能成为整体上最不擅长获胜的策略。而一个并不执着于每一次都赢的策略,却可能在长期中赢得更多、更大的胜利。
若我们想在生命的诸多领域中真正取得成功,就必须接受许多“平局”与“失败”。但只要我们愿意一次次继续前行——以开放的心态、真诚的态度,迎接每一个新的互动,既捍卫自身的价值,又努力与世界接轨——我们终将稳步向着更大、更有意义的胜利迈进。
那是合作、善意与互利的胜利之风。
我们永远无法真正预知或控制他人是否会与我们合作、或是否会背叛。但我们可以掌控的是:我们是否选择合作,以及我们为何而为。
我们可以确定的一点是:我们每一个决定,都可能影响我们所参与的所有“游戏”的性质与结果——无论现在还是未来——它们可能成就或摧毁关系、目标、体系,甚至整个社会与星球。
因此,至少从自身出发鹏配资,当那一天到来时——请务必记得:把碗洗了。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。涨8配资提示:文章来自网络,不代表本站观点。