严加安：寻找对自己最有利的决策是博弈论的研究对象

91百科网 2024年04月14日 00:15:26 61 0

作者 | 严家安

感谢严家安院士授权本期出版。

原文可见严家安院士科学网博客

“游戏”一词来源于中国古代的棋牌游戏。我们这里所说的游戏，是指参与者在遵守一定“游戏规则”的前提下进行的竞争或对抗行为。为了保护各自的利益，参与各方需要做出一些决定，而这些决定的实际效果取决于其他各方做出的决定。因此，2005年诺贝尔经济学奖获得者奥马尔将博弈论定义为“交互式决策理论”。寻找对自己最有利的决策就是博弈论的研究对象。

关于游戏问题，《史记》中记载的战国时期“田忌赛马”的故事是大家所熟知的。当时，齐王正与大将田忌赛跑。孙膑给田忌出主意：先用下等马与齐王的上等马竞争，然后用上等马和中等马与齐王的中、下等马竞争。级马。。结果是：田忌第一局输了，但最后两局都赢了。这是利用博弈思维以弱胜强的典型例子。当然，如果事先规定双方的马匹必须按照“上、中、下”的等级进行比赛，那么孙膑的策略就是一种非法的、欺骗性的行为。在上面的例子中，前提条件是不存在这样的竞赛规则。

博弈论真正成为理论要追溯到1928年，当时冯·诺依曼在《德国数学年鉴》上发表了一篇关于“社会博弈论”的论文，奠定了博弈论的数学基础。 1944年，冯·诺依曼和摩根斯特恩共同撰写了一本名为《博弈论与经济行为》的书，该书创立了现代数学分支博弈论。

约翰·冯·诺依曼 (1903~1957)

博弈可以分为合作博弈和非合作博弈。所谓合作博弈，是指参与者基于自身利益与其他参与者协商达成协议或结成联盟，其结果对联盟各方有利；非合作博弈是指参与者在选择行动时无法达成具有约束力的协议。协议。说到非合作博弈，特别值得一提的是一个人。他就是美国电影《美丽心灵》的主人公纳什。他发表的两篇相关论文给出了所谓的均衡解（称为“纳什均衡”），这是一种稳定的策略组合。如果每个玩家单独改变策略，他不会比当前的选择更好，但可能会变坏。因此，达到纳什均衡后，参与方都不会主动改变策略。纳什因其对博弈论的杰出贡献而获得1994年诺贝尔经济学奖。

约翰·纳什 (1928~2015)

严加安：寻找对自己最有利的决策是博弈论的研究对象博弈论联盟营销经济学第1张

博弈论广泛应用于经济学、管理学、社会学等领域。诺贝尔经济学奖得主萨缪尔森认为，要想成为现代社会有文化的人，就必须了解博弈论。本文通过我们身边的几个例子来介绍一些博弈论知识。

第一个例子是从博弈论的角度来看待商业营销。我们经常看到某些垄断行业为了追求利润而结成联盟，不允许降价。但总有一些商家为了更快的销售自己的产品，偷偷降价促销，所以这个联盟并不牢固。这种现象类似于博弈论中著名的“囚徒困境”问题。 “囚徒困境”表述如下：假设有两个小偷被捕。如果既不招供也不揭发对方，可以从轻处罚；如果一个人认罪，另一个人不认罪，那么认罪的人可以受到较轻的处罚，而不认罪的人会受到较重的处罚。在没有事先串通的情况下，最佳策略是双方坦白并揭发对方。这就是非合作博弈的“纳什均衡”。它是每个玩家的最优策略，但不是整体最优策略。总体最优策略是既不坦白也不揭露对方，但这种策略组合是不稳定的，就像上面提到的“价格联盟”一样。

第二个例子是为什么“搭便车”现象在现实中不可避免。这要从博弈论中著名的“聪明猪博弈”故事说起。这个故事有很多版本。总体思路是猪圈里有一头大猪和一头小猪。猪圈的一端有一个踏板。需要多次努力踩下踏板，一些食物才会落到猪圈的另一端。。如果小猪踩踏板，大猪会吃掉小猪跑到食槽之前掉落的食物的90%，而小猪只能得到10%的食物；如果大猪踩踏板，小猪就能吃掉30%的食物。大猪吃掉剩下70%的掉落食物。假设蹬踏消耗的体力相当于食物转化的20%，那么两只猪各自会采取什么策略呢？在这种情况下，对于小猪来说，等待大猪踩下踏板才是最优策略。这就是所谓的“搭便车”策略。对于大猪来说，知道等待小猪是最优策略，它必须踩下踏板。这是它唯一的选择，否则它就会像小猪一样被饿死。所以最后小猪搭了便车，不劳而获。现实社会生活中，存在着偷窃、利用他人利益的人。他们不知不觉地从生活经验的积累中学会了“搭便车”的策略。因此，常常会出现能者多干、强者多尽义务、“鞭打快牛”的现象。从博弈论的角度来看，搭便车现象是不可避免的。

第三个例子是，当战场上面临敌机轰炸时，躲在最好的掩体里是不是最安全？不一定，因为如果敌人知道你藏在一个好的掩体里，他就可以集中精力轰炸这个掩体。明智的策略是以一定的概率随机选择不同的掩体，让敌人不知道你藏在哪里。这就是博弈论中所谓的“概率策略”（或混合策略）。

第四个例子是如何合理分配合作联盟中各成员的收入。问题归结为如何计算成员对公司贡献的大小。沙普利建立了一个数学模型，可以计算合作联盟中每个成员的贡献，即计算“沙普利值”。沙普利是博弈论专家，2012年诺贝尔经济学奖获得者。沙普利值是边际贡献的加权平均值，满足以下公理： 1）如果参与者的所有边际贡献为零，则分配给参与者的收益他也为零； 2）参与者分配的收益之和等于联盟总收益； 3）如果两个参与者在联盟中的地位相同，则分配给他们的利益也相同； 4) 如果联盟有两个博弈，则两个联盟参与者分配的收益之和等于组合博弈中的收益。 Shapley证明了一个定理：Shapley值是唯一满足上述公理的分配方案。

劳埃德·沙普利 (1923~2016)

Shapley值的计算可以应用于如何评价投票规则中的权力分配问题。例如，联合国安理会由5个常任理事国和10个非常任理事国组成。一项提案只有在所有常任理事国和至少 4 个非常任理事国同意的情况下才能获得通过。根据这一规则，常任理事国拥有否决权。计算Shapley值，每位常任董事的权力为0.196，每位非常任董事的权力仅为0.002。如果修改规则，一项提案必须得到所有常任理事国和至少7个非常任理事国的批准才能通过，则每个常任理事国的权力将减少到0.170，每个非常任理事国的权力将增加到0.015。

游戏问题是日常生活中经常遇到的问题。例如，求职者和雇主之间存在一种博弈。用人单位想通过面试了解求职者的实际能力，而求职者却极力包装自己，隐藏自己的弱点。再比如，企业逃税现象相当普遍，税务机关与纳税企业之间存在博弈。博弈论可以帮助税务机关确定对逃税企业的最优处罚和检查频率。

应鼓励从博弈论的角度对社会经济问题进行适当的分析，但必须防止肤浅的借用、误用甚至滥用博弈论。

注：本文改编自作者著作《书斋随想》（科学出版社，2016）中的同名文章。

参考

劳埃德·S·沙普利 (1953)。 “多人游戏的价值”。位于 HW 库恩；塔克，AW 对博弈论的贡献。数学研究年鉴。 28.普林斯顿大学出版社。第 307–317 页。

标签：博弈论联盟营销经济学