严加安:寻找对自己最有利的决策是博弈论的研究对象

91百科网 61 0

作者 | 严家安

感谢严家安院士授权本期出版。

原文可见严家安院士科学网博客

“游戏”一词来源于中国古代的棋牌游戏。 我们这里所说的游戏,是指参与者在遵守一定“游戏规则”的前提下进行的竞争或对抗行为。 为了保护各自的利益,参与各方需要做出一些决定,而这些决定的实际效果取决于其他各方做出的决定。 因此,2005年诺贝尔经济学奖获得者奥马尔将博弈论定义为“交互式决策理论”。 寻找对自己最有利的决策就是博弈论的研究对象。

关于游戏问题,《史记》中记载的战国时期“田忌赛马”的故事是大家所熟知的。 当时,齐王正与大将田忌赛跑。 孙膑给田忌出主意:先用下等马与齐王的上等马竞争,然后用上等马和中等马与齐王的中、下等马竞争。级马。 。 结果是:田忌第一局输了,但最后两局都赢了。 这是利用博弈思维以弱胜强的典型例子。 当然,如果事先规定双方的马匹必须按照“上、中、下”的等级进行比赛,那么孙膑的策略就是一种非法的、欺骗性的行为。 在上面的例子中,前提条件是不存在这样的竞赛规则。

博弈论真正成为理论要追溯到1928年,当时冯·诺依曼在《德国数学年鉴》上发表了一篇关于“社会博弈论”的论文,奠定了博弈论的数学基础。 1944年,冯·诺依曼和摩根斯特恩共同撰写了一本名为《博弈论与经济行为》的书,该书创立了现代数学分支博弈论。

约翰·冯·诺依曼 (1903~1957)

博弈可以分为合作博弈和非合作博弈。 所谓合作博弈,是指参与者基于自身利益与其他参与者协商达成协议或结成联盟,其结果对联盟各方有利; 非合作博弈是指参与者在选择行动时无法达成具有约束力的协议。 协议。 说到非合作博弈,特别值得一提的是一个人。 他就是美国电影《美丽心灵》的主人公纳什。 他发表的两篇相关论文给出了所谓的均衡解(称为“纳什均衡”),这是一种稳定的策略组合。 如果每个玩家单独改变策略,他不会比当前的选择更好,但可能会变坏。 因此,达到纳什均衡后,参与方都不会主动改变策略。 纳什因其对博弈论的杰出贡献而获得1994年诺贝尔经济学奖。

约翰·纳什 (1928~2015)

严加安:寻找对自己最有利的决策是博弈论的研究对象 博弈论 联盟营销 经济学 第1张

博弈论广泛应用于经济学、管理学、社会学等领域。诺贝尔经济学奖得主萨缪尔森认为,要想成为现代社会有文化的人,就必须了解博弈论。 本文通过我们身边的几个例子来介绍一些博弈论知识。

第一个例子是从博弈论的角度来看待商业营销。 我们经常看到某些垄断行业为了追求利润而结成联盟,不允许降价。 但总有一些商家为了更快的销售自己的产品,偷偷降价促销,所以这个联盟并不牢固。 这种现象类似于博弈论中著名的“囚徒困境”问题。 “囚徒困境”表述如下:假设有两个小偷被捕。 如果既不招供也不揭发对方,可以从轻处罚; 如果一个人认罪,另一个人不认罪,那么认罪的人可以受到较轻的处罚,而不认罪的人会受到较重的处罚。 在没有事先串通的情况下,最佳策略是双方坦白并揭发对方。 这就是非合作博弈的“纳什均衡”。 它是每个玩家的最优策略,但不是整体最优策略。 总体最优策略是既不坦白也不揭露对方,但这种策略组合是不稳定的,就像上面提到的“价格联盟”一样。

第二个例子是为什么“搭便车”现象在现实中不可避免。 这要从博弈论中著名的“聪明猪博弈”故事说起。 这个故事有很多版本。 总体思路是猪圈里有一头大猪和一头小猪。 猪圈的一端有一个踏板。 需要多次努力踩下踏板,一些食物才会落到猪圈的另一端。 。 如果小猪踩踏板,大猪会吃掉小猪跑到食槽之前掉落的食物的90%,而小猪只能得到10%的食物; 如果大猪踩踏板,小猪就能吃掉30%的食物。 大猪吃掉剩下70%的掉落食物。 假设蹬踏消耗的体力相当于食物转化的20%,那么两只猪各自会采取什么策略呢? 在这种情况下,对于小猪来说,等待大猪踩下踏板才是最优策略。 这就是所谓的“搭便车”策略。 对于大猪来说,知道等待小猪是最优策略,它必须踩下踏板。 这是它唯一的选择,否则它就会像小猪一样被饿死。 所以最后小猪搭了便车,不劳而获。 现实社会生活中,存在着偷窃、利用他人利益的人。 他们不知不觉地从生活经验的积累中学会了“搭便车”的策略。 因此,常常会出现能者多干、强者多尽义务、“鞭打快牛”的现象。 从博弈论的角度来看,搭便车现象是不可避免的。

第三个例子是,当战场上面临敌机轰炸时,躲在最好的掩体里是不是最安全? 不一定,因为如果敌人知道你藏在一个好的掩体里,他就可以集中精力轰炸这个掩体。 明智的策略是以一定的概率随机选择不同的掩体,让敌人不知道你藏在哪里。 这就是博弈论中所谓的“概率策略”(或混合策略)。

第四个例子是如何合理分配合作联盟中各成员的收入。 问题归结为如何计算成员对公司贡献的大小。 沙普利建立了一个数学模型,可以计算合作联盟中每个成员的贡献,即计算“沙普利值”。 沙普利是博弈论专家,2012年诺贝尔经济学奖获得者。沙普利值是边际贡献的加权平均值,满足以下公理: 1)如果参与者的所有边际贡献为零,则分配给参与者的收益他也为零; 2)参与者分配的收益之和等于联盟总收益; 3)如果两个参与者在联盟中的地位相同,则分配给他们的利益也相同; 4) 如果联盟有两个博弈,则两个联盟参与者分配的收益之和等于组合博弈中的收益。 Shapley证明了一个定理:Shapley值是唯一满足上述公理的分配方案。

劳埃德·沙普利 (1923~2016)

Shapley值的计算可以应用于如何评价投票规则中的权力分配问题。 例如,联合国安理会由5个常任理事国和10个非常任理事国组成。 一项提案只有在所有常任理事国和至少 4 个非常任理事国同意的情况下才能获得通过。 根据这一规则,常任理事国拥有否决权。 计算Shapley值,每位常任董事的权力为0.196,每位非常任董事的权力仅为0.002。 如果修改规则,一项提案必须得到所有常任理事国和至少7个非常任理事国的批准才能通过,则每个常任理事国的权力将减少到0.170,每个非常任理事国的权力将增加到0.015。

游戏问题是日常生活中经常遇到的问题。 例如,求职者和雇主之间存在一种博弈。 用人单位想通过面试了解求职者的实际能力,而求职者却极力包装自己,隐藏自己的弱点。 再比如,企业逃税现象相当普遍,税务机关与纳税企业之间存在博弈。 博弈论可以帮助税务机关确定对逃税企业的最优处罚和检查频率。

应鼓励从博弈论的角度对社会经济问题进行适当的分析,但必须防止肤浅的借用、误用甚至滥用博弈论。

注:本文改编自作者著作《书斋随想》(科学出版社,2016)中的同名文章。

参考

劳埃德·S·沙普利 (1953)。 “多人游戏的价值”。 位于 HW 库恩; 塔克,AW 对博弈论的贡献。 数学研究年鉴。 28.普林斯顿大学出版社。 第 307–317 页。

标签: 博弈论 联盟营销 经济学

发表评论 (已有1条评论)

评论列表