type
status
date
slug
summary
tags
category
icon
password
 
文章来自:
notion image

一、什么是博弈论?

博弈论(Game Theory)相互依存情况中的理性行为的数学建模。博弈由这几个要素构成:
  • 玩家(Players):博弈的参与者
  • 策略(Strategy):博弈玩家各自的操作
  • 收益(Payoff):博弈玩家的收益,一般用矩阵来表示,在连续(连续代表着规律)的时候也会写成函数
  • 信息(Information):博弈玩家知道的信息
  • 理性(Rationality):博弈玩家是理性的,在竞争的情况下使自己的收益最大化
博弈论方法的本质——相互依存性:每一方的收益不仅依赖于自己的策略,同时也依赖其他参与方的策略
博弈论研究的目标——均衡:因为博弈的参与方的策略改变会造成收益的变化,所以,各玩家会调整策略使自己的收益最大。在这样的情况下,一个“稳定”的策略选择是值得研究的。各个玩家选择了各自的策略之后,没有动机去改变当前的策略,就形成了稳定的状态。
💡
动机很是重要
定义是抽象的,还是用一些例子来找找感觉吧。
 

二、例子:囚徒困境

这个例子应该是众所周知。简要介绍一下:
两个共谋犯罪的人被关入监狱,不能互相沟通情况。①如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;②若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十二年;③若互相揭发,则因证据确凿,二者都判刑六年。
考察博弈的几个要素:
  1. 玩家:这两个犯罪的人,记为A、B
  1. 策略:二者的策略都是{揭发、沉默}
  1. 收益:用收益矩阵来表示
notion image
4. 信息:这种情况是完全信息的,即,每一参与者都拥有所有其他参与者的收益函数的准确信息。
剧透一下,囚徒困境的”均衡“,是二人都选择揭发的策略

三、分类

  • 根据玩家数量分为:1人,2人,多人博弈
  • 根据“同时做决策”还是“轮流做决策”分为:策略式博弈(静态博弈)和扩展式博弈(动态博弈)、
  • 根据信息的了解情况分为:完全信息博弈和非完全信息博弈
  • 根据收益分为:零和博弈、非零和博弈
  • 合作、非合作博弈
  • 根据策略的数量分为:有限博弈和无限博弈
当然,上面的分类很杂,我们的课程主要讲了这几种:
  1. 完全信息策略式博弈
  1. 非完全信息策略式博弈
  1. 完全信息扩展式博弈
  1. 非完全信息扩展式博弈
  1. 重复博弈

四、小结

博弈论很有趣的,你会发现很多意想不到的结果。不过,由于博弈论假设每个玩家都是“理性”的,而现实生活却不一定是这样,因此,很多情况下博弈论给出的结论只是一个理论上的参考。
有一些有意思的小例子,算是智力小测试了,感兴趣可以看看:
  1. Nim博弈:有一堆硬币,总个数是N;有2个玩家,轮流取硬币。每次可以选择取1枚或2枚。取到最后一枚硬币的人获胜。请问先手有必胜策略还是后手?(和N有关)
    1. 答案:
      在Nim博弈中,特别是在这种每次可以取1枚或2枚硬币的简单变体中,可以通过分析硬币的总数 𝑁N 来确定哪一方有必胜策略。

      分析

      此游戏可以通过分析局面(即剩余硬币数)的胜负情况来决定谁是必胜者。我们可以从基础情况开始,并向上递推:
      1. N=1 时,先手直接取走唯一的硬币,即可获胜。
      1. N=2 时,先手也可以直接取走两枚硬币,同样直接获胜。
      1. N=3 时,无论先手取1枚还是2枚,剩下的硬币数量将使后手处于 N=1 或 N=2 的必胜局面,因此后手必胜。
      1. N=4 时,先手可以通过取走1枚或2枚硬币,将后手置于 N=3 的必败局面,因此先手必胜。
      1. 对于更大的 N,可以观察到一个规律:若存在一种方式能让当前玩家通过一次移动将对手置于必败局面,则当前玩家处于必胜状态。
       

      规律和结论

      通过进一步分析,可以发现以下规律:
      • 如果 N 是3的倍数,则无论先手取1枚还是2枚,剩下的硬币数仍是3的倍数减1或减2,即使对手处于非3的倍数状态,后手总能通过取1枚或2枚回到3的倍数,使先手回到必败状态。
      • 如果 N 不是3的倍数,先手可以通过取1枚或2枚硬币使硬币总数变为3的倍数(通过取 N mod 3 枚),从而使后手处于必败状态。
      因此,结论是:
      • 如果 N 是3的倍数,则后手有必胜策略。
        • 𝑁
      • 如果 N 不是3的倍数,则先手有必胜策略。
        • 𝑁
  1. 海盗博弈:这个更有意思一些
  • 有五个理性的海盗,P1、 P2、 P3 、P4 和P5,找到了100个金币,需要想办法分配金币。海盗们有严格的等级制度:P1 < P2 < P3 < P4 < P5。
  • 海盗世界的分配原则是:等级最高的海盗提出一种分配方案。所有的海盗投票决定是否接受分配,包括提议人。并且在票数相同的情况下,提议人有决定权(提议人有投票权)。如果提议通过,那么海盗们按照提议分配金币。如果没有通过,那么提议人将被扔出船外,然后由下一个最高职位的海盗提出新的分配方案。
  • 请问,最终每个人分别会获得多少金币呢?
    • (提示,重要的不是钱了,而是命,更重点在于P5不会死)
      答案:
      我认为只有这一种答案(97,0,1,2,0)。(97,0,1,0,2)不成立,P5反正不会死,他可以一直投反对票,这对他最有利。
      题主疑问:
      但是我认为,假如每个海盗都绝顶聪明。他们能推得后一个人的分配方式也必定能推得前一个人的分配方式。比如3号海盗会以100,0,0分配。那他会知道2号会以98,0,1,1分配。这样自己就没有金币了.所以他会更改自己的分配方式让4号和5号支持自己。那么2号也会更改方案。这样这个问题就会变得非常复杂甚至无解。。。不知道自己哪里想错了。
      我觉得题主的问题出在加黑的这句话。题主所说的这个情境,是2号做出分配之前,3号推测出2号98 0 1 1的分配方法,跑去跟4号5号说,咱不同意这个2号的分配呗,一会儿把2干掉我多分你们俩一笔钱。试问4号5号会同意吗?显然不会。在博弈论的考虑范围内,是没有诚信这种概念的,大家都是只考虑利息的理性人。如果4号5号真的跟着3号把2号投票处决了,到了3号分配,此时2号已死,3号会按照承诺分4号5号每人一笔钱吗?说到这儿就很明白了,所谓的3号改变自己的分配方式让4号5号支持自己根本是不可能的,因为在此时2号3号并不是一个公平竞争的关系,3号获得决策权一定要建立在2号被处决的基础上,所以4号5号根本不会理睬此时3号的所谓利诱。
      本人接触的第一个博弈论模型就是海盗模型,对这个模型的研究时间最长。在这里给大家分享一下我的研究结果,其中有些部分内容有点脱离了博弈论的内容,希望各位看官见谅。
      在此先描述一下海盗模型内容:5个海盗分100金币,先由1号海盗提出分配方案,如果能获得其余半数及以上的赞成票,那么执行此方案,否则将1号处决,由2号提出方案,以此类推。
      以下为原答案:
      • ----------分割线分割线分割线-------
      从后向前推,如果1至3号强盗都喂了鲨鱼,只剩4号和5号的话,5号一定投反对票让4号喂鲨鱼,以独吞全部金币。所以,4号惟有支持3号才能保命。
      3号知道这一点,就会提出“100,0,0”的分配方案,对4号、5号一毛不拔而将全部金币归为已有,因为他知道4号一无所获但还是会投赞成票,再加上自己一票,他的方案即可通过。
      不过,2号推知3号的方案,就会提出“98,0,1,1”的方案,即放弃3号,而给予4号和5号各一枚金币。由于该方案对于4号和5号来说比在3号分配时更为有利,他们将支持他而不希望他出局而由3号来分配。这样,2号将拿走98枚金币。
      同样,2号的方案也会被1号所洞悉,1号并将提出(97,0,1,2,0)或(97,0,1,0,2)的方案,即放弃2号,而给3号一枚金币,同时给4号(或5号)2枚金币。由于1号的这一方案对于3号和4号(或5号)来说,相比2号分配时更优,他们将投1号的赞成票,再加上1号自己的票,1号的方案可获通过,97枚金币可轻松落入囊中。这无疑是1号能够获取最大收益的方案了!答案是:1号强盗分给3号1枚金币,分给4号或5号强盗2枚,自己独得97枚。分配方案可写成(97,0,1,2,0)或(97,0,1,0,2)。
      • -----分割线---分割线分割线分割线----
      上面这个答案应该说答得已经很完美了。海盗模型作为一个博弈论经典模型,是有一些条件的:
      1,所有参与的海盗都绝对理性,作出投票的判断和分配的了决策都是为了自己获得的钱尽量多。
      2所有的海盗都知道第一条
      3所有的海盗都知道第二条
      ……
      下面我要对海盗模型做一些变式:
      变式1弃钱保命:假如4号决策时,选择将所有的钱全部分配给5号,5号如何投票?也就是说,对于4号而言,一分钱不拿被处决,和一分钱不拿苟活相比,生命的苟存也是具有价值的。而对于5号而言,同样是拿100金币,是否要让4号活着,对他来说也是有不同的价值的。
      我们发现此时按照上面给出的条件5号无法做出决策,因为无论自己同不同意都能拿到100金币。此时我们需要在条件1中加上一句:当获得的金钱同样多时,海盗们会选择让存活的人尽量多/少。
      假如海盗们都比较仁慈,在得钱相同时选择让活着的人尽量多,那么5号会同意让4号交出所有的钱而苟活,并且所有人也知道这件事。那么原来的解题过程就会发生变化:3号还是继续按照100 0 0来分配,因为对4号来说,同样是拿0块钱,他会选择让三个人都活下来而同意3号的分配。前面的2号1号在考虑4号时,都只需要给4号0金币,就可以获得4号的支持,因为都是0块钱,活人越多越好嘛!这个条件下4号就成了任人宰割的羔羊了,显然和现实情况不符。
      那么更符合实际情况的条件应该是,在得钱相同时,海盗们会选择让活人尽量少。这个条件下,和原先的解题过程基本一致,不再赘述。
      变式2以命相搏:变式1还提出一个概念,就是条件1里面增加了一条,就是生命的价值。如果或者拿0金币的收益为0,那么人死了的收益就是负的。此时如果发生了下面的情况,该如何处理:在3号的100 0 0分配之前,4号威胁3号说,你必须给我1块钱,进行99 1 0的分配,否则我就不同意,我们34一起死,让5独得所有的钱。
      这个变式的条件打破了设定的条件,如果互相知道彼此都是理性且惜命的,那么3号不会理睬4号的威胁,照样给出100 0 0,你4号为了保命,还是得乖乖同意。但是假如不是理性且惜命呢?3号面对4号以命相搏的威胁,还会不会让出1块钱的利益呢?
      这里不是理性且惜命有两种含义。一,各人的惜命程度可能各有不同。例如我们放下海盗的设定,将3号设为一个官员或者企业家,4号设定为一个小混混,小混混觉得自己过得不怎么样,死了算是解脱,不如死前去敲3号一笔。二,我3号知道自己是理性的,但是不知道4号是不是理性的。第二种情况打破了理性人原则,用博弈论的思想已经无法解决了,因为你不知道你面对的是不是一个疯子,决策就根本没法做了,在此我们不去讨论。我们来讨论一下第一种情况。
      第一种情况的设定是,3号死亡收益为负数,我们不妨假设为-100,而4号觉得自己死不足惜,甚至算是解脱,4号的死亡收益甚至可以是+10,那么4号则必须至少拿出11块钱来,才能让这个小混混同意自己。(也遵循变式1中收益相同活人更少的要求。)
      像4号这种情愿去死的情况毕竟属于极端情况,那么假如4号的死亡收益没有+10这么夸张,仅仅是比3号的-100要少,比如为-10,也就是说3号4号都惜命,只不过3号更珍惜一些。此时4号如果威胁3号,那么3号会如何选择?
      假如这个博弈是真实发生的,也就是说死亡之后就没有下文了,那么3号还是不会理会4号的威胁,因为4号嘴上说威胁,但是真的面对100 0 0的分配,还是会乖乖同意的。但是如果这个博弈是多次发生的,比如只是一场电脑游戏,可以重复进行,是一个重复博弈,那么4号这样以命相搏的威胁就会有效果了。4号真的会否决100 0 0的分配,这样在下一个博弈的时候3号就不得不重新考虑4号的威胁:如果继续硬刚下去,出100 0 0,那么两个人都是负收益,5号将会渔翁得利,不如放弃一点利益,分4号1块钱,采用99 1 0的分配,让4号同意,自己也能得到99的收益。
      4号此时又想,好嘛,既然1块钱能让,那2块钱让不让?如果2块钱能让,10块钱能不能让?99块钱能不能让?100块钱能不能让!
      想想这画面就很刺激,在此前一直处于弟弟也位置的4号海盗,突然趾高气昂了起来,仗着自己命不值钱,骑在了3号头上。
      以刚才设置的34两人死亡收益分别为-100和-10为例,34两人的威胁关系将在某一个数值达到纳什平衡,这个数值应该是勒索95块钱。因为在5 95 0的分配下,4号如果仍然不满足,而选择反对的话,3和4两人的损失一样多都是105,达到平衡。
      在这种重复博弈的情况下,我们可以为每名海盗增加一个参数叫做惜命指数a,意义是该名海盗的死亡收益为-a。我们可以发现,当a3-a4≥100时,4号是真的可以勒索3号100块钱的。同样的当a4-a3≥100时,4号一分钱也勒索不到。在此基础上2号1号的决策就更复杂了,最终1号的决策内容应该是一个关于以a1a2a3a4为变量的函数,跟a5没有关系,因为5号的生命永远不会受到威胁。
      这个变式2改变了单次博弈的设定,与原先的海盗模型已经相去甚远了。
      变式3情愫暗生:谁规定海盗们就都是大男人呢!假如其中有男有女,并且有恋爱关系呢?那么情况就更加复杂了。
      首先是公开恋爱,比如2号和4号公开恋爱,那么2号和4号的考虑内容就不再是自己能够得到的钱尽量多了,而是他们俩加在一起得到的共有财产尽量多。(不考虑变式2中爱人活不活着的问题,也就是说如果处决爱人可以让自己得到比两个人都活着更多的钱,他们也会无情的处决对方。那这么看来他们的感情也不是很牢靠嘛哈哈哈哈)并且由于是公开恋爱,大家也都彼此知道这一情况,其他人做出决策的时候也会考虑这一点。
      第二种是不公开的恋爱,比如2号和4号恋爱,两个人都会考虑双方共有财产尽量多,但是其他三个人并不知道这一点。
      第三种是暗恋,4号暗恋2号,也就是说4号考虑的是2和4共有财产尽量多,而2号并不知道4号的心意,只会考虑自己拿多少钱,其他三个人更不知道了。
      如果让情况更复杂一点,可以让5号成为4号的好兄弟,5号知道自己好兄弟4号的暗恋情结,所以他在考虑4号的行为时会考虑4号的真实想法,而其他几个人只会把4号当做一个莫得感情的搞钱机器。
      恋爱关系的加入让原来的海盗模型变得非常的有趣,我这儿就不详细展开了,欢迎大家在评论区讨论!
      变式4丛林法则:当分配进行到4号时,之前的考虑都是5号一票否决将4号喂鲨鱼,或者4号放弃所有的钱向5号讨饶。这显然是不符合实际情况的,真实情况应该是4号说只剩我俩活着了我还遵守什么分配规则,谁拳头硬谁拿钱呗!如果“当分配进行到4号时分配规则将不复存在”这一点成为大家的公共信息,海盗模型又会如何变化呢?
      我们不妨先假设4和5的拳头一样硬,就是说他们俩谁也干不掉谁,只能把钱一人一半分。这种情况3号就只能选择和45中的一个人分100金币,按照变式1的尽量人少原则,他必须选择49 0 51或者49 51 0的分配方式,才能获得一票同意。他选择给谁51金币的概率应该是五五开,于是2号要想获得4或5的支持,需要支付超过他们获得金币的数学期望值也就是25.5金币。如果说金币是不可分割的,那么2号的分配方式就是48 0 26 26。同理1号的分配将会是72 0 1 27 0或者72 0 1 0 27以获得3和4或者和5的支持。(如果海盗多于5个,那么前面的0号海盗将会提出83 0 1 2 0 14或者83 0 1 2 14 0的分配方案……)
      那么如果4号5号的拳头不一样硬呢?比如5号的战斗力比4号强,其实就和最初的情况一样了,就是5号有一票处决4号的能力。或者4号的战斗力比5号强呢?4号有了直接处决5号的能力,其实就是在原题的基础上将4号和5号对调一下而已。 作者:花放处舟不系
      链接:https://www.zhihu.com/question/47973941/answer/870120073
      来源:知乎
      著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 
Relate Posts
警醒自己————我只是足够幸运才能够轻装简行有资格走难走的路,但切勿嘲笑负重前行被迫跟着拥挤的人们
Lazy loaded image
这就是Chatgpt 阅读笔记
Lazy loaded image
经验教训
Lazy loaded image
史蒂夫·沃兹尼亚克
Lazy loaded image
Edsger W. Dijkstra 埃兹格·W·迪杰斯特拉
Lazy loaded image
阅读指南
Lazy loaded image
快速部署YOLOv9SynthID学习笔记
Loading...
盛溪
盛溪
盛溪的学习&生活博客
Latest posts
墨尔本大学与悉尼大学IT入学要求
2025-3-29
经验教训
2025-3-6
马尔萨斯陷阱+内卷化认知
2025-2-27
法属阿尔及利亚
2025-2-27
北京切除:京林公寓最后一夜,最后一人
2025-2-27
Research about Computational Economics
2025-2-27
Announcement
🌟 欢迎来到盛溪的博客!🌟
大家好,我是盛溪。在这里,我将分享我的生活感悟、学习心得以及其他一些有趣的发现。希望我的文章能为你的生活带来一点启发和乐趣。
📅 更新通知:
  • 我会定期更新博客,分享新的内容。你可以通过RSS订阅或关注我的社交媒体账号来及时获取更新通知。
💬 互动环节:
  • 如果你有任何问题或想法,欢迎在评论区留言。我非常期待与你的互动!
📚 推荐阅读:
  • 不定期推荐一些我觉得有价值的书籍或资源,希望能对你有所帮助。
感谢你的访问和支持,希望你能常来逛逛!
盛溪敬上