type
status
date
slug
summary
tags
category
icon
password
 
文章来自:
notion image

一、什么是博弈论?

博弈论(Game Theory)相互依存情况中的理性行为的数学建模。博弈由这几个要素构成:
  • 玩家(Players):博弈的参与者
  • 策略(Strategy):博弈玩家各自的操作
  • 收益(Payoff):博弈玩家的收益,一般用矩阵来表示,在连续(连续代表着规律)的时候也会写成函数
  • 信息(Information):博弈玩家知道的信息
  • 理性(Rationality):博弈玩家是理性的,在竞争的情况下使自己的收益最大化
博弈论方法的本质——相互依存性:每一方的收益不仅依赖于自己的策略,同时也依赖其他参与方的策略
博弈论研究的目标——均衡:因为博弈的参与方的策略改变会造成收益的变化,所以,各玩家会调整策略使自己的收益最大。在这样的情况下,一个“稳定”的策略选择是值得研究的。各个玩家选择了各自的策略之后,没有动机去改变当前的策略,就形成了稳定的状态。
💡
动机很是重要
定义是抽象的,还是用一些例子来找找感觉吧。
 

二、例子:囚徒困境

这个例子应该是众所周知。简要介绍一下:
两个共谋犯罪的人被关入监狱,不能互相沟通情况。①如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;②若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十二年;③若互相揭发,则因证据确凿,二者都判刑六年。
考察博弈的几个要素:
  1. 玩家:这两个犯罪的人,记为A、B
  1. 策略:二者的策略都是{揭发、沉默}
  1. 收益:用收益矩阵来表示
notion image
4. 信息:这种情况是完全信息的,即,每一参与者都拥有所有其他参与者的收益函数的准确信息。
剧透一下,囚徒困境的”均衡“,是二人都选择揭发的策略

三、分类

  • 根据玩家数量分为:1人,2人,多人博弈
  • 根据“同时做决策”还是“轮流做决策”分为:策略式博弈(静态博弈)和扩展式博弈(动态博弈)、
  • 根据信息的了解情况分为:完全信息博弈和非完全信息博弈
  • 根据收益分为:零和博弈、非零和博弈
  • 合作、非合作博弈
  • 根据策略的数量分为:有限博弈和无限博弈
当然,上面的分类很杂,我们的课程主要讲了这几种:
  1. 完全信息策略式博弈
  1. 非完全信息策略式博弈
  1. 完全信息扩展式博弈
  1. 非完全信息扩展式博弈
  1. 重复博弈

四、小结

博弈论很有趣的,你会发现很多意想不到的结果。不过,由于博弈论假设每个玩家都是“理性”的,而现实生活却不一定是这样,因此,很多情况下博弈论给出的结论只是一个理论上的参考。
有一些有意思的小例子,算是智力小测试了,感兴趣可以看看:
  1. Nim博弈:有一堆硬币,总个数是N;有2个玩家,轮流取硬币。每次可以选择取1枚或2枚。取到最后一枚硬币的人获胜。请问先手有必胜策略还是后手?(和N有关)
    1. 答案:
      在Nim博弈中,特别是在这种每次可以取1枚或2枚硬币的简单变体中,可以通过分析硬币的总数 𝑁N 来确定哪一方有必胜策略。

      分析

      此游戏可以通过分析局面(即剩余硬币数)的胜负情况来决定谁是必胜者。我们可以从基础情况开始,并向上递推:
      1. N=1 时,先手直接取走唯一的硬币,即可获胜。
      1. N=2 时,先手也可以直接取走两枚硬币,同样直接获胜。
      1. N=3 时,无论先手取1枚还是2枚,剩下的硬币数量将使后手处于 N=1 或 N=2 的必胜局面,因此后手必胜。
      1. N=4 时,先手可以通过取走1枚或2枚硬币,将后手置于 N=3 的必败局面,因此先手必胜。
      1. 对于更大的 N,可以观察到一个规律:若存在一种方式能让当前玩家通过一次移动将对手置于必败局面,则当前玩家处于必胜状态。
       

      规律和结论

      通过进一步分析,可以发现以下规律:
      • 如果 N 是3的倍数,则无论先手取1枚还是2枚,剩下的硬币数仍是3的倍数减1或减2,即使对手处于非3的倍数状态,后手总能通过取1枚或2枚回到3的倍数,使先手回到必败状态。
      • 如果 N 不是3的倍数,先手可以通过取1枚或2枚硬币使硬币总数变为3的倍数(通过取 N mod 3 枚),从而使后手处于必败状态。
      因此,结论是:
      • 如果 N 是3的倍数,则后手有必胜策略。
        • 𝑁
      • 如果 N 不是3的倍数,则先手有必胜策略。
        • 𝑁
  1. 海盗博弈:这个更有意思一些
  • 有五个理性的海盗,P1、 P2、 P3 、P4 和P5,找到了100个金币,需要想办法分配金币。海盗们有严格的等级制度:P1 < P2 < P3 < P4 < P5。
  • 海盗世界的分配原则是:等级最高的海盗提出一种分配方案。所有的海盗投票决定是否接受分配,包括提议人。并且在票数相同的情况下,提议人有决定权(提议人有投票权)。如果提议通过,那么海盗们按照提议分配金币。如果没有通过,那么提议人将被扔出船外,然后由下一个最高职位的海盗提出新的分配方案。
  • 请问,最终每个人分别会获得多少金币呢?
    • (提示,重要的不是钱了,而是命,更重点在于P5不会死)
      答案:
      我认为只有这一种答案(97,0,1,2,0)。(97,0,1,0,2)不成立,P5反正不会死,他可以一直投反对票,这对他最有利。
      题主疑问:
      但是我认为,假如每个海盗都绝顶聪明。他们能推得后一个人的分配方式也必定能推得前一个人的分配方式。比如3号海盗会以100,0,0分配。那他会知道2号会以98,0,1,1分配。这样自己就没有金币了.所以他会更改自己的分配方式让4号和5号支持自己。那么2号也会更改方案。这样这个问题就会变得非常复杂甚至无解。。。不知道自己哪里想错了。
      我觉得题主的问题出在加黑的这句话。题主所说的这个情境,是2号做出分配之前,3号推测出2号98 0 1 1的分配方法,跑去跟4号5号说,咱不同意这个2号的分配呗,一会儿把2干掉我多分你们俩一笔钱。试问4号5号会同意吗?显然不会。在博弈论的考虑范围内,是没有诚信这种概念的,大家都是只考虑利息的理性人。如果4号5号真的跟着3号把2号投票处决了,到了3号分配,此时2号已死,3号会按照承诺分4号5号每人一笔钱吗?说到这儿就很明白了,所谓的3号改变自己的分配方式让4号5号支持自己根本是不可能的,因为在此时2号3号并不是一个公平竞争的关系,3号获得决策权一定要建立在2号被处决的基础上,所以4号5号根本不会理睬此时3号的所谓利诱。
      本人接触的第一个博弈论模型就是海盗模型,对这个模型的研究时间最长。在这里给大家分享一下我的研究结果,其中有些部分内容有点脱离了博弈论的内容,希望各位看官见谅。
      在此先描述一下海盗模型内容:5个海盗分100金币,先由1号海盗提出分配方案,如果能获得其余半数及以上的赞成票,那么执行此方案,否则将1号处决,由2号提出方案,以此类推。
      以下为原答案:
      • ----------分割线分割线分割线-------
      从后向前推,如果1至3号强盗都喂了鲨鱼,只剩4号和5号的话,5号一定投反对票让4号喂鲨鱼,以独吞全部金币。所以,4号惟有支持3号才能保命。
      3号知道这一点,就会提出“100,0,0”的分配方案,对4号、5号一毛不拔而将全部金币归为已有,因为他知道4号一无所获但还是会投赞成票,再加上自己一票,他的方案即可通过。
      不过,2号推知3号的方案,就会提出“98,0,1,1”的方案,即放弃3号,而给予4号和5号各一枚金币。由于该方案对于4号和5号来说比在3号分配时更为有利,他们将支持他而不希望他出局而由3号来分配。这样,2号将拿走98枚金币。
      同样,2号的方案也会被1号所洞悉,1号并将提出(97,0,1,2,0)或(97,0,1,0,2)的方案,即放弃2号,而给3号一枚金币,同时给4号(或5号)2枚金币。由于1号的这一方案对于3号和4号(或5号)来说,相比2号分配时更优,他们将投1号的赞成票,再加上1号自己的票,1号的方案可获通过,97枚金币可轻松落入囊中。这无疑是1号能够获取最大收益的方案了!答案是:1号强盗分给3号1枚金币,分给4号或5号强盗2枚,自己独得97枚。分配方案可写成(97,0,1,2,0)或(97,0,1,0,2)。
      • -----分割线---分割线分割线分割线----
      上面这个答案应该说答得已经很完美了。海盗模型作为一个博弈论经典模型,是有一些条件的:
      1,所有参与的海盗都绝对理性,作出投票的判断和分配的了决策都是为了自己获得的钱尽量多。
      2所有的海盗都知道第一条
      3所有的海盗都知道第二条
      ……
      下面我要对海盗模型做一些变式:
      变式1弃钱保命:假如4号决策时,选择将所有的钱全部分配给5号,5号如何投票?也就是说,对于4号而言,一分钱不拿被处决,和一分钱不拿苟活相比,生命的苟存也是具有价值的。而对于5号而言,同样是拿100金币,是否要让4号活着,对他来说也是有不同的价值的。
      我们发现此时按照上面给出的条件5号无法做出决策,因为无论自己同不同意都能拿到100金币。此时我们需要在条件1中加上一句:当获得的金钱同样多时,海盗们会选择让存活的人尽量多/少。
      假如海盗们都比较仁慈,在得钱相同时选择让活着的人尽量多,那么5号会同意让4号交出所有的钱而苟活,并且所有人也知道这件事。那么原来的解题过程就会发生变化:3号还是继续按照100 0 0来分配,因为对4号来说,同样是拿0块钱,他会选择让三个人都活下来而同意3号的分配。前面的2号1号在考虑4号时,都只需要给4号0金币,就可以获得4号的支持,因为都是0块钱,活人越多越好嘛!这个条件下4号就成了任人宰割的羔羊了,显然和现实情况不符。
      那么更符合实际情况的条件应该是,在得钱相同时,海盗们会选择让活人尽量少。这个条件下,和原先的解题过程基本一致,不再赘述。
      变式2以命相搏:变式1还提出一个概念,就是条件1里面增加了一条,就是生命的价值。如果或者拿0金币的收益为0,那么人死了的收益就是负的。此时如果发生了下面的情况,该如何处理:在3号的100 0 0分配之前,4号威胁3号说,你必须给我1块钱,进行99 1 0的分配,否则我就不同意,我们34一起死,让5独得所有的钱。
      这个变式的条件打破了设定的条件,如果互相知道彼此都是理性且惜命的,那么3号不会理睬4号的威胁,照样给出100 0 0,你4号为了保命,还是得乖乖同意。但是假如不是理性且惜命呢?3号面对4号以命相搏的威胁,还会不会让出1块钱的利益呢?
      这里不是理性且惜命有两种含义。一,各人的惜命程度可能各有不同。例如我们放下海盗的设定,将3号设为一个官员或者企业家,4号设定为一个小混混,小混混觉得自己过得不怎么样,死了算是解脱,不如死前去敲3号一笔。二,我3号知道自己是理性的,但是不知道4号是不是理性的。第二种情况打破了理性人原则,用博弈论的思想已经无法解决了,因为你不知道你面对的是不是一个疯子,决策就根本没法做了,在此我们不去讨论。我们来讨论一下第一种情况。
      第一种情况的设定是,3号死亡收益为负数,我们不妨假设为-100,而4号觉得自己死不足惜,甚至算是解脱,4号的死亡收益甚至可以是+10,那么4号则必须至少拿出11块钱来,才能让这个小混混同意自己。(也遵循变式1中收益相同活人更少的要求。)
      像4号这种情愿去死的情况毕竟属于极端情况,那么假如4号的死亡收益没有+10这么夸张,仅仅是比3号的-100要少,比如为-10,也就是说3号4号都惜命,只不过3号更珍惜一些。此时4号如果威胁3号,那么3号会如何选择?
      假如这个博弈是真实发生的,也就是说死亡之后就没有下文了,那么3号还是不会理会4号的威胁,因为4号嘴上说威胁,但是真的面对100 0 0的分配,还是会乖乖同意的。但是如果这个博弈是多次发生的,比如只是一场电脑游戏,可以重复进行,是一个重复博弈,那么4号这样以命相搏的威胁就会有效果了。4号真的会否决100 0 0的分配,这样在下一个博弈的时候3号就不得不重新考虑4号的威胁:如果继续硬刚下去,出100 0 0,那么两个人都是负收益,5号将会渔翁得利,不如放弃一点利益,分4号1块钱,采用99 1 0的分配,让4号同意,自己也能得到99的收益。
      4号此时又想,好嘛,既然1块钱能让,那2块钱让不让?如果2块钱能让,10块钱能不能让?99块钱能不能让?100块钱能不能让!
      想想这画面就很刺激,在此前一直处于弟弟也位置的4号海盗,突然趾高气昂了起来,仗着自己命不值钱,骑在了3号头上。
      以刚才设置的34两人死亡收益分别为-100和-10为例,34两人的威胁关系将在某一个数值达到纳什平衡,这个数值应该是勒索95块钱。因为在5 95 0的分配下,4号如果仍然不满足,而选择反对的话,3和4两人的损失一样多都是105,达到平衡。
      在这种重复博弈的情况下,我们可以为每名海盗增加一个参数叫做惜命指数a,意义是该名海盗的死亡收益为-a。我们可以发现,当a3-a4≥100时,4号是真的可以勒索3号100块钱的。同样的当a4-a3≥100时,4号一分钱也勒索不到。在此基础上2号1号的决策就更复杂了,最终1号的决策内容应该是一个关于以a1a2a3a4为变量的函数,跟a5没有关系,因为5号的生命永远不会受到威胁。
      这个变式2改变了单次博弈的设定,与原先的海盗模型已经相去甚远了。
      变式3情愫暗生:谁规定海盗们就都是大男人呢!假如其中有男有女,并且有恋爱关系呢?那么情况就更加复杂了。
      首先是公开恋爱,比如2号和4号公开恋爱,那么2号和4号的考虑内容就不再是自己能够得到的钱尽量多了,而是他们俩加在一起得到的共有财产尽量多。(不考虑变式2中爱人活不活着的问题,也就是说如果处决爱人可以让自己得到比两个人都活着更多的钱,他们也会无情的处决对方。那这么看来他们的感情也不是很牢靠嘛哈哈哈哈)并且由于是公开恋爱,大家也都彼此知道这一情况,其他人做出决策的时候也会考虑这一点。
      第二种是不公开的恋爱,比如2号和4号恋爱,两个人都会考虑双方共有财产尽量多,但是其他三个人并不知道这一点。
      第三种是暗恋,4号暗恋2号,也就是说4号考虑的是2和4共有财产尽量多,而2号并不知道4号的心意,只会考虑自己拿多少钱,其他三个人更不知道了。
      如果让情况更复杂一点,可以让5号成为4号的好兄弟,5号知道自己好兄弟4号的暗恋情结,所以他在考虑4号的行为时会考虑4号的真实想法,而其他几个人只会把4号当做一个莫得感情的搞钱机器。
      恋爱关系的加入让原来的海盗模型变得非常的有趣,我这儿就不详细展开了,欢迎大家在评论区讨论!
      变式4丛林法则:当分配进行到4号时,之前的考虑都是5号一票否决将4号喂鲨鱼,或者4号放弃所有的钱向5号讨饶。这显然是不符合实际情况的,真实情况应该是4号说只剩我俩活着了我还遵守什么分配规则,谁拳头硬谁拿钱呗!如果“当分配进行到4号时分配规则将不复存在”这一点成为大家的公共信息,海盗模型又会如何变化呢?
      我们不妨先假设4和5的拳头一样硬,就是说他们俩谁也干不掉谁,只能把钱一人一半分。这种情况3号就只能选择和45中的一个人分100金币,按照变式1的尽量人少原则,他必须选择49 0 51或者49 51 0的分配方式,才能获得一票同意。他选择给谁51金币的概率应该是五五开,于是2号要想获得4或5的支持,需要支付超过他们获得金币的数学期望值也就是25.5金币。如果说金币是不可分割的,那么2号的分配方式就是48 0 26 26。同理1号的分配将会是72 0 1 27 0或者72 0 1 0 27以获得3和4或者和5的支持。(如果海盗多于5个,那么前面的0号海盗将会提出83 0 1 2 0 14或者83 0 1 2 14 0的分配方案……)
      那么如果4号5号的拳头不一样硬呢?比如5号的战斗力比4号强,其实就和最初的情况一样了,就是5号有一票处决4号的能力。或者4号的战斗力比5号强呢?4号有了直接处决5号的能力,其实就是在原题的基础上将4号和5号对调一下而已。 作者:花放处舟不系
      链接:https://www.zhihu.com/question/47973941/answer/870120073
      来源:知乎
      著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 
快速部署YOLOv9SynthID学习笔记
Loading...
NotionNext
NotionNext
一个普通的干饭人🍚
Announcement
🌟 欢迎来到盛溪的博客!🌟
大家好,我是盛溪。在这里,我将分享我的生活感悟、学习心得以及其他一些有趣的发现。希望我的文章能为你的生活带来一点启发和乐趣。
📅 更新通知:
  • 我会定期更新博客,分享新的内容。你可以通过RSS订阅或关注我的社交媒体账号来及时获取更新通知。
💬 互动环节:
  • 如果你有任何问题或想法,欢迎在评论区留言。我非常期待与你的互动!
📚 推荐阅读:
  • 不定期推荐一些我觉得有价值的书籍或资源,希望能对你有所帮助。
感谢你的访问和支持,希望你能常来逛逛!
盛溪敬上