版权声明:本文为原创文章,未经博主允许不得用于商业用途。

​ 在实际情况中,博弈对手的收益大多为不可见的,即每个玩家有公共信息和私有信息。

贝叶斯博弈

基本概念

  • 在贝叶斯博弈中为每位玩家增加一个类型空间Θi\Theta_{i}Θi​包含其所有的私有信息(针对不同策略的不同收益函数)

  • 所有玩家类型空间的选择满足概率分布p=p(θ1,...,θN)on×i=1...nΘip=p(\theta_{1},...,\theta_{N})\ on\ \times_{i=1...n}\Theta_{i}p=p(θ1​,...,θN​) on ×i=1...n​Θi​

  • 玩家i的一种纯策略ai=(ai(θi1),ai(θi2),...,ai(θini))a_{i}=(a_{i}(\theta_i^1),a_i(\theta_i^2),...,a_i(\theta_i^{n_i}))ai​=(ai​(θi1​),ai​(θi2​),...,ai​(θini​​)),其中nin_ini​为玩家i类型空间的大小(可以看成Θi→Ai\Theta_i\rightarrow A_iΘi​→Ai​的映射)。

  • 收益函数可以写作ui(a1,...aN,θ1,...,θN),θi∈Θiu_i(a_1,...a_N,\theta_1,...,\theta_N),\theta_i \in \Theta_iui​(a1​,...aN​,θ1​,...,θN​),θi​∈Θi​,即针对每一种博弈结果,玩家的每种类型都有一个收益。

  • 贝叶斯博弈中类型空间的选取满足贝叶斯公式,即p(θ−i∣θi)=p(θi,θ−i)p(θi)p(\theta_{-i}|\theta_i)=\frac{p(\theta_i,\theta_{-i})}{p(\theta_i)}p(θ−i​∣θi​)=p(θi​)p(θi​,θ−i​)​

  • 博弈结果需要每位玩家在每个类型上选择一种最优策略,因此最终结果表示为((a1(θ11),...,a1(θ1n1)),...,(aN(θN1),...,aN(θNnN))((a_1(\theta_1^1),...,a_1(\theta_1^{n_1})),...,(a_N(\theta_N^1),...,a_N(\theta_N^{n_N}))((a1​(θ11​),...,a1​(θ1n1​​)),...,(aN​(θN1​),...,aN​(θNnN​​))

  • 玩家i某一类型收益为所有其余玩家所有策略的期望:Ui(ai(θi),a−i)=∑θ−ip(θ−i∣θi)ui(a−i(θ−i),ai,θ−i,θi)U_i(a_i(\theta_i),a_{-i})=\sum_{\theta_{-i}}p(\theta_{-i}|\theta_i)u_i(a_{-i}(\theta_{-i}),a_i,\theta_{-i},\theta_i)Ui​(ai​(θi​),a−i​)=∑θ−i​​p(θ−i​∣θi​)ui​(a−i​(θ−i​),ai​,θ−i​,θi​)

    综上,贝叶斯博弈可以表示为G={N,{Ai},{Θi},{ui},p}G=\{N,\{A_i\},\{\Theta_i\},\{u_i\},p\}G={N,{Ai​},{Θi​},{ui​},p}。

例题1:

Bank Runs

两名客户在银行中都有100的资产,如果遇到好的银行家则两人都可以获得150,否则失去所有资产。

客户可以取出自己的存款,但银行只有100的资金,一个取出另一个资产为0,如果两个人都选择取出则每人获得50。

其中:Player1以概率p相信银行家,Player2知道银行家的好坏。

化规为贝叶斯博弈:

策略集为:A1=A2=W,NA_1=A_2={W,N}A1​=A2​=W,N(W即withdraw, N即not)

类型空间为:Θ1={1},Θ2={G,B}\Theta_1=\{1\},\Theta_2=\{G,B\}Θ1​={1},Θ2​={G,B},Player1只有一种类型,Player2具有类型G(好银行家)和B(坏银行家)

概率分布只针对玩家1,p1(θ2=G)=pp_1(\theta_2=G)=pp1​(θ2​=G)=p

则:

  • 如果Player1选择W,则玩家2最优策略为:B2(W,G)={W};B2(W,B)={W}B_2(W,G)=\{W\}; \ B_2(W,B)=\{W\}B2​(W,G)={W}; B2​(W,B)={W}。则:

    • U1(W,B2)=50p+50(1−p)=50U_1(W,B_2)=50p+50(1-p)=50U1​(W,B2​)=50p+50(1−p)=50
    • U1(N,B2)=0p+0(1−p)=0U_1(N,B_2)=0p+0(1-p)=0U1​(N,B2​)=0p+0(1−p)=0

显然此时Player1无理由更换策略,因此达到贝叶斯纳什均衡。

  • 如果Player1选择N,则玩家2最优策略为:B2(N,G)={N}:B2(N,B)={W}B_2(N,G)=\{N\}:B_2(N,B)=\{W\}B2​(N,G)={N}:B2​(N,B)={W}。则:

    • U1(W,B2)=100p+50(1−p)U_1(W,B_2)=100p+50(1-p)U1​(W,B2​)=100p+50(1−p)
    • U1(N,B2)=150p+0(1−p)U_1(N,B_2)=150p+0(1-p)U1​(N,B2​)=150p+0(1−p)

因此当U1(N,B2)≥U1(W,B2)U_1(N,B_2)\geq U_1(W,B_2)U1​(N,B2​)≥U1​(W,B2​)时达到贝叶斯均衡,即p≥0.5p\geq 0.5p≥0.5

例题2:

第一高价拍卖:

更改之前的规则:两名玩家参与竞拍,玩家只知道自己的实际价值,其他玩家的实际价值为[0,1]的任意实数,且等概率,竞拍价格为bi=avi,(a>0)b_i=av_i,(a>0)bi​=avi​,(a>0)

玩家1收益函数定义为:

​ v1−b1ifb1>b2v_1-b_1\ if\ b_1>b_2v1​−b1​ if b1​>b2​

​ v1/2−b1ifb1=b2v_1/2-b_1\ if\ b_1=b_2v1​/2−b1​ if b1​=b2​

​ 0otherwise0\ otherwise0 otherwise

则玩家1的收益为:U1(bi,bj(vj),vi)=(vi−bi)p[bi&gt;bj(vj)]+(vi−bi)/2p[bi=bj(vj)]+0p[bi&lt;bj(vj)]U_1(b_i,bj(v_j),v_i)=(v_i-b_i)p[b_i&gt;b_j(v_j)]+(v_i-b_i)/2p[b_i=b_j(v_j)]+0p[b_i&lt;b_j(v_j)]U1​(bi​,bj(vj​),vi​)=(vi​−bi​)p[bi​>bj​(vj​)]+(vi​−bi​)/2p[bi​=bj​(vj​)]+0p[bi​<bj​(vj​)],其中bi&gt;bj⇔bi&gt;avj⇔bi/a&gt;vjb_i&gt;b_j\Leftrightarrow b_i&gt;av_j\Leftrightarrow b_i/a&gt;v_jbi​>bj​⇔bi​>avj​⇔bi​/a>vj​

​ 由于vjv_jvj​z在[0,1]为均匀分布,因此bi在[0,avj]b_i在[0,av_j]bi​在[0,avj​]为均匀分布,因此:

p[bi&gt;bj]=bi/a,Ui(bi,bj,vi)=(vi−bi)bi/a,当bi=vi/2p[b_i&gt;b_j]=b_i/a,U_i(b_i,b_j,v_i)=(v_i-b_i)b_i/a,当b_i=v_i/2p[bi​>bj​]=bi​/a,Ui​(bi​,bj​,vi​)=(vi​−bi​)bi​/a,当bi​=vi​/2时取得最大值。

​ 如果拓展到N个博弈玩家则U1(bi,bj(vj),vi)=(vi−bi)p[bi&gt;max{bj(vj)}]+(vi−bi)/2p[bi=max{bj(vj)}]U_1(b_i,bj(v_j),v_i)=(v_i-b_i)p[b_i&gt;max\{b_j(v_j)\}]+(v_i-b_i)/2p[b_i=max\{b_j(v_j)\}]U1​(bi​,bj(vj​),vi​)=(vi​−bi​)p[bi​>max{bj​(vj​)}]+(vi​−bi​)/2p[bi​=max{bj​(vj​)}]

且bi&gt;max{bj}⇔vi&gt;max{vj}b_i&gt;max\{b_j\}\Leftrightarrow v_i&gt;max\{v_j\}bi​>max{bj​}⇔vi​>max{vj​},且各玩家的真实价值相互独立,因此p[vi&gt;max{vj}]=∏j≠ip[vi&gt;vj]=viN−1=(bi/a)N−1p[v_i&gt;max\{v_j\}]=\prod_{j\neq i} p[v_i&gt;v_j]=v_i^{N-1}=(b_i/a)^{N-1}p[vi​>max{vj​}]=∏j̸​=i​p[vi​>vj​]=viN−1​=(bi​/a)N−1,收益为(vi−bi)(bi/a)N−1(v_i-b_i)(b_i/a)^{N-1}(vi​−bi​)(bi​/a)N−1。

求导得:bin−2(((N−1)vi−Nbi)=0⇒bi=N−1Nvib_i^{n-2}(((N-1)v_i-Nb_i)=0\Rightarrow b_i=\frac{N-1}{N}v_ibin−2​(((N−1)vi​−Nbi​)=0⇒bi​=NN−1​vi​

博弈论——非完全信息博弈相关推荐

  1. 博弈论——非合作博弈 什么是纳什均衡

    博弈论--非合作博弈 纳什均衡用一句话来概括就是--博弈的所有参与人都为了满足自己 的个人利益而选择牺牲集体利益而导致的全体参与人都吃亏的均衡状态. 也可以粗略的理解为:要死大家一起死. 纳什均衡的本 ...

  2. 麻将AI 不完全信息博弈学习笔记(完结)

    前言 在这学期的数据结构必修课中,老师向我们提供了两道题: 其一是六子棋问题: 其二是麻将AI问题: 前者是经典的完全信息博弈问题,根据我已有的知识,利用博弈树和合理的剪枝可以提供一种高效的解法(当然 ...

  3. 【科普】博弈论之胆小鬼博弈、囚徒困境、智猪博弈与纳什均衡

    目录 一.前言 1.1 博弈论 1.2 纳什 1.3 胆小鬼博弈 1.4 囚徒困境 1.5 智猪博弈 二.纳什均衡 2.1 纳什均衡定义 2.2 悖论 结语 一.前言 在博弈论中,纳什均衡(Nash ...

  4. MATLAB代码:基于非合作博弈的多微网P2P交易策略研究

    MATLAB代码:基于非合作博弈的多微网P2P交易策略研究 关键词:微网 P2P交易 非合作博弈 交易电价 参考文档:<基于博弈论的多微电网系统交易模式研究>完全复现 仿真平台:MATLA ...

  5. 人工智能笔记之专业选修课4.1.5 - 博弈论 9.重复博弈,效用,随机博弈

    重复博弈 (repeated games) 当我们考虑世界上绝大部分互动时,其中很多不止会发生一次 市场上的公司 它们与竞争对手活动 朋友,你会交换吗,你会在朋友需要帮助时帮助他们吗?你需要时他们会帮 ...

  6. 博弈论(阶梯博弈)POJ 1704

    对阶梯博弈的阐述:博弈在一列阶梯上进行,每个阶梯上放着自然数个点.两个人进行阶梯博弈,每一步则是将一个集体上的若干个点( >=1 )移到前面去,最后没有点可以移动的人输 证明方式:如这就是一个阶 ...

  7. 博弈论——巴什博弈(C++)

    博弈论(C++) 前言 例题:拍卖会 题目描述 输入输出格式 输入格式: 输出格式: 输入输出样例 输入样例#1: 输出样例#1: 例题的解: 巴什博奕(Bash Game): 代码: 前言 有一种很 ...

  8. 数学基础(四)博弈论(巴什博弈~威佐夫博弈(黄金分割率)~尼姆博奕~斐波那契博弈~SG函数模板)

    一.巴什博弈 1.问题模型 只有一堆n个物品,两个人轮流从这堆物品中取物,规定每次至少取一个,最多取m个,最后取光者得胜. 2.解决思路: 当n=m+1时,由于一次最多只能取m个,所以无论先取者拿走多 ...

  9. 基于非合作博弈的风-光-氢微电网容量优化配置(Matlab代码实现)

最新文章

  1. 4g模块注册上网 移远_Openwrt实现4G模块上网功能
  2. HDU多校1 - 6959 zoto(莫队+树状数组/值域分块)
  3. H5在线商城/全新商城支持团购优惠劵砍价
  4. 两种方式实现word转markdown
  5. 安装m2eclipse插件
  6. 李菲菲贡献_贡献,贡献,贡献!
  7. 转:C++ string的万能转换
  8. 004商城项目:ssm框架的整合之后的调试
  9. java win10 x64下载地址_javawin10 64位
  10. Javaweb基础-SQL增删改查
  11. 蓝牙解码格式哪个最好_柏韵Pureaudio AirDSD Pro 串流播放解码前级
  12. 单片机C语言code关键字
  13. 插上U盘提示“需要格式化”如何修复?u盘提示需要格式化,U盘打不开,且8G的U盘只报64M,为什么?
  14. 购物车中我的订单查询
  15. lamp技术研发人员的必备
  16. java 高效列转行,java 列转行
  17. ariang/Aria2 RPC 服务器错误/Aria2状态/未连接
  18. Scratch滚动的天空(2)
  19. 苹果笔的代替笔有哪些?Ipad好用电容笔测评
  20. 【Mysql系列】游标/光标简介

热门文章

  1. php框架orm技术,最佳PHP开源ORM框架Doctrine
  2. 分析当下关注度最高的电视节目之一,过往39届央视春晚的数据
  3. (四)分布式缓存——Redis分片集群
  4. 【51NOD 1501】【51NOD 算法马拉松19】石头剪刀布威力加强版
  5. modbus4j串口通讯
  6. Django类视图CBV扩展基类之通用显示视图ListView、DetailView
  7. 从零学习自动驾驶—百度Apollo高精地图
  8. 基于ASP.NET的高校软考培训报名系统设计与实现
  9. LKT4100D 8位防盗版加密芯片
  10. 深度剖析Java集合之ArrayDeque