博弈论——非完全信息博弈

在实际情况中，博弈对手的收益大多为不可见的，即每个玩家有公共信息和私有信息。

贝叶斯博弈

基本概念

在贝叶斯博弈中为每位玩家增加一个类型空间Θi\Theta_{i}Θi包含其所有的私有信息(针对不同策略的不同收益函数)
所有玩家类型空间的选择满足概率分布p=p(θ1,...,θN)on×i=1...nΘip=p(\theta_{1},...,\theta_{N})\ on\ \times_{i=1...n}\Theta_{i}p=p(θ1,...,θN) on ×i=1...nΘi
玩家i的一种纯策略ai=(ai(θi1),ai(θi2),...,ai(θini))a_{i}=(a_{i}(\theta_i^1),a_i(\theta_i^2),...,a_i(\theta_i^{n_i}))ai=(ai(θi1),ai(θi2),...,ai(θini))，其中nin_ini为玩家i类型空间的大小（可以看成Θi→Ai\Theta_i\rightarrow A_iΘi→Ai的映射）。
收益函数可以写作ui(a1,...aN,θ1,...,θN),θi∈Θiu_i(a_1,...a_N,\theta_1,...,\theta_N),\theta_i \in \Theta_iui(a1,...aN,θ1,...,θN),θi∈Θi，即针对每一种博弈结果，玩家的每种类型都有一个收益。
贝叶斯博弈中类型空间的选取满足贝叶斯公式，即p(θ−i∣θi)=p(θi,θ−i)p(θi)p(\theta_{-i}|\theta_i)=\frac{p(\theta_i,\theta_{-i})}{p(\theta_i)}p(θ−i∣θi)=p(θi)p(θi,θ−i)
博弈结果需要每位玩家在每个类型上选择一种最优策略，因此最终结果表示为((a1(θ11),...,a1(θ1n1)),...,(aN(θN1),...,aN(θNnN))((a_1(\theta_1^1),...,a_1(\theta_1^{n_1})),...,(a_N(\theta_N^1),...,a_N(\theta_N^{n_N}))((a1(θ11),...,a1(θ1n1)),...,(aN(θN1),...,aN(θNnN))
玩家i某一类型收益为所有其余玩家所有策略的期望：Ui(ai(θi),a−i)=∑θ−ip(θ−i∣θi)ui(a−i(θ−i),ai,θ−i,θi)U_i(a_i(\theta_i),a_{-i})=\sum_{\theta_{-i}}p(\theta_{-i}|\theta_i)u_i(a_{-i}(\theta_{-i}),a_i,\theta_{-i},\theta_i)Ui(ai(θi),a−i)=∑θ−ip(θ−i∣θi)ui(a−i(θ−i),ai,θ−i,θi)

综上，贝叶斯博弈可以表示为G={N,{Ai},{Θi},{ui},p}G=\{N,\{A_i\},\{\Theta_i\},\{u_i\},p\}G={N,{Ai},{Θi},{ui},p}。

例题1：

Bank Runs

两名客户在银行中都有100的资产，如果遇到好的银行家则两人都可以获得150，否则失去所有资产。

客户可以取出自己的存款，但银行只有100的资金，一个取出另一个资产为0，如果两个人都选择取出则每人获得50。

其中：Player1以概率p相信银行家，Player2知道银行家的好坏。

化规为贝叶斯博弈：

策略集为：A1=A2=W,NA_1=A_2={W,N}A1=A2=W,N（W即withdraw, N即not）

类型空间为：Θ1={1},Θ2={G,B}\Theta_1=\{1\},\Theta_2=\{G,B\}Θ1={1},Θ2={G,B}，Player1只有一种类型，Player2具有类型G(好银行家)和B(坏银行家)

概率分布只针对玩家1，p1(θ2=G)=pp_1(\theta_2=G)=pp1(θ2=G)=p

则：

如果Player1选择W，则玩家2最优策略为：B2(W,G)={W};B2(W,B)={W}B_2(W,G)=\{W\}; \ B_2(W,B)=\{W\}B2(W,G)={W}; B2(W,B)={W}。则：
- U1(W,B2)=50p+50(1−p)=50U_1(W,B_2)=50p+50(1-p)=50U1(W,B2)=50p+50(1−p)=50
- U1(N,B2)=0p+0(1−p)=0U_1(N,B_2)=0p+0(1-p)=0U1(N,B2)=0p+0(1−p)=0

显然此时Player1无理由更换策略，因此达到贝叶斯纳什均衡。

如果Player1选择N，则玩家2最优策略为：B2(N,G)={N}:B2(N,B)={W}B_2(N,G)=\{N\}:B_2(N,B)=\{W\}B2(N,G)={N}:B2(N,B)={W}。则：
- U1(W,B2)=100p+50(1−p)U_1(W,B_2)=100p+50(1-p)U1(W,B2)=100p+50(1−p)
- U1(N,B2)=150p+0(1−p)U_1(N,B_2)=150p+0(1-p)U1(N,B2)=150p+0(1−p)

因此当U1(N,B2)≥U1(W,B2)U_1(N,B_2)\geq U_1(W,B_2)U1(N,B2)≥U1(W,B2)时达到贝叶斯均衡，即p≥0.5p\geq 0.5p≥0.5

例题2：

第一高价拍卖：

更改之前的规则：两名玩家参与竞拍，玩家只知道自己的实际价值，其他玩家的实际价值为[0,1]的任意实数，且等概率，竞拍价格为bi=avi,(a>0)b_i=av_i,(a>0)bi=avi,(a>0)

玩家1收益函数定义为：

v1−b1ifb1>b2v_1-b_1\ if\ b_1>b_2v1−b1 if b1>b2

v1/2−b1ifb1=b2v_1/2-b_1\ if\ b_1=b_2v1/2−b1 if b1=b2

0otherwise0\ otherwise0 otherwise

则玩家1的收益为：U1(bi,bj(vj),vi)=(vi−bi)p[bi>bj(vj)]+(vi−bi)/2p[bi=bj(vj)]+0p[bi<bj(vj)]U_1(b_i,bj(v_j),v_i)=(v_i-b_i)p[b_i>b_j(v_j)]+(v_i-b_i)/2p[b_i=b_j(v_j)]+0p[b_i<b_j(v_j)]U1(bi,bj(vj),vi)=(vi−bi)p[bi>bj(vj)]+(vi−bi)/2p[bi=bj(vj)]+0p[bi<bj(vj)]，其中bi>bj⇔bi>avj⇔bi/a>vjb_i>b_j\Leftrightarrow b_i>av_j\Leftrightarrow b_i/a>v_jbi>bj⇔bi>avj⇔bi/a>vj

由于vjv_jvjz在[0,1]为均匀分布，因此bi在[0,avj]b_i在[0,av_j]bi在[0,avj]为均匀分布，因此:

p[bi>bj]=bi/a,Ui(bi,bj,vi)=(vi−bi)bi/a,当bi=vi/2p[b_i>b_j]=b_i/a,U_i(b_i,b_j,v_i)=(v_i-b_i)b_i/a,当b_i=v_i/2p[bi>bj]=bi/a,Ui(bi,bj,vi)=(vi−bi)bi/a,当bi=vi/2时取得最大值。

如果拓展到N个博弈玩家则U1(bi,bj(vj),vi)=(vi−bi)p[bi>max{bj(vj)}]+(vi−bi)/2p[bi=max{bj(vj)}]U_1(b_i,bj(v_j),v_i)=(v_i-b_i)p[b_i>max\{b_j(v_j)\}]+(v_i-b_i)/2p[b_i=max\{b_j(v_j)\}]U1(bi,bj(vj),vi)=(vi−bi)p[bi>max{bj(vj)}]+(vi−bi)/2p[bi=max{bj(vj)}]

且bi>max{bj}⇔vi>max{vj}b_i>max\{b_j\}\Leftrightarrow v_i>max\{v_j\}bi>max{bj}⇔vi>max{vj}，且各玩家的真实价值相互独立，因此p[vi>max{vj}]=∏j≠ip[vi>vj]=viN−1=(bi/a)N−1p[v_i>max\{v_j\}]=\prod_{j\neq i} p[v_i>v_j]=v_i^{N-1}=(b_i/a)^{N-1}p[vi>max{vj}]=∏j̸=ip[vi>vj]=viN−1=(bi/a)N−1，收益为(vi−bi)(bi/a)N−1(v_i-b_i)(b_i/a)^{N-1}(vi−bi)(bi/a)N−1。

求导得：bin−2(((N−1)vi−Nbi)=0⇒bi=N−1Nvib_i^{n-2}(((N-1)v_i-Nb_i)=0\Rightarrow b_i=\frac{N-1}{N}v_ibin−2(((N−1)vi−Nbi)=0⇒bi=NN−1vi