第八章_信號博弈

上傳人：q*** IP屬地：湖北上傳時間：2022-07-07 格式：PPT 頁數(shù)：87 大?。?04KB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩82頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、第八章第八章信號博弈信號博弈v 由于不完全信息動態(tài)博弈中，前面階由于不完全信息動態(tài)博弈中，前面階段博弈方的行為常常具有反映、傳遞信段博弈方的行為常常具有反映、傳遞信息的作用，因此信號傳遞是不完全信息息的作用，因此信號傳遞是不完全信息動態(tài)博弈研究的最主要內(nèi)容之一。動態(tài)博弈研究的最主要內(nèi)容之一。v研究的內(nèi)容包括信息在博弈方之間傳遞的可研究的內(nèi)容包括信息在博弈方之間傳遞的可能性和條件，信息傳遞的程度，或者如何設(shè)能性和條件，信息傳遞的程度，或者如何設(shè)計特定的機制獲得更多信息計特定的機制獲得更多信息( (相當(dāng)于一種機制相當(dāng)于一種機制設(shè)計設(shè)計) )。v這些研究分別構(gòu)成聲明博弈、信號博弈和重這些研究分別構(gòu)

2、成聲明博弈、信號博弈和重復(fù)信號等博弈模型。復(fù)信號等博弈模型。v應(yīng)用：應(yīng)用：vSpence(1973)Spence(1973)的勞動力市場模型的勞動力市場模型vTitole(1988)Titole(1988)的產(chǎn)品定價模型的產(chǎn)品定價模型vRoss(1977)Ross(1977)的企業(yè)資本結(jié)構(gòu)模型的企業(yè)資本結(jié)構(gòu)模型v在信號傳遞博弈中：在信號傳遞博弈中：v有兩個參與人，有兩個參與人，i i1 1，2 2；v參與人參與人1 1稱為信號發(fā)送者稱為信號發(fā)送者( (因為他發(fā)出信號因為他發(fā)出信號) )；v參與人參與人2 2稱為信號接收者稱為信號接收者( (因為他接收信號因為他接收信號) )；v參與人參與人1

3、1的類型是私人信息，的類型是私人信息，v參與人參與人2 2的類型是公共信息的類型是公共信息( (即只有一個類型即只有一個類型) )。v博弈順序博弈順序v (1) “(1) “自然自然”首先選擇參與人首先選擇參與人1 1的類型的類型是參與人是參與人1 1的類型空間，參與人的類型空間，參與人1 1知道知道，但，但參與人參與人2 2不知道，只知道不知道，只知道1 1屬于的屬于的先驗概率先驗概率p=p()p=p()， ( ( 注意，一位參與人注意，一位參與人1 1類型是私人信息，省類型是私人信息，省略了表示參與人略了表示參與人1 1的下標的下標i i）。）。v(2) (2) 參與人參與人1 1在

4、觀測到類型在觀測到類型后選擇發(fā)出信號后選擇發(fā)出信號mMmM，這里，這里M=mM=m1 1，mmJ J 是信號空間。是信號空間。 k1，這里k1)p(kv(3 )(3 )參與人參與人2 2在觀測到在觀測到1 1發(fā)出信號發(fā)出信號mm（但不是（但不是類型類型），使用貝葉斯法則從先驗概率），使用貝葉斯法則從先驗概率p=p()p=p()得到后驗概率得到后驗概率，然后選擇，然后選擇行動行動aAaA，這里，這里，A=aA=a1 1，a aH H 是參與是參與人人2 2的行動空間。的行動空間。v(4)(4)支付函數(shù)分別為支付函數(shù)分別為u u1 1 =( m, a, ) =( m, a, ) 和和u u2

5、 2 =( m, a, )=( m, a, )。)(mpv圖圖7.47.4是一個簡單的信號傳遞博弈的擴展是一個簡單的信號傳遞博弈的擴展式表述，式表述，v這里這里vK=JK=JHH2, 2, )(11mpp)(21mpqv圖圖8.1 8.1 信號傳遞博信號傳遞博2m發(fā)送者發(fā)送者發(fā)送者發(fā)送者自然自然1m2m(2,1)(0,0)(1,0)(1,2) q 1q (0,1)0.50.51m12 p (1,3)(4,0)1p (2,4)1a2a1a2a2a1a2a1av當(dāng)參與人當(dāng)參與人1 1發(fā)出信號時，他預(yù)測到參與人發(fā)出信號時，他預(yù)測到參與人2 2將根據(jù)他發(fā)出的信號修正對自己類型的將根據(jù)他發(fā)出的信號修正對

6、自己類型的判斷，因而選擇一個最優(yōu)的類型依存信判斷，因而選擇一個最優(yōu)的類型依存信號戰(zhàn)略；號戰(zhàn)略；v同樣，參與人同樣，參與人2 2知道參與人知道參與人1 1選擇的是給選擇的是給定類型和考慮信息效應(yīng)情況下的最優(yōu)戰(zhàn)定類型和考慮信息效應(yīng)情況下的最優(yōu)戰(zhàn)略，因此使用貝葉斯法則修正對參與人略，因此使用貝葉斯法則修正對參與人1 1的類型的判斷，選擇自己的最優(yōu)行動。的類型的判斷，選擇自己的最優(yōu)行動。v例如市場進入博弈事實上就是一個信號傳遞例如市場進入博弈事實上就是一個信號傳遞博弈。這里，在位者是信號發(fā)送者，進入者博弈。這里，在位者是信號發(fā)送者，進入者是信號接受者。是信號接受者。v當(dāng)在位者選擇價格時，他知道進入者將

7、根據(jù)當(dāng)在位者選擇價格時，他知道進入者將根據(jù)自己選擇的價格判斷白已是高成本還是低成自己選擇的價格判斷白已是高成本還是低成本的概率；本的概率；v進入者確實是在根據(jù)觀測到的價格修正對在進入者確實是在根據(jù)觀測到的價格修正對在位者類型的判斷，然后選擇進入還是不進入。位者類型的判斷，然后選擇進入還是不進入。v圖圖8.18.1信號傳遞博弈中，發(fā)送者有四個純戰(zhàn)信號傳遞博弈中，發(fā)送者有四個純戰(zhàn)略：略：v發(fā)送者戰(zhàn)略發(fā)送者戰(zhàn)略1 1：如果自然賦予類型如果自然賦予類型 1 1，選擇，選擇信號信號mm1 1；如果自然賦予類型；如果自然賦予類型 2 2，選擇信號，選擇信號m1m1；v發(fā)送者戰(zhàn)略發(fā)送者戰(zhàn)略2 2：如果自然賦

8、予類型如果自然賦予類型 1 1，選擇，選擇信號信號mm1 1；如果自然賦予類型；如果自然賦予類型 2 2，選擇信號，選擇信號mm2 2；v發(fā)送者戰(zhàn)略發(fā)送者戰(zhàn)略3 3：如果自然賦予類型如果自然賦予類型 1 1，選，選擇信號擇信號mm2 2；如果自然賦予類型；如果自然賦予類型 2 2，選擇信，選擇信號號mm1 1；v發(fā)送者戰(zhàn)略發(fā)送者戰(zhàn)略4 4：如果自然賦予類型如果自然賦予類型 1 1，選，選擇信號擇信號mm2 2；如果自然賦予類型；如果自然賦予類型 2 2，選擇信，選擇信號號mm2 2。v接受者也有四個純戰(zhàn)略：接受者也有四個純戰(zhàn)略：v接收者戰(zhàn)略接收者戰(zhàn)略1 1：如果發(fā)送者選擇信號如果發(fā)送者選擇信號

9、mm1 1，選，選擇行動擇行動a a1 1；如果發(fā)送者選擇信號；如果發(fā)送者選擇信號mm2 2，選擇行，選擇行動動a a1 1；v接收者戰(zhàn)略接收者戰(zhàn)略2 2：如果發(fā)送者選擇信號如果發(fā)送者選擇信號mm1 1，選，選擇行動擇行動a a1 1；如果發(fā)送者選擇信號；如果發(fā)送者選擇信號mm2 2，選擇行，選擇行動動a a2 2；v接收者戰(zhàn)略接收者戰(zhàn)略3 3：如果發(fā)送者選擇信號如果發(fā)送者選擇信號mm1 1，選，選擇行動擇行動a a2 2；如果發(fā)送者選擇信號；如果發(fā)送者選擇信號mm2 2，選擇行，選擇行動動a a1 1；v接收者戰(zhàn)略接收者戰(zhàn)略4 4：如果發(fā)送者選擇信號如果發(fā)送者選擇信號mm1 1，選，選擇行動

10、擇行動a a2 2；如果發(fā)送者選擇信號；如果發(fā)送者選擇信號mm2 2，選擇行，選擇行動動a a2 2。v定義：信號傳遞博弈的精煉貝葉斯均衡是定義：信號傳遞博弈的精煉貝葉斯均衡是戰(zhàn)略組合戰(zhàn)略組合(m(m* * (),a (),a* * () ()和后驗概率和后驗概率的的結(jié)合，它滿足：結(jié)合，它滿足：v(1) (1) ；v(2) (2) ；v(3) (3) 是參與人是參與人2 2使用貝葉斯法則從先驗使用貝葉斯法則從先驗概率概率p()p()觀測到信號觀測到信號mm和參與人和參與人1 1的最優(yōu)戰(zhàn)的最優(yōu)戰(zhàn)略得到的略得到的mm* *()()（在最可能情況下）。（在最可能情況下）。*2( )argmax()

11、( , , )aa mpm u m a*1( )arg max(,(), )mmu m am()pm()pmv上述定義中，（上述定義中，（1 1）、（）、（2 2）等價于精練條件。）等價于精練條件。v（1 1）說的是，給定后驗概率）說的是，給定后驗概率，參與人，參與人2 2對參與人發(fā)出信號的最優(yōu)反應(yīng)；對參與人發(fā)出信號的最優(yōu)反應(yīng)；v（2 2）說的是預(yù)測到）說的是預(yù)測到2 2的最優(yōu)反應(yīng)的最優(yōu)反應(yīng)a a* * (m) (m)，參，參與人與人1 1選擇自己的最優(yōu)戰(zhàn)略；選擇自己的最優(yōu)戰(zhàn)略；v（3 3）是貝葉斯法則的運用。）是貝葉斯法則的運用。)(mpv信號傳遞博弈的所有可能精煉貝葉斯均衡可以信號傳遞博

12、弈的所有可能精煉貝葉斯均衡可以劃分為三類：分離均衡、混同均衡和準分離均劃分為三類：分離均衡、混同均衡和準分離均衡。衡。v 分離均衡：分離均衡：不同類型的發(fā)送者以不同類型的發(fā)送者以1 1的概率選的概率選擇不同的信號，信號準確地揭示出類型。擇不同的信號，信號準確地揭示出類型。v 混同均衡：混同均衡：不同類型的發(fā)送者選擇相同的不同類型的發(fā)送者選擇相同的信號，接收者不修正先驗概率（發(fā)送者的選擇信號，接收者不修正先驗概率（發(fā)送者的選擇沒有信息量）。沒有信息量）。v 準分離均衡：準分離均衡：一些類型的發(fā)送者隨機地選一些類型的發(fā)送者隨機地選擇信號，另一類的發(fā)送者選擇特定的信號。擇信號，另一類的發(fā)送者選擇特定

13、的信號。R發(fā)送者發(fā)送者發(fā)送者發(fā)送者自然自然LR(2,1)(0,0)(1,0)(1,2) q 1q (0,1)0.50.5L1t2t p (1,3)(4,0)1p (2,4)ududdudu例例1：求解下列信號博弈的：求解下列信號博弈的PBNEv解：該博弈可能存在的純戰(zhàn)略解：該博弈可能存在的純戰(zhàn)略PBNEPBNE有：有：v1 1、混同于行動混同于行動L L的的PBNEPBNE無論發(fā)送者無論發(fā)送者的的類型是類型是t t1 1和和t t2 2，發(fā)送者的戰(zhàn)略都為（，發(fā)送者的戰(zhàn)略都為（L,L)L,L)v2 2、混同于行動混同于行動R R的的PBNEPBNE無論發(fā)送者無論發(fā)送者的的類型是類型是t t1

14、 1和和t t2 2，發(fā)送者的戰(zhàn)略都為（，發(fā)送者的戰(zhàn)略都為（R,R)R,R)v3 3、分離均衡分離均衡類型類型t t1 1的發(fā)送者選擇的發(fā)送者選擇L,L,類型類型t t2 2發(fā)送者選擇發(fā)送者選擇R,R,發(fā)送者的戰(zhàn)略都為（發(fā)送者的戰(zhàn)略都為（L,R)L,R)v4 4、分離均衡分離均衡類型類型t t1 1的發(fā)送者選擇的發(fā)送者選擇R,R,類型類型t t2 2的發(fā)送者選擇的發(fā)送者選擇L,L,發(fā)送者的戰(zhàn)略都為（發(fā)送者的戰(zhàn)略都為（R,LR,L第第1 1種情況：假設(shè)混同于行動種情況：假設(shè)混同于行動L L的的PBNEPBNEv要求要求R1:R1: 接受者對應(yīng)于接受者對應(yīng)于L L的信息集的信息集h h（左邊信息集

15、）處（左邊信息集）處在均衡路徑之上的推斷（在均衡路徑之上的推斷（p p，1-p1-p）v接受者對應(yīng)于接受者對應(yīng)于R R的信息集的信息集h h（右邊信息集）處（右邊信息集）處在均衡路徑之外的推斷（在均衡路徑之外的推斷（q q，1-q1-q）v要求要求R2:R2: 給定這樣的推斷，接受者在觀測到信號給定這樣的推斷，接受者在觀測到信號L L之之后，行動后，行動u u和和d d的期望收益為：的期望收益為：v行動行動u u的期望收益為：的期望收益為： E(u)=3p+4(1-p)=4-p=3.5E(u)=3p+4(1-p)=4-p=3.5v行動行動d d的期望收益為：的期望收益為： E(d)=0p+1(

16、1-p)=1-p=0.5E(d)=0p+1(1-p)=1-p=0.5v接受者看到接受者看到L L之后的之后的S S2 2* *(L)=u(L)=u，同時：，同時：vU U1 1* *（t t1 1,L,L）=1, U=1, U1 1* *（t t2 2,L,L）=2.=2.R發(fā)送者發(fā)送者發(fā)送者發(fā)送者自然自然LR(2,1)(0,0)(1,0)(1,2) q 1q (0,1)0.50.5L1t2t p (1,3)(4,0)1p (2,4)ududduduv那么：發(fā)送者的（那么：發(fā)送者的（L,LL,L）是最優(yōu)的嗎？）是最優(yōu)的嗎？v需要確定：需要確定：如果發(fā)送者選擇信號R，接受者的反應(yīng)（選擇）給兩種類

17、型的發(fā)送者所帶來的收益小于他們選擇信號L的收益。v由于：由于：v如果接受者對如果接受者對R R的反應(yīng)為的反應(yīng)為u,u,則類型為則類型為t1t1的的發(fā)送者選擇發(fā)送者選擇R R的收益為的收益為2 2，高于自己選擇，高于自己選擇L L的的收益收益1 1，因此類型為，因此類型為t1t1的發(fā)送者不會選擇的發(fā)送者不會選擇L.L.( (不可行不可行) )v如果接受者對如果接受者對R R的反應(yīng)為的反應(yīng)為d,d,v則類型為則類型為t1t1的發(fā)送者選擇的發(fā)送者選擇R R的收益為的收益為0 0，低于，低于自己選擇自己選擇L L的收益的收益1 1，因此類型為，因此類型為t1t1的發(fā)送者的發(fā)送者會選擇會選擇L.L.v類

18、型為類型為t2t2的發(fā)送者選擇的發(fā)送者選擇R R的收益為的收益為1 1，低于自，低于自己選擇己選擇L L的收益的收益2 2，因此類型為，因此類型為t2t2的發(fā)送者會的發(fā)送者會選擇選擇L.L.v ( (可行可行) )v因此，如果存在前面假設(shè)的混同均衡，其中因此，如果存在前面假設(shè)的混同均衡，其中發(fā)送者的策略為（發(fā)送者的策略為（L,LL,L）, ,則接受者對則接受者對R R 的反的反應(yīng)必須為應(yīng)必須為d d，于是接受者的戰(zhàn)略必須為，于是接受者的戰(zhàn)略必須為 s s2 2* *| |s1=Ls1=L=u, s=u, s2 2* *| |s1=Rs1=R=d=dv此外：還需要考慮接受者在對應(yīng)于此外：還需要考

19、慮接受者在對應(yīng)于R R的信息的信息集（右邊信息集）中的推斷推斷（集（右邊信息集）中的推斷推斷（q q，1-q1-q），），以及給定這一推斷以及給定這一推斷d d是否是最優(yōu)的？是否是最優(yōu)的？v在在R R的信息集（右邊信息集）上：的信息集（右邊信息集）上：行動行動u u的期望收益為：的期望收益為： E(u)=q+0(1-q)=qE(u)=q+0(1-q)=qv行動行動d d的期望收益為：的期望收益為： E(d)=0q+2(1-q)=2-2pE(d)=0q+2(1-q)=2-2pd d最優(yōu)的條件：最優(yōu)的條件： E(d) E(u),E(d) E(u),即即q=2/3q=2/3v要求要求R3:R3:對

20、信息集對信息集h h（左邊信息集）處在均（左邊信息集）處在均衡路徑之上的推斷（衡路徑之上的推斷（p p，1-p1-p）的貝葉斯修）的貝葉斯修正：正：1111122( | )* ( )( | )( | )* ( )( |)* ( )1*0.5 0.51*0.5 1*0.5p L tp tpp tLp L tp tp L tp tpv綜上：混同于綜上：混同于L L的的PBNEPBNE為：為：2( , ),( , ),0.5,03L Lu dpq第第2 2種情況：假設(shè)混同于行動種情況：假設(shè)混同于行動R R的的PBNEPBNEv要求要求R1:R1: 接受者對應(yīng)于接受者對應(yīng)于L L的信息集的信息集h h

21、（左邊信息集）處（左邊信息集）處在均衡路徑之上的推斷（在均衡路徑之上的推斷（p p，1-p1-p）v接受者對應(yīng)于接受者對應(yīng)于R R的信息集的信息集h h（右邊信息集）處（右邊信息集）處在均衡路徑之外的推斷（在均衡路徑之外的推斷（q q，1-q1-q）v要求要求R2:R2: 給定這樣的推斷，接受者在觀測到信號給定這樣的推斷，接受者在觀測到信號R R之之后，行動后，行動u u和和d d的期望收益為：的期望收益為：v行動行動u u的期望收益為：的期望收益為： E(u)=q+0(1-q)=q=0.5E(u)=q+0(1-q)=q=0.5v行動行動d d的期望收益為：的期望收益為： E(d)=0q+2(

22、1-q)=2-2q=1E(d)=0q+2(1-q)=2-2q=1v接受者看到接受者看到R R之后的之后的S S2 2* *(R)=d(R)=d，即是：，即是：vU U1 1* *（t t1 1,R,R）=0, U=0, U1 1* *（t t2 2,R,R）=1.=1.R發(fā)送者發(fā)送者發(fā)送者發(fā)送者自然自然LR(2,1)(0,0)(1,0)(1,2) q 1q (0,1)0.50.5L1t2t p (1,3)(4,0)1p (2,4)ududduduv那么：發(fā)送者的（那么：發(fā)送者的（R,RR,R）是最優(yōu)的嗎？）是最優(yōu)的嗎？v需要確定：需要確定：如果發(fā)送者選擇信號L，接受者的反應(yīng)（選擇）給兩種類型的

23、發(fā)送者所帶來的收益小于他們選擇信號R的收益。v由于：由于：v如果接受者對如果接受者對L L的反應(yīng)為的反應(yīng)為u,u,則類型為則類型為t1t1的發(fā)的發(fā)送者選擇送者選擇L L的收益為的收益為1 1，高于自己選擇，高于自己選擇R R的收的收益益0 0，因此類型為，因此類型為t1t1的發(fā)送者不會選擇的發(fā)送者不會選擇R.R.( (不可行不可行) )v如果接受者對如果接受者對L L的反應(yīng)為的反應(yīng)為d,d,v則類型為則類型為t1t1的發(fā)送者選擇的發(fā)送者選擇L L的收益為的收益為4 4，高于，高于自己選擇自己選擇R R的收益的收益0 0，因此類型為，因此類型為t1t1的發(fā)送者的發(fā)送者會選擇會選擇L.L.v類型為

24、類型為t2t2的發(fā)送者選擇的發(fā)送者選擇L L的收益為的收益為0 0，低于自，低于自己選擇己選擇R R的收益的收益1 1，因此類型為，因此類型為t2t2的發(fā)送者會的發(fā)送者會選擇選擇L.L.v ( (不可行不可行) )v綜上：不滿足綜上：不滿足R2R2，所以不存在混，所以不存在混同于同于R R的的PBNE.PBNE.第第3 3種情況：假設(shè)存在（種情況：假設(shè)存在（L,RL,R）的分離）的分離均衡均衡PBNEPBNEv要求要求R1R1和要求和要求3:3: 接受者對應(yīng)于接受者對應(yīng)于L L的信息集的信息集h h（左邊信息集）處（左邊信息集）處在均衡路徑之上的貝葉斯推斷（在均衡路徑之上的貝葉斯推斷（1 1，

25、0 0）v接受者對應(yīng)于接受者對應(yīng)于R R的信息集的信息集h h（右邊信息集）處（右邊信息集）處在均衡路徑之外的推斷（在均衡路徑之外的推斷（0 0，1 1）v要求要求R2:R2: 給定這樣的推斷，接受者在觀測到信號給定這樣的推斷，接受者在觀測到信號（L,RL,R）之后，接受者的最優(yōu)反應(yīng)）之后，接受者的最優(yōu)反應(yīng) s s2 2* *| |s1=Ls1=L=u, s=u, s2 2* *| |s1=Rs1=R=d=d同時，發(fā)送者同時，發(fā)送者vU U1 1* *（t t1 1,L,L）=1, U=1, U1 1* *（t t2 2,R,R）=1.=1.R發(fā)送者發(fā)送者發(fā)送者發(fā)送者自然自然LR(2,1)(0

26、,0)(1,0)(1,2) q 1q (0,1)0.50.5L1t2t p (1,3)(4,0)1p (2,4)ududduduv那么：發(fā)送者的（那么：發(fā)送者的（L,RL,R）是最優(yōu)的嗎？）是最優(yōu)的嗎？v需要確定：需要確定：如果發(fā)送者選擇信號（L,RL,R），接受者的反應(yīng)（選擇）給兩種類型的發(fā)送者所帶來的收益小于他們選擇信號(R,L)的收益。v由于：由于：v如果接受者類型為如果接受者類型為t1t1對對R R的反應(yīng)為的反應(yīng)為u,u,則發(fā)則發(fā)送者選擇送者選擇R R的收益為的收益為2 2，高于自己選擇，高于自己選擇L L的收的收益益1 1，因此類型為，因此類型為t1t1的發(fā)送者不會選擇的發(fā)送者不會

27、選擇L.L.( (不可行不可行) )v如果接受者對如果接受者對R R的反應(yīng)為的反應(yīng)為d,d,v則類型為則類型為t1t1的發(fā)送者選擇的發(fā)送者選擇R R的收益為的收益為0 0，低于，低于自己選擇自己選擇L L的收益的收益1 1，因此類型為，因此類型為t1t1的發(fā)送者的發(fā)送者會選擇會選擇L.L.v類型為類型為t2t2的發(fā)送者選擇的發(fā)送者選擇L L的收益為的收益為2 2，高于自，高于自己選擇己選擇R R的收益的收益1 1，因此類型為，因此類型為t2t2的發(fā)送者會的發(fā)送者會選擇選擇L.L.v ( (不可行不可行) )v綜上：不滿足綜上：不滿足R2,R2,不不存在（存在（L,RL,R）的分離均衡的分離均衡

28、PBNEPBNE第第4 4種情況：假設(shè)存在（種情況：假設(shè)存在（R, L R, L ）的分）的分離均衡離均衡PBNEPBNEv要求要求R1R1和要求和要求3:3: 接受者對應(yīng)于接受者對應(yīng)于L L的信息集的信息集h h（左邊信息集）處（左邊信息集）處在均衡路徑之上的貝葉斯推斷（在均衡路徑之上的貝葉斯推斷（0 0，1 1）v接受者對應(yīng)于接受者對應(yīng)于R R的信息集的信息集h h（右邊信息集）處（右邊信息集）處在均衡路徑之外的推斷（在均衡路徑之外的推斷（1 1，0 0）v要求要求R2:R2: 給定這樣的推斷，接受者在觀測到信號（給定這樣的推斷，接受者在觀測到信號（R, R, L L）之后，接受者的最優(yōu)反

29、應(yīng)）之后，接受者的最優(yōu)反應(yīng) s s2 2* *| |s1=Rs1=R=u, s=u, s2 2* *| |s1=Ls1=L=u=u同時，發(fā)送者同時，發(fā)送者vU U1 1* *（t t1 1,R,R）=0, U=0, U1 1* *（t t2 2,L,L）=2.=2.R發(fā)送者發(fā)送者發(fā)送者發(fā)送者自然自然LR(2,1)(0,0)(1,0)(1,2) q 1q (0,1)0.50.5L1t2t p (1,3)(4,0)1p (2,4)ududduduv那么：發(fā)送者的（那么：發(fā)送者的（R, L R, L ）是最優(yōu)的嗎？）是最優(yōu)的嗎？v需要確定：需要確定：如果發(fā)送者選擇信號（R, L R, L ），接受

30、者的反應(yīng)（選擇）給兩種類型的發(fā)送者所帶來的收益小于他們選擇信號(L,R)的收益。v由于：由于：v如果接受者對類型如果接受者對類型t1 t1 的的L L的反應(yīng)為的反應(yīng)為d,d,則發(fā)則發(fā)送者選擇送者選擇L L的收益為的收益為4 4，高于自己選擇，高于自己選擇R R的收的收益益2 2，因此類型為，因此類型為t1t1的發(fā)送者不會選擇的發(fā)送者不會選擇R.R.( (不可行不可行) )v如果接受者對類型如果接受者對類型t1 t1 的的L L的反應(yīng)為的反應(yīng)為u,u,則發(fā)則發(fā)送者選擇送者選擇L L的收益為的收益為1 1，低于自己選擇，低于自己選擇R R的收的收益益2 2，因此類型為，因此類型為t1t1的發(fā)送者不

31、會選擇的發(fā)送者不會選擇L.L.v如果接受者對類型如果接受者對類型t2 t2 的的R R的反應(yīng)為的反應(yīng)為u,u,則發(fā)送則發(fā)送者選擇者選擇R R的收益為的收益為1 1，低于自己選擇，低于自己選擇L L的收益的收益2 2，因此類型為因此類型為t2t2的發(fā)送者不會選擇的發(fā)送者不會選擇R.R.v ( (可行可行) )v因此，如果存在前面假設(shè)的分離均衡（因此，如果存在前面假設(shè)的分離均衡（R,LR,L），），其中發(fā)送者的策略為（其中發(fā)送者的策略為（R,LR,L）, ,則接受者的反則接受者的反應(yīng)必須為應(yīng)必須為u u，于是接受者的戰(zhàn)略必須為，于是接受者的戰(zhàn)略必須為 s s2 2* *| |s1=Rs1=R=u,

32、 s=u, s2 2* *| |s1=Ls1=L=u=uv要求要求R3:R3:對信息集對信息集h h（左邊信息集）處在均（左邊信息集）處在均衡路徑之上的推斷（衡路徑之上的推斷（p p，1-p1-p）的貝葉斯修）的貝葉斯修正：正：1111122( | )* ( )( | )( | )* ( )( |)* ( )0*0.5 00*0.5 1*0.5p L tp tpp tLp L tp tp L tp tv要求要求R3:R3:對信息集對信息集h h（右邊信息集）處在均（右邊信息集）處在均衡路徑之上的推斷（衡路徑之上的推斷（ q q，1-q1-q）的貝葉斯修）的貝葉斯修正：正：2221122( |)

33、* ( )(| )( | )* ( )( |)* ( )1*0.5 10*0.5 1*0.5q L tq tqq tLq L tq tq L tq tv綜上：分離的綜上：分離的PBNEPBNE為：為：( , ),( , ),0,1R Lu upq83 不完全信息重復(fù)博弈與聲譽模型不完全信息重復(fù)博弈與聲譽模型v831 KMRW聲譽模型聲譽模型v 本節(jié)討論不完全信息重復(fù)博弈中的合作行為。在完全信息情況下，不論博弈重復(fù)多少次，只要重復(fù)的次數(shù)是有限的。唯一的子博弈精煉納什均衡是每個參與人在每次博弈中選擇靜態(tài)均衡戰(zhàn)略(假定靜態(tài)博弈的納什均衡是唯一的)，即有限次重復(fù)不可能導(dǎo)致參與人的合作行為。特別地，在有

34、限次重復(fù)囚徒博弈中，每次都選擇“坦白”是每個囚徒的最優(yōu)戰(zhàn)略。這結(jié)果似乎與人們的直觀感覺不一致。阿克斯羅德(1981)的實驗結(jié)果表明，即使在有限次重復(fù)博弈中，合作行為也頻繁出現(xiàn)?？巳鹌账?、米爾格羅姆、羅伯茨和威爾遜(1982)的聲譽模型通過將不完全信息引入重復(fù)博弈解開了這個悖論。他們證明，參與人對其他參與人支付函數(shù)或戰(zhàn)略空間的不完全信息對均衡結(jié)果有重要影響，合作行為在有限次博弈中會出現(xiàn)只要博弈重復(fù)的次數(shù)足夠長(沒有必要是無限的)。特別地，“壞人”可能在相當(dāng)長一段時期表現(xiàn)得像“好人”一樣。一、囚徒困境博弈一、囚徒困境博弈v表6.3.1v 囚徒2 v v v囚徒1v v v 以囚徒困境為例說明KMR

35、W模型的結(jié)果。假定囚徒1有兩種類型，理性的或非理性的概率分別為(1-p)和p。為簡單起見，假定囚徒2只有一種類型，即理性的。假定理性的囚徒可以選擇任何戰(zhàn)略；非理性的囚徒由于某種原因，只有一種戰(zhàn)略，即“針鋒相對”：開始選擇“抵賴”，然后在階段t選擇囚徒2在t-1階段的選擇(即“你抵賴我就抵賴，你坦白我就坦白”)。坦白抵賴坦白-8，-80，-10抵賴-10，0-1，-1v博弈順序如下：v(1)自然首先選樣囚徒1的類型；囚徒1知道自己的類型。囚徒2只知道囚徒1屬于理性的概率是(1-p)，非理性的概率是p；v(2)兩個囚徒進行第階段博弈；v(3)觀測到第一階段博弈結(jié)果后，進行第二階段博弈；觀測到第二

36、階段博弈結(jié)果后，進行第三階段博弈；如此等等。v(4)理性囚徒1和囚徒2的支付是階段博弈的支付的貼現(xiàn)值之和。v “理性囚徒”可以理解為“機會主義者”，或者非合作型參與人；“非理性囚徒”可以理解為講義氣重信譽的人，或者合作型參與人。v研究目的：證明，即使在完全信息下(p0)肯定會選擇“坦白”的理性囚徒也會在不完全信息下(p0)選擇“抵賴”(類似極端自私的人也會“助人為樂”)v 二、首先討論重復(fù)兩次（二、首先討論重復(fù)兩次（T=2）的情況）的情況)v 表6.3.2v v若 X = D ，囚徒 2 的期望支付 p ( - 1 ) + ( 1 - p ) ( -10)+p0+(1-p)(-8)

37、=17p-18v若X=C，囚徒2的期望支付p0+(1-p)(-8)+-8=8p-16v則17p-18 8p-16，即p2/9，則囚徒2在第一階段將選擇抵賴（合作） t=1t=2非理性囚徒1pD（抵賴）X理性囚徒11-pC（坦白）C（坦白）囚徒2（理性） XC（坦白）三、現(xiàn)在討論重復(fù)三次（三、現(xiàn)在討論重復(fù)三次（T=3）的情況）的情況v 給定p2/9，討論T=3，如果理性囚徒1和囚徒2第一階段都選擇D（合作），則第二、三階段的均衡路徑與表相同（這時XD）。v表6.3.2v t=1t=2t=3非理性囚徒1 p2/9D（抵賴）DD理性囚徒1D（抵賴）C（坦白）C囚徒2（理性） D（抵賴）DCv（a）首

38、先證明，理性囚徒1在第一階段的最優(yōu)戰(zhàn)略選擇是D。v給定囚徒2在第一階段的選擇D，如果理性囚徒1選擇D，囚徒2的后驗概率不變，囚徒2在第二、三階段選擇（D，C）。理性囚徒1三階段戰(zhàn)略選擇（D，C，C），則v理性囚徒1的期望支付為：（1）（0）（8）9v如果理性囚徒在第一階段選擇C，囚徒2將在二、三階段采?。–，C）戰(zhàn)略，理性囚徒1三階段戰(zhàn)略選擇（C，C，C），則v理性囚徒1的期望支付為：（0）（8）（8）16v因為916，故理性囚徒1在第一階段的最優(yōu)戰(zhàn)略選擇是D（沒興趣偏離表6.3.2種的戰(zhàn)略）v(b)現(xiàn)在考慮囚徒2的戰(zhàn)略，分別有三種選擇（D，D，C）、(C,C,C)、（C，D，C）。v給定理性

39、囚徒1三階段戰(zhàn)略選擇（D，C，C），囚徒2選擇（D，D，C）的期望支付為：v-1+p(-1)+(1-p)(-10)p0+(1-p)(-8)=17p-19 t=1t=2t=3非理性囚徒1 p2/9D（抵賴）DD理性囚徒1D（抵賴）C（坦白）C囚徒2（理性） D（抵賴）DCv給定理性囚徒1三階段戰(zhàn)略選擇（D，C，C），囚徒2選擇(C,C,C)的期望支付為(博弈路徑見表6.3.3)：v0+-8+-8=-16v若要求（D，D，C）優(yōu)于(C,C,C)，則17p-19-16,即p3/17v由于我們假定p2/9，上述條件成立。v表6.3.3 第二種戰(zhàn)略 t=1t=2t=3非理性囚徒1 p2/9D（抵賴）CC

40、理性囚徒1D（抵賴）CC囚徒2（理性） C（坦白）CC v給定理性囚徒1三階段戰(zhàn)略選擇（D，C，C），囚徒2選擇(C,D,C)的期望支付為(博弈路徑見表6.3.4)：v0+-10+ p0+(1-p)(-8)=8p-18v若要求（D，D，C）優(yōu)于(C,D,C),則17p-198p-18，即p1/9v因為p2/9，上述條件成立。v表6.3.4 第三種戰(zhàn)略 t=1t=2t=3非理性囚徒1p2/9 D（抵賴）CD理性囚徒1D（抵賴）CC囚徒2（理性） C（坦白）DC 四、結(jié)論四、結(jié)論v只要囚徒1是非理性的概率p2/9，表6.3.2的戰(zhàn)略組合就是一個精練貝葉斯均衡：即理性囚徒1三階段戰(zhàn)略選擇（D，C，C

41、），囚徒2的戰(zhàn)略選擇（D，D，C）。v可以進一步證明，如果p2/9，對于所有的T3，下列戰(zhàn)略組合構(gòu)成一個精煉貝葉斯均衡：理性囚徒1在t1至tT-2階段一直選擇D(合作)，然后在tT-1和tT階段擇C(不合作)；囚徒2在t=1至t=T-1階段選擇D(合作)，然后在tT階段選擇C(不合作)。如果我們將任何一個囚徒選擇C的階段稱為非合作階段，兩個囚徒都選擇D稱為合作階段，那么，容易看出，只要T3，非合作階段的總數(shù)量等于2，與T無關(guān)。v如果p 0+（-8）T,即T(3-2p)/7pv這說明，只要T(3-2p)/7p，從一開始選擇C（非合作）不是理性囚徒1的最優(yōu)戰(zhàn)略，同理，也不是理性囚徒2的最優(yōu)戰(zhàn)略。五

42、、五、KMRW定理定理vKMRW定理：在T階段重復(fù)囚徒博弈中，如果每個囚徒都有P0的概率是非理性的，即只選擇“針鋒相對”或“冷酷戰(zhàn)略”），如果T足夠大，那么存在T0 T0選擇不合作（坦白）；并且，非合作階段的數(shù)量（T- T0）只與p有關(guān)而與T無關(guān)。v KMRW定理的直觀解釋是，盡管每一個囚徒在選擇合作時冒著被其他囚徒出賣的風(fēng)險(從而可能得到一個較低的現(xiàn)階段支付)，但如果他選擇不合作，就暴露了自己是非合作型的，從而失去了獲得長期合作收益的可能(如果對方是合作型的話)。如果博弈重復(fù)的次數(shù)足夠多，未來收益的損失就超過短期被出賣的損失，因此，在博弈的開始，每一個參與人都想樹立一個合作形象(使對方認為自

43、己是喜歡合作的)，即使他在本性上并不是合作型的；只有在博弈快結(jié)束的時候，參與人才會一次性地把自己的過去建立的聲譽利用盡，合作才會停止(因為此時，短期收益很大而未來損失很小)。v KMRW定理解釋了“大智若愚”，這里，智者囚徒博弈中的理性囚徒(非合作型)，“愚者”即囚徒博弈中的非理性囚徒(合作型)。在許多情況下，大智若愚確實是“智者”追求自己利益的最佳方式。v KMRW模型的最為成功之處在于它證明：只要博弈重復(fù)的次數(shù)足夠長，參與人有足夠的耐心(我們假定1，但定理對1也成立，只要足夠接近于1，即使(有關(guān)參與人類型的)小小的不確定性可能引起均衡結(jié)果的重大改變(很小的p就可以保證合作均衡的出現(xiàn)，但如果

44、p=0，合作均衡不可能出現(xiàn)（完全信息）。64 精煉貝葉斯均衡的再精煉及其精煉貝葉斯均衡的再精煉及其他均衡概念他均衡概念v不完全信息博弈可能存在多重精煉貝葉斯均衡，究竟哪一個均衡實際上出現(xiàn)，依賴于我們?nèi)绾我?guī)定非均衡路徑上的后驗概率。v什么是參與人1的均衡戰(zhàn)略，依賴于參與人2認為什么不是他(參與人1)的均衡戰(zhàn)略，或者說，參與人2認為什么是參與人l的均衡戰(zhàn)略，什么就是參與人1的均衡戰(zhàn)略，均衡是自動實現(xiàn)的。v盡管精煉貝葉斯均衡的精煉條件剔除了不可置信的戰(zhàn)略(行動)，促它沒有剔除不可置信的信念(后驗概率)。非均衡戰(zhàn)略上后驗概率的任意性導(dǎo)致了均衡戰(zhàn)略的任意性；當(dāng)我們把某個行動從潛在均衡戰(zhàn)略中排除掉時，我們

45、同時就將另一些行動轉(zhuǎn)化為均衡戰(zhàn)略。出現(xiàn)多重均衡是很自然的。641剔除劣戰(zhàn)略剔除劣戰(zhàn)略v剔除劣戰(zhàn)略方法的思路是將“不選擇劣戰(zhàn)略”的要求擴展到非均衡路徑的后驗概率上。它的基本思想是，在一個博弈中，如果對于某些類型的參與人，存在某些行動或戰(zhàn)略劣于另些行動或戰(zhàn)略，而對于另一些類型的參與人這一點不成立，那么，當(dāng)其他參與人觀測到前一類行動時，他不應(yīng)該以任何正的概率認為選擇該行動的參與人屬于前一類參與人。 v v 圖6.4.1 不完美信息博弈v 1* +0*(1- ) 0*+1*(1- ), 1/2,，如果博弈進入?yún)⑴c人2的信息集，他將選擇B。顯然，R嚴格劣于L，弱劣于M(選擇R得到1或0，選擇L得到2，選

46、擇M得到3或0)。因此，在博弈開始，參與人2不應(yīng)該認為參與人1會以任何正的概率選擇R；如果博弈進入?yún)⑴c人2的信息集，他應(yīng)該認為參與人1選擇M的概率是1(即1)。在這個要求下，均衡(L，B； 1/2)被剔除，只有(M，U； 1)是滿足這個要求的精煉貝葉斯均衡。MRUBUB2(2,2)(3,1)(0,0)(1,0)(0,1)L11v剔除劣戰(zhàn)略方法正式定義剔除劣戰(zhàn)略方法正式定義：令a1和a1是參與人1（信號發(fā)送者）的兩個行動（信號），a1，a1A1。對于參與人2（信號接受者）的所有行動a2，a2A2，如果下列條件成立，我們說對類型11的參與人1，a1弱劣于a1：vu1（a1，a2, 1）u1（a1，

47、a2, 1）v（至少有一個嚴格不等式對于某些（a2，a2）成立。）v要求：在所有的信息集上，對于參與人2的每個可能的后驗概率和行動，a1弱劣于a1。這樣嚴格要求的原因是，參與人1在選擇自己的行動時，必須考慮自已的行動傳遞給參與人2的有關(guān)自己(參與人1)類型的信息。v 642 直觀標準直觀標準v在均衡中，至少有一個類型的參與人1想偏離均衡?！爸庇^標準”剔除所有這些不合理的精煉貝葉斯均衡?！爸庇^標準”將劣戰(zhàn)略擴展到相對于均衡戰(zhàn)略的劣戰(zhàn)略，從而通過剔除更多的劣戰(zhàn)略的辦法縮小均衡數(shù)量，進一步改進了精煉貝葉斯均衡概念。v定義定義：假定（a1*，a2*；）是一個精煉貝葉斯均衡。令u1*（1）是類型為1的參與人1的均衡效用水平。那么，a1A1是參與人1相對于均衡的劣戰(zhàn)略（a1*，a2*；），如果對參與人2的所有行動，下列條件成立：vu1（a1, a2,1）u1*（1）v（至少有一個嚴格不等式對某些成立。）v進一步，令1是所有滿足上述不等式1的集合，如果1，那么，參與人2的非均衡路徑上的合理的后驗概率是：0)(111a643 克瑞普斯一威爾遜序貫均衡克瑞普斯一威爾遜序

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第八章_信號博弈

文檔簡介

溫馨提示

最新文檔

評論

第八章_信號博弈

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔