子博弈精煉納什均衡貝葉斯法則信號博弈

上傳人：王*** IP屬地：江西上傳時間：2022-07-25 格式：DOC 頁數：9 大小：604KB 積分：7.2 舉報 版權申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、 . . . . 9/9 一：子博弈精煉納什均衡在給出子博弈精煉Nash均衡的正式定義之前，我們需要先介紹“子博弈這個概念。子博弈subgame：由一個單結信息集X開始的與所有該決策結的后續(xù)結包括終點結組成的，能夠自成一個博弈的原博弈的一局部。即給定“歷史，每一個行動選擇開始至博弈完畢構成了的一個博弈，稱為原動態(tài)博弈的一個“子博弈。子博弈可以作為一個獨立的博弈進展分析，并且與原博弈具有一樣的信息結構。為了表達方便，一般用表示博弈樹中開始于決策結的子博弈。譬如圖3.5，該博弈存在3個子博弈：除了原博弈自己以外，還存在兩個子博弈圖3.6a子博弈和圖3.6b子博弈。在靜態(tài)博弈分析時，我們所說的

2、戰(zhàn)略是指參與人聲明他將做出何種選擇，而他們往往也是按照聲明做出實際選擇的；在動態(tài)博弈中，戰(zhàn)略盡管仍然具有這種含義，但博弈在行動選擇上參與人具有選擇行動的先后順序情況下，參與人有了一種額外的選擇事后機會主義，后動的局中人完全可以根據博弈進展到此時對局中人最為有利的方式選擇行動，而放棄事前所聲明的戰(zhàn)略所規(guī)定的行動選擇選擇其行動。這意味著，在動態(tài)博弈中，即使參與人人按事前所聲明的戰(zhàn)略組合構成一個納什均衡，而這些均衡戰(zhàn)略又規(guī)定了各個參與人在其所有信息集上的行動選擇，這些行動選擇也可能并非參與人在對應信息集上的最優(yōu)行動選擇。而當博弈實際進展到那些由納什均衡戰(zhàn)略規(guī)定的行動并非最優(yōu)行動選擇的信息集時，按照理

3、性人假設，可以想象參與人屆時并不會按納什均衡戰(zhàn)略所規(guī)定的方式去選擇行動，而是機會主義地選擇最優(yōu)的行動。這樣，具有這種特點的納什均衡就是不可信的，即不能作為模型的預測結果，按照“精煉納什均衡的思想，應當將其消掉。定義3.1：子博弈精煉納什均衡SPNE：擴展式博弈的策略組合S*=(S1*,Si*,Sn*)是一個子博弈精煉納什均衡當且僅當：如果它是原博弈的納什均衡；它在每一個子博弈上也都構成納什均衡。如果一個完美信息的動態(tài)博弈中，各博弈方的策略構成的一個策略組合滿足：在整個動態(tài)博弈與它的所有子博弈中都構成納什均衡，那么這個策略組合稱為該動態(tài)博弈的一個“子博弈完美納什均衡。這也意味著原博弈的Nash

4、均衡并不一定是子博弈精煉Nash均衡，除非它還對所有子博弈構成Nash均衡。例如前文的煤電博弈，提價，承受和不提價，承受均為納什均衡，但后者并未滿足在整個動態(tài)博弈與它的所有子博弈中都構成納什均衡這一要件，因而理性的煤炭企業(yè)一定會選擇提價。博弈:一個擴展式表示博弈的子博弈G是由一個單結信息集x開始的與所有該決策結的后續(xù)結(包括終點結)組成的能自成一個博弈的原博弈的一局部。對于擴展式博弈的策略組合S*=(S1*,Si*,Sn*) ,如果它是原博弈的納什均衡;它在每一個子博弈上也都構成納什均衡,那么它是一個子博弈精煉納什均衡。 HYPERLINK :/baike.baidu /view/18930.

5、htm t :/baike.baidu /_blank 博弈論專家常常使用“序貫理性(Sequential rationality)：指不論過去發(fā)生了什么，參與人應該在博弈的每個時點上最優(yōu)化自己的策略。子博弈精煉納什均衡所要求的正是參與人應該是序慣理性的。對于有限完美信息博弈， HYPERLINK :/baike.baidu /view/1370329.htm t :/baike.baidu /_blank 逆向歸納法是求解子博弈精煉納什均衡的最簡便的方法。因為有限完美信息博弈的每一個決策結都開始一個子博弈。求解方法：最后一個結點上的子博弈納什均衡倒數第二個納什均衡初始結點上的子博弈納什均衡

6、。上圖摘自維迎的博弈論與信息經濟學P 7在此圖中，我們可以看出博弈論大概分為四類，每種類別都有固定的納什均衡。這道題中所問的“如何分辨子博弈，是求解子博弈精煉納什均衡的根底。而“貝葉斯法那么是求解精煉貝葉斯均衡的根底。所以，如果擴展一下是屬于如何求解完全信息動態(tài)博弈的子博弈精煉納什均衡，以與如何求解不完全信息動態(tài)博弈的精煉貝葉斯納什均衡。在下面分開討論。一、完全信息動態(tài)的子博弈精煉納什均衡完全信息動態(tài)一般用擴展式表述。子博弈精煉納什均衡要求1它在原博弈上是納什均衡2它在每一個子博弈上都是納什均衡。所以，如何分辨一個擴展式有幾個子博弈，關鍵在于看一個擴展式表述的博弈中有幾個單節(jié)信息集。同時，子博

7、弈不能切割原博弈的信息集。通過下面幾個圖來解釋：圖 1在此博弈中，有三個參與者，分別是A、N自然、B。共有七個決策點，A有一個。N有兩個，B有四個。這七個決策點分割成七個信息集，每個信息集都只包括一個決策點。表示，所有參與者在參與時準確知道自己處于哪個決策結。子博弈由每個決策結與其后續(xù)結構成，所以在圖一中，共有七個子博弈。注意：任何博弈本身成為其自身的一個子博弈。圖 2圖2與圖1一樣，也有三個參與者，A、N自然、B。不同的是，B在選擇時并不知道N的選擇，也就是說B知道A選擇了開發(fā)或者不開發(fā)，但是不知道N選擇了大還是小。因為B不知道自己處在N選擇了大還是小的決策結上，用虛線表示。此時，B有兩個信

8、息集，但是每個信息集有兩個決策點?？偨Y來說，在圖2中，A有一個信息集，只包含一個決策結；N有兩個信息集，各包含一個決策結；B有兩個信息集，各包含兩個決策結。所以，圖2共有三個單節(jié)信息集，那么也就可以判斷圖2有三個子博弈。圖 3在同樣三個參與者的圖中，圖3代表A決策時不知道N決策的結果；B知道自然的選擇，但是不知道A的選擇。在圖3中，根據“子博弈不能切割原博弈信息集的規(guī)那么，圖3只有一個子博弈就是原博弈本身。圖3的博弈還可以用另外的方式來表達，可能更容易理解。圖 4圖4和圖3代表的完全是同一個博弈。A決策時不知道N決策的結果；B知道自然的選擇，但是不知道A的選擇。在這個圖中，根據之前的“有幾個單

9、節(jié)信息集就有幾個子博弈的判斷方法，可以知道只有一個子博弈就是原博弈本身?；蛘哒f，只有一個子博弈，即N有一個信息集只包含一個決策點。二、貝葉斯法那么的理解如何理解貝葉斯法那么在博弈論中的應用，我覺得維迎博弈論與信息經濟學中舉的一個例子很好，我先把這局部截圖放在下面。摘自維迎博弈論與信息經濟學 P182P183三：信號博弈與貝葉斯法那么的運用信號博弈Signaling game，是一種由一個發(fā)送者S和另一個接收者R所組成的 HYPERLINK ://wiki/%E5%8A%A8%E6%80%81%E5%8D%9A%E5%BC%88 o 動態(tài)博弈動態(tài)博弈。一開始這個

10、發(fā)送者有一個給定的類型t，接著發(fā)送者會觀察這個沒有其他人好比說接收者知道的類型，去從訊息堆 M = m1, m2, m3,., mj 中選擇送出一個訊息m，接著接收者會觀察這個訊息后從他可行的動作中 A = a1, a2, a3, ak 選一個作為反響動作a，這里要注意的是接收者除了訊息之外其他都無法得知如發(fā)送者的類型t，接著根據t, m, a的組合來決定雙方會獲得的報酬或回報。用貝葉斯法那么求解精煉貝葉斯納什均衡最典型的例子應該是用在信號博弈上?？梢詤⒖剂_云峰主編的博弈論教程，第十三章1、2小節(jié)。我覺得這本書相對講的清楚些。這是之前上課用到的一個例子，把它放在下面。首先，在這個博弈中，有三個

11、參與者，分別是N、S、R。Sender有兩種類型，他是哪種類型是其私有信息。也就是說，receiver不知道sender是哪種類型，知道的是1/2的可能性是t1,另外1/2的可能性是t2，同時Receiver可以根據Sender的行動來修正自己的判斷。Sender有兩個行動的可能性，L或者R；Receiver有兩個行動的可能性，u或者d。1.假設無論是Sender t1，還是Sender t2，都會選擇L。這一假設條件可以表示為 pL t1= pLt2= 1。又知Sender 1/2的可能性是t1,另外1/2的可能性是t2，即p t1= pt2= 0.5 那么這個時候，根據貝葉斯法那么。他選擇

12、U，受益是1/2*3+1/2*4=3.5。如果他選擇d，收益是1/2*0+1/2*1=0.5。所以，在Sender選L的情況下，Receiver會選u。在Receiver選U的情況下，Sender t1 選L的收益是1，Sender t2選L的收益是2.以上結論，建立在“無論是Sender t1，還是Sender t2，都會選擇L，這一假設上，那么要使上述結論成立，首先這個假設要成立。如何讓這個假設成立呢？就需要保證，如果Receiver選擇u，那么無論對哪種類型的Sender來說，選L一定比選R好。因此，當Sender選擇R時，Receiver做出的反響使得任何類型Sender得到的收益，都

13、小于其選擇L得到的收益。當Sender選擇R時，只有Receiver選擇d 才能保證任何類型的Sender收益都小于其選擇L的收益。所以，必須保證當Sender選擇R時，Receiver一定選擇d。要想保證Receiver一定選擇d呢，那么一定要使Sender選R時，Receiver選u的預期收益小于其選d的預期收益。即q+1-q*0 0*q + 2(1- q), 即q 2/3.所以，這種情況下的精煉貝葉斯均衡是無論是Sender t1，還是Sender t2，都會選擇L；當Sender選擇L時，Receiver 選u，當Sender選R時，Receiver選d；p=0.5；q 2/32.

14、假設無論是Sender t1，還是Sender t2，都會選擇R這一假設條件可以表示為 pR t1= pRt2= 1。又知Sender 1/2的可能性是 t1,另外1/2的可能性是t2，即p t1= pt2= 0.5 那么這個時候，根據貝葉斯法那么。他選擇u，受益是1/2*1+1/2*0=0.5。如果他選擇d，收益是1/2*0+1/2*2=1。所以，在sender選L的情況下，Receiver會選d。在Receiver選d 的情況下，sender t1 選R的收益是0，sender t2選R的收益是1。如果Sender選擇L，那么Receiver選擇u總是優(yōu)于其選擇d，所以Receiver一定

15、會選擇u。而當Receiver選擇u是，sender t1 收益是1，sender t2的收益是2。所以這種情況，Sender選L總是優(yōu)于其選R。與假設相悖，不存在均衡。3.如果是Sender t1，會選擇L：如果是Sender t2，會選擇R。在這種情況下，根據貝葉斯法那么，p=1 q=0如果Receiver發(fā)現Sender的選擇是L，就會知道是Sender t1，如果發(fā)現選擇的是R就能判斷出是R在Sender t1選擇L時，Receiver會選擇u，Sender獲得收益1；當Sender t2選擇R時，Receiver會選擇d，Sender獲得收益1。需要檢驗，當確定Receiver選擇u

16、、d時， Sender做出與假設不一樣的選擇是否會得到更高的收益。當Receiver會選擇u，Sender t1選擇R收益少于選L可以；當Receiver會選擇d，Sender t2選擇L收益大于R。因此，Sender t2會選擇L，與假設相悖。所以，這種均衡不存在4.如果是Sender t1，會選擇R：如果是Sender t2，會選擇L。在這種情況下，根據貝葉斯法那么，p=0 q=1在Sender t1選擇R時，Receiver會選擇u，Sender獲得收益2；當Sender t2選擇L時，Receiver會選擇u，Sender獲得收益2。再次檢驗，當確定Receiver選擇uL，uR時，

17、兩類型Sender做出與假設不一樣的選擇是否會得到更高的收益。當Receiver會選擇u，Sender t1選擇L收益少于選R可以；當Receiver會選擇u，Sender t2選擇R收益小于L可以。所以，這種均衡存在： Rt1, Lt2，uL, uR，p=0， q=1三：貼現因子與其在重復博弈中的運用一般來說，當 HYPERLINK :/baike.baidu /view/142631.htm t :/baike.baidu /_blank 利率為r時，承諾T年之后支付R美元的現值是R美元/ (1+r)T。因此，即使沒有 HYPERLINK :/baike.baidu /view/4017.

18、htm t :/baike.baidu /_blank 通貨膨脹，將來1美元的價值也小于現在1美元的價值，必須按某一數額貼現，該數額取決于 HYPERLINK :/baike.baidu /view/142631.htm t :/baike.baidu /_blank 利率的上下和收到貨幣的時間長短。其中1/ (1+r)T被稱為未來T時期的貨幣的貼現因子(discount factor)。貼現因子(discount factor)，也稱 HYPERLINK :/baike.baidu /view/544078.htm t :/baike.baidu /_blank 折現系數、折現參數。所謂貼現

19、因子，就是將來的 HYPERLINK :/baike.baidu /view/9881.htm t :/baike.baidu /_blank 現金流量折算成現值的介于01之間的一個數。貼現因子在數值上可以理解為 HYPERLINK :/baike.baidu /view/93166.htm t :/baike.baidu /_blank 貼現率，就是1個份額經過一段時間后所等同的現在份額。這個貼現因子不同于金融學或者財務學的 HYPERLINK :/baike.baidu /view/93166.htm t :/baike.baidu /_blank 貼現率之處在于，它是由參與人的“耐心程度

20、所決定的?！澳托膶嵸|上是講參與人的心理和經濟承受能力，不同的參與人在談判中的 HYPERLINK :/baike.baidu /view/4141513.htm t :/baike.baidu /_blank 心理承受能力可能各不一樣，心理承受能力強的可能最終會獲得更多的廉價；同樣，如果有比其他參與人更強的經濟承受能力，也會占得更多的廉價。貼現因子=1/(1+r)T 01,r是利率。貼現值為1/(1+)T注：T表示T次方學者在 HYPERLINK :/baike.baidu /view/18930.htm t :/baike.baidu /_blank 博弈論對貼現因子的定義：貼現因子是討價 HYPERLINK :/baike.baidu /view/2728374.htm t :/baike.baidu /_blank 還價 HYPERLINK :/baike.baidu /view/150886.htm t :/baike.baidu /_blank 博弈

人人文庫> 全部分類> 行業(yè)資料 > 信息產業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

子博弈精煉納什均衡貝葉斯法則信號博弈

文檔簡介

溫馨提示

最新文檔

評論

子博弈精煉納什均衡 貝葉斯法則 信號博弈

文檔簡介

溫馨提示

最新文檔

評論

相關文檔

子博弈精煉納什均衡貝葉斯法則信號博弈