第四講重復(fù)博弈(下)

上傳人：3*** IP屬地：湖北上傳時(shí)間：2022-04-03 格式：PPT 頁數(shù)：25 大小：144KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩20頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第四講重復(fù)博弈(下)一、有限次重復(fù)博弈一、有限次重復(fù)博弈（以（以two-stage repeated games為例）為例）考慮曾經(jīng)給出的囚徒困境的標(biāo)準(zhǔn)式（回憶并考慮曾經(jīng)給出的囚徒困境的標(biāo)準(zhǔn)式（回憶并畫出支付矩陣）。畫出支付矩陣）。假設(shè)兩個(gè)參與者要把這樣一個(gè)同時(shí)行動(dòng)博弈重假設(shè)兩個(gè)參與者要把這樣一個(gè)同時(shí)行動(dòng)博弈重復(fù)兩次，并且在第二次博弈開始之前可觀測第一復(fù)兩次，并且在第二次博弈開始之前可觀測第一次的結(jié)果。再假設(shè)整個(gè)過程博弈的收益等于兩階次的結(jié)果。再假設(shè)整個(gè)過程博弈的收益等于兩階段各自收益的簡單相加（即不考慮貼現(xiàn)因素），段各自收益的簡單相加（即不考慮貼現(xiàn)因素），我們稱這一重復(fù)進(jìn)行的博弈為兩階

2、段囚徒困境。我們稱這一重復(fù)進(jìn)行的博弈為兩階段囚徒困境。（一）階段博弈只有唯一（一）階段博弈只有唯一NE表2 囚徒困境博弈乙招不招招甲不招（這樣一個(gè)博弈重復(fù)進(jìn)行2次） -5,-50,-8-8,0-1,-1而在兩階段囚徒困境中而在兩階段囚徒困境中,第二階段的第二階段的NE可以完全可以完全不依賴于第一階段的結(jié)果。不依賴于第一階段的結(jié)果。分析時(shí)要注意分析時(shí)要注意3點(diǎn)：點(diǎn)：1 逆推歸納法逆推歸納法backwards-induction 2 參與人在第二階段行動(dòng)只須考慮該階段的參與人在第二階段行動(dòng)只須考慮該階段的利益最大化，因?yàn)闊o須利益最大化，因?yàn)闊o須“瞻前顧后瞻前顧后”。 3 分析第一階段

3、時(shí)，可把第二階段的均衡結(jié)分析第一階段時(shí)，可把第二階段的均衡結(jié)果下的支付值疊加到第一階段的相應(yīng)支付值上。果下的支付值疊加到第一階段的相應(yīng)支付值上。表3 囚徒困境博弈乙招不招招甲不招 -10,-10-5,-13-13,0-6,-6Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgame- perfect outcome:the Nash equilibrium of G is played

4、 in every stage. (二二) 存在存在多個(gè)多個(gè)NENE的有限次重復(fù)博弈的有限次重復(fù)博弈例例1：三價(jià)博弈：三價(jià)博弈故事：兩生產(chǎn)同質(zhì)商品的寡頭。在兩故事：兩生產(chǎn)同質(zhì)商品的寡頭。在兩寡頭都是高價(jià)時(shí)市場總利潤為寡頭都是高價(jià)時(shí)市場總利潤為10，都是，都是中價(jià)時(shí)市場總利潤為中價(jià)時(shí)市場總利潤為6，都是低價(jià)時(shí)市場，都是低價(jià)時(shí)市場總利潤為總利潤為2。兩寡頭同時(shí)決策，價(jià)格相同。兩寡頭同時(shí)決策，價(jià)格相同時(shí)分享利潤，否則低價(jià)者獨(dú)占。時(shí)分享利潤，否則低價(jià)者獨(dú)占。三價(jià)博弈 5,5 0,6 0,2 6,0 3,3 0,2 2,0 2,0 1,1 H M LH ML 寡頭寡頭2寡頭寡頭1 存在兩個(gè)純策略納

5、什均衡（存在兩個(gè)純策略納什均衡（M,M）和和(L,L)（還有混合策略）。但顯然（還有混合策略）。但顯然（H,H）帕雷托效率最高。是否重復(fù)）帕雷托效率最高。是否重復(fù)（兩次）進(jìn)行能夠?qū)崿F(xiàn)使效率改善？（兩次）進(jìn)行能夠?qū)崿F(xiàn)使效率改善？觸發(fā)策略觸發(fā)策略（trigger strategy）一方的機(jī)會(huì)主義行為將觸發(fā)其他參與人策略一方的機(jī)會(huì)主義行為將觸發(fā)其他參與人策略中的懲罰機(jī)制發(fā)生。中的懲罰機(jī)制發(fā)生。我們把這種包含著獎(jiǎng)勵(lì)和懲我們把這種包含著獎(jiǎng)勵(lì)和懲罰機(jī)制的策略稱為觸發(fā)策略。正是由于害怕罰機(jī)制的策略稱為觸發(fā)策略。正是由于害怕“觸觸發(fā)發(fā)”其他參與人的懲罰機(jī)制，所以不敢利用機(jī)會(huì)其他參與人的懲罰機(jī)制，所以不敢利用

6、機(jī)會(huì)使自己在該階段利益最大化，從而使該階段的使自己在該階段利益最大化，從而使該階段的“合作合作”出現(xiàn)。從這個(gè)意義上看，觸發(fā)策略是出現(xiàn)。從這個(gè)意義上看，觸發(fā)策略是“溫柔的溫柔的”。觸發(fā)策略觸發(fā)策略（trigger strategy）假設(shè)寡頭采取假設(shè)寡頭采取觸發(fā)策略觸發(fā)策略（trigger strategy），即開始選擇合作，如果對方也合），即開始選擇合作，如果對方也合作，就一直合作；但在博弈中一旦發(fā)現(xiàn)對方作，就一直合作；但在博弈中一旦發(fā)現(xiàn)對方不合作，就永遠(yuǎn)選擇報(bào)復(fù)，不合作。不合作，就永遠(yuǎn)選擇報(bào)復(fù)，不合作。寡頭寡頭1，第一次選，第一次選H.如果第一次結(jié)果為如果第一次結(jié)果為（H,H)，則第二次

7、選則第二次選M;否則選否則選L. 寡頭寡頭2：同上。：同上。子博弈精煉納什均衡結(jié)果是：第一階段子博弈精煉納什均衡結(jié)果是：第一階段（H，H）,第二階段（第二階段（M，M）。）。證明證明第二階段（第二階段（M,M）是原博弈的納什）是原博弈的納什均衡，參與人的行為不會(huì)發(fā)生偏離。第均衡，參與人的行為不會(huì)發(fā)生偏離。第一階段（一階段（H,H）雖然不是原博弈的納什）雖然不是原博弈的納什均衡，單獨(dú)偏離為均衡，單獨(dú)偏離為M能增加能增加1單位支付，單位支付，但這樣做第二階段要損失但這樣做第二階段要損失2，因而不會(huì)偏，因而不會(huì)偏離（離（H,H)。這就證明了該策略組合是子博弈完美的。從這這就證明了該策略組合是

8、子博弈完美的。從這條均衡路徑中看到：將來利益對當(dāng)前的選擇有條均衡路徑中看到：將來利益對當(dāng)前的選擇有約束。約束。這種策略有這種策略有2個(gè)特點(diǎn)：個(gè)特點(diǎn)：1、第一階段選、第一階段選H，試探合作。，試探合作。機(jī)會(huì)主義機(jī)會(huì)主義2、后續(xù)階段中包含著獎(jiǎng)勵(lì)和懲罰機(jī)制：選、后續(xù)階段中包含著獎(jiǎng)勵(lì)和懲罰機(jī)制：選M可可以獎(jiǎng)勵(lì)對方，選以獎(jiǎng)勵(lì)對方，選L可以懲罰對方。因?yàn)椋梢詰土P對方。因?yàn)椋∕，M）和（和（L，L）都是階段博弈的）都是階段博弈的NE，所以獎(jiǎng)勵(lì)和懲，所以獎(jiǎng)勵(lì)和懲罰都是可信的。罰都是可信的?？紤]如下抽象博弈：考慮如下抽象博弈：參與人參與人2L M R P QLMRPQ參參與與人人11 , 1 5 , 0 0

9、, 0 0 , 0 0 , 00 , 5 4 , 4 0 , 0 0 , 0 0 , 00 , 0 0 , 0 3 , 3 0 , 0 0 , 00 , 0 0 , 0 0 , 0 4,1/2 0 , 00 , 0 0 , 0 0 , 0 0 , 0 1/2, 4 上面的例子因?yàn)殡A段博弈的上面的例子因?yàn)殡A段博弈的NE很豐富，且存在很豐富，且存在可供獎(jiǎng)勵(lì)和懲罰的可供獎(jiǎng)勵(lì)和懲罰的NE，所以雙方不僅可構(gòu)造觸，所以雙方不僅可構(gòu)造觸發(fā)策略，而且觸發(fā)策略是子博弈完美的（或者發(fā)策略，而且觸發(fā)策略是子博弈完美的（或者說觸發(fā)策略所包含的獎(jiǎng)勵(lì)和懲罰是可信的）。說觸發(fā)策略所包含的獎(jiǎng)勵(lì)和懲罰是可信的）。雙方的策略雙方

10、的策略均為：第一階段選擇均為：第一階段選擇M；如果第一階；如果第一階段的行動(dòng)組合是（段的行動(dòng)組合是（M，X）（或（）（或（X，M），），X為除為除M之外的其它可選行動(dòng)），則第二階段選之外的其它可選行動(dòng)），則第二階段選P(Q)，如果是除此之外的其它任何組合，則選，如果是除此之外的其它任何組合，則選R。第一階段的行動(dòng)組合是第一階段的行動(dòng)組合是(M,M),則第二階段的行動(dòng)組則第二階段的行動(dòng)組合將是合將是(R,R);第一階段的行動(dòng)組合是第一階段的行動(dòng)組合是(M,X)或或(X，M)，則第二階段的行動(dòng)組合將是，則第二階段的行動(dòng)組合將是(P,P)或或(Q,Q);第第一階段的行動(dòng)組合為其它，則第二階段還是一階

11、段的行動(dòng)組合為其它，則第二階段還是(R,R)。三、無限次重復(fù)博弈三、無限次重復(fù)博弈無限次重復(fù)博弈與有限次重復(fù)博弈的異同：無限次重復(fù)博弈與有限次重復(fù)博弈的異同：1、沒有最后一階段博弈；、沒有最后一階段博弈；2、不可忽略貼現(xiàn)問題、不可忽略貼現(xiàn)問題3、都可能通過懲罰來實(shí)現(xiàn)理想的均衡。、都可能通過懲罰來實(shí)現(xiàn)理想的均衡。一、無限次重復(fù)的囚徒困境一、無限次重復(fù)的囚徒困境以寡頭削價(jià)競爭為例以寡頭削價(jià)競爭為例基本博弈的結(jié)果是（基本博弈的結(jié)果是（L,L）。）。 4，40，55，01，1 H L H L 寡頭寡頭1寡頭寡頭2引入貼現(xiàn)因子引入貼現(xiàn)因子, 若某個(gè)參與人在某一路若某個(gè)參與人在某一路徑的各個(gè)階段的

12、支付分別為：徑的各個(gè)階段的支付分別為： 1 、 2 、，則該參與人在該路徑的則該參與人在該路徑的“總支付總支付” 為為無限序列無限序列1 、 2 、的現(xiàn)值之和，即：的現(xiàn)值之和，即： = 1+ 2 + 2 3 + = t-1 t t =1 ？01當(dāng)當(dāng) 0，行動(dòng)短視化，時(shí)間，行動(dòng)短視化，時(shí)間視野往往局限于本期、近期；視野往往局限于本期、近期；當(dāng)當(dāng) 1，參與人有遠(yuǎn)見，他充分意識到他，參與人有遠(yuǎn)見，他充分意識到他現(xiàn)期的行動(dòng)決策將通過其他參與人的反應(yīng)影響到現(xiàn)期的行動(dòng)決策將通過其他參與人的反應(yīng)影響到他未來的收益，因而試圖跨期協(xié)調(diào)其行動(dòng)決策。他未來的收益，因而試圖跨期協(xié)調(diào)其行動(dòng)決策。前面已經(jīng)證明，有限次

13、重復(fù)不會(huì)改變結(jié)果。如前面已經(jīng)證明，有限次重復(fù)不會(huì)改變結(jié)果。如果是無限次，則在貼現(xiàn)因子較大的情況下（比果是無限次，則在貼現(xiàn)因子較大的情況下（比較重視長期利益）可能實(shí)現(xiàn)合作。較重視長期利益）可能實(shí)現(xiàn)合作。觸發(fā)策略：第一階段采取觸發(fā)策略：第一階段采取H，在，在t階段，如果前階段，如果前t-1階段的結(jié)果都是（階段的結(jié)果都是（H,H），則繼續(xù)采用），則繼續(xù)采用H；一旦發(fā)現(xiàn)對方不合作（一旦發(fā)現(xiàn)對方不合作（L），則以后永遠(yuǎn)選擇），則以后永遠(yuǎn)選擇L報(bào)復(fù)。報(bào)復(fù)。假設(shè)參與人假設(shè)參與人1已經(jīng)采用了觸發(fā)策略。已經(jīng)采用了觸發(fā)策略。如果寡頭如果寡頭2 也選擇觸發(fā)策略，則總支付的現(xiàn)值也選擇觸發(fā)策略，則總支付的現(xiàn)值是：

14、是：2144*4*4.1 如果寡頭如果寡頭2不采取觸發(fā)策略，在第一階段采用不采取觸發(fā)策略，在第一階段采用L，因?yàn)?，因?yàn)榈诙A段起被報(bào)復(fù)只能采用第二階段起被報(bào)復(fù)只能采用L,因而支付為（因而支付為（5,1,1,.）。）?？傊Ц兜默F(xiàn)值是：總支付的現(xiàn)值是：因此，只要因此，只要，即，即，采用觸發(fā)策略對寡，采用觸發(fā)策略對寡頭頭2就是明智的。就是明智的。由于寡頭由于寡頭1、2是對稱的，因而同樣可以證明觸發(fā)策略是對稱的，因而同樣可以證明觸發(fā)策略對寡頭對寡頭1也是明智的。也是明智的。這樣，我們就證明了觸發(fā)策略是一個(gè)納什均衡。這樣，我們就證明了觸發(fā)策略是一個(gè)納什均衡。 225*1*1.51121/4 由

15、于博弈進(jìn)行無限次，從任何一個(gè)階段開始的由于博弈進(jìn)行無限次，從任何一個(gè)階段開始的子博弈都與這個(gè)博弈結(jié)構(gòu)相同，因而觸發(fā)促策子博弈都與這個(gè)博弈結(jié)構(gòu)相同，因而觸發(fā)促策略在任何一個(gè)子博弈上都是納什均衡。略在任何一個(gè)子博弈上都是納什均衡。所以，觸發(fā)策略構(gòu)成該無限次重復(fù)博弈的子博所以，觸發(fā)策略構(gòu)成該無限次重復(fù)博弈的子博弈精煉納什均衡。弈精煉納什均衡。啟發(fā)：在博弈重復(fù)無限次，且參與人都有耐心啟發(fā)：在博弈重復(fù)無限次，且參與人都有耐心的情況下，任何短期的機(jī)會(huì)主義行為的所得都的情況下，任何短期的機(jī)會(huì)主義行為的所得都是微不足道的，參與人有積極性為自己建立一是微不足道的，參與人有積極性為自己建立一個(gè)樂意合作的聲譽(yù)，

16、同時(shí)也有積極性懲罰對方個(gè)樂意合作的聲譽(yù)，同時(shí)也有積極性懲罰對方的機(jī)會(huì)主義行為。的機(jī)會(huì)主義行為。無限次重復(fù)古諾模型假定假定：，邊際成本都為2。在無限次重復(fù)古諾模型中，當(dāng)貼現(xiàn)率滿足一定條件時(shí)，兩廠商采用下列觸發(fā)策略構(gòu)成一個(gè)子博弈完美納什均衡：在第一階段生產(chǎn)壟斷產(chǎn)量的一半1.5；在第 t 階段，如果前 t-1 階段結(jié)果都是(1.5,1.5)，則繼續(xù)生產(chǎn)1.5，否則生產(chǎn)古諾產(chǎn)量2。 21,8qqQQP其中設(shè)廠商1已采用該觸發(fā)策略，若廠商2也采用該觸發(fā)策略，則每期得益4.5，無限次重復(fù)博弈總得益的現(xiàn)值為：如果廠商2偏離上述觸發(fā)策略，則他在第一階段所選產(chǎn)量應(yīng)為給定廠商1產(chǎn)量為1.5時(shí)，自己的最大利潤產(chǎn)量，即滿足：解得，此時(shí)利潤為5.0625

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第四講重復(fù)博弈(下)

文檔簡介

溫馨提示

最新文檔

評論

第四講重復(fù)博弈(下)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔