第63講：RepeatedGames(III)：以“囚徒困境博弈”為例

上傳人：6*** IP屬地：湖北上傳時(shí)間：2023-02-04 格式：PPT 頁數(shù)：45 大?。?00KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩40頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Lecture6:

RepeatedGames（III）──以“囚徒困境博弈”為例1嚴(yán)格競(jìng)爭(zhēng)博弈的重復(fù)博弈零和博弈或其他嚴(yán)格競(jìng)爭(zhēng)博弈的有限次和無限次重復(fù)博弈，都不可能產(chǎn)生比一次性博弈更理想的結(jié)果，博弈方的唯一選擇是始終采用原博弈的混合策略納什均衡策略，因?yàn)橹貜?fù)博弈不會(huì)改變博弈方之間的利益對(duì)立關(guān)系。以“猜硬幣博弈”為例2存在唯一純策略納什均衡博弈的重復(fù)博弈3在有唯一純策略納什均衡的博弈中，博弈方之間的利益關(guān)系不再是始終對(duì)立的，而是有很大一致性甚至完全一致。4坦白抵賴坦白（-5,-5）（0,-8）抵賴（-8,0）（-1,-1）乙甲存在唯一純策略納什均衡博弈的重復(fù)博弈？以“存在唯一純策略納什均衡博弈”為原博弈的重復(fù)博弈中，博弈方的行為和博弈結(jié)果會(huì)不會(huì)發(fā)生本質(zhì)的變化呢？5坦白抵賴坦白（-5,-5）（0,-8）抵賴（-8,0）（-1,-1）乙甲存在唯一純策略納什均衡博弈的重復(fù)博弈存在唯一純策略納什均衡博弈的重復(fù)博弈有限次重復(fù)博弈無限次重復(fù)博弈6以“囚徒困境博弈”為例囚徒困境博弈7坦白抵賴坦白（-5，-5）（0，-8）抵賴（-8，0）（-1，-1）甲乙策略組合（坦白，坦白）是“囚徒困境”博弈的唯一純策略納什均衡?！扒敉嚼Ь巢┺摹钡膬纱沃貜?fù)博弈“囚徒困境博弈”的兩次重復(fù)博弈利用“逆推歸納法”進(jìn)行分析8坦白抵賴坦白（-5，-5）（0，-8）抵賴（-8，0）（-1，-1）乙甲“囚徒困境博弈”的兩次重復(fù)博弈首先，分析第二階段（即第二次重復(fù)時(shí)）兩博弈方的選擇。第二階段仍然是兩囚徒之間的一個(gè)囚徒困境博弈，此時(shí)前一階段的結(jié)果已成為既成事實(shí)，此后又不再有任何的后續(xù)階段，因此實(shí)現(xiàn)自身當(dāng)前的最大利益是兩博弈方在該階段決策中的唯一原則。因此不管前一次博弈的結(jié)果如何，第二階段的唯一結(jié)果就是原博弈唯一的納什均衡（坦白，坦白），雙方得益的現(xiàn)在值為（－5δ，－5δ）。9坦白抵賴坦白（-5，-5）（0，-8）抵賴（-8，0）（-1，-1）乙甲“囚徒困境博弈”的兩次重復(fù)博弈然后，回到第一階段，即第一次博弈。理性的博弈方在第一階段就對(duì)后一階段（第二階段）的結(jié)局非常清楚。因此不管第一階段的博弈結(jié)果是什么，雙方在整個(gè)重復(fù)博弈中的最終得益，都將是第一階段得益的基礎(chǔ)上各加－5δ

。因此從第一階段的選擇來看，這個(gè)重復(fù)博弈與如下得益矩陣表示的一次性博弈實(shí)際上是完全等價(jià)的。10坦白抵賴坦白（-5－5δ

，-5－5δ

）（0－5δ

，-8－5δ

）抵賴（-8－5δ

，0－5δ

）（-1－5δ

，-1－5δ

）乙甲“囚徒困境博弈”的兩次重復(fù)博弈11坦白抵賴坦白（-5-5δ

，-5-5δ

）（0-5δ

，-8-5δ

）抵賴（-8-5δ

，0-5δ

）（-1-5δ

，-1-5δ

）乙甲該等價(jià)博弈有唯一的純策略納什均衡（坦白，坦白），雙方的得益則為（-5-5δ

，-5-5δ

）?！扒敉嚼Ь巢┺摹钡膬纱沃貜?fù)博弈“囚徒困境博弈”的兩次重復(fù)博弈存在唯一的子博弈完美納什均衡：｛（坦白，坦白），（坦白，坦白）｝；博弈方的總得益組合為（-5-5δ

，-5-5δ）。12“囚徒困境博弈”的兩次重復(fù)博弈囚徒困境博弈的兩次重復(fù)博弈相當(dāng)于一次性囚徒困境博弈的簡(jiǎn)單重復(fù)。13“囚徒困境博弈”的有限次重復(fù)博弈（推廣）“囚徒困境博弈”的T次重復(fù)博弈存在唯一的子博弈完美納什均衡，即每次重復(fù)都采用原博弈唯一的純策略納什均衡。14小結(jié)論利用劃線法求解Nash均衡解，都是在給定其他博弈方所取策略的條件下，比較同一博弈方采用不同策略時(shí)的得益大小。因此，在每個(gè)博弈方的各種可能得益上加一個(gè)常數(shù)（不同博弈方的得益所加常數(shù)可以不同）之后，博弈的Nash均衡仍為“新”博弈的均衡結(jié)果。15存在唯一純策略納什均衡博弈的有限次重復(fù)博弈

定理：設(shè)原博弈G有唯一的純策略納什均衡，則對(duì)任意正整數(shù)T

，重復(fù)博弈G(T)有唯一的子博弈完美納什均衡，即各博弈方每個(gè)階段都采用G

的納什均衡策略。1617存在唯一純策略納什均衡博弈的有限次重復(fù)博弈（續(xù)）利用逆推歸納法證明首先，分析重復(fù)博弈G(T)的最后一個(gè)階段，即第T次重復(fù)由于第T次重復(fù)就是原博弈G，并且在該階段之后不再重復(fù)，因此不管以前T-1階段的博弈結(jié)果如何，在該階段中各博弈方必然采用G的唯一的納什均衡。18存在唯一純策略納什均衡博弈的有限次重復(fù)博弈（續(xù)）然后，再推回到前一階段，即第T-1次重復(fù)由于此時(shí)各博弈方都知道下一階段(即第T階段)的博弈結(jié)果，因此對(duì)每個(gè)博弈方來說，從該階段開始的子博弈（即最后兩個(gè)階段）中各種策略組合的得益就是本階段的得益加上下一階段的均衡得益的貼現(xiàn)值。因此，各博弈方在該階段仍將采用G的唯一的納什均衡。19存在唯一純策略納什均衡博弈的有限次重復(fù)博弈（續(xù)）依此類推直至博弈的第一階段。最終，可得結(jié)論！20存在唯一純策略納什均衡博弈的有限次重復(fù)博弈（續(xù)）有唯一純策略納什均衡的有限次重復(fù)博弈不比一次性博弈的結(jié)果理想，因?yàn)槲ㄒ坏淖硬┺耐昝兰{什均衡是各博弈方每次重復(fù)都采用原博弈的納什均衡。21存在唯一純策略納什均衡博弈的無限次重復(fù)博弈存在唯一純策略納什均衡博弈的無限次重復(fù)博弈以囚徒困境式博弈的無限次重復(fù)為例22囚徒困境式博弈的無限次重復(fù)博弈囚徒困境式博弈的無限次重復(fù)下面的分析將表明，在囚徒困境式博弈的無限次重復(fù)博弈中，對(duì)雙方有利的合作（指雙方克制自己的行為，為對(duì)方的利益和共同的利益著想，并非真正的聯(lián)合、合作）在子博弈完美納什均衡中有可能存在，博弈可能出現(xiàn)比較理想的結(jié)果。以削價(jià)競(jìng)爭(zhēng)博弈的無限次重復(fù)為例。23削價(jià)競(jìng)爭(zhēng)博弈24博弈方2HL博弈方1H4，40，5L5，01，1H和L分別表示高價(jià)（不削價(jià)）和低價(jià)（削價(jià)）策略削價(jià)競(jìng)爭(zhēng)博弈（續(xù)）該博弈的一次性博弈有唯一的純策略納什均衡（L，L），得益組合為（1，1）。25博弈方2HL博弈方1H4，40，5L5，01，1削價(jià)競(jìng)爭(zhēng)博弈（續(xù)）策略組合（H，H）實(shí)現(xiàn)的得益組合（4，4）比（1，1）高得多。但因?yàn)椋℉，H）并不是該博弈的納什均衡，因此在一次性博弈中不會(huì)被采用，這是一個(gè)典型的囚徒困境式博弈。26博弈方2HL博弈方1H4，40，5L5，01，1削價(jià)競(jìng)爭(zhēng)博弈（續(xù)）該博弈的有限次重復(fù)博弈不能實(shí)現(xiàn)潛在的合作利益，兩博弈方在每次重復(fù)中都不會(huì)采用效率較高的（H，H）。27博弈方2HL博弈方1H4，40，5L5，01，1觸發(fā)策略

（TriggerStrategy）重復(fù)博弈中博弈方首先試探合作，一旦發(fā)現(xiàn)對(duì)方不合作則用不合作報(bào)復(fù)的策略，稱為“觸發(fā)策略”。觸發(fā)策略是重復(fù)博弈中實(shí)現(xiàn)合作和提高均衡效率的關(guān)鍵機(jī)制，是重復(fù)博弈分析中構(gòu)造子博弈完美納什均衡的基本“構(gòu)件”之一。28“冷酷策略”（grimstrategy）又稱為“觸發(fā)策略”（triggerstrategy），因?yàn)槿魏螀⑴c人的一次性不合作將觸發(fā)永遠(yuǎn)的不合作。（張維迎，2012，第126頁）在冷酷戰(zhàn)略下，參與人沒有改正錯(cuò)誤的機(jī)會(huì)。所以這個(gè)戰(zhàn)略確實(shí)是很冷酷的，但冷酷的結(jié)果是雙方都沒有背叛對(duì)方的積極性，因而是友善的。（張維迎，2012，第127頁）2930削價(jià)競(jìng)爭(zhēng)博弈的無限次重復(fù)

削價(jià)競(jìng)爭(zhēng)博弈的無限次重復(fù)假設(shè)兩博弈方都采用觸發(fā)策略：第一階段采用H，在第t階段，如果前t-1階段的結(jié)果都是(H，H)，則繼續(xù)采用H，否則采用L。雙方在無限次重復(fù)博弈中都是先試圖合作，第一次無條件選H，如果對(duì)方采用的也是合作態(tài)度，則堅(jiān)持選H；一旦發(fā)現(xiàn)對(duì)方不合作（選擇L），則用以后永遠(yuǎn)選擇L報(bào)復(fù)。博弈方2HL博弈方1H4，40，5L5，01，1削價(jià)競(jìng)爭(zhēng)博弈的無限次重復(fù)（續(xù)）證明：當(dāng)貼現(xiàn)系數(shù)δ較大時(shí)，雙方采用上述觸發(fā)策略構(gòu)成無限次重復(fù)博弈的一個(gè)子博弈完美納什均衡。31博弈方2HL博弈方1H4，40，5L5，01，1觸發(fā)策略：第一階段采用H，在第t階段，如果前t-1階段的結(jié)果都是(H，H)，則繼續(xù)采用H，否則采用L。削價(jià)競(jìng)爭(zhēng)博弈的無限次重復(fù)（續(xù)）證明：首先，證明雙方采用上述觸發(fā)策略是一個(gè)納什均衡。然后，證明上述觸發(fā)策略組合構(gòu)成整個(gè)無限次重復(fù)博弈的子博弈完美納什均衡。32博弈方2HL博弈方1H4，40，5L5，01，1觸發(fā)策略：第一階段采用H，在第t階段，如果前t-1階段的結(jié)果都是(H，H)，則繼續(xù)采用H，否則采用L。削價(jià)競(jìng)爭(zhēng)博弈的無限次重復(fù)（續(xù)）證明雙方采用上述觸發(fā)策略是一個(gè)納什均衡。假設(shè)博弈方1已經(jīng)采用了觸發(fā)策略，證明在δ達(dá)到一定水平時(shí)，采用同樣的觸發(fā)策略是博弈方2的最佳反應(yīng)策略。因?yàn)椴┺姆?與博弈方2是對(duì)稱的，因此只要這個(gè)結(jié)論成立，就可以確定上述觸發(fā)策略是兩博弈方相互對(duì)對(duì)方策略的最佳反應(yīng)，因此構(gòu)成納什均衡。33觸發(fā)策略：第一階段采用H，在第t階段，如果前t-1階段的結(jié)果都是(H，H)，則繼續(xù)采用H，否則采用L。博弈方2HL博弈方1H4，40，5L5，01，1削價(jià)競(jìng)爭(zhēng)博弈的無限次重復(fù)（續(xù)）假定博弈方1已經(jīng)采用觸發(fā)策略，證明在δ達(dá)到一定水平時(shí)，采用同樣的觸發(fā)策略是博弈方2的最佳反應(yīng)策略。博弈方2對(duì)博弈方1觸發(fā)策略的最佳反應(yīng)策略的后半部分與觸發(fā)策略的后半部分是一樣的。由于在某個(gè)階段出現(xiàn)與（H，H）不同的結(jié)果以后博弈方1將永遠(yuǎn)采用L，此時(shí)博弈方2也只有一直選擇L。34觸發(fā)策略：第一階段采用H，在第t階段，如果前t-1階段的結(jié)果都是(H，H)，則繼續(xù)采用H，否則采用L。博弈方2HL博弈方1H4，40，5L5，01，1削價(jià)競(jìng)爭(zhēng)博弈的無限次重復(fù)（續(xù)）確定博弈方2在第一階段的最優(yōu)選擇。如果博弈方2采用L，那么在第一階段能得到5，但以后引起博弈方1一直采用L的報(bào)復(fù)，自己也只能一直采用L，得益將永遠(yuǎn)為1，總得益的貼現(xiàn)值為35觸發(fā)策略：第一階段采用H，在第t階段，如果前t-1階段的結(jié)果都是(H，H)，則繼續(xù)采用H，否則采用L。博弈方2HL博弈方1H4，40，5L5，01，1削價(jià)競(jìng)爭(zhēng)博弈的無限次重復(fù)（續(xù)）如果博弈方2采用H，則在第一階段他將得4，下一階段又面臨同樣的選擇。若記V為博弈方2在該重復(fù)博弈中每階段采用最佳選擇的總得益現(xiàn)在值，那么從第二階段開始的無限次重復(fù)博弈與從第一階段開始的只差一階段，因而在無限次重復(fù)時(shí)可看作相同的，其總得益的現(xiàn)在值折算成第一階段的得益為δ·V

，因此當(dāng)?shù)谝浑A段的最佳選擇是H時(shí)，整個(gè)無限次重復(fù)博弈總得益的現(xiàn)在值為：36博弈方2HL博弈方1H4，40，5L5，01，1觸發(fā)策略：第一階段采用H，在第t階段，如果前t-1階段的結(jié)果都是(H，H)，則繼續(xù)采用H，否則采用L。削價(jià)競(jìng)爭(zhēng)博弈的無限次重復(fù)（續(xù)）37削價(jià)競(jìng)爭(zhēng)博弈的無限次重復(fù)（續(xù)）因此，當(dāng)38即δ>1/4時(shí)，博弈方2會(huì)采用H策略，否則會(huì)采用L策略。即當(dāng)δ>1/4時(shí)，博弈方2對(duì)博弈方1觸發(fā)策略的最佳反應(yīng)是第一階段采用H。觸發(fā)策略：第一階段采用H，在第t階段，如果前t-1階段的結(jié)果都是(H，H)，則繼續(xù)采用H，否則采用L。博弈方2HL博弈方1H4，40，5L5，01，1削價(jià)競(jìng)爭(zhēng)博弈的無限次重復(fù)（續(xù)）由于從第二階段開始的無限次重復(fù)博弈，與從第一階段開始的無限次重復(fù)博弈是完全相同的，因此博弈方第二階段的選擇必然也是H，第三階段也同樣。39觸發(fā)策略：第一階段采用H，在第t階段，如果前t-1階段的結(jié)果都是(H，H)，則繼續(xù)采用H，否則采用L。博弈方2HL博弈方1H4，40，5L5，01，1削價(jià)競(jìng)爭(zhēng)博弈的無限次重復(fù)（續(xù)）依此類推，只要博弈方1采用前述觸發(fā)策略，那么博弈方2的最優(yōu)選擇始終是H。當(dāng)然，如果博弈方1偏離H，博弈方2也必須用L來報(bào)復(fù)。40觸發(fā)策略：第一階段采用H，在第t階段，如果前t-1階段的結(jié)果都是(H，H)，則繼續(xù)采用H，否則采用L。博弈方2HL博弈方1H4，40，5L5，01，1削價(jià)競(jìng)爭(zhēng)博弈的無限次重復(fù)（續(xù)）因此，博弈方2對(duì)博弈方1觸發(fā)策略的完整反應(yīng)策略是同樣的觸發(fā)策略。這就證明了雙方采用上述觸發(fā)策略是一個(gè)納什均衡。41觸發(fā)策略：第一階段采用H，在第t階段，如果前t-1階段的結(jié)果都是(H，H)，則繼續(xù)采用H，否則采用L。博弈方2HL博弈方1H4，40，5L5，01，1削價(jià)競(jìng)爭(zhēng)博弈的無限次重復(fù)（續(xù)）證明上述觸發(fā)策略組合構(gòu)成整個(gè)無限次重復(fù)博

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第63講：RepeatedGames(III)：以“囚徒困境博弈”為例

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第63講：RepeatedGames(III)：以“囚徒困境博弈”為例

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔