第四講重復(fù)博弈(下)_第1頁
第四講重復(fù)博弈(下)_第2頁
第四講重復(fù)博弈(下)_第3頁
第四講重復(fù)博弈(下)_第4頁
第四講重復(fù)博弈(下)_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第四講 重復(fù)博弈(下)一、有限次重復(fù)博弈一、有限次重復(fù)博弈(以(以two-stage repeated games為例)為例) 考慮曾經(jīng)給出的囚徒困境的標(biāo)準(zhǔn)式(回憶并考慮曾經(jīng)給出的囚徒困境的標(biāo)準(zhǔn)式(回憶并畫出支付矩陣)。畫出支付矩陣)。 假設(shè)兩個(gè)參與者要把這樣一個(gè)同時(shí)行動(dòng)博弈重假設(shè)兩個(gè)參與者要把這樣一個(gè)同時(shí)行動(dòng)博弈重復(fù)兩次,并且在第二次博弈開始之前可觀測(cè)第一復(fù)兩次,并且在第二次博弈開始之前可觀測(cè)第一次的結(jié)果。再假設(shè)整個(gè)過程博弈的收益等于兩階次的結(jié)果。再假設(shè)整個(gè)過程博弈的收益等于兩階段各自收益的簡(jiǎn)單相加(即不考慮貼現(xiàn)因素),段各自收益的簡(jiǎn)單相加(即不考慮貼現(xiàn)因素),我們稱這一重復(fù)進(jìn)行的博弈為兩階

2、段囚徒困境。我們稱這一重復(fù)進(jìn)行的博弈為兩階段囚徒困境。(一)階段博弈只有唯一(一)階段博弈只有唯一NE表2 囚徒困境博弈 乙 招 不招 招 甲 不招 (這樣一個(gè)博弈重復(fù)進(jìn)行2次) -5,-50,-8-8,0-1,-1而在兩階段囚徒困境中而在兩階段囚徒困境中,第二階段的第二階段的NE可以完全可以完全不依賴于第一階段的結(jié)果。不依賴于第一階段的結(jié)果。分析時(shí)要注意分析時(shí)要注意3點(diǎn):點(diǎn):1 逆推歸納法逆推歸納法backwards-induction 2 參與人在第二階段行動(dòng)只須考慮該階段的參與人在第二階段行動(dòng)只須考慮該階段的利益最大化,因?yàn)闊o須利益最大化,因?yàn)闊o須“瞻前顧后瞻前顧后”。 3 分析第一階段

3、時(shí),可把第二階段的均衡結(jié)分析第一階段時(shí),可把第二階段的均衡結(jié)果下的支付值疊加到第一階段的相應(yīng)支付值上。果下的支付值疊加到第一階段的相應(yīng)支付值上。表3 囚徒困境博弈 乙 招 不招 招 甲 不招 -10,-10-5,-13-13,0-6,-6Proposition If the stage game G has a unique Nash equilibrium then, for any finite T,the repeated game G(T) has a unique subgame- perfect outcome:the Nash equilibrium of G is played

4、 in every stage. (二二) 存在存在多個(gè)多個(gè)NENE的有限次重復(fù)博弈的有限次重復(fù)博弈 例例1:三價(jià)博弈:三價(jià)博弈 故事:兩生產(chǎn)同質(zhì)商品的寡頭。在兩故事:兩生產(chǎn)同質(zhì)商品的寡頭。在兩寡頭都是高價(jià)時(shí)市場(chǎng)總利潤(rùn)為寡頭都是高價(jià)時(shí)市場(chǎng)總利潤(rùn)為10,都是,都是中價(jià)時(shí)市場(chǎng)總利潤(rùn)為中價(jià)時(shí)市場(chǎng)總利潤(rùn)為6,都是低價(jià)時(shí)市場(chǎng),都是低價(jià)時(shí)市場(chǎng)總利潤(rùn)為總利潤(rùn)為2。兩寡頭同時(shí)決策,價(jià)格相同。兩寡頭同時(shí)決策,價(jià)格相同時(shí)分享利潤(rùn),否則低價(jià)者獨(dú)占。時(shí)分享利潤(rùn),否則低價(jià)者獨(dú)占。 三價(jià)博弈 5,5 0,6 0,2 6,0 3,3 0,2 2,0 2,0 1,1 H M LH ML 寡頭寡頭2寡頭寡頭1 存在兩個(gè)純策略納

5、什均衡(存在兩個(gè)純策略納什均衡(M,M)和和(L,L)(還有混合策略)。但顯然(還有混合策略)。但顯然(H,H)帕雷托效率最高。是否重復(fù))帕雷托效率最高。是否重復(fù)(兩次)進(jìn)行能夠?qū)崿F(xiàn)使效率改善?(兩次)進(jìn)行能夠?qū)崿F(xiàn)使效率改善?觸發(fā)策略觸發(fā)策略(trigger strategy) 一方的機(jī)會(huì)主義行為將觸發(fā)其他參與人策略一方的機(jī)會(huì)主義行為將觸發(fā)其他參與人策略中的懲罰機(jī)制發(fā)生。中的懲罰機(jī)制發(fā)生。我們把這種包含著獎(jiǎng)勵(lì)和懲我們把這種包含著獎(jiǎng)勵(lì)和懲罰機(jī)制的策略稱為觸發(fā)策略。正是由于害怕罰機(jī)制的策略稱為觸發(fā)策略。正是由于害怕“觸觸發(fā)發(fā)”其他參與人的懲罰機(jī)制,所以不敢利用機(jī)會(huì)其他參與人的懲罰機(jī)制,所以不敢利用

6、機(jī)會(huì)使自己在該階段利益最大化,從而使該階段的使自己在該階段利益最大化,從而使該階段的“合作合作”出現(xiàn)。從這個(gè)意義上看,觸發(fā)策略是出現(xiàn)。從這個(gè)意義上看,觸發(fā)策略是“溫柔的溫柔的”。觸發(fā)策略觸發(fā)策略(trigger strategy) 假設(shè)寡頭采取假設(shè)寡頭采取觸發(fā)策略觸發(fā)策略(trigger strategy),即開始選擇合作,如果對(duì)方也合),即開始選擇合作,如果對(duì)方也合作,就一直合作;但在博弈中一旦發(fā)現(xiàn)對(duì)方作,就一直合作;但在博弈中一旦發(fā)現(xiàn)對(duì)方不合作,就永遠(yuǎn)選擇報(bào)復(fù),不合作。不合作,就永遠(yuǎn)選擇報(bào)復(fù),不合作。 寡頭寡頭1,第一次選,第一次選H.如果第一次結(jié)果為如果第一次結(jié)果為(H,H), 則第二次

7、選則第二次選M;否則選否則選L. 寡頭寡頭2:同上。:同上。 子博弈精煉納什均衡結(jié)果是:第一階段子博弈精煉納什均衡結(jié)果是:第一階段(H,H),第二階段(第二階段(M,M)。)。 證明證明 第二階段(第二階段(M,M)是原博弈的納什)是原博弈的納什均衡,參與人的行為不會(huì)發(fā)生偏離。第均衡,參與人的行為不會(huì)發(fā)生偏離。第一階段(一階段(H,H)雖然不是原博弈的納什)雖然不是原博弈的納什均衡,單獨(dú)偏離為均衡,單獨(dú)偏離為M能增加能增加1單位支付,單位支付,但這樣做第二階段要損失但這樣做第二階段要損失2,因而不會(huì)偏,因而不會(huì)偏離(離(H,H)。 這就證明了該策略組合是子博弈完美的。從這這就證明了該策略組合是

8、子博弈完美的。從這條均衡路徑中看到:將來利益對(duì)當(dāng)前的選擇有條均衡路徑中看到:將來利益對(duì)當(dāng)前的選擇有約束。約束。這種策略有這種策略有2個(gè)特點(diǎn):個(gè)特點(diǎn):1、第一階段選、第一階段選H,試探合作。,試探合作。機(jī)會(huì)主義機(jī)會(huì)主義2、后續(xù)階段中包含著獎(jiǎng)勵(lì)和懲罰機(jī)制:選、后續(xù)階段中包含著獎(jiǎng)勵(lì)和懲罰機(jī)制:選M可可以獎(jiǎng)勵(lì)對(duì)方,選以獎(jiǎng)勵(lì)對(duì)方,選L可以懲罰對(duì)方。因?yàn)椋梢詰土P對(duì)方。因?yàn)椋∕,M)和(和(L,L)都是階段博弈的)都是階段博弈的NE,所以獎(jiǎng)勵(lì)和懲,所以獎(jiǎng)勵(lì)和懲罰都是可信的。罰都是可信的??紤]如下抽象博弈:考慮如下抽象博弈:參與人參與人2L M R P QLMRPQ參參與與人人11 , 1 5 , 0 0

9、, 0 0 , 0 0 , 00 , 5 4 , 4 0 , 0 0 , 0 0 , 00 , 0 0 , 0 3 , 3 0 , 0 0 , 00 , 0 0 , 0 0 , 0 4,1/2 0 , 00 , 0 0 , 0 0 , 0 0 , 0 1/2, 4 上面的例子因?yàn)殡A段博弈的上面的例子因?yàn)殡A段博弈的NE很豐富,且存在很豐富,且存在可供獎(jiǎng)勵(lì)和懲罰的可供獎(jiǎng)勵(lì)和懲罰的NE,所以雙方不僅可構(gòu)造觸,所以雙方不僅可構(gòu)造觸發(fā)策略,而且觸發(fā)策略是子博弈完美的(或者發(fā)策略,而且觸發(fā)策略是子博弈完美的(或者說觸發(fā)策略所包含的獎(jiǎng)勵(lì)和懲罰是可信的)。說觸發(fā)策略所包含的獎(jiǎng)勵(lì)和懲罰是可信的)。雙方的策略雙方

10、的策略均為:第一階段選擇均為:第一階段選擇M;如果第一階;如果第一階段的行動(dòng)組合是(段的行動(dòng)組合是(M,X)(或()(或(X,M),),X為除為除M之外的其它可選行動(dòng)),則第二階段選之外的其它可選行動(dòng)),則第二階段選P(Q),如果是除此之外的其它任何組合,則選,如果是除此之外的其它任何組合,則選R。第一階段的行動(dòng)組合是第一階段的行動(dòng)組合是(M,M),則第二階段的行動(dòng)組則第二階段的行動(dòng)組合將是合將是(R,R);第一階段的行動(dòng)組合是第一階段的行動(dòng)組合是(M,X)或或(X,M),則第二階段的行動(dòng)組合將是,則第二階段的行動(dòng)組合將是(P,P)或或(Q,Q);第第一階段的行動(dòng)組合為其它,則第二階段還是一階

11、段的行動(dòng)組合為其它,則第二階段還是(R,R)。三、無限次重復(fù)博弈三、無限次重復(fù)博弈 無限次重復(fù)博弈與有限次重復(fù)博弈的異同:無限次重復(fù)博弈與有限次重復(fù)博弈的異同:1、沒有最后一階段博弈;、沒有最后一階段博弈;2、不可忽略貼現(xiàn)問題、不可忽略貼現(xiàn)問題3、都可能通過懲罰來實(shí)現(xiàn)理想的均衡。、都可能通過懲罰來實(shí)現(xiàn)理想的均衡。 一、無限次重復(fù)的囚徒困境一、無限次重復(fù)的囚徒困境 以寡頭削價(jià)競(jìng)爭(zhēng)為例以寡頭削價(jià)競(jìng)爭(zhēng)為例 基本博弈的結(jié)果是(基本博弈的結(jié)果是(L,L)。)。 4,40,55,01,1 H L H L 寡頭寡頭1寡頭寡頭2引入貼現(xiàn)因子引入貼現(xiàn)因子, 若某個(gè)參與人在某一路若某個(gè)參與人在某一路徑的各個(gè)階段的

12、支付分別為:徑的各個(gè)階段的支付分別為: 1 、 2 、,則該參與人在該路徑的則該參與人在該路徑的“總支付總支付” 為為 無限序列無限序列1 、 2 、的現(xiàn)值之和,即:的現(xiàn)值之和,即: = 1+ 2 + 2 3 + = t-1 t t =1 ?01當(dāng)當(dāng) 0,行動(dòng)短視化,時(shí)間,行動(dòng)短視化,時(shí)間視野往往局限于本期、近期;視野往往局限于本期、近期;當(dāng)當(dāng) 1,參與人有遠(yuǎn)見,他充分意識(shí)到他,參與人有遠(yuǎn)見,他充分意識(shí)到他現(xiàn)期的行動(dòng)決策將通過其他參與人的反應(yīng)影響到現(xiàn)期的行動(dòng)決策將通過其他參與人的反應(yīng)影響到他未來的收益,因而試圖跨期協(xié)調(diào)其行動(dòng)決策。他未來的收益,因而試圖跨期協(xié)調(diào)其行動(dòng)決策。 前面已經(jīng)證明,有限次

13、重復(fù)不會(huì)改變結(jié)果。如前面已經(jīng)證明,有限次重復(fù)不會(huì)改變結(jié)果。如果是無限次,則在貼現(xiàn)因子較大的情況下(比果是無限次,則在貼現(xiàn)因子較大的情況下(比較重視長(zhǎng)期利益)可能實(shí)現(xiàn)合作。較重視長(zhǎng)期利益)可能實(shí)現(xiàn)合作。 觸發(fā)策略:第一階段采取觸發(fā)策略:第一階段采取H,在,在t階段,如果前階段,如果前t-1階段的結(jié)果都是(階段的結(jié)果都是(H,H),則繼續(xù)采用),則繼續(xù)采用H;一旦發(fā)現(xiàn)對(duì)方不合作(一旦發(fā)現(xiàn)對(duì)方不合作(L),則以后永遠(yuǎn)選擇),則以后永遠(yuǎn)選擇L報(bào)復(fù)。報(bào)復(fù)。 假設(shè)參與人假設(shè)參與人1已經(jīng)采用了觸發(fā)策略。已經(jīng)采用了觸發(fā)策略。 如果寡頭如果寡頭2 也選擇觸發(fā)策略,則總支付的現(xiàn)值也選擇觸發(fā)策略,則總支付的現(xiàn)值是:

14、是:2144*4*4.1 如果寡頭如果寡頭2不采取觸發(fā)策略,在第一階段采用不采取觸發(fā)策略,在第一階段采用L,因?yàn)?,因?yàn)榈诙A段起被報(bào)復(fù)只能采用第二階段起被報(bào)復(fù)只能采用L,因而支付為(因而支付為(5,1,1,.)。)。總支付的現(xiàn)值是:總支付的現(xiàn)值是: 因此,只要因此,只要 ,即,即 ,采用觸發(fā)策略對(duì)寡,采用觸發(fā)策略對(duì)寡頭頭2就是明智的。就是明智的。 由于寡頭由于寡頭1、2是對(duì)稱的,因而同樣可以證明觸發(fā)策略是對(duì)稱的,因而同樣可以證明觸發(fā)策略對(duì)寡頭對(duì)寡頭1也是明智的。也是明智的。 這樣,我們就證明了觸發(fā)策略是一個(gè)納什均衡。這樣,我們就證明了觸發(fā)策略是一個(gè)納什均衡。 225*1*1.51121/4 由

15、于博弈進(jìn)行無限次,從任何一個(gè)階段開始的由于博弈進(jìn)行無限次,從任何一個(gè)階段開始的子博弈都與這個(gè)博弈結(jié)構(gòu)相同,因而觸發(fā)促策子博弈都與這個(gè)博弈結(jié)構(gòu)相同,因而觸發(fā)促策略在任何一個(gè)子博弈上都是納什均衡。略在任何一個(gè)子博弈上都是納什均衡。 所以,觸發(fā)策略構(gòu)成該無限次重復(fù)博弈的子博所以,觸發(fā)策略構(gòu)成該無限次重復(fù)博弈的子博弈精煉納什均衡。弈精煉納什均衡。 啟發(fā):在博弈重復(fù)無限次,且參與人都有耐心啟發(fā):在博弈重復(fù)無限次,且參與人都有耐心的情況下,任何短期的機(jī)會(huì)主義行為的所得都的情況下,任何短期的機(jī)會(huì)主義行為的所得都是微不足道的,參與人有積極性為自己建立一是微不足道的,參與人有積極性為自己建立一個(gè)樂意合作的聲譽(yù),

16、同時(shí)也有積極性懲罰對(duì)方個(gè)樂意合作的聲譽(yù),同時(shí)也有積極性懲罰對(duì)方的機(jī)會(huì)主義行為。的機(jī)會(huì)主義行為。 無限次重復(fù)古諾模型 假定假定: ,邊際成本都為2。 在無限次重復(fù)古諾模型中,當(dāng)貼現(xiàn)率 滿足一定條件時(shí),兩廠商采用下列觸發(fā)策略構(gòu)成一個(gè)子博弈完美納什均衡: 在第一階段生產(chǎn)壟斷產(chǎn)量的一半1.5;在第 t 階段,如果前 t-1 階段結(jié)果都是(1.5,1.5),則繼續(xù)生產(chǎn)1.5,否則生產(chǎn)古諾產(chǎn)量2。 21,8qqQQP其中 設(shè)廠商1已采用該觸發(fā)策略,若廠商2也采用該觸發(fā)策略,則每期得益4.5,無限次重復(fù)博弈總得益的現(xiàn)值為: 如果廠商2偏離上述觸發(fā)策略,則他在第一階段所選產(chǎn)量應(yīng)為給定廠商1產(chǎn)量為1.5時(shí),自己的最大利潤(rùn)產(chǎn)量,即滿足: 解得 ,此時(shí)利潤(rùn)為5.0625

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論