版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Chapter 3 Repeated Games In this chapter we analyze whether threats and promises about future behavior can influence current behavior in repeated relationships. Much of the intuition is given in the two-period case; a few ideas require an infinite horizon.區(qū)分:區(qū)分:repeated games and sequential games張維迎
2、張維迎P207209Sequential game的特征的特征:參與人在前一階段的:參與人在前一階段的行動(dòng)選擇決定隨后的子博弈的結(jié)構(gòu),因此,從行動(dòng)選擇決定隨后的子博弈的結(jié)構(gòu),因此,從后一個(gè)決策結(jié)開始的子博弈不同于從前一個(gè)決后一個(gè)決策結(jié)開始的子博弈不同于從前一個(gè)決策結(jié)開始的子博弈,或者說,同樣結(jié)構(gòu)的子博策結(jié)開始的子博弈,或者說,同樣結(jié)構(gòu)的子博弈只出現(xiàn)一次。弈只出現(xiàn)一次。Repeated game,顧名思義,就是同樣結(jié)構(gòu)的,顧名思義,就是同樣結(jié)構(gòu)的博弈重復(fù)多次,其中每一次博弈稱為階段博博弈重復(fù)多次,其中每一次博弈稱為階段博弈弈Stage game(也稱為原博弈)。(也稱為原博弈)。 Repeate
3、d Game的基本特征有的基本特征有3項(xiàng):項(xiàng):1、階段博弈之間沒有、階段博弈之間沒有“物質(zhì)上物質(zhì)上”的聯(lián)系(的聯(lián)系(no Physical links),也就是說,前一階段博弈),也就是說,前一階段博弈不改變后一階段博弈的結(jié)構(gòu)(對(duì)比之下,序慣不改變后一階段博弈的結(jié)構(gòu)(對(duì)比之下,序慣博弈涉及到物質(zhì)上的聯(lián)系);博弈涉及到物質(zhì)上的聯(lián)系);、所有參與人都觀測(cè)到博弈過去的歷史;、所有參與人都觀測(cè)到博弈過去的歷史;、參與人的總支付是所有階段支付的貼現(xiàn)、參與人的總支付是所有階段支付的貼現(xiàn)值之和或加權(quán)平均值。值之和或加權(quán)平均值。:階段博弈本身可能是一個(gè)靜態(tài)博弈,:階段博弈本身可能是一個(gè)靜態(tài)博弈,也可能是一個(gè)動(dòng)
4、態(tài)博弈。因此重復(fù)博弈可能是也可能是一個(gè)動(dòng)態(tài)博弈。因此重復(fù)博弈可能是不完美信息博弈,也可能是完美信息博弈,盡不完美信息博弈,也可能是完美信息博弈,盡管博弈論專家談到重復(fù)博弈時(shí)一般是指前一種管博弈論專家談到重復(fù)博弈時(shí)一般是指前一種情況。情況。:分析重復(fù)博弈的意義因?yàn)槠渌麉⑴c人:分析重復(fù)博弈的意義因?yàn)槠渌麉⑴c人過去行動(dòng)的歷史是觀測(cè)得到的,一個(gè)參與人可以過去行動(dòng)的歷史是觀測(cè)得到的,一個(gè)參與人可以使自己在某個(gè)階段博弈的選擇依賴于其他參與人使自己在某個(gè)階段博弈的選擇依賴于其他參與人過去的行動(dòng)歷史,因此,參與人在重復(fù)博弈中的過去的行動(dòng)歷史,因此,參與人在重復(fù)博弈中的策略空間遠(yuǎn)遠(yuǎn)大于和復(fù)雜于每一個(gè)階段博弈的策
5、策略空間遠(yuǎn)遠(yuǎn)大于和復(fù)雜于每一個(gè)階段博弈的策略空間(試想囚徒困境博弈重復(fù)次,每個(gè)略空間(試想囚徒困境博弈重復(fù)次,每個(gè)囚徒的純策略數(shù)量會(huì)有多少?策略組合的數(shù)量會(huì)囚徒的純策略數(shù)量會(huì)有多少?策略組合的數(shù)量會(huì)更多)。這意味著,重復(fù)博弈可能帶來一些更多)。這意味著,重復(fù)博弈可能帶來一些“額額外的外的”均衡結(jié)果,這些結(jié)果在一次性博弈中是不均衡結(jié)果,這些結(jié)果在一次性博弈中是不會(huì)出現(xiàn)的。會(huì)出現(xiàn)的。影響重復(fù)博弈均衡結(jié)果的主要因素是重復(fù)影響重復(fù)博弈均衡結(jié)果的主要因素是重復(fù)博弈的次數(shù)和信息的完備性(博弈的次數(shù)和信息的完備性(completeness).重復(fù)次數(shù)的重要性來自于參與人在短期利益和重復(fù)次數(shù)的重要性來自于參與
6、人在短期利益和長(zhǎng)期利益之間的權(quán)衡。當(dāng)博弈只進(jìn)行一次,參長(zhǎng)期利益之間的權(quán)衡。當(dāng)博弈只進(jìn)行一次,參與人只關(guān)心一次性的支付;但如果博弈重復(fù)多與人只關(guān)心一次性的支付;但如果博弈重復(fù)多次,參與認(rèn)可能會(huì)為了長(zhǎng)遠(yuǎn)利益而犧牲眼前利次,參與認(rèn)可能會(huì)為了長(zhǎng)遠(yuǎn)利益而犧牲眼前利益從而選擇不同的均衡策略。這是重復(fù)博弈分益從而選擇不同的均衡策略。這是重復(fù)博弈分析給出的一個(gè)強(qiáng)有力的結(jié)果,它為現(xiàn)實(shí)中觀測(cè)析給出的一個(gè)強(qiáng)有力的結(jié)果,它為現(xiàn)實(shí)中觀測(cè)到的許多合作行為和社會(huì)規(guī)范提供了解釋。到的許多合作行為和社會(huì)規(guī)范提供了解釋。信息不完備的影響將在下一章討論,這里只討信息不完備的影響將在下一章討論,這里只討論重復(fù)次數(shù)對(duì)均衡結(jié)果的影響,并
7、假定信息是論重復(fù)次數(shù)對(duì)均衡結(jié)果的影響,并假定信息是完備的。完備的。一、有限次重復(fù)博弈一、有限次重復(fù)博弈(以(以two-stage repeated games為例)為例) 考慮曾經(jīng)給出的囚徒困境的標(biāo)準(zhǔn)式(回憶并考慮曾經(jīng)給出的囚徒困境的標(biāo)準(zhǔn)式(回憶并畫出支付矩陣)。畫出支付矩陣)。 假設(shè)兩個(gè)參與者要把這樣一個(gè)同時(shí)行動(dòng)博弈重假設(shè)兩個(gè)參與者要把這樣一個(gè)同時(shí)行動(dòng)博弈重復(fù)兩次,并且在第二次博弈開始之前可觀測(cè)第一復(fù)兩次,并且在第二次博弈開始之前可觀測(cè)第一次的結(jié)果。再假設(shè)整個(gè)過程博弈的收益等于兩階次的結(jié)果。再假設(shè)整個(gè)過程博弈的收益等于兩階段各自收益的簡(jiǎn)單相加(即不考慮貼現(xiàn)因素),段各自收益的簡(jiǎn)單相加(即不考
8、慮貼現(xiàn)因素),我們稱這一重復(fù)進(jìn)行的博弈為兩階段囚徒困境。我們稱這一重復(fù)進(jìn)行的博弈為兩階段囚徒困境。(一)階段博弈只有唯一(一)階段博弈只有唯一NE 回憶第二章第四節(jié)的回憶第二章第四節(jié)的“有同時(shí)選擇的兩階段動(dòng)有同時(shí)選擇的兩階段動(dòng)態(tài)博弈態(tài)博弈”。兩階段囚徒困境其實(shí)屬于這種類型博弈。無非這兩階段囚徒困境其實(shí)屬于這種類型博弈。無非這里的參與人里的參與人3、4與參與人與參與人1、2是相同的,行動(dòng)空是相同的,行動(dòng)空間間A3、A4 也與也與A1 、A2相同,并且總收益相同,并且總收益i(a1,a2, a3, a4)等于第一階段結(jié)果等于第一階段結(jié)果(a1,a2)的收益與)的收益與第二階段結(jié)果第二階段結(jié)果 (a
9、3, a4)的收益簡(jiǎn)單相加。的收益簡(jiǎn)單相加。在在“有同時(shí)選擇的兩階段動(dòng)態(tài)博弈有同時(shí)選擇的兩階段動(dòng)態(tài)博弈”中第二階中第二階段參與人段參與人3和和4的穩(wěn)定行動(dòng)依賴于第一階段的可的穩(wěn)定行動(dòng)依賴于第一階段的可行結(jié)果行結(jié)果(a1,a2),表示為,表示為(a3*(a1,a2), a4*(a1,a2),而,而不是簡(jiǎn)單的不是簡(jiǎn)單的(a3*, a4*)(關(guān)稅博弈中第二階段企業(yè)的關(guān)稅博弈中第二階段企業(yè)的均衡產(chǎn)量依賴于政府第一階段所選擇的關(guān)稅)均衡產(chǎn)量依賴于政府第一階段所選擇的關(guān)稅).而在兩階段囚徒困境中而在兩階段囚徒困境中,第二階段的第二階段的NE可以完全可以完全不依賴于第一階段的結(jié)果。不依賴于第一階段的結(jié)果。分
10、析時(shí)要注意分析時(shí)要注意3點(diǎn):點(diǎn):1 逆推歸納法逆推歸納法backwards-induction 2 參與人在第二階段行動(dòng)只須考慮該階段的參與人在第二階段行動(dòng)只須考慮該階段的利益最大化,因?yàn)闊o須利益最大化,因?yàn)闊o須“瞻前顧后瞻前顧后”。 3 分析第一階段時(shí),可把第二階段的均衡結(jié)分析第一階段時(shí),可把第二階段的均衡結(jié)果下的支付值疊加到第一階段的相應(yīng)支付值上。果下的支付值疊加到第一階段的相應(yīng)支付值上。下面給出有限次重復(fù)博弈的定義下面給出有限次重復(fù)博弈的定義Definition Given a stage game G,let G(T)(T)denote the finitely repeated ga
11、me in which G is played T times, with the outcomes of all preceding plays observed before the next play begins. The payoffs for G(T) are simply the sum of the payoffs from the T stage games. 該例子中階段博弈有唯一的該例子中階段博弈有唯一的NE,而且是一個(gè)帕,而且是一個(gè)帕累托次優(yōu)的結(jié)果(累托次優(yōu)的結(jié)果(-5,-5),如果(),如果(-1,-1)能出現(xiàn),那是一個(gè)合作的結(jié)果。討論重復(fù)博弈就能出現(xiàn),那是一個(gè)合作的
12、結(jié)果。討論重復(fù)博弈就是想探尋合作的結(jié)果能否內(nèi)生是想探尋合作的結(jié)果能否內(nèi)生(endogenesis) .有限次有限次“囚徒困境囚徒困境”博弈的博弈的NE再一次表明了為什么再一次表明了為什么會(huì)爆發(fā)價(jià)格戰(zhàn)。試想兩博弈方不是囚徒而是兩個(gè)會(huì)爆發(fā)價(jià)格戰(zhàn)。試想兩博弈方不是囚徒而是兩個(gè)大公司,比如可口可樂公司和百事可樂公司、或大公司,比如可口可樂公司和百事可樂公司、或者是聯(lián)合利華公司和寶潔公司,如果擺在這些公者是聯(lián)合利華公司和寶潔公司,如果擺在這些公司面前的是兩種拓展市場(chǎng)份額策略的選擇:保持司面前的是兩種拓展市場(chǎng)份額策略的選擇:保持原價(jià)或降低價(jià)格,原價(jià)或降低價(jià)格,“囚徒困境囚徒困境”博弈告訴我們這些博弈告訴我
13、們這些公司會(huì)降低價(jià)格并不斷重復(fù)下去。這個(gè)結(jié)論是令公司會(huì)降低價(jià)格并不斷重復(fù)下去。這個(gè)結(jié)論是令人沮喪的。但實(shí)際情況并非完全如此。那么在什人沮喪的。但實(shí)際情況并非完全如此。那么在什么情況下,它們會(huì)合作呢?么情況下,它們會(huì)合作呢?羅伯特羅伯特.艾克斯勞德在著作艾克斯勞德在著作合作的演進(jìn)合作的演進(jìn)一書一書中描述了一個(gè)計(jì)算機(jī)的競(jìng)賽:選擇中描述了一個(gè)計(jì)算機(jī)的競(jìng)賽:選擇14種策略在種策略在200次次“囚徒困境囚徒困境”的博弈中與對(duì)方爭(zhēng)斗。計(jì)算機(jī)的博弈中與對(duì)方爭(zhēng)斗。計(jì)算機(jī)中的競(jìng)賽結(jié)果表明,合作是可以出現(xiàn)的,即使中的競(jìng)賽結(jié)果表明,合作是可以出現(xiàn)的,即使競(jìng)爭(zhēng)雙方是理性的、自私的。這個(gè)勝出的策略競(jìng)爭(zhēng)雙方是理性的、自私
14、的。這個(gè)勝出的策略就是就是“觸發(fā)策略觸發(fā)策略”(“針鋒相對(duì)針鋒相對(duì)”策略),這一策策略),這一策略著眼于合作,從合作出發(fā)而不是相互背叛。略著眼于合作,從合作出發(fā)而不是相互背叛。幾輪博弈之后,各方的策略就會(huì)明朗起來,互幾輪博弈之后,各方的策略就會(huì)明朗起來,互為對(duì)方所知曉和理解。為對(duì)方所知曉和理解。合作的出現(xiàn)有賴于兩點(diǎn):一是采取合作的出現(xiàn)有賴于兩點(diǎn):一是采取“觸發(fā)策略觸發(fā)策略”,二是博弈重復(fù)二是博弈重復(fù)“200次次”足夠多次以至于可視足夠多次以至于可視為是無限次。為是無限次。Proposition If the stage game G has a unique Nash equilibrium
15、then, for any finite T,the repeated game G(T) has a unique subgame- perfect outcome:the Nash equilibrium of G is played in every stage. 注注 注:在階段博弈注:在階段博弈G為完全且完美信息動(dòng)態(tài)博弈為完全且完美信息動(dòng)態(tài)博弈時(shí)類似的結(jié)論同樣成立。設(shè)時(shí)類似的結(jié)論同樣成立。設(shè)G屬于第三章所定義屬于第三章所定義的完全且完美信息動(dòng)態(tài)博弈,如果的完全且完美信息動(dòng)態(tài)博弈,如果G有唯一的逆有唯一的逆推歸納解,則推歸納解,則G(T)有唯一的子博弈完美有唯一的子博弈完美NE:其:其
16、中每一階段的結(jié)果都是中每一階段的結(jié)果都是G的逆推歸納解。類似的,的逆推歸納解。類似的,設(shè)設(shè)G為第三章所定義的有同時(shí)選擇的兩階段動(dòng)態(tài)為第三章所定義的有同時(shí)選擇的兩階段動(dòng)態(tài)博弈,如果博弈,如果G有唯一的子博弈有唯一的子博弈NE,則,則G(T)也有唯也有唯一的子博弈完美一的子博弈完美NE:G的子博弈完美的子博弈完美NE重復(fù)進(jìn)重復(fù)進(jìn)行行T次。次。 當(dāng)然,上述結(jié)論對(duì)于階段博弈當(dāng)然,上述結(jié)論對(duì)于階段博弈G有兩個(gè)及兩個(gè)有兩個(gè)及兩個(gè)以上以上 NE(或子博弈完美(或子博弈完美NE)的)的G(T)就不成立了。就不成立了。這種這種G(T)有多條子博弈完美有多條子博弈完美NE路徑。其中可能路徑。其中可能包含第一階段有
17、合作結(jié)果的穩(wěn)定路徑。包含第一階段有合作結(jié)果的穩(wěn)定路徑。(二)階段博弈存在兩個(gè)以上(二)階段博弈存在兩個(gè)以上NE市場(chǎng)開發(fā)博弈。市場(chǎng)開發(fā)博弈。P111借此了解重復(fù)博弈均衡路徑、及其效率比較。借此了解重復(fù)博弈均衡路徑、及其效率比較。*該該G重復(fù)兩次構(gòu)成一個(gè)兩階段的重復(fù)博弈,那么重復(fù)兩次構(gòu)成一個(gè)兩階段的重復(fù)博弈,那么可形成多少條路徑?可形成多少條路徑?如果不考慮混合策略,如果不考慮混合策略,16條。條。其中子博弈完美其中子博弈完美NE路徑有哪些?路徑有哪些?從前述的例子中已知,階段博弈的從前述的例子中已知,階段博弈的NE在每個(gè)階在每個(gè)階段的重復(fù)或交替構(gòu)成子博弈完美段的重復(fù)或交替構(gòu)成子博弈完美NE。那么
18、不考。那么不考慮混合策略慮混合策略NE情況下,有情況下,有4條。條。這這4條均衡路徑及其支付是:條均衡路徑及其支付是:行動(dòng)組合行動(dòng)組合支付向量支付向量Stage 1Stage 2總支付總支付平均支付平均支付(A,B)(B,A)(A,B)(B,A)(A,B)(B,A)(2,8)(1,4)(5,5) (2.5,2.5)(5,5)(2.5,2.5)(8,2)(4,1)路徑的支付采用平均支付與采用總支付相比的路徑的支付采用平均支付與采用總支付相比的優(yōu)點(diǎn):平均支付可以與階段博弈的支付相比較。優(yōu)點(diǎn):平均支付可以與階段博弈的支付相比較。0甲的平均支付甲的平均支付乙乙的的平平均均支支付付1231234(1,1
19、)(4,1)(1,4)(3,3)(2.5,2.5)(2.67,2.67)*該博弈如果重復(fù)三次構(gòu)成一個(gè)三階段的重復(fù)該博弈如果重復(fù)三次構(gòu)成一個(gè)三階段的重復(fù)博弈,由每階段都重復(fù)或交替階段博弈的純策博弈,由每階段都重復(fù)或交替階段博弈的純策略略NE,那么子博弈完美,那么子博弈完美NE路徑有幾條?路徑有幾條?8條。它們的效率如何?條。它們的效率如何?同兩階段重復(fù)博弈。同兩階段重復(fù)博弈。除此之外已找不到另外的效率更高的均衡路徑。除此之外已找不到另外的效率更高的均衡路徑。但可找到另外一條效率更高均衡路徑??紤]但可找到另外一條效率更高均衡路徑??紤]如下面的策略組合:如下面的策略組合:甲:第一階段開發(fā)甲:第一階段
20、開發(fā)A市場(chǎng);第二階段視第一階段市場(chǎng);第二階段視第一階段 的結(jié)果而定的結(jié)果而定如果結(jié)果是(如果結(jié)果是(A,A),則選),則選 A,如果是(,如果是(A,B),則選),則選B;第三階段無;第三階段無 條件選條件選B。乙:第一階段開發(fā)乙:第一階段開發(fā)A;第二階段開發(fā);第二階段開發(fā)B;第三階;第三階 段根據(jù)第一階段的結(jié)果而定段根據(jù)第一階段的結(jié)果而定如果第一階段如果第一階段 結(jié)果是(結(jié)果是(A,A),則選),則選A,否則選,否則選B。1、策略中都包含有條件的選擇。、策略中都包含有條件的選擇。2、策略是一個(gè)完整的行動(dòng)方案。、策略是一個(gè)完整的行動(dòng)方案。問題:該策略組合對(duì)應(yīng)的路徑是什么?問題:該策略組合對(duì)應(yīng)的
21、路徑是什么?對(duì)應(yīng)的路徑:對(duì)應(yīng)的路徑:(A,A)(A,B)(B,A)該路徑的平均支付向量:該路徑的平均支付向量: (2.67 , 2.67)這條路徑比其它這條路徑比其它8條的效率都更高。是否均衡?條的效率都更高。是否均衡?這條路徑的第三階段行動(dòng)組合(這條路徑的第三階段行動(dòng)組合(B,A)和第二)和第二階段行動(dòng)組合(階段行動(dòng)組合(A,B),本身都是階段博弈的),本身都是階段博弈的NE,雙方都不會(huì)偏離。因此只要看第一階段的,雙方都不會(huì)偏離。因此只要看第一階段的行動(dòng)組合(行動(dòng)組合(A,A)是否有會(huì)偏離。)是否有會(huì)偏離。驗(yàn)證:驗(yàn)證:(3+4+1)/3=2.67(4+1+1)/3=2不偏離的平均支付不偏離的
22、平均支付= 偏離的平均支付偏離的平均支付=-3#這就證明了該策略組合是子博弈完美的。從這這就證明了該策略組合是子博弈完美的。從這條均衡路徑中看到:將來利益對(duì)當(dāng)前的選擇有條均衡路徑中看到:將來利益對(duì)當(dāng)前的選擇有約束。約束。這種策略有這種策略有2個(gè)特點(diǎn):個(gè)特點(diǎn):1、第一階段選、第一階段選A,試探合作。,試探合作。機(jī)會(huì)主義機(jī)會(huì)主義2、后續(xù)階段中包含著獎(jiǎng)勵(lì)和懲罰機(jī)制:選、后續(xù)階段中包含著獎(jiǎng)勵(lì)和懲罰機(jī)制:選A可可以獎(jiǎng)勵(lì)對(duì)方,選以獎(jiǎng)勵(lì)對(duì)方,選B可以懲罰對(duì)方。因?yàn)椋梢詰土P對(duì)方。因?yàn)椋ˋ,B)和(和(B,A)都是階段博弈的)都是階段博弈的NE,所以獎(jiǎng)勵(lì)和懲,所以獎(jiǎng)勵(lì)和懲罰都是可信的。罰都是可信的。一方的機(jī)會(huì)
23、主義行為將觸發(fā)其他參與人策略中一方的機(jī)會(huì)主義行為將觸發(fā)其他參與人策略中的懲罰機(jī)制發(fā)生。的懲罰機(jī)制發(fā)生。觸發(fā)策略觸發(fā)策略(Trigger strategies):我們把這種包含我們把這種包含著獎(jiǎng)勵(lì)和懲罰機(jī)制的策略稱為觸發(fā)策略。正是著獎(jiǎng)勵(lì)和懲罰機(jī)制的策略稱為觸發(fā)策略。正是由于害怕由于害怕“觸發(fā)觸發(fā)”其他參與人的懲罰機(jī)制,所以其他參與人的懲罰機(jī)制,所以不敢利用機(jī)會(huì)使自己在該階段利益最大化,從不敢利用機(jī)會(huì)使自己在該階段利益最大化,從而使該階段的而使該階段的“合作合作”出現(xiàn)。從這個(gè)意義上看,出現(xiàn)。從這個(gè)意義上看,觸發(fā)策略是觸發(fā)策略是“溫柔的溫柔的”。該階段博弈如果只有兩個(gè)階段,則無法構(gòu)造該階段博弈如果只
24、有兩個(gè)階段,則無法構(gòu)造觸發(fā)策略觸發(fā)策略(不存在觸發(fā)策略不存在觸發(fā)策略)??紤]如下抽象博弈:考慮如下抽象博弈:參與人參與人2L M R P QLMRPQ參參與與人人11 , 1 5 , 0 0 , 0 0 , 0 0 , 00 , 5 4 , 4 0 , 0 0 , 0 0 , 00 , 0 0 , 0 3 , 3 0 , 0 0 , 00 , 0 0 , 0 0 , 0 4,1/2 0 , 00 , 0 0 , 0 0 , 0 0 , 0 1/2, 4 上面的例子因?yàn)殡A段博弈的上面的例子因?yàn)殡A段博弈的NE很豐富,且存在很豐富,且存在可供獎(jiǎng)勵(lì)和懲罰的可供獎(jiǎng)勵(lì)和懲罰的NE,所以雙方不僅可構(gòu)造觸,所
25、以雙方不僅可構(gòu)造觸發(fā)策略,而且觸發(fā)策略是子博弈完美的(或者發(fā)策略,而且觸發(fā)策略是子博弈完美的(或者說觸發(fā)策略所包含的獎(jiǎng)勵(lì)和懲罰是可信的)。說觸發(fā)策略所包含的獎(jiǎng)勵(lì)和懲罰是可信的)。雙方的策略雙方的策略均為:第一階段選擇均為:第一階段選擇M;如果第一階;如果第一階段的行動(dòng)組合是(段的行動(dòng)組合是(M,X)(或()(或(X,M),),X為除為除M之外的其它可選行動(dòng)),則第二階段選之外的其它可選行動(dòng)),則第二階段選P(Q),如果是除此之外的其它任何組合,則選,如果是除此之外的其它任何組合,則選R。第一階段的行動(dòng)組合是第一階段的行動(dòng)組合是(M,M),則第二階段的行動(dòng)組則第二階段的行動(dòng)組合將是合將是(R,R
26、);第一階段的行動(dòng)組合是第一階段的行動(dòng)組合是(M,X)或或(X,M),則第二階段的行動(dòng)組合將是,則第二階段的行動(dòng)組合將是(P,P)或或(Q,Q);第第一階段的行動(dòng)組合其它,則第二階段還是一階段的行動(dòng)組合其它,則第二階段還是(R,R)。 參與人參與人2 L M R P Q參參與與人人 1 L 4 , 4 5.5 , 4 3 , 3 3 , 3 3 , 3 M 4 ,5.5 7 , 7 4 ,0.5 4,0.5 4,0.5 R 3 , 3 0.5,4 6 , 6 3 , 3 3 , 3 P 3 , 3 0.5,4 3 , 3 7, 3.5 3 , 3 Q 3 , 3 0.5,4 3 , 3 3 ,
27、 3 3.5,7除了(除了(M,X)和()和(X,M)()(X=L、R、P、Q)的第二階段是(的第二階段是(P,P)或()或(Q,Q),其余的第二),其余的第二階段都是(階段都是(R,R)。由分析可知,其中()。由分析可知,其中(M,M)是是NE,它表示路徑(,它表示路徑(M,M)(R,R),),平均支付是(平均支付是(3.5,3.5).這條路徑的第一階段是合作的。這條路徑的第一階段是合作的。階段博弈存在多個(gè)階段博弈存在多個(gè)NE情況下,有限次重復(fù)博弈情況下,有限次重復(fù)博弈存在多條均衡路徑,其中觸發(fā)策略均衡(如果均存在多條均衡路徑,其中觸發(fā)策略均衡(如果均衡的話)的路徑效率更高。衡的話)的路徑效
28、率更高。案例:案例:美國(guó)美國(guó)Staten島上的報(bào)紙發(fā)行市場(chǎng)上有兩個(gè)主要島上的報(bào)紙發(fā)行市場(chǎng)上有兩個(gè)主要的競(jìng)爭(zhēng)對(duì)手:的競(jìng)爭(zhēng)對(duì)手:紐約郵報(bào)紐約郵報(bào)和和每日新聞每日新聞。1994年,年,紐約郵報(bào)紐約郵報(bào)所屬公司所屬公司Rubert Murdoch將郵報(bào)的價(jià)格從將郵報(bào)的價(jià)格從40美分提高到美分提高到50美分,美分,這時(shí)這時(shí)每日新聞每日新聞沒有跟著提價(jià)。在將沒有跟著提價(jià)。在將紐約紐約郵報(bào)郵報(bào)的價(jià)格降回到的價(jià)格降回到40美分之后,對(duì)方還是沒美分之后,對(duì)方還是沒有作出反應(yīng),于是有作出反應(yīng),于是Rubert Murdoch公司宣布有公司宣布有意向?qū)r(jià)格再降到意向?qū)r(jià)格再降到25美分,但對(duì)方仍然沒有做美分,但對(duì)方
29、仍然沒有做出響應(yīng)。接著出響應(yīng)。接著Rubert Murdoch公司果然將郵報(bào)公司果然將郵報(bào)在這個(gè)島嶼上的發(fā)行價(jià)格降到在這個(gè)島嶼上的發(fā)行價(jià)格降到25美分。此時(shí),美分。此時(shí),每日新聞終于明白了紐約郵報(bào)的意圖,每日新聞終于明白了紐約郵報(bào)的意圖,將價(jià)格提高到將價(jià)格提高到50每分。不久,每分。不久,Rubert Murdoch公司也將價(jià)格重新提高至公司也將價(jià)格重新提高至50美分。美分。紐約郵報(bào)的策略是友好的,因?yàn)樗婚_始紐約郵報(bào)的策略是友好的,因?yàn)樗婚_始就提高價(jià)格;同時(shí)也是挑釁的,在每日新聞就提高價(jià)格;同時(shí)也是挑釁的,在每日新聞沒有跟著提價(jià)時(shí),它又將價(jià)格降低;這一策略沒有跟著提價(jià)時(shí),它又將價(jià)格降低;這
30、一策略同樣具有寬恕性,當(dāng)每日新聞將價(jià)格提高同樣具有寬恕性,當(dāng)每日新聞將價(jià)格提高到到50美分后,也重新將價(jià)格提高;這一策略也美分后,也重新將價(jià)格提高;這一策略也是明了的,紐約郵報(bào)的意圖對(duì)每日新聞是明了的,紐約郵報(bào)的意圖對(duì)每日新聞來說經(jīng)過了兩個(gè)回合就變得顯而易見。由于來說經(jīng)過了兩個(gè)回合就變得顯而易見。由于“觸觸發(fā)策略發(fā)策略”的運(yùn)用,在這場(chǎng)的運(yùn)用,在這場(chǎng)“囚徒困境囚徒困境”式的價(jià)格博式的價(jià)格博弈中出現(xiàn)了合作雙贏的局面。弈中出現(xiàn)了合作雙贏的局面。Murdoch公司的做法和公司的做法和“觸發(fā)策略觸發(fā)策略”的益處在事后的益處在事后看來更加明顯。看來更加明顯。Murdoch公司的成功是因?yàn)樗乒镜某晒κ且?/p>
31、為它掌握了博弈論的重要原則:你要了解競(jìng)爭(zhēng)對(duì)手,也握了博弈論的重要原則:你要了解競(jìng)爭(zhēng)對(duì)手,也讓競(jìng)爭(zhēng)對(duì)手了解你。因此,如果公司的策略為競(jìng)讓競(jìng)爭(zhēng)對(duì)手了解你。因此,如果公司的策略為競(jìng)爭(zhēng)對(duì)手所明白,并且應(yīng)向競(jìng)爭(zhēng)對(duì)手清楚地表明公爭(zhēng)對(duì)手所明白,并且應(yīng)向競(jìng)爭(zhēng)對(duì)手清楚地表明公司準(zhǔn)備合作,但對(duì)背叛行為將采取以牙還牙的報(bào)司準(zhǔn)備合作,但對(duì)背叛行為將采取以牙還牙的報(bào)復(fù)行動(dòng),那么公司最終將贏得競(jìng)爭(zhēng),而競(jìng)爭(zhēng)對(duì)手復(fù)行動(dòng),那么公司最終將贏得競(jìng)爭(zhēng),而競(jìng)爭(zhēng)對(duì)手通過合作也將大有收獲。通過合作也將大有收獲。二、無限次重復(fù)博弈二、無限次重復(fù)博弈對(duì)無限次重復(fù)博弈來說,即使階段博弈只有對(duì)無限次重復(fù)博弈來說,即使階段博弈只有唯一的純策略唯一的
32、純策略NE(P121 腳注),也存在一條腳注),也存在一條效率更高的子博弈完美效率更高的子博弈完美NE路徑,路徑上每一路徑,路徑上每一個(gè)階段的行動(dòng)組合都不是階段博弈的個(gè)階段的行動(dòng)組合都不是階段博弈的NE,而,而是合作的行動(dòng)組合。是合作的行動(dòng)組合。(一)無限次重復(fù)囚徒困境的博弈(一)無限次重復(fù)囚徒困境的博弈畫出囚徒困境的階段博弈;設(shè)想無限次重復(fù)畫出囚徒困境的階段博弈;設(shè)想無限次重復(fù)時(shí)的所有路徑、均衡路徑。時(shí)的所有路徑、均衡路徑。路徑的支付怎么計(jì)算?路徑的支付怎么計(jì)算?引入貼現(xiàn)因子引入貼現(xiàn)因子, 若某個(gè)參與人在某一路若某個(gè)參與人在某一路徑的各個(gè)階段的支付分別為:徑的各個(gè)階段的支付分別為: 1 、
33、2 、,則該參與人在該路徑的則該參與人在該路徑的“總支付總支付” 為為 無限序列無限序列1 、 2 、的現(xiàn)值之和,即:的現(xiàn)值之和,即: = 1+ 2 + 2 3 + = t-1 t t =1 ?01當(dāng)當(dāng) 0,行動(dòng)短視化,時(shí)間,行動(dòng)短視化,時(shí)間視野往往局限于本期、近期;視野往往局限于本期、近期;當(dāng)當(dāng) 1,參與人有遠(yuǎn)見,他充分意識(shí)到他,參與人有遠(yuǎn)見,他充分意識(shí)到他現(xiàn)期的行動(dòng)決策將通過其他參與人的反應(yīng)影響到現(xiàn)期的行動(dòng)決策將通過其他參與人的反應(yīng)影響到他未來的收益,因而試圖跨期協(xié)調(diào)其行動(dòng)決策。他未來的收益,因而試圖跨期協(xié)調(diào)其行動(dòng)決策。無限次重復(fù)博弈及其支付的定義:無限次重復(fù)博弈及其支付的定義:Defin
34、ition Given a stage game G, let G(,) denote the infinitely repeated game in which G is repeated forever and the players share the discount factor . For each t , the outcomes of the t - 1 preceding plays of the stage game are observed before the tth stage begins. Each players payoff in the G(,) is th
35、e present value of the players payoffs from the infinite sequence of stage games.現(xiàn)在分析無限次重復(fù)囚徒困境博弈。我們將證明現(xiàn)在分析無限次重復(fù)囚徒困境博弈。我們將證明盡管階段博弈中唯一的盡管階段博弈中唯一的NE是不合作的是不合作的(招認(rèn),招認(rèn),招認(rèn)招認(rèn)),在有限次重復(fù)時(shí),唯一的子博弈完美,在有限次重復(fù)時(shí),唯一的子博弈完美NE還是在每個(gè)階段都還是在每個(gè)階段都(招認(rèn),招認(rèn)招認(rèn),招認(rèn)),可是在無限次,可是在無限次重復(fù)(在可預(yù)見的將來不會(huì)結(jié)束)進(jìn)行的情況下,重復(fù)(在可預(yù)見的將來不會(huì)結(jié)束)進(jìn)行的情況下,只要參與人有足夠的內(nèi)心
36、只要參與人有足夠的內(nèi)心(即即足夠接近足夠接近1),每個(gè),每個(gè)階段的行動(dòng)組合為階段的行動(dòng)組合為(沉默,沉默沉默,沉默) 將形成一條子博將形成一條子博弈完美弈完美NE的路徑。的路徑??紤]參與人的觸發(fā)策略:考慮參與人的觸發(fā)策略:P123注意:參與人制訂了一個(gè)關(guān)于未來的無所不包注意:參與人制訂了一個(gè)關(guān)于未來的無所不包的行動(dòng)計(jì)劃,即一次性地選擇了函數(shù)形式的行動(dòng)計(jì)劃,即一次性地選擇了函數(shù)形式si()作作為為 應(yīng)對(duì)策略,而不是一期只作出依次行動(dòng)選擇。應(yīng)對(duì)策略,而不是一期只作出依次行動(dòng)選擇。序列序列5,1,1,的現(xiàn)值之和:的現(xiàn)值之和:5 + 1 + 21 + 31 + = 5 + / (1 )沉默的現(xiàn)值沉默的
37、現(xiàn)值4 / (1 - )招認(rèn)的現(xiàn)值招認(rèn)的現(xiàn)值5 + / (1 ) 1/4這說明,當(dāng)且僅當(dāng)這說明,當(dāng)且僅當(dāng) 1/4,給定對(duì)方的觸發(fā)策,給定對(duì)方的觸發(fā)策略并且對(duì)方?jīng)]有首先選擇招認(rèn),自己也不會(huì)首略并且對(duì)方?jīng)]有首先選擇招認(rèn),自己也不會(huì)首先招認(rèn)。先招認(rèn)。(二)民間定理(二)民間定理(無名氏定理無名氏定理)P125 “民間定理民間定理”第一段。第一段。先明確兩個(gè)關(guān)于支付的概念。先明確兩個(gè)關(guān)于支付的概念。平均支付平均支付average payoff:在無限次重復(fù)博弈中,:在無限次重復(fù)博弈中,平均支付指為了得到相等的支付現(xiàn)值之和而在每平均支付指為了得到相等的支付現(xiàn)值之和而在每一階段都應(yīng)得到的等額支付值。計(jì)算:
38、一階段都應(yīng)得到的等額支付值。計(jì)算:令貼現(xiàn)因子為令貼現(xiàn)因子為,那么無限支付序列,那么無限支付序列1 、 2 、的現(xiàn)值之和的現(xiàn)值之和V為:為:V= t-1 t t =1無限支付序列無限支付序列、 、的現(xiàn)值之和的現(xiàn)值之和V為:為:V= + + 2 + = / (1- )如果下式成立:如果下式成立: t-1 tt =1= / (1- )即:即: = (1- ) t-1 tt =1那么,那么, 就是無限支付序列就是無限支付序列1 、 2 、的的平均支付,它是各階段支付現(xiàn)值之和的平均支付,它是各階段支付現(xiàn)值之和的 (1- )倍。倍。 可行支付向量可行支付向量feasible payoffs:支付數(shù)組支付數(shù)
39、組x=(x1,x2 、xn)稱為可行支付向量,如果它是階段稱為可行支付向量,如果它是階段博弈博弈G的純策略支付的凸組合的純策略支付的凸組合(concave combination)(即即xi是階段博弈中參與人是階段博弈中參與人i的純策的純策略支付的加權(quán)平均值,權(quán)數(shù)非負(fù)且和為略支付的加權(quán)平均值,權(quán)數(shù)非負(fù)且和為1)。可行支付向量。以可行支付向量。以“囚徒困境囚徒困境”為例為例一個(gè)可行支付向量對(duì)應(yīng)重復(fù)博弈的一條路徑。一個(gè)可行支付向量對(duì)應(yīng)重復(fù)博弈的一條路徑。0囚徒囚徒1的支付值的支付值囚囚徒徒2的的支支付付值值1234512345(1,1)(4,4)(5,0)(0,5)陰影面積中的任意一個(gè)坐標(biāo)陰影面積
40、中的任意一個(gè)坐標(biāo)點(diǎn)都是一個(gè)可行支付向量。點(diǎn)都是一個(gè)可行支付向量。哪些對(duì)應(yīng)著均衡路徑?哪些對(duì)應(yīng)著均衡路徑?Folk Theorem(Friedman 1971) Let G be a finite ,static game of complete information.Let(e1,e2, ,en)denote the payoffs from a Nash equilibrium of G, and let (x1,x2 、xn) denote any other feasible payoffs from G. If xi ei for every player i and if is sufficiently close to 1, then there exists a subgame-perfect Nash equilibrium of the infinitely repeated game G(, ) that achieves (x1,x2 、xn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版電子競(jìng)技賽事贊助與直播服務(wù)合同4篇
- 2025版智慧農(nóng)業(yè)用地租賃管理合同模板4篇
- 二手房資金監(jiān)管服務(wù)規(guī)范化合同2024版
- 二零二五年度戶外廣告宣傳推廣合同
- 2025年度男女雙方協(xié)議離婚后的財(cái)產(chǎn)分配及子女監(jiān)護(hù)合同3篇
- 2025年度面包烘焙品牌跨界合作訂購(gòu)合同4篇
- 二零二五年度農(nóng)藥行業(yè)數(shù)據(jù)分析與研究報(bào)告合同
- 二零二五年度影視行業(yè)演員形象代言合同保密條款范本3篇
- 2025年度跨境電商企業(yè)出口貸款合同范本2篇
- 【地理】地圖的選擇和應(yīng)用(分層練) 2024-2025學(xué)年七年級(jí)地理上冊(cè)同步備課系列(人教版)
- (正式版)CB∕T 4552-2024 船舶行業(yè)企業(yè)安全生產(chǎn)文件編制和管理規(guī)定
- JBT 14588-2023 激光加工鏡頭 (正式版)
- 2024年四川省成都市樹德實(shí)驗(yàn)中學(xué)物理八年級(jí)下冊(cè)期末質(zhì)量檢測(cè)試題含解析
- 九型人格與領(lǐng)導(dǎo)力講義
- 廉潔應(yīng)征承諾書
- 2023年四川省成都市中考物理試卷真題(含答案)
- 泵車述職報(bào)告
- 2024年山西文旅集團(tuán)招聘筆試參考題庫(kù)含答案解析
- 恢復(fù)中華人民共和國(guó)國(guó)籍申請(qǐng)表
- 管理期貨的趨勢(shì)跟蹤策略 尋找危機(jī)阿爾法
評(píng)論
0/150
提交評(píng)論