重復(fù)博弈(研)_第1頁
重復(fù)博弈(研)_第2頁
重復(fù)博弈(研)_第3頁
重復(fù)博弈(研)_第4頁
重復(fù)博弈(研)_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、博弈論與信息經(jīng)濟(jì)學(xué) (Game Theory and Information Economics)第4章:重復(fù)博弈Chapter 4: Repeated Game11 基本博弈(回顧)囚徒困境是這樣一個博弈:每個參與人有一個占優(yōu)策略,但是,當(dāng)所有參與人使用他們這一占優(yōu)策略時,所產(chǎn)生的均衡對于每個人的結(jié)果,比他們都使用劣策略反而還要差。囚徒困境博弈-8,-80,-10-10,0-1,-1囚徒 A坦白抵賴坦白抵賴囚徒 B本章考慮囚徒困境中的參與人是否以及如何獲得和保持對他們都有利的合作結(jié)果,克服為了自身利益而背叛的個人激勵。21 基本博弈(回顧)-8,-80,-10-10,0-1,-1囚徒 A坦白

2、抵賴坦白抵賴囚徒 B在任何一個囚徒困境中,都會有合作策略和欺騙或背叛策略。囚徒困境博弈(回顧) “抵賴”合作策略(雙方獲得最佳結(jié)果)“坦白”欺騙策略(犧牲對方利益換取自己利益)囚徒困境能否以及如何解決,問題的實質(zhì)在于通過非合作(個人)的行動去實現(xiàn)合作(共同偏好)的結(jié)果。31 基本博弈(回顧) 解法1:重復(fù)參與人之間重復(fù)和持續(xù)的關(guān)系是博弈的特征。重復(fù)博弈(repeated game):同樣結(jié)構(gòu)的博弈重復(fù)多次,其中的每次博弈被稱為“階段博弈” (stage game).序貫博弈(sequential game):參與人在前一個決策點的選擇決定隨后的子博弈的結(jié)構(gòu),因此,從后一個決策點開始的子博弈不同

3、于從前一個決策點開始的子博弈,或者說,同樣結(jié)構(gòu)的子博弈只出現(xiàn)一次;A開發(fā)不開發(fā)BB開發(fā)不開發(fā)開發(fā)(-3,-3)(1,0)(0,1)(0,0)不開發(fā)xx41 基本博弈(回顧) 解法1:重復(fù)所有參與人觀察到博弈過去的歷史; 重復(fù)博弈的特征參與人的總支付是所有階段博弈支付的貼現(xiàn)值之和;無限次重復(fù)博弈有限次重復(fù)博弈52 博弈的有限次重復(fù)在一個囚徒困境的重復(fù)博弈中,每個參與人擔(dān)心一次背叛會導(dǎo)致未來合作的崩潰如果未來合作的價值很大,超過了短期背叛所獲得的,那么從參與人的長期個人利益著想,參與人就自動不會選擇背叛,并不需要動用第三方來施加任何額外懲罰。重復(fù)博弈均衡結(jié)果的影響因素:博弈重復(fù)的次數(shù)62 博弈的有

4、限次重復(fù)288,288360,216216,360324,324餐館 A20(背叛)26(合作)餐館 B20(背叛)26(合作)餐館定價博弈假定兩個餐館開始處于合作狀態(tài),每個人收取高價格26。如果他們正常地競爭至少3個月,按照重復(fù)博弈的理論,我們似乎就應(yīng)該看到合作行為(高價格)而不是背叛行為(低價格)但是解實際上沒有那么簡單。72 博弈的有限次重復(fù)如果他們只經(jīng)營3個月,則餐館會分析且選擇它們?nèi)齻€月中的最優(yōu)策略。逆向歸納法第三個月:餐館沒有進(jìn)一步關(guān)系值得考慮,每個餐館的占優(yōu)策略都是背叛。第二個月:雙方?jīng)]有更進(jìn)一步關(guān)系(都知道第三個月會背叛),所以第二個月每個餐館的占優(yōu)策略都是背叛。第一個月:知道

5、第二、三個月會背叛,第一個月每個餐館選擇背叛。囚徒困境82 博弈的有限次重復(fù)只要兩個參與人之間的關(guān)系持續(xù)一段有限時間,在最后階段的博弈中,占優(yōu)策略(背叛)就會被采用(參與人到達(dá)博弈終點時,繼續(xù)合作就毫無價值,于是他們選擇背叛)按照逆向歸納法的預(yù)測,相互背叛就會從博弈的最后一期蔓延到第一期。92 博弈的有限次重復(fù)40,50-10,00,3000,300進(jìn)入者進(jìn)入不進(jìn)入默許斗爭在位者市場進(jìn)入博弈Chain Store Paradox唯一的SPNE為進(jìn)入者進(jìn)入,在位者默許有限次重復(fù)博弈中,斗爭不是一個可置信戰(zhàn)略。因為逆向歸納法得到唯一的SPNE為在位者在每個市場選擇默許,進(jìn)入者選擇進(jìn)入。102 博弈

6、的有限次重復(fù)定理:令G為階段性博弈,G(T)是G重復(fù)T次的重復(fù)博弈(T108/(1+r)時,即r2時,背叛一次才劃算。幾乎不可能。所以在對手執(zhí)行以牙還牙策略時,餐館A還是繼續(xù)合作 較好,而不是背叛一次。1/(1+r)貼現(xiàn)因子 163 博弈的無限次重復(fù)它會在第一個月得到360,但接下來每個月會損失36。當(dāng)對手采取TFT策略時,餐館A永久背叛是否劃算?當(dāng)且僅當(dāng)3636/(1+r)+ 36/(1+r)2+ 36/(1+r)3+時,即r1時,餐館A選擇永久背叛。當(dāng)餐館B采取TFT策略時,餐館A最好不要背叛合作,雙方都采取高價的合作結(jié)果才是均衡。餐館A的未來損失的貼現(xiàn)值為36/(1+r)+ 36/(1+

7、r)2+ 36/(1+r)3+173 博弈的無限次重復(fù)TFT只是觸發(fā)策略的一種,是比較“仁慈”的策略。所以如果TFT能夠解決囚徒困境,那么其他更嚴(yán)厲的策略也能夠幫助實現(xiàn)合作。183 博弈的無限次重復(fù) 給定別人選擇冷酷戰(zhàn)略,“我”一直選擇合作的支付為 給定別人選擇冷酷戰(zhàn)略,“我”選擇背叛的支付為 給定別人選擇冷酷戰(zhàn)略,“我”一直選擇合作的條件是當(dāng) 合作作為均衡結(jié)果出現(xiàn)當(dāng)對手采取冷酷策略(grim strategy)時,囚徒A選擇合作的條件是什么?193 博弈的無限次重復(fù) 含義:在無限次重復(fù)博弈中,如果參與人對未來足夠重視( 足夠大),那么,任何程度的合作都可以通過一個特定的子博弈精煉納什均衡得到

8、。無名氏定理(Friedman1971):在無限次重復(fù)博弈中,當(dāng)貼現(xiàn)因子足夠大時,任何帕累托優(yōu)于單階段博弈納什均衡的收益組合(支付向量)都可以實現(xiàn),即都能夠成為子博弈精煉納什均衡結(jié)果。203 博弈的無限次重復(fù)囚徒困境博弈的可行支付集合-8,-80,-10-10,0-1,-1坦白抵賴坦白抵賴懲罰點(納什均衡點)(-1,-1)(-10, 0)(-8,-8)(0,-10)213 博弈的無限次重復(fù)等待的補償:經(jīng)濟(jì)學(xué)里講的時間價值結(jié)束的不確定性無限次重復(fù)博弈,可以解釋為有限次博弈,只是到底在那一階段結(jié)束博弈是不確定的,每一階段都有可能結(jié)束博弈,而且各階段結(jié)束博弈的概率p是相等的。數(shù)學(xué)推理如下:博弈達(dá)到t

9、階段的概率為(1-p)t-1, 那么t階段支付的期望值為t(1-p)t-1,其貼現(xiàn)值為t-1 t(1-p)t-1,令= (1-p)即得結(jié)論。貼現(xiàn)因子的另一種解釋223 博弈的無限次重復(fù)參與人不固定的重復(fù)博弈1,1-1,20,00,0消費者購買不購買高質(zhì)量低質(zhì)量廠商 假定廠商從生產(chǎn)高質(zhì)量產(chǎn)品開始;繼續(xù)生產(chǎn)高質(zhì)量產(chǎn)品,除非曾經(jīng)生產(chǎn)過低質(zhì)量;如果上一次生產(chǎn)了低質(zhì)量,則永遠(yuǎn)生產(chǎn)低質(zhì)量 第一個消費者選擇購買;只要廠商不曾生產(chǎn)過低質(zhì)量,隨后的消費者繼續(xù)購買;如果曾經(jīng)廠商生產(chǎn)過低質(zhì)量,則之后的消費者不再購買。233 博弈的無限次重復(fù)可以證明,當(dāng)0.5時,該策略組合為SPNE。均衡結(jié)果是(購買,高質(zhì)量)重復(fù)博

10、弈時,廠商不敢以劣貨欺人廠商有積極性考慮長遠(yuǎn)利益時,就會建立一個信譽。 為什么買于“坐賈”而非“行商”?為什么車站旁邊的劣質(zhì)品那么多?企業(yè)存在的一個原因是創(chuàng)造一個“長期參與人”,因其考慮長期利益而遵章守紀(jì)、態(tài)度積極信任是在重復(fù)博弈中,當(dāng)事人謀求長期利益最大化的手段(Kreps, 1986; Gibbons, Robert, 2000) 24亞當(dāng)斯密:最商業(yè)化的社會,也是最講究道德的社會。3 博弈的無限次重復(fù)市場經(jīng)濟(jì)和道德25解法:懲罰與獎勵施加直接懲罰于背叛的參與人:將懲罰的成本考慮后,參與人的支付就會發(fā)生改變,囚徒困境就迎刃而解。囚徒 A坦白抵賴坦白抵賴囚徒 B-8,-80,-10-10,0

11、-1,-1-8,-8-6,-10-10,-6-1,-1假設(shè):背叛者雖然先出獄,但合作者的朋友在外面等著揍他,這種身體的傷害相當(dāng)于另外5年的判刑。26解法:懲罰與獎勵假設(shè):更嚴(yán)厲的懲罰,凡是坦白都會收到懲罰由第三方執(zhí)行。這種身體的傷害相當(dāng)于另外5年的判刑。囚徒 A坦白抵賴坦白抵賴囚徒 B-8,-80,-10-10,0-1,-1-13,-13-5,-10-10,-5-1,-1通過獎勵合作者同樣可以解決囚徒困境27解法:領(lǐng)導(dǎo)在囚徒困境的許多例子中,博弈都假定為對稱,所以參與人在背叛(合作)時,失去(得到)的支付完全相等。然而,在實際的策略情況下,一個參與者可能相對較“大”(領(lǐng)導(dǎo)者),另一個相對較“小

12、”。如果支付相差較大,則背叛時,大部分的損害會如落在較大參與者身上,以致她明知對手會背叛,依然選擇合作行動。28解法:領(lǐng)導(dǎo)疫苗研發(fā)博弈 多米尼加和索婆利亞兩國人口受到一種名為急性發(fā)作睡眠(SANE)的疾病的威脅,每2000人有1人會感染這種疾?。?.05%感染率),讓感染者陷入1年的深度睡眠但會造成巨大損失。每名工人因生病一年不能工作的損失是32000美元。國家1億名工人,患病人數(shù)50000,預(yù)計損失為16億美元。兩國損失之和為32億。 科學(xué)家確信投入20億美元,可迅速研制100%有效疫苗。 兩國獨立決策是否出錢贊助該項目。但一旦一國贊助,另一國則可不費成本得到科研成果使用疫苗29解法:領(lǐng)導(dǎo)多米尼加研發(fā)不研發(fā)研發(fā)不研發(fā)索婆利亞-2,-2-2,00,-2-1.6,-1.6現(xiàn)在假設(shè):兩國人口不等,多米尼加為1.5億,索婆利亞為0.5億。如兩

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論