博弈論“囚徒困境”的四種形式_第1頁
博弈論“囚徒困境”的四種形式_第2頁
博弈論“囚徒困境”的四種形式_第3頁
博弈論“囚徒困境”的四種形式_第4頁
博弈論“囚徒困境”的四種形式_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、博弈論中的“囚徒困境”摘要:“囚徒困境”模型是博弈論中的經(jīng)典范例,它是1950年Tucker提出的,其完全信息下的靜態(tài)博弈為廣大博弈論的工作者和初學(xué)者所掌握,成為解釋生活現(xiàn)象的有力 工具。其實“囚徒困境”模型隨著博弈論的深入發(fā)展,具有各種不同的形式,通常分為:完全信息的靜態(tài)博弈,完全信息的動態(tài)博弈,不完全信息的靜態(tài)博弈及不完全信息的動態(tài)博弈四種形式。本文將對“囚徒困境”的這四種形式作一個簡單的介 紹和分析。關(guān)鍵詞:博弈論囚徒困境經(jīng)濟-1 -# -一、完全信息靜態(tài)“囚徒困境”博弈完全信息靜態(tài)“囚徒困境”博弈部分地奠定了非合作博弈論的理論基礎(chǔ)。它的基本模型是:警察抓住了兩個合伙犯罪的罪犯,由于缺乏

2、足夠的證據(jù)指證他們的罪行,所以希望這兩人中至少有一人供認(rèn)犯罪, 就能確認(rèn)罪名成立。為此警察將這兩個罪犯分 別關(guān)押以防止他們串供, 并告訴他們警方的政策是 “坦白從寬, 抗拒從嚴(yán)”:如果兩人中只 有一人坦白認(rèn)罪,則坦白者立即釋放,而另一人則將重判 5年徒刑;如果兩個同時坦白認(rèn)罪,則他們將各判 3年監(jiān)禁。當(dāng)然罪犯知道如果他們兩人都拒不認(rèn)罪,則警方只能以較 輕的妨礙公務(wù)罪判處他們1年徒刑。用矩陣表示兩個罪犯的得益如下 (得益向量的第一個數(shù)字是囚徒1的得益,第二個數(shù)字是囚徒2的得益):囚徒2坦白不坦白坦白(-3,-3)(0,-5)不坦白(-5,0 )(-1,-1 )(表1)容易看出,由于對假定兩個罪犯

3、熟悉彼此, 這便是一個同時行動的完全信息靜態(tài)博弈。于每個囚徒而言,無論對方選擇什么策略,坦白都是自己的最優(yōu)策略,所以(坦白,坦白)是博弈的Nash均衡。二、完全信息動態(tài)“囚徒困境”博弈一一重復(fù)“囚徒困境”博弈研究重復(fù)博弈的意義在于基本博弈會重復(fù)進(jìn)行, 生活中買賣會重復(fù)進(jìn)行, 國際間的戰(zhàn)爭此伏彼起。 基本博弈的簡單累加,比如商業(yè)中的回頭客問題。比如犯罪團伙會被警方多次審訊,日常而且人們也發(fā)現(xiàn)基本博弈的重復(fù)進(jìn)行并非-2 -F面繼續(xù)以表1所示的“囚徒困境”模型為例對多重博弈進(jìn)行探討。首先觀察“囚徒困 境”的有限博弈,以 T記基本博弈的重復(fù)次數(shù)。博弈重復(fù)進(jìn)行所耗時間會比較長,支付的 時間價值必須考慮,

4、記r為折現(xiàn)因子。在有限博弈的情況下, 可簡化在r = I的情況下討論, 并采用動態(tài)博弈的逆向歸納法進(jìn)行研究:先分析t = T階段兩博弈方的選擇,這仍然是一個基本的囚徒困境博弈,此時前一階段 的結(jié)果已成為事實,又無后續(xù)階段,因此不難得出結(jié)論,這一階段的結(jié)果是(坦白,坦白),雙方得益(-3,-3)?,F(xiàn)在回到t = T -1階段,理性的博弈方對于后一階段的結(jié)局非常清楚, 其結(jié)果必然是(坦白,坦白),因此不管現(xiàn)階段的博弈結(jié)果是什么,雙方在本階段以后的最終 得益都是在本階段得益的基礎(chǔ)上各加上-3,此時的得益矩陣是:囚徒2坦白不坦白坦白(-6 , -6)(-3 , -8 )不坦白(-8 , -3 )(-4

5、 , -4 )(表 2)容易看出,坦白仍是兩博弈方的嚴(yán)格優(yōu)超策略,即(坦白,坦白)是T - 1階段的唯一的純Nash均衡。 以此往上類推,每階段“囚徒困境”博弈的結(jié)果都是博弈雙方采用坦白, 所以T次重復(fù)博弈的子博弈精煉 Nash均衡是每個博弈階段雙方都采用坦白。再考慮“囚徒困境”博弈重復(fù)無數(shù)次。因為無限博弈沒有最終階段,所以不能運用逆向歸納法求解??紤]博弈雙方都采用“冷酷戰(zhàn)略” :(1 )開始階段選擇抵賴;(2 )選擇抵賴 直到有一方選擇了坦白,為了報復(fù)對手的背叛,以后都選擇坦白。假定囚徒j(luò)嚴(yán)格執(zhí)行上述冷酷戰(zhàn)略,考察囚徒i的最優(yōu)策略是否為冷酷戰(zhàn)略:如果i在博弈的某個階段首先選擇了坦白,他在該階

6、段得到0,而不是-1,但他的這次背叛會遭到囚徒j(luò)的永遠(yuǎn)懲罰,因此i在隨后每個階段的支付都是 -3。如果下列條件滿足,給定j沒有選擇坦白,i將不會選擇3r1< 1 - r 1 - r坦白:2 20+r(-3)+r(一3) 乞-1+r(-1)+r(-1) ,即:解上述不等式得:r> 1/3 (這個條件容易滿足)。就是說,如果r > 1 /3,給定j堅持冷酷戰(zhàn)略并且j沒有首先坦白,i不會選擇首先坦白。進(jìn)一步假定j首先選擇坦白,那么i是否有積極性堅持冷酷戰(zhàn)略以懲罰j的不合作行為?如果 i堅持冷酷戰(zhàn)略,他隨后每個階段的支付是-3,但如果他選擇其他戰(zhàn)略,他在任何單一階段的支付都不會大于-

7、3,因此,無論r是多大,i都有積極性堅持冷酷戰(zhàn)略。在博弈重復(fù)無數(shù)次的情況下,只要r>1 /3,子博 弈精煉均衡是每個階段博弈雙方都采用抵賴進(jìn)行合作。三、不完全信息靜態(tài)“囚徒困境”博弈由于現(xiàn)實生活中許多博弈并不滿足完全信息的要求,比如買賣雙方都對彼此的信息掌握不完全,買者不知賣者產(chǎn)品的質(zhì)量到底如何,賣者也不知道買者愿意付出多高的價格等等, 因此研究不完全信息下的博弈有著重要的理論和現(xiàn)實意義。假定囚徒1有兩種類型,理性的(或稱為不合作的)和非理性的(有意愿合作的),概率分 別為1-p和P,又假定囚徒2只有一種類型一一理性的。假定理性的囚徒可以選擇任意的策 略,而非理性的囚徒 1只有一種策略“

8、針鋒相對”,即開始階段選擇抵賴,隨后的階段以對 方前一階段的策略為自己現(xiàn)階段的策略進(jìn)行鼓慟或報復(fù)。由于博弈只進(jìn)行一個同合,博弈雙方?jīng)]有合作可能,于是理性的囚徒1的最優(yōu)策略是“坦白”,理性的囚徒2也會選擇“坦白”,因為對于一次博弈而言,不管囚徒I理性與否,坦白的策略總是對囚徒 2最優(yōu)的,構(gòu)成不完全信息靜態(tài)博弈的Bayes- Nash均衡。我們還可以按如下方法證明:由于博弈只進(jìn)行一個階段,則非理性的因徙1選擇抵賴,理性的囚徒1選擇坦白,記囚徒 2的選擇為X,博弈路徑如下所示:t=1非理性囚徒1( p)抵賴?yán)硇郧敉?(1-p)坦白囚徒2X(表3)當(dāng)X= “抵賴”時,囚徒 2的期望支付是:4p-5;當(dāng)

9、X=坦白時,囚徒2的期望支付是3p-3。無論p為何值,3p-3>4 p -5,故坦白是囚徒2的最優(yōu)選擇。四、不完全信息動態(tài) 囚徒困境博弈理論上在完全信息的情況下.T次重復(fù)的“囚徒困境”博弈在每階段博弈都選擇“坦白”是兩個囚徒的最優(yōu)戰(zhàn)略,然而這一結(jié)果并沒有在現(xiàn)實生活中發(fā)生,我們常??吹綄掖巫靼傅姆缸飯F伙總是般抵賴妄圖逃脫法律的懲罰。國外實驗經(jīng)濟學(xué)家作試驗也表明,在有限次重復(fù)博弈中合作行為也頻繁出現(xiàn),因此需要將不完全信息引入重復(fù)博弈。首先討論“囚徙困境”博弈只重復(fù)兩次的情況。在第二階段,由于沒有合作的空間,理性的因徒1和囚徒2都會選擇坦白,而非理性的囚徒 1根據(jù)“針鋒相對”策略要選擇囚徒 2

10、 第一階段的策略;在第一階段,非理性的囚徒1選擇抵賴,理性的囚徒1仍會選擇坦白,因 為它在該階段的選擇不會改變囚徒2在第二階段選擇坦白?,F(xiàn)在考慮囚徒2在第一階段的選擇(X)如何影響非理性困徒 1在第二階段的選擇,如下表所示:t=1t=2非理性囚徒1( p)抵賴X理性囚徒1(1-p)坦白坦白囚徒2X坦白(表 4)當(dāng)X= “抵賴”時,囚徒 2的期望支付是:p( -1 )+ 0+ (1-p ) ( -5 ) + ( -3 ) = 7p-8; 當(dāng) X=“坦白”時,囚徒 2 此時的期望支付是:p0+ (-3)+ (1-p )(-3)+(-3)=3p-6 。如果 7p-8>3p-6, 即P>

11、1/2,囚徒2將會選擇 X= “抵賴”;P > 1 /2的條件下,進(jìn)一步考慮基本膊弈重復(fù)三次的情況。在第三階段理性的囚徒1和囚徒2會因為沒有后續(xù)的合作機會選擇坦白;在第二階段,由于理性的囚徒I知道囚徒2是理性的,自己在本階段的選擇不會改變囚徒2在下一階段的選擇,故仍會選擇坦白。下面要說明理性囚徒1在第一階段將會選擇抵賴進(jìn)行合作:盡管囚徒1第一階段選擇坦白可能免于懲罰,但無疑向囚徒2顯示自已是理性的博弈方,于是因徒2在第二階段選擇坦白,理性的囚徒1在第二階段最大只能獲得(-3)的支付;相反如果隱藏自己的真實情況,選擇抵賴, 那么可能在第一階段獲得(-1 )的支付,第二階段獲得0的支付,無疑

12、這將更為有利,所以理性的徒1的三階段策略是(抵賴,坦白,坦白)。就理性的囚徒1和2而言,第一階段有合作的可能(雙方都選“抵賴”),也有不合作的可能(因徒I選擇“抵賴”,囚徒2選擇坦白)。先看雙方都選擇“抵賴”的情形,那么博弈進(jìn)入第二和第三階段,即隨后的階段是表4所示的兩階段博弈,所以在給定P> I/2的條件下,囚徙2第二階段選擇抵賴,三次重復(fù)博弈的精練Bayes均衡如下表所:t=1t=2t=3非理性囚徒1( p)抵賴抵賴抵賴?yán)硇郧敉?( 1-p)抵賴坦白坦白囚徒2抵賴抵賴坦白(表 5)囚徒2選擇(抵賴,抵賴,坦白)的期望支付為:(-1) +p(-1)+0 + (1-p)(-5)+(-3)

13、=7p-9。再看雙方不合作的情況,在不合作的情形下,囚徒2的策略有兩種可能:(坦白,坦白,坦白)和(坦白,抵賴,坦白)。如果囚徒2選擇(坦白,坦白,坦白),博弈路徑如下所:t=1t=2t=3非理性囚徒1( p)抵賴坦白坦白理性囚徒1( 1-p)抵賴坦白坦白囚徒2坦白坦白坦白(表6)囚徒2的期望支付為:0+(-3) +(-3)=-6 ;如果囚徒2選擇(坦白,抵賴,坦白),博弈路徑如下所:t=1t=2t=3非理性囚徒1( p)抵賴坦白抵賴?yán)硇郧敉?(1-p)抵賴坦白坦白囚徒2坦白抵賴坦白(表 7)囚徒 2 的期望支付為:0+(-5) +p(0)+ (1-p)(-3)=3p-8 。在P > 1

14、/2的條件下7p-9 > -6, 7p-9 > 3p-8,因此(抵賴,抵賴,坦白)優(yōu)于(坦白,坦白, 坦白)和(坦白,抵賴,坦白)。綜合以上分析,只要囚徒1是非理性的慨率 P> 1/2,表5所示的戰(zhàn)略就是一個精煉Bayes均衡。類似可以進(jìn)一步證明,如果p> 1/2,對于T > 3,下列戰(zhàn)略組合構(gòu)成一個精煉Bayes均衡:理性囚徒1在t = 1至t =T-2階段一直選擇抵賴,在余下的兩階段選擇坦白; 囚徒2在t=l至t= T-I階段選擇抵賴,最后一階段選擇坦白。我們清楚地看到,將不完全信息引入有限次“囚徒困境”復(fù)博能很好地解釋現(xiàn)實的社會 現(xiàn)象一一為什么有那么多的囚徒

15、寧愿選擇抵賴而不是選擇優(yōu)超策略坦白。至于“囚徒困境”的不完全信息下的無數(shù)重復(fù)博弈的情況,我們應(yīng)該容易得出:在相當(dāng)寬松的條件下,每階段選擇合作是精煉Bayes均衡。五、“囚徒困境”實例(1) 經(jīng)濟學(xué)例子:關(guān)稅戰(zhàn)兩個國家,在關(guān)稅上可以有以兩個選擇:提高關(guān)稅,以保護自己的商品一一背叛;與對方達(dá)成關(guān)稅協(xié)定,降低關(guān)稅以利各自商品流通一一合作。當(dāng)一國因某些因素不遵守關(guān)稅協(xié)定,獨自提高關(guān)稅(背叛),另一國也會作出同樣反應(yīng)(亦背叛),這就引發(fā)了關(guān)稅戰(zhàn),兩 國的商品失去了對方的市場,對本身經(jīng)濟也造成損害(共同背叛的結(jié)果)。然后二國又重新 達(dá)成關(guān)稅協(xié)定。(重復(fù)博弈的結(jié)果是將發(fā)現(xiàn)共同合作利益最大)(2) 商業(yè)例子:廣告戰(zhàn)兩個公司互相競爭, 二公司的廣告互相影響, 即一公司的廣告較被顧客接受則會奪取對 方的部分收入。但若二者同時期發(fā)出質(zhì)量類似的廣告,收入增加很少但成本增加。 但若不提高廣告質(zhì)量,生意又會被對方奪走。此二公司可以有二選擇:互相達(dá)成協(xié)議,減少廣告的開 支一一合作;增加廣告開支,設(shè)法提升廣告的質(zhì)量, 壓倒對方一一背叛。 若二公司不信任對 方,無法合作,背叛成為支配性策略時, 二公

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論