重復(fù)外匯交易中的博弈策略選擇_第1頁
重復(fù)外匯交易中的博弈策略選擇_第2頁
重復(fù)外匯交易中的博弈策略選擇_第3頁
重復(fù)外匯交易中的博弈策略選擇_第4頁
重復(fù)外匯交易中的博弈策略選擇_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

重復(fù)外匯交易中的博弈策略選擇

重復(fù)游戲是指同一結(jié)構(gòu)的游戲重復(fù)一定次數(shù)。每一次游戲都被稱為“階段游戲”,這是一個(gè)特例和動(dòng)態(tài)游戲。根據(jù)博弈重復(fù)的次數(shù)是否有限,重復(fù)博弈可分為有限次重復(fù)博弈與無限次重復(fù)博弈。由于任一參與人在重復(fù)博弈中都能觀測(cè)到其他參與人過去的行動(dòng)歷史,因此所有參與人每個(gè)階段的選擇策略都依賴于其他參與人過去的行為。下面我們以“囚徒困境”(Prisoner,sDilemma)為例對(duì)重復(fù)博弈進(jìn)行探討,說明在重復(fù)博弈條件下合作產(chǎn)生的可能性,并分析其在實(shí)踐中的應(yīng)用。囚徒困境最早是由美國(guó)數(shù)學(xué)家艾伯特·培克(Alberttucker)于1950年提出來的。其內(nèi)容如下:兩個(gè)嫌疑犯共同盜竊作案后被警察逮捕,分別被關(guān)在不同的屋子里審訊。警察告訴他們:如果兩個(gè)人都坦白,那么每人判刑4年;如果兩個(gè)人都抵賴,每人各判刑1年(因?yàn)樽C據(jù)不足);如果其中一人坦白,另一人抵賴的話,坦白的人當(dāng)場(chǎng)釋放,抵賴的人判刑6年。5警察的這種做法實(shí)際上也符合我國(guó)法律規(guī)定的“坦白從寬,抗拒從嚴(yán),疑罪從無”的原則。這里每個(gè)囚徒都有兩種戰(zhàn)略:坦白或抵賴,但其中任何一人在選擇策略時(shí)都不可能知道另一人的選擇是什么。圖表中的數(shù)字表示對(duì)應(yīng)的戰(zhàn)略組合下兩個(gè)囚徒的支付。其中矩陣中第一個(gè)數(shù)字代表決策結(jié)果后囚徒甲的得益,第二個(gè)數(shù)字代表決策結(jié)果后囚徒乙的得益。下面我們分別討論兩囚徒在有限次與無限次重復(fù)博弈中如何選擇?一、博弈的三種類型有限次重復(fù)博弈指階段數(shù)是有限的,在決策行動(dòng)時(shí)一般使用逆向歸納法,即從重復(fù)博弈的最后一個(gè)回合開始往前推理從而決定每一步的選擇。我們假定:a.每個(gè)參與者(即“囚徒”)都知道“博弈的規(guī)則”和“博弈結(jié)果”的支付矩陣;b.每個(gè)參與者具有兩種類型:理性的和非理性的(1),并且博弈雙方均不知道對(duì)方是不是理性的;c.不存在干涉?zhèn)€人決策的任何因素,即參與者可完全按照自己意愿自由地選擇策略。在此博弈中可能存在的情況有三種:雙方都是非理性的;雙方都是理性的;一方為非理性的,另一方為理性的。(一)合作意愿—參與雙方均為非理性人根據(jù)本論文對(duì)“非理性人”的定義,非理性人非常注重“講義氣重信譽(yù),有強(qiáng)烈的合作意愿,而不顧及自身的利益”,所以,當(dāng)參與雙方都是非理性人時(shí),他們都會(huì)一直合作,都會(huì)選擇“抵賴”。因此該博弈均衡是(抵賴,抵賴)。(二)理性的推理假定用T表示該博弈重復(fù)的階段數(shù),我們可根據(jù)逆向歸納法來分析。先分析t=T階段兩博弈方的選擇,由于此時(shí)所有階段博弈的結(jié)果已成為既定事實(shí),而在此階段之后又不再有任何的后續(xù)階段,因此實(shí)現(xiàn)自身在本階段中的最大利益是兩個(gè)參與人在該階段博弈中決策的惟一原則,所以,無論此前所有階段博弈的結(jié)果如何,理性的雙方參與人都只會(huì)選擇使自己得益最大化的行動(dòng)。由于隔絕監(jiān)禁,信息不明,二人并不知道對(duì)方的選擇。每個(gè)理性的囚徒都作這樣的推理:如果對(duì)方坦白,我抵賴的結(jié)果是判刑6年,坦白的結(jié)果是判刑4年;坦白的結(jié)果比抵賴好,那么,我應(yīng)當(dāng)選擇坦白。如果對(duì)方抵賴,我也抵賴的結(jié)果將是判刑1年,坦白的結(jié)果是當(dāng)場(chǎng)釋放,坦白的結(jié)果比抵賴好,那么,我應(yīng)當(dāng)選擇坦白。對(duì)方或者選擇“坦白”,或者選擇“抵賴”,總之,我選擇“坦白”是最好的策略。此推理過程是演繹推理中二難推理的簡(jiǎn)單構(gòu)成式。顯而易見,這個(gè)博弈的納什均衡是(坦白,坦白),且是唯一的納什均衡點(diǎn)。故第T階段的惟一結(jié)果必定是(坦白,坦白)。我們?cè)倏磘=T-1階段,由于這兩個(gè)理性參與人都非常清楚后一階段將會(huì)出現(xiàn)的結(jié)果,因此他們?cè)诘赥—1階段也會(huì)作與第T階段一樣的邏輯選擇,故第T—1階段博弈的結(jié)果還是(坦白,坦白)……依次類推,直到第一階段,雙方也是都采取坦白的行動(dòng)。所以,對(duì)于雙方都是理性的個(gè)人來說,在有限次重復(fù)博弈中,博弈的均衡是(坦白,坦白)。69(三)“冷策”及其所代表的囚徒設(shè)想理性的囚徒可以選擇任意的策略,而非理性的囚徒只有一種策略:“冷酷戰(zhàn)略”(2)。我們假設(shè)囚徒甲為理性人、非理性人的概率分別為1-p、p;囚徒乙為理性人、非理性人的概率分別為1-q、q;用T表示重復(fù)博弈的階段數(shù)。1.理性囚徒甲和乙的期望支付由于第二階段是最終階段,在此階段之后不再有任何后續(xù)階段,實(shí)現(xiàn)自身在本階段中的最大支付是理性參與人在該階段博弈中決策的惟一原則,所以,無論第一階段的博弈結(jié)果如何,理性的參與人都會(huì)選擇使自己支付最大化的行動(dòng),即:理性的囚徒會(huì)選擇坦白。而對(duì)于非理性的囚徒來說,根據(jù)“冷酷戰(zhàn)略”,在第一階段他會(huì)選擇抵賴,而第二階段所采取的策略以對(duì)方第一階段的策略為自己現(xiàn)階段的策略,故理性囚徒在t=1階段的選擇將是另一非理性囚徒在t=2階段的選擇,如下表所示。我們分析理性囚徒第一階段的選擇(X或Y)如何影響非理性囚徒第二階段的選擇。該博弈中的X、Y可分別表示“坦白”或“抵賴”,因此有四種情況:(1)如果X表示“抵賴”,Y表示“抵賴”,則理性囚徒甲的期望支付:(-1)×q+q×0+(1-q)×(-1)+(1-q)×(-4)=4q-5;而理性囚徒乙的期望支付:(-1)×p+p×0+(1-p)×(-1)+(1-p)×(-4)=4p-5。(2)如果X表示“坦白”,Y表示“坦白”,則理性囚徒甲的期望支付:q×0+q×(-4)+(1-q)×(-4)+(1-q)×(-4)=4q-8;理性囚徒乙的期望支付:p×0+p×(-4)+(1-p)×(-4)+(1-p)×(-4)=4p–8。(3)如果X表示“坦白”,Y表示“抵賴”,則理性囚徒甲的期望支付:q×0+q×(-4)+(1-q)×0+(1-q)×(-4)=-4;理性囚徒乙的期望支付:[p×(-1)+p×0+(1-p)×(-6)+(1-p)×(-4)]=9p–10。(4)如果X表示“抵賴”,Y表示“坦白”,則理性囚徒甲的期望支付:q×(-1)+q×0+(1-q)×(-6)+(1-q)×(-4)=9q-10;理性囚徒乙的期望支付:p×0+p×(-4)+(1-p)×0+(1-p)×(-4)=-4。所以囚徒甲和囚徒乙對(duì)應(yīng)于X,Y的選擇期望支付矩陣為:由此可見,如果理性囚徒甲認(rèn)為囚徒乙在第二階段屬于非理性的概率不大于1/4,他將在第一階段選擇坦白,如果不小于2/5,則選擇抵賴。同樣,如果理性囚徒乙認(rèn)為囚徒甲在第二階段屬于非理性的概率不大于1/4,他將在第一階段選擇坦白,如果不小于2/5,則選擇抵賴。但是,如果甲或乙屬于非理性的概率介于1/4與2/5之間,則理性乙或甲又該如何選擇?由于甲和乙都不會(huì)向?qū)Ψ酵嘎蹲约菏菍儆诶硇赃€是非理性,因而甲、乙都不能確定對(duì)方屬于哪一類型。假設(shè)理性囚徒選擇坦白的概率為a,則選擇抵賴的概率為1-a,當(dāng)理性囚徒一方認(rèn)為對(duì)方屬于非理性的概率p或q大于或等于a時(shí),他將在第一階段選擇抵賴。若滿足:所以,當(dāng)理性囚徒認(rèn)為對(duì)方屬于非理性的概率時(shí),他將在第一階段選擇抵賴,在第二階段選擇坦白。2.b最明顯的期望支付由于第三階段是最終階段,在此階段之后又不再有任何的后續(xù)階段,無論第一、二階段雙方是合作還是不合作,理性的囚徒肯定會(huì)在第三階段選擇坦白。而非理性的囚徒仍然以對(duì)方前一階段的策略為自己現(xiàn)階段的策略。就理性的囚徒甲和乙而言,第一階段有合作的可能(雙方都選“抵賴”),也有不合作的可能(其中一方或雙方選擇“坦白”)。(1)當(dāng)理性囚徒甲、乙在第一階段合作,即都選擇抵賴,可能會(huì)出現(xiàn)如下情況:A、理性囚徒甲、乙在第二階段都選擇抵賴。博弈路徑如下圖所示:理性囚徒甲的期望支付:(-1)×q+(-1)×q+q×0+(1-q)×(-1)+(1-q)×(-1)+(1-q)×(-4)=4q-6;理性囚徒乙的期望支付:(-1)×p+(-1)×p+p×0+(1-p)×(-1)+(1-p)×(-1)+(1-p)×(-4)=4p-6B、理性囚徒甲在第二階段選擇坦白,而理性囚徒乙在第二階段選擇抵賴。理性囚徒甲的期望支付:(-1)×q+q×0+(-4)×q+(1-q)×(-1)+(1-q)×0+(1-q)×(-4)=-5;理性囚徒乙的期望支付:(-1)×p+p×(-1)+0×p+(1-p)×(-1)+(1-p)×(-6)+(1-p)×(-4)=9p-11C、理性囚徒乙在第二階段選擇坦白,而理性囚徒甲在第二階段選擇抵賴。理性囚徒甲的期望支付:(-1)×q+q×(-1)+0×q+(1-q)×(-1)+(1-q)×(-6)+(1-q)×(-4)=9q-11;理性囚徒乙的期望支付:(-1)×p+p×0+(-4)×p+(1-p)×(-1)+(1-p)×0+(1-p)×(-4)=-5D、理性囚徒甲、乙在第二階段都選擇坦白。理性囚徒甲的期望支付:(-1)×q+0×q+q×(-4)+(1-q)×(-1)+(1-q)×(-4)+(1-q)×(-4)=4q-9;理性囚徒乙的期望支付:(-1)×p+0×p+p×(-4)+(1-p)×(-1)+(1-p)×(-4)+(1-p)×(-4)=4p-9由于0<q<1,故4q-6>4q-9,當(dāng)9q-11>-5,即q>2/3時(shí),理性囚徒甲選擇(抵賴,抵賴,坦白)優(yōu)于(抵賴,坦白,坦白)。同樣,由于0<p<1,故4p-6>4p-9,當(dāng)9p-11>-5,即p>2/3時(shí),理性囚徒乙選擇(抵賴,抵賴,坦白)優(yōu)于(抵賴,坦白,坦白)。(2)如果甲乙在第一階段就不合作,即其中一方或雙方在第一階段選擇坦白,則結(jié)果如下:a.理性囚徒甲在第一階段選擇“抵賴”,理性囚徒乙在第一階段選擇“坦白”,非理性囚徒甲在后面階段都選擇“坦白”,可能有的博弈路徑為:理性囚徒甲的期望支付:[q×(-1)+q×(-1)+q×0+(1-q)×(-6)+(1-q)×(-6)+(1-q)×(-4)=14q-16;理性囚徒乙的期望支付:p×0+p×(-4)+p×(-4)+(1-p)×0+(1-p)×0+(1-p)×(-4)=-4p-4b.理性囚徒甲在第一階段選擇“坦白”,理性囚徒乙也在第一階段選擇“坦白”,非理性囚徒甲、乙在后面階段都選擇“坦白”,可能有的博弈路徑為:理性囚徒甲期望支付:q×0+q×(-4)+q×(-4)+(1-q)×(-4)+(1-q)×(-4)+(1-q)×(-4)=4q-12;理性囚徒乙期望支付:p×0+p×(-4)+p×(-4)+(1-p)×(-4)+(1-p)×(-4)+(1-p)×(-4)=4p-12c.理性囚徒甲在第一階段選擇“坦白”,而理性囚徒乙在第一階段選擇“抵賴”,非理性囚徒乙在后面階段都選擇“坦白”,可能有的博弈路徑為:理性囚徒甲的期望支付:q×0+q×(-4)+q×(-4)+(1-q)×0+(1-q)×0+(1-q)×(-4)=-4q-4;理性囚徒乙的期望支付:p×(-1)+p×(-1)+p×0+(1-p)×(-6)+(1-p)×(-6)+(1-p)×(-4)=14p-16由于0<q<1,故-4q-4<0,我們只需比較14q-16與4q-12的大小即可。當(dāng)14q-16>4q-12,即q>2/5時(shí),理性囚徒甲選擇(抵賴,抵賴,坦白)優(yōu)于(坦白,坦白,坦白)。同樣,由于0<p<1,故-4p-4<0,我們只需比較14p-16與4p-12的大小即可。當(dāng)14p-16>4p-12,即p>2/5時(shí),理性囚徒乙選擇(抵賴,抵賴,坦白)優(yōu)于(坦白,坦白,坦白)。20因此,在博弈重復(fù)三次中,當(dāng)q>2/5,p>2/5時(shí),理性囚徒甲的最佳選擇是(抵賴,抵賴,坦白),理性囚徒乙的最佳選擇也是(抵賴,抵賴,坦白)。3.各階段的比較類似于前面的分析,我們同樣可以得出:當(dāng)p,q≥2/5時(shí),在T=1,2,3階段,對(duì)于理性者來說,選擇抵賴獲得的收益最大,但在T=4階段,由于此階段是最終階段,在此階段之后又不再有任何的后續(xù)階段,因此理性的囚徒會(huì)選擇坦白,而非理性囚徒將一直選擇抵賴。70所以,當(dāng)p,q≥2/5時(shí),重復(fù)4次的博弈的均衡為:4.各階段的最終階段和最終階段由前面的分析可以看出,當(dāng)p,q≥2/5,T>3時(shí),對(duì)于理性的囚徒來說,在T=1到n-1階段選擇抵賴,其期望支付值最大,而在T=n階段時(shí),由于此階段是最終階段,在此階段之后又不再有任何的后續(xù)階段,因此理性的囚徒會(huì)選擇坦白,而非理性囚徒將自始至終選擇抵賴。20由此可得,當(dāng)博弈重復(fù)n(T=n)次時(shí),只要甲或乙為非理性的概率p,q≥2/5,理性囚徒在t=1至t=T-1階段都會(huì)一直選擇抵賴,但在最后階段選擇坦白,而非理性囚徒將一直選擇抵賴。二、無限次重復(fù)博弈中的參與人無限次重復(fù)博弈指同一個(gè)博弈被無限期重復(fù)多次。在無限次重復(fù)博弈中,對(duì)于任何一個(gè)參與者的欺騙和違約行為,其他參與者總會(huì)有機(jī)會(huì)給予報(bào)復(fù)。它與有限次重復(fù)博弈的區(qū)別是:有限次重復(fù)博弈中,所有參與人都能準(zhǔn)確地知道重復(fù)的次數(shù),能準(zhǔn)確地預(yù)測(cè)到最后一個(gè)階段的博弈結(jié)果:任何一個(gè)理性參與人都會(huì)選擇“不合作”,并且這種選擇不會(huì)導(dǎo)致其他參與人的報(bào)復(fù)。因此,所有參與人都會(huì)在有限次重復(fù)博弈的最后階段中選擇“不合作”。19而無限次重復(fù)博弈由于不存在最終階段,所以不能像有限次重復(fù)博弈那樣可以運(yùn)用逆向歸納法求解。正是因?yàn)樵跓o限次重復(fù)博弈中,沒有哪一次博弈一定是最后的回合,總是存在報(bào)復(fù)的機(jī)會(huì),所以參與人總是要考慮到其目前的行動(dòng)對(duì)其余參與人所可能產(chǎn)生的影響,這種考慮使得每一個(gè)參與者都不會(huì)采取違約或欺騙的行為,無限次重復(fù)博弈中的參與人比有限重復(fù)博弈中的參與人更加合作。假定甲乙兩囚徒開始都選擇“抵賴”,隨后一直抵賴,直到某天發(fā)現(xiàn)對(duì)方選擇“坦白”,然后就永遠(yuǎn)選擇“坦白”。我們?cè)O(shè)想甲乙從開始一直到t時(shí)刻之前都合作,即都選擇“抵賴”,甲在t時(shí)該如何選擇?假定貼現(xiàn)因子為a,如果乙堅(jiān)持“抵賴”,甲選擇“抵賴”,那么甲在隨后每個(gè)階段的支付都是-1,這時(shí)維持長(zhǎng)期合作的貼現(xiàn)值是:V1=-1+a×(-1)+a2×(-1)+…;如果甲選擇“坦白”,則甲雖然在該階段騙乙一次,得到0,即此時(shí)背叛的誘惑=0-(-1)=1,但從下個(gè)階段開始,由于乙發(fā)現(xiàn)甲騙了他,乙會(huì)選擇永遠(yuǎn)不再與甲合作,即永遠(yuǎn)選擇“坦白”,也就是說,甲的這次背叛會(huì)遭到囚徒乙的永遠(yuǎn)懲罰,即甲在隨后每個(gè)階段的支付都是-4,這時(shí)的貼現(xiàn)值是V2=0+a×(-4)+a2×(-4)+…。也就是說,如果a≥1/4,乙堅(jiān)持“抵賴”的話,則甲的最佳選擇是一直堅(jiān)持與乙合作,即也一直選擇“抵賴”;如果a<1/4,則甲有可能會(huì)不合作,即選擇“坦白”。只要a≥1/4,每個(gè)階段的甲乙雙方都會(huì)采用“抵賴”進(jìn)行合作。如要甲乙不合作,就要設(shè)法改變貼現(xiàn)因子a的值。三、重復(fù)囚犯困難游戲的運(yùn)用囚徒困境在現(xiàn)實(shí)社會(huì)中廣泛存在,下面我們著重分析李天一輪奸案和公交車博弈。(一)李嫌犯主要情況是“抵賴”,但未取得利益最2013年2月17日李天一等5人在海淀一酒吧與李姓女子喝酒,其后李天一等5人將其帶至賓館輪奸。20日警方將李天一等5人全部刑拘。在這個(gè)案例中,只有王某已年滿18周歲,其余4人都未滿18周歲,包括李天一。北京市海淀區(qū)法院在一審中,以強(qiáng)奸罪判處被告王某(成年人)有期徒刑12年,剝奪政治權(quán)利2年;李天一有期徒刑十年;魏某(兄)有期徒刑4年;張某有期徒刑3年,緩刑5年;魏某(弟)有期徒刑3年,緩刑3年。北京市第一中級(jí)人民法院二審裁定駁回上訴人上訴,維持原判。李天一與魏某(兄)、張某、魏某(弟)都是未成年人,為何李某被判了10年,而其他三位只有3-4年?北京警方采取類似前面“囚徒困境”中警察的做法,對(duì)李天一等五名嫌犯進(jìn)行分別關(guān)押,單獨(dú)審訊。根據(jù)前面的分析,李天一等5人的最佳應(yīng)對(duì)策略,就是保持一致立場(chǎng),即“抵賴”。如果警方找不到足夠證據(jù),根據(jù)“疑罪從無”的法律規(guī)定,5人有可能無罪釋放。但該博弈是有限次博弈,博弈主體很難達(dá)成攻守同盟。盡管李天一一直采取“非理性人”的策略,即一直選擇“抵賴”,堅(jiān)持自己無罪。如一審時(shí),李稱自己在酒店房間玩手機(jī)睡著了,二審時(shí)又改口解釋案發(fā)時(shí)出去接母親夢(mèng)鴿電話,沒有參與強(qiáng)奸。甚至在3名同案犯已認(rèn)罪并指證李天一打人的不利情況下,李天一仍堅(jiān)持既沒打過受害人,也沒與受害人發(fā)生性關(guān)系。而其他犯罪嫌疑人則采取“理性人”的策略,不僅承認(rèn)有罪,還主動(dòng)向受害人賠禮道歉,支付賠償金。因此,盡管李天一與魏某(兄)、張某某、魏某(弟)都是未成年人,由于魏某(兄)、張某、魏某(弟)采用“坦白”的策略,獲得的利益最大,結(jié)果只判3-4年;而李天一一直采取“抵賴”的策略,特別是夢(mèng)鴿護(hù)犢心切,非要洗脫李天一的輪奸罪名,又無法搞定其他四名同案犯,不僅得不到法官的同情,也引起了廣大公眾和媒體的關(guān)注和反感,所以最終結(jié)果是李天一的判決結(jié)果最重。(二)雙方都不擠時(shí)的博弈我們都有過這樣的經(jīng)歷,在等公交車時(shí),為了能坐上座位,很多人采取搶先上車,因此常常出現(xiàn)一擁而上的局面。出現(xiàn)這種混亂局面的主要原因是人們都認(rèn)為:我不擠,而別人擠的話,我就有可能沒有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論