版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第28章博弈論
博弈論關(guān)注的是對(duì)策略互動(dòng)的一般性分析。第十講博弈論及應(yīng)用28.1博弈的收益矩陣
對(duì)于雙人的簡(jiǎn)單博弈,我們用收益矩陣來(lái)描述博弈。此處的簡(jiǎn)單博弈指參與者的策略數(shù)量有限,且只進(jìn)行一次的博弈。
假設(shè)兩人進(jìn)行簡(jiǎn)單的博弈。參與人A有兩個(gè)策略:“上”或“下”。參與人B有兩個(gè)策略:“左”或“右”。當(dāng)兩個(gè)人同時(shí)行動(dòng)后,二人的收益情況由收益矩陣反映,該矩陣A、B完全了解。參與人B左右參與人A上1,20,1下2,11,0博弈的收益矩陣當(dāng)A上B左時(shí),A得1B得2;當(dāng)A下B右時(shí),A得1B得0。當(dāng)A下B左時(shí),A得2B得1;當(dāng)A上B右時(shí),A得0B得1;那么在A、B完全了解收益矩陣的情況下,A、B如何確定自己的策略呢?參與人B左右參與人A上1,20,1下2,11,0A的思路如下:如果B選左,我就選下(2>1);如果B選右,我就選下(1>0)。因此,A的最優(yōu)策略“下”與B的策略并沒(méi)有關(guān)系,此時(shí)A的最優(yōu)策略為“下”。
B做同樣的思考:如果A選上,我就選左(2>1);如果A選下,我就選左(1>0)。因此,B決定采取“左”。上述分析中,A的“下”、B的“左”被稱為占優(yōu)策略。占優(yōu)策略:不論對(duì)方采取什么策略,該策略總是最優(yōu)的。顯然,在博弈中,參與人如果有占優(yōu)策略,他一定選擇占優(yōu)策略。上述博弈中,A一定選擇下,B一定選左。該博弈的結(jié)果一定是(2,1)。
此時(shí),我們定義一個(gè)占優(yōu)策略均衡,即雙方占優(yōu)策略的組合(下,左)。運(yùn)用該定義可以幫助我們尋找存在占優(yōu)策略博弈的結(jié)果。28.2納什均衡(NashEquilibrium)如果如下表所示,參與人不存在占優(yōu)策略,那么該如何預(yù)測(cè)博弈的結(jié)果呢?參與人B左右參與人A上2,10,0下0,01,2
A的思路如下:如果B選左,我就選上(2>0);如果B選右,我就選下(1>0)。因此,A沒(méi)有占優(yōu)策略。同樣,B也沒(méi)有占優(yōu)策略。
如果參與人沒(méi)有占優(yōu)策略,那么我們需要借助納什均衡的概念尋找博弈的結(jié)果。
納什均衡(N.E.):如果給定B的選擇,A的選擇是最優(yōu)的,并且給定A的選擇,B的選擇也是最優(yōu)的,這樣的策略組合稱為納什均衡。寡頭壟斷下,古諾均衡實(shí)際上就是納什均衡。即給定A廠商的產(chǎn)量,B實(shí)現(xiàn)了利潤(rùn)最大化;給定B廠商的產(chǎn)量,A實(shí)現(xiàn)了利潤(rùn)最大化。
在上面收益矩陣描述的博弈中,存在四個(gè)策略組合:(上,左)、(上,右)、(下,左)、(下,右)。參與人B左右參與人A上2,10,0下0,01,2根據(jù)N.E.的定義,請(qǐng)找出N.E.借助N.E.預(yù)測(cè)博弈的結(jié)果,往往會(huì)遇到兩個(gè)問(wèn)題:1、N.E.不止一個(gè)。2、一些博弈中不存在納什均衡。如下面收益矩陣描述的博弈:參與人B左右參與人A上0,00,-1下1,0-1,328.3混合策略而現(xiàn)實(shí)中,參與人完全可以隨機(jī)選擇策略,例如參與人采取拋硬幣的方法確定自己的策略——硬幣正面朝上就“上”,反面朝上就下。該策略實(shí)際就是以50%的概率選擇上,以50%的概率選擇下。這種隨機(jī)策略稱為混合策略。
如果將策略擴(kuò)展到混合策略,那么對(duì)于簡(jiǎn)單博弈而言,混合策略納什均衡總是存在的。
迄今為止,參與人的策略均為純策略。純策略指參與人以100%概率選擇的策略。28.4囚徒困境
本節(jié)通過(guò)一個(gè)例子說(shuō)明納什均衡并不一定會(huì)導(dǎo)致帕累托有效率的結(jié)果。
囚徒困境:合伙犯罪的兩個(gè)囚徒被分別關(guān)在兩個(gè)房間接受審訊。每個(gè)囚徒可以選擇坦白,也可以選擇抵賴。如果只有一人坦白,坦白者免刑,抵賴者入獄6個(gè)月;如果兩人同時(shí)坦白,兩人將被判入獄3個(gè)月;如果兩個(gè)人都抵賴,證據(jù)不足,兩人被判入獄1個(gè)月。囚徒B:坦白也是B的占優(yōu)策略。囚徒A:如果B坦白,我最好坦白(-3>-6);如果B抵賴,我最好坦白(0>-1)。因此,不論B做什么,A的最優(yōu)選擇就是坦白。實(shí)際上,此處坦白是A的占優(yōu)策略。參與人B坦白抵賴參與人A坦白-3,-30,-6抵賴-6,0-1,-1囚徒困境
現(xiàn)實(shí)中囚徒困境的例子很多,例如冷戰(zhàn)中的美蘇爭(zhēng)霸。當(dāng)參與人具有占優(yōu)策略時(shí),博弈存在占優(yōu)策略均衡,此處為(坦白、坦白),博弈結(jié)果為(-3,-3)。
該結(jié)果有帕累托改進(jìn)的可能,如果雙方達(dá)成共識(shí),互相信任,同時(shí)抵賴,大家的境況都可以改善。28.5重復(fù)博弈
上節(jié)中囚徒無(wú)法擺脫困境,很大程度上源于假定雙方是一錘子買(mǎi)賣(mài),如果雙方今后還要合作,即雙方進(jìn)行的是重復(fù)博弈,那么結(jié)果可能會(huì)有所改變。重復(fù)博弈分為有限重復(fù)博弈和無(wú)限重復(fù)博弈。
我們從最后一次博弈開(kāi)始分析,第10次博弈大家將面臨永遠(yuǎn)不再合作的局面,那么A、B均會(huì)毫不猶豫地選擇坦白,因?yàn)檫@是一次囚徒博弈中的占優(yōu)策略。
第9次博弈會(huì)出現(xiàn)什么情況呢?A清楚地知道對(duì)方最后一次肯定選擇坦白。如果本次我選抵賴,對(duì)方可以選坦白而獲利。既然下一次已經(jīng)沒(méi)有合作的可能,為避免單獨(dú)入獄6個(gè)月的不幸發(fā)生,A決定第9次也選擇坦白。當(dāng)然B也會(huì)這樣推理,進(jìn)而選擇坦白。有限博弈:如果囚徒博弈進(jìn)行10次,那么結(jié)果會(huì)怎樣呢?
第8、7….1次博弈中,第9次的故事反復(fù)發(fā)生。所以只要博弈重復(fù)有限次,囚徒依然無(wú)法擺脫困境。
如果,囚徒博弈重復(fù)無(wú)數(shù)次,結(jié)果會(huì)怎樣呢?
當(dāng)博弈沒(méi)有最后一次時(shí),雙方均意識(shí)到無(wú)休止地坦白非明智之舉。
經(jīng)濟(jì)學(xué)家證明:“針?shù)h相對(duì)”的策略可以使博弈雙方境況得到改善。
“針?shù)h相對(duì)”的策略:第一局選擇抵賴(即表明愿意與對(duì)方合作),從第二局開(kāi)始采用對(duì)方上一局的策略。例如,如果對(duì)方第一局抵賴,那么我第二局依然抵賴;如果對(duì)方第一坦白,那么我第二局坦白。如果對(duì)方第二局抵賴,那么我第三局選擇抵賴,如此等等。
該策略相當(dāng)靈活,既可以對(duì)對(duì)方的背信進(jìn)行及時(shí)懲罰,又體現(xiàn)了寬恕的一面,即對(duì)每次背信僅處罰一次。28.7序貫博弈
迄今為止,我們考察的博弈均是兩個(gè)人同時(shí)采取行動(dòng)。本節(jié)我們學(xué)習(xí)一個(gè)人首先行動(dòng),然后,另一個(gè)人再作出反應(yīng)。第27章描述的斯塔克伯格模型就是這樣的例子。
一個(gè)序貫博弈的例子:第一階段,參與人A選擇“上”或“下”。參與人B觀察到A的選擇,再選擇“左”或“右”,該博弈的收益矩陣如下所示:參與人B左右參與人A上1,91,9下0,02,1
此處介紹一種尋找納什均衡的簡(jiǎn)便方法——畫(huà)線法:前者縱向比,大者下面畫(huà)線;后者橫向比,大者下面畫(huà)線;出現(xiàn)兩條線者即納什均衡。我們對(duì)收益矩陣畫(huà)線,得到兩個(gè)納什均衡:(上,左)(下,右)原因在于收益矩陣在描述序貫博弈時(shí),無(wú)法體現(xiàn)參與雙方的策略是序貫做出的,因此描述序貫博弈我們采用博弈樹(shù)或博弈的擴(kuò)展形式來(lái)描述。
而實(shí)際上,這兩個(gè)納什均衡中有一個(gè)是不合理。AB上B左左右右下1,91,90,02,1博弈的擴(kuò)展形式參與人B左右參與人A上1,91,9下0,02,1AB上B左左右右下1,91,90,02,1序貫博弈中,先行者需要分析跟隨者的反應(yīng),因此,分析博弈樹(shù)是由后往前推算。首先考慮B的選擇:如果A選“下”,如果A選“上”,那么B選“左”或“右”無(wú)差異;那么B選“右”比較明智(1>0)。A上1,9下2,1經(jīng)過(guò)上述分析,博弈樹(shù)可變成如下形式:然后考慮A的選擇,A上1,9下2,1如果選“上”,得1;如果選“下”,可得2。因此A的最優(yōu)選擇是“下”。當(dāng)先行者A選“下”,B的最優(yōu)選擇是“右”,因此該序貫博弈的均衡為(下,右)在該序貫博弈中,我們依據(jù)收益矩陣找到的N.E.(上,左)并不是合理的均衡,因?yàn)锳選擇“上”是愚蠢的。
從博弈的結(jié)果看,B非常不幸,最終他只能得到1而非9。面臨巨大落差,B極有可能威脅A,聲稱如果A選“下”,那他就選“左”,讓大家一無(wú)所獲。AB上B左左右右下1,91,90,02,1
A對(duì)B的威脅不予理睬,因?yàn)锳一旦選“下”,B就考慮自己的利益,明智地選“右”而非“左”。針對(duì)B的威脅,A會(huì)如何反應(yīng)?B為了改善自己的境況,就必須讓A相信自己的威脅。
B可以跟第三方簽一個(gè)合約,規(guī)定如果A選“下”,B若選“右”,B支付第三方2。右AB上左右1,91,9B左下0,02,1-2=-1若A知道B簽了類似合約,就知道如果自己選“下”,B一定選“左”(0>-1),那么為避免一無(wú)所獲,A就會(huì)選“上”。本章小結(jié)1、納什均衡的概念及應(yīng)用2、納什均衡應(yīng)用中的問(wèn)題(不唯一、不存在、無(wú)效率)3、序貫博弈求解應(yīng)用逆向歸納法。第29章博弈論的應(yīng)用
本章我們考察博弈論中4個(gè)非常重要的問(wèn)題——合作問(wèn)題、競(jìng)爭(zhēng)問(wèn)題、共存問(wèn)題和承諾問(wèn)題。
首先了解一個(gè)重要的分析工具——最優(yōu)反應(yīng)曲線(反應(yīng)函數(shù)的圖像)。29.1最優(yōu)反應(yīng)曲線
考慮一個(gè)雙人博弈,假定你是其中的一個(gè)參與人。對(duì)另外一人的任何選擇,你的最優(yōu)反應(yīng)就是使你的收益最大化。B的選擇:左A的選擇:上列參與人B左右行參與人A上2,10,0下0,01,2A的最優(yōu)反應(yīng):上B的最優(yōu)反應(yīng):左B的選擇:右A的最優(yōu)反應(yīng):下B的最優(yōu)反應(yīng):右A的選擇:下如果行參與人A的可能選擇r1(上),r2(下),…….,列參與人B的可能選擇c1(左),c2(右)…….。對(duì)于行參與人A的每一個(gè)選擇r,列參與人B的最優(yōu)反應(yīng)函數(shù)為:對(duì)于行參與人B的每一個(gè)選擇c,行參與人A的最優(yōu)反應(yīng)函數(shù)為:在上例中,列參與人B的最優(yōu)反應(yīng)函數(shù):行參與人A的最優(yōu)反應(yīng)函數(shù):列參與人B左右行參與人A上2,10,0下0,01,2納什均衡是使得以下兩個(gè)式子成立的一個(gè)策略組合上例中納什均衡為(上,左)(下,右),這兩個(gè)組合滿足:納什均衡一旦實(shí)現(xiàn),A、B均滿意,無(wú)人愿意偏離該狀態(tài)。最優(yōu)反應(yīng)曲線(函數(shù))提供了一種相對(duì)簡(jiǎn)單的求解納什均衡的方法。在第27章求解古諾均衡時(shí),實(shí)際就是最優(yōu)反應(yīng)曲線的應(yīng)用:兩個(gè)廠商的反應(yīng)函數(shù)如下:聯(lián)立上述反應(yīng)函數(shù),得到古諾均衡(也是納什均衡)。29.2混合策略本節(jié)利用最優(yōu)反應(yīng)曲線來(lái)尋求混合策略納什均衡和純策略納什均衡。列參與人B左c右(1-c)行參與人A上r2,10,0下(1-r)0,01,2
我們令A(yù)選擇上的概率為r,那么(1-r)就表示選下的概率。c表示B選擇左的概率,那么(1-c)就表示選右的概率。當(dāng)r為0時(shí),表示A選下;c為0時(shí),表示B選右。參與人面臨的是不確定下的選擇,因此我們利用期望效用最大化分析雙方的選擇。A的期望收益=2rc+(1-r)(1-c)=3rc-r-c+1A的邊際期望收益(MR=dR/dr)=3c-1列參與人B左c右(1-c)行參與人A上r2,10,0下(1-r)0,01,2c>1/3,MR>0,提高r可以使收益增大,r最大為1。根據(jù)以上特點(diǎn)可以畫(huà)出A的最優(yōu)反應(yīng)曲線:rc1/301A的最優(yōu)反應(yīng)曲線A的邊際期望收益(MR=dR/dr)=3c-1c=1/3,MR=0,期望收益達(dá)到最大值,r為[0,1]任意值;c<1/3,MR<0,降低r可以使收益增大,r最小為0;1列參與人B左c右(1-c)行參與人A上r2,10,0下(1-r)0,01,2B的期望收益=1rc+2(1-r)(1-c)=3rc-2r-2c+2B的邊際期望收益(MR=dR/dc)=3r-2根據(jù)以上特點(diǎn)可以畫(huà)出B的最優(yōu)反應(yīng)曲線:102/3B的最優(yōu)反應(yīng)曲線B的邊際期望收益(MR=dR/dc)=3r-2r=2/3,MR=0,期望收益達(dá)到最大值,c為[0,1]任意值;r<2/3,MR<0,降低c可以使收益增大,c最小為0;r>1/3,MR>0,提高c可以使收益增大,c最大為1。rc將A、B的最優(yōu)反應(yīng)曲線放在一個(gè)象限中:1/311c0r三個(gè)交點(diǎn)分別對(duì)應(yīng)兩個(gè)純策略納什均衡(下,右)、(上,左)和一個(gè)混合策略納什均衡(A以2/3的概率選上,B以1/3的概率選左)。2/3列參與人B左c右(1-c)行參與人A上r2,10,0下(1-r)0,01,2兩條最優(yōu)曲線有三個(gè)交點(diǎn):(0,0),(1,1),(2/3,1/3)29.3合作博弈
本節(jié)利用上節(jié)介紹的分析工具考察協(xié)調(diào)博弈。在該類博弈中,當(dāng)參與人能夠協(xié)調(diào)他們之間的策略時(shí),他們的收益就會(huì)實(shí)現(xiàn)最大化。性別戰(zhàn)男女約會(huì)看電影,男喜歡動(dòng)作片,女喜歡文藝片,但他們寧愿看一部電影也不愿單獨(dú)行動(dòng)。他們的收益矩陣如下:女孩動(dòng)作片文藝片男孩動(dòng)作片2,10,0文藝片0,01,2我們已經(jīng)知道,該博弈有三個(gè)納什均衡:(動(dòng)作片,動(dòng)作片)、(文藝片,文藝片)、(男孩以2/3的概率選動(dòng)作片,女孩以1/3的概率選動(dòng)作片)這取決于有關(guān)該博弈的正式描述以外的因素,例如男孩事先已經(jīng)買(mǎi)好了動(dòng)作片的票,于是一起看動(dòng)作片將是最終的選擇。當(dāng)參與人完全有理由相信,其中的一個(gè)均衡相對(duì)于其他均衡更為“自然”時(shí),這個(gè)均衡稱作博弈的聚點(diǎn)。例如,動(dòng)作片的主演是成龍,上述博弈的結(jié)果很有可能是大家不約而同的一起看動(dòng)作片。三個(gè)納什均衡到底哪個(gè)會(huì)發(fā)生呢?囚徒困境參與人B坦白抵賴參與人A坦白-3,-30,-6抵賴-6,0-1,-1囚徒困境也是一個(gè)協(xié)調(diào)博弈,雙方如果可以協(xié)調(diào)一致,共同抵賴,雙方的境況均有明顯改觀。問(wèn)題是大家在一次博弈中不會(huì)相互合作。1、無(wú)限重復(fù)博弈2、締結(jié)合約懲罰不合作的行為解決問(wèn)題的方式有兩種:保證博弈考慮20世紀(jì)50年代美蘇的軍事競(jìng)賽。兩個(gè)國(guó)家都可以選擇生產(chǎn)核彈,也可以選擇不生產(chǎn)。雙方都不生產(chǎn)的收益(4,4);都生產(chǎn)的收益(2,2);一方生產(chǎn)時(shí),生產(chǎn)者得3,不生產(chǎn)者得1。收益矩陣如下:蘇聯(lián)不生產(chǎn)生產(chǎn)美國(guó)不生產(chǎn)4,41,3生產(chǎn)3,12,2畫(huà)線法可知這里有兩個(gè)純策略納什均衡:(不生產(chǎn),不生產(chǎn))、(生產(chǎn),生產(chǎn))如果一方保證不生產(chǎn),并給予充分的證據(jù)說(shuō)明確實(shí)沒(méi)有生產(chǎn)的話,可以確信另一方也會(huì)停止生產(chǎn)。例如美國(guó)保證不生產(chǎn),那么蘇聯(lián)也會(huì)選不生產(chǎn)(4>3);如果蘇聯(lián)保證不生產(chǎn),那么美國(guó)也會(huì)選不生產(chǎn)(3>2)。顯然(不生產(chǎn),不生產(chǎn))對(duì)雙方均是較好的選擇。問(wèn)題是任何一方均不知道對(duì)方的實(shí)際選擇。斗雞博弈兩個(gè)年輕人分別從一條街的兩頭,駕車(chē)駛向?qū)Ψ?。先躲避的顏面盡失;如果沒(méi)人躲避,雙方車(chē)毀人亡,收益矩陣如下:參與人B轉(zhuǎn)向不轉(zhuǎn)向參與人A轉(zhuǎn)向0,0-1,1不轉(zhuǎn)向1,-1-2,-2畫(huà)線法可知這里有兩個(gè)純策略納什均衡:(A不轉(zhuǎn)向,B轉(zhuǎn)向),(A轉(zhuǎn)向,B不轉(zhuǎn)向)。問(wèn)題是哪個(gè)純策略納什均衡會(huì)發(fā)生呢?如果A事先將方向盤(pán)鎖住,并且讓B知道,那么B很可能就選擇轉(zhuǎn)向了,畢竟車(chē)毀人亡太瘋狂了。如何協(xié)調(diào)通過(guò)以上的分析,在保證博弈、性別戰(zhàn)和斗雞博弈中某參與人可以事先采取行動(dòng),并承諾選擇某個(gè)策略來(lái)實(shí)現(xiàn)合作共贏。
囚徒困境中的參與人如果想達(dá)成合作,除了事先做出承諾外,關(guān)鍵在于對(duì)雙方行動(dòng)的制約,例如簽定懲罰合約。29.4競(jìng)爭(zhēng)博弈
與協(xié)調(diào)相對(duì)應(yīng)的是競(jìng)爭(zhēng)博弈,也稱為零和博弈,即在博弈中,一方的收益即另一方的損失。
實(shí)際上,大多數(shù)競(jìng)技體育項(xiàng)目都是零和博弈。我們通過(guò)足球比賽中的罰點(diǎn)球來(lái)分析零和博弈。行參與人罰點(diǎn)球,列參與人守門(mén)。行參與人可以踢向球門(mén)的左方或右方,守門(mén)員可能撲向左方或右方。A踢向左方,B撲向右方,進(jìn)球概率為80%,
B撲向左方,進(jìn)球概率為50%;A踢向右方,B撲向左方,進(jìn)球概率為90%,
B撲向右方,進(jìn)球概率為20%。收益矩陣如下:守門(mén)員B左右罰球者A左50,-5080,-80右90,-9020,-20每一方格中的總收益為0,這顯示參與人的得分完全相反。
在該博弈中,如果守門(mén)員能夠知道罰球者的踢球方向,進(jìn)球的概率大大降低。罰球者為使守門(mén)員猜不透自己的意圖,很可能有時(shí)踢向擅長(zhǎng)的一方,有時(shí)踢向不擅長(zhǎng)的一方,即采取混合策略。
如果罰球者選擇踢向左方的概率為p,那么B撲向左方時(shí),A的期望收益=50p+90(1-p)=90-40p;當(dāng)B撲向右方時(shí),A的期望收益=80p+20(1-p)=20+60p。守門(mén)員B左右罰球者A左p50,-5080,-80右(1-p)90,-9020,-20當(dāng)B撲向左方時(shí),A的期望收益=50×0.5+90×0.5=70當(dāng)B撲向右方時(shí),A的期望收益=80×0.5+20×0.5=50
以上推理過(guò)程守門(mén)員一清二楚,如果罰球者踢向左方的概率為0.5,那守門(mén)員會(huì)毫不猶豫地?fù)湎蛴曳剑驗(yàn)檫@樣罰球者的期望收益最小。守門(mén)員B左右罰球者A左0.550,-5080,-80右0.590,-9020,-20
舉例來(lái)說(shuō),假定罰球者踢向左方的概率為0.5。罰球者A該如何確定自己的策略呢?罰球者知道,守門(mén)員總是試圖最小化他的期望收益。守門(mén)員撲向左還是右,取決于罰球者的選擇(踢向左的概率p)。給定p,如果90-40p>20+60p(即罰球者在守門(mén)員撲向左時(shí)期望收益較大),那么守門(mén)員一定撲向右,結(jié)果罰球者期望收益為20+60p。否則,罰球者期望收益為90-40p。pA的收益01905090-40p208020+60p紅色折線即罰球者的期望收益線。
顯然,紅色線段的最高點(diǎn)位于兩條直線的交點(diǎn)處。50p+90(1-p)=80p+20(1-p)解得p=0.7
當(dāng)罰球者以70%的概率踢向左方時(shí),此時(shí)的期望收益=50*0.7+90*0.3=62。pA的收益01905090-40p208020+60p0.762守門(mén)員B左q右(1-q)罰球者A左50,-5080,-80右90,-9020,-20守門(mén)員B該如何確定撲向左的概率q?當(dāng)A踢向左時(shí),A的期望收益=50q+80(1-q)=80-30q;當(dāng)A踢向右時(shí),A的期望收益=90q+20(1-q)=20+70q。qA的收益01209020+70q805080-30q給定q,如果80-30q>20+70p(即罰球者踢向左時(shí)期望收益較大),那么A一定踢向左,結(jié)果罰球者期望收益為80-30q。否則,罰球者期望收益為20+70q。A的期望收益線顯然,下式成立時(shí)藍(lán)色線段達(dá)到最低點(diǎn)。50q+80(1-q)=90q+20(1-q)解得q=0.6。至此,我們已經(jīng)計(jì)算出了均衡策略組合:(0.7、0.6)即:(罰球者以0.7的概率踢向左方,守門(mén)員以0.6的概率撲向左方)守門(mén)員通過(guò)選擇q使罰球者的期望收益最小(自己的期望收益最大)反應(yīng)曲線法求均衡守門(mén)員撲向左方的收益=p(-50)+(1-p)(-90)=40p-90=-62;守門(mén)員撲向右方的收益=p(-80)+(1-p)(-20)=-20-60p=-62,守門(mén)員的最優(yōu)反應(yīng)q=[0,1]守門(mén)員左q右罰球者左p50,-5080,-80右90,-9020,-20當(dāng)罰球者踢向左方的概率p=0.7時(shí),守門(mén)員的最優(yōu)反應(yīng)q=1(撲向左)。同理,當(dāng)罰球者踢向左方的概率p<0.7時(shí),守門(mén)員的最優(yōu)反應(yīng)q=0(撲向右)。守門(mén)員左q右罰球者左p50,-5080,-80右90,-9020,-20當(dāng)罰球者踢向左方的概率p>0.7時(shí),守門(mén)員撲向左方的收益=p(-50)+(1-p)(-90)=40p-90>-62;守門(mén)員撲向右方的收益=p(-80)+(1-p)(-20)=-20-60p<-62;0.7守門(mén)員的最優(yōu)反應(yīng)曲線P<0.7q=0P=0.7q=[0,1]P>0.7q=1pq罰球者踢向左的概率守門(mén)員撲向左的概率綜上:1罰球者的最優(yōu)反應(yīng)曲線10.6q>0.6p=0q=0.6p=[0,1]q<0.6p=1類似地:pq罰球者踢向左的概率守門(mén)員撲向左的概率將兩條最優(yōu)反應(yīng)曲線放在一起:0.61qp0.7混合策略納什均衡守門(mén)員的最優(yōu)反應(yīng)曲線罰球員的最優(yōu)反應(yīng)曲線29.5共存博弈
博弈論可以用來(lái)解釋動(dòng)物進(jìn)化行為。有關(guān)動(dòng)物互動(dòng)的一個(gè)著名例子是鷹-鴿博弈。
考慮兩只豺狗同時(shí)遇到一塊食物,它們決定是爭(zhēng)斗還是分享食物。這個(gè)博弈的收益矩陣如下:B鷹派鴿派A鷹派-2,-24,0鴿派0,42,2畫(huà)線法確定純策略納什均衡。B鷹派p鴿派1-pA鷹派p-2,-24,0鴿派1-p0,42,2
此處的混合納什均衡需要確定是鴿派與鷹派在豺狗中的穩(wěn)定比例。假定鷹派的比例為p,鴿派的比例為(1-p)。該博弈還存在混合策略納什均衡鷹派的期望收益H=-2p+4(1-p)鴿派的期望收益D=0p+2(1-p)=2(1-p)假定具有較高收益的類型繁殖速度更快,并且它會(huì)將其采取的策略遺傳下去。那么,當(dāng)H>D時(shí),鷹派越來(lái)越多;當(dāng)H<D時(shí),鴿派越來(lái)越多。B鷹派p鴿派1-pA鷹派p-2,-24,0鴿派1-p0,42,2種群處于均衡狀態(tài)的唯一途徑就是H=D。H=-2p+4(1-p)=2(1-p)=Dp=1/2均衡的穩(wěn)定性討論0.5P>0.5,H<D,鷹派減少,p下降。P(鷹派比例)期望收益4鷹派收益H=4-6p2鴿派收益D=2(1-p)1P<0.5,H>D,鷹派增加,p上升;鷹鴿各占一半是進(jìn)化的結(jié)果,相當(dāng)穩(wěn)定。29.6承諾博弈本節(jié)我們轉(zhuǎn)向序貫博弈。此類博弈的一個(gè)重要策略問(wèn)題是承諾,例如斗雞博弈中,如果一人能夠強(qiáng)迫自己直線駕駛,那么另一人的最優(yōu)選擇就是轉(zhuǎn)向。注意:承諾要取得預(yù)期效果,不可撤銷性和可觀察性是至關(guān)重要的。青蛙蝎子背不背
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 單位管理制度分享大全人事管理篇十篇
- 單位管理制度呈現(xiàn)大合集人事管理十篇
- 《行政職業(yè)能力測(cè)驗(yàn)》山西省呂梁地區(qū)嵐縣2024年公務(wù)員考試全真模擬試卷含解析
- 《喜迎中秋模板》課件
- 新餐飲浪潮的魅力
- 重癥監(jiān)護(hù)室護(hù)士工作總結(jié)
- 婦科護(hù)士的工作心得
- 2023年-2024年項(xiàng)目部安全管理人員安全培訓(xùn)考試題及答案基礎(chǔ)題
- 2023-2024年項(xiàng)目管理人員安全培訓(xùn)考試題答案典型題匯編
- 2023年-2024年新員工入職安全教育培訓(xùn)試題含答案【突破訓(xùn)練】
- 光伏電站運(yùn)維詳細(xì)版手冊(cè)
- 食品安全應(yīng)急管理和突發(fā)事故報(bào)告制度
- 藝術(shù)學(xué)概論第一章-彭吉象
- 51job在線測(cè)評(píng)題集
- 2024新教科版一年級(jí)科學(xué)上冊(cè)全冊(cè)教案
- 2024兒童身高現(xiàn)狀報(bào)告
- 趣味知識(shí)問(wèn)答100道
- 紫砂壺介紹課件
- 2023年度學(xué)校食堂食品從業(yè)人員考核試題(附答案)
- 伊朗政府與政治課件
- 上交所金橋數(shù)據(jù)中心用戶手冊(cè)
評(píng)論
0/150
提交評(píng)論