演示文稿博弈論混合策略納什均衡_第1頁
演示文稿博弈論混合策略納什均衡_第2頁
演示文稿博弈論混合策略納什均衡_第3頁
演示文稿博弈論混合策略納什均衡_第4頁
演示文稿博弈論混合策略納什均衡_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(優(yōu)選)博弈論混合策略納什均衡目前一頁\總數(shù)六十六頁\編于十六點§剪刀、石頭、布的游戲每個同學跟后面一排對應的同學玩剪刀、石頭、布的游戲.玩二十次,將結(jié)果記下來贏了十次以上同學舉起手來告訴我你有什么秘決怎么樣才能贏得多?目前二頁\總數(shù)六十六頁\編于十六點§剪刀、石頭、布的游戲我們知道——如果博弈只進行一次,我們無法明確預測博弈的結(jié)果,不管是哪個博弈方,也不管他們的選擇是哪個策略,都不能保證得到較好的結(jié)果。根據(jù)我們上一章所學的方法,這個博弈沒有納什均衡。那么是不是意味著這樣的博弈中,你可以隨意選擇,結(jié)果都一樣呢?目前三頁\總數(shù)六十六頁\編于十六點§剪刀、石頭、布的游戲答案是否定的。事實上,局中人的選擇仍然是很有講究的,策略選擇的好壞對局中人的利益仍然有很大的影響。在這個零和博弈里,無論雙方采用哪種策略組合,結(jié)果都是一方輸一方贏,而輸?shù)囊环接挚偸强梢酝ㄟ^單獨改變策略而反輸為贏。如果哪個局中人能找到對手方的規(guī)律或者偏好,他就能猜測到對手的策略而采用針對性策略從而保證贏。目前四頁\總數(shù)六十六頁\編于十六點§剪刀、石頭、布的游戲因此,秘決在于——自己的策略選擇不能預先被對手方知道或猜測到,在該博弈的多次重復中,博弈方一定要避免自己的選擇具有規(guī)律性;觀察對手方策略選擇是否具有規(guī)律或者偏好,預先猜測對手策略,從而采用針對性策略贏得這個博弈。目前五頁\總數(shù)六十六頁\編于十六點§第三章混合策略納什均衡純策略(purestrategies):如果一個策略規(guī)定參與人在一個給定的信息情況下只選擇一種特定的行動?;旌喜呗?mixedstrategies):如果一個策略規(guī)定參與人在給定的信息情況下,以某種概率分布隨機地選擇不同的行動。在靜態(tài)博弈里,純策略等價于特定的行動,混合策略是不同行動之間的隨機選擇。目前六頁\總數(shù)六十六頁\編于十六點§期望支付與混合策略(mixedstrategies)相伴隨的一個問題,是局中人支付的不確定性(uncertainty).可用期望支付(expectedpayoff)來描述——有個n可能的取值X1,X2…,Xn

,并且這些取值發(fā)生的概率分別為p1,p2,…,pn,那么我們可以將這個數(shù)量指標的期望值定義為發(fā)生概率作為權(quán)重的所有可能取值的加權(quán)平均,也就是目前七頁\總數(shù)六十六頁\編于十六點政府和流浪漢的博弈政府想幫助流浪漢,但前提是后者必須試圖尋找工作,否則,不予幫助;而流浪漢若知道政府采用救濟策略的話,他就不會尋找工作。他們只有在得不到政府救濟時才會尋找工作。他們獲得的支付如圖所示:(3,2)(-1,3)(-1,1)(0,0)流浪漢尋找工作游閑政府救濟不救濟目前八頁\總數(shù)六十六頁\編于十六點思考:政府會采用純策略嗎?流浪漢呢?這個博弈有沒有純策略的納什均衡?——跟你玩剪子石頭布游戲一樣,你會一直采用純策略嗎?那么政府和流浪漢最有可能采用什么策略?——使自己的預期支付最大化?!裟軌虿碌膶Ψ降牟呗裕涂梢圆捎冕槍π缘牟呗?,使自己的支付增加。政府和流浪漢的博弈目前九頁\總數(shù)六十六頁\編于十六點求解混合策略納什均衡

1、假定政府采用混合策略:2、流浪漢的混合策略為:目前十頁\總數(shù)六十六頁\編于十六點對上述效用函數(shù)求微分,得到政府最優(yōu)化的一階條件為:就是說,從政府的最優(yōu)化條件找到流浪漢混合策略——流浪漢以0.2的概率選擇尋找工作,0.8的概率選擇游閑。解一:支付最大化那么,政府的期望效用函數(shù)為:目前十一頁\總數(shù)六十六頁\編于十六點流浪漢的期望效用函數(shù)為:解一:支付最大化目前十二頁\總數(shù)六十六頁\編于十六點解二:支付等值法政府選擇救濟策略政府選擇不救濟策略如果一個混合策略是流浪漢的最優(yōu)選擇,那一定意味著政府在救濟與不救濟之間是無差異的,即:目前十三頁\總數(shù)六十六頁\編于十六點解二:支付等值法如果一個混合策略是政府的最優(yōu)選擇,那一定意味著流浪漢在尋找工作與游閑之間是無差異的,即:目前十四頁\總數(shù)六十六頁\編于十六點如果政府救濟的概率小于0.5;則流浪漢的最優(yōu)選擇是尋找工作;如果政府救濟的概率大于0.5;則流浪漢的最優(yōu)選擇是游閑等待救濟。如果政府救濟的概率正好等于0.5;流浪漢的選擇無差異。政府和流浪漢的博弈目前十五頁\總數(shù)六十六頁\編于十六點討論上面的均衡要求每個參與人以特定的概率選擇純策略。也就是說,一個參與人選擇不同策略的概率不是由他自己的支付決定的,而是由他的對手的支付決定的。正是由于這個原因,許多人認為混合策略納什均衡是一個難以令人滿意的概念。事實上,正是因為它在幾個(或全部)策略之間是無差異的,他的行為才難以預測,混合策略納什均衡才會存在。目前十六頁\總數(shù)六十六頁\編于十六點討論盡管混合策略不像純策略那樣直觀,但它確實是一些博弈中參與人的合理行為方式。撲克比賽、壘球比賽、劃拳就是這樣的例子,在這一類博弈中,參與比賽的總是隨機行動以使自己的行為不被對方所預測。經(jīng)濟學上的監(jiān)督博弈也是這樣一個例子。如稅收檢查、質(zhì)量檢查、懲治犯罪、雇主監(jiān)督雇員等都可以看成猜謎博弈。目前十七頁\總數(shù)六十六頁\編于十六點納什均衡的存在性納什定理:在一個由n個博弈方的博弈中,如果n是有限的,且都是有限集(對),則該博弈至少存在一個納什均衡,但可能包含混合策略。證明過程省略,主要根據(jù)是布魯威爾和角谷的不動點定理。納什均衡的普遍存在性正是納什均衡成為非合作博弈分析核心概念的根本原因之一。目前十八頁\總數(shù)六十六頁\編于十六點§撲克牌對色游戲甲乙玩撲克牌對色游戲,每人都有紅黑兩張撲克牌,約定如果出牌顏色一樣,甲輸乙贏,如果出牌顏色不一樣,則甲贏乙輸。找到這個博弈的納什均衡。-1,11,-11,-1-1,1紅黑乙甲紅黑目前十九頁\總數(shù)六十六頁\編于十六點§反應函數(shù)法假設甲、乙均采用混和策略,隨機地以p的概率出紅牌和以(1-p)的概率出黑牌,而乙則隨機地以q的概率出紅牌和以(1-q)的概率出黑牌。-1,11,-11,-1-1,1紅q黑1-q乙甲紅p黑1-p目前二十頁\總數(shù)六十六頁\編于十六點§反應函數(shù)A的目標是期望支付越大越好。我們之所以把A的期望支付整理成不含p的一項和含p的一項這個樣子,是因為A只能選擇p而不能q,因此,A能通過選擇p來影響第一項,而不能直接影響第二項。(1-2q)>0即q<1/2時,A把p選擇等于1最好;當(1-2q)<0即q>1/2時,A把p選擇等于0最好;當(1-2q)=0即q=1/2時,A可以在[0,1]之間隨便選擇一個p。這樣我們可以得到A的反應函數(shù)是,同樣道理我們可以得到B的反應函數(shù)。

0,如果q>1/21,如果p>1/2p[0,1],如果q=1/2q[0,1],如果p=1/21,如果q<1/20,如果p<1/2目前二十一頁\總數(shù)六十六頁\編于十六點§反應函數(shù)曲線相應方法pq1/21納什均衡是A和B都出紅牌或者黑牌的概率是一半對一半

1/21目前二十二頁\總數(shù)六十六頁\編于十六點練習:稅收檢查(監(jiān)督博弈)設定a是應納稅款;C是檢查成本;F是罰款,假定是C<a+F??纯词欠翊嬖诩儾呗约{什均衡?混合策略納什均衡在哪里?目前二十三頁\總數(shù)六十六頁\編于十六點字母說明此博弈不存在純策略納什均衡。我們用p代表稅收機關(guān)檢查的概率;q代表納稅人逃稅的概率。目前二十四頁\總數(shù)六十六頁\編于十六點求解:混合戰(zhàn)略納什均衡之一假定納稅人采用混合策略達到最優(yōu)選擇時,則稅收機關(guān)在檢查和不檢查兩種策略的期望收益相等:(a-C+F)q+(a-C)(1-q)=a(1-q)q*=C/(a+F)目前二十五頁\總數(shù)六十六頁\編于十六點說明如果納稅人逃稅的概率小于q*,則q<C/a+F

,稅收機關(guān)的最優(yōu)選擇是不檢查;如果納稅人逃稅的概率大于q*,則q>C/a+F

,稅收機關(guān)的最優(yōu)選擇是檢查;如果納稅人逃稅的概率等于q*,則q=C/a+F

,稅收機關(guān)隨機地選擇檢查或不檢查。目前二十六頁\總數(shù)六十六頁\編于十六點之二假設采用混合策略是稅務機關(guān)的最優(yōu)選擇那么給定p

,納稅人選擇逃稅和不逃稅的期望收益相等:-(a+F)p

+0(1-p)=-a得p

*=a/(a+F)目前二十七頁\總數(shù)六十六頁\編于十六點說明如果稅收機關(guān)檢查概率小于p*,即p<a/(a+F),納稅人的最優(yōu)選擇是逃稅;如果稅收機關(guān)檢查的概率大于p*,即p=a/(a+F),納稅人的最優(yōu)選擇是不逃稅;如果稅收機關(guān)檢查的概率等于p*,即p=a/(a+F),納稅人的選擇無差異。目前二十八頁\總數(shù)六十六頁\編于十六點混合戰(zhàn)略納什均衡p

*=a/(a+F),q*=C/(a+F)即稅收機關(guān)以a/(a+F)的概率檢查,納稅人以C/(a+F)的概率選擇逃稅。這個均衡的另一個可能的解釋是,經(jīng)濟中有許多個納稅人,其中有C/(a+F)的比例的納稅人選擇逃稅,(1-C/(a+F))比例選擇不逃稅;稅收機關(guān)隨機地檢查a/(a+F)比例的納稅人的納稅情況。思考一下:在這個博弈中,檢查成本C,罰款F和應納稅款數(shù)額a對納稅人逃稅的影響是怎么樣的?為什么會有這樣的影響?目前二十九頁\總數(shù)六十六頁\編于十六點在這個博弈中,檢查成本C越高,納稅人逃稅的概率越大;罰款F越高,納稅人逃稅的概率越小;應納稅款越大,納稅人逃稅的概率反而越小。應納稅款越大,納稅人逃稅的概率反而越???這跟我們的假設有關(guān),假定一檢查逃稅行為就會被發(fā)現(xiàn);假定檢查成本一定,而不是跟應交稅額有關(guān),即應交稅額越大,檢查成本越高;不考慮納稅人在應交稅額高時賄賂稅務人員的積極性越高的情況。如果放開這些假設,其結(jié)果就有可能與現(xiàn)實更貼近。納稅稅款越高,納稅人逃稅的概率越高。目前三十頁\總數(shù)六十六頁\編于十六點答案:用反應曲線法找到政府與流浪漢博弈的混合策略納什均衡目前三十一頁\總數(shù)六十六頁\編于十六點練習:混合策略的納什均衡

下面的博弈是否存在純策略的納什均衡,如果沒有采用混合策略納什均衡分析。試用支付最大化法和支付等值法兩種方法算一算混合策略的納什均衡是多少?通過反應曲線,求得混合策略的納什均衡.2,35,23,11,5CDAB博弈方2博弈方1目前三十二頁\總數(shù)六十六頁\編于十六點對于博弈方1采用的混合策略,博弈方2的支付無差異對于博弈方2采用的混合策略,博弈方1的支付無差異策略得益博弈方1(0.8,0.2)2.6博弈方2(0.8,0.2)2.6解出PA=0.8,PB=0.2;PC=0.8,PD=0.2目前三十三頁\總數(shù)六十六頁\編于十六點夫妻之爭的混合策略納什均衡看看這個博弈有幾個均衡?2,10,00,01,3時裝足球時裝足球丈夫妻子夫妻之爭目前三十四頁\總數(shù)六十六頁\編于十六點存在兩個純策略均衡2,10,00,01,3時裝足球時裝足球丈夫妻子夫妻之爭目前三十五頁\總數(shù)六十六頁\編于十六點還存在混合策略納什均衡2,10,00,01,3時裝C足球F時裝C足球F丈夫妻子夫妻之爭妻子的混合策略丈夫的混合策略夫妻之爭博弈的混合策略納什均衡策略得益博弈方1(0.75,0.25)0.67博弈方2(1/3,2/3)0.75目前三十六頁\總數(shù)六十六頁\編于十六點夫妻之爭博弈rq111/31/3(r,1-r):丈夫的混合策略概率分布(q,1-q):妻子的混合策略概率分布目前三十七頁\總數(shù)六十六頁\編于十六點練習如何畫反應曲線在以下收益矩陣,我們令參與人A選擇“上”的概率為r,選擇“下”的概率為1-r,同樣,我們令參與人B選擇“左”的概率為c,選擇“右”的概率為1-c。當r和c等于0時,相應的策略為純策略。根據(jù)收益矩陣和參與人選擇的概率,可以得到參與人的期望收益。同學A同學B上r下1-r左c右1-c2,10,00,01,2目前三十八頁\總數(shù)六十六頁\編于十六點根據(jù)上表,參與人A的期望收益為:2rc+(1-r)(1-c)。即:2rc+1-r-c+rc。如果r增加了△r,A的收益變化為:2c△r-△r+c△r=(3c-1)△r。即如果3c>1時,A將增加r,如果3c<1,A將減少r,如果3c=1時,他對于任意的0≤r≤1無差異。組合概率參與人A的收益上,左rc2下,左(1-r)c0上,右r(1-c)0下,右(1-r)(1-c)1目前三十九頁\總數(shù)六十六頁\編于十六點根據(jù)同樣的方法,得到參與人B的期望受益:cr+2(1-c)(1-r)。當c增加△c時,B的收益變化為:(3r-2)△c。因此,當r>2/3時,B增加c將增加收益;當r<2/3時,B將減少c;當r=2/3時,他對于任意的0≤c≤1無差異。利用以上兩個結(jié)論可以繪制參與人的最優(yōu)反映曲線。目前四十頁\總數(shù)六十六頁\編于十六點如果參與人B選擇c=0,那么參與人A將減少r,使r盡可能小,所以r=0。因此,參與人A使r=0就是對c=0的最優(yōu)反應。并且,r=0一直都是A的最優(yōu)反應,直至c=1/3。當c=1/3,0≤r≤1都是A的最優(yōu)反應。對于所有的c>1/3,行參與人的最優(yōu)反應是r=1。?0?c1/3r1?1?A的反應曲線?2/3?B的反應曲線???三個紅色的點為納什均衡,兩個為純策略均衡。目前四十一頁\總數(shù)六十六頁\編于十六點§多重納什均衡及其甄別帕累托優(yōu)勢標準風險優(yōu)勢標準帕累托優(yōu)勢標準和風險優(yōu)勢標準聚點均衡相關(guān)均衡抗共謀均衡目前四十二頁\總數(shù)六十六頁\編于十六點看看這個博弈有幾個純策略納什均衡?-5,-5-10,88,-1010,10戰(zhàn)爭和平國家2戰(zhàn)爭和平國家1戰(zhàn)爭與和平博弈帕累托優(yōu)勢標準目前四十三頁\總數(shù)六十六頁\編于十六點帕累托優(yōu)勢標準這個博弈中有兩個純策略納什均衡,(戰(zhàn)爭,戰(zhàn)爭)和(和平,和平),顯然后者帕累托優(yōu)于前者,所以,(和平,和平)是本博弈的一個按帕累托優(yōu)勢標準篩選出來的納什均衡。-5,-5-10,88,-1010,10戰(zhàn)爭和平國家2戰(zhàn)爭和平國家1戰(zhàn)爭與和平博弈目前四十四頁\總數(shù)六十六頁\編于十六點風險優(yōu)勢標準若考慮到或者說是顧忌到其他博弈方可能發(fā)生錯誤的原因,帕累托上策均衡并不一定是最優(yōu)選擇,還需要比較風險優(yōu)勢。下面就是兩個例子。9,98,00,87,7LR博弈方2UD博弈方1風險上策均衡(D,R)目前四十五頁\總數(shù)六十六頁\編于十六點風險優(yōu)勢標準從風險優(yōu)勢標準衡量,帕累托上策均衡(鹿,鹿)并是最優(yōu)選擇,因為一旦對手方犯了錯誤,暈了頭,選擇了鹿的策略時,你的支付就會由5變成0!你會選擇這么高風險的策略嗎?而(兔,兔)的策略組合,當對手方犯了錯誤,暈了頭,選擇了鹿的策略時,你的支付還是3,并沒有損失!5,53,00,33,3鹿兔獵人2鹿兔獵人1獵鹿博弈目前四十六頁\總數(shù)六十六頁\編于十六點聚點均衡聚點均衡是利用博弈設定以外的信息和依據(jù)選擇的均衡。文化、習慣、心理或者其他各種特征都可能是聚點均衡的依據(jù)。城市博弈(城市分組相同)、時間博弈(報出相同的時間)是聚點均衡的典型例子。目前四十七頁\總數(shù)六十六頁\編于十六點城市博弈:聚點均衡的例子游戲:請兩個同學上來將四個城市進行分組,分成兩組,每組兩個城市。如果分組方法相同,則每人平時分加5分。目前四十八頁\總數(shù)六十六頁\編于十六點城市博弈:聚點均衡的例子這四個城市是:上海、長春、哈爾濱、南京目前四十九頁\總數(shù)六十六頁\編于十六點相關(guān)均衡5,14,40,01,5LR博弈方2UD博弈方1相關(guān)均衡例子三個納什均衡:無論是純策略的納什均衡(U,L)、(D,R);混合策略的納什均衡(1/2,1/2),結(jié)果都不理想,不如(U,L)、(D,R)、(D,L)。利用聚點均衡(天氣,拋硬幣),但仍不理想。目前五十頁\總數(shù)六十六頁\編于十六點相關(guān)均衡相關(guān)裝置:1、各1/3概率A、B、C2、博弈方1看到是否A,博弈方2看到是否C3、博弈方1見A采用U,否則D;博弈方2見C采用R,否則L。相關(guān)均衡要點:1、構(gòu)成納什均衡2、有人忽略不會造成問題目前五十一頁\總數(shù)六十六頁\編于十六點一、多人博弈中的共謀問題這個博弈純策略的納什均衡是什么?0,0,10-5,-5,0-5,-5,01,1,-5LRUD博弈方2博弈方1博弈方3——A-2,-2,0-5,-5,0-5,-5,0-1,-1,5LRUD博弈方2博弈方1博弈方3——B共謀和抗共謀均衡目前五十二頁\總數(shù)六十六頁\編于十六點本博弈的純策略納什均衡:(U,L,A)、(D,R,B)前者帕累托優(yōu)于后者。博弈的結(jié)果會是什么呢?(U,L,A)有共謀(Coalition)問題:博弈方1和2同時偏離。0,0,10-5,-5,0-5,-5,01,1,-5LRUD博弈方2博弈方1博弈方3——A-2,-2,0-5,-5,0-5,-5,0-1,-1,5LRUD博弈方2博弈方1博弈方3——B共謀和抗共謀均衡目前五十三頁\總數(shù)六十六頁\編于十六點博弈的結(jié)果會是什么呢?(U,L,A)有共謀(Coalition)問題:博弈方1和2同時偏離。(D,R,B)是防共謀均衡!0,0,10-5,-5,0-5,-5,01,1,-5LRUD博弈方2博弈方1博弈方3——A-2,-2,0-5,-5,0-5,-5,0-1,-1,5LRUD博弈方2博弈方1博弈方3——B共謀和抗共謀均衡目前五十四頁\總數(shù)六十六頁\編于十六點防共謀均衡

如果一個博弈的某個策略組合滿足下列要求,稱為“防共謀均衡”:(1)沒有任何單個博弈方的“串通”會改變博弈的結(jié)果,即單獨改變策略無利可圖;(2)給定選擇偏離的博弈方有再次偏離的自由時,沒有任何兩個博弈方的串通會改變博弈的結(jié)果;(3)依此類推,直到所有博弈方都參加的串通也不會改變博弈的結(jié)果。

前面例子中:(D,R,B)是防共謀均衡(U,L,A)不是防共謀均衡目前五十五頁\總數(shù)六十六頁\編于十六點一點說明存在博弈的納什均衡,并意味參與者一定不拒絕這種納什均衡。目前五十六頁\總數(shù)六十六頁\編于十六點練習:競爭博弈競爭博弈是一種零和博弈,即博弈一方的收益等于另一方的損失。多數(shù)體育競技項目都是零和博弈:一個組的1分等價于另一個組失去一分。參與人之間的利益是完全相反的。例如,在一個足球比賽中,前鋒主罰點球,守門員防守。如果守門員撲錯了方向,前鋒得分的可能性大一些。同時,前鋒可能善于踢向某一個方向,而守門員可能善于撲向某一個方向。但雙方都有朝兩個方向的可能。目前五十七頁\總數(shù)六十六頁\編于十六點假定如果前鋒踢向球門的左方,當守門員撲向右方時,前鋒將是得分的把握80%,當守門員撲向左方時,前鋒得分的把握50%。如果前鋒踢向球門的右方,當守門員撲向左方時,前鋒得分的把握90%,當守門員撲向右方時,前鋒得分的把握是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論