信用經(jīng)濟(jì)學(xué)補(bǔ)充資料:博弈論_第1頁
信用經(jīng)濟(jì)學(xué)補(bǔ)充資料:博弈論_第2頁
信用經(jīng)濟(jì)學(xué)補(bǔ)充資料:博弈論_第3頁
信用經(jīng)濟(jì)學(xué)補(bǔ)充資料:博弈論_第4頁
信用經(jīng)濟(jì)學(xué)補(bǔ)充資料:博弈論_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信用經(jīng)濟(jì)學(xué)2024/9/131什么是博弈?博弈是指一種不同個(gè)體所做的決策會(huì)產(chǎn)生相互影響的情形。這意味著個(gè)體的收益不僅受自己的行動(dòng)影響,也受他人的行動(dòng)影響。而且,個(gè)體的最優(yōu)行動(dòng)取決于他對(duì)其他人如何行動(dòng)的期望。博弈的四要素:博弈者:參與博弈的人。規(guī)則:什么時(shí)候由誰行動(dòng);當(dāng)輪到一方行動(dòng)時(shí),他所掌握的信息,以及自己可能選擇的行動(dòng)方案。結(jié)果:對(duì)于由每個(gè)博弈者從自己的行動(dòng)方案集中所做選擇形成的一個(gè)行動(dòng)組合,博弈都會(huì)出現(xiàn)一個(gè)結(jié)果。收益:對(duì)于不同的博弈結(jié)果,每個(gè)博弈者會(huì)有相應(yīng)的收益。2024/9/132博弈示例1:匹配硬幣博弈者:甲和乙。規(guī)則:甲和乙同時(shí)放下一枚硬幣,硬幣朝上的那一面要么是正面,要么是反面。結(jié)果:如果兩枚硬幣匹配,即都為正面或者反面,那么甲給乙一元錢。否則,乙給甲一元錢。收益:博弈者的收益等于他所獲得的金錢。2024/9/133博弈示例2:圈圈叉叉博弈者:×和○。規(guī)則:博弈者在一個(gè)3×3格的棋盤上(九宮格)輪流畫圈圈和叉叉。叉叉先畫。博弈者可以看到另一方之前所做的全部行動(dòng)。結(jié)果:當(dāng)一種符號(hào)在棋盤的豎向,或橫向,或斜向形成3連的時(shí)候,該符號(hào)的游戲者勝出,贏得對(duì)方的1元錢。收益:博弈者的收益等于他所獲得的金錢。2024/9/134收益函數(shù)在博弈中,使用效用函數(shù)來描述博弈者的收益,即每一種博弈結(jié)果對(duì)應(yīng)一個(gè)效用值。效用是指對(duì)于消費(fèi)者通過消費(fèi),或者享受閑暇等方式,使自己的需求、欲望等得到的滿足的一個(gè)度量。在上述兩個(gè)示例中,博弈者的收益正好等于獲得的金錢。需要注意的是,收益不一定等于金錢。2024/9/135博弈示例3:相約廣州2024/9/136博弈者:甲和乙。規(guī)則:甲和乙各處異地,且無法實(shí)時(shí)聯(lián)系。他們相約某一時(shí)刻到廣州會(huì)面共進(jìn)晚餐,但忘記約定具體地點(diǎn)。每個(gè)人必須自己決定一個(gè)地點(diǎn)。結(jié)果:如果雙方能夠順利見面,就可以享受有對(duì)方陪伴的晚餐。否則,他們只能獨(dú)自用餐。收益:博弈者認(rèn)為得到對(duì)方的陪伴價(jià)值100元錢。零和博弈和非零和博弈2024/9/137零和博弈:例1和2是存在沖突的博弈,即一個(gè)博弈者的獲益是以另一方的損失為代價(jià),博弈各方的收益和損失相加之和為零。非零和博弈:例3中博弈中各方的收益或損失之和不為零。在這種情況下,自己的幸福未必建立在他人的痛苦之上,即使傷害他人也可能“損人不利己”,所以博弈雙方存在“雙贏”的可能,進(jìn)而達(dá)成合作。在博弈中,一方的收益取決于另一方的行動(dòng)。更重要的是,一方的最優(yōu)行動(dòng)取決于他自己預(yù)想別人會(huì)如何行動(dòng)。博弈的一種描述方式:擴(kuò)展式2024/9/138博弈的擴(kuò)展式是通過博弈樹來描述。示例:匹配硬幣博弈ver2.0,甲和乙不再同時(shí)放下硬幣,而是由甲先放,當(dāng)乙觀察到甲的行動(dòng)之后,再放下硬幣。空心圓:起始決策點(diǎn),也稱根節(jié)點(diǎn)甲乙乙正面正面正面反面反面分枝:一種可能的行動(dòng)實(shí)心圓:決策點(diǎn),要在可能的行動(dòng)集合中選擇一種結(jié)束節(jié)點(diǎn):博弈結(jié)束收益:按博弈順序列示反面注意:從根節(jié)點(diǎn)到結(jié)束節(jié)點(diǎn)只有唯一一條路徑,表示眾多博弈行動(dòng)方案中的一種。完美/不完美信息博弈2024/9/139完美信息博弈:當(dāng)輪到一個(gè)博弈者行動(dòng)的時(shí)候,他能看到其他對(duì)手之前已經(jīng)選擇的行動(dòng)。例如,匹配硬幣ver2.0。不完美信息博弈:當(dāng)輪到一個(gè)博弈者行動(dòng)的時(shí)候,他不知道之前發(fā)生的所有狀況(他人行動(dòng))。在擴(kuò)展式中,用信息集表示不完美信息。當(dāng)一個(gè)博弈者到達(dá)信息集中的一個(gè)決策點(diǎn)是,他并不知道自己位于集合中的哪個(gè)節(jié)點(diǎn)上。匹配硬幣ver3.0:當(dāng)甲放出硬幣之后,迅速用手遮住,此時(shí)乙在放出硬幣的時(shí)候并不知道甲的行動(dòng)方案。匹配硬幣博弈ver3.02024/9/1310當(dāng)乙在做放硬幣選擇時(shí),并不知道自己處在信息集中的哪個(gè)節(jié)點(diǎn)上。乙處于信息集中任意一個(gè)節(jié)點(diǎn)的概率是相等的。當(dāng)信息集中只有一個(gè)決策節(jié)點(diǎn)的時(shí)候,不需要將信息集畫出來。甲乙乙正面正面正面反面反面反面信息集信息集的特點(diǎn)2024/9/1311對(duì)于信息集中的每一個(gè)決策點(diǎn),博弈者都擁有相同的行動(dòng)選擇方案。博弈者擁有完美記憶,不會(huì)忘記自己之前的行動(dòng)以及對(duì)手之前的行動(dòng)。甲甲甲乙乙乙乙忘記了甲的第一次行動(dòng)圖1甲乙乙甲甲忘記了自己的第一次行動(dòng)圖2信息集的特點(diǎn)2024/9/1312信息集可以表示同時(shí)行動(dòng)。在匹配硬幣ver3.0中,由于甲先行動(dòng),所以甲不知道乙的行動(dòng);由于甲蓋住了自己的硬幣,所以乙不知道甲的行動(dòng)。在匹配硬幣ver1.0中,由于甲和乙同時(shí)行動(dòng),所以他們并不知道對(duì)方的行動(dòng)。博弈用擴(kuò)展式表示為:甲乙乙正面正面正面反面反面反面等價(jià)于乙先行動(dòng),甲再行動(dòng)當(dāng)一個(gè)博弈的所有信息集都只有一個(gè)決策點(diǎn)的時(shí)候,該博弈為完美信息博弈;反之為不完美信息博弈。博弈的自然節(jié)點(diǎn)2024/9/1313前述的博弈的結(jié)果都是博弈者采取行動(dòng)的確定型函數(shù)。然而,在一些博弈中存在隨機(jī)因素。匹配硬幣ver4.0:放出硬幣前,甲和乙通過拋硬幣來決定行動(dòng)的先后順序。自然乙甲1/21/2甲甲乙乙正面正面反面正面反面反面正面正面正面反面反面反面甲和乙分別有1/2的概率先行動(dòng)博弈的數(shù)學(xué)表示方式2024/9/1314博弈的基本假定:所有博弈者清楚博弈的結(jié)構(gòu),知道他們的對(duì)手清楚博弈的結(jié)構(gòu),知道對(duì)手知道他們清楚博弈的結(jié)構(gòu)。一個(gè)博弈由如下數(shù)學(xué)符號(hào)組成:一個(gè)有限的節(jié)點(diǎn)集合X,一個(gè)有限的可能行動(dòng)集合A,一個(gè)有限的博弈者集合I。一個(gè)方程p:X→{X∪?},表示節(jié)點(diǎn)x的前繼節(jié)點(diǎn)集合。除了初始節(jié)點(diǎn)x0,p(x)是非空集。節(jié)點(diǎn)x的后繼節(jié)點(diǎn)集合表示為s(x)=p-1(x)。結(jié)束節(jié)點(diǎn)集合為T={x∈X:s(x)=

?}。所有節(jié)點(diǎn)X/T都為決策節(jié)點(diǎn)。一個(gè)方程α:X\{x0}→a表示從前繼節(jié)點(diǎn)p(x)選擇的行動(dòng),該行動(dòng)將博弈者引導(dǎo)至決策節(jié)點(diǎn)x。如果x′,x′′∈s(x),并且x′≠

x′′,那么α(x′)

≠α(x′′

)。在決策節(jié)點(diǎn)x上所有可能的行動(dòng)集合為

c(x)={a∈A:a=α(x′),其中x′∈s(x)

}博弈的數(shù)學(xué)表示方式2024/9/1315一系列的信息集合記為H。一個(gè)方程h:X→H給每個(gè)決策節(jié)點(diǎn)x分配了一個(gè)信息集h(x)∈H。因此,信息集H是對(duì)節(jié)點(diǎn)集X的一個(gè)劃分。在同一個(gè)信息集中的所有節(jié)點(diǎn)擁有相同的可選行動(dòng)集合。如果h(x)=h(x′),那么c(x)=c(x′)。在一個(gè)信息集上所有的行動(dòng)集合表示為C(h)。一個(gè)方程ι:H→{0,1,2,…,I},將H中的每個(gè)信息集分配給某個(gè)博弈者(自然可以視為博弈者0),該博弈者將在自己的信息集中的某個(gè)決策節(jié)點(diǎn)選擇行動(dòng)方案。博弈者i的信息集可以表示為Hi={h∈H:i=ι(h)}。一個(gè)方程ρ:H0×A→(0,1)對(duì)自然所在信息集上的每個(gè)行動(dòng)賦予了一個(gè)概率,∑a∈C(h)

ρ(h,a)=1,其中h

∈H0。一個(gè)收益函數(shù)的集合u={u1(·),u2(·),…,ui(·)}給每個(gè)博弈者在最后的結(jié)束節(jié)點(diǎn)分配了一個(gè)效用。一個(gè)博弈的數(shù)學(xué)表達(dá)式為:

ГE={X,

A,I,p(·),α(·),H,h(·),ι(·),ρ(·),u(·)}策略2024/9/1316策略是博弈的核心概念,表示一個(gè)包含所有可能的計(jì)劃。策略具體指明了博弈者在每個(gè)輪到他行動(dòng)的可分辨的環(huán)境中該采取何種行動(dòng)。一個(gè)信息集就是一個(gè)可分辨的環(huán)境。博弈者在自己每個(gè)信息集中選出一個(gè)行動(dòng),從而形成一個(gè)策略。策略的數(shù)學(xué)定義:Hi表示博弈者i所擁有的信息集,A表示該博弈中所有可能的行動(dòng)。C(h)?A表示一個(gè)信息集h上的所有行動(dòng)集合。博弈者i的一個(gè)策略是一個(gè)函數(shù)si:Hi

→A,使得對(duì)于所有h∈Hi,si

(h)∈C(h)。博弈者制定他的策略,相當(dāng)于寫下一份他在博弈中的行動(dòng)指南。作為一個(gè)包含所有可能的計(jì)劃,策略通常涵蓋了博弈者在實(shí)際博弈中可能不會(huì)采取的行動(dòng)。策略示例2024/9/1317在匹配硬幣Ver2.0中,甲的一個(gè)策略指明了他在初始決策節(jié)點(diǎn)上采取的行動(dòng):出正面(H)或反面(T)。乙的一個(gè)策略指明了他在自己的每個(gè)信息集中需要采取的行動(dòng):當(dāng)甲出正面時(shí),乙該如何行動(dòng);當(dāng)甲出反面時(shí),乙該如何行動(dòng)。乙有四種策略:策略1(s1):當(dāng)甲出H時(shí),乙出H;當(dāng)甲出T時(shí),乙出H。策略2(s2):當(dāng)甲出H時(shí),乙出H;當(dāng)甲出T時(shí),乙出T。策略3(s3):當(dāng)甲出H時(shí),乙出T;當(dāng)甲出T時(shí),乙出H。策略4(s4):當(dāng)甲出H時(shí),乙出T;當(dāng)甲出T時(shí),乙出T。思考:在匹配硬幣Ver3.0中,甲和乙的策略是什么?匹配硬幣Ver1.0中的策略又是什么?博弈的一般式2024/9/1318所有博弈者的一個(gè)策略組s=(s1,…,sI)產(chǎn)生了博弈的一個(gè)結(jié)果。對(duì)于該結(jié)果,博弈者會(huì)有相應(yīng)的收益。博弈的一般式就是用策略和對(duì)應(yīng)的福利來描述一個(gè)博弈。一般式的數(shù)學(xué)定義:對(duì)于一個(gè)存在I個(gè)博弈者的博弈,一般式ГN給出了每個(gè)博弈者i的策略集Si(si∈Si)和福利【效用函數(shù)ui(s1,…,sI)】,即ГN=[I,{Si},ui{?)}]。在一般式中,我們不需要描述出每個(gè)策略對(duì)應(yīng)的具體行動(dòng),只需要用簡(jiǎn)單的符號(hào)Si={s1i,s2i,…}指代一個(gè)·博弈者的不同策略。一般式示例2024/9/1319匹配硬幣Ver2.0的博弈一般式如下:s1s2s3s4H-1,+1-1,+1+1,-1+1,-1T+1,-1-1,+1+1,-1-1,+1作業(yè):畫出匹配硬幣Ver3.0的博弈一般式。博弈可以視為給定一個(gè)博弈者預(yù)期其對(duì)手會(huì)采取某一策略的條件下,該博弈者從自己的策略集中選擇一個(gè)策略。由于每個(gè)博弈者都面臨這樣的決策問題,所以博弈可被視為每個(gè)博弈者從自己的策略集{Si}中同時(shí)選擇一個(gè)策略。隨機(jī)選擇2024/9/1320純策略:博弈者的策略為確定型,即博弈者肯定地選擇某一行動(dòng)。假設(shè)博弈者i的純策略集合為Si,則博弈者i從Si中隨機(jī)選擇一個(gè)策略的方式稱為混合策略。混合策略:給定博弈者i的純策略集合Si,博弈者i的一個(gè)混合策略為σi:

Si

→[0,1],即賦予每個(gè)純策略si一個(gè)概率σi(si)≥0,其中∑si∈Si

σi(si)=1。博弈者i的混合策略的集合是Δ(Si)。博弈者采取混合策略,相當(dāng)于在自己的每一個(gè)信息集中隨機(jī)選取一個(gè)行動(dòng)。當(dāng)博弈者使自己的純策略隨機(jī)化時(shí),博弈的結(jié)果將會(huì)是隨機(jī)的(不確定的)。此時(shí),計(jì)算博弈者收益的時(shí)候,需要對(duì)效用函數(shù)求數(shù)學(xué)期望。隨機(jī)選擇示例2024/9/1321假設(shè)有a、b兩個(gè)博弈者,每人都有2個(gè)純策略:

Sa={s1a,s2a},Sb={s1b,s2b}給定一個(gè)混合策略組{σa,σb},其中:

σa(s1a)=1/4,σa(s2a)=3/4;

σb(s1b)=1/3,σb(s2b)=2/3那么博弈者a的期望效用為:

ua=ua(s1a,s1b)×1/4×1/3+ua(s1a,s2b)×1/4×2/3+ua(s2a,s1b)×3/4×1/3+ua(s2a,s2b)×3/4×2/3同時(shí)行動(dòng)博弈:占優(yōu)和被占優(yōu)策略2024/9/1322首先考慮純策略的博弈(剔除混合策略)。同時(shí)行動(dòng)博弈示例:囚徒困境。如果兩個(gè)囚犯中,只有一個(gè)招供,則主動(dòng)招供的可以減刑至1年,而拒招的要被監(jiān)禁10年。如果同時(shí)招供,則兩個(gè)人都要判處5年監(jiān)禁。如果都不招供,那么法院苦于沒有證據(jù),只能判處他們2年監(jiān)禁。囚犯2不招供招供囚犯1不招供-2,-2-10,-1招供-1,-10-5,-5對(duì)每個(gè)囚犯而言,無論對(duì)手采取何種策略,自己采取“招供”策略所獲得的收益都是最大的。博弈的結(jié)果是(招供,招供)。自私自利的理性行為不會(huì)導(dǎo)致社會(huì)福利最優(yōu)。嚴(yán)格占優(yōu)策略2024/9/1323定義:在博弈ГN=[I,{Si},ui{?)}]中,對(duì)于博弈者i,如果一個(gè)策略si

∈Si

是嚴(yán)格占優(yōu)策略,那么對(duì)于所有si

′≠

si

,有

ui(si

,s-i

)>ui(si

′,s-i

)

上述不等式對(duì)所有s-i

∈S-i

成立。無論對(duì)手采取何種策略,嚴(yán)格占優(yōu)策略si都可以唯一使博弈者i的收益最大化。盡管博弈者會(huì)毫不猶豫采取嚴(yán)格占優(yōu)策略,但現(xiàn)實(shí)中該類策略很少存在。被嚴(yán)格占優(yōu)策略2024/9/1324通常,博弈者i的一個(gè)策略si對(duì)應(yīng)于他的對(duì)手策略s-i是最好的,而其另一個(gè)策略si′又是對(duì)應(yīng)于對(duì)手的另一個(gè)策略s-i′是最好的?;貞浧ヅ溆矌臯er2.0。定義:在博弈ГN=[I,{Si},ui{?)}]中,對(duì)于博弈者i,如果一個(gè)策略si

∈Si

是被嚴(yán)格占優(yōu)策略,那么對(duì)于所有s-i

∈S-i

,存在另外一個(gè)策略si′∈Si

,使得ui(si

′,s-i

)

>ui(si

,s-i

)

在上述情形下,我們說策略si′嚴(yán)格占優(yōu)于si。被嚴(yán)格占優(yōu)策略示例2024/9/1325上述博弈中不存在嚴(yán)格占優(yōu)策略。對(duì)于博弈者1,D策略被M(U)策略嚴(yán)格占優(yōu)。博弈者不會(huì)選擇嚴(yán)格被占優(yōu)策略。博弈者2LR博弈者1U1,-1-1,1M-1,11,-1D-2,5-3,2被弱占優(yōu)策略2024/9/1326定義:在博弈ГN=[I,{Si},ui{?)}]中,對(duì)于博弈者i,如果一個(gè)策略si

∈Si

是被弱占優(yōu)策略,那么對(duì)于所有s-i

∈S-i

,存在另外一個(gè)策略si′∈Si

,使得ui(si

′,s-i

)

≥ui(si

,s-i

)

在上述情形下,我們說策略si′弱占優(yōu)于si。對(duì)于對(duì)手的所有策略,si′至少與si一樣(帶來相同的收益),而對(duì)于對(duì)手的部分策略,si′比si好(前者收益大于后者)。博弈者2LR博弈者1U5,14,0M6,03,1D6,44,4對(duì)于博弈者1,策略U/M被策略D弱占優(yōu),或者說策略D弱占優(yōu)于策略U/M。謹(jǐn)慎可以排除被弱占優(yōu)策略。重復(fù)排除被嚴(yán)格占優(yōu)策略2024/9/1327通常,我們希望排除嚴(yán)格被占優(yōu)策略,從而使博弈得到唯一的預(yù)測(cè)結(jié)果。然而現(xiàn)實(shí)中不一定存在這樣的理想情況。囚徒困境Ver2.0:檢察官是囚犯1的兄弟,為了照顧囚犯1,規(guī)定如果兩人都不招供,那么囚犯1可以被釋放。囚犯1不存在被嚴(yán)格占優(yōu)策略?!安徽泄笔乔舴?的被嚴(yán)格占優(yōu)策略。排除囚犯2的“不招供”策略,囚犯1必然選擇“招供”。囚犯2不招供招供囚犯1不招供0(-2),-2-10,-1招供-1,-10-5,-5重復(fù)排除被嚴(yán)格占優(yōu)策略2024/9/1328求解博弈的前提是博弈者知道對(duì)方的收益,而且知道彼此都是理性的。對(duì)于一個(gè)博弈,當(dāng)刪除一條被嚴(yán)格占優(yōu)的策略之后,其他的原本不是被嚴(yán)格占優(yōu)的策略可能變成被嚴(yán)格占優(yōu)策略。重復(fù)排除被嚴(yán)格占優(yōu)策略的一個(gè)特點(diǎn):刪除策略的順序不會(huì)影響最終剩下的策略集合。即給定任意一個(gè)階段,如果博弈存在多個(gè)被嚴(yán)格占優(yōu)策略,同時(shí)刪除它們或者按照某一順序刪除它們都不會(huì)影響博弈的結(jié)果。混合策略下的被嚴(yán)格占優(yōu)策略2024/9/1329定義1:在博弈ГN=[I,{Δ(Si)},ui{?)}]中,對(duì)于博弈者i,如果一個(gè)策略σi

∈Δ(Si)

是被嚴(yán)格占優(yōu)的策略,那么對(duì)于所有

σ-i

∈Πj≠iΔ(Sj)

,存在另外一個(gè)策略σi′∈Δ(Si)

,使得ui(σi′,σ-i

)

>ui(σi

,σ-i

)

在上述情形下,我們說策略σi′嚴(yán)格占優(yōu)于σi。如果博弈者i一個(gè)策略σi嚴(yán)格占優(yōu)于Δ(Si)中的每一個(gè)策略,那么σi就是嚴(yán)格占優(yōu)策略?;旌喜呗韵碌谋粐?yán)格占優(yōu)策略2024/9/1330命題1:在博弈ГN=[I,{Δ(Si)},ui{?)}]中,如果博弈者i的一個(gè)純策略是被嚴(yán)格占優(yōu)的,那么意味著存在另一個(gè)混合策略σi′∈Δ(Si),使得ui(σi′,s-i

)

>ui(si

,s-i

)上述不等式對(duì)所有s-i

∈S-i

成立。命題1告訴我們,如果博弈者i可以采取隨機(jī)化的行動(dòng)方式,欲檢驗(yàn)一個(gè)純策略si是否是被占優(yōu)的,我們不必按定義1的方式進(jìn)行驗(yàn)算。只需檢驗(yàn):對(duì)于對(duì)手的所有純策略,是否存在博弈者i的一個(gè)混合策略優(yōu)于si。如果一個(gè)純策略si是被嚴(yán)格占優(yōu)的,那么任何賦予si一個(gè)正概率的混合策略也是被嚴(yán)格占優(yōu)的。命題1示例2024/9/1331對(duì)于博弈者1,策略U是對(duì)于對(duì)手策略L的好回應(yīng),但對(duì)于對(duì)手策略R是差回應(yīng);策略D是對(duì)于對(duì)手策略L的差回應(yīng),但對(duì)于對(duì)手策略R是好回應(yīng);策略M介于U和D之間,不好不差。當(dāng)博弈者1采取隨機(jī)化行動(dòng)時(shí),例如各有0.5的概率實(shí)施U和D策略,那么對(duì)于博弈者2的任何策略而言,此時(shí)博弈者1的期望收益都是5,嚴(yán)格優(yōu)于M策略。根據(jù)命題1,純策略M是被嚴(yán)格占優(yōu)的,應(yīng)該被排除。博弈者2LR博弈者1U10,10,4M4,24,3D0,510,2找到被嚴(yán)格占優(yōu)策略的方法2024/9/1332在博弈ГN=[I,{Δ(Si)},ui{?)}]中,先通過命題1找到博弈者i的被嚴(yán)格占優(yōu)的純策略,并將其排除,此時(shí)得到博弈者i的非被占優(yōu)的純策略集合。然后,在該集合上刪除被嚴(yán)格占優(yōu)的混合策略。最后剩下的集合就是未被占優(yōu)的策略集合(包含純策略和混合策略)合理化策略2024/9/1333定義:在博弈ГN=[I,{Δ(Si)},ui{?)}]中,如果博弈者i對(duì)于他的對(duì)手的一個(gè)策略σ-i所采取的策略σi滿足如下條件:ui(σi

,σ-i

)≥ui(σi′,σ-i

)上述不等式對(duì)所有σi

′∈Δ(Si

)都成立。那么,我們將博弈者i的策略σi是對(duì)對(duì)手策略σ-i的一個(gè)最優(yōu)響應(yīng)。只有當(dāng)博弈者i推斷他的對(duì)手將采取策略σ-i時(shí),σi才是最優(yōu)響應(yīng)。被嚴(yán)格占優(yōu)的策略肯定不是最優(yōu)響應(yīng)。不是被嚴(yán)格占優(yōu)策略也不一定是最優(yōu)響應(yīng)。類似的,根據(jù)“博弈者是理性人”以及“博弈的結(jié)構(gòu)”是公共知識(shí),我們可以重復(fù)刪除那些不是最優(yōu)響應(yīng)的策略。此時(shí),剩下的策略集合就是合理化策略。合理性策略2024/9/1334合理化策略的集合不會(huì)大于重復(fù)刪除被嚴(yán)格占優(yōu)策略后的集合。因?yàn)閯h除不是最優(yōu)響應(yīng)的策略的過程中,一定會(huì)刪除被嚴(yán)格占優(yōu)的策略。刪除非最優(yōu)響應(yīng)策略的順序不會(huì)影響最后剩下的策略集合。博弈者2b1b2b3b4博弈者1a10,72,57,00,1a25,23,35,20,1a37,02,50,70,1a40,00,-20,010,-1在第一輪刪除中,排除b4。如果博弈者2采取b1和b3各1/2概率的混合策略,那么b4被嚴(yán)格占優(yōu)。在第二輪刪除中,排除a4。因?yàn)楫?dāng)b4被刪除后,a4被a2嚴(yán)格占優(yōu)。最后,a1是b3的最優(yōu)響應(yīng);a2是b2的最優(yōu)響應(yīng);a3是b1的最優(yōu)響應(yīng)。博弈者1的合理化策略是{a1,a2,a3}博弈者可以構(gòu)建一條合理的邏輯推理鏈條。(a2,b2,a2,b2,…)或(a1,b3,a3,b1,a1,b3,a3,b1,…)納什均衡(純策略的情形)2024/9/1335定義:在博弈ГN=[I,{Si},ui{?)}]中,如果一個(gè)策略組合s=(s1,…,sI)對(duì)于每個(gè)博弈者i=1,…I,都滿足ui(si,s-i

)

≥ui(si′

,s-i

)上述不等式對(duì)所有si′

∈Si

成立,那么該策略組合s就是納什均衡。在納什均衡中,每個(gè)博弈者的策略都是對(duì)于對(duì)手實(shí)際所選策略的最優(yōu)響應(yīng)。區(qū)別于合理化策略集中的合理推斷。納什均衡策略必然是合理化策略,后者的集合大于等于前者的集合。博弈者2博弈者1lmrU5,30,43,5M4,05,54,0D3,50,45,3當(dāng)博弈者1選擇M,博弈者2對(duì)于M的最優(yōu)響應(yīng)是m,反之亦然。因此,策略組合(M,m)是一個(gè)納什均衡。納什均衡(純策略的情形)2024/9/1336納什均衡可能不是唯一,即存在多個(gè)。相約廣州博弈存在兩個(gè)納什均衡。定義:在博弈ГN=[I,{Si},ui{?)}]中,博弈者的對(duì)應(yīng)最優(yōu)響應(yīng)

bi:S-i

→Si使得每一個(gè)s-i

∈S-i都滿足如下條件:bi(s-i

)={si

∈Si:ui(si,s-i

)

≥ui(si′

,s-i

),該不等式對(duì)所有si′

∈Si

成立}。一個(gè)策略組合s=(s1,…,sI)如果滿足每個(gè)si

∈bi(s-i

),那么s是納什均衡。甲廣州塔喜來登乙廣州塔100,1000,0喜來登0,0100,100納什均衡(混合策略的情形)2024/9/1337定義:在博弈ГN=[I,{Δ(Si)},ui{?)}]中,如果一個(gè)混合策略組合σ=(σ1,…,

σI)對(duì)于每個(gè)博弈者i=1,…I,都滿足ui(σi,σ-i

)

≥ui(σi′

,σ-i

)上述不等式對(duì)所有σi′

∈Δ(Si)

成立,那么該策略組合σ就是納什均衡。匹配硬幣ver1.0,不存在純策略納什均衡。但是,如果甲采取一個(gè)混合策略:出正面和反面的概率各為50%,那么此次乙出正面和反面的收益是無差別的。因此,乙也會(huì)愿意采取類似的混合策略。乙正面反面甲正面-1,+1+1,-1反面+1,-1-1,+1納什均衡(混合策略的情形)2024/9/1338命題1:在博弈ГN=[I,{Δ(Si)},ui{?)}]中,如果一個(gè)混合策略組合σ是納什均衡,那么對(duì)于每一個(gè)博弈者i,σi中賦予正概率的純策略si是無差別的,即ui(s

i,σ-i

)

=ui(s

i′

,σ-i

)。賦予正概率的純策略的效用大于等于賦予零概率的純策略。示例:相約廣州博弈ver2.0命題2:對(duì)于博弈ГN=[I,{Δ(Si)},ui{?)}],如果每個(gè)人的策略集合S1,S2,…,SI都有有限個(gè)元素,那么總會(huì)存在一個(gè)混合策略的納什均衡。甲廣州塔喜來登乙廣州塔100,1000,0喜來登0,01000,1000假設(shè)甲到喜來登的概率為σ1。如果存在混合策略的納什均衡,那么對(duì)于乙而言,到廣州塔的效用等于到喜來登的效用。σ1=1/11動(dòng)態(tài)博弈(非同時(shí)行動(dòng)博弈)2024/9/1339當(dāng)博弈者存在行動(dòng)先后順序的時(shí)候,博弈為動(dòng)態(tài)博弈。市場(chǎng)博弈:企業(yè)E計(jì)劃進(jìn)入一個(gè)新的市場(chǎng),但該市場(chǎng)中已經(jīng)存在一個(gè)經(jīng)營(yíng)的企業(yè)I。如果E選擇進(jìn)入市場(chǎng),那么I有兩種回應(yīng)方式:妥協(xié),放棄一部分市場(chǎng)銷售,保持價(jià)格不變;或者展開價(jià)格競(jìng)爭(zhēng)企業(yè)E企業(yè)I不進(jìn)入

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論