博弈論的復(fù)習(xí)資料_第1頁
博弈論的復(fù)習(xí)資料_第2頁
博弈論的復(fù)習(xí)資料_第3頁
博弈論的復(fù)習(xí)資料_第4頁
博弈論的復(fù)習(xí)資料_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、名詞解釋:1,共同知識:是指所有當事人對該事件都知道,并且也所有當事人都知道其他當事人也知道這一事件,并且所有當事人都知道所有當事人都知道這一事件。那么該事件就是共同知識。2,先動優(yōu)勢:在序貫情侶博弈中,任何一方率先采取行動可能得到的好處,都比他或她后行動可能得到的好處大。這種局中人先動得益大于后行得益的情況,叫做先動優(yōu)勢。3,后動優(yōu)勢:后行動的得益比先行動的得益大的情況4,信息集:我們用一個扁橢圓形的虛線的圈,把所論局中人的若干決策節(jié)點罩起來,成為他的一個信息集。 單點集:我們把不被扁橢圓虛線罩住的每個決策節(jié)點也給以信息集的地位,稱為單點集。 觸發(fā)策略:即只要他的對手在博弈中一直采取合作策略

2、,則該局中人也會在博弈中繼續(xù)采取合作策略;但是,一旦對手在某一個階段采取背叛策略,將會觸發(fā)該局中人在往后的一段時期內(nèi)采取不合作策略,甚至永遠采取不合作策略,從而對對手實施懲罰。 冷酷策略:雙方一開始的時候選擇合作,然后繼續(xù)選擇合作,直到有一方選擇背叛,從此永遠選擇背叛。即任何局中人的一次性不合作將觸發(fā)永遠不合作。 禮尚往來策略:開始的時候和冷酷策略一樣,即雙方從合作開始,在以后的每個階段,如果你的對手在最近的一次博弈中還是采取合作策略,則你繼續(xù)跟他合作;如果你的對手在上一階段的博弈中采取背叛策略,則你在下次的博弈中采取背叛策略懲罰他,但是如果你的對手在下一次博弈中改邪歸正,采用合作策略,則你在

3、下次繼續(xù)博弈中還是跟他合作。觸發(fā)策略是帶有獎勵和懲罰措施的一種博弈機制。在這個機制中,懲罰措施是其中的關(guān)鍵。注意:(1),一個信息集罩住的必須是同一個局中人的決策點。 必須是同一個局中人在同一個時點的決策節(jié)點。同時,即使是同一個人在同一時點進行決策,也不一定構(gòu)成一個信息集,他還必須滿足:在每一個決策點他的行動選擇集合必須是相同的。因為局中人在做行動選擇時并不知道自己位于哪個決策點,因此,他不可能做出不同的行動選擇。簡答題:1,博弈的構(gòu)成要素: 局中人 決策主體,目的是通過選擇行動(或策略)以最大化自己的支付(效用、得益)水平。 2)行動參與人在博弈的某個時點的決策變量。3)策略策略是參與人在給

4、定信息集的情況下的行動規(guī)則,它規(guī)定參與人在什么時候選擇什么行動。4)信息 參與人有關(guān)博弈的知識。 完美信息是指所有參與人在博弈進行過程的每一時刻,對所有參與人曾經(jīng)采取的決策或者行動完全清楚。 完全信息是參與者對所有參與者的特征、策略空間及策略組合下的支付有“完全的了解”。即參與人的特征,策略空間和支付函數(shù)均為博弈各方的“共同知識”。 完全信息可以是完美的,也可是不完美的。5)支付(收益)函數(shù) 收益(支付)函數(shù):在特定的策略組合下參與人得到的確定效用水平,或是期望水平。 支付通常用矩陣來表示(一般適用于靜態(tài)博弈)。 也可以用博弈樹來表示(一般適用于動態(tài)博弈)2,策略與行動的區(qū)別 如果一個博弈僅僅

5、只是局中人一次性的同時行動對局,那么每個局中人的策略就是他能采取的行動。所以在同時決策博弈中,策略就是行動,行動就是策略。 但是在序貫博弈中,當局中人按決策的先后次序進行時,后行動的局中人可以對其他局中人或他自己先前采取的行動作出回應(yīng)。因此,設(shè)想后行動人應(yīng)該會盤算一個完整的行動計劃:“如果對手采取行動A,我則采取行動X,但如果對手采取行動B,我將采取行動Y”,這個完整的計劃就構(gòu)成局中人在博弈中的一個策略。行動順序(同時決策序貫決策同時決策局中人在決策時不知道對手的決策或者行動是什么。被稱為靜態(tài)博弈。注意: “同時”不是物理概念。先后或序貫決策行動有先后次序,后行動者能看到先行動者的決策。被稱為

6、動態(tài)博弈或序貫博弈策略策略是參與人在給定信息集的情況下的行動規(guī)則,它規(guī)定參與人在什么時候選擇什么行動。 純策略:如果一個策略規(guī)定參與人在一個給定的信息情況下只選擇一種特定的行動。 混合策略:如果一個策略規(guī)定參與人在給定的信息情況下,以某種概率分布隨機地選擇不同的行動。行動與策略在同時決策博弈中,行動就是策略。 但在序貫決策博弈中,行動是指每一個決策點上局中人的決策變量或行動的具體抉擇。策略就是一個完整的行動計劃“壟斷者”的有四個純策略: 不管你怎樣,我總是容忍容忍,容忍 不管你怎樣,我總是對抗對抗,對抗 你進我對抗,你不進我忍對抗,容忍 你進我忍,你不進我對抗容忍,對抗該博弈有八種可能的策略組

7、合: ( 進入,(上)容忍,(下)容忍 ) ( 進入,(上)對抗,(下)對抗 ) ( 進入,(上)對抗,(下)容忍 ) ( 進入,(上)容忍,(下)對抗 ) ( 不進,(上)容忍,(下)容忍 ) ( 不進,(上)對抗,(下)對抗 ) ( 不進,(上)對抗,(下)容忍 ) ( 不進,(上)容忍,(下)對抗 )策略性行動可以分為:承諾、威脅和允諾。承諾:假如輪到B要行動時,A說:“在接下來的博弈中,我將采取行動X”,這意味著無論B此時采取什么行動,A采取X行動是無條件的。這種策略性行動被稱為“承諾”。威脅和允諾是一種條件依存性的策略性行動。“如果你選擇,我會選擇”,即A所采取的行動取決于B的行為。

8、我們稱這種行動選擇為反映規(guī)則或反應(yīng)函數(shù)。威脅:“除非你把碗里的蔬菜吃完,否則不準吃糖果!” 允諾:“如果你考試第一名,我?guī)闳サ纤鼓嵬?!?承諾與威脅與允諾的區(qū)別 承諾是無條件的策略性行動 而威脅和允諾則是條件依存的策略性行動,屬于反應(yīng)函數(shù)或者反應(yīng)規(guī)則的范疇。承諾從支付上判斷有時是不可信的, 承諾可信要滿足三個條件: (1)可觀察 (2)不可逆轉(zhuǎn) (3)承諾后的收益大于不承諾前的收益 威脅一這這如果對手采取與你利益相違背的行動,他們將遭受損失。因此實施威脅的目的在于防止他人對你做出不利的事情。 允諾意味著如果對手采取對你有利的行動,他們將得到好處。因此實施允諾的目的在于引導(dǎo)他人做出一些對你有利

9、的事情,具有誘導(dǎo)功能。子博弈 1、子博弈不能從第一個階段開始,因為原來的博弈(母博弈)本身不能稱為子博弈,即子博弈集合是一個真子集合。樹形博弈的子博弈 2、子博弈不能分割原來博弈(母博弈)的信息集。注:只有B,C,H是子博弈,因為F后面有一支在紅圈以內(nèi),另外A不是。子博弈精煉納什均衡 定義:如果一個完美信息的動態(tài)博弈中,各博弈方的策略構(gòu)成的一個策略組合滿足,在整個動態(tài)博弈及它的所有子博弈中都構(gòu)成納什均衡,那么這個策略組合稱為該動態(tài)博弈的一個“子博弈完美納什均衡”。 子博弈完美納什均衡能夠排除均衡策略中不可信的威脅HYPERLINK 第六章%20%20重復(fù)博弈new.ppt(HYPERLINK

10、第六章%20%20重復(fù)博弈new.ppt允諾HYPERLINK 第六章%20%20重復(fù)博弈new.ppt)HYPERLINK 第六章%20%20重復(fù)博弈new.ppt和承諾,因此是真正穩(wěn)定的。 逆推歸納法(倒推法)是求完美信息動態(tài)博弈子博弈完美納什均衡的基本方法。 子博弈精煉納什均衡本身也是納什均衡,但卻比納什均衡更強的均衡概念。 子博弈精煉納什均衡能夠排除不是結(jié)果的納什均衡。例如:情侶博弈中,(足球,足球,足球)和(芭蕾,芭蕾,芭蕾)策略不是子博弈精煉納什均衡,因此不是最終的結(jié)果。圖見P179。 如果一個策略組合的某個策略成分有偏離的激勵,我們可以說這個策略組合缺乏局部穩(wěn)定性,不是子博弈精煉

11、納什均衡。 子博弈完美納什均衡一定是納什均衡,但納什均衡不一定是子博弈完美納什均衡。納什均衡: 均衡:所有參與人的最優(yōu)策略的組合。在博弈達到均衡時,局中每一個博弈者都不可能因為單方面改變自己的策略而增加收益,于是各方為了自己利益的最大化而選擇了某種最優(yōu)策略,并與其他對手達成了某種暫時的平衡。 納什均衡:局中人單獨改變策略不會得到好處的對局策略組合?;旌喜呗约{什均衡:(?) 在靜態(tài)博弈里,純策略等價于特定的行動,混合策略是不同行動之間的隨機選擇。在矩陣中用下劃線法,如果一個方框中有兩個數(shù)字都有下劃線,即為純策略納什均衡,有多個為混合策略納什均衡純策略納什均衡假定如果前鋒踢向球門的左方,當守門員撲

12、向右方時,前鋒將是得分的把握80% ,當守門員撲向左方時,前鋒得分的把握50%。 如果前鋒踢向球門的右方,當守門員撲向左方時,前鋒得分的把握90%,當守門員撲向右方時,前鋒得分的把握是20%。注:前鋒的得分,就為守門員的失分。 畫出這個競爭博弈的支付矩陣,并求納什均衡. 計算得前鋒應(yīng)該按概率0.7踢向左方,而守門員應(yīng)該按概率0.6撲向左方。 這些概率使得無論對方采取什么策略,雙方都得到相等的收益。即當前鋒選擇p=0.7時,守門員撲向左方和右方無差異,即不會影響前鋒的收益,但他會樂意以0.6的概率撲向左方。同樣,當守門員選擇q=0.6時,前鋒踢向左方和右方無差異,但他會樂意以0.7的概率踢向左方

13、。 這就形成了納什均衡。給定對方的選擇,每一個參與人的選擇都是最優(yōu)的。 當p0.7時,守門員將撲向右方。類似的,當q0.6時,前鋒將踢向右方。計算題:(1)古諾模型:寡占的斯塔克爾博格模型 先后選擇產(chǎn)量的產(chǎn)量競爭博弈 把古諾模型改為廠商1先選擇,廠商2后選擇,而非同時選擇即可。 用倒推法,因此從分析廠商2的產(chǎn)量選擇開始,再分析上一階段的廠商1的產(chǎn)量選擇。 1、先分析廠商2 假設(shè)P(Q1+Q2)=a- (Q1+Q2), MC2=MC1=c,沒有固定成本, 廠商2的利潤函數(shù)為:2=a- (Q1+Q2)Q2-cQ2 利潤最大化的一階條件為:a-Q1-2Q2-c=0 即:Q2=(a-c-Q1)/2 2

14、、再分析廠商1 由于完全信息,廠商1的利潤函數(shù)為: 1=a-(Q1+Q2)Q1-cQ1 將Q2=(a-c-Q1)/2代入上式得: 利潤最大化的一階條件為:a/2-bQ1=0。 Q1=(a-c)/2, Q2=(a-c)/4。結(jié)論: 1、該博弈領(lǐng)導(dǎo)者決定的產(chǎn)量(a-c)/2要大于追隨者的產(chǎn)量(a-c)/4 。領(lǐng)導(dǎo)者的所得的利潤也要大于追隨者的利潤,即“誰先動誰占優(yōu)”。 2、斯塔克爾博格模型的產(chǎn)量(a-c)/2 + (a-c)/4 =3(a-c)/4要大于古諾模型的產(chǎn)量2(a-c)/3。因此,市場有一個領(lǐng)導(dǎo)者比各廠商勢均力敵時更好。 兩模型之間的區(qū)別: 斯塔克爾博格模型中兩個寡頭先后選擇的產(chǎn)量之和要大于古諾模型中兩個寡頭同時選擇的產(chǎn)量之和,而斯塔克爾博格模型中兩個寡頭利潤之和則小于古諾模型的兩個寡頭利潤之和。因此,市場有一個領(lǐng)導(dǎo)者比各廠商勢均力敵時對消費者而言更好,因為斯塔克爾博格模型與古諾模型相比產(chǎn)量大了,價格低了。 斯塔克爾博格模型中博弈領(lǐng)導(dǎo)者決定的產(chǎn)量要大于追隨者的產(chǎn)量,領(lǐng)導(dǎo)者的所得的利潤也

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論