版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、學習好資料歡迎下載博弈論知識總結(jié)博弈論概述 :1、博弈論概念:博弈論:就是研究決策主體的行為發(fā)生直接相互作用時的決策以及這種決策的均衡問題。博弈論研究的假設:1、 決策主體是理性的,最大化自己的收益。2、 完全理性是共同知識3、 每個參與人被假定為可以對所處環(huán)境以及其他參與者的行為形成正確的信念與預期2、和博弈有關(guān)的變量:博弈參與人:博弈中選擇行動以最大化自己受益的決策主體。行動:參與人的決策選擇戰(zhàn)略:參與人的行動規(guī)則, 即事件與決策主體行動之間的映射, 也是參與人行動的規(guī)則。信息:參與人在博弈中的知識, 尤其是其他決策主體的戰(zhàn)略、 收益、類型(不完全信息)等的信息。完全信息:每個參與人對其他
2、參與人的支付函數(shù)有準確的了解;完美信息:在博弈過程的任何時點每個參與人都能觀察并記憶之前各局中人所選擇的行動,否則為不完美信息。不完全信息:參與人沒有完全掌握其他參與人的特征、戰(zhàn)略空間及支付函數(shù)等信息,即存在著有關(guān)其他參與人的不確定性因素。支付:決策主體在博弈中的收益。在博弈中支付是所有決策主題所選擇的行動的函數(shù)。從經(jīng)濟學的角度講, 博弈是決策主體之間的相互作用,因此和傳統(tǒng)個人決策存在著區(qū)別:3、博弈論與傳統(tǒng)決策的區(qū)別:1、 傳統(tǒng)微觀經(jīng)濟學的個人決策就是在給定市場價格、消費者收入條件下,最大化自己效用,研究工具是無差異曲線??杀硎緸椋簃axU(P,I),其中 P 為市場價格, I 為消費者可支
3、配收入。2、 其他消費者對個人的綜合影響表示為一個參數(shù)市場價格,所以在市場價格既定下,消費者效用只依賴于自己的收入和偏好,不用考慮其他消費者的影響。但是在博弈論理個人效用函數(shù)還依賴于其他決策者的選擇和效用函數(shù)。4、博弈的表示形式:戰(zhàn)略式博弈和擴展式博弈戰(zhàn)略式博弈 :是博弈問題的一種規(guī)范性描述,有時亦稱標準式博弈。戰(zhàn)略式博弈是一種假設每個參與人僅選擇一次行動或戰(zhàn)略,并且參與人同時進行選擇的決策模型, 因此, 從本質(zhì)上來講戰(zhàn)略式博弈是一種靜態(tài)模型,一般適用于描述不需要考慮博弈進程的完全信息靜態(tài)博弈問題。1、參與人集合 1 , 2,.,n :2、每位參與人非空的戰(zhàn)略集Sins i(s1 ,.,s i
4、 ,., s n ) 上的效用函數(shù) Ui(s1,s2, ,sn).3、每位參與人定義在戰(zhàn)略組合i1擴展式博弈 :是博弈問題的一種規(guī)范性描述。與戰(zhàn)略式博弈側(cè)重博弈結(jié)果的描述相比, 擴展式博弈更注重對參與人在博弈過程中遇到?jīng)Q策問題時序列結(jié)構(gòu)的分析。包含要素:1 、 參與人集合 1 , 2,.,n 學習好資料歡迎下載類型完全信息靜態(tài)博弈2 、 參與人的行動順序,即每個參與人在何時行動;3 、 序列結(jié)構(gòu):每個參與人行動時面臨的決策問題,包括參與人行動時可供選擇的行動方案、所了解的信息;4 、 參與人的支付函數(shù)。比較 :1、戰(zhàn)略式博弈從本質(zhì)上來講是一種靜態(tài)模型。2、擴展式博弈從本質(zhì)上來講是一種動態(tài)模型。
5、5、博弈論分類:按決策主體的行為相互作用時,當事人能否達成一個具有約束力的協(xié)議可分為:1、合作博弈(強調(diào)團體理性、團體最優(yōu)決策、效率)2、非合作博弈(強調(diào)個人理性,個人最優(yōu)決策)按參與人行動先后順序可分為:1、 靜態(tài)博弈:博弈中參與人同時行動,或者雖然不是同時行動,但是在行動前不知道其他參與人所選擇的行動。2、 動態(tài)博弈:參與人的行動有先后順序,后行動者獲得先行動者的行動信息。按參與人對信息的掌握程度可分為:1、 完全信息:每個參與人對其他所有參與人的特征、戰(zhàn)略空間及支付函數(shù)有精確的了解,博弈開始時不存在不確定性因素。2、 不完全信息:參與人沒有完全掌握其他參與人的特征、戰(zhàn)略空間及支付函數(shù)等信
6、息,即存在著有關(guān)其他參與人的不確定性因素。按決策主體對信息的掌握程度和行動的先后順序,博弈可以分為: 完全信息靜態(tài)博弈、完全信息動態(tài)博弈、不完全信息靜態(tài)博弈、不完全信息動態(tài)博弈。靜態(tài)動態(tài)完全信息完全信息靜態(tài)博弈完全信息動態(tài)博弈均衡:納什均衡均衡:子博弈精煉納什均衡不完全信息不完全信息靜態(tài)博弈不完全信息動態(tài)博弈均衡:貝葉斯納什均衡均衡:精煉貝葉斯納什均衡6、根據(jù)所學這四種博弈的特點對這四種博弈做一個對比分析:信息和行動特點均衡均衡類型特別均衡求解方法學過的例子性質(zhì)每個參與人對其納什均純戰(zhàn)略納占優(yōu)戰(zhàn)略納箭頭法Hotelling 價格競多重性和存他所有參與人的衡什 均 衡什 均 衡劃線法爭在性特征、
7、戰(zhàn)略空間及(PNE)( DSE)庫諾特價格競爭支付函數(shù)有精確重復剔除的不斷剔除劣一般一個博弈中的了解,博弈開始占有均衡戰(zhàn)略(弱劣存在參與者有多時不存在不確定(IFDE)戰(zhàn)略的剔除個行動時可以先性因素,參與人同順序會影響考慮能否剔除弱時行動或者不是均衡結(jié)果戰(zhàn)略簡化博弈同時行動但是后混合戰(zhàn)略聚點均衡支付最大化社會福利博弈行動者不知道行納什均衡法小偷守衛(wèi)博弈動者的行動信息。(MNE)支付等值法戰(zhàn)略和行動相同。學習好資料歡迎下載完全信在博弈 開始之 前子博弈息動態(tài)參與人 之間的 信精煉納博弈息不存 在不確 定什均衡性,但是參與人行動存在先后順序。在完全 信息動 態(tài)博弈中,為了表示參與人 之間的 信息掌
8、握關(guān)系, 引入了信息及的概念。不完全在博弈 開始之 前貝葉斯信息靜參與人 之間的 信納什均態(tài)博弈息存在不確定性,衡但是參 與人同 時行動或 者不是 同時行動 但是后 行動者不 知道行 動者的行動信息。不確定 是參與 人的了性 的不確 定性子博弈精有限次重復與納什均衡連鎖店悖論煉納什均博弈均衡的唯一性有衡關(guān)無限次重復與貼現(xiàn)因子囚徒困境(冷酷博弈均衡有關(guān)戰(zhàn)略)(無名氏定無限期輪流討價理)還價模型一般博弈逆向歸納法斯坦科爾伯格寡求解頭競爭雇主與公會之間的競爭貝葉斯納混合戰(zhàn)略對原混合戰(zhàn)性別戰(zhàn)什均衡(不完全信略加入少許息情況下純不確定性因戰(zhàn)略均衡的素,求極限。極限)一般貝葉斯Harsanyi 轉(zhuǎn)機制設計
9、均衡換1、均衡結(jié)果 是 原博 弈 的Nash 均衡;2、同時在每 一 個子 博 弈上 構(gòu) 成Nash 均衡1、均衡存在性2、不確定性體現(xiàn)為類型的不確定性不完全信息動態(tài)博弈在博弈開始前參精煉貝信號傳遞分離均衡與人之間的信息葉斯納博弈存在不確定性, 同什均衡混同均衡時參與人行動存在先后順序。 不完準分離均衡全信息動態(tài)博弈過程不僅是參與人選擇行動的過程,而且是參與人不斷修正信念的過程。根據(jù)所得信信號傳遞博弈不完全信息息修正判斷不完全信息重復動態(tài)博弈子概率,根據(jù)博弈與聲譽博弈精煉納收益最大化Milgrom-Roberts什均衡與海決策壟斷限價模型薩尼不完全信息靜態(tài)博弈貝葉斯均衡的結(jié)合。二、四種博弈類型
10、具體分述1、完全信息靜態(tài)博弈1.1 完全信息靜態(tài)博弈特點 :每個參與人對其他所有參與人的特征、戰(zhàn)略空間及支付函數(shù)有精確的了解,博弈開始時不存在不確定性因素,參與人同時行動或者不是同時行動但是后行動者不知道行動者的行動信息。戰(zhàn)略和行動相同。1.2完全信靜態(tài)博弈相關(guān)概念:以新產(chǎn)品開發(fā)博弈舉例說明:學習好資料歡迎下載參與人 :參與人1 和 2。參與人的集合卡表示為:=1,2, n.表示所有參與人的集合,在新產(chǎn)品開發(fā)博弈中為:=1,2行動 :開發(fā)、不開發(fā)。Ai 表示參與人行動的集合。新產(chǎn)品開發(fā)博弈中參與人的行動集合為A1=A2=a,b,其中 a為開發(fā), b 為不開發(fā)。a=a1,a2 an表示參與人的行
11、動組合。新產(chǎn)品開發(fā)博弈中為:A=( a,a),(a,b),(b,a),(b,b)戰(zhàn)略 :參與人的行動規(guī)則。在博弈中的戰(zhàn)略可以定義為從觀測集到行動集的映射關(guān)系,即:Si:Xi Ai。用Si=si表示參與人所有戰(zhàn)略的集合。在 n 人博弈中,用 S=(s1,s2,s3 ,sn )表示 n 個參與人的戰(zhàn)略組合,它表示博弈中每個參與人采取戰(zhàn)略 si 的一種博弈情形。在完全信息靜態(tài)博弈中,由于不存在決策時序上的差異,所有參與人在同一決策時點即博弈開始的那一時刻決策,因此,所有參與人面臨的決策情形都只有一種,所以, 參與人的戰(zhàn)略集與行動集相同。支付 :是指參與人在博弈中的所得。一般情況下也是用效用函數(shù)來表示
12、參與人在博弈中的所得。 因此,參與人的支付就可表示為一種特定博弈情形下參與人得到的確定效用水平或期望效用水平。 支付一般用ui(1,2,n)表示參與人i 的支付 (效用水平 ),支付組合 u=(u1,u2,un)表示參與人在特定博弈情形下所得到的支付,其中為參與人i 的支付。因此,參與人i=(i=1,2,n)的支付就可表示為:ui=ui(si ,s-i).信息 :是參與人所具有的有關(guān)博弈的所有知識,如有關(guān)其它參與人行動或戰(zhàn)略的知識、有關(guān)參與人支付的知識等等。在“新產(chǎn)品開發(fā)博弈”中,如果兩個企業(yè)都知道市場需求,那么這樣的博弈情形就是我們前面所提到的完全信息假設; 如果兩個企業(yè)中至少有一個不知道市
13、場需求,那么這樣的博弈情形就是我們前面所提到的不完全信息假設。1.3純戰(zhàn)略納什均衡純戰(zhàn)略 :參與人在給定信息下只選擇一種特定(或確定性)的戰(zhàn)略混合戰(zhàn)略: 混合戰(zhàn)略解釋了一個參與人對其他參與人所采取的行動的不確定性, 它描述了參與人在給定信息下以某種概率分布隨機地選擇不同的行動或戰(zhàn)略。純戰(zhàn)略納什均衡中包括:占有均衡、重復剔除劣戰(zhàn)略均衡、一般純戰(zhàn)略納什均衡等。1、占優(yōu)均衡占優(yōu)戰(zhàn)略: 參與人的最優(yōu)戰(zhàn)略 si * 與其他參與人的選擇s-i 無關(guān)。無論其他參與人選擇什么戰(zhàn)略,參與人的最優(yōu)戰(zhàn)略總是唯一的,這樣的最優(yōu)戰(zhàn)略稱之為“占優(yōu)戰(zhàn)略”。在 n 人博弈中,如果對于所有的其他參與人的選擇s-i,si * 都
14、是參與人i 的最優(yōu)選擇ui (si* , s i ) ui (si , s i )則稱 si *為參與人的占優(yōu)戰(zhàn)略。在 n 人博弈中, 如果對所有參與人都存在占優(yōu)戰(zhàn)略si * ,則占優(yōu)戰(zhàn)略組合si*=(s1 * si2*, ,sn *)稱為占優(yōu)戰(zhàn)略均衡。如果所有參與人都有占優(yōu)戰(zhàn)略存在,那么占優(yōu)戰(zhàn)略均衡就是唯一的所有理性參與人可以預測到的博弈結(jié)果。2、重復剔除劣戰(zhàn)略如果在一個博弈中,參與人不存在占優(yōu)戰(zhàn)略,但是參與人i 存在兩個戰(zhàn)略,其中一ui ( si, s i ) ui (si , s i )個戰(zhàn)略叫另一個戰(zhàn)略的所得效用要大,則理性的參與人絕對不會選擇戰(zhàn)略。嚴格劣戰(zhàn)略 :ui ( si , s
15、 i ) u i ( si , s i )u ( si , s i )u i ( si , s i )學習好資料歡迎下載弱劣戰(zhàn)略 :若重復剔除過程一直可持續(xù)到只剩下唯一的戰(zhàn)略組合,則該戰(zhàn)略組合即為重復剔除的占優(yōu)均衡,此時該博弈是重復剔除戰(zhàn)略可解。要點:再重復剔除過程中,如果每次剔除的是嚴格劣戰(zhàn)略,均衡結(jié)果與剔除順序無關(guān);如果剔除的是弱劣戰(zhàn)略,均衡結(jié)果可能與剔除順序有關(guān)。3、一般 Nash 均衡Nash 均衡是完全信息靜態(tài)博弈的解的概念,戰(zhàn)略是不可剔除的,即不存在任何一個戰(zhàn)略嚴格優(yōu)于在完全信息靜態(tài)博弈中,Nash 均衡戰(zhàn)略。構(gòu)成Nash 均衡的求解納什均衡的方法劃線法、箭頭法。劃線法 :1、考察
16、參與人1 的最優(yōu)戰(zhàn)略2、用上述方法找出參與人2 的最優(yōu)戰(zhàn)略3、找出最優(yōu)戰(zhàn)略組合箭頭法:1、 對于每個戰(zhàn)略組合,檢查是否有參與人會偏離這個戰(zhàn)略組合2、 直至找出沒有參與人會偏離的戰(zhàn)略組合純戰(zhàn)略均衡反映函數(shù):各博弈方選擇的純策略對其他博弈方純策略的反應。1.4 混合戰(zhàn)略納什均衡混合戰(zhàn)略:在博弈G ; S1 ,., Sn ;u1,., un中,對任一參與人i ,設 Si=S i1, ,S ik,則參與人i 的一個混合戰(zhàn)略為定義在戰(zhàn)略集Si上的一個概率分布 i= i 1, , ik,其中 i j(j=1,k )表示參與人 i 選擇戰(zhàn)略 表示參與人 i 選擇戰(zhàn)略ij的概率的概率,即 ijS滿足 0 ij
17、 1,其中概率之和為1。支付:混合戰(zhàn)略的支付為各種概率下收益的加權(quán)平均。混合戰(zhàn)略納什均衡:在博弈G ; S1,., Sn ; u1 ,., un 中,混合戰(zhàn)略組合 i= 1* , , n* 為一個 Nash均衡。當且僅當i,ii ,有vi ( i* , *i ) vi ( i , * i )?;旌蠎?zhàn)略 Nash 均衡的求解:1.支付最大化法;2.支付等值法;混合戰(zhàn)略均衡反映函數(shù):在混合策略的范疇內(nèi),博弈方的決策是選擇概率分布,因此,反應函數(shù)就是一方對另一方選擇的概率分布的反應。聚點均衡:在現(xiàn)實生活中, 參與人可能使用某些被博弈模型抽象掉的信息來達到一個“聚點”均衡。這些信息可能與社會文化習慣、
18、參與人過去博弈的歷史有關(guān)。不同均衡概念之間的關(guān)系:占優(yōu)均衡 <重復剔除劣戰(zhàn)略均衡<純戰(zhàn)略納什均衡 <混合戰(zhàn)略納什均衡1.5 納什均衡的多重性與存在性存在性:每個有限戰(zhàn)略式博弈(參與人與相應的戰(zhàn)略集均為有限)必存在納什均衡,這個均衡可能是純戰(zhàn)略納什均衡,也可能是混合戰(zhàn)略納什均衡。多重性: 一個博弈可能有多個均衡,博弈論并沒有一個一般的理論證明,哪一個納什均衡結(jié)果一定能出現(xiàn)。學習好資料歡迎下載2、完全信息動態(tài)博弈2.1完全信息動態(tài)博弈特點:在博弈開始之前參與人之間的信息不存在不確定性,但是參與人行動存在先后順序。在完全信息動態(tài)博弈中,為了表示參與人之間的信息掌握關(guān)系,引入了信息及
19、的概念。2.2完全信息動態(tài)博弈有關(guān)概念:信息集 :信息集 I i 是參與人 i 決策結(jié)的一個集合,它滿足以下兩個條件:1 、 I i 中的每個決策結(jié)都是參與人i 的決策結(jié);2、當博弈到達I i 時,參與人i知道自己處在該信息集中的某個決策結(jié),但不知道是哪一個。在博弈樹中,屬于同一信息集的決策結(jié)一般用虛線連接起來。結(jié):包括決策結(jié)和終點結(jié)兩類。決策結(jié)是參與人采取行動的點時點,終點結(jié)是博弈行動路徑的終點。一個信息集可能只包含一個決策結(jié),也可能包含多個決策結(jié)。如果只包含一個決策結(jié)的信息集就是但單結(jié)信息集。如果博弈中所有信息集都是單結(jié)的則成為完美信息博弈。子博弈 :是原博弈的一部分,它始于原博弈中一個單
20、結(jié)信息集中的決策結(jié)x,并由決策結(jié)x 及其后續(xù)結(jié)共同組成。1、 子博弈可以作為一個獨立的博弈進行分析,并且與原博弈具有相同的信息結(jié)構(gòu);2、 原博弈可以作為自身的一個子博弈;2.3不完全信息靜態(tài)博弈均衡子博弈精煉Nash 均衡:解決 Nash 均衡多重性問題的一種主要方法就是精煉的方法,即在Nash 均衡的基礎(chǔ)上,通過定義更加合理的博弈解并剔除不合理的均衡。子博弈精煉納什均衡的引入就是將那些包含不可置信威脅戰(zhàn)略的納什均衡從均衡中剔除,從而給出動態(tài)博弈結(jié)果的一個合理預測。即子博弈精煉納什均衡要求均衡戰(zhàn)略的行為規(guī)則在每個信息集上都是最優(yōu)的。擴展式博弈的戰(zhàn)略組合足以下條件:1、是原博弈的Nash 均衡s
21、*(s1* ,., sn* ) ,是一個子博弈精煉Nash 均衡,當且僅當滿2、在每一個子博弈上構(gòu)成Nash 均衡一個戰(zhàn)略組合是子博弈精煉Nash 均衡當且僅當它對所有的子博弈( 包括原博弈) 構(gòu)成Nash 均衡,同時也意味著原博弈的Nash 均衡并不一定是子博弈精煉Nash 均衡,除非它還對所有子博弈構(gòu)成Nash 均衡。2.4不完全信息靜態(tài)博弈均衡求解逆推歸納法逆推歸納法是最常用的求解子博弈精煉Nash 均衡的方法,其步驟為:其中 ( xi ) 代表博弈中由最底層到博弈起點的順序,以 ( x3) 為最底層,則有:1、 找出博弈的所有子博弈;2、 按照博弈進程的“反方向”逐一求解各個子博弈,即
22、最先求解最底層的子博弈,再求解上一層的子博弈,.,直至原博弈。由于逆推歸納法對各個子博弈逐一進行求解,因此,逆推歸納法所得到的解在各子博弈上構(gòu)成 Nash 均衡 , 即意味著逆推歸納法所得的解為子博弈精煉納什均衡2.5完全信息動態(tài)博弈中承諾行動的均衡結(jié)果分析:承諾行動: 就是在博弈開始之前參與人采取某種改變自己支付或戰(zhàn)略空間的行動,該行動使原本不可信的威脅變得可信。但是參與人的承諾行動是有成本的,否則這種承諾就不可信。學習好資料歡迎下載例子 :要挾訴訟要挾訴訟就是指那種原告幾乎不可能勝訴而其惟一的目的是希望通過私了而得到一筆賠償?shù)脑V訟。 該博弈的結(jié)果為原告選擇不指控,博弈結(jié)束。 博弈的結(jié)果似乎
23、與人們觀測到的現(xiàn)實并不相符,因為現(xiàn)實中人們常常看到各種“要挾”發(fā)生。在上述模型中,“要挾”之所以沒有成功,關(guān)鍵在于原告將會起訴的威脅并不可信。要是威脅變得可信, 就必須采取承諾行動(沉沒成本) 。這樣參與人的威脅就會變得可信,從而使其他博弈參與人改變策略。2.6重復博弈議題:1、將來可信的威脅或承諾如何影響到當前的行動2、在一次博弈中無法實現(xiàn)的均衡,在重復博弈中能否實現(xiàn)有限次重復博弈 :對于給定的階段博弈,令 ( )表示G重復進行 T 次的有限重復博弈,GG T并且在下一次博弈開始前,所有以前博弈的進程都可被觀測到。有限次重復博弈均衡結(jié)論 :如果階段博弈 G有唯一的 Nash 均衡,則對任意有
24、限的T,重復博弈 G( T) 有唯一的子博弈精煉解,即 G的 Nash 均衡結(jié)果在每一個階段重復進行。而且在有限次重復博弈中, 如果在單階段博弈中均衡解不只有一個,則對將來行動所作的可信威脅或承諾可以影響到當前的行動。無限次重復博弈: 給定一階段博弈G,令 G( , ) 表示相應的無限重復博弈, 其中 G將無限次的重復進行,且參與人的貼現(xiàn)率為。對每個 t ,之前 t -1次階段博弈的結(jié)果在 t 階段開始進行前都可以被觀測到,每個參與人在G( , ) 中的收益都是該參與人在無限次的階段博弈中所得收益的現(xiàn)值。無限次重復博弈的解無名氏定理:用令 G為一個 n 人階段博弈,令( e1,e2,en )為
25、 G的一個 Nash 均衡下的收益,且(x1,x2,xn) 表示 G的其它任何可行收益,表示可行收益的集合。若存在xiei ,對i , xiX則存在貼現(xiàn)率,使無限重復博弈G(, ) 存在一個子博弈精煉Nash 均衡,其平均收益可達到 (x1,x2,xn) 。無名氏定理的解釋:在無限次重復博弈中,如果參與人具有足夠的耐心(只要滿足一定的條件),那么任何滿足個人理性的可行收益向量都可以通過一個特定的子博弈精煉Nash均衡得到。影響重復博弈結(jié)果的因素:影響重復博弈結(jié)果的是重復的次數(shù)和信息的完備性。2.7子博弈精煉Nash 均衡與 Nash 均衡的區(qū)別:由于子博弈精煉Nash 均衡在任一決策結(jié)上都能給
26、出最優(yōu)決策,這也使得子博弈精煉納什均衡不僅在均衡路徑( 即均衡戰(zhàn)略組合所對應的路徑) 上給出參與人的最優(yōu)選擇,而且在非均衡路徑 ( 即除均衡路徑以外的其它路徑) 上也能給出參與人的最優(yōu)選擇。即子博弈精煉Nash 均衡不會含有參與人在博弈進程中不合理的、不可置信的行動。3、 不完全信息靜態(tài)博弈3 1不完全信息靜態(tài)博弈特點:在博弈開始之前參與人之間的信息存在不確定性,但是參與人同時行動或者不是同時行動但是后行動者不知道行動者的行動信息。在不完全信息靜態(tài)博弈中, 在博弈開始前存在關(guān)于博弈人信息的不確定性, 這個不確定像通常是博弈參與人的類型。學習好資料歡迎下載在市場進入博弈中不完全信息表現(xiàn)為:在位者
27、的成本類型(高成本、低成本)在斗雞博弈中不完全信息表現(xiàn)為:參與人的性格類型(強硬,軟弱)3.2海薩尼轉(zhuǎn)換由于在不完全信息靜態(tài)博弈中, 參與人的類型存在不確定性, 所以當一個參與人并不知道在與誰博弈時, 博弈的規(guī)則是無法定義的, 海薩尼提出了海薩尼轉(zhuǎn)換解決這種不確定的問題。解決方法 :海薩尼指出, 引入虛擬參與人自然,由自然先決定參與人的不同類型,將不完全信息博弈轉(zhuǎn)換為不完美信息博弈。海薩尼通過引入“虛擬”參與人,將博弈的起始點提前, 從而將原博弈中參與人的事前不確定性轉(zhuǎn)變?yōu)椴┺拈_始后的不確定性。這種通過引入“虛擬”參與人來處理不完全信息博弈問題的方法稱為Harsanyi轉(zhuǎn)換。海薩尼轉(zhuǎn)換注意要點
28、:1、海薩尼轉(zhuǎn)換規(guī)定:參與人關(guān)于“自然”選擇的推斷為共同知識。2、“自然”的選擇。在一般的不完全信息博弈問題中,Harsanyi 轉(zhuǎn)換規(guī)定“自然”選擇的是參與人的類型 (type)。除了根據(jù)參與人的支付來劃分參與人的類型以外,還可以根據(jù)參與人的行動空間, 甚至根據(jù)參與人掌握信息的多少( 或程度 ) 來劃分參與人的類型。3、參與人關(guān)于“自然”選擇的推斷是基于自己類型判斷的條件概率。3.3 不完全信息靜態(tài)博弈均衡貝葉斯納什均衡貝葉斯博弈的定義:貝葉斯博弈包含以下五個要素:1、 參與人集合 B=1,2 , ,n2、 參與人的類型集合 T1, ,T23、 參與人關(guān)于其他參與人類型的推斷P1(t -1|
29、t1) , ,Pn(t-1 n|t n)4、 參與人類型相依的行動集1A(tnA(t ), ,)5、 參與人類型相依的支付函數(shù)貝葉斯博弈的戰(zhàn)略 :在貝葉斯博弈G= ;(Ti);( Pi );( A( t i );( ui ( a( t ); t i ) 中,參與人 i的一個戰(zhàn)略是從參與人的類型集ii(ti) ;它包含T 到其行動集的一個函數(shù)s了當自然賦予i 的類型為 ti時, i 將從可行的行動集ii) 中選擇的行動。A (t貝葉斯博弈的時間順序 :1、“自然”選擇參與人的類型組合t=(t1, ,t n)2、參與人同時選擇行動,每個參與人i從行動集 Ai(t i ) 中選擇行動 ai (ti
30、)3、參與人 i得到 支付貝葉斯納什均衡 :在貝葉斯博弈中,對于一個理性的參與人i ,當他只知道自己的類型t i 而不知道其他參與人的類型時,給定其他參與人的戰(zhàn)略s-i ,他將選擇使自己期望效*(t i ) ,其中用 ( 支付 ) 最大化的行動 a iai( ti)argmaxaiAi (ti )vi(ai, si ; ti)貝葉斯博弈納什均衡的存在性:一個有限的貝葉斯博弈一定存在貝葉斯Nash 均衡。3.4 貝葉斯博弈與混合戰(zhàn)略均衡(關(guān)于混合戰(zhàn)略納什均衡的一個解釋)首先,混合策略均衡不是現(xiàn)實生活的一個合理描述,人們并不是根據(jù)概率分布來選擇自己行動;海薩尼證明,在完全信息情況下的混合策略均衡可
31、以解釋為不完全信息情況下純策略均衡的極限。混合策略的本質(zhì):學習好資料歡迎下載混合策略的本質(zhì)不在于參與人隨機的選擇行動,而在于他不能確定其他參與人將選擇什么純策略,這種不確定性可能來自于參與人不知道其他參與人的類型。海薩尼的基本思想:只要在原來的博弈中加入少許不完全信息因素,使得參與人的支付函數(shù)中的收益不再是確定的,而是和一個有范圍的不確定參數(shù)有關(guān),從而通過將混合戰(zhàn)略均衡求解轉(zhuǎn)換為貝葉斯均衡的極限解,但是得到的純戰(zhàn)略貝葉斯均衡就與完全信息下的混合戰(zhàn)略均衡相似。結(jié)論 :完全信息博弈的混合戰(zhàn)略 Nash 均衡可以解釋為與之密切相關(guān)、存在一點點非完全信息的純戰(zhàn)略貝葉斯 Nash 均衡。同時海薩尼給出了
32、描述混合策略和純策略之間關(guān)系的一個正式的定理:混合策略均衡的純化定理。3.5貝葉斯均衡 Eg:機制設計問題機制設計問題實際上就是探討設計者如何向參與人提供激勵,以促使參與人向設計者透露其掌握的信息(說真話) ,從而確定對設計者有利的結(jié)果的問題。這一機制對應于一個博弈形式, 設計者需要設計出一個博弈形式,讓參與人在這個博弈形式下進行博弈從而實現(xiàn)他的目標。博弈形式不同, 實現(xiàn)目標的程度也不一樣, 設計者必須選擇對他來說是最有利的博弈形式,即最有利的機制。機制設計的基本模型:機制設計是典型的 3 階段不完全信息博弈,期階段如下:階段 1:機制設計者 ( 委托人 ) 設計一種 “機制”,或者“契約”,
33、或者“激勵方案”;階段 2:代理人選擇接受或拒絕該機制,拒絕的代理人得到某個外生的“保留效用”;階段 3:接受機制的代理人選擇自己的行動( 或者戰(zhàn)略 ) ,實現(xiàn)一個博弈結(jié)果。機制設計模型中的有關(guān)概念:參與約束:由于代理人在第二階段總可以選擇不接受該機制從而獲得一個保留效用,因此,代理人接受這個機制獲得的效用必須不小于拒絕這個機制時獲得的效用。激勵相容約束: 這意味著, 對于代理人而言, 代理人真實報告自己的類型時獲得的效用必須不小于謊報自己類型時獲得的效用。可行機制:滿足參與約束的機制被稱為可行機制。可實施機制:滿足激勵相容約束的機制稱為可實施機制可行的可實施機制:如果一個機制既滿足參與約束,
34、又滿足激勵相容約束。機制設計的目的:機制設計的目的就是要設計出可行的可實施機制,從而在該機制中找出最優(yōu)規(guī)則以追求最大化收益。4、不完全信息動態(tài)博弈4.1不完全信息動態(tài)博弈特點:在博弈開始之前參與人之間的信息存在不確定性,同時參與人行動存在先后順序。不完全信息動態(tài)博弈過程不僅是參與人選擇行動的過程,而且是參與人不斷修正信念的過程。4.2不完全信息動態(tài)博弈的有關(guān)概念類型 : 是指參與者的類型。在不完全信息動態(tài)博弈中自然首先選擇參與人的類型。動態(tài)博弈:行動有先有后。所以后行動者可以觀察到先行動者的行動信息,從而可以修正自己對于參與人的類型的信息的判斷。類型相依:參與者的行動傳遞著有關(guān)自己的類型的信息
35、,對方可通過參與人的行動來推斷自己的最優(yōu)行動。 先行動者預測到自己的行動被后行動者利用,就會設法傳遞對自己最有利的信息。學習好資料歡迎下載4.3不完全信息動態(tài)博弈的納什均衡精煉貝葉斯均衡對應于不完全信息動態(tài)博弈的納什均衡稱為精煉貝葉斯均衡;精練貝葉斯均衡是澤爾騰不完全信息動態(tài)博弈子博弈精煉納什均衡與海薩尼不完全信息靜態(tài)博弈貝葉斯均衡的結(jié)合。1、不完全信息動態(tài)博弈均衡求解的基本思路:不完全信息動態(tài)博弈將子博弈精煉 Nash 均衡中“均衡精煉”的思想應用到不完全信息擴展式博弈中,但是有提前條件:1、對每個參與人i ,在其信息集上給出關(guān)于自己位于該信息集中哪一個決策結(jié)的信念(或推斷 )。2、對參與人
36、i 的每個信息集,在給定參與人i在該信息集上的信念( 或推斷) 情況下,參與人的戰(zhàn)略是對其他參與人戰(zhàn)略的一個最優(yōu)反應。與靜態(tài)博弈不同的是:在觀測到先行動者第一階段選擇后,后行動者可以修正對先行動者類型的先驗概率,因為先行動者的行動可能包含其類型的信息,即行動就是類型的反映,不同的行動反映不同的類型信息。參與人最初對于對手類型信息概率的判斷成為先驗概率,對于根據(jù)行動反映出得信息修正后的概率成為后驗概率。先驗概率 (prior probability):修正之前的判斷;后驗概率 (posterior probability):修正之后的判斷先驗概率和后驗概率的轉(zhuǎn)化是根據(jù)貝葉斯法則計算:在不完全信息動態(tài)博弈博弈均衡解的求解過程中, 如果不可置信的威脅, 均衡就是不合理的, 所以要對均衡結(jié)果精煉, 剔除那些不可置信的威脅。 從而引入子博弈精練納什均衡的概念, 但是,在不完全信息動態(tài)博弈中, 只有一個子博弈,不能將上述方法直接用于求不完全信息動態(tài)博弈的均衡解。合理的均衡應該是滿足:給定每一個參與人有關(guān)其他參與人類型的后驗信念,參與人的戰(zhàn)略組合在每一個后續(xù)博弈上構(gòu)成貝葉斯均衡, 我們將通過這種方式得到的納什均衡稱為精煉貝葉斯納什均衡。精煉貝葉斯均衡是貝葉斯均衡、 子博弈精煉納什均衡和貝葉斯推斷的結(jié)合, 精煉貝葉斯均衡要求:1、在每個信息集上,決策者必
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園保育員兼職合同
- 文化藝術(shù)事業(yè)單位聘用合同指南
- 電梯銷售兼職合同
- 化工設備租賃合同樣本
- 園林招投標教案創(chuàng)新方案制定
- 汽車研發(fā)會議規(guī)范
- 海洋設備制造勞務合同樣本
- 會展合同范例好壞分析
- 巢東股合同范例
- 成果轉(zhuǎn)化合同范例
- 《藥物化學》期末復習試題
- 園林景觀工程關(guān)鍵施工技術(shù)、措施
- 新生兒頭顱血腫課件
- 《6.2.1 排列與排列數(shù)》教案、導學案與同步練習
- DB21-T 2819-2017巖土工程勘察報告編制規(guī)范
- 盾構(gòu)機行業(yè)電纜分析
- TQLCY 001-2023 學校食堂大宗食品原料采購食品安全管理規(guī)范
- 筑夢青春志在四方規(guī)劃啟航職引未來
- 職業(yè)道德與焊工職業(yè)守則
- 2024墻面原位加固修復技術(shù)規(guī)程
- 友邦培訓體系
評論
0/150
提交評論