博弈論-完全信息動態(tài)博弈

上傳人：w*** IP屬地：天津上傳時間：2023-09-05 格式：DOCX 頁數(shù)：34 大小：630.63KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩29頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2完全信息的動態(tài)博弈2.1完全和完美信息的動態(tài)博弈動態(tài)博弈(dynamicgame)：參與人在不同的時間選擇行動。完全信息動態(tài)博弈指的是各博弈方先后行動，后行動者知道先行動者的具體行動是什么且各博弈方對博弈中各種策略組合下所有參與人相應(yīng)的得益都完全了解的博弈靜態(tài)博弈習(xí)慣用戰(zhàn)略式(Strategicformrepresentation)表述，動態(tài)博弈習(xí)慣用擴(kuò)展式(Extensiveformrepresentation)表述。戰(zhàn)略式表述的三要素：參與人集合、每個參與人的戰(zhàn)略集合、由戰(zhàn)略組合決定的每個參與人的支付。擴(kuò)展式表述的要素包括：參與人集合、參與人的行動順序、參與人的行動空間、參與人的信息集、參與人的支付函數(shù)、外生事件(自然的選擇)的概率分布。n人有限戰(zhàn)略博弈的擴(kuò)展式表述用博弈樹來表示

①結(jié)：包括決策結(jié)和終點結(jié)。決策結(jié)是參與人采取行動的時點，終點結(jié)是博弈行動路徑的終點。第一個行動選擇對應(yīng)的決策結(jié)為“初始結(jié)”，用空心圓表示，其它決策結(jié)用實心圓表示。X表示結(jié)的集合，兀X表示某個特定的結(jié)。z表示終點結(jié)，Z表示終點結(jié)集合。Y表示結(jié)之間的順序關(guān)系，—X表示x在之前。x之前所有結(jié)的集合稱為x的前列集，x之后所有結(jié)的集合稱為x的后續(xù)集。以下兩種情況不允許：前者違背了傳遞性和反對稱性；后者違背了前列節(jié)必須是全排序的。在以上兩個假設(shè)之下，每個終點結(jié)都完全決定了博弈樹的某個路徑。枝：博弈樹上，枝是從一個決策結(jié)到其直接后續(xù)結(jié)的連線，每一個枝代表參與人的一個行動選擇。在每一個枝旁標(biāo)注該具體行動的代號。一般地，每個決策結(jié)下有多個枝，給出每次行動時參與人的行動空間，即此時有哪些行動可供選擇。信息集(informationsets)：博弈樹中某一決策者在某一行動階段具有相同信息的所有決策結(jié)集合稱為一個信息集。博弈樹上的所有決策結(jié)分割成不同的信息集。每一個信息集是決策結(jié)集合的一個子集(信息集是由決策結(jié)構(gòu)成的集合)，該子集包括所有滿足下列條件的決策結(jié)：(1)每一個決策結(jié)都是同一個參與人的決策結(jié)。(2)該參與人知道博弈進(jìn)入該集合的某個決策結(jié)，但不知道自己究竟處于哪一個決策結(jié)。引入信息集的目的是為了描述當(dāng)一個參與人要作出決策時他可能不知道“之前”發(fā)生的所有事情。(之前加引號是因為，博弈樹中的決策結(jié)的排序并不一定與行動的時間順序相一致)H表示信息集集合，h表示一個特定的信息集。h(x)表示包含決策結(jié)x的信息集。h(x)是一個信息集，意味著在x決策的參與人不確定他處在x結(jié)點還是其它xh(x)結(jié)點。這同時意味著一個決策結(jié)只能屬于一個信息集。信息集滿足的條件：1、任何一個決策結(jié)不能是屬于同一信息集的其它決策結(jié)的前列結(jié)或后續(xù)結(jié)。2、同一信息集的所有結(jié)都是同一參與人的決策結(jié)，即參與人不會將自己行動的結(jié)與他人行動的結(jié)混淆。3、一個參與人在屬于同一信息集的每一個決策結(jié)的行動空間應(yīng)該是相同的。一個靜態(tài)博弈的擴(kuò)展式表述一個信息集可能包含多個決策結(jié)，也可能只包含一個決策結(jié)。只包含一個決策結(jié)的信息集稱為單結(jié)信息集；如果博弈樹的所有信息集都是單結(jié)的(如果有虛擬參與人自然，則所有的參與人都知道自然的行動)，該博弈稱為完美信息博弈(Gameofperfectinformation)；否則就是不完美信息博弈。完美信息(perfectinformation):在博弈的每次行動的參與人完全知道博弈的歷史，即每個信息集只有一個決策結(jié)。完美信息博弈意味著博弈中沒有任何兩個參與人同時行動，而且所有后行動者都能確切知道先行動者選擇的行動，所有參與人都知道自然的行動。完全信息(completeinformation):參與人完全了解對手特征，既沒有事前的不確定性。不完全信息意味著不完美信息，但逆定理不成立。在博弈論中，自然的信息集一般假定為單結(jié)的。因為自然是隨機(jī)行動的，自然在參與人決策之后行動等價于自然在參與人決策之前行動但參與人不能觀測到自然的行動。因此，博弈樹上是否出現(xiàn)連接不同決策結(jié)的虛線取決于我們?nèi)绾伟才艣Q策結(jié)的順序。決策結(jié)的順序:如果知道前決策者的選擇，后決策者必須出現(xiàn)在后面，如果不知道前決策者的選擇，后決策者可以出現(xiàn)在后面，也可以出現(xiàn)在前面。相同的博弈可以不同的博弈樹表示，但同一個參與人在代表同一博弈的不同博弈樹中的信息集的數(shù)量必須相同，自然除外。

博弈一般假定滿足完美回憶的要求，完美回憶是指沒有參與人會忘記自己以前知道的事情，所有參與人都知道自己以前的選擇。

是X1的前列結(jié)；③x和X1都是同一個參與人的決策結(jié)；那么，存在一個x〃（可能是x本身）滿足：①和x屬于同一信息集；總〃是X2的前列結(jié)；③從X到達(dá)X1的行動和xr到達(dá)X2的行動是一樣的。即必須滿足“同一行動”和“同一信息集”假設(shè)。當(dāng)博弈涉及到外生不確定性事件時，我們假定“自然”以某種概率選擇某個特定事件，所有參與人對于自然的選擇具有相同的先驗概率。即所謂的“海薩尼公理”。

E1■宀Hi-mr-'-i.h-款訐、默訐斗爭*斗爭默訐、斗爭斗爭、默訐進(jìn)入40,50-10,□40,50-10,0不進(jìn)入0,3000,3000,3000,300進(jìn)入者在位者不進(jìn)入不進(jìn)入納什均衡：（進(jìn)入、（默許、默許））（不進(jìn)入、（斗爭、斗爭）（進(jìn)入、（默許、斗爭））（不進(jìn)入、（斗爭、默許）均衡結(jié)果有三個（進(jìn)入，默許）、（不進(jìn)入，斗爭）、（不進(jìn)入、默許）定理：一個有限完美信息博弈有一個純戰(zhàn)略納什均衡（zermelo,1913;kuhn,1953）。策略的可置信性問題：策略是博弈方自己預(yù)先設(shè)定的，在各個博弈階段針對各種情況所作的相應(yīng)行為選擇的計劃，本身沒有強(qiáng)制力，且實施起來有一個過程。在該過程中，根據(jù)自己的利益需要，他完全可以改變這個計劃，從而存在“相機(jī)選擇”，產(chǎn)生策略的可置信性問題。A子博弈精煉納什均衡、逆向歸納法“子博弈精煉納什均衡（subgameperfectNashequilibrium，selten,1965）,用于區(qū)分動態(tài)博弈中的“合理納什均衡”與“不合理納什均衡”，將納什均衡中包含有不可置信威脅策略的均衡剔除出去，就是說，使最后的均衡中不再包含有不可置信威脅策略的存在。子博弈：一個擴(kuò)展式表示博弈的子博弈g是由一個單結(jié)信息集x開始的與所有該決策結(jié)的后續(xù)結(jié)（包括終點結(jié)）組成的能自成一個博弈的原博弈的一部分。要求：①x是一個單結(jié)信息集：②子博弈的信息集和支付向量都直接繼承自原博弈;③子博弈不能切割原博弈的信息集。任何博弈本身稱為其自身的子博弈。擴(kuò)展式博弈的戰(zhàn)略組合s*=（S*],…，S*i，…，s*n）是一個子博弈精煉納什均衡，如果：（1）它是原博弈的納什均衡；（2）它在每一個子博弈上給出納什均衡。簡單的講，一個戰(zhàn)略組合是子博弈精煉納什均衡，當(dāng)且僅當(dāng)他在每一個子博弈（包括原博弈）上都構(gòu)成一個納什均衡。如果整個博弈是唯一的子博弈，那么納什均衡與子博弈精煉納什均衡相同，如果有其它子博弈，則有些納什均衡可能不構(gòu)成子博弈精煉納什均衡。

開發(fā)開戰(zhàn)商A-3,-3-3.-3"開發(fā)開戰(zhàn)商A-3,-3-3.-3"1,0=-=0,0｛開鶴開劃仃除不開刻休峨開劇環(huán)瞇迥3片■■w(開發(fā)，｛不開發(fā)，開發(fā)｝)是唯一一個子博弈精煉納什均衡均衡路徑(equilibrumpath)：納什均衡所在的路徑。其它的路徑都是該納什均衡的非均衡路徑(off-equilibriumpath)。構(gòu)成子博弈精煉納什均衡的戰(zhàn)略不僅在均衡路徑上是最優(yōu)的,而且在非均衡路徑上也是最優(yōu)的。這是納什均衡與子博弈精煉納什均衡的實質(zhì)區(qū)別。只有當(dāng)一個戰(zhàn)略規(guī)定的行動規(guī)則在所有可能的情況下都是最優(yōu)的時，它才是一個合理的、可置信的戰(zhàn)略。序貫理性(sequentialrationality):不論過去發(fā)生了什么，參與人應(yīng)該在博弈的每一個時點上最優(yōu)化自己的決策。子博弈精煉納什均衡求法——逆向歸納法求解對于我們現(xiàn)在所討論的有限完美信息動態(tài)博弈，逆向歸納法是求解子博弈精煉納什均衡的最簡便方法。在求解子博弈精煉納什均衡時，從最后一個子博弈開始逆推上去，這就是逆向歸納法。所以逆向歸納法就是從動態(tài)博弈的最后一個階段或最后一個子博弈開始，逐步向前倒推以求解動態(tài)博弈均衡的方法。逆向歸納法是重復(fù)剔出劣戰(zhàn)略方法在擴(kuò)展式博弈中的應(yīng)用。逆向歸納法不適合于無限博弈和不完美信息博弈。簡單的完全和完美信息博弈：1.參與人1選擇行動a1參與人2觀察叫，然后選擇a2收益是a1(a19a2)和u2(a1,a2)求解博弈:逆向歸納法(backwardinduction)1.求解第二個階段，對于兔，求a2maxu2(a1，a2)a2畝其解:a2=R2(a1)反應(yīng)函數(shù)2.求解第一個階段maxu1(a1，R2(a1))其解:a*1逆向歸納解(outcome):(a*^R2(a*J)注意：在動態(tài)博弈中，行動與戰(zhàn)略是不同的概念逆向歸納解與納什均衡是不同的概念。

0202選擇L〃;選擇L；選擇L用逆向歸納法:選擇L〃;選擇L；選擇L逆向歸納解：L（在第一個階段結(jié)束）。如果博弈在第一個階段中不結(jié)束，可能原因是什么?甲在開采一價值4萬元的金礦時缺1萬元資金，而乙正好有1萬元資金可以投資。甲希望乙能將1萬元資金借給自己用于開礦，并許諾在采到金子后與乙對半分成，乙是否該將錢借給甲呢？

關(guān)于逆向歸納法的理性假定：所有參與人是理性的是所有參與人的共同知識BStackelberg模型(1934)二個企業(yè)，生產(chǎn)產(chǎn)量:q1,q2市場需求:P=a-Q,其中Q=q1+q2成本:C(qi)=cq.,i=1,2.利潤：叫④,q2)=Pq.-C(qi)=(a-(q1+q2))q.-cqe博弈的順序：(1)企業(yè)1選擇q1>0；⑵企業(yè)2觀察q1然后選擇q2>0;⑶收益:兀qqj)=q.[P(Q)-c],其中P(Q)=a一Q,Q=q1+q2求逆向歸納解(1)階段2,企業(yè)2在觀察q1后選擇q2滿足maxq2(a_(q1+q2)_c)解出q解出q2=R2(q1)=a—ql—c2⑵階段1,企業(yè)1預(yù)測到R2(q])，求q1maxq1(a-(q1+R2(q1))-c)q1>0=qa_q1_cql>02解出q*=a—cq*=a—c兀*=(a_c)2兀*=(a-c)2qi■丁'的■丁,12=「^與Cournot模型比較qq1*=q2n1*=n(a-c)29結(jié)果：先進(jìn)入市場者有更多的利潤。即所謂的先動優(yōu)勢(first-moveradvantage),如果企業(yè)選擇的是價格而不是產(chǎn)量，得到的將是后動優(yōu)勢(second-moveradvantage)。同時，該例還說明，擁有信息優(yōu)勢可能使局中人處于劣勢(后動者擁有更多信息)，而這在單人決策論中是不可能的。企業(yè)2處于劣勢是因為它在行動前已知企業(yè)1的產(chǎn)量，而企業(yè)1在開始行動時也知如此。但若企業(yè)2不知企業(yè)1的產(chǎn)量且企業(yè)1也知如此，則即使企業(yè)1先行動，博弈也是古諾均衡的而非Stackelberg均衡的，企業(yè)2反而獲益，企業(yè)1的先動優(yōu)勢就不存在了。企業(yè)1先生產(chǎn)產(chǎn)量就是一種承諾行動，生產(chǎn)出來的產(chǎn)量是沉淀成本，從而使企業(yè)2不得不認(rèn)為它的威脅是可置信的。如果企業(yè)1只是宣布它將生產(chǎn)q*=匕。企業(yè)2不會相信它的威脅，因若企業(yè)2相信12它的威脅而選q=匕，給定此q，企業(yè)1的最優(yōu)選擇是q=1(0-￡)而”242"18

不是％=a-c"T~4R1古諾均衡3(a-不是％=a-c"T~4R1古諾均衡3(a-c)(a-c)Stackelberg均衡(a-c)q1Stackelberg均衡與古諾均衡的比較承諾行動：一個博弈模型的均衡與博弈模型中各個局中人的戰(zhàn)略空間或行動空間有關(guān)，當(dāng)我們改變博弈模型中一些局中人的戰(zhàn)略空間或行動空間時，也就改變了博弈的均衡。在一個博弈中，倘若某局中人希望一個本屬含有不可置信威脅或承諾的行動的非精煉均衡能真正發(fā)生，他可以通過改變其行動空間(通常是減小其行動空間或戰(zhàn)略空間)使其威脅或承諾變得可置信，從而將原本非精煉的均衡變成精煉的均衡，這類局中人改變其行動或戰(zhàn)略空間的行為被稱為“承諾行動”(Commitmentaction)。破釜沉舟完全承諾不完全承諾(-3,-3)(1,-4)(0,1)(0,-4)(-3,-3)(1,-4)(0,1)(0,-4)2.1.C工會與企業(yè)的工資和就業(yè)經(jīng)濟(jì)學(xué)家Leontief于1946年提出的工會模型描寫了工會與廠商就工資進(jìn)行談判的機(jī)理，并就均衡的非帕累托最優(yōu)性和談判結(jié)果的不穩(wěn)定性作出解釋，它解釋了人們所觀察到的工會與廠商就工資水平所進(jìn)行的經(jīng)常性談判是如何發(fā)生的(Leonfief,1946)。一個企業(yè)和一個工會，關(guān)于工資w和就業(yè)數(shù)量L的決定。局中人1—工會：戰(zhàn)略空間為提出工資水平w}局中人2—廠商：戰(zhàn)略空間為決定工人雇用量L}工會收益:U(w,L);假設(shè)竺＞0，巴＞0，dwdL企業(yè)收益：兀(w,L)=R(L)-wL，R(0)=8，R'(8)=0,假設(shè)r(L)是l的增函數(shù)且為凹函數(shù)博弈的順序:(1)工會選擇工資w;(2)企業(yè)觀察w且選擇L.工會的無差異曲線求逆向歸納解(1)階段2

企業(yè)對w,選擇L求maxRL)-wL]一階條件R(L)一w=0,因為,RR(0)=8,R(g)=0，即r，(L)e[0,◎，解出L*出L*wL利用等利潤曲線兀=R(L)-wL分析：w=(R(L)-?/L,等利潤線的位置越高，利潤越小，因它對應(yīng)同樣的L卻付出更高的工資。dw/dL=[R(L)-w]/L,隨L增加，等利潤曲線先是正斜率，然后是負(fù)斜率。等利潤線是凹的企業(yè)的選擇在等利潤線的頂點上。因為R'(L)-w=0(2)階段1工會選w*使U(w*,L*(w*))達(dá)到最大化，即工會在第一階段的問題

是：maxU(w,L*(w))w是：maxU(w,L*(w))w>0L*(w)曲線與無差異曲線的切點決定均衡點逆向歸納解(w*,L(w*))此結(jié)果是非最優(yōu)的(inefficient)。帕累托最優(yōu)的條件：2二R(L)-w-U兀LUWL此條件是下列最優(yōu)化問題的解：MaXU(W,L)(R(L)-wL)s.t.L>0,w>02.1.D序貫談判：討價還價博弈假設(shè)兩人就如何分配1萬元現(xiàn)金進(jìn)行談判，規(guī)則是這樣，首先由甲提出一個分割比例，對甲提出的比例乙可以接受也可以不接受；如果乙不接受則他應(yīng)提出另一個方案，讓甲選擇接受與否……。假設(shè)該博弈為三階段討價還價博弈，即第三回合甲的方案具有強(qiáng)制約束力。第三回合、甲的方案是自己得S=10O00。第二回合，乙出價S2滿足:甲：6S=62S,即S=6S22乙：6(10000—S)=6(10000—6S)=100006—62S>1000062—62S2第一回合，甲出價S1滿足：滿足乙：10000—S=100006—62S1即甲的得益：S=10000-100006+62S1當(dāng)0.5<6<1時，6越大，甲的得益越大，乙的得益越小當(dāng)0<6<0.5時，6越大，甲的得益越小，乙的得益越大三期的談判模型參與人1和參與人2談判分配一元錢(s,1-s).(la)參與人1提議分配方案：何,1-s1)；(lb)參與人2接受提議或拒絕提議。如果參與人2拒絕，進(jìn)入第2階段;(2a)參與人2提議(s2,1-s2)(2b)參與人1接受提議或拒絕提議。如果參與人1拒絕，進(jìn)入第3階段；(3)按外生方案分配，參與人1分得s,參與人2分得1-s。貼現(xiàn)率:6xx*求逆向歸納解(1)在階段2如果s2>8s參與人1將會接受s2。取s2=Ss,則1-s2>8(1一s)。結(jié)果：參與人2將會提議s*2=8s,參與人1將會接受。(2)在階段1如果1一$]>8(1-s*2)即s1<1-8(1-s*2),參與人2將會接受s1當(dāng)s1=1一8(1-s*2)，s1>Ss*2結(jié)果:參與人1將會提出s*1=1一8(1一s*2)=1一8(1-8s)參與人2將會接受1-s*]?逆向遞歸解為[1-8(1-8s),8s]討價還價模型與Rubinstein定理當(dāng)討價還價博弈是無限次進(jìn)行時,逆向歸納法不能直接使用,但我們可以運用逆向歸納法的思想以及博弈樹在自身結(jié)構(gòu)上的自相似性(即每一個子博弈在結(jié)構(gòu)上相似于原博弈)解出其唯一的子博弈精煉均衡，這就是著名的Rubinstein(1982)定理。若T2，貝憐流出價的討價還價博弈有唯一的子博弈精煉納什均衡,其均衡結(jié)果為1-81-8812當(dāng)8當(dāng)8=8=8時，121T+5假定在t>3由1出價且1能得到的最大份額為M。1在t得到的M對1來說等價于他在t-1得到8M1故2在t-1出價x>5M時，1必接受，而2不會出比§M更多的211給1,故2在t-1出價x=5M對2是最優(yōu)的，2獲得1—5M。211在t-2，2的最大支付貼現(xiàn)值為5(1—5M)，1在t-2出價211-x>5(1-5M)時，2會接受，而1不會出比此更多的給2,故1出121價1-x=5(1-5M),1的最大獲取為1-5(1-5M)。12121因為從t-2開始的博弈與從t開始的博弈完全相同，故1在t-2能得到的最大份額一定與其在t能得到的最大份額相同，所以M=1-5(1-5M)21得M=1-M=21-5512再設(shè)1在t能得到的最小份額為加，類似推理可得1-5m=廠=M1-5512因總有m<x<M，而m=M，故必有兀=m=M=島12當(dāng)5=5=5時，x*=121+52.1.D貨幣政策的動態(tài)不一致性模型中的局中人有兩個,一是公眾,其戰(zhàn)略空間為所選擇的各種預(yù)期通脹率；二是政府,其戰(zhàn)略空間為在給定公眾預(yù)期通脹率下所能選擇的實際通脹率(貨幣政策)。博弈行動順序為：公眾先動,政府在觀察到公眾的選擇后行動。支付函數(shù)：政府同時關(guān)心通脹與失業(yè)問題(宏觀經(jīng)濟(jì)政策的兩大目標(biāo)),故設(shè)政府的單階段效用函數(shù)為M(兀，y)=-c兀2-(y-ky)2，c>0,k>1其中“為通脹率，y為自然失業(yè)率下的均衡產(chǎn)量，y是實際產(chǎn)量。k>1的經(jīng)濟(jì)含義是由于市場扭曲（來自于工資剛性和市場的不完全競爭等）使自然失業(yè)率下的產(chǎn)量低于政府偏好的理想水平（即政府認(rèn)為自然失業(yè)率過高），以及政府受到選民的壓力而不得不尋求將產(chǎn)量提高到高于自然失業(yè)率產(chǎn)量的水平。該效用函數(shù)表明，盡管政府并不喜歡通脹，但若通脹能使產(chǎn)量提高到政府希望的水平ky，政府也會容忍某種程度的通脹。產(chǎn)出與通脹之間的關(guān)系由含有通脹率預(yù)期的短期菲利普斯曲線決定。設(shè)定為y二y+P（兀一兀e）,P>0其中兀e是公眾預(yù)期的通脹率。這種phillips曲線又稱為“意外產(chǎn)出函數(shù)”，即只有未被公眾預(yù)期到的通脹才會影響實際產(chǎn)出，其原因在于交易費用使得企業(yè)不可能隨時調(diào)整工資率（以及工會的力量抵制工資向下調(diào)整）。設(shè)政府在給定公眾通脹預(yù)期下選擇貨幣政策，則政府的優(yōu)化決策為：maxM（兀，y）二一c兀2-（y-ky）2s-1y二y+P（兀一兀e）將y二y+P（?！）代入目標(biāo)函數(shù)M二一c兀2—（y+B兀一B兀e-ky）2一階條件—2c兀一2B（y+B兀一B兀e—ky）=0（—2c—2P2）兀一2P[_B兀e+（1—k）y]二0仃*_P[P兀e+（k-1）刃/V（c+P2）兀*是政府短期最優(yōu)通脹率。（k—1）可被理解為（政府認(rèn)為的）扭

曲程度。上式表明：政府選擇的通脹率是公眾預(yù)期通脹率的函數(shù)，它就是政府的反應(yīng)函數(shù)。現(xiàn)假定公眾有“理性預(yù)期”，則兀e=兀*。代入反應(yīng)函數(shù)，得到B［B［旳*+(k—1刃

(c+P2)B2兀*+p(k-1)yC+P2C+P2P(k-1)yc+Pc+P21-P(k-1)yc下圖表明理性預(yù)期兀e=n*由反應(yīng)函數(shù)兀*（兀e）與450線的交點決定。nene由n*=ne=p（k一Dy知，p愈大（產(chǎn)出對未預(yù)料到的通脹率愈敏c感），扭曲愈嚴(yán)重（（k-1）愈大），則理性預(yù)期通脹率（也是博弈均衡通脹率）就愈高。當(dāng)政府愈不喜歡通脹（c愈大時，（-c）是目標(biāo)函數(shù)M中n的權(quán)數(shù)）,均衡通脹率就愈低（與直觀一致）。此時，因政府選擇的通脹率n*被公眾正確預(yù)期到（n*=ne），故實際產(chǎn)出水平將獨立于通脹（即y二y）。政府一方面忍受著通脹之苦,另一方面又無法享受產(chǎn)出增加之益（減少失業(yè)帶來選票的增加）。將n*代入效用函數(shù)并用Phillips曲線消去y，得到政府短期效用水平為M=-c卩伙—Dy2_ly+p(?！)-ky]sc」_P2=-(k—1)2y21+—c2若政府選零通脹戰(zhàn)略，則效用水平為M=—c-0-[y+p(0—0)—kyIP=-(k-1)2戸(設(shè)公眾也預(yù)測到零通脹率)這里下標(biāo)p表示政府事前承諾零通脹率。顯然有M<M，但為何政府不選擇零通脹率呢？為何政府不一SP直按承諾的零通脹率行事呢？因為零通脹率不是可置信的承諾，即不是一個動態(tài)一致的政策，或者說不是一個子博弈精煉納什均衡?，F(xiàn)假定政府許諾自己將實行零通脹率政策，且公眾輕信了政府的許諾，則給定兀e=0,政府的最優(yōu)通脹率計算如下：maxM=-cn2-(y-ky)2兀s-1y=y+pnM二_cn2-(y+Pn-ky)2一階條件：dM_-2cn-2p(y+pn-ky)2-0dnnP(k-1)yn*-c+P2效用為Mfkk-1)y1--1+P2c其中f表示公眾被政府愚弄的情形。因M>M，故政府無積極性兌現(xiàn)自己的許諾。fP即給定公眾相信通脹率為零，則政府一定會選大于零的通脹率因公眾是理性的，且知政府是理性的(故預(yù)料到政府會如此干)故公眾不會預(yù)期通脹率為政府所許諾的那樣為零。因而有理性預(yù)期，效用只能為M而非M（M）。SPS這樣，政府因無法使公眾相信零通脹率而自受其苦，即“聰明反被聰明誤”。貨幣主義的代表人物弗里德曼建議，可實行“單一的”貨幣政策，即以法律形式規(guī)定一個固定的貨幣增長率。注意，這是一個承諾行動，即將不可置信承諾的零通脹率變?yōu)榭芍眯诺摹Ｒ驗檫@種法律規(guī)定限制了政府行動的自由（減小了政府的行動空間），它等價于一個可置信的承諾行動，但政府卻反而受益（得到支付M）。P政府對自身聲譽(yù)的考慮也是約束政府機(jī)會主義行動的一個重要因素（即考慮長期效用），因政府與公眾之間的博弈實際上是一個重復(fù)博弈。如果有一個不制造通脹的強(qiáng)政府聲譽(yù)，政府會長期受益的。類似的例子還有：政府稅收政策也存在動態(tài)不一致。如為了鼓勵外資進(jìn)入，有些發(fā)展中國家常許諾對外資的稅收優(yōu)惠政策。但在給定外資已進(jìn)入情況下，政府又常常通過提高稅率甚至沒收外資企業(yè)的辦法來增加財政收入。因此，除非有很好的法律制度保證政府言而有信，否則，投資者不會被政府的許諾所誘惑。在這個例子中，若雙方都預(yù)期和選擇零通脹，則達(dá)到帕累托最優(yōu)。但正如“囚徒困境”中的“（抵賴，抵賴）”一樣，這并不是一個納什均衡。當(dāng)政府承諾零通脹時，若公眾預(yù)期零通脹，則政府的零通脹政策就不是最優(yōu)的了，不是一個子博弈精煉均衡。2.2重復(fù)博弈重復(fù)博弈中每個階段中的博弈方、可選策略、規(guī)則和得益都是相同的是特殊的動態(tài)博弈；基本特征:（1）前一階段的博弈不改變后階段的博弈結(jié)構(gòu)；（2）所有參與人都能觀測到博弈過去的歷史；（3）參與人的總損益是所有階段損益的貼現(xiàn)值之和。形式上是基本博弈的重復(fù)進(jìn)行，但博弈方的行為和博弈結(jié)果不一定是基本博弈的簡單重復(fù)，因為博弈方對于博弈會重復(fù)進(jìn)行的意識，會使他們對利益的判斷發(fā)送變化，從而使他們在重復(fù)博弈過程不同階段的行為選擇受到影響。策略：博弈方的一個策略就是在每個階段（即每次重復(fù)），針對每種情況（以前階段的結(jié)果）如何行動的計劃。以逆推歸納法（逆向歸納法）為核心的子博弈精煉納什均衡分析及相關(guān)結(jié)論，可以推廣到重復(fù)博弈中。重復(fù)博弈的路徑是由每個階段博弈方的行動組合串聯(lián)而成的。因為對應(yīng)前一階段的每種結(jié)果，下一階段都有原博弈全部策略組合數(shù)那么多種可能的結(jié)果。原博弈有m種策略組合，那么重復(fù)兩次就有m2條博弈路徑，重復(fù)t次就有mt條博弈路徑。有限次重復(fù)博弈：給定一個基本博弈G（可以是靜態(tài)博弈，也可以是動態(tài)博弈），重復(fù)進(jìn)行T次G，并且在每次重復(fù)G之前各博弈方都能觀察到以前博弈的結(jié)果，這樣的博弈過程稱為“G的T次重復(fù)博弈”，記為G（T）。而G則稱為G（T）的“原博弈”。G（T）中的每次重復(fù)稱為G（T）的一個“階段”。無限次重復(fù)博弈：一個基本博弈G一直重復(fù)博弈下去的博弈，記為G（8）。重復(fù)博弈的次數(shù)雖然有限，但重復(fù)的次數(shù)或博弈結(jié)束的時間不確定，這種重復(fù)博弈中博弈方的行為選擇與有確定結(jié)束時間的有限次重復(fù)博弈很不同，與無限次重復(fù)博弈很相似，甚至可以通過某種方式與無限次重復(fù)博弈統(tǒng)一起來。這種重復(fù)博弈可以稱為“隨機(jī)結(jié)束的重復(fù)

博弈”。任何博弈博弈方策略選擇依據(jù)都是支付的大小。重復(fù)博弈中計算的是“總支付”。由于時間有先后，因此需引入貼現(xiàn)系數(shù)。有限次重復(fù)博弈的總支付兀=兀+6兀+52兀+...+5t-ik眾5t-1兀TOC\o"1-5"\h\z123Ttt=1無限次重復(fù)博弈的總支付兀=兀+5兀+52兀+…+5t-i兀+???上5t-1兀123Ttt=1平均支付有限次重復(fù)博弈兀=二^另51-1兀1-5Ttt=1無限次重復(fù)博弈兀=(1-5)遠(yuǎn)51-1兀t平均支付有兩個優(yōu)點。其一，它消除了時間的因素，因而可直接進(jìn)行支付比較。其二是平均支付是現(xiàn)值支付的1-5倍，因而平均支付最大化與現(xiàn)值支付最大化是等價的。22A理論：有限次重復(fù)博弈連鎖店悖論一個壟斷的百貨銷售集團(tuán)在20個地區(qū)都設(shè)有連鎖店，另外一家公司打算在這20個地區(qū)也設(shè)立20個連鎖店銷售同類產(chǎn)品與前一公司競爭。進(jìn)入B默許A進(jìn)入B默許不進(jìn)入斗爭B斗爭(40,50)(-10,0)(0,300)(0,300)現(xiàn)在的博弈問題是：當(dāng)進(jìn)入者進(jìn)入每一個地區(qū)時，在位者都有兩種戰(zhàn)略即斗爭或默許；而進(jìn)入者在每一個地區(qū)也都有兩種戰(zhàn)略即進(jìn)入還是不進(jìn)入。而重復(fù)博弈就是兩家公司在這20個地區(qū)不斷重復(fù)的市場進(jìn)入及阻撓博弈，假設(shè)進(jìn)入者依次從第1第2,……，到第20個地區(qū)進(jìn)行進(jìn)入決策博弈。從直觀上看，在第1個地區(qū)的博弈中，在位者為了使進(jìn)入者不敢在別的地區(qū)開店，它會選擇打擊，但實際上這種威脅是不可置信的。我們用逆向歸納法的邏輯來分析：考慮第20個地區(qū)的博弈。因這是最后一個地區(qū)，打擊對在位者無意義，其最優(yōu)選擇是“默許”，進(jìn)入者進(jìn)入。再看第19個地區(qū)，因進(jìn)入者和第20個地區(qū)上的博弈結(jié)果必是在位者默認(rèn)，它進(jìn)入，結(jié)果是確定的，不受這次博弈的影響，故知在位者必選“默許”，“打擊”的威脅是不可置信的，故它必進(jìn)入。連鎖店博弈顯然，如此倒推，知每一個地區(qū)的階段博弈均衡必是（進(jìn)入，默許），上圖中的逆向歸納法求解表明這是唯一的子博弈精煉均衡。由此，我們有如下定理。令G是階段博弈,G（町是G重復(fù)T次的有限次重復(fù)博弈（T＜心,則當(dāng)G有唯一的子博弈精煉納什均衡時，重復(fù)博弈G（T）的唯一子博弈精煉納什均衡結(jié)果是階段博弈G的納什均衡重復(fù)T次的結(jié)果。局中人的總支付等于各階段博弈的支付貼現(xiàn)值之和，而局中人的戰(zhàn)略由局中人在各階段博弈中的戰(zhàn)略組成。因此，給定其他局中人的戰(zhàn)略，也就給定了其他局中人在各階段博弈中的戰(zhàn)略。當(dāng)其他局中人的戰(zhàn)略由他在各階段博弈中的子博弈精煉納什均衡戰(zhàn)略組成時，當(dāng)且僅當(dāng)該局中人的戰(zhàn)略為各階段博弈中的子博弈精煉均衡戰(zhàn)略，該局中人的總支付達(dá)到最大。因該局中人是任一位局中人，因而我們就證明當(dāng)單階段博弈的子博弈精煉納什均衡重復(fù)T次時，就構(gòu)成整個重復(fù)博弈的一個納什均衡。在有限次重復(fù)博弈中，如果原博弈存在唯一的純策略納什均衡策略組合，則有限次重復(fù)博弈的唯一的均衡解即各博弈方在每階段中都采用原博弈的納什均衡；由于在這樣的雙方策略下，均衡路徑中的每個階段都不存在任何不可信的威脅或許諾，因此這種均衡是子博弈完美納什均衡。在一個博弈中的每個博弈方的所有得益上各自加上相同的數(shù)值不會改變博弈原來的均衡設(shè)原博弈G有惟一的純策略納什均衡，則對任意正整數(shù)T,重復(fù)博弈G(T)有惟一的子博弈完美納什均衡，即各博弈方每個階段都采用G的納什均衡策略。各博弈方在G(T)中的總得益為在G中得益的T倍，平均得益等于原博弈G中的得益。B理論:無限重復(fù)博弈無限重復(fù)博弈:Gg6)：博弈G重復(fù)無限次。折現(xiàn)因子:6=1/(1+r)v1，無限收益序列的現(xiàn)值叫=ui1+%+阿3+…=S15t-1uit無限次與有限次重復(fù)博弈的區(qū)別：有限次：（1）存在最后一次博弈正是破壞重復(fù)博弈中博弈方利益和行為的相互制約關(guān)系，使重復(fù)博弈無法實現(xiàn)更高效率均衡的關(guān)鍵；（2）不一定考慮貼現(xiàn)問題。無限次：（1）沒有最后一次；（2）對博弈方選擇和博弈均衡的分析必須以平均得益或總得益的現(xiàn)值為依據(jù)。無限次重復(fù)的囚徒困境問題：對于階段博弈8,80，1010，01，1坦白1不坦白囚徒2坦白不坦白考慮觸發(fā)戰(zhàn)略（triggerstrategy）,觸發(fā)戰(zhàn)略又稱冷酷戰(zhàn)略，因為任何參與人的一次不合作將觸發(fā)永久的不合作。在囚徒困境中考慮如下冷酷戰(zhàn)略：當(dāng)t=1時，選擇不坦白（合作）；在t>1階段，如前面t-1個階段中出現(xiàn)的行動組合都是（不坦白，不坦白），仍選擇不坦白，否則，選擇坦白（不合作）。可以證明，當(dāng)5充分大時，兩個局中人的觸發(fā)策略組合是子博弈精煉納什均衡。在該戰(zhàn)略中，一方自己一旦選了“坦白”，他之后也永遠(yuǎn)選“

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

博弈論-完全信息動態(tài)博弈

文檔簡介

溫馨提示

最新文檔

評論

博弈論-完全信息動態(tài)博弈

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔