經(jīng)濟(jì)博弈論謝識予1完全信息靜態(tài)博弈.ppt_第1頁
經(jīng)濟(jì)博弈論謝識予1完全信息靜態(tài)博弈.ppt_第2頁
經(jīng)濟(jì)博弈論謝識予1完全信息靜態(tài)博弈.ppt_第3頁
經(jīng)濟(jì)博弈論謝識予1完全信息靜態(tài)博弈.ppt_第4頁
經(jīng)濟(jì)博弈論謝識予1完全信息靜態(tài)博弈.ppt_第5頁
已閱讀5頁,還剩116頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

博弈論與信息經(jīng)濟(jì)學(xué) (Game Theory and Information Economics),第2章:完全信息靜態(tài)博弈 Chapter 2: Static Game of Complete Information,完全信息靜態(tài)博弈,靜態(tài)博弈(同時(shí)行動博弈),所有參與人同時(shí)選擇行動,而且只選擇一次,“同時(shí)”是一個(gè)信息概念,而不一定與日歷上的時(shí)間一致,如,罰點(diǎn)球時(shí),守門員和對方射手必須同時(shí)決策,在博弈中,如果參與者在不知道對手如何選擇的情況下行動,該博弈就是靜態(tài)的。,完全信息靜態(tài)博弈,信息,決策需要信息,但是幾乎所有需要決策的場合,我們都只掌握著有限信息,這使得現(xiàn)實(shí)中往往是有限信息博弈。,完全信息:每個(gè)參與人對其他參與人的支付函數(shù)有完全的了解。,不完全信息:每個(gè)參與人對其他參與人的支付函數(shù)不完全的了解。,在位者低成本,市場進(jìn)入博弈,若進(jìn)入者知道在位者是高成本還是低成本完全信息,若進(jìn)入者不知道在位者是高成本還是低成本不完全信息,進(jìn)入者決定是否進(jìn)入一個(gè)新的產(chǎn)業(yè),在 位者選擇斗爭或默許,但不知道在位企 業(yè)的成本函數(shù)是高還是低,也不知道各 種戰(zhàn)略組合下的利潤水平。,在位者高成本,1 完全信息靜態(tài)博弈,囚徒困境與占優(yōu)均衡 智豬博弈與重復(fù)剔除的占優(yōu)均衡 納什均衡 多重均衡與協(xié)調(diào) 納什均衡應(yīng)用舉例 混合戰(zhàn)略納什均衡 納什均衡的存在性,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,兩個(gè)小偷行竊未果被抓,隔離審訊。 “坦白從寬,抗拒從嚴(yán)”:如果兩人都 坦白則各判8年;如果一人坦白另一人 不坦白,坦白的放出去,不坦白的判10年;如果都不坦白則因證據(jù)不足各判1年 。 坦白否?,囚徒困境(Prisoners Dilemma)(塔克,1950),1 囚徒困境與占優(yōu)戰(zhàn)略均衡,囚徒 A,坦白,抵賴,坦白,抵賴,囚徒 B,基于收益矩陣的模型描述:,連續(xù)策略,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,離散型策略,另一些博弈中,在其他博弈中,每個(gè)參與者的純策略可以是 來自一個(gè)連續(xù)范圍的一個(gè)數(shù)。如廠商定價(jià),博弈中參與人只擁有有限個(gè)離散型的純戰(zhàn)略供其選擇。 如籃球比賽中的運(yùn)球、過人和投籃,離散型策略靜態(tài)博弈通常用支付表來表示 博弈的戰(zhàn)略式表述,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,占優(yōu)戰(zhàn)略/優(yōu)勢策略/上策(dominant strategy),無論其他局中人如何行動,總是(嚴(yán)格地)優(yōu)于其他戰(zhàn)略的戰(zhàn)略,稱為(嚴(yán)格)占優(yōu)戰(zhàn)略。而被(嚴(yán)格地)占優(yōu)的戰(zhàn)略稱為(嚴(yán)格)劣戰(zhàn)略。,從一方的角度看,選擇“坦白”比選擇“抵賴”好,無論他關(guān) 于對方的選擇持有何等信念。 我們就說,對于囚徒而言,“坦白”的策略是一個(gè)占優(yōu)策略, 或者說“抵賴”的策略是一個(gè)劣策略。,以不變應(yīng)萬變,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,參與人是理性的 囚徒A應(yīng)選擇坦白,同樣的邏輯適用于囚徒B的選擇 他也應(yīng)選擇坦白。 因而,(坦白,坦白)就是該博弈可預(yù)測的結(jié)果,也是 一個(gè)均衡(甚至是唯一的)。,占優(yōu)均衡,若所有參與人都有自己的占優(yōu)戰(zhàn)略,則由占優(yōu)戰(zhàn)略組成的戰(zhàn)略組合為占優(yōu)均衡。,占優(yōu)均衡并不常見,因?yàn)楹芏鄷r(shí)候不存在占優(yōu)戰(zhàn)略,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,博弈雙方都遵循常規(guī)智慧選擇占優(yōu)策略,但是這種均衡結(jié)果所產(chǎn)生的支付比兩人合作、都選擇自己的劣戰(zhàn)略時(shí)要低。,兩個(gè)囚徒雙雙選擇坦白是博弈的最壞結(jié)果,“困境”,囚徒困境反映了個(gè)人理性與集體理性的沖突,反之,彼此達(dá)成合作是最好的“利己策略”,但合作必須符合黃金定律:“己所不欲,勿施于人”(前提是“人所不欲,勿施于我”)。,囚犯兩人都從利己目的出發(fā),最終導(dǎo)致結(jié)果損人不利己, 合作沒有產(chǎn)生。,“囚徒困境“是典型的非合作博弈的范例,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,現(xiàn)實(shí)生活中諸多的問題和現(xiàn)象,都是囚徒困境問 題的翻版。 實(shí)際上,“囚徒困境”是現(xiàn)實(shí)生活中許多現(xiàn)象的一個(gè) 抽象概括,有著廣泛而深刻的意義。,當(dāng)我們面臨需要加以解析的經(jīng)濟(jì)現(xiàn)象時(shí),首先要做的事就是看該現(xiàn)象的發(fā)生機(jī)制是否可歸于某種已知的博弈模型。如可以,就可立即知道現(xiàn)象的本質(zhì)和發(fā)生機(jī)制,并預(yù)測結(jié)果。如不能,則很可能為博弈論經(jīng)濟(jì)學(xué)做出創(chuàng)造性貢獻(xiàn)。,NE: (不提供,不提供),1 囚徒困境與占優(yōu)戰(zhàn)略均衡,公共品的理解?,集體行動的障礙:個(gè)人最優(yōu)選擇從社會整體的角度看并不是最優(yōu)的。社會最優(yōu)結(jié)果是(提供,提供)“大家的事情反而無人管”(英國歷史學(xué)家麥考萊),公共品(public goods)的供給,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,不降價(jià),降價(jià),不降價(jià),降價(jià),B,A,價(jià)格戰(zhàn),市場中常見現(xiàn)象,如旅游、機(jī)票、家電。 中國的幾個(gè)生產(chǎn)彩電的寡頭廠商于2000年合謀成立“彩電廠家自律聯(lián)盟”以求將彩電價(jià)格維持高位。 彩電價(jià)格能維持高位嗎?,雙方合作制定較高的價(jià)格,那么都可獲得較高利潤。但是這些聯(lián)盟處于利益驅(qū)動的“囚徒困境”中,雙贏成為泡影。企業(yè)之間五花八門的價(jià)格聯(lián)盟總是非常短命,道理也就在于此,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,假設(shè)團(tuán)隊(duì)中10名員工,每人選擇“努力”都要承擔(dān)成本1元,同時(shí)為團(tuán)隊(duì)的預(yù)期產(chǎn)出增加2元;每人偷懶則無須付出成本,也不會增加團(tuán)隊(duì)預(yù)期產(chǎn)出。 如果其他人努力,自己偷懶可以獲得好處;若別人偷懶,則自己更應(yīng)該偷懶,因?yàn)樽约号Ω冻龀杀?元,但為團(tuán)隊(duì)增加的2元產(chǎn)出中自己得到1/10元。,團(tuán)隊(duì)生產(chǎn)中的偷懶,所以,無論其他人是否努力地工作,我自己的最優(yōu)選擇都是偷懶。偷懶是每個(gè)人的占優(yōu)戰(zhàn)略,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,“減負(fù)”之后,家長們恐怕孩子學(xué)業(yè)荒廢,紛紛請家 教。給定其他孩子“減負(fù)”好耍,我家孩子在家苦讀,將來考 上個(gè)北大清華什么的,那些“減負(fù)”好耍的孩子只能墊底了! 給定其他孩子也在家苦讀,我家孩子則更需要加倍苦學(xué) 了,否則不就會在將來的高考中為別人墊底了嗎! 于是,當(dāng)每個(gè)家長都如此盤算時(shí),孩子們卻倒了霉。,小學(xué)生減負(fù),政府“減負(fù)”政策:減少小學(xué)生的某些課時(shí)內(nèi)容和家庭 作業(yè)。但“減負(fù)”后學(xué)生反而更累了!,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,曾經(jīng)威脅世界整個(gè)甚至人類的軍備競賽 公共資源過度開采/公共品供給短缺 大學(xué)擴(kuò)招、研究生擴(kuò)招、大學(xué)貸款基建 年年都有的評優(yōu)評先活動 各種資格考試廣泛盛行 備受批評卻日益嚴(yán)重的應(yīng)試教育,現(xiàn)實(shí)生活中其他囚徒困境的例子,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,如何走出囚徒困境?,可信的(由第三方實(shí)施的)報(bào)復(fù)和懲罰,歷史上的 “人質(zhì)”或“通婚”方案,以克服信任問題,若兩囚徒是意大利黑手黨成員,結(jié)果會如何?,人質(zhì)方案的例子:秦始皇的父親子楚,“如果每個(gè)人都相信對方不會坦白,且每個(gè)人都相信對方相信自己不會坦白,每個(gè)人都相信每個(gè)人都相信對方相信自己不會坦白”,則合作抵賴的結(jié)果會出現(xiàn)。合作的關(guān)鍵是相互的信任,以及相互信任的信任如何克服信任問題?,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,長期關(guān)系,即博弈必須重復(fù)“多次”,人們可能為了長遠(yuǎn)的將來利益而犧牲眼前利益,從而達(dá)成合作。,相互忠誠的文化或者規(guī)范:“江湖義氣”/部隊(duì)的“同生共死” 組織中團(tuán)隊(duì)生產(chǎn)面臨的囚徒困境問題的輕重程度不同。不同的企業(yè)文化 組織克服囚徒困境的途徑之一是企業(yè)文化,電視劇亮劍,委托-代理關(guān)系中被設(shè)計(jì)的囚徒困境,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,囚徒困境對于人們來說是糟糕的,是應(yīng)當(dāng)竭力避免的?,在一些委托-代理關(guān)系中,故意創(chuàng)造出代理人之間的囚徒困境有時(shí)對委托人有好處。這樣的囚徒困境反而促進(jìn)效率。,委托-代理關(guān)系:通常指委托人請代理人代理某件事情。其中 的關(guān)鍵問題是二者利益不一致,并且委托人與代理人之間存 在信息不對稱。為此,需要設(shè)計(jì)一種制度(system)或機(jī)制 (mechanism) ,使代理人追求自己利益的同時(shí)也最大化委托 人的利益,如何設(shè)計(jì)這樣的制度就是信息經(jīng)濟(jì)學(xué)研究的問題。,經(jīng)理與審計(jì)師之間可能合謀,隱瞞不良信息 股東解決這一問題的一種做法是雙頭審計(jì),請兩位審計(jì)師進(jìn)行審計(jì),扣發(fā)給隱瞞者的部分報(bào)酬,而給堅(jiān)持如實(shí)報(bào)告問題的審計(jì)師以更多的報(bào)酬。,審計(jì)師 A,隱瞞,實(shí)報(bào),隱瞞,實(shí)報(bào),審計(jì)師 B,如果都謊報(bào),得獎(jiǎng)金0,但分享賄金1萬,如果都誠實(shí),則得到0,如一個(gè)誠實(shí)一個(gè)謊報(bào),則誠實(shí)者獎(jiǎng)勵(lì)0.6萬,對謊報(bào)者罰款1.1萬,但謊報(bào)者得到1萬賄金,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,預(yù)防審計(jì)合謀雙頭審計(jì),1 囚徒困境與占優(yōu)戰(zhàn)略均衡,假設(shè):兩供應(yīng)商成本都為6元/件,報(bào)價(jià)都為10元/件。 策略:如果二者報(bào)價(jià)都為10元/件或8.5元/件,則從每家訂購50件;若一家報(bào)價(jià)10元/件而另一家報(bào)價(jià)8.5元/件,則從價(jià)低者訂購100件。,利用囚徒困境壓低供應(yīng)商價(jià)格,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,一頭大豬和一只小豬生活在同一豬圈里,共用一食槽。 食槽的一端有一個(gè)開關(guān),豬用嘴一拱,食槽的另一端會掉下包子。假定按一下會掉下8個(gè)包子,而跑去按開關(guān)的豬會耗費(fèi)2個(gè)包子的能量。,智豬博弈(Boxed Pigs),如果小豬按開關(guān),大豬先吃,等小豬按完跑過來時(shí),大豬 吃掉7個(gè)包子,小豬只能吃到1個(gè); 若大豬按,按完后跑過來,大、小豬各吃掉4個(gè)包子; 若同時(shí)按,則大豬吃5個(gè),小豬吃3個(gè)。 如果都不去按開關(guān),就會一起餓死。,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,按,等,小豬,“按”是小豬的劣戰(zhàn)略,理性的小豬是不會選擇按。 大豬知道小豬是理性的,意即知道小豬不會選擇“按”,小豬有占優(yōu)戰(zhàn)略“等” 但大豬無占優(yōu)戰(zhàn)略因?yàn)榇筘i戰(zhàn)略將隨小豬戰(zhàn)略改變而改變。,按,小豬,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,排除劣策略減少了博弈的規(guī)模,得到的“新”博弈有可能又有了其他的(對自己或?qū)κ值模┝觿莶呗?,又可以被排除?按為小豬劣戰(zhàn)略,等為大豬劣戰(zhàn)略,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,重復(fù)剔除嚴(yán)格劣戰(zhàn)略,嚴(yán)格劣戰(zhàn)略:不管其他參與人如何選擇,參與人從選擇戰(zhàn)略A得到的支付,嚴(yán)格小于選擇策略B給得到的支付 稱策略A是相對于B的“嚴(yán)格劣戰(zhàn)略”,或者稱策略A嚴(yán)格劣于策略B 稱策略B是相對于策略A的“嚴(yán)格占優(yōu)戰(zhàn)略”,或者稱策略B嚴(yán)格占優(yōu)于策略A,在求解均衡過程中,可以剔除局中人的嚴(yán)格劣戰(zhàn)略以簡化博弈,因?yàn)閲?yán)格劣戰(zhàn)略肯定不會被實(shí)施。,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,“重復(fù)剔除嚴(yán)格劣戰(zhàn)略”的思路,首先找出博弈參與人的劣戰(zhàn)略(dominated strategy)(假定存在的話),把這個(gè)劣戰(zhàn)略剔除后,剩下的是一個(gè)不包含已剔除劣戰(zhàn)略的新的博弈;然后再剔除這個(gè)新的博弈中的劣戰(zhàn)略;繼續(xù)這個(gè)過程,直到?jīng)]有劣戰(zhàn)略存在。,如果剩下唯一的策略組合,那么該策略組合稱為“重復(fù)剔除的占優(yōu)均衡”,L,R,M,U,D,B,A知道B是理性的,A,B知道A是理性的,且B知道A知道B是理性的,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,剩下唯一的策略組合(U,M)重復(fù)剔除的占優(yōu)均衡,例,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,1,U,D,L,M,2,對于某些參與者而言,無論其他參與者選擇什么,如果A策略至少和B策略一樣好,而且至少在某些時(shí)候嚴(yán)格更好,就稱策略A為相對于策略B的弱占優(yōu)策略,或稱弱占優(yōu)于策略B,反之稱策略B為相對于策略B的弱劣策略,或稱弱劣于策略B,對1而言,U不是D的嚴(yán)格劣戰(zhàn)略 對2而言,L不是M的嚴(yán)格劣戰(zhàn)略,警告:逐次剔除弱劣勢策略可能去掉了某些納什均衡。,例,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,占優(yōu)戰(zhàn)略均衡與重復(fù)剔除的占優(yōu)均衡中的區(qū)別:,占優(yōu)均衡中,占優(yōu)策略嚴(yán)格優(yōu)于其他所有策略,選擇法,在用重復(fù)剔除方法尋找均衡時(shí),一個(gè)戰(zhàn)略是占優(yōu)戰(zhàn)略或劣戰(zhàn)略只是相對于另一個(gè)特定的戰(zhàn)略而言,而非相對于戰(zhàn)略空間中的其他所有戰(zhàn)略,排除法,占優(yōu)均衡僅要求每個(gè)參與人是理性的,重復(fù)剔除則要求理性是“共同知識”,對理性要求更高,參與人2,參與人1,練習(xí):用重復(fù)剔除嚴(yán)格劣戰(zhàn)略求以下博弈的均衡,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,智豬博弈背后的哲理,反映生活中的搭便車現(xiàn)象,小豬角度:自己不能努力,即使努力勞動成果也會被大豬侵占,所以最優(yōu)選擇是等待,坐享大豬的勞動成果,這稱為搭便車(free-riding)。,大豬角度:主觀上為了自己的利益,但客觀上為小豬帶來了好處,但“多勞不一定多得”,“看不見的手”的童話版,若全部博弈主體都試圖免費(fèi)搭車,那么可能陷入囚徒困境,“一個(gè)和尚挑水喝,兩個(gè)和尚抬水喝,三個(gè)和尚沒水喝”,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,公司治理股份公司中,大股東較小股東更有監(jiān)督管理層的動力。因?yàn)榇蠊蓶|可以平衡其監(jiān)督的成本收益,而小股東卻不能。因此大股東承擔(dān)監(jiān)督責(zé)任,這客觀上為小股東帶來好處。,智豬博弈舉例,哥本哈根氣候談判:氣候問題上,發(fā)達(dá)國家是“大豬”,發(fā)展中國家是“小豬”,二者在應(yīng)對氣候問題時(shí)的各自成本也是不相同的,發(fā)達(dá)國家付出的成本小,而發(fā)展中國家付出的成本大,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,智豬博弈給了競爭中的弱者以等待為最佳策略的啟發(fā),也解釋為什么占有更多資源者必須承擔(dān)更多的義務(wù),企業(yè)員工中的搭便車:“越能干越辛苦”、能者多勞,技術(shù)創(chuàng)新便車大企業(yè)花錢進(jìn)行研發(fā),而小企業(yè)等待大企業(yè)開發(fā)出新技術(shù)新產(chǎn)品后通過模仿或創(chuàng)新成果的擴(kuò)散生產(chǎn)并出售類似產(chǎn)品。,股市博弈散戶跟大戶,股市中大戶是“大豬”,散戶是“小豬”。大戶搜集信息進(jìn)行投資分析,而散戶只是選擇“跟大戶”。,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,如何解決搭便車問題?,對于社會而言,小豬“搭便車”時(shí)的社會資源配置并不是最佳狀態(tài),因?yàn)樾∝i未能參與競爭,創(chuàng)造價(jià)值。 為使資源最有效配置,規(guī)則的設(shè)計(jì)者不愿看見搭便車。,基本思路:界定產(chǎn)權(quán),明確各方的責(zé)任、權(quán)力和利益。規(guī)定誰付出勞動,誰受益,小豬“不勞而獲”動機(jī)將被抑制。,需要通過法律或制度來實(shí)施,如,解決企業(yè)員工偷懶,必須明確每個(gè)員工責(zé)任和任務(wù),而且對照責(zé)任和任務(wù)進(jìn)行考核、獎(jiǎng)懲,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,通過激勵(lì)機(jī)制設(shè)計(jì)克服搭便車。,莫勒爾說:盡管大家同乘一條船,可一些是劃船,另一些人只是坐船。,在某些領(lǐng)域,這一問題是沒有辦法解決的。在某些領(lǐng)域,搭便車無法完全克服。如聚餐時(shí)的AA制,C2,R1,R2,C1,C3,R3,參與人2,參與人 1,3 納什均衡,R4,例,給定1選擇R3,2能否通過選擇不是C2來提高支付呢?不能。 C2稱作是2對于1選擇R3的最優(yōu)反應(yīng)。,策略組合(R3,C2)具有這樣性質(zhì):他們的行動都是對對方行動的最優(yōu)反應(yīng)。,一旦各參與人作出這樣的選擇,就沒有動機(jī)獨(dú)自改變行動。這種狀態(tài)稱為納什均衡(Nash equilibrium),當(dāng)參與人2選擇C2時(shí),1選擇R3最優(yōu),因此1選R3是對2選擇C2的最優(yōu)反應(yīng)。,口訣:橫看右,豎看左,逐個(gè)驗(yàn)證各單元格所對應(yīng)的策略組合是否符合NE的定義可找出NE,3 納什均衡,納什均衡,博弈中的一個(gè)策略組合: 在其他人都堅(jiān)守該策略組合下的策略不變的情況下,沒有參與人可以通過改變自己的策略而得到一個(gè)更高的支付,或者說,任何人都不能通過單方面的改變行為選擇來提高自己的收益。,“僵局”,3 納什均衡,麥琪,妻子麥琪有一頭長發(fā),卻沒有梳子。 丈夫有一只懷表,卻沒有表鏈。 麥琪生日那天,麥琪賣掉了長發(fā)為丈夫買了一條表鏈,吉姆賣掉懷表為妻子買了一把梳子。,麥琪的禮物,3 納什均衡,如何找NE?,輪流站在每個(gè)參與人的角度思考:對于其他參與人的每一選擇,“我”的最優(yōu)選擇是什么?找出每人對其他參與人可選策略的最優(yōu)反應(yīng),最優(yōu)反應(yīng)分析,在最優(yōu)反應(yīng)戰(zhàn)略對應(yīng)的橫線上畫線,3 納什均衡,如某戰(zhàn)略組合都畫了線,那就是NE。此時(shí),各方的行為選擇都是給定對方戰(zhàn)略下的最優(yōu)反應(yīng),每一方都不能通過單方面的改變行為選擇來提高自己的收益。,設(shè)有兩個(gè)人一起玩游戲,每個(gè)人都有不同的策略,誰都希望自己出“高招”使自己獲勝(即尋求效用的最大化),但獲勝并不完全依賴于自己的行為,還依賴于對手怎么做。,有時(shí),雙方會形成這樣一種狀態(tài):我的最好策略所依賴的條件就是你的最好策略。換言之:如果你那樣做,我這樣最好,而你“那樣”做恰恰又是你的最佳策略。,3 納什均衡,通俗地講:如果別人不動,我也不能動,網(wǎng)絡(luò)名句: 我尊重你是因?yàn)槟阕鹬匚遥阕鹬匚沂且驗(yàn)槲易鹬啬悖?我喜歡你是因?yàn)槟阆矚g我,你喜歡我是因?yàn)槲蚁矚g你; 我愛你是因?yàn)槟銗畚?,你愛我是因?yàn)槲覑勰恪?我尊重你、我喜歡你、我愛你是我對你的行為選擇的最優(yōu)反應(yīng),而你尊重我、你喜歡我、你愛我是你對我的行動的最優(yōu)反應(yīng)。,在一個(gè)納什均衡中,每個(gè)參與人選擇她對于其他人選擇的“最優(yōu)反應(yīng)”。 但是,一個(gè)人如何對尚未發(fā)生的、或者即使已經(jīng)發(fā)生但并不知曉的事情作出反應(yīng)? 盡管如此,參與人可以通過各種方法對別人的正在采取的行動形成一種認(rèn)識。,3 納什均衡,經(jīng)驗(yàn)和(過去的)觀察逐步形成一個(gè)對于他人行動的較好判斷,運(yùn)用想“他人之所想”的邏輯:設(shè)想你是其他人并思考他們是怎么想的。,納什均衡:一個(gè)關(guān)于信念和選擇的體系,3 納什均衡,無論是觀察還是邏輯推導(dǎo)或其他方法,博弈參與人都獲得了其他人在同時(shí)博弈中正在選擇什么的認(rèn)識。,我們使用“信念”(belief)一詞來描述這一過程或結(jié)果。,于是我們可以從另一個(gè)等價(jià)的角度定義納什均衡:它是一個(gè)策略組合以及信念系統(tǒng),其中每個(gè)參與者有一個(gè)策略和一個(gè)信念,滿足:,給定每個(gè)參與者對于其他人策略的信念,她的策略對于自己是最好的。,每個(gè)參與者關(guān)于其他人策略的信念是正確的。,3 納什均衡,例:,3 納什均衡,納什均衡與占優(yōu)戰(zhàn)略均衡及重復(fù)剔除占優(yōu)均衡之間的關(guān)系,每個(gè)占優(yōu)戰(zhàn)略均衡、重復(fù)剔除的占優(yōu)均衡一定是納什均衡,但并非每個(gè)納什均衡都是占優(yōu)戰(zhàn)略均衡或重復(fù)剔除的占優(yōu)均衡。,納什均衡一定是在重復(fù)剔除嚴(yán)格劣戰(zhàn)略過程中沒有被剔除掉的戰(zhàn)略組合,但沒有被剔除的戰(zhàn)略組合不一定是納什均衡,除非它是唯一的。,納什均衡是完全信息靜態(tài)博弈的一般概念。,C2,R1,R2,C1,C3,R3,參與人2,參與人1,練習(xí):用劃線法求解下列博弈的納什均衡,3 納什均衡,最優(yōu)反應(yīng)分析是尋找到所有可能的納什均衡的一個(gè)全能的方法。,納什介紹,1994年Nobel 經(jīng)濟(jì)學(xué)獎(jiǎng)得主,傳記電影美麗心靈獲得4項(xiàng)OSCAR大獎(jiǎng) 納什傳奇色彩的一生:1950年在22歲獲得數(shù)學(xué)哲學(xué)博士學(xué)位,29歲結(jié)婚,第二年回到麻省理工學(xué)院,得到了終身學(xué)位; 不到30歲就已經(jīng)聞名遐邇,曾被美國著名的財(cái)富雜志推舉為同時(shí)活躍在純數(shù)學(xué)和應(yīng)用數(shù)學(xué)兩個(gè)領(lǐng)域的天才數(shù)學(xué)家中最杰出的人物、美國最耀眼的科學(xué)新星。 30歲精神分裂,被稱為“數(shù)學(xué)幽靈”,慢慢 從學(xué)術(shù)界消失 在20世紀(jì)80年代,病情有了好轉(zhuǎn),后來竟奇跡般地康復(fù)了。,納什介紹,1994年Nobel 經(jīng)濟(jì)學(xué)獎(jiǎng)得主,差不多就在這個(gè)時(shí)候,納什成為1985年經(jīng)濟(jì)學(xué)諾貝爾獎(jiǎng)候選人,但是最終沒能獲獎(jiǎng)。 接近1994年,博弈論獲獎(jiǎng)的形勢更有利,是瓜熟蒂落的時(shí)候。但納什還是什么頭銜也沒有。此時(shí)出于同一師門的納什的同學(xué)、普林斯頓著名的數(shù)理經(jīng)濟(jì)學(xué)家?guī)於靼l(fā)揮了作用:向nobel委員會申明,若因?yàn)樯眢w狀況剝奪納什當(dāng)之無愧的nobel獎(jiǎng),那“實(shí)在需要過分的勇氣”。 納什終于在1994年走上了諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)的領(lǐng)獎(jiǎng)臺。,Nash(1950,1951)兩篇關(guān)于非合作博弈的重要文章,定義了非合作博弈及其均衡解,并證明了均衡解的存在。基本上奠定了現(xiàn)代非合作博弈論的基石,4多重均衡與協(xié)調(diào),一般來說,博弈未必只有唯一均衡,一類具有多重均衡的博弈被稱為協(xié)調(diào)博弈。 在這類博弈中,參與人具有某些共同利益。 但是,由于獨(dú)自行動,達(dá)成共同喜歡的結(jié)果的協(xié)調(diào)行動就成了問題。,4 多重均衡與協(xié)調(diào),完全協(xié)調(diào)博弈,兩大學(xué)生哈里和莎莉,在圖書館相遇,相聊甚歡。當(dāng)意猶未盡之時(shí),他們得馬上趕回上課,約好4:00喝咖啡。 兩人忘記約喝咖啡地點(diǎn),兩地方可選,星巴克和本地咖啡館,兩地方在校園相反方向。兩人未換手機(jī)號,無法聯(lián)系。 他們該怎么辦?,但問題是兩人須協(xié)調(diào)到同一行動完全協(xié)調(diào)博弈(協(xié)調(diào)到哪個(gè)行動無所謂),兩個(gè)NE:達(dá)成均衡對兩人都有利,4 多重均衡與協(xié)調(diào),在多重均衡的情況下,如果參與人想要成功地選擇其中一種 均衡,就需要想辦法協(xié)調(diào)他們關(guān)于對方行動的信念。,如星巴克是大家眾所周知的活動場所,哈里知道,所以哈里應(yīng)去星巴克,但僅哈里知道不夠,他還得確定莎莉知道,而且莎莉知道哈里知道,以此類推。,多重均衡降低博弈的解釋力一方面我們不知道哪個(gè)均衡 出現(xiàn),另一方面可能出現(xiàn)真實(shí)結(jié)果與均衡結(jié)果相矛盾的情況。,也就是說,他們的預(yù)期必須收斂到聚點(diǎn)(focal point)。,4 多重均衡與協(xié)調(diào),性別戰(zhàn)博弈,兩個(gè)NE:存在共同利益參與人,但各自偏愛一個(gè)均衡。究竟哪個(gè)均衡會出現(xiàn)?,與完全協(xié)調(diào)博弈相比,協(xié)調(diào)失敗的風(fēng)險(xiǎn)更大。如何協(xié)調(diào)? 為了達(dá)到他(她)偏好的均衡,參與者可以試著表現(xiàn)強(qiáng) 硬,遵循導(dǎo)致有利均衡的策略策略性行動。,刻畫這樣的博弈:博弈雙方雖然存在一定共同利益,但是對于具有共同利益的兩個(gè)結(jié)果存在偏好沖突。,4 多重均衡與協(xié)調(diào),性別戰(zhàn)博弈應(yīng)用:組織中上下級博弈(鐵腕上司與鷹派下屬),有些組織上級對下級非常強(qiáng)硬,被稱為鐵腕上司 有些組織里下級對上級毫不買賬,被稱為鷹派下屬,兩個(gè)NE 若上司強(qiáng)硬,則下屬屈從 若下屬強(qiáng)硬,則上司屈從,4 多重均衡與協(xié)調(diào),兩個(gè)不服對方的人拼賭,面對面高速駕車駕車行駛,如果誰先把方向盤轉(zhuǎn)向而避免相撞,誰就輸并被稱作“懦夫” (Chicken),而向前的人將被稱作“勇士” 如果兩人都向前,車毀人亡。,懦夫博弈(Chicken Game),每人都希望成勇士,對方成懦夫,同時(shí)也最不希望發(fā)生車禍 雙方都當(dāng)懦夫比只有自己當(dāng)懦夫好,4 多重均衡與協(xié)調(diào),懦夫博弈(Chicken Game),懦夫博弈刻畫的是一種騎虎難下的局面,與性別戰(zhàn)相比,參與人之間的沖突和不對等更嚴(yán)重。獲勝的收益很大,但相撞的損失也大,懦夫博弈特征:,參與人盡量避免而不是選擇一致的行動。,真正的博弈是雙方如何達(dá)到各自偏好的均衡展開較量,美國于1961年策動對古巴獵灣的入侵遭到可恥的失敗,一直耿耿于懷,總想伺機(jī)對古巴進(jìn)行干涉。同時(shí),古巴同蘇聯(lián)的關(guān)系越來越密切,而美、蘇之間的磨擦卻日趨嚴(yán)重 美、蘇兩國導(dǎo)彈數(shù)量的比例是171,美國優(yōu)勢明顯,蘇聯(lián)政府對此擔(dān)憂不已。為迫使美國從土耳其和靠近蘇聯(lián)的其他地區(qū)撤除導(dǎo)彈,赫魯曉夫決定在古巴部署蘇式導(dǎo)彈,并找了堂而皇之的理由:捍衛(wèi)古巴革命成果。,古巴導(dǎo)彈危機(jī),1962年加勒比海地區(qū)發(fā)生了一場震驚世界的古巴導(dǎo)彈危機(jī)。這場危機(jī),差點(diǎn)引發(fā)一場核戰(zhàn)爭,整個(gè)世界危在旦夕。最后以雙方的妥協(xié)而告終, 導(dǎo)彈危機(jī)后被稱為懦夫博弈的典型案例。,4 多重均衡與協(xié)調(diào),1962年7月蘇聯(lián)開始向古巴運(yùn)送導(dǎo)彈。10月美偵察機(jī)發(fā)現(xiàn)了古巴境內(nèi)的導(dǎo)彈基地,肯尼迪立即向蘇聯(lián)提出強(qiáng)烈抗議,要求馬上拆除古巴境內(nèi)的導(dǎo)彈發(fā)射設(shè)施,否則將毫不猶豫消滅這些直接威脅美國安全的導(dǎo)彈設(shè)施。 蘇聯(lián)方面對此答復(fù):導(dǎo)彈基地純粹是防御性質(zhì)的。但美卻不依不饒,咬定從該基地發(fā)射的導(dǎo)彈足以摧毀美國各大城市。 10月16日肯尼迪組成了國家安全委員會執(zhí)行委員會,研究如何對付蘇聯(lián)。執(zhí)委會成員們提出了眾多方案,歸納起來主要有三個(gè):一、空襲古巴導(dǎo)彈基地;二、對古巴實(shí)行封鎖;三、訴諸聯(lián)合國。 10月22日:肯尼迪發(fā)表電視演說,宣布將對古巴實(shí)行封鎖。,10月23日:蘇聯(lián)政府發(fā)表聲明,表示仍要繼續(xù)使用武器“援助”古巴,“堅(jiān)決拒絕”美國的攔截,對美的威脅“將進(jìn)行最激烈的回?fù)簟薄?10月24日:美國一支由90艘戰(zhàn)艦組成的龐大艦隊(duì),在68個(gè)空軍中隊(duì)和8艘航空母艦的護(hù)衛(wèi)下,在古巴領(lǐng)海周圍設(shè)置了警戒線,攔截所有駛?cè)敕怄i區(qū)的船只。在靠近古巴的美國佛羅里達(dá)州及鄰近各州集結(jié)了一支龐大的登陸部隊(duì)。在離古巴東部海岸約300千米的島上,設(shè)有巨大的導(dǎo)彈跟蹤站,監(jiān)視往古巴去的船只的一舉一動。 10月25日:蘇聯(lián)作出了一個(gè)決定,以不攜帶武器的船只去考驗(yàn)封鎖。 10月26日:赫魯曉夫給肯尼迪寫了封信。信中說,若美國保證不會入侵古巴、也不允許別人入侵,并且如果它撤回自己的艦隊(duì),不再搞隔離,馬上撤出古巴導(dǎo)彈。,10月27日:第2封信:重申蘇聯(lián)向古巴提供武器“只是加強(qiáng)防御能力,因?yàn)楣虐筒粨碛腥魏挝淦鳌?。赫魯曉夫建議“我們同意從古巴撤出導(dǎo)彈。但是美國需要聲明:美國方面考慮到蘇聯(lián)的安全和焦慮,將從土耳其撤出自己的這種手段”;蘇聯(lián)保證尊重土耳其領(lǐng)土和主權(quán)的不可侵犯性。 白宮立即發(fā)表聲明,指出土耳其與古巴危機(jī)毫不相干。 這兩封信既反映出蘇聯(lián)政府內(nèi)部意見的不一致,又使美國對蘇聯(lián)的意圖更加捉摸不定,因而使局勢又復(fù)雜化了。 此時(shí)在全世界所有的美國核部隊(duì)和常規(guī)部隊(duì)都已經(jīng)奉命準(zhǔn)備隨時(shí)行動,一支龐大的入侵部隊(duì)也聚集在佛羅里達(dá)。雙方劍拔弩張,戰(zhàn)爭一觸即發(fā)。 美國官方普遍估計(jì),古巴的幾個(gè)發(fā)射場已處于發(fā)射狀態(tài),這種情況下對導(dǎo)彈發(fā)射場的任何直接空襲都可能造成美國城市上空的熱核爆炸。,當(dāng)國安會在激烈辯論時(shí)候,肯尼迪靈機(jī)一動:“為什么不可以不理睬赫魯曉夫的第二封信而只回答第一封信?”他向赫魯曉夫發(fā)出了接受他10月26日“提議”的信:提出如果蘇聯(lián)把部署在古巴的武器系統(tǒng)撤出,美國同意馬上取消封鎖、“提供不進(jìn)攻古巴的保證”。 羅伯特肯尼迪會見蘇聯(lián)大使,要求蘇聯(lián)在48小時(shí)內(nèi)從古巴撤走導(dǎo)彈,表示“美國不能在威脅的壓力下作出撤走在土耳其的導(dǎo)彈的決定”,給自己在外交上和西方盟國內(nèi)部造成不利影響。他告訴這位大使“肯尼迪總統(tǒng)早就急切地想把這些導(dǎo)彈撤出土耳其”。 10月28日,赫魯曉夫公開宣布下令撤離導(dǎo)彈。 其實(shí)肯尼迪并不真打算發(fā)動一場戰(zhàn)爭,他只不過是想迫使赫魯曉夫從古巴撤除導(dǎo)彈基地,所以他所做的一切都只是恫嚇。 同樣赫魯曉夫的所謂“強(qiáng)烈反應(yīng)”,也不過是色厲內(nèi)荏的把戲,他亦不敢貿(mào)然將事態(tài)一再擴(kuò)大,畢竟蘇聯(lián)的實(shí)力比美國差得太遠(yuǎn)。,一場戰(zhàn)爭危機(jī)終于過去,這場蘇、美之間的意志較量,最后 以蘇聯(lián)失敗落幕。,古巴導(dǎo)彈危機(jī)被稱為懦夫博弈的經(jīng)典案例。 肯尼迪可能是他的政府中最懦弱的一員,但是他明白堅(jiān)持這種立場才是更勇敢的。很多時(shí)候,尋求和平比發(fā)動戰(zhàn)爭更需要勇氣??夏岬蠈ξC(jī)的處理一直是果斷的、是不妥協(xié)的??夏岬嫌赂业您椗勺黠L(fēng)和冷靜靈活的反應(yīng)阻撓了這一計(jì)謀的實(shí)現(xiàn),為美國人贏得了勝利,還羞辱了俄國人。古巴導(dǎo)彈危機(jī)也使克里姆林宮下決心大力發(fā)展核武器,改變劣勢,洗刷當(dāng)年的“懦夫的恥辱”,果真到了20世紀(jì)60年代末蘇聯(lián)趕上了美國,使蘇聯(lián)在全球競爭中慢慢由守勢轉(zhuǎn)為攻勢。,信息是博弈的武器,話語亦是博弈的策略。因?yàn)椴┺碾p方是活生生的人,就會根據(jù)對方不同策略來動態(tài)評估局勢,隨時(shí)修正、改變原定的最優(yōu)策略。,4 多重均衡與協(xié)調(diào),如果他們具有某些共同的社會、文化或歷史背景,在一個(gè)存在多重均衡的協(xié)調(diào)博弈中,參與人可能能選擇一個(gè)聚點(diǎn)現(xiàn)實(shí)中參與人使用被模型抽象掉的信息達(dá)到聚點(diǎn)均衡,(50,50)是一個(gè)聚點(diǎn)均衡,平等的社會準(zhǔn)則已經(jīng)深入人心,要成為真正的聚點(diǎn),要求平等的社會準(zhǔn)則是一個(gè)共同知識,即 大家都認(rèn)同,而且每人都知道大家認(rèn)同。,NE多重性極端例子:100元總獎(jiǎng)金,兩人獨(dú)立寫下想要的數(shù)量,如金額相加不大于100,則各自得到所寫金額的錢,否則什么都得不到,如協(xié)調(diào)博弈中,星巴克是常去的活動場所是共同知識,多重均衡降低博弈的解釋力一方面我們不知道哪個(gè)均衡 出現(xiàn),另一方面可能出現(xiàn)真實(shí)結(jié)果與均衡結(jié)果相矛盾的情況。,4 多重均衡與協(xié)調(diào),廉價(jià)磋商:當(dāng)雙方利益一致時(shí),博弈雙方進(jìn)行直接的信息溝 通,也可實(shí)現(xiàn)多種均衡的協(xié)調(diào),如,完全協(xié)調(diào)博弈中,哈里向莎莉發(fā)條短信,如,學(xué)生上課占座;新婚夫妻家務(wù)分擔(dān)。,如果博弈重復(fù)多次,則過去歷史規(guī)定了聚點(diǎn)所在。,一旦人們得知?jiǎng)e人將做出和自己同樣的行為時(shí),通常會協(xié)調(diào) 彼此的行為,從而出現(xiàn)合作的契機(jī)。,張無忌心中一喜,內(nèi)勁立長,將三僧攻過來的勁力一一化解,霎時(shí)之間便成了個(gè)相持不下的局面。渡厄等雖于外界事物不聞不見,但于雙方內(nèi)勁的消長卻辨析入微,陡然察覺到對方內(nèi)勁大張,卻又不反守為攻,正是消除雙方危難的最佳時(shí)機(jī),三僧心意相通,立時(shí)內(nèi)勁微收。張無忌跟著收了一分勁力,三僧亦收一分。如此你收一分,我收一分,頃刻間雙方的勁力收盡。四人同時(shí)哈哈一笑,一齊站起。張無忌長揖到地,渡厄、渡劫、渡難三僧合十還禮。四人齊聲說道:“佩服,佩服!“,倚天屠龍記,4 多重均衡與協(xié)調(diào),4 多重均衡與協(xié)調(diào),相關(guān)均衡:參與人根據(jù)共同觀察到的信號行動,則可能出現(xiàn) 相關(guān)均衡,實(shí)現(xiàn)多種均衡的協(xié)調(diào),司機(jī)行人博弈,兩個(gè)NE,如果缺乏協(xié)調(diào),可能出現(xiàn)非均衡結(jié)果。 雙方根據(jù)觀察紅綠燈來協(xié)調(diào)行動。,5 純策略意義下無均衡,迄今為止,所有博弈都至少存在一個(gè)NE,其中每個(gè)參與人選擇特定的策略作為其均衡策略純戰(zhàn)略均衡,但是有的博弈不存在NE。,猜硬幣博弈,這類博弈中,關(guān)鍵不是參與人應(yīng)該做什么,而是參與人不應(yīng)該做什么。,如果某個(gè)參與人總選擇相同的行為,就會被對手利用。,最明智的選擇就是不按章法行動,以出其不意戰(zhàn)勝對手。,這一參與人隨機(jī)化其行動的方法就是混合策略。,總結(jié),在靜態(tài)(同時(shí))博弈中,參與者在不知道其他參與者選擇的情況下制定自己的策略選擇。 這樣的博弈可以用支付矩陣表示。 納什均衡是完全信息靜態(tài)博弈中使用的解概念。 它由一組策略構(gòu)成(每個(gè)參與人對應(yīng)其中之一),以使每個(gè)參與人選擇了對其他人選擇的最優(yōu)反應(yīng)。,納什均衡也可以被理解為這樣一組策略,它使得每個(gè)參與人對于其他參與人的策略具有正確的信念,并且基于這種信念選擇最優(yōu)策略。 尋找納什均衡的辦法有,尋找占優(yōu)策略 重復(fù)剔除劣策略 逐個(gè)單元格檢查 最優(yōu)反應(yīng)分析,補(bǔ)充:納什均衡的數(shù)理描述,博弈(game) 參與人 局中人 的第 項(xiàng)戰(zhàn)略表示為 ,構(gòu)成其戰(zhàn)略空間 局中人 的收益表示為 ,為各局中人所選擇戰(zhàn)略的函數(shù) 博弈表示為,納什均衡(NE, Nash Equilibrium) 如果對任意 ,均有 那么稱戰(zhàn)略組合 為博 弈G的一個(gè)納什均衡。 也就是說,給定其他人的戰(zhàn)略選擇,任意局中人都實(shí)現(xiàn)了最大收益,或者不能通過改變自己的戰(zhàn)略提高收益。 即,在納什均衡中,每一個(gè)局中人都不能單方面改變自己的戰(zhàn)略來提高收益,從而每一個(gè)人都不會再改變戰(zhàn)略,是一個(gè)相對靜止的狀態(tài)因此稱為均衡。,補(bǔ)充:納什均衡的數(shù)理描述,諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者薩繆爾森有一句話:你可以將一只鸚鵡訓(xùn)練成一個(gè)經(jīng)濟(jì)學(xué)家,因?yàn)樗恍枰獙W(xué)習(xí)兩個(gè)詞:供給和需求。 博弈論專家坎多瑞引申說:要成為現(xiàn)代經(jīng)濟(jì)學(xué)家,這只鸚鵡必須再多學(xué)一個(gè)詞,就是“納什均衡”。,5 納什均衡:連續(xù)性策略的情形,制造商選擇產(chǎn)品價(jià)格 慈善家選擇慈善捐款的數(shù)量 建筑承包商選擇工程的投標(biāo)價(jià)格,在一個(gè)離散策略的博弈中,每個(gè)參與人只有少數(shù)幾個(gè) 定義明確的招術(shù)(離散的行動集合)。 這樣的博弈可以用支付表來分析,至少在參與者人數(shù) 及其行為的個(gè)數(shù)不多時(shí)是如此。 在一個(gè)連續(xù)策略的博弈中,參與人從一個(gè)大的可能性范 圍,也即本質(zhì)上無限的集合中做出選擇。,無限博弈(infinite game),在這些情形下,支付表實(shí)際上就不能作為分析工具了。,5 納什均衡:連續(xù)性策略的情形,qi 為第i個(gè)企業(yè)的產(chǎn)量,通過選擇產(chǎn)量來追求最大利潤(i=1,2) 價(jià)格是兩企業(yè)產(chǎn)量的函數(shù)(逆需求函數(shù)) P=P(Q=q1+q2)=8-q1-q2 生產(chǎn)無固定成本,邊際成本為c1=c2 =2,第1個(gè)企業(yè)的利潤函數(shù)為,第2個(gè)企業(yè)的利潤函數(shù)為,古諾(Cournot, 1838)寡頭競爭模型,得出了對這個(gè)產(chǎn)量競爭博弈的完整描述。,5 納什均衡:連續(xù)性策略的情形,為了求解博弈,我們需要知道:對于企業(yè)1的每一個(gè)可能的產(chǎn)量(q1),企業(yè)2的最優(yōu)反應(yīng)是什么產(chǎn)量(q2),也即,給定企業(yè)1產(chǎn)量q1 ,企業(yè)2應(yīng)選擇一個(gè)自己的產(chǎn)量q2以最大化其利潤。,通過使用一階條件得到,因此,企業(yè)2的最優(yōu)反應(yīng)就是,反應(yīng)函數(shù)(reaction function):一方的最優(yōu)策略是另一方策略的函數(shù),類似得到企業(yè)1的最優(yōu)反應(yīng):,5 納什均衡:連續(xù)性策略的情形,兩個(gè)反應(yīng)函數(shù)如圖所示:,兩反應(yīng)函數(shù)的交點(diǎn)就是該博弈的納什均衡點(diǎn)。,該點(diǎn)表示一組產(chǎn)量(每個(gè)企業(yè)對應(yīng)其中一個(gè)),互為對方的 最優(yōu)反應(yīng)。,5 納什均衡:連續(xù)性策略的情形,每個(gè)企業(yè)的最優(yōu)產(chǎn)量為 2 均衡利潤為:,設(shè)想:其中一個(gè)企業(yè)增加1個(gè)單位的產(chǎn)量,另一家的最優(yōu)反應(yīng)是降低0.5個(gè)單位。 一家企業(yè)增加產(chǎn)量會導(dǎo)致另一家企業(yè)減少產(chǎn)量,從而降低其利潤,每個(gè)企業(yè)獨(dú)立地選擇其產(chǎn)量,它只考慮自己的利潤,而忽視對其他企業(yè)的負(fù)面影響。,負(fù)外部效應(yīng),與合作壟斷比較: 以兩廠商總體利益最大:各生產(chǎn) 1.5單位產(chǎn)量,各自得益為4.5,古諾競爭實(shí)質(zhì)是囚徒困境博弈,石油輸出國組織成員國共同磋商制定產(chǎn)量限額以維持油價(jià)。 但一旦規(guī)定各國的生產(chǎn)限額,且按照這個(gè)限額生產(chǎn)時(shí),每個(gè)成員國都會發(fā)現(xiàn),如果其他國家都遵守限額,只有自己超產(chǎn),則自己將獲得更多的利潤,并且因?yàn)橹挥幸粐a(chǎn)油價(jià)不會下跌太多,從而其他各國只是普遍受少量損失,因此各成員國在本位利益的驅(qū)使下,都會希望其他國家遵守限額而自己偷偷超產(chǎn),獨(dú)享更多的利益。 最終的結(jié)果是各國普遍突破限額,限產(chǎn)計(jì)劃破產(chǎn),油價(jià)嚴(yán)重下跌,各國都只能得到不是最滿意的納什均衡的利潤。這基本上就是石油輸出國組織成員國面臨的實(shí)際情況。,古諾模型的應(yīng)用:石油輸出國組織的限額和突破,5 納什均衡:連續(xù)性策略的情形,5 納什均衡:連續(xù)性策略的情形,小鎮(zhèn)上兩餐館(1和2),分別按菜單收費(fèi)并分別設(shè)置菜單上的價(jià)格。 餐館在菜單定價(jià)的時(shí)候?qū)Ψ絻r(jià)格一無所知。 假設(shè)餐館定價(jià)分別為P1和P2,為每個(gè)顧客提供服務(wù)的成本是8元,根據(jù)市場調(diào)查,若餐館1的定價(jià)為P1,餐館2的定價(jià)為P2,則它們各自顧客的數(shù)量Q1和Q2(百人每月)分別為 Q1=44-2 P1+ P2 Q2=44-2 P2+ P1,價(jià)格競爭,價(jià)格是餐館競爭博弈中的策略,餐館1和2的利潤函數(shù)分別為 B1=(P1-8)Q1= (P1-8)(44-2P1+P2) B2=(P2-8)Q2= (P2-8)(44-2P2+P1),兩個(gè)餐館的反應(yīng)函數(shù)分別為:,P2=15+0.25P1,P1=15+0.25P2,5 納什均衡:連續(xù)性策略的情形,5 納什均衡:連續(xù)性策略的情形,兩個(gè)反應(yīng)函數(shù)如圖所示:,10,10,30,兩反應(yīng)函數(shù)的交點(diǎn)就是該博弈的納什均衡點(diǎn)。,該點(diǎn)表示一組價(jià)格,其中每家餐館價(jià)格都是對另一家價(jià)格的最優(yōu)反應(yīng)。,20,20,30,NE,P1,P2,餐館1的反應(yīng)函數(shù),餐館2的反應(yīng)函數(shù),共同最優(yōu),最優(yōu)價(jià)格P1=P2=20,每月服務(wù)的顧客人數(shù)都是2400人,每個(gè)顧客身上賺取利潤12元,利潤總額28800元,5 納什均衡:連續(xù)性策略的情形,10,10,30,反應(yīng)函數(shù)向上傾斜,20,20,30,NE,P1,P2,餐館1的反應(yīng)函數(shù),餐館2的反應(yīng)函數(shù),共同最優(yōu),一家餐館的提價(jià)行為有助于增加另一家餐館的利潤,雙方可以通過合作提價(jià)來提高利潤。,B1=B2=(P-8)(44-2P+P) P*=26 每家餐館利潤為32400,6 混合策略和混合策略納什均衡,有些博弈無法找到“均衡”,猜硬幣博弈,事實(shí)上,這類博弈沒有純策略的NE,零和博弈中,參與人之間利益直接沖突,一參與人偏好某類行動,而其對手偏好避開這類行動,隨機(jī)行動就會產(chǎn)生。,6 混合策略和混合策略納什均衡,純策略:肯定會被選擇以100%的概率被選擇的策略 純戰(zhàn)略納什均衡:各個(gè)局中人都選擇純戰(zhàn)略的納什均衡,什么是混合策略?,當(dāng)參與人選擇無規(guī)律的行動時(shí),他們會在自己的純策略中隨機(jī)選擇,在猜硬幣博弈中,兩個(gè)參與人都在最初給定的兩個(gè)純策略之間進(jìn)行選擇。將兩個(gè)純策略的一種隨機(jī)混合稱為混合策略,混合策略是在一個(gè)完整的連續(xù)范圍內(nèi)變化,純策略是極端情形,正面被選擇的概率為p,則反面被選擇的概率為(1-p),6 混合策略和混合策略納什均衡,Q: 某個(gè)特定的混合策略組合下,參與人的支付如何計(jì)算?,猜硬幣博弈,針對A蓋住正面,B選擇混合策略(0.75正面,0.25反面)的支付為 (-1)*0.75+ (1)*0.25=-0.5 B選擇某個(gè)特定混合策略的期望支付,混合策略的支付被定義為它們的純策略的相應(yīng)支付的概率加權(quán)平均,6 混合策略和混合策略納什均衡,猜硬幣博弈,如何求解均衡?,首先假設(shè)每個(gè)參與人的混合策略如下: A以p的概率選擇正面,(1-p)的概率選擇反面 B以q的概率選擇正面,(1-q)的概率選擇反面,兩人的期望支付分別為: A:(-1)*pq+1 *p(1-q)+ 1 *(1-p)q+ (-1)*(1-p)(1-q) =2p+2q-4pq-1,B:1*pq+(-1) *p(1-q)+(-1) *(1-p)q+ 1*(1-p)(1-q) =2p+2q-4pq-1,6 混合策略和混合策略納什均衡,納什均衡的概念能夠非常容易的擴(kuò)展到混合策略的情形,納什均衡被定義為這樣一組混合策略:給定別人的混合策 略,該選擇給“我”帶來最高的收益。,換句話說,每個(gè)參與人的選擇都是對其他人混合策略的最 優(yōu)反應(yīng),猜硬幣博弈中,A選擇p作為她針對B所選的混合策略的最優(yōu)反應(yīng);B選擇q作為針對A的混合策略的最優(yōu)反應(yīng),最優(yōu)反應(yīng)法在尋找混合策略博弈中同樣適用,6 混合策略和混合策略納什均衡,A的期望支付為: 2p+2q-4pq-1=(2-4q)p+2q-1,A的最優(yōu)反應(yīng)為:,表示A對B的給定的混合策略的最優(yōu)反應(yīng) A的最優(yōu)反應(yīng)曲線,如果q1/2,選擇純策略正面,如果q=1/2,0-1之間的任何p都是最優(yōu)反應(yīng),如果q1/2,選擇純策略反面,6 混合策略和混合策略納什均衡,B的期望支付為: 2p+2q-4pq-1=(2-4p)q+2p-1,B的最優(yōu)反應(yīng)為:,表示B對A的給定的混合策略的最優(yōu)反應(yīng) B的最優(yōu)反應(yīng)曲線,如果p1/2,選擇純策略反面,如果p=1/2,0-1之間的任何q都是最優(yōu)反應(yīng),如果p1/2,選擇純策略正面,6 混合策略和混合策略納什均衡,NE,兩個(gè)反應(yīng)函數(shù)的交點(diǎn)即為混合策略NE,A曲線相交于p=0.5,q=0,5,此時(shí),每個(gè)參與人的混合選擇相對其他選擇而言都是最優(yōu)的。,6 混合策略和混合策略納什均衡,NE,A的反應(yīng)函數(shù),當(dāng)B選擇q1/2時(shí),A的最優(yōu)反應(yīng)為純策略“正面”,當(dāng)B選擇q1/2時(shí),A的最優(yōu)反應(yīng)為純策略“正面”,參與人的最優(yōu)反應(yīng)是用純策略去應(yīng)對對方的幾乎所有混合策略,只有當(dāng)B選擇q=1/2時(shí),A的最優(yōu)反應(yīng)為混合策略,6 混合策略和混合策略納什均衡,NE,A的均衡p值恰好使得B在其所有的純策略或混合策略之間無差異,B的均衡q值恰好使得A在其所有的純策略間無差異,對手無差異性質(zhì):每個(gè)參與人的均衡混合策略都使得其他參與人在她的所有策略之間無差異,博弈參與人有意地選擇變換其行動以防止對手利用其可預(yù)測性。,6 混合策略和混合策略納什均衡,利用“對手無差異性質(zhì)”求解混合策略納什均衡,B選擇的混合策略(q,1-q)使得A在兩個(gè)純策略之間之間無差異。,B選擇的混合策略(q,1-q)使得A選擇任何一個(gè)純策略獲得相同的期望支付相等,即 (-1)*q+1*(1-q)=1*q+(-1)*(1-q) q=0.5,練習(xí):,壘球比賽博弈,擊球手,預(yù)料到曲線球,預(yù)料到快球,曲線球,快球,投手,投手與擊球手之間的目標(biāo)相互沖突 投手希望球能夠穿過擊球手,但擊球手希望能夠打到球 擊球手擊到快球的積分比擊到曲線球的積分多,1)考察該博弈是否存在純策略NE,并找出混合NE 2)畫出兩個(gè)參與人的最優(yōu)反應(yīng)曲線,p,1-p,q,1-q,6 混合策略和混合策略納什均衡,假設(shè)你在地面逃亡,而你的敵人正在空中打擊你,你可選擇躲到堅(jiān)固掩體下,也可以選擇躲到一間民房。首先想躲堅(jiān)固掩體(堅(jiān)固的地方更安全)。但是,你可能馬上意識到,你的敵人很可能猜到你躲在最堅(jiān)固地方,便集中火力攻擊你最安全地方成最危險(xiǎn)的地方;于是你決定躲民房,但你的敵人他也會想到這一層而進(jìn)攻民房,在這些博弈中,每個(gè)參與人都不要讓人猜透(給別人造成一種不確定性),因此使用一個(gè)混合策略,即在其純策略集合上定義一個(gè)概率分布。,零和博弈通常沒有純策略納什均衡。,20世紀(jì)40年代馬來西亞,英國軍隊(duì)食品卡車,以免遭受游擊隊(duì)襲擊。 游擊隊(duì)能夠采取一次大規(guī)模進(jìn)攻或者采取制造一次小事故來恐嚇卡車司機(jī)以使他們不能繼續(xù)服役。 英軍也能采取集中力量護(hù)衛(wèi)或者是分散護(hù)衛(wèi),集中力量護(hù)衛(wèi)有利于反擊一次大規(guī)模的進(jìn)攻,分散護(hù)衛(wèi)有利于反擊小事故。 對于游擊隊(duì)而言,如果敵人分散護(hù)衛(wèi),一次大規(guī)模進(jìn)攻更有效;如果敵人采取集中力量護(hù)衛(wèi),小事故更有效。 該博弈只有一個(gè)混合策略均衡 并不懂博弈論的英軍指揮官是這樣決策的:每天早晨,當(dāng)護(hù)衛(wèi)開始時(shí),他抓一片草藏在一只手中,將兩只手藏在身后讓士兵猜哪只手有草,然后根據(jù)士兵是否猜對來決定護(hù)衛(wèi)的形式。,英軍護(hù)衛(wèi),6 混合策略和混合策略納什均衡,采用混合策略的靜態(tài)博弈:非零和博弈,零和博弈中內(nèi)在的直接沖突使得隨機(jī)性行動對參與人具有吸引力。,混合策略在博弈中讓對方保持猜疑來幫助參與人。,在非零和博弈中,參與者之間沒有明顯的利益沖突,也就沒有普遍的理由來對對手隱藏其利益所在。,因此,迷惑對手就不一定有道理。,6 混合策略和混合策略納什均衡,在同時(shí)行動非零和博弈中,當(dāng)每個(gè)參與人選擇自己策略時(shí),由于對別人的選擇難以確定從而不確定自己的選擇出現(xiàn)混合策略。,約會博弈,參與人對對手行動具有某種不確定性的信念,因而也就不能確定地給出自己的最優(yōu)行動。,6 混合策略和混合策略納什均衡,哈里,星巴克,本地 咖啡館,莎莉,星巴克,本地 咖啡館,假設(shè)p表示莎莉心目中哈里選擇星巴克的概率以此表達(dá)莎莉主觀的不確定性:她認(rèn)為哈利將采用混合策略,分別以p和1-p的概率選擇兩個(gè)純策略將這個(gè)混合策略稱作哈利的混合策略,盡管目前僅僅是莎莉心目中的一個(gè)想法。,莎莉的最優(yōu)行動是什么?,如果我選擇星巴克,期望支付為 1*p+0*(1-p)=p 如果我選擇本地咖啡店,期望支付 為0*p+2*(1-p)=2-2p,6 混合策略和混合策略納什均衡,1,1,2,p,星巴克,本地咖啡店,2/3,莎莉的支付,2-2p,p,q,莎莉的最優(yōu)反應(yīng),莎莉的支付,莎莉選擇星巴克的概率,最優(yōu)反應(yīng)為任意的q(兩純策略任意組合),0,混合策略和混合策略納什均衡,q,2/3,p=1,q=1,p=0,q=0,p=q=2/3,最優(yōu)反應(yīng)曲線交于三個(gè)點(diǎn):,p=0,q=0每個(gè)人都確定選擇本地咖啡館,且主觀上也認(rèn)為對方這么做;,p=1,q=1每個(gè)人都確定選擇星巴克,且主觀上也認(rèn)為對方這么做;,p=2/3,q=2/3每個(gè)人都選擇混合策略,都不能確定對方的選擇,并存在一個(gè)主觀上不確定的均衡上的平衡,6 混合策略和混合策略納什均衡,哈里,星巴克,本地 咖啡館,莎莉,星巴克,本地 咖啡館,2/3,1/3,2/3,1/3,混合策略均衡下兩人相遇的概率?,混合策略均衡下每個(gè)人的期望收益為2/3,小于任何一個(gè)純策略均衡(2或1),由于各自的隨機(jī)選擇是獨(dú)立的,很有可能(可能性4/9)雙方選擇不一致,導(dǎo)致低收益。,混合策略的低效率,6 混合策略和混合策略納什均衡,懦夫博弈(Chicken Game),6 混合策略和混合策略納什均衡,q,1/2,p,0,0,1/2,p=1,q=0,p=0,q=1,最優(yōu)反應(yīng)曲線交于三個(gè)點(diǎn):,p=0,q=0,p=1,q=0,p=1/2,q=1/2兩人的選擇的不確定正好使對方無差異。,p=q=1/2,混合均衡上,兩人支付為-1/2,的不確定正好使對方無差異。,6 混合策略和混合策略納什均衡,對手無差異和防止被利用,當(dāng)一個(gè)參與人選擇混合策略時(shí),對手選擇任何策略都無差異,零和博弈中,任何其他的選擇都會被對手利用以有利于她,從而對自己有損。,對手無差異性質(zhì),也就是說,零和博弈中每個(gè)參與人的均衡

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論