版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、第四章完全信息動態(tài)博弈及其均衡解1.完全且完美信息動態(tài)博弈完全信息博弈指的是參與者的收益是共同知識。完全且完美信息動態(tài)博弈指的是:博弈中的每一步中參與人都知道這一步之前博弈進行的整個過程。因此,我完全且完美信息動態(tài)博弈的特點:(1)行動是順序發(fā)生的;(2)下一步行動選擇之前所有以前的行動都可以被觀察到;(3)每一可能的行動組合下的參與人的收益都是公共知識。而不完美信息博弈指的是,在某一步參與人不知道以往博弈所進行的歷史或者沒有觀察 到以往的所有行動。例4.1 .我們來考慮這樣一個動態(tài)博弈:假定甲在開采一個價值 4萬元的金礦時需要1 萬元資金,乙有1萬元資金。甲向乙借錢來開金礦。在這個博弈的第一
2、階段,甲向乙承諾:如 果乙借錢給他的話, 那么他就會將采到的金子與乙對半分成,即(2, 3)乙得到2萬元的金子,同時收回自己的1萬元投資。對于甲的承諾,乙如果不借錢給甲的話,那么博弈到此 為止,雙方收益為(0,1)。如果乙借錢給甲的話, 那么博弈進入第二個階段。 在第二階段中, 若甲遵守他的承諾,分給乙一半的金子,這樣兩人的收益為(2 , 3),其中1萬元為投資成本。RJP31然而,若甲違背自己的承諾,博弈就會進入到第三個階段:如果乙同甲打官司,那么由于打官司費時費力,兩個人的收益為(0,1);若乙不打官司,那么兩個人的收益就為(5 , 0)。參見圖1。圖1.借錢博弈的博弈樹2 .逆向歸納法與
3、子博弈納什均衡解逆向歸納法(Backward induction )又稱逆推法,是指這樣一種動態(tài)博弈求解方法:從 博弈的最后一步開始, 計算最后一步的參與人的最優(yōu)行動, 逐步逆推到博弈開始時進行第一 步的參與人的最優(yōu)行動,從而確定每個參與人的最優(yōu)行動。在動態(tài)博弈中逆向歸納法能夠進行的前提:參與人是理性的一一任何一步參與人都選擇最優(yōu)策略;理性是公共知識一一參與人選擇最優(yōu)策略是其他人所能夠預(yù)測的。 在完全且完美信息動態(tài)博弈中逆向歸納法能夠求得子博弈精煉納什解。圖2.借錢博弈的逆向歸納法的求解過程在例4.1中這樣一個動態(tài)博弈,用逆向歸納法,我們就可以推知,如果甲做出“不分”的選擇,那么乙一定會選擇“
4、打”官司。因為對于乙而言,打官司的收益為1,不打官司的收益是0,所以,作為一個理性人,乙一定會選擇打官司。而如果甲知道在“不分”的情況 下乙必定選擇“打官司”,那么甲就一定會選擇 “分” 一半的金子給乙,因為對甲而言,“分” 的收益是2, “不分”的收益是0。所以,甲的承諾是可置信的。而對于乙來說,他會選擇“借”, 因為“借”的收益是 3, “不借”的收益是1。因此,該博弈最終的子博弈精煉納什均衡點就 是(2 , 3)。例4.2.斯坦克爾伯模型。兩個廠商壟斷某個市場, 其中廠商1處于支配地位,它先行動,然后從屬企業(yè)2后行動。 假定市場需求函數(shù)為 p=a-Q。廠商的單位產(chǎn)品的成本 c。這些是企業(yè)
5、1和2的公共知識。問: 廠商1和2是如何決定的它們的生產(chǎn)產(chǎn)量的。假定廠商1和2所決定的產(chǎn)量分別為 q1,q 20我們用逆向歸納法來求解。 企業(yè)2后行動,對于企業(yè)1的任何行動,即任意給定的產(chǎn)量, 企業(yè)2確定產(chǎn)量以使利潤最大,即使L2=pxq2-cxq2最大。假定企業(yè)1決定的產(chǎn)量為qb因為:L2=p Xq2-c Xq2= (aqq) Xq2-c Xq2由 dL2/dq 2=0:q1-2q2=a-c (1)即:q2=(qi-a+c) /2企業(yè)1先行動,它能夠預(yù)知企業(yè) 2的最優(yōu)化行為,即在它的最優(yōu)產(chǎn)量 qi給定的情況下,企業(yè)將按照q2=(q i-a+c) /2進行決策。這樣,企業(yè)的利潤函數(shù)為:Li=p
6、Xqc Xqi= (a-q i-q 2)xqi-c xqi= (a-qi-q2)Xqi-c xqi 而 q2是 qi 如下的函數(shù):q2=(q i-a+c) /2由 dLi/dq i=0: *,、 一qi =(a-c ) /2于是, *q2 =(a-c ) /4因此,(a-c ) /2 , (a-c ) /4)為逆向歸納法解。該解被稱為子博弈精煉納什均衡解。此時總產(chǎn)量為q2=3(a-c ) /4,價格為(a+3c)/4企業(yè)I的利潤Li=(a-c) 2/8企業(yè)2的利潤為L2=(a-c) 2/I6請讀者與古諾均衡解進行比較。3 .動態(tài)博弈中的威脅與承諾為了實現(xiàn)最大利益,使博弈在博弈參與人所希望的策略
7、組合上實現(xiàn),在他人作出行動之前的每一步參與人都會向?qū)Ψ娇赡茏龀瞿撤N威脅或承諾,希望對方做出或者不做出某個行動。而通過逆向歸納法我們能夠區(qū)別動態(tài)博弈中威脅或承諾是否可信。例4.I :甲向乙承諾:借錢給我,我賺錢后將分給你。甲的承諾是可信的。乙威脅甲:若你不分給我,我將起訴你。乙的威脅也是可信的。之所以發(fā)生威脅與承諾的言語現(xiàn)象,是因為輪到他人行動的時候,參與人只能通 過言語而影響他人的行動從而實現(xiàn)自己希望的結(jié)果。甲之所以承諾,是因為他希望乙 能夠“借錢”給他。同樣,而乙之所以進行威脅,是因為他借錢之后,希望甲能夠連 本帶利將錢給乙。當(dāng)然,在博弈論中因為參與人是理性人,威脅與承諾是否可置信能夠被確認(rèn)
8、。這 樣任何威脅與承諾都是沒有意義的:若是不可置信,它是公共知識,又何必做這樣的 威脅或承諾;若是可置信的,因為該博弈是完全且完美信息博弈,做出這樣的威脅與 承諾也是無益的。但是在實際生活中,做出這樣的威脅與承諾是有意義的,因為,人們不一定認(rèn)為 對方是完全理性人,而認(rèn)為會發(fā)生某種“偏離”:或者會受言語的影響,而“忘記” 應(yīng)該按照計算的行動進行,或者相信了對方的承諾或威脅而改變了原來的行動選擇;4 .理性的困境:娛蚣博弈與最后通牒博弈逆向歸納法是從動態(tài)博弈的最后一步往回推,以求解動態(tài)博弈的均衡結(jié)果。它是 完全歸納推理,其推理是演繹的,即結(jié)論是必然的。逆向歸納法在邏輯上是嚴(yán)密的, 然而它存在著“困
9、境”。逆向歸納法的邏輯嚴(yán)密性毋庸置疑。然而,當(dāng)我們分析一個特殊的博弈一一娛蚣博弈一一的時候,一個違背直覺的悖論出現(xiàn)了,這個悖論被認(rèn)為是對逆向歸納法的挑戰(zhàn)。娛蚣博弈(centipede game )為羅森塔爾(R.Rosenthal)在1981年提出,我們這里采 取的是奧曼(Aumann 1998)論文中的形式1。安娜 鮑伯 安娜 鮑伯安娜 鮑伯 2n+2 - 2n+132n2 n-114362n-1 2 n+2圖8-2娛蚣博弈這個博弈有兩個參與人, 安娜和鮑伯。該博弈從安娜開始,她有兩個策略“合作”和“不 合作”,若她選擇“不合作”,博弈即刻終止,安娜得到2,鮑伯得到1;若她選擇“合作”,那么
10、博弈繼續(xù)進行,由鮑伯開始選擇。鮑伯同樣有“合作”和“不合作”兩種策略。在這第 二輪選擇中,若鮑伯選擇“不合作”,博弈終止,選擇“合作”,博弈繼續(xù)進行在這個博 弈最后一輪,即第2n輪,若鮑伯選擇“不合作”,他所得2n+1,安娜得2n-1 ;若他選擇“合 作”,鮑伯得2n+1安娜得2n+2。因這個博弈樹形狀像蝶蚣,因而被稱為娛蚣博弈。在這里我們假定了,總的步數(shù)2n是一個雙方都知道的有限數(shù)。嚴(yán)格地說,我們假定了,該博弈的總步數(shù) 2n為雙方的公共知識(common knowledge) o我們用逆向歸納法來分析這個博弈的結(jié)果:在最后一步,鮑伯在“合作”與“不合作”中進行選擇時,因為 “不合作”帶給他的
11、好處是 2n+2,而“合作”的好處是2n+1,選擇“不 合作”的好處大于“合作”的好處,鮑伯應(yīng)當(dāng)選擇“不合作”。在倒數(shù)第二步,安娜這樣想, 選擇“不合作”的好處是 2n;而選擇“合作”,在下一步鮑伯肯定會選擇“不合作”,此時她的好處將是2n-1 ,因此在這倒數(shù)第二步安娜的理性選擇“不合作”通過這樣的分析,在這個博弈的第一步安娜的理性的選擇是“不合作”。這樣,這個博弈的結(jié)果是,在博弈的第一步安娜選擇“不合作”,博弈即終止。這一點構(gòu)成娛蚣博弈的完美納什均衡點。在這個點上,安娜得到支付2,而鮑伯得到支付1。這樣的結(jié)果是反直覺的: 最大化自己支付的理性人其所得是不合理的。從這個博弈樹來看,若他們均選擇
12、“合作”,雙方的支付將會很高。但根據(jù)逆向歸納法,這個結(jié)果達(dá)不到。在這個博弈中,每個人考慮到未來他人不合作, 自己先采取不合作。 因在最后一步理性 的參與人必定采取不合作, 每個人的考慮是有邏輯基礎(chǔ)的。 于是,一個違反直覺的糟糕結(jié)果 便出現(xiàn)了。這便是動態(tài)不合作。對于娛蚣博弈的這個逆向歸納法解,博弈論專家中存在贊成和反對兩種觀點。著名的博弈論專家奧曼(R.J. Aumann )認(rèn)為,如果“策略人是理性的”是雙方的公共知識,逆向歸 納法的解必然要達(dá)到。英國倫敦經(jīng)濟學(xué)院的賓謨(K.Binmore )教授則認(rèn)為,在娛蚣博弈的開始存在混合策略 的可能,即在博弈的開始安娜有采取“合作”的非零概率,而輪到鮑伯
13、,他同樣有采取“合1 Aumann, R.J. Note on the centipede GameJ. Games and Economic Behavior,1998, vol 23,pp97-105.作”策略的非零概率。因此,在賓謨看來,該博弈終止于第一步不是必然的。本人認(rèn)為,在最后一步鮑伯合作的概率必然為0,逆推到第一步,安娜的合作概率也必然為0。這樣,賓謨試圖通過引進混合策略均衡以作為這個博弈的替代性的解是行不通的。 逆向歸納法悖論依然存在。最后通牒博弈。參與人 1和2分一筆錢,如100元,1提出分配方案,2表決。如果參 與人1所提出的分配方案得到參與人 2的同意,就按照該分配方案分
14、配;如果參與者2拒絕, 雙方都將一無所獲。逆向歸納法解:6,完全非完美信息動態(tài)博弈博弈的擴展式表達(dá)囚徒2 人囚徒2合”不合作合作不合作(3,3 ) ( 4,1 ) (1,4) (2,2)6.子博弈納什均衡解與進化穩(wěn)定策略在博弈論、行為生態(tài)學(xué)及演化心理學(xué)中,演化穩(wěn)定策略ESS是一個這樣的策略,一旦它被給定環(huán)境中的參與人群體采用,它不能被任何其他可能的策略所侵略。一個ESS是納什均衡的精煉。它是演化穩(wěn)定的納什均衡:一旦它在一個種群 中得到確認(rèn),自然選擇本身足以放防止變異的可能策略侵略成功。演化穩(wěn)定策略在博弈論證是一個中心概念, 它由John Maynard Smith 和 George R. Pr
15、ice在1973首先給出,并被用于人類學(xué)、演化心理學(xué)、哲學(xué)和政治科學(xué)之中。進化穩(wěn)定策略依賴于侵略的概念。一個X-策略參與人的群體被Y策略的參與 人所造訪。如果新的參與人使用 Y策略比X-策略的參與人得分更高,他被認(rèn)為 是侵略的。假定參與人能夠選額和變換策略,這會導(dǎo)致原來的種群開始走向Y策略。一個策略X是進化穩(wěn)定的,如果沒有策略Y能夠侵略到它。也就是是,采取新策略的物種來到X-策略的種群平均來說將不會獲得比X策略的參與人更好的收益。Maynard Smith2 Binmore,K.A note on Backward Induction. Games and Economic Behavior,
16、1996,vol 17,pp138-146.與 Price 1給出了 ESS策略的條件:一個策略 S 是 ESS: for all Tw S,或者 E(S,S) > E(T, S), 或者 E(S, S) = E( T,S)且 E(S T) > E( T, T)o納什均衡與ESS的區(qū)別。在囚徒困境中是同一的。在“傷害鄰居”的博弈中,( A,A) (B,B)都是納什均衡,但只有是一個ESS (強納什士衡)。A則不是,因此B能夠中性地侵略到A策略家的群體之中并占優(yōu)勢(predominate ),因為B對抗B得分高于A對抗B對抗 B的得分。3, 31,44, 12, 2CDCD囚徒困境2
17、, 21,22, 12, 2AB傷害鄰居在鷹鴿博弈中混合策略為一個ESS7.現(xiàn)實的動態(tài)博弈解讀謝林的核武器理論。黑格爾:存在就是合理的。拓展均衡解的擴展1 .納什均衡作為博弈預(yù)測的局限博弈論所研究的模型是現(xiàn)實的抽象。博弈論專家研究博弈期目的是為了預(yù)測,預(yù)測博弈參與人的策略選擇及博弈結(jié)果。然而,當(dāng)一個博弈包含不止一個納什均衡時,我們往往無法對之預(yù)測。為了解決這個問題,博弈論專家坐了許多嘗試。2 .謝林的聚點均衡焦點效應(yīng)。在一個具有多重均的博弈中,某些事情使得一個博弈的參與人將注意力集中到一個均衡,使他們預(yù)期并實現(xiàn)這個均衡,這便是謝林所說的焦點效應(yīng)。一個焦點均衡(focal equilibrium
18、 )就是一個具有某種使它顯著地區(qū)別于所有其他均衡之性質(zhì)的均衡。焦點又稱為謝林點(Schelling point ),這一概念最早由諾貝爾獎獲得者謝林于1960年在沖突的策略一書中提出:“人們?nèi)绻弥獎e人也正試圖做出和自己同樣的行為時,常常能使他們的意圖或期望達(dá)成一致。大多數(shù)情況一一或許每一種情況都能為此種博弈參與 人的合作提供一些線索,為每個人的期望提供聚點' (focal point ),其中每個人的期望 是別人期望他期望被期望去做的事?!?T. C. Schelling, The Strategy of Conflict . Harvard University Press, 19
19、60, pp: 57.也就是說,聚點是在協(xié)調(diào)博弈中博弈參與人通過相互 期望所做出的共同選擇形成的那個均衡點,它顯示出了博弈中人們在沒有溝通的情況下的共同選擇傾向。芬斯/M ( Maier Fenster ,1995)等人給出了一個明確的定義:給定一個問題和可能解的集合,參與人必須從解集合中選擇一個,聚點就是參與人所選的最突出的那個解。 M. Fenster, S. Kraus and J. S. Rosenschein, Coordination without Communication: Experimental Validation of Focal Point Techniques .
20、 AAAI. 1995, pp:102.謝林曾經(jīng)有過這樣的實驗:“請選擇下列數(shù)字中的一個,如果你們的選擇相同,你們都將獲勝。7 100 13 261 99 555實驗結(jié)果是在41人中37人選擇了前三項,7略微領(lǐng)先于100, 13位于第三位。T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960, pp: 56. T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960, pp: 94.可以看 出,在這三項中,選
21、擇人數(shù)按數(shù)字排列的位置呈遞降趨勢。在謝林的實驗中,聚點在選擇第“如果問到在所有正數(shù)當(dāng)中 人們將會受到這種事實的強 ” 6:在“正面”和“反面”二者一個數(shù)上形成,協(xié)調(diào)博弈的結(jié)果與被選擇對象呈現(xiàn)的次序有關(guān)。哪個是最明顯獨特的,或者什么樣的選擇規(guī)則將導(dǎo)致明確結(jié)果, 烈影響:即最普遍的選擇是第一個或最小的那個正數(shù)。謝林進行的其他一系列實驗也驗證了這種“位置優(yōu)先性”之間,聚點在選擇“正面”形成;在十六個方塊列成的矩陣之間,聚點在選擇第一個方塊時 形成。 T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960,
22、pp: 56. T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960, pp: 57.從謝林的實驗可以看出,在無差異的選擇對象之間,被試往往傾向于選擇位置處于 第一個的對象。這似乎暗示著,人們可以利用被選擇對象呈現(xiàn)的次序來控制選擇的結(jié)果。如果這是唯一的結(jié)論,那么這在具體的運用中, 會出現(xiàn)許多令人沮喪的結(jié)果。比如,在選舉時,人們可以利用排名的先后來進行某種暗示。然而,令人欣喜的是,我們的實驗結(jié)果與之完全不同,從附表3可以看出,聚點偏離了第一個數(shù)的位置,在選擇位于第三的數(shù)字上形成。聚點發(fā)生了變遷!在這里
23、,聚點的形成與位置無關(guān), 也就是說,博弈的結(jié)果不再與數(shù)字呈現(xiàn)的 次序有關(guān)。對于協(xié)調(diào)博弈的結(jié)果, 謝林認(rèn)為很大程度上取決于雙方的直覺而不是邏輯思維推理,或許依靠來自雙方對相似事物之間的類比經(jīng)驗、先例、偶然巧遇、對稱性、審美觀或幾何原理、詭辯推理,以及當(dāng)事人的自身條件和對彼此情況的了解。8巴卡拉克(Bacharach),薩登(Sugden)和詹森(Janssen)等人也持有類似的觀點,他們認(rèn)為,在很多情況下,聚點 來自于直覺。 A. Casaius, Focal Points in Framed Strategic Forms . Games and Economic Behavior, Volu
24、me 32, Issue 2, 2000, pp: 263.然而,從我們的實驗結(jié)果看來,人們的選擇并沒有排除邏輯思維推理。3 .焦點均衡的一個實驗在群體生活中,許多行動可以通過約定(convention)來達(dá)到一致。當(dāng)一個群體中的每個人遵守某些原則,從而使其他群體中的每個人也遵守這些原則時,就出現(xiàn)了約定。G. Harman, Convention. The Nature of Morality , New York: Oxford University Press, 1977, pp: 103.在協(xié)調(diào)博弈中,如果有約定,某些行動規(guī)則便成為公共知識,協(xié)調(diào)博弈的難題就迎刃而解了。這里所指的公共知識(commonknowledge ),是指對于一個命題, 某個群體中的每個人都知道它, 每個人知道每個人知道它,等等。然而在許多協(xié)調(diào)博弈中,沒有約定作為相應(yīng)的博弈參與人進行行動選擇的依據(jù),當(dāng)然溝通也是不可能的,在這樣的情況下,人們又是怎樣行動的呢?為了探尋在沒有約定的情況下 現(xiàn)實生活中人們是如何協(xié)調(diào)行動的,我們進行了一個關(guān)于協(xié)調(diào)博弈的實驗:請從2、7、8、9'這4個數(shù)字中選出一個數(shù)字,若你所選的數(shù)字為在座的同學(xué)中最多 的人所選的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024地震災(zāi)區(qū)重建渣土砂石供應(yīng)及運輸合同
- 2024年度版權(quán)交易合同
- 木材采運過程中的監(jiān)督管理考核試卷
- 2024年度國際化工產(chǎn)品采購合同
- 古代文學(xué)與歷史人物考核試卷
- 2024年微站租賃與運營合同
- 放射性金屬礦床的地理信息系統(tǒng)與空間分析技術(shù)考核試卷
- 木材加工中的設(shè)備選擇與使用考核試卷
- 2024年建筑工程招投標(biāo)費用支付合同
- 2024年影視作品改編權(quán)轉(zhuǎn)讓合同(具體作品名稱)
- 小學(xué)道德與法治六年級上冊第5課《國家機構(gòu)有哪些》測試題
- PLC控制的自動花樣音樂噴泉系統(tǒng)設(shè)計畢業(yè)設(shè)計論文
- 建筑公司組織架構(gòu)及崗位職責(zé)
- COPD診療新進展
- 精品資料(2021-2022年收藏的)病案管理制度全套
- 低壓工作票(共3頁)
- 2閥門結(jié)構(gòu)和工作原理(上)
- 基礎(chǔ)圖案設(shè)計(課堂PPT)
- 食堂操作工藝流程圖
- 幼兒園參觀學(xué)?;顒臃桨?篇
- 關(guān)于旅游景區(qū)游客滿意度研究的文獻(xiàn)綜述
評論
0/150
提交評論