第四講重復(fù)博弈a.ppt_第1頁
第四講重復(fù)博弈a.ppt_第2頁
第四講重復(fù)博弈a.ppt_第3頁
第四講重復(fù)博弈a.ppt_第4頁
第四講重復(fù)博弈a.ppt_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、2020/8/6,1,第四講 重復(fù)博弈,本章主要內(nèi)容: 1 重復(fù)博弈的概念; 2 作為一種特殊的動態(tài)博弈,有限次和無限次重復(fù) 博弈的子博弈完美納什均衡的求解方法; 3 無限次重復(fù)博弈古諾模型和效率工資模型。 本章主要結(jié)論(民間定理): 由于參與者在重復(fù)博弈中具有了長期利益,可以通過在后面階段中采取的報復(fù)策略使得威脅變得可信,從而擺脫靜態(tài)博弈中“追求自身利益最大化”導(dǎo)致的囚徒困境,實現(xiàn)長期合作的結(jié)局。,2020/8/6,2,第一節(jié) 幾個概念,重復(fù)博弈的概念 有限次重復(fù)博弈的概念,一次廣告博弈,通用面粉,凱洛格,博弈論與企業(yè)競爭,企業(yè)、政府與商業(yè)環(huán)境,一次廣告博弈的均衡,納什均衡,通用面粉,凱洛格

2、,劣策略:不管其他參與人采取什么策略,都能導(dǎo)致最低收益的策略 理性參與人永遠(yuǎn)不會選擇劣策略 許多博弈中參與者都沒有占優(yōu)策略,但仍可能通過劣策略的重復(fù)剔除進(jìn)行分析,這種方法稱劣策略重復(fù)剔除法,博弈論與企業(yè)競爭,企業(yè)、政府與商業(yè)環(huán)境,如果企業(yè)每年都進(jìn)行這種一次博弈,并且永遠(yuǎn)進(jìn)行下去,這時參與人可以對對手的“欺騙”行為進(jìn)行懲罰或報復(fù)。在這種情況下,共謀起作用嗎?,密歇根大學(xué)愛克斯羅德教授的計算機(jī)模擬 他首先邀請全世界的學(xué)者遞交自認(rèn)為最優(yōu)的策略程序,然后將這些策略相互之間交替進(jìn)行不特定次數(shù)的“重復(fù)囚徒博弈”,根據(jù)最終排名來判定優(yōu)劣。第一輪14個程序之間的競賽結(jié)果顯示,“一報還一報” 的簡單策略獲得第一

3、。之后,又有63位科學(xué)家遞交了改進(jìn)的程序,進(jìn)行第二輪競賽,其中包括多個以“一報還一報”策略為基礎(chǔ)的改良品種。令人驚異的是,第二輪比賽的優(yōu)勝者仍然是“一報還一報”。 觸發(fā)策略(針鋒相對,以牙還牙) “如果對手在過去沒有做過廣告,我就不做;一旦對手作廣告,自此以后,我就用高強(qiáng)度的廣告活動來懲罰他” 事實上,只要對手在過去沒有過“欺騙”行為,各個企業(yè)都會同意“合作”。因為欺騙行為會引發(fā)以后所有時期的懲罰,無限重復(fù)博弈,博弈論與企業(yè)競爭,企業(yè)、政府與商業(yè)環(huán)境,假設(shè)General Mills采用了這種觸發(fā)策略,Kelloggs的利潤是多少呢?,合作 = 12 +12/(1+i) + 12/(1+i)2

4、+ 12/(1+i)3 + = 12 + 12/i,相當(dāng)于每年年底得到¥12的永久年金,欺騙 = 20 +2/(1+i) + 2/(1+i)2 + 2/(1+i)3 + = 20 + 2/i,通用面粉,凱洛格,博弈論與企業(yè)競爭,企業(yè)、政府與商業(yè)環(huán)境,Kellogg從欺騙行為中獲得的好處:,欺騙 - 合作 = 20 + 2/i - (12 + 12/i) = 8 - 10/i 假設(shè)i = .05 欺騙 - 合作 = 8 - 10/.05 = 8 - 200 = -192 欺騙沒有好處. 在無限次重復(fù)博弈中共謀是納什均衡!,通用面粉,凱洛格,博弈論與企業(yè)競爭,企業(yè)、政府與商業(yè)環(huán)境,欺騙行為的收益和

5、成本,如果 當(dāng)前收益 未來成本的現(xiàn)值 欺騙行為是有利的 如果 當(dāng)前收益 未來成本的現(xiàn)值 欺騙行為沒有好處,通用面粉,凱洛格,博弈論與企業(yè)競爭,企業(yè)、政府與商業(yè)環(huán)境,關(guān)鍵點,當(dāng)博弈無限重復(fù)沒有確定的“終結(jié)之日”時,共謀作為納什均衡就能夠維持下去 這需要: 有能力監(jiān)督對手的行動 有懲罰叛徒的能力和名聲 低利率 在未來進(jìn)行博弈的機(jī)會多,博弈論與企業(yè)競爭,企業(yè)、政府與商業(yè)環(huán)境,共謀在現(xiàn)實世界中的例子,垃圾搜集行業(yè) 水表制造業(yè) 石油輸出國組織 黑手黨組織,博弈論與企業(yè)競爭,企業(yè)、政府與商業(yè)環(huán)境,說明,根據(jù)謝爾曼反托拉斯法案第二節(jié),共謀是違法的. 后果可能是罰款和坐牢 OPEC是國際間組織,美國法律不適用

6、于它,博弈論與企業(yè)競爭,企業(yè)、政府與商業(yè)環(huán)境,如果博弈有限重復(fù)進(jìn)行,共謀起作用嗎?,有限重復(fù)博弈,假設(shè)廣告博弈被重復(fù)兩次,通用面粉,凱洛格,納什均衡,博弈論與企業(yè)競爭,企業(yè)、政府與商業(yè)環(huán)境,用逆向歸納法,結(jié)論是:不.,在第二階段,博弈是一次博弈,因此在這最后階段,均衡是高強(qiáng)度的廣告活動. 由于每個人都知道第二階段的結(jié)果,因此,第一階段就變成了最后階段. 兩個企業(yè)在兩個時期的均衡策略都是高強(qiáng)度的廣告活動. 如果博弈重復(fù)已知的有限次數(shù),同樣的結(jié)果依然成立,博弈論與企業(yè)競爭,企業(yè)、政府與商業(yè)環(huán)境,2020/8/6,14,14,系統(tǒng)思維和雙贏策略,“商場如戰(zhàn)場”企業(yè)在商戰(zhàn)中的惡性競爭不僅僅損害的是企業(yè)

7、的利益,更可怕的是往往將一個行業(yè)做“爛”。 “雙贏”是一種相互的妥協(xié),也是一種良性的競爭,它可以幫助我們實現(xiàn)共同利益的最大化。也就是說,它可以使我們都能分到“蛋糕”,而且可以使我們一起“把蛋糕做大”。,2020/8/6,15,行業(yè)自律 道德約束,組織形式: 中介組織;行會;保險公司 每個博弈者建立各自的“圈子”A與B的生意可能只是一次性的,但是,A卻要長期與B所在“圈子”打交道,這樣,通過“圈子”,A與B的一次性博弈就轉(zhuǎn)化為A與B所在“圈子”的重復(fù)博弈。同時,“圈子”還有另一重作用,就是傳遞信息,是“雙盲”博弈變成“透明”博弈,提高合作的可能性 。,2020/8/6,16,制度保證 政府監(jiān)管,

8、保險制度 ; 信用制度 健全法制,完善有關(guān)規(guī)章制度,讓不遵守游戲規(guī)則的投機(jī)取巧者、坑蒙拐騙者和背信棄義者受到應(yīng)有的懲罰。 法律旨在使合作利益能夠順利實現(xiàn),旨在促進(jìn)繁榮,而并非為了威嚇百姓。我國最早文獻(xiàn)尚書.呂刑篇曾明確地指出:典獄非訖于威,唯訖于富。 擺脫惡性競爭,建立規(guī)則。,2020/8/6,17,信息披露 社會監(jiān)督,解決誠信也有簡單的方法,那就是建立個人信用體系,讓個人的誠信記錄成為共享的信息。在一個信息化時代,這很容易做到,例如將畢業(yè)生的信用在網(wǎng)上公布,將銀行信用記錄聯(lián)網(wǎng)等等。信息的共享可以將交易或交往變成無限連續(xù)的博弈信用的機(jī)會成本。 每個博弈者建立并公開自己的信用記錄一次失信留下的污

9、點會被記錄在案、保存下去,影響今后一系列博弈的結(jié)果。這樣就使一次性博弈變成了長期的重復(fù)博弈中的一環(huán)。,2020/8/6,18,企業(yè)制衡 策略思維,不要期望完全的公平。 將一項大的合作行動分為幾次小的、連續(xù)的合作。比如:貿(mào)易、談判都要分步進(jìn)行,以促使對方采取合作態(tài)度。 增大未來的影響力:下一步的重要性;增大合作的收益。 不要奢望做永遠(yuǎn)的贏家。 無論在競技游戲中,還是在生存競爭中,策略在其中有著舉足輕重的影響和作用。,期末問題的應(yīng)用,當(dāng)參與方確切地知道一個重復(fù)博弈什么時候結(jié)束時,期末問題就出現(xiàn)了。由于無法在最后一次對對手違背協(xié)議行為進(jìn)行懲罰,因此參與方就會采取如同一次博弈的策略 59歲現(xiàn)象 辭職問

10、題 虛假廣告 火車站和旅游點的商販,博弈論與企業(yè)競爭,企業(yè)、政府與商業(yè)環(huán)境,2020/8/6,20,4.1.1 重復(fù)博弈的概念,1 由簡單的靜態(tài)博弈(或動態(tài)博弈)的有限次(或無限次)重復(fù)進(jìn)行構(gòu)成的。 2 每一階段博弈方、策略集合、規(guī)則和得益都相 同。 3 包括:有限次重復(fù)博弈和無限次重復(fù)博弈 4 例子: 多場決勝負(fù)的體育比賽(有限次) 兩寡頭市場上兩個廠商之間的競爭(無限次) 商場與顧客交易,2020/8/6,21,定義:給定一個博弈G,重復(fù)進(jìn)行T次G,并且在每次重復(fù)之前各博弈方都能觀察到以前博弈的結(jié)果,稱為G的一個“T次重復(fù)博弈”,記為G(T)。其中,G成為G(T)的原博弈。每次重復(fù)稱為G(

11、T)的一個階段。,4.1.2 有限次重復(fù)博弈的概念,2020/8/6,22,4.1.2 有限次重復(fù)博弈的概念,幾個概念: 1 子博弈:從某一階段(不包括第一階段)開始,包含以后所有階段的原重復(fù)博弈的一部分。 2 策略:博弈方在每個階段針對每種情況如何行動的計劃(注:在每一階段之前,博弈方是可以觀察到以前博弈的結(jié)果的)。,子博弈: 從某個階段(不包括第一階段)開始,包括此后所有的重復(fù)博弈部分,2020/8/6,23,3 路徑: 是每個階段博弈結(jié)果(原博弈的一個策略組合)連接而成。對于具有n個策略組合的原博弈,重復(fù)T次的路徑數(shù)為nT,重復(fù)博弈的求解即找出具有穩(wěn)定性的均衡路徑。 4 得益:不同于一般

12、的動態(tài)博弈,重復(fù)博弈的得益為各個階段得益的加總??紤]到時間的價值,需要引進(jìn)“貼現(xiàn)系數(shù)”將未來的得益折算成當(dāng)期得益的價值。,4.1.2 有限次重復(fù)博弈的概念,2020/8/6,24,第二節(jié) 有限次重復(fù)博弈,有限次重復(fù)的猜硬幣博弈原博弈為零和博弈 有限次重復(fù)的囚徒困境博弈原博弈有唯一的純策略納什均衡 有多個納什均衡的重復(fù)博弈的策略設(shè)計觸發(fā)策略 有多個納什均衡重復(fù)博弈的得益范圍民間定理,2020/8/6,25,在零和博弈中,雙方不存在合作的可能性,因此在長期進(jìn)行的重復(fù)博弈中,子博弈完美納什均衡由各個階段原博弈的納什均衡構(gòu)成(例,在猜硬幣博弈中以0.5的概率選擇正面或者反面,即采取混合策略)。 實際上

13、,所有以零和博弈為原博弈所構(gòu)成的重復(fù)博弈與猜硬幣博弈構(gòu)成的重復(fù)博弈一樣,各博弈方的正確策略就是在每次重復(fù)中都采用一次性博弈中的納什均衡策略。,4.2.1 有限次重復(fù)的猜硬幣博弈,2020/8/6,26,4.2.2 有限次重復(fù)的囚徒困境博弈,圖41 囚徒困境 求解思路:對于有限次重復(fù)囚徒困境博弈,根據(jù)動態(tài)博弈的逆推歸納法可以求解。,坦白,不坦白,坦白 不坦白,2020/8/6,27,4.2.2 有限次重復(fù)的囚徒困境博弈,以兩階段(以該博弈作為原博弈G重復(fù)兩次)為 例:分析最后一階段,子博弈即為原博弈,唯一的 均衡為(5,5);分析第一階段,將最后階段 的收益(5)添加到第一階段的矩陣中,即: 此

14、時,博弈的納什均衡仍是(坦白,坦白)。,坦白 不坦白,坦白,不坦白,2020/8/6,28,結(jié)論: 在有限次重復(fù)博弈G(T)中,如果原博弈G存在唯一的純策略納什均衡組合,則重復(fù)博弈的唯一的子博弈完美納什均衡解為各博弈方在每階段都采取的原博弈納什均衡策略。 含義:在原博弈具有唯一均衡的有限次重復(fù)博弈中,由于完全理性的博弈方具有“共同知識”的分析推理能力,因此在從最后階段開始的逆推過程中,仍然無法擺脫囚徒困境。,4.2.2 有限次重復(fù)的囚徒困境博弈,2020/8/6,29,4.2.2 有限次重復(fù)的囚徒困境博弈,如果原博弈存在唯一的純策略納什均衡組合,則有限次重復(fù)博弈的唯一的均衡解即各博弈方在每階段

15、(即每次重復(fù))中都采用原博弈的納什均衡策略。由于在這樣的雙方策略下,均衡路徑中的每個階段都不存在不可信的威脅或許諾,因此這種均衡是子博弈完美納什均衡。,2020/8/6,30,4.2.2 有限次重復(fù)的囚徒困境博弈,定理 設(shè)原博弈G有唯一的純策略納什均衡,則對任意正整數(shù)T,重復(fù)博弈G(T)有唯一的子博弈完美的解,即各博弈方每個階段都采用G的納什均衡策略。各博弈方在G(T)中的總得益為在G中得益的T倍,平均每階段得益等于原博弈G中的得益。,有限次重復(fù)削價競爭博弈,有唯一純策略納什均衡 (70,70)有限次重復(fù)的結(jié)果仍然是 (低價,低價),4.2.2 有限次重復(fù)的囚徒困境博弈,2020/8/6,32

16、,4.2.3 有兩個納什均衡的重復(fù)博弈,例 兩個廠商1和2,同時 面臨兩個市場機(jī)會A和B。假 設(shè)每個廠商都只有能力選擇 一市場發(fā)展,即他們的可選 擇策略都是A或B,其得益矩 陣如圖所示。 此博弈具有2個純策略納什均衡(1,4)、 (4,1)和混合策略納什均衡概率(0.5,0.5)。,A B,圖42 兩廠商差別市場博弈,兩市場博弈的重復(fù)博弈(重復(fù)兩次),(A,B)+(A,B) OR (B,A)+(B,A)(1,4)(4,1) 連續(xù)兩次采用混合策略(2,2) (A,B)+(B,A) OR (B,A)+(A,B)(2.2,2.5)輪換策略 一次純策略+一次混合策略(1.5,3)(3,1.5),4.2

17、.3 有兩個納什均衡的重復(fù)博弈,圖42 兩廠商差別市場博弈,重復(fù)博弈不同策略、均衡及一次性博弈得益比較,不同策略組合、均衡得益圖示,4.2.3 有兩個納什均衡的重復(fù)博弈,2020/8/6,35,考慮三次重復(fù)博弈各策略組合子博弈納什均衡路徑: 1.由原博弈的納什均衡組合而成的路徑,如采取輪換策略(在上述的協(xié)調(diào)博弈中,雙方輪換采取純納什均衡策略,路徑為(A,B),(B,A),(A,B).不考慮時間的價值(貼現(xiàn)系數(shù)),每階段的平均得益為(41)/2 2.5,高于混合策略的得益2。 2.觸發(fā)策略,博弈方首先采取合作行為,如果發(fā)現(xiàn)對方?jīng)]有進(jìn)行合作,那么在后續(xù)階段的博弈中采取不合作策略進(jìn)行懲罰。,4.2.

18、3 有兩個納什均衡的重復(fù)博弈,兩市場博弈的重復(fù)博弈(重復(fù)三次),2020/8/6,36,在圖42中,觸發(fā)策略的設(shè)計為: (1)博弈方1的策略是第一階段合作A,如果發(fā)現(xiàn)對方采取B不合作,則第二階段采取不合作的B策略懲罰,否則第二階段繼續(xù)合作;第三階段無條件采取B策略。 (2)博弈方2的策略是第一階段合作A,如果發(fā)現(xiàn)對方采取B不合作,則后續(xù)兩個階段一直采取不合作的B策略;如果發(fā)現(xiàn)對方采取合作A,則第二階段采取不合作B,第三階段采取合作A。,4.2.3 有兩個納什均衡的重復(fù)博弈,2020/8/6,37,策略設(shè)計分析: (1)在博弈方1和2中,在第一階段都采取了合作行為A,并針對對方的不合作行為B,都

19、設(shè)計了在后續(xù)2個階段采取不合作B的相應(yīng)懲罰措施; (2)如果對方在第一階段中采取了合作行為,在后續(xù)階段的策略設(shè)計中要保證博弈結(jié)局具有穩(wěn)健性。因此,針對第一階段的合作行為,后續(xù)階段的策略設(shè)計是為了實現(xiàn)雙方的行動協(xié)調(diào),以保證實現(xiàn)納什均衡(B,A)或(A,B)。,4.2.3 有兩個納什均衡的重復(fù)博弈,2020/8/6,38,結(jié)果分析: 子博弈路徑(A,A),(A,B),(B,A)為子博弈納什均衡。 因為后續(xù)兩階段的結(jié)局(A,B)和(B,A)為納什均衡,而第一階段的合作結(jié)局(A,A)是由于觸發(fā)策略針對對方偏離合作的行為設(shè)計了后續(xù)兩階段都不合作的懲罰措施,其單方面偏離的路徑(B,A)(B,B)(B,B)

20、收益并不增加,因此不存在偏離的動機(jī)。,4.2.3 有兩個納什均衡的重復(fù)博弈,2020/8/6,39,問題的提出:由于具有多個納什均衡的重復(fù)博弈可以設(shè)計多種策略,在雙方缺乏溝通的情況下,結(jié)局具有不確定性。因此,這里討論具有多個納什均衡的重復(fù)博弈可以實現(xiàn)的收益范圍。 個體理性得益:不管對方采取何種行動,只要自己采取某種特定的策略,最低限度保證能獲得的得益,或稱為保留得益(1,1)。 可實現(xiàn)得益:各純策略組合得益的加權(quán)平均數(shù)組。注意:并非一定是均衡策略的組合得益,因此在圖42中,(3,3)也是可實現(xiàn)得益。,4.2.4 民間定理,2020/8/6,40,4.2.4 民間定理,用wi記博弈方i在一次性博

21、弈中最差的均衡得益,用w記各博弈方的wi構(gòu)成的得益數(shù)組。結(jié)合“個體理性得益”和“可實現(xiàn)得益”,則有限但次數(shù)很多的重復(fù)博弈有如下民間定理: 定理:將一次性博弈中最差的均衡得益數(shù)組記為w,如果原博弈G的一次性博弈有均衡得益數(shù)組優(yōu)于w,那么在有限次重復(fù)博弈G(T)中,所有不小于個體理性得益的可實現(xiàn)得益都至少有一個子博弈完美納什均衡的平均得益來實現(xiàn)它們。,2020/8/6,41,在圖4-2一次性博弈中,博弈方均衡得益分別為純策略的得益(1,4),(4,1)和混合策略的得益(2,2),最差的均衡得益數(shù)組為w=(1,1)。 圖4-3 民間定理,4.2.4 民間定理,2020/8/6,42,在圖4-3中,通

22、過不同得益的組合,陰影部分(包括連線)的得益都是可實現(xiàn)得益。 民間定理揭示出:在有限次重復(fù)博弈中,可以通過設(shè)計觸發(fā)策略來實現(xiàn)(或者逼近)陰影部分的得益。,4.2.4 民間定理,2020/8/6,43,定理分析:民間定理表明,在具有多個納什均衡的有限次重復(fù)博弈中,通過設(shè)計具有可信威脅的觸發(fā)策略(即在第一階段采取合作行為,當(dāng)對方不合作時通過在后續(xù)階段采取相應(yīng)的不合作策略進(jìn)行懲罰;當(dāng)對方合作時,在最后階段采取一次性原博弈的納什均衡策略作為穩(wěn)定的結(jié)局。),可以使得博弈方在重復(fù)博弈的過程中具有了一定學(xué)習(xí)能力,從而達(dá)到博弈的帕累托前沿得益。,4.2.4 民間定理,2020/8/6,44,例(兩人各三種可選

23、策略): L M R L M R 圖44多種策略博弈的重復(fù)博弈 該博弈具有兩個純策略納什均衡和一個混合策略納什均衡,但是雙方存在一個更好的得益(4,4)。對于二次重復(fù)博弈,根據(jù)民間定理可以設(shè)計一個觸發(fā)策略來實現(xiàn)這個得益。,4.2.4 民間定理,2020/8/6,45,觸發(fā)策略:博弈方1在第一階段采取M策略,如果對方合作,則第二階段采取R策略作為獎勵;否則第二階段采取L策略進(jìn)行懲罰(注意(L,L)也是納什均衡,因此具有穩(wěn)定性)。博弈方2也采取同樣策略。 策略分析:如果任何一方在第一階段偏離,僅僅多獲得541單位得益,而在第二階段的得益(L,L)僅僅為1;如果在第一階段合作,第二階段的得益為3。因

24、此雙方不存在偏離該策略的動機(jī)。,4.2.4 民間定理,2020/8/6,46,例(雙方各五種可選策略重復(fù)博弈): L M R P Q L M R P Q 圖45雙方各五種可選策略重復(fù)博弈,4.2.4 民間定理,2020/8/6,47,該博弈具有4個純策略納什均衡,在二次重復(fù)博弈中,觸發(fā)策略設(shè)計:第一階段雙方采取(M,M)策略,如果博弈方1偏離此策略,那么第二階段采取(Q,Q)策略對博弈方1進(jìn)行懲罰,對博弈方2進(jìn)行獎勵;同理,如果博弈方2偏離了此策略,那么采取(P,P)策略對博弈方2進(jìn)行懲罰,對博弈方1進(jìn)行獎勵。如果雙方都沒有偏離,那么第二階段采取具有較高收益的納什均衡(R,R)策略。如果雙方都

25、偏離了此策略,第二階段同樣采取納什均衡的(R,R)策略。,4.2.4 民間定理,2020/8/6,48,策略分析:與圖44例子相比較,由于博弈的特殊結(jié)構(gòu),這個觸發(fā)策略的設(shè)計對偏離行為和合作行為分別進(jìn)行懲罰和獎勵,因此策略具有很強(qiáng)的可信性。而在圖4-4例子中,針對對方的偏離行為采取了(L,L)策略進(jìn)行懲罰,但是懲罰對方的同時,自身的利益也受到了損害,因此可信性不強(qiáng)。,4.2.4 民間定理,2020/8/6,49,第三節(jié) 無限次重復(fù)博弈,在有限次重復(fù)博弈中, (1)由于完全理性的博弈方可以運用逆推歸納法,因此對于原博弈具有唯一納什均衡(如囚徒困境博弈)的有限次重復(fù)博弈,重復(fù)博弈結(jié)局尚無法擺脫囚徒困

26、境; (2)但是對于原博弈具有多個納什均衡的有限次重復(fù)博弈,根據(jù)民間定理可以設(shè)計出具有可信威脅的觸發(fā)策略,達(dá)到帕累托最優(yōu)的博弈結(jié)局。,2020/8/6,50,第三節(jié) 無限次重復(fù)博弈,在本節(jié)的無限次重復(fù)博弈中,由于無法運用逆推歸納法,因此對于原博弈具有唯一納什均衡(如囚徒困境博弈)的無限次重復(fù)博弈,考慮到時間的價值后,也可以設(shè)計出具有可信威脅的觸發(fā)策略,擺脫囚徒困境,達(dá)到帕累托最優(yōu)的博弈結(jié)局。,2020年8月6日,博弈論第六章 重復(fù)博弈的類型,51,第三節(jié) 無限次重復(fù)博弈,(一)案例分析 1.案例:網(wǎng)上書店的價格大戰(zhàn),當(dāng) 當(dāng) 低價 高價 低價 卓 越 高價,2020年8月6日,博弈論第六章 重復(fù)

27、博弈的類型,52,第三節(jié) 無限次重復(fù)博弈,(一)案例分析 2.一次博弈的納什均衡 (打折,打折),囚徒困境 3.引入重復(fù)博弈:價格大戰(zhàn)/周次 (1)假定:初始狀態(tài) (高價,高價)合作 3.引入重復(fù)博弈:價格大戰(zhàn)/周次 (2)第二周:if“當(dāng)當(dāng)”背叛 低價,56 (3)第三周:卓越報復(fù),永遠(yuǎn)低價 “當(dāng)當(dāng)”,63,永遠(yuǎn)3 (4)結(jié)果:合作(高價,高價),(二)案例分析,曾經(jīng)有個乞丐小孩,面對他人施舍只要1元,而不要10元。 因“傻”而出名,結(jié)果不斷有人聞訊前來試驗,每次都發(fā)現(xiàn)小孩真的“傻”。,為什么要1元而不要10元,小乞丐面臨的是一個長期重復(fù)博弈: 單期中,對他來說最好選擇10元而放棄1元 一旦

28、接受了10元就不會再有人出于好奇給他1元。所以,如果貪眼前小財而卻會損失后面細(xì)水長流的許許多多1元。 乞丐通過“裝傻”的策略性行為,樹立起“傻”的聲譽(yù),獲得長期接受他人施舍的好處,長期關(guān)系對博弈的重要影響,第三節(jié) 無限次重復(fù)博弈,2020/8/6,54,4.3.1 幾個概念,無限次重復(fù)博弈求解存在的問題:(1)由于不存在最后一個階段,無法運用逆推歸納法求解;(2)如果不考慮時間的價值,在無限次重復(fù)加總過程中,幾乎所有子博弈路徑的總得益都為無窮大,因此無法比較不同路徑的優(yōu)劣。 解決方法:考慮到時間的價值,人們更為注重近期的得益,引入貼現(xiàn)系數(shù) ,將未來階段的收益折算到當(dāng)期階段。這樣在無限次重復(fù)博弈

29、中,總收益值將是一個有限數(shù),可以加以比較。,2020/8/6,55,貼現(xiàn)系數(shù): 1/(1+),其中為以一階段為期限的市場利率。 給定貼現(xiàn)系數(shù),若無限次重復(fù)博弈一路徑的某博弈方各階段的收益為 ,則該博弈方在該無限次重復(fù)博弈中的總收益為各階段博弈中得益的“現(xiàn)在值”:,4.3.1 幾個概念,2020/8/6,56,4.3.1 幾個概念,定義:給定一博弈G,無限次重復(fù)進(jìn)行G博弈的過程稱為G的“無限次重復(fù)博弈”,記為G(,),其中是各博弈方得益共同的貼現(xiàn)系數(shù)。并且,對任意的t,在進(jìn)行第t階段(第t次重復(fù))博弈之前,所有博弈方都能看到前(t1)階段博弈的結(jié)果。各博弈方在G(,)中的“得益”等于各階段得益的

30、現(xiàn)在值。,2020/8/6,57,4.3.2 無限次重復(fù)的囚徒困境博弈,在有限次重復(fù)囚徒困境博弈中, 雙方采取背叛策略(L,L)將是 唯一的子博弈完美均衡路徑。 現(xiàn)在分析無限次重復(fù)博弈中, 觸發(fā)策略是否會帶來更好的結(jié)局? 觸發(fā)策略:雙方在第一階段采取合作的策略R,如果前(t1)都是合作,那么繼續(xù)合作;否則,如果對方背叛,則在后續(xù)階段一直采取背叛策略L作為懲罰。,L R,L R,圖46,2020/8/6,58,策略分析: 如果一方背叛,那么其路徑(L,R),(L,L),(L,L).的總收益為: 如果一方一直采取合作策略,那么總收益為: 當(dāng)滿足條件 時,博弈方采取合作 策略將獲得更大的總收益,求解

31、可得:,4.3.2 無限次重復(fù)的囚徒困境博弈,2020/8/6,59,4.3.2 無限次重復(fù)的囚徒困境博弈,結(jié)論:在原博弈具有唯一納什均衡的無限次重復(fù)博弈中,在滿足一定條件下 ,采取觸發(fā)策略可以擺脫囚徒困境。這個條件表明貼現(xiàn)系數(shù)較大,博弈方比較看重未來階段的收益。直觀上看,當(dāng)博弈方注重長期利益時,通過采取觸發(fā)策略可以實現(xiàn)長期合作的圓滿結(jié)局。,2020/8/6,60,4.3.3 無限次重復(fù)博弈的民間定理,本節(jié)介紹無限次重復(fù)博弈的一個基本結(jié)論,為此先介紹“無限次重復(fù)博弈的平均得益”概念,“可實現(xiàn)得益”概念已經(jīng)在4.2.4節(jié)加以介紹。 可實現(xiàn)得益:階段博弈各種純策略組合得益的加權(quán)平均所構(gòu)成的得益數(shù)組

32、,其中權(quán)數(shù)非負(fù)且總合為1,記為 。,2020/8/6,61,在圖46的囚徒困境例子中,圖47陰影部 分即為可實現(xiàn)得益。 圖47 可實現(xiàn)得益,4.3.3 無限次重復(fù)博弈的民間定理,2020/8/6,62,無限次重復(fù)博弈平均得益的定義:如果有一常數(shù),它作為一無限次重復(fù)博弈每個階段的得益能產(chǎn)生與該博弈無限次重復(fù)中某博弈方的無窮得益數(shù)列1,2,相同的貼現(xiàn)值,則稱為1,2,的平均得益。,4.3.3 無限次重復(fù)博弈的民間定理,2020/8/6,63,4.3.3 無限次重復(fù)博弈的民間定理,平均得益的計算: 給定貼現(xiàn)系數(shù),每階段得益都為時,無限次重復(fù)博弈的貼現(xiàn)值為: 如果每階段的得益為1,2,,無限次重復(fù)博弈

33、的貼現(xiàn)值為: 兩式聯(lián)立,可以解得:,2020/8/6,64,無限次重復(fù)博弈的民間定理:設(shè)G是一個完全信息的靜態(tài)博弈,其一個納什均衡的得益記為(e1,en),其可實現(xiàn)得益記為( x1,xn )。如果對于任意博弈方i都有xi ei,并且足夠接近于1,那么無限次重復(fù)博弈G(,)一定存在一個子博弈完美納什均衡路徑,能實現(xiàn)大小為( x1,xn )的重復(fù)博弈中各博弈方平均得益。,4.3.3 無限次重復(fù)博弈的民間定理,2020/8/6,65,幾點說明: 1.定理表明,以得益較低的納什均衡(e1,en)作為可信的威脅,無限次重復(fù)博弈中可以實現(xiàn)更好的收益( x1,xn )。 由于對于任意博弈方i都有xi ei,

34、因此這個得益是帕累托改進(jìn)的。 2.定理的條件為足夠接近于1,即博弈方都比較看重未來長期合作的得益,因此避免了短期行為。 3.不同于有限次重復(fù)博弈的民間定理,這里并不要求原博弈具有多個納什均衡。,4.3.3 無限次重復(fù)博弈的民間定理,2020/8/6,66,圖例分析:原博弈為 圖46的囚徒困境博 弈,在菱形區(qū)域的可 實現(xiàn)得益區(qū)間中,只 有陰影部分才滿足對 于任意博弈方i都有 xi ei的帕累托改進(jìn) 條件,因此,當(dāng)足夠 大時,無限次重復(fù)博弈 總有一個路徑實現(xiàn)陰影部分的收益。,4.3.3 無限次重復(fù)博弈的民間定理,圖48,2020/8/6,67,回憶靜態(tài)博弈的古諾模型: (1)市場總產(chǎn)量為Qq1+q

35、2,兩廠商的策略是制 定各自的產(chǎn)量q1和q2,市場需求函數(shù)為P(Q)=8Q, 廠商無固定成本,邊際成本為2,求解納什均衡策 略?根據(jù)利潤最大化原則,廠商1和2的利潤函數(shù): u1P(Q)q1C q1 q18(q1q2)2 q16 q1 q1 q2 q12 u2P(Q)q2C1 q2 q28(q1q2) 2 q26 q2 q1 q2 q22 對利潤函數(shù)求導(dǎo),得最大值:,4.3.4 無限次重復(fù)博弈的古諾模型,2020/8/6,68,聯(lián)立解得,雙方均衡產(chǎn)量(古諾產(chǎn)量):q2* q1*2,雙方各自利潤分別為: u1 u24。 (2)如果兩廠商合謀,在市場上形成一個壟斷廠 商,追求總利潤的最大化: U=

36、P(Q)QCQ Q(8Q)2Q6QQ2 求導(dǎo)得:最大的總產(chǎn)量Q*3,最大的總利潤 u*=9,每個廠商的平均產(chǎn)量為1.5,平均利潤為u1 u24.5,大于不合作情況下古諾產(chǎn)量的利潤4。,4.3.4 無限次重復(fù)博弈的古諾模型,2020/8/6,69,下面分析無限次重復(fù)博弈古諾模型的3個策略。 觸發(fā)策略1:第一階段各自生產(chǎn)壟斷產(chǎn)量1.5,如果雙方在前(t1)階段都進(jìn)行合作,保持了壟斷產(chǎn)量(1.5,1.5),那么第t階段繼續(xù)合作;否則生產(chǎn)具有較低收益的作為納什均衡的古諾產(chǎn)量2。,4.3.4 無限次重復(fù)博弈的古諾模型,2020/8/6,70,策略1分析: 如果雙方一直保持合作,則每階段的壟斷收益都為4.

37、5,因此總收益: 4.5(12)4.5/(1) (1) 如果一方在第一階段偏離合作,其應(yīng)在對方采取壟斷產(chǎn)量1.5情況下,采取使其利潤最大化的產(chǎn)量,即: max(81.5q2)q22q2max(4.5q2).q2 解得q22.25,此時利潤 u max(4.5q2).q25.0625;,4.3.4 無限次重復(fù)博弈的古諾模型,2020/8/6,71,無限次重復(fù)博弈的古諾模型,但是在后續(xù)階段中只能得到古諾產(chǎn)量下的利潤 4,因此總收益: 5.06254(2)5.06254/(1) (2) 如果得益滿足(1)(2),觸發(fā)策略下保持合 作的壟斷產(chǎn)量將構(gòu)成子博弈完美納什均衡,可以解 得:9/17,2020/

38、8/6,72,關(guān)于觸發(fā)策略的更一般結(jié)論:在觸發(fā)策略1中,如果滿足條件9/17,博弈方可以通過古諾產(chǎn)量作為威脅,迫使對方合作達(dá)成帕累托最優(yōu)的壟斷產(chǎn)量。但是,如果為了達(dá)到其它利潤較低的可實現(xiàn)得益,相應(yīng)的貼現(xiàn)系數(shù)要求是否可以降低(即博弈方是否可以不那么看重未來長期利益)?下面討論兩者之間的關(guān)系。 觸發(fā)策略2:第一階段生產(chǎn)q*,如果前(t1)階段結(jié)局都是(q*,q*),那么繼續(xù)生產(chǎn)q* ,否則采取納什均衡的古諾產(chǎn)量2。,4.3.4 無限次重復(fù)博弈的古諾模型,2020/8/6,73,策略2分析: 如果雙方一直合作,利潤: *(82q*)q*2q* (62q*)q* 總得益: (62q*)q*(12) (

39、62q*)q* /(1) (3) 如果一方在第一階段偏離合作,其應(yīng)在對方采 取q*產(chǎn)量的情況下,采取使其利潤最大化的產(chǎn)量, 即:max(8q*q2)q22q2, 對q2求導(dǎo)解得 q2 (6q*) /2,此時利潤u (6q*)2 /4;,4.3.4 無限次重復(fù)博弈的古諾模型,2020/8/6,74,4.3.4 無限次重復(fù)博弈的古諾模型,但是在后續(xù)階段中只能得到古諾產(chǎn)量下的利潤 4,因此總收益: (6q*)2/4 4(2) (6q*)2/4 4/(1) (4) 如果得益滿足(3)(4),觸發(fā)策略下 保持合作的產(chǎn)量q*將構(gòu)成子博弈完美納什均衡, 可以解得: q*2(95)/(9),2020/8/6,

40、75,結(jié)論:對于不同的貼現(xiàn)系數(shù),無限次重復(fù)博弈的古諾模型可以相應(yīng)的實現(xiàn)不同的可實現(xiàn)得益,兩者之間的關(guān)系為 q*2(95)/(9) 其中,當(dāng)9/17 時,q*1.5,即為觸發(fā)策略1; 當(dāng)0 時,q*2,即為一次性博弈中納什均衡的古諾產(chǎn)量。,4.3.4 無限次重復(fù)博弈的古諾模型,2020/8/6,76,一種胡蘿卜加大棒的策略3:第一階段雙方生產(chǎn)壟斷產(chǎn)量1.5,如果在第(t1)階段結(jié)果為(1.5,1.5),沒有發(fā)生偏離,則繼續(xù)保持合作;如果雙方同時偏離并產(chǎn)量相等,也既往不咎,繼續(xù)保持壟斷產(chǎn)量1.5;如果對方單方面偏離,則采取懲罰性的高產(chǎn)量x。,4.3.4 無限次重復(fù)博弈的古諾模型,2020/8/6,

41、77,4.3.4 無限次重復(fù)博弈的古諾模型,策略3分析:如果一方在第一階段中偏離壟斷產(chǎn)量,其應(yīng)在對方采取壟斷產(chǎn)量1.5情況下,采取使其利潤最大化的產(chǎn)量,即: max(81.5q2)q22q2max(4.5q2).q2 解得q22.25,此時利潤 u max(4.5q2).q25.0625; 相對于合作壟斷產(chǎn)量(1.5,1.5)的得益4.5,第一階段偏離后得益的增加值為: 5.06254.50.5625 (5),2020/8/6,78,這一偏離行為在第二階段中將面臨著來自對方的懲罰性高產(chǎn)量x。根據(jù)策略設(shè)計,如果在第二階段也采取同樣的產(chǎn)量x,那么在第三階段以后將繼續(xù)保持合作壟斷的結(jié)局。因此,第二階

42、段也采取懲罰性高產(chǎn)量x,此階段得益為: (82x)x2x 6x2x2。,4.3.4 無限次重復(fù)博弈的古諾模型,2020/8/6,79,4.3.4 無限次重復(fù)博弈的古諾模型,相對于合作壟斷產(chǎn)量的得益4.5,考慮貼現(xiàn)系數(shù)后,此階段的得益損失為: (4.5 6x2x2) (6) 當(dāng)?shù)靡鏉M足(5)(6)時,保持合作的壟斷產(chǎn)量將構(gòu)成子博弈完美納什均衡,解得: 0.5625/(4.5 6x2x2),2020/8/6,80,結(jié)論:上式表明,博弈方是否采取偏離行為,不僅與貼現(xiàn)系數(shù)有關(guān),而且與懲罰性產(chǎn)量x的大小有關(guān)。當(dāng)0.5時,只有滿足x 2.25才能保證博弈方不發(fā)生偏離。 注意:由于納什均衡的古諾產(chǎn)量為2,因

43、此 x2.25高于納什均衡產(chǎn)量,故稱為懲罰性高產(chǎn)量。,4.3.4 無限次重復(fù)博弈的古諾模型,2020/8/6,81,比較策略2和策略3: 策略2表明了在無限次重復(fù)博弈的古諾模型中,采 取觸發(fā)策略下雙方是否能夠達(dá)成合作的壟斷產(chǎn)量, 取決于貼現(xiàn)系數(shù)和可實現(xiàn)得益的相應(yīng)產(chǎn)量q,兩者 之間存在替代關(guān)系,即 q*2(95)/(9) 。 策略3表明了采取胡蘿卜加大棒策略下雙方是否能 夠達(dá)成合作的壟斷產(chǎn)量,取決于貼現(xiàn)系數(shù)和“大棒” 的懲罰力度,兩者之間也存在替代關(guān)系(即,加大 懲罰力度x可以相應(yīng)的降低貼現(xiàn)系數(shù)), 0.5625/(4.5 6x2x2)。,4.3.4 無限次重復(fù)博弈的古諾模型,2020/8/6,82,兩寡頭削價競爭博弈,4.3.4 無限次重復(fù)博弈的古諾模型,2020/8/6,83,問題提出:廠商提供較高的工資w,可以促進(jìn)工人努力工作,但是也增加了成本,因此需要確定一個適當(dāng)?shù)墓べY率;工人根據(jù)自己的能力決定拒絕或接受這個工資水平。如果工人接受工作,可以選擇努力工作或者偷懶。,4.3.5 無限次重復(fù)博弈的效率工資模型,2020/8/6,84,原博弈的結(jié)構(gòu)(原博弈為一個兩階段動態(tài)博弈):,4.3.5 無限次重復(fù)博弈的效率工資模型,2020/8/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論