博弈論初步 高級管理學講義_第1頁
博弈論初步 高級管理學講義_第2頁
博弈論初步 高級管理學講義_第3頁
博弈論初步 高級管理學講義_第4頁
博弈論初步 高級管理學講義_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《高級管理學》

第九講博弈論初步1/19/20231SchoolofEconomics&Management,TongjiUniversity1囚徒困境和納什均衡

囚徒困境(prisoners’dilemma)博弈論的著名的例子,納什均衡是博弈論的重要概念。囚徒困境說的是,兩個嫌疑犯作案后被捕,起訴機構(gòu)沒有足夠的證據(jù)證明他們搶劫了銀行。所以,若犯人們不坦白,起訴者只能就非法持有武器罪起訴,判犯人有期徒刑2年。起訴者于是向犯人采取攻心戰(zhàn),說可以“坦白從寬、抗拒從嚴”。如果一人坦白,則坦白者從寬處理,判徒刑1年,抗拒者從嚴處理,判徒刑12年。如果兩人都坦白,每人依法判徒刑10年。兩個囚徒是坦白還是不坦白呢?1/19/20232SchoolofEconomics&Management,TongjiUniversity1.1囚徒困境1/19/20233SchoolofEconomics&Management,TongjiUniversity1.2博弈均衡博弈論假設(shè)博弈的參加者都是理性的,即在對手戰(zhàn)略給定的條件下,每個參加者都會選擇適當?shù)膽?zhàn)略來實現(xiàn)自己報酬的最大化(或損失最小化)。問題是博弈的一方不能控制另一方的決策。當參加者甲以最優(yōu)戰(zhàn)略對付乙的某個戰(zhàn)略時,乙會發(fā)現(xiàn)原先的戰(zhàn)略不是對付甲的實際戰(zhàn)略的最佳戰(zhàn)略,因而會改變其戰(zhàn)略。要是乙改變了戰(zhàn)略,參加者甲也要進行相應的改變。這樣的改變行為會否停止?這里借用經(jīng)濟學常用的均衡概念,我們把博弈的穩(wěn)定結(jié)果稱為均衡,博弈的均衡也稱為博弈的解。均衡是指所有的參加者都不想改變戰(zhàn)略的狀態(tài)。

1/19/20234SchoolofEconomics&Management,TongjiUniversity1.3占優(yōu)均衡在一些特殊的博弈中,一個參加者的最優(yōu)戰(zhàn)略可能并不依賴于其他參加者的戰(zhàn)略選擇,也就是說,不論其他參加者選擇什么戰(zhàn)略,他的最優(yōu)戰(zhàn)略是唯一的,這樣的最優(yōu)戰(zhàn)略被稱為“占優(yōu)戰(zhàn)略”(dominantstrategy)。在上述的囚徒困境博弈中,每個囚徒可選擇的戰(zhàn)略有兩種:坦白與不坦白。顯然,不論另外一個囚犯選擇什么戰(zhàn)略,每個囚犯的最優(yōu)戰(zhàn)略都是“坦白”。例如,如果乙選擇坦白,囚犯甲選擇坦白時的報酬為-10,選擇不坦白的報酬為-12,因而坦白比不坦白好;如果乙選擇不坦白,甲坦白的報酬為-1,不坦白的報酬為-2,所以坦白還是比不坦白好。也就是說,“坦白”是囚犯甲的占優(yōu)戰(zhàn)略。由于對稱性,“坦白”也是囚犯乙的占優(yōu)戰(zhàn)略。于是,(坦白,坦白)或(-10,-10)是囚徒困境博弈的占優(yōu)均衡。

1/19/20235SchoolofEconomics&Management,TongjiUniversity個人理性與集體理性甲乙兩人都尋求最好的結(jié)果,而得到的卻是較糟的結(jié)果。這個例子說明,在多人決策的環(huán)境里,個人理性與集體理性經(jīng)常是矛盾的,這種集體利益和個人利益的之間的沖突被稱為“囚徒困境”。

1/19/20236SchoolofEconomics&Management,TongjiUniversity1.4納什均衡納什均衡是這樣一種穩(wěn)定狀態(tài),博弈的任何一方參加者都不會改變其戰(zhàn)略,如果其他參加者都不改變戰(zhàn)略的話。

依定義,任何占優(yōu)戰(zhàn)略均衡必定是納什均衡,但納什均衡卻不一定是占優(yōu)戰(zhàn)略均衡,占優(yōu)戰(zhàn)略均衡是比較強的均衡概念。囚徒困境中的(坦白,坦白)就是納什均衡。經(jīng)濟生活中的眾多集體利益和個人利益的之間的沖突帶來的非帕累托有效狀態(tài)都是納什均衡。1/19/20237SchoolofEconomics&Management,TongjiUniversity納什均衡(嚴格的定義)1/19/20238SchoolofEconomics&Management,TongjiUniversity完全信息靜態(tài)博弈的幾個著名博弈智豬博弈(boxedpigs)豬圈里有兩頭豬,一頭大豬,一頭小豬,豬圈的一頭有個豬食槽,另一頭安裝一個按鈕,控制著豬食的供應。按一下按鈕會有10單位的豬食進槽,但誰按按鈕誰就要付2個單位的成本。若大豬先到,大豬吃到9個單位,小豬只能吃1個單位;若同時到,大豬吃7個單位,小豬吃3個單位;若小豬先到,大豬吃6個單位,小豬吃4個單位。1/19/20239SchoolofEconomics&Management,TongjiUniversity標準型支付矩陣1/19/202310SchoolofEconomics&Management,TongjiUniversity性別戰(zhàn)(battleofthesexes)1/19/202311SchoolofEconomics&Management,TongjiUniversity市場進入阻撓博弈1/19/202312SchoolofEconomics&Management,TongjiUniversity2動態(tài)博弈靜態(tài)博弈,即博弈各方同時行動,但是經(jīng)濟生活中許多情形是動態(tài)博弈,也就是指博弈參加者的行動有先后順序,又叫序貫博弈。

1/19/202313SchoolofEconomics&Management,TongjiUniversity2.1完全信息動態(tài)博弈的分類博弈總的可以分為完全信息的博弈(即博弈參加者的收益函數(shù)是共同知識的博弈)和不完全信息博弈(博弈中的一些參加者不知道其它參加者的收益函數(shù))。完全信息動態(tài)博弈又分為完全且完美信息(completeandperfectinformation)的動態(tài)博弈和完全但不完美信息博弈兩類。前者是指在博弈進行的每一步當中,要選擇行動的參加者都知道這一步之前博弈進行的整個過程;后者是指在博弈的某些階段,要選擇行動的參加者并不知道在這一步之前博弈進行的整個過程

1/19/202314SchoolofEconomics&Management,TongjiUniversity2.2子博弈完美納什均衡(SPNE)一個子博弈是全部博弈的一部分,當全部博弈進行到任何一個階段,到此為止的進行過程已經(jīng)稱為博弈參加各方的共同知識,而其后尚未開始進行的部分就是一個子博弈。如果博弈參加者的戰(zhàn)略在每一子博弈中都構(gòu)成納什均衡,我們稱此納什均衡是子博弈完美納什均衡(subgameperfectNashequilibrium)(Selten,1965)。所有動態(tài)博弈的中心問題是可信任性,所以不可置信的威脅被研究較多,子博弈完美納什均衡(SPNE)是不含不可置信的威脅的。子博弈完美納什均衡可以用逆向歸納法(backwards-induction)找出

1/19/202315SchoolofEconomics&Management,TongjiUniversity幾種著名的動態(tài)博弈Stackelbeg模型Hotelling模型(地點模型)1/19/202316SchoolofEconomics&Management,TongjiUniversity3重復博弈:特殊的動態(tài)博弈同一博弈重復多次,稱為重復博弈(repeatedgame),,其中的每一次博弈稱為“階段博弈”(stagegame),事實上它是動態(tài)博弈的一種特殊情況。它的均衡狀況可能與一次性博弈不同,被研究最多的重復博弈還是囚徒困境博弈。

1/19/202317SchoolofEconomics&Management,TongjiUniversity例子:古諾產(chǎn)量博弈1/19/202318SchoolofEconomics&Management,TongjiUniversity作為囚徒困境的一個例子,其占優(yōu)戰(zhàn)略均衡的結(jié)局雙方都增加產(chǎn)量,它們的報酬各為900。如果它們能合作,共同壓縮產(chǎn)量,則可以實現(xiàn)各自1000的報酬。它們都想合作,但是又怕被欺騙,于是就此陷入“囚徒困境”。關(guān)鍵是在一次性博弈中,被欺騙之后就無法報復了,當然也無法建立公司的聲譽。重復博弈下的情形就會發(fā)生變化。因為博弈的其它參加者過去行動的歷史是可以觀測得到的,一個參加者可以使自己在某個階段博弈的戰(zhàn)略選擇依賴于其它參加者過去的行動歷史。這樣企業(yè)就可以報復和建立合作的聲譽,合作發(fā)生的原因在于公司的長遠利益。1/19/202319SchoolofEconomics&Management,TongjiUniversity在重復博弈里,參加者每個階段都得到一定的報酬,長期博弈就要把所有的各期報酬加總起來進行比較。這里引進一個指標:時間折扣率δ,數(shù)值等于明年的一元前相當于今年的金額,δ也稱為貼現(xiàn)因子。例如,明年的利潤為,折算到現(xiàn)在就是δ。熟悉財務(wù)的同學都知道這是貨幣的時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論