博弈論算法講義

上傳人：l*** IP屬地：天津上傳時間：2022-07-19 格式：DOCX 頁數(shù)：12 大?。?57.25KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩7頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、博弈論算法一、博弈的戰(zhàn)略式表述及納什均衡的定義在博弈論里，一個博弈可以用兩種不同的方式來表述：一種是戰(zhàn)略式表述(strategic form representation)，另一種是擴(kuò)展式表述(或譯為“展開式表述”)(extensive form representation)o 1 1 從分弈的角戰(zhàn)膈式表述?更適合于靜態(tài)博弈，而擴(kuò)展式表述更適合于討論動態(tài)博弈。戰(zhàn)略式表述又稱為標(biāo)準(zhǔn)式表述(normalform representation)o在這種表述中，所參與人同時選擇各自的戰(zhàn)略，所有參與人選擇的戰(zhàn)略一起決定每個參與人的支付。戰(zhàn)略式表述給出：1.博弈的參與人集合：i m,r = (1,2,

2、 ,n)o,n o,s ), i = 1,2, , n ok 2 n)代表戰(zhàn)略式表述博弈。每個參與人的戰(zhàn)略空間：S.,i = 1,2,I每個參與人的支付函數(shù)：七(七叩我們用 G = (S , , S ; u , 1 n 1 n例如在兩個寡頭產(chǎn)量博弈里，企業(yè)是參與人，產(chǎn)量是戰(zhàn)略空間，利潤是支付;戰(zhàn)略式表述博弈為:G = q 0, q 0；兀(q , q ),兀(q , q )j12112212這里q、丸別表示第7個企業(yè)的產(chǎn)量和利潤。1.2納什均衡的定義有n個參與人的戰(zhàn)略式表述博弈G = (% ,Sju，un)，戰(zhàn)略組合s* = 什均衡。如果對于每一個i、s；是給定其他參與人選擇S；. =；,

3、,S,S,(1.1),S；是一個納；,S*,S ；的情況下第個參與人 n的最優(yōu)戰(zhàn)略，即(1.2)(1.3) u (s*, s* ) u (s , s* ), Vs g S , Vii i -ii i -i i . J. . .或者用另一種表述方式，s；是下述最大化問題的解：s* g argmax u (s*,., s* , s , s* ,., s*), i = 1,2,., n ; s g Sii 1i-1 i i+1ni i來檢查一個特定的戰(zhàn)略組合是否是一個納什均衡。兩個嫌疑犯作案后補(bǔ)警察抓住，被分別關(guān)在不同的房間里審訊。警察知道兩人有罪，但缺乏足夠的證據(jù)定罪，除非兩人當(dāng)中至少有一個人坦

4、白。警察告訴每個人：如果兩個都不承認(rèn)，每個人都以輕微的犯罪判刑1年；如果兩人都坦白，各判刑8年；如果兩人中一個人坦白另一個人抵賴，坦白的釋放出去，抵賴的判刑10年。這樣，每一個嫌疑犯面臨四個可能的后果：獲釋(自己坦白同伙抵賴)被判刑1年(自己抵賴同伙也抵賴)；被判刑8年(自己坦白同伙也坦白)；被判刑10年(自己抵賴但同伙坦白)。囚徒困境囚犯B表1 坦白抵賴坦白 (-8,-8)(0,-10)囚犯A抵賴(-10,0)(-1,-1)在這個博弈中，每個囚徒都有兩種可選擇的戰(zhàn)略：坦白或抵賴。顯然，不論同伙選擇什么戰(zhàn)略，每個囚徒的最優(yōu)戰(zhàn)略是“坦白”，比如說，如果B選擇坦白，A選擇坦白時支付為-8

5、,選擇抵賴時的支付為-10，因而坦白比抵賴好；如果B選擇抵賴，A坦白時的支付為0，抵賴時的支付為-1，因而坦白還是比抵賴好。就是說，“坦白”是囚徒A的占優(yōu)戰(zhàn)略。類似的，“坦白”也是B的占優(yōu)戰(zhàn)略。在囚徒困境里，(坦白，坦白)是一個納什均衡，而(抵賴，抵賴)不是一個納什么均衡，因?yàn)榻o定同伙選擇抵賴，自己選擇抵賴時得外1，選擇坦白時得到0，因而抵賴不是自己的最優(yōu)戰(zhàn)略，類似的，(坦二抵賴殖陣胃對坦茴也不是納什均衡。2.1純零和對策矩陣對策也叫零和對策，是一類特殊的對策問題。在這類對策中，只有兩名局中人，每個局中人都只有有限個策略可供選擇。在任一純局勢下，兩個局中人的贏得之和總是等于零，即雙方

6、和利益是激烈對抗的。設(shè)局中人I、II的策略集分別為： TOC o 1-5 h z HYPERLINK l bookmark29 o Current Document S =a , ,a , S =p , , p (2,1)11 m 21 n當(dāng)局中人I選定策略.和局中人II選定策略七后，就形成了一個局勢(氣,P ?，可見這樣的局勢共有 mn個，對任一局勢(氣，p，記局中人I的贏得值為七，并稱aaaaaaA =21222na a： a：1 C Am1m 2 . . . mn為局中人I贏得矩陣(或?yàn)榫种腥薎I的支付矩陣)。由于假定對策為零和的，故局中人II的贏得矩陣就是A。當(dāng)局中人I、II和策略集

7、S1、S2及局中人I的贏得矩陣A確定后，一個零和對策就給定了，零和對策又可稱為矩陣對策，并可簡記成：G = SS2; A雙方都應(yīng)考慮到對方有使自己損失最大的動機(jī)。定義1鞍點(diǎn)設(shè)/3 y)為一個定義在工e A及e B上的實(shí)值函數(shù)，如果存在了* G A, y* G B使得一切X e A和 G B，有f (x, y*) f (x*, y*) f (x*, y)(2.2)則稱(x*, y*)為函數(shù)f的一個鞍點(diǎn)。Mathematica畫圖說明鞍點(diǎn)定義2贏得矩陣的鞍點(diǎn)設(shè)G = s ,S ; a為矩陣對策，其中S=a,a ,a,S =p,p , ,p,A =(a)。若等式12112 m 212 nij nx

8、mmax min a = min max a = a(23)i j ij j i iji* j*( . )成立，記匕二%*，則稱匕為對策G的值，使(2.3)式成.立的純局勢(a.*，p為對策G鞍點(diǎn)或穩(wěn)定解，贏得矩陣中與%*，p相對應(yīng)的元素ai*廣稱為贏得矩陣的鞍點(diǎn)，a i*和七*分別稱為局中人I與II的最優(yōu)純策略。定理1極大極小原理設(shè)G = S ,S ;A，記日=maxmina，v= minmaxa，則必有p+v 0, i = 1, ,m;1mis* = (y , , y )T I y 0, j = 1, ,n; TOC o 1-5 h z 1nj定義4混合策略對策問題的鞍點(diǎn)(2.4)(2

9、.5)若存在m維概率向量x和n維向量y，使得對一切m維向量x和n維向量y有 xt Ay = max xt Ay = min xTAy_ _xy則稱(x, y)為混合策略對策問題的鞍點(diǎn)。定理3鞍點(diǎn)的判定設(shè)X e S * , y e S *，則(x, y)為G = s , s ；A的解的充要條件是： 1212V工 a y xTAy, i = 1,2, , m 廣1 j j XTAy, j = 1,2, ,nij i虹i=1定理4鞍點(diǎn)的存在性任意混合策略對策問題必存在鞍點(diǎn)，即必存在概率向量X和y，使得：XTAy = max xt Ay = min XTAyxy下面是三個關(guān)于零和對策解集的定理，設(shè)零和

10、對策G的解集為T (G)定理5加法律設(shè)兩個零和對策G =s , s ；A ,G =s ,s ；A ，其中A =a , A =a +切,L為任一常數(shù)。則112121221 ij 2 ijV = V + LT(G ) =1T(G ) TOC o 1-5 h z HYPERLINK l bookmark89 o Current Document 定理6乘法律12設(shè)兩個零和對策G =s ,s ; A,G =s ,s ;a A，其中a 0為任一常數(shù)。貝ij11221V =aVT(2G ) = 1(G ) HYPERLINK l bookmark103 o Current Document 定理7對稱律1

11、2設(shè)G = s1, s2; A為一零和對策，且A = - AT為反對稱矩陣(亦稱這種對策為對稱對策)。則V = 0GT(G) = T(G)其中T(G)和T (G)為局中人I和II的最優(yōu)策略集。2.3零和對策的線性規(guī)劃解法當(dāng)m 2且n 2時，通常采用線性規(guī)劃方法求解零和對策問題局中人I選擇混合策略元的目的是使得xTAy = max min xt Ay = max min xtA( y e ) = max min E yx yx yj=1 x y j=1 j j其中e,為只有第j個分量為1而其余分量均為零的單位向量，E = xTAe。記u三E = minE jjjk j于 y = 1jine.y

12、.在yk = 1，yj = 0(j豐k)時達(dá)到最小值u，故x應(yīng)為線性規(guī)劃問題。max umin一yj=i a x u, j = 1,2, , n(即 E E )ij ij ki=1=1i=1x 0, i = 1,2, , m解。_同理，y應(yīng)為線性規(guī)劃max va y 0, j = 1,2, ,n由線性規(guī)劃知識，(2.6)和(2.7)兩個互為對偶線性規(guī)劃，它們具有相同的最優(yōu)目標(biāo)函數(shù)值。 TOC o 1-5 h z 不妨設(shè)u 0，對(2.6)變換x =-襯,i = 1,2, mi u則線性規(guī)劃問題(2.6)化為min x，ii=1a x : 1, j = 1,2, , ni = 1x 0, i =

13、 1,2, , mi同理，對(2.7)作變換.yj = % ,j = 1,2,，n(2.6)(2.7)(2.8)則線性規(guī)劃問題(2.7)化為三、雙矩陣對策max 工 yi i=1Eq y 0, jj = 1,2, , n(2.9)雙矩陣對策又叫二人非常數(shù)和對策。所謂常數(shù)和對策是指局中人I和局中人II所贏得的值之和為一常數(shù)。顯然，二人零和對策是二人常數(shù) 和對策的特例，即常數(shù)為零。對于二人常數(shù)和對策，有純策略對策和混合策略對策，其求解方法與二人零和對策是相同的。二人非常數(shù)和對騷稱為雙矩陣對策。也有純策略對策和混合策略對策兩種策略。囚徒困境是一個典型的二人非常數(shù)和對策，每人的贏得矩陣是不相同的。其

14、中局中人I有m個策略%，%，對于一般純策略問題，局中人I、II的贏得矩陣如表2所示。局中人II有n個策略%，，Bn，分別記為S =a , ,a , S =P ,11m 21C1 = (Cj )mxn為局中.人I的贏得矩陣，C 2 =(門)mxn為局中人II的贏得矩陣。因此，雙矩陣對策記為G = *, S 2, C1, C 2表2定義5雙矩陣對策的Nash平衡點(diǎn)設(shè)G = SS 2, C1, C 2是一雙矩陣對策，若等式c1 = min max c1,c2 = min max c2(3 1)i j* j i iji j* j i ijt .)成立，則記，=%*，并稱為局中人I的贏得值，記，并袖2

15、為局中人II的贏得值，稱(%，*)為 G在純策略下的解(或Nash平衡點(diǎn))，稱a產(chǎn)和七*分別為局中人I，II的最優(yōu)純策略。實(shí)際上，定義5也同時給出了純策略問題的求解方法。因此，對于囚徒困境的例子，(1,0),(1,0)是Nash平衡點(diǎn)，這里(1,0)表示以概率1取第一個策略，也就是說，坦白是他們的最佳策略。如果不存在使式(3.1)成立的對策，則需要求混合對策。類似于二人零和對策情況，需要給出混合對策的最優(yōu)解?；旌蠈Σ邌栴}的基本概念定義6非合作平衡點(diǎn)在對策G = S ,S ,C1,C2中若存在策略對無e S*, y e S*使得1212(3.2)I xtCiy xtCiy, Vx e S*|

16、 XtC2y xtC2y, Vy e S*t2對稱(x, y)為g的一個非合作平衡點(diǎn)。記七=xtCiy,七=xtC2y,則稱七,七分別為局中人i , ii的贏得值。對于混合對策問題有以下三個定理。定理8雙矩陣對策非合作平衡點(diǎn)的存在性每個雙矩陣對策至少存在一個非合作平衡點(diǎn)。定理9雙矩陣對策非合作平衡點(diǎn)的判定混合策略(X, y)為對策G = S1,S2,C1,C2的平衡點(diǎn)的充分必要條件是 cy. xtC1 y,i = 1,2,，m(3.3) j=iEc2X xtC2y,j = 1,2,nij i、-i=1混合對策問題的求解方法由定義6可知，求解混合對策就是求非合作對策的平衡點(diǎn)，進(jìn)一步由定理8得到

17、，求解非合作對策的平衡點(diǎn)，就是求解滿足不等式約束(3.3)的可行點(diǎn)。因此，混合對策問題的求解問題就轉(zhuǎn)化為求不等式約束 (2.6)的可行點(diǎn)，而LINGO軟件可很容易做到這一點(diǎn)。舉例：對抗賽有甲、乙兩支游泳隊(duì)舉行包括三個項(xiàng)目的對抗賽。這兩支游泳隊(duì)各有一名健將級運(yùn)動員(甲隊(duì)為李，乙隊(duì)為王)，在三個項(xiàng)目中成績都很突出，但規(guī)則準(zhǔn)許他們每人只能參加兩項(xiàng)比賽，每隊(duì)的其他兩名運(yùn)動員可參加全部三項(xiàng)比賽。已知各運(yùn)動員平時成績(秒)見表3。表3甲隊(duì)乙隊(duì)趙錢李王張孫100米蝶泳59.763.257.758.661.464.8100米仰泳67.268.463.261.564.766.5100米蛙泳74.175.5

18、70.372.673.476.9假定各運(yùn)動員在比賽中都發(fā)揮正常水平，又比賽第一名得5分，第二名得3分，第三名得1分，問教練員應(yīng)決定讓自己隊(duì)健將參加哪兩項(xiàng)比賽，使本隊(duì)得分最多？(各隊(duì)參加比賽名單互相保密，定下來后不準(zhǔn)變動)解分別用、a2和a3表示甲隊(duì)中李姓健將不參加蝶泳、仰泳、蛙泳比賽的策略，分別用約、七和P3表示乙隊(duì)中王姓健將不參加蝶泳、仰泳、蛙泳比賽的策略。當(dāng)甲隊(duì)采用策略a 1，乙隊(duì)采用策略P1時，在100米蝶泳中，甲隊(duì)中趙獲第一、錢獲第三得6分，乙隊(duì)中張獲第二，得3分；在100米仰泳中，甲隊(duì)中李獲第二，得3分，乙隊(duì)中王獲第一、張獲第三，得6分；在100米蛙泳中，甲隊(duì)中李獲第一，得5

19、分，乙隊(duì)中王獲第二、張獲第三，得4分。也就是說，對應(yīng)于策略(a1, P2)甲、乙兩隊(duì)各自的得分為(14,13)。表4給出了在全部策略下各隊(duì)的得分。策略aaPPP123(14,13)(13,14)(12,15)(13,14)(12,15)(12,15)(12,15)(12,15)(13,14)表4計算支付矩陣的Matlab程序，運(yùn)彳亍按照定理8，求最優(yōu)混合策略，就是求不等式約束(3.3)的可行解，求解最優(yōu)混合策略的LINGO程序。求得甲隊(duì)米用的策略是、氣方案各占50%，乙隊(duì)米用的策略是P2、P3方案各占 50%，甲隊(duì)的平均得分為12.5分，乙隊(duì)的平均得分為14.5分。如表5所示。表5策略p 1

20、0.0p 2 0.5七0.5aQB1(14,13)(13,14)(12,15)a 2(13,14)(12,15)(12,15)a3(12,15)(12,15)(13,14)N人合作博弈五、博弈的擴(kuò)展式表述和動態(tài)博弈51博弈論的擴(kuò)展式表述具體來講，博弈的擴(kuò)展式表述包括以下要素：參與人集合：i = 1，n，此外，我們將用N來表示虛擬參與人“自然”；參與人的行動順序：誰在什么時候行動；參與人的行動空間：在每次行動時，參與人有些什么選擇；參與人的信息集：每次行動時，參與人知道些什么；參與人的支付函數(shù)：在行動結(jié)束之后，每個參與人得到些什么(支付是所有行動的函數(shù))5 2外博弈樹牛自構(gòu)造選擇)的概率分布。設(shè)

21、想你是一家房地產(chǎn)開發(fā)商(為了討論方便，我們稱你為“開發(fā)商X”，正在考慮是否要在北京的某一地段開發(fā)一棟新的寫字樓。你面臨的選擇是開發(fā)或不開發(fā)。如果決定開發(fā)，你必須投入1億資金；當(dāng)然，如果決定不開發(fā)，你的資金投入為0。在做這個決定時，你關(guān)心的當(dāng)然是開發(fā)是否有利可圖。像房地產(chǎn)這樣的市場充滿了風(fēng)險。風(fēng)險首先來自市場需求的不確定性。需求可能大，也可能小。風(fēng)險的另一個來源是你的競爭對手，房地產(chǎn)開發(fā)商B。讓我們假定開發(fā)商B也面臨與你同樣的決策問題：是否投入1億資金開發(fā)一棟同樣的寫字樓。假定，如果市場上有兩棟樓出售，需求大時，每棟售價可達(dá)1.4億，需求小時，售價為7千萬；如果市場上只有一棟樓出售，需

22、求大時售價為1.8億，需求小時為1.1億。這樣，有以下8種可能的結(jié)果：需求大，你開發(fā)，他不開發(fā)；你的利潤為8千萬，他的利潤為0。需求大，你不開發(fā)，他開發(fā)；你的利潤為0，他的利潤為8千萬。需求大，你開發(fā)，他也開發(fā)；你的利潤為4千萬，他的利潤為4千萬。需求大，你不開發(fā)，他也不開發(fā)；你和他的利潤為都為0。需求小，你開發(fā)，他不開發(fā)；你的利潤為1千萬，他的利潤為0。需求小，你不開發(fā)，他開發(fā)；你的利潤為0，他的利潤為1千萬。需求小，你開發(fā)，他也開發(fā)；你的利潤為-3千萬，他的利潤為-3千萬。需求小，你不開發(fā)，他也不開發(fā)；你和他的利潤為都為0。在這個例子中，無論開發(fā)商A還是開發(fā)商B，在決定是否開發(fā)時，不僅要考

23、慮市場需求的大小，而且要考慮對方的行動。我們假定該博弈的行動順序如下：開發(fā)商A首先行動，選擇開發(fā)或不開發(fā)；在A決策后，自然選擇市場需求的大?。婚_發(fā)商B在觀測到A的決策和市場需求后，決定開發(fā)或不開發(fā)。圖1房地產(chǎn)開發(fā)博弈I博弈樹的基本建筑材料包括結(jié)(nodes)、枝(branches)和信息集(information sets)。結(jié)(nodes)結(jié)包括決策結(jié)(decision nodes)和終點(diǎn)結(jié)(terminal nodes)兩類；決策結(jié)是參與人采取行動的時點(diǎn)，終點(diǎn)結(jié)是博弈行動路徑的終點(diǎn)。一般地，我們用X來表示所有結(jié)的集合，x e X表示某個選定的結(jié)。用-.表示定義在X上的順序關(guān) 系(pre

24、cedence relation)： x x意味著x在x之前。定義P(x)為x之前的所有結(jié)的集合，簡稱為x的前列集(the set of precedene)；定義T(x)為x之后的所有結(jié)點(diǎn)的集合，簡稱為x的后續(xù)集(the set of successors)。如果 P(x) = 0,x 稱為初始結(jié)(initial nodes)如果T(x) = 0,x稱為終點(diǎn)結(jié)(terminal nodes)。除終點(diǎn)結(jié)之外的所有結(jié)都是決策結(jié)。每一個終點(diǎn)結(jié)完全決定了博弈樹的路徑，我們可以用函數(shù)，(z)表示對應(yīng)的博弈路徑所導(dǎo)致的第i個參與人的支付函數(shù)。枝(branches)在博弈樹上，枝是從一個決策結(jié)到它的直接后續(xù)結(jié)的連線(有時用箭頭表述)，每一個枝代表參與人的一個行動選擇。一般地，對于一個給定的決策結(jié)，x e X，存在一個有限的行動集合A(x)和一個一一對應(yīng)的函數(shù)a : t(x) A(x)，這里t(x)是x直接后續(xù)結(jié)的集合。信息集(information sets)博弈樹上的所有決策結(jié)分割

人人文庫> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

博弈論算法講義

文檔簡介

溫馨提示

最新文檔

評論

博弈論算法講義

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔