G5馬爾科夫決策_第1頁
G5馬爾科夫決策_第2頁
G5馬爾科夫決策_第3頁
G5馬爾科夫決策_第4頁
G5馬爾科夫決策_第5頁
已閱讀5頁,還剩98頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

5馬爾科夫決策詹文杰(教授/博導(dǎo))Office:華中科技大學(xué)管理學(xué)院611室Telmail:wjzhan@學(xué)習(xí)目標(biāo)運用馬爾科夫鏈屬性來預(yù)測概率,并輔助決策。5馬爾科夫決策

(MarkovDecisionMaking)5.1馬爾科夫鏈的基本理論5.2穩(wěn)態(tài)概率矩陣:平穩(wěn)分布與穩(wěn)態(tài)分布5.3馬爾可夫鏈預(yù)測法5.4馬爾科夫決策的應(yīng)用5.5馬爾科夫決策的研究論文5.1馬爾科夫鏈的基本理論安德烈·馬爾可夫(A.A.Markov,1856-1922),俄羅斯人,物理-數(shù)學(xué)博士,圣彼得堡科學(xué)院院士,彼得堡數(shù)學(xué)學(xué)派的代表人物,以數(shù)論和概率論方面的工作著稱,他的主要著作有《概率演算》等。所謂馬爾柯夫鏈(MarkovChain),就是一種隨機時間序列,它在將來取什么值只與它現(xiàn)在的取值有關(guān),而與它過去取什么值無關(guān),即無后效性。具備這個性質(zhì)的離散型隨機過程,稱為馬爾柯夫鏈。馬爾科夫鏈舉例自然界中有一類事物的變化過程僅與事物的近期狀況有關(guān),而與事物的過去狀態(tài)無關(guān)。例如:(1)森林中動物頭數(shù)的變化構(gòu)成;(2)傳染病受感染的人數(shù);(3)車站的候車人數(shù);(4)設(shè)備維修和更新;(5)人才結(jié)構(gòu)變化;(6)資金流向;(7)市場需求變化等。5.1馬爾科夫鏈的基本理論馬爾可夫鏈的數(shù)學(xué)描述:隨機變量X為{X1,X2,...,Xt,…,Xn}的一個數(shù)列。這些變量的范圍,即它們所有可能取值的集合,被稱為“狀態(tài)空間”,而Xt的值則是在時間t的狀態(tài)。如果Xt+1對于過去狀態(tài)的條件概率僅是Xt的一個函數(shù),則:

P(Xt+1)={Xt+1|X1,X2,...,Xt}={Xt+1|Xt)上面這個恒等式可以被看作是馬爾可夫性質(zhì)。概念:狀態(tài)?狀態(tài)空間?狀態(tài)轉(zhuǎn)移?一、狀態(tài)與狀態(tài)變量狀態(tài):客觀事物可能出現(xiàn)或存在的狀況。如:商品可能暢銷也可能滯銷;機器運轉(zhuǎn)可能正常也可能故障等。同一事物不同狀態(tài)之間必須相互獨立:不能同時存在兩種狀態(tài)??陀^事物的狀態(tài)不是固定不變的,它可能處于這種狀態(tài),也可能處于那種狀態(tài),往往條件變化,狀態(tài)也會發(fā)生變化。如:某種產(chǎn)品在市場上本來是滯銷的,但是由于銷售渠道變化了,或者消費心理發(fā)生了變化等,它便可能變?yōu)闀充N產(chǎn)品。一、狀態(tài)與狀態(tài)變量用狀態(tài)變量來表示狀態(tài):Xt=i;(i=1,2,…,N;t=1,2,…)它表示隨機運動系統(tǒng),在t時刻(t=1,2,…)所處的狀態(tài)為i(i=1,2,…,N).狀態(tài)轉(zhuǎn)移:客觀事物由一種狀態(tài)到另一種狀態(tài)的變化。如:由于產(chǎn)品質(zhì)量或替代產(chǎn)品的變化,市場上產(chǎn)品可能由暢銷變?yōu)闇N。二、狀態(tài)轉(zhuǎn)移概率客觀事物可能有E1,E2,…,En共n種狀態(tài),其中每次只能處于一種狀態(tài),則每一狀態(tài)都具有n個轉(zhuǎn)向(包括轉(zhuǎn)向自身),即:Ei→E1,Ei→E2,…,Ei→En。由于狀態(tài)轉(zhuǎn)移是隨機的,因此,必須用概率來描述狀態(tài)轉(zhuǎn)移可能性的大小,將這種轉(zhuǎn)移的可能性用概率描述,就是狀態(tài)轉(zhuǎn)移概率。概率論中的條件概率:P(A|B)就表達了由狀態(tài)B向狀態(tài)A轉(zhuǎn)移的概率,簡稱為狀態(tài)轉(zhuǎn)移概率。對于由狀態(tài)Ei轉(zhuǎn)移到狀態(tài)Ej的概率,稱它為從i

到j(luò)

的轉(zhuǎn)移概率。記為:

Pij=P(Ei→Ej)=P(Ej|Ei)=P(Xt+1=j|Xt=i)它表示由狀態(tài)Ei經(jīng)過一步轉(zhuǎn)移到狀態(tài)Ej的概率。例1:狀態(tài)轉(zhuǎn)移概率的計算某地區(qū)有甲、乙、丙三家食品廠生產(chǎn)同一種食品,有一千個用戶(或購貨點),假定在研究期間無新用戶加入也無老用戶退出,只有用戶的轉(zhuǎn)移,已知2006年5月份有500戶是甲廠的顧客;400戶是乙廠的顧客;100戶是丙廠的顧客。6月份,甲廠有400戶原來的顧客,上月的顧客有50戶轉(zhuǎn)乙廠,50戶轉(zhuǎn)丙廠;乙廠有300戶原來的顧客,上月的顧客有20戶轉(zhuǎn)甲廠,80戶轉(zhuǎn)丙廠;丙廠有80戶原來的顧客,上月的顧客有10戶轉(zhuǎn)甲廠,10戶轉(zhuǎn)乙廠。計算其狀態(tài)轉(zhuǎn)移概率。例1:狀態(tài)轉(zhuǎn)移概率的計算解:由題意得6月份顧客轉(zhuǎn)移表1:甲(狀態(tài)1)乙(狀態(tài)2)丙(狀態(tài)3)合計甲(狀態(tài)1)4005050500乙(狀態(tài)2)2030080400丙(狀態(tài)3)101080100合計4303602101000表1:顧客轉(zhuǎn)移表

5月

6月

例1:狀態(tài)轉(zhuǎn)移概率的計算通常稱矩陣P為狀態(tài)轉(zhuǎn)移概率矩陣,沒有特別說明步數(shù)時,一般均為一步轉(zhuǎn)移概率矩陣。矩陣中的每一行稱之為概率向量。三、狀態(tài)轉(zhuǎn)移概率矩陣

及其基本特征狀態(tài)轉(zhuǎn)移概率矩陣具有如下特征:(1)

(2)狀態(tài)轉(zhuǎn)移概率的估算:主觀概率法(一般缺乏歷史統(tǒng)計資料或資料不全情況下使用)統(tǒng)計估算法。例2:求味精銷售轉(zhuǎn)移概率矩陣設(shè)味精市場的銷售記錄共有6年24個季度的數(shù)據(jù),見下表。求味精銷售轉(zhuǎn)移概率矩陣。季度123456789101112銷售狀態(tài)暢1暢1滯2暢1滯2滯2暢1暢1暢1滯2暢1滯2季度131415161718192021222324銷售狀態(tài)暢1暢1滯2滯2暢1暢1滯2暢1滯2暢1暢1暢1用“1”表示暢銷用“2”表示滯銷12P22P11P12P21季度123456789101112銷售狀態(tài)暢1暢1滯2暢1滯2滯2暢1暢1暢1滯2暢1滯2季度131415161718192021222324銷售狀態(tài)暢1暢1滯2滯2暢1暢1滯2暢1滯2暢1暢1暢12個狀態(tài):“1”暢銷“2”滯銷

共24個季度數(shù)據(jù),其中有15個季度暢銷,9個季度滯銷,現(xiàn)分別統(tǒng)計出:連續(xù)暢銷(1→1)、由暢轉(zhuǎn)滯(1→2)

、由滯轉(zhuǎn)暢(2→1)和連續(xù)滯銷(2→2)的次數(shù)。以

P11

表示連續(xù)暢銷的可能性,以頻率代替概率,得:

分子7是表中連續(xù)出現(xiàn)暢銷的次數(shù),分母15是表中出現(xiàn)暢銷的次數(shù),因為第24季度是暢銷,無后續(xù)記錄,故減1。季度123456789101112銷售狀態(tài)暢1暢1滯2暢1滯2滯2暢1暢1暢1滯2暢1滯2季度131415161718192021222324銷售狀態(tài)暢1暢1滯2滯2暢1暢1滯2暢1滯2暢1暢1暢12個狀態(tài):“1”暢銷“2”滯銷以

P12

表示由暢銷轉(zhuǎn)入滯銷的可能性:

分子7

是表中由暢銷轉(zhuǎn)入滯銷的次數(shù)。以

P21

表示由滯銷轉(zhuǎn)入暢銷的可能性:

分子7

是表中由滯銷轉(zhuǎn)入暢銷的次數(shù),分母數(shù)9是表中出現(xiàn)滯銷的次數(shù)。季度123456789101112銷售狀態(tài)暢1暢1滯2暢1滯2滯2暢1暢1暢1滯2暢1滯2季度131415161718192021222324銷售狀態(tài)暢1暢1滯2滯2暢1暢1滯2暢1滯2暢1暢1暢12個狀態(tài):“1”暢銷“2”滯銷以

P22

表示連續(xù)滯銷的可能性:

分子2

是表中連續(xù)出現(xiàn)滯銷的次數(shù)。綜上所述,得銷售狀態(tài)轉(zhuǎn)移概率矩陣為:問題:請根據(jù)狀態(tài)轉(zhuǎn)移矩陣預(yù)測第25個季度的銷售狀況?四、多步狀態(tài)轉(zhuǎn)移概率矩陣狀態(tài)轉(zhuǎn)移概率矩陣完全描述了所研究對象的變化過程。正如前面所指出的,上述矩陣為一步轉(zhuǎn)移概率矩陣。對于多步轉(zhuǎn)移概率矩陣,可按如下定義解釋。定義:若系統(tǒng)在時刻t0處于狀態(tài)i,經(jīng)過n步轉(zhuǎn)移,在時刻tn處于狀態(tài)j。那么,對這種轉(zhuǎn)移的可能性的數(shù)量描述稱為n步轉(zhuǎn)移概率。記為:

并令:四、多步狀態(tài)轉(zhuǎn)移概率矩陣稱為n步轉(zhuǎn)移概率矩陣。當(dāng)系統(tǒng)滿足穩(wěn)定性假設(shè)時,多步轉(zhuǎn)移概率矩陣,除具有一步轉(zhuǎn)移概率矩陣的性質(zhì)外,還具有以下的性質(zhì):例3:蛙跳問題假定池中有N張荷葉,編號為1,2,3,……,N,即蛙跳可能有N個狀態(tài)(狀態(tài)確知且離散)。青蛙所屬荷葉,為它目前所處的狀態(tài);因此它未來的狀態(tài),只與現(xiàn)在所處狀態(tài)有關(guān),而與以前的狀態(tài)無關(guān)(無后效性成立)例3:蛙跳問題123例3:蛙跳問題123例3:蛙跳問題例:設(shè)系統(tǒng)狀態(tài)為N=3,求從狀態(tài)1轉(zhuǎn)移到狀態(tài)2的二步狀態(tài)轉(zhuǎn)移概率。

解:作狀態(tài)轉(zhuǎn)移圖

解法一:由狀態(tài)轉(zhuǎn)移圖:1——1——2:P11?P121——2——2:P12?P221——3——2:P13?P32P12=P11?P12+P12?P22+P13?P32=∑P1i?Pi213P13P32P12P12P22例3:蛙跳問題解法二:k=2,N=3P11(2)P12(2)P13(2)P=P21(2)P22(2)P23(2)P31(2)P32(2)P33(2)P11P12P13P11P12P13=P?P=P21P22P23×P21P22P23P31P32P33P31P32P33得:P12(2)=P11?P12+P12?P22+P13?P32=∑P1i?Pi213P13P32P12P12P22例2:求味精銷售轉(zhuǎn)移概率矩陣已知味精銷售的一步狀態(tài)轉(zhuǎn)移矩陣如下:問題:請根據(jù)狀態(tài)轉(zhuǎn)移矩陣預(yù)測第26個季度的銷售狀況?

0.50.780.220.780.220.640.360.56160.4384P11(2)P12(2)P21(2)P22(2)P(2)=P2=解:味精銷售的二步狀態(tài)轉(zhuǎn)移矩陣如下:==例4:求經(jīng)濟系統(tǒng)的二步狀態(tài)轉(zhuǎn)移矩陣系統(tǒng)本步所處狀態(tài)系統(tǒng)下步所處狀態(tài)E1E2E3E121714E216812E31082某經(jīng)濟系統(tǒng)有三種狀態(tài)E1,E2,E3(如暢銷、一般、滯銷),系統(tǒng)地轉(zhuǎn)移情況見下表,試求系統(tǒng)的二步狀態(tài)轉(zhuǎn)移概率矩陣。解:首先是寫出一步狀態(tài)轉(zhuǎn)移矩陣例4:求經(jīng)濟系統(tǒng)的二步狀態(tài)轉(zhuǎn)移矩陣由一步轉(zhuǎn)移概率矩陣求出,由公式計算得:五、初始狀態(tài)概率向量記t0為過程的開始時刻,則稱:為初始狀態(tài)概率向量。已知馬爾科夫鏈的轉(zhuǎn)移矩陣以及初始狀態(tài)概率向量,則任一時刻的狀態(tài)概率分布也就確定了: 對k1

,記,則由全概率公式有:五、初始狀態(tài)概率向量若記向量,則上式可寫為:由此可得:例5:一臺機床的運行狀態(tài)機床運行存在正常和故障兩種狀態(tài)。由于出現(xiàn)故障帶有隨機性,故可將機床運行看作一個隨時間變化的隨機系統(tǒng)。機床以后的狀態(tài)只與其以前的狀態(tài)有關(guān),而與過去的狀態(tài)無關(guān)(有無后效性)。因此,機床的運行可看作馬爾科夫鏈。如機床運行過程中出現(xiàn)故障,表示為從狀態(tài)1轉(zhuǎn)移到狀態(tài)2;處于故障狀態(tài)的機床經(jīng)維修恢復(fù)到正常狀態(tài)即從狀態(tài)2轉(zhuǎn)移到狀態(tài)1。現(xiàn)以1個月為時間單位,經(jīng)統(tǒng)計知:從某月到下月機床出現(xiàn)故障的概率為0.2,即p12=0.2。保持正常狀態(tài)的概率為為p11=0.8。在這一時間,故障機床經(jīng)維修返回正常狀態(tài)的概率為0.9,即p21=0.9;不能修好的概率為p22=0.1。機床狀態(tài)轉(zhuǎn)移圖正常狀態(tài)1故障狀態(tài)2p12

=0.2p21

=0.9p11

=0.8p22

=0.1例5:一臺機床的運行狀態(tài)12p12

=0.2p21

=0.9p11

=0.8p12

=0.1由機床的一步轉(zhuǎn)移概率得:狀態(tài)轉(zhuǎn)移概率矩陣:若已知本月機床的狀態(tài)向量P(0)=(0.85,0.15),要求預(yù)測機床兩個月后的狀態(tài)。例5:一臺機床的運行狀態(tài)解:①求出兩步轉(zhuǎn)移概率矩陣②預(yù)測:兩個月后的狀態(tài)向量本月處于故障狀態(tài)的機床兩月后轉(zhuǎn)移到正常狀態(tài)的轉(zhuǎn)移概率為0.81,仍然處于故障狀態(tài)的轉(zhuǎn)移概率為0.19。本月處于正常狀態(tài)的機床兩月后仍然處于正常狀態(tài)的轉(zhuǎn)移概率為0.82,轉(zhuǎn)移到故障狀態(tài)的轉(zhuǎn)移概率為0.18。4.2穩(wěn)態(tài)概率矩陣:平穩(wěn)分布與穩(wěn)態(tài)分布在馬爾可夫鏈中,已知系統(tǒng)的初始狀態(tài)和狀態(tài)轉(zhuǎn)移概率矩陣,就可推斷出系統(tǒng)在任意時刻可能所處的狀態(tài)。現(xiàn)在需要研究當(dāng)k

不斷增大時,P(k)

的變化趨勢。一、平穩(wěn)分布預(yù)備定義: 如存在非零向量X=(x1,x2,…,xN),使得:XP=X其中P為一概率矩陣,則稱X為P的固定概率向量。一、平穩(wěn)分布如存在非零向量

X=(x1,x2,…,xN),使得:

XP=X其中:P為一概率矩陣。則稱X為P的固定概率向量。

特別地,設(shè)X=(x1,x2,…,xN)為一狀態(tài)概率向量,P為狀態(tài)轉(zhuǎn)移概率矩陣,若XP=X,即:

則稱X為該馬爾可夫鏈的一個平穩(wěn)分布(性質(zhì)?)一、平穩(wěn)分布若隨機過程某時刻的狀態(tài)概率向量P(k)為平穩(wěn)分布,則稱過程處于平衡狀態(tài)。(XP=X)一旦過程處于平衡狀態(tài),則經(jīng)過一步或多步狀態(tài)轉(zhuǎn)移之后,其狀態(tài)概率分布保持不變,也就是說,過程一旦處于平衡狀態(tài)后將永遠處于平衡狀態(tài)。對于所討論的狀態(tài)有限(即N個狀態(tài))的馬爾可夫鏈,平穩(wěn)分布必定存在。特別地,當(dāng)狀態(tài)轉(zhuǎn)移矩陣為正規(guī)概率矩陣時,平穩(wěn)分布唯一。正規(guī)概率矩陣???正規(guī)概率矩陣定義1:如果P為概率矩陣,且存在m>0,使Pm

中諸元素皆非負非零。則稱P為正規(guī)概率矩陣。例如:均為正規(guī)概率矩陣。P1為正規(guī)概率矩陣是明顯的(m=1)P2是正規(guī)概率矩陣也易于論證:即存在(m=

2),使P2

的元素皆非負非零正規(guī)概率矩陣是非正規(guī)概率矩陣。正規(guī)概率矩陣的這一性質(zhì)很有實用價值。

因為在市場占有率是達到平穩(wěn)分布時,顧客(或用戶)的流動將對市場占有率不起影響。即各市場主體喪失的顧客(或用戶)與爭取到的顧客相抵消。二、穩(wěn)態(tài)分布對概率向量=(1,2,…,N),如對任意的i,jS

則稱為穩(wěn)態(tài)分布。此時,不管初始狀態(tài)概率向量如何,均有,或這也是稱為穩(wěn)態(tài)分布的理由。性質(zhì)??二、穩(wěn)態(tài)分布設(shè)存在穩(wěn)態(tài)分布=(1,2,…,N),則由于下式恒成立:令k→∞就得:A:即有限狀態(tài)馬爾可夫鏈的穩(wěn)態(tài)分布如存在,那么它也是平穩(wěn)分布。B:當(dāng)馬爾科夫鏈的狀態(tài)轉(zhuǎn)移概率矩陣為正規(guī)概率矩陣時穩(wěn)態(tài)分布存在,且穩(wěn)態(tài)分布和平穩(wěn)分布相同且均唯一。例6:平穩(wěn)分布和穩(wěn)態(tài)分布即存在(m=2),使P2

的元素皆非負非零。例6:設(shè)一馬爾可夫鏈的狀態(tài)轉(zhuǎn)移矩陣如下,求其平穩(wěn)分布及穩(wěn)態(tài)分布。解:(1)P是正規(guī)概率矩陣例6:平穩(wěn)分布和穩(wěn)態(tài)分布(2)由于P是正規(guī)概率矩陣,求解如下方程組:這就是該馬爾可夫鏈的穩(wěn)態(tài)分布,而且也是平穩(wěn)分布。例7:長期市場占用率的預(yù)測例:東南亞各國行銷上海、日本和香港三種味精,要預(yù)測在未來若干個月以后的市場占有情況。具體步驟3:第一步:進行市場調(diào)查1、目前市場占有情況(顧客買滬、日、港味精的的百分比)。

結(jié)果:上海味精的占40%、買日、港的各占30%,(40%、30%、30%)稱為目前市場的占有分布或稱初始分布。2、查清顧客的流動情況。

結(jié)果:上月買上海味精的顧客,本月仍有40%,各有30%轉(zhuǎn)向買本和港味精。上月買日本味精顧客,本月有60%轉(zhuǎn)向買上海味精,30%仍買日本味精,10%轉(zhuǎn)向香港味精。上月買香港味精的顧客,本月有60%轉(zhuǎn)向買上海味精,10%轉(zhuǎn)向買日本味精,30%仍買香港味精。例7:長期市場占用率的預(yù)測第二步:建立數(shù)學(xué)模型

為運算方便,以1、2、3分別代表上海、日本、香港味精,根據(jù)市場調(diào)查的結(jié)果,得到顧客購買味精的流動情況表。上海(1)日本(2)香港(3)上海(1)40%30%30%日本(2)60%30%10%香港(3)60%10%30%例7:長期市場占用率的預(yù)測第三步:進行預(yù)測設(shè)初始市場占有的分布是(p1,p2,p3)=(0.4,0.3,0.3),三個月以后的市場占有分布是(p1(3),p2(3),p3(3)),則預(yù)測的公式是:如果市場顧客流動趨勢長期穩(wěn)定下去,則經(jīng)過一段時期以后的市場占有率將出現(xiàn)穩(wěn)定的平衡狀態(tài)。例7:長期市場占用率的預(yù)測第四步:預(yù)測長期的市場占有率。 由一步轉(zhuǎn)移概率矩陣P是正規(guī)概率矩陣。所以,長期的市場占有率即為平衡狀態(tài)下的市場占有率,亦即馬爾可夫鏈的平穩(wěn)分布。

設(shè)長期市場市場占有率為: 有: 得:所謂穩(wěn)定的市場平衡狀態(tài),就是顧客的流動,將對市場占有率不起影響,即在顧客流動過程中,各牌號產(chǎn)品喪失的顧客將與其爭取到的顧客抵消。5.3馬爾可夫鏈預(yù)測法馬爾可夫鏈預(yù)測方法的最簡單類型是預(yù)測下期最可能出現(xiàn)的狀態(tài)。其預(yù)測步驟如下:第一步:劃分預(yù)測對象所出現(xiàn)的狀態(tài)。從預(yù)測目的出發(fā),考慮決策需要來劃分現(xiàn)象所處的狀態(tài)。第二步:計算初始概率。據(jù)實際問題分析歷史資料所得的狀態(tài)概率稱為初始概率。第三步:計算狀態(tài)轉(zhuǎn)移概率第四步:根據(jù)轉(zhuǎn)移概率進行預(yù)測由狀態(tài)轉(zhuǎn)移概率矩陣P

:如果目前預(yù)測對象處于狀態(tài)Ei,這時Pij

就描述了目前狀態(tài)Ei

在未來將轉(zhuǎn)向狀態(tài)Ej(j=1,2,…,N)的可能性。5.3馬爾可夫鏈預(yù)測法預(yù)測1:商品銷售量預(yù)測預(yù)測2:人力資源預(yù)測預(yù)測1:商品銷售量預(yù)測某商店在最近20個月的商品銷售量統(tǒng)計記錄如下:商品銷售量統(tǒng)計表單位:千件時間t1234567891011121314151617181920銷售量404580120110384050629011013014012055704580110120試預(yù)測第21期商品銷售量。

解:1、劃分狀態(tài):按盈利狀況為標(biāo)準(zhǔn) (1)銷售量<60千件屬于滯銷 (2)60千件≤銷售量≤100千件屬于一般 (3)銷售量>100千件屬于暢銷預(yù)測1:商品銷售量預(yù)測2、計算初始概率Pi

為使問題更為直觀,繪制銷售量散點圖如下,并畫出狀態(tài)分界線。由圖可算出處于:

滯銷狀態(tài)的有:M1=7 一般狀態(tài)的有:M2=5 暢銷狀態(tài)的有:M3=8預(yù)測1:商品銷售量預(yù)測3、計算初始轉(zhuǎn)移概率矩陣

計算狀態(tài)轉(zhuǎn)移概率時,最后一個數(shù)據(jù)不參加計算,因為它究竟轉(zhuǎn)到哪個狀態(tài)尚不清楚。 M11=3,M12=4,M13=0,M21=1,M22=1,M23=3,M31=2,M32=0,M33=5。滯銷狀態(tài):M1=7一般狀態(tài):M2=5暢銷狀態(tài):M3=8-1有:P11=3/7,P12=4/7,P13=0/7,P21=1/5,P22=1/5,P23=3/5,P31=2/7,P32=0/7,P33=5/7預(yù)測1:商品銷售量預(yù)測4、預(yù)測第21月的銷售情況

由于第20月的銷售情況屬于暢銷狀態(tài),而經(jīng)由一次轉(zhuǎn)移到達三種狀態(tài)的概率是: P31=2/7,P32=0/7,P33=5/7

P33>P32>P31因此,第21月超過100千件的可能性最大。商品銷量的狀態(tài)轉(zhuǎn)移矩陣P:預(yù)測2:人力資源預(yù)測某高校教師狀態(tài)分為5類:助教、講師、副教授、教授、流失及退休。目前狀態(tài)(550人):根據(jù)歷史資料:

試分析三年后教師結(jié)構(gòu)以及三年內(nèi)為保持編制不變應(yīng)進多少研究生充實教師隊伍?預(yù)測2:人力資源預(yù)測(1)一年后人員分布: 要保持550人的總編制,流失76人,故第一年應(yīng)進76位新教師。

(2)第二年:補充74人后:(3)第三年:補充72人后,在第三年年底,人員結(jié)構(gòu)為:解:5.4馬爾科夫決策的應(yīng)用應(yīng)用1:策略與市場占有率應(yīng)用2:期望利潤預(yù)測應(yīng)用3:最佳維修策略的選擇應(yīng)用1:策略與市場占有率A、B、C三公司的產(chǎn)品市場占有率分別為50%,30%,20%。由于C公司改善了銷售與服務(wù),銷售額逐期穩(wěn)定上升,而A公司卻下降。通過市場調(diào)查發(fā)現(xiàn)三個公司間的顧客流動情況如表所示。其中產(chǎn)品銷售周期是季度。問題:按目前趨勢發(fā)展,A公司產(chǎn)品銷售或客戶轉(zhuǎn)移的影響將嚴重到何種程度?更全面的,三個公司產(chǎn)品的占有率將如何變化?應(yīng)用1:策略與市場占有率應(yīng)用1:策略與市場占有率未來各期的市場占有率:C——保銷政策:C的市場份額不斷增大,是否可持續(xù)下去?應(yīng)用1:策略與市場占有率穩(wěn)態(tài)市場占有率:

對于A廠不利,A廠隨后制定兩套方案:應(yīng)用1:策略與市場占有率甲方案:保留策略,拉住老顧客。甲方案:新的平衡狀態(tài)下A、B、C三公司的市場占有率分別為31.6%,26.3%,42.1%,A公司的市場占有率從17.65%提高到31.6%。應(yīng)用1:策略與市場占有率乙方案:爭取策略,挖客戶。乙方案:在新的平衡狀態(tài)下,A、B、C三家公司的市場占有率分別為33.3%,22.2%,44.5%。

考慮費用?應(yīng)用2:期望利潤預(yù)測某商品每月市場狀況有暢銷和滯銷兩種。1()代表暢銷,2()代表滯銷。如產(chǎn)品暢銷獲利50萬元;滯銷將虧損30萬元。調(diào)查統(tǒng)計了過去24個月的銷售記錄,見下表。月份123456789101112銷售狀態(tài)月份131415161718192021222324銷售狀態(tài)問題:如當(dāng)前月份該產(chǎn)品暢銷,第四月前所獲得的期望總利潤為多少?1.有限時段期望總報酬一般地,設(shè){Xn}是狀態(tài)空間為S={1,2,…,N}的齊次馬氏鏈,其轉(zhuǎn)移矩陣為。設(shè)r(i)

表示某周期系統(tǒng)處于狀態(tài)i(i=1,2,…,N)時獲得的報酬。稱如此的馬爾可夫鏈?zhǔn)蔷哂袌蟪甑?。r(i)>0時稱為盈利,報酬,收益等;r(i)<0時稱為虧損,費用等。記vk(i)表示初始狀態(tài)為i的條件下,到第k步狀態(tài)轉(zhuǎn)移前所獲得的期望總報酬(k≥1,i∈S):

k期k=4當(dāng)前狀態(tài)暢銷:r(i)表示某周期系統(tǒng)處于狀態(tài)i時獲得的報酬一步轉(zhuǎn)移的期望收益(i=1)當(dāng)前狀態(tài)下的期望收益:一步轉(zhuǎn)移的期望收益:k期k=4二步轉(zhuǎn)移的期望收益(i=1)當(dāng)前狀態(tài)暢銷:當(dāng)前狀態(tài)下的期望收益:一步轉(zhuǎn)移的期望收益:二步轉(zhuǎn)移的期望收益:k期k=4當(dāng)前狀態(tài)暢銷:當(dāng)前狀態(tài)下的期望收益:一步轉(zhuǎn)移的期望收益:二步轉(zhuǎn)移的期望收益:三步轉(zhuǎn)移的期望收益:三步轉(zhuǎn)移的期望收益(i=1)到第4

步狀態(tài)轉(zhuǎn)移前所獲得的期望總報酬:當(dāng)前狀態(tài)暢銷:r(i)表示某周期系統(tǒng)處于狀態(tài)i時獲得的報酬一步轉(zhuǎn)移的期望收益(i=2)當(dāng)前狀態(tài)下的期望收益:一步轉(zhuǎn)移的期望收益:k期k=4當(dāng)前狀態(tài)暢銷:二步轉(zhuǎn)移的期望收益(i=2)當(dāng)前狀態(tài)下的期望收益:一步轉(zhuǎn)移的期望收益:k=4k期二步轉(zhuǎn)移的期望收益:當(dāng)前狀態(tài)暢銷:三步轉(zhuǎn)移的期望收益(i=2)當(dāng)前狀態(tài)下的期望收益:一步轉(zhuǎn)移的期望收益:二步轉(zhuǎn)移的期望收益:k期k=4三步轉(zhuǎn)移的期望收益:到第4

步狀態(tài)轉(zhuǎn)移前所獲得的期望總報酬:記:11.有限時段期望總報酬遞推式:(考慮一般情況:當(dāng)前狀態(tài)為i)1.有限時段期望總報酬一般地,記有1.有限時段期望總報酬應(yīng)用2:期望利潤預(yù)測某商品每月市場狀況有暢銷和滯銷兩種。1()代表暢銷,2()代表滯銷。如產(chǎn)品暢銷獲利50萬元;滯銷將虧損30萬元。調(diào)查統(tǒng)計了過去24個月的銷售記錄,見下表。月份123456789101112銷售狀態(tài)月份131415161718192021222324銷售狀態(tài)問題:如當(dāng)前月份該產(chǎn)品暢銷,第四月前所獲得的期望總利潤為多少?應(yīng)用2:期望利潤預(yù)測都需求出狀態(tài)轉(zhuǎn)移概率矩陣P。解:已知:i=1,有三種形式的公式:求:應(yīng)用2:期望利潤預(yù)測分子數(shù)7是表中連續(xù)出現(xiàn)暢銷的次數(shù),分母中的15是表中出現(xiàn)暢銷的次數(shù),因為第24季度是暢銷,無后續(xù)記錄,故減1。估計狀態(tài)轉(zhuǎn)移矩陣P:以統(tǒng)計頻率估計連續(xù)暢銷的概率。月份123456789101112銷售狀態(tài)月份131415161718192021222324銷售狀態(tài)同理有:應(yīng)用2:期望利潤預(yù)測月份123456789101112銷售狀態(tài)月份131415161718192021222324銷售狀態(tài)應(yīng)用2:期望利潤預(yù)測結(jié)果為:如當(dāng)前月份該產(chǎn)品暢銷,第四月前所獲得的期望總利潤為67.5萬。2.無限時段單位時間平均報酬對i∈S,定義初始狀態(tài)為i的無限時段單位時間平均報酬為:記則2.無限時段單位時間平均報酬定義:對于概率向量,如對任意,均有,則稱為穩(wěn)態(tài)分布。若所考慮的馬爾可夫鏈存在平穩(wěn)分布可以證明,此時:2.無限時段單位時間平均報酬即,無限時段單位時間平均報酬與初始狀態(tài)無關(guān),均為:3.無限時段期望折扣總報酬在現(xiàn)實生活中,今年的一元錢將大于明年的一元錢,即,明年的一元錢折算到現(xiàn)在計算,就不值一元錢了,如為,這個就稱為折扣因子。實際上,在企業(yè)管理中當(dāng)考慮貸款、折舊等時都必須考慮到錢的增值問題。如將錢存于銀行,年息為,則與有如下關(guān)系:

對有報酬的馬氏鏈,定義從狀態(tài)i出發(fā)的無限時段期望折扣總報酬為:3.無限時段期望折扣總報酬對有報酬的馬氏鏈,定義從狀態(tài)i出發(fā)的無限時段期望折扣總報酬為:于是:記則:稱為具有報酬的馬氏鏈的三種目標(biāo)函數(shù)。利用其中的任一個目標(biāo)函數(shù),可以討論不同策略的優(yōu)劣。(示列:)應(yīng)用3:最佳維修策略的選擇研究一化工企業(yè)對循環(huán)泵進行季度維修的過程。每次檢查中,把泵按其外殼及葉輪的腐蝕程度定為五種狀態(tài)中的一種。這五種狀態(tài)是:

狀態(tài)1:優(yōu)秀狀態(tài),無任何故障或缺陷;

狀態(tài)2:良好狀態(tài),稍有腐蝕;

狀態(tài)3:及格狀態(tài),輕度腐蝕;

狀態(tài)4:可用狀態(tài),大面積腐蝕;

狀態(tài)5:不可運行狀態(tài),腐蝕嚴重。該公司可采用的維修策略有以下幾種:單狀態(tài)策略:處于狀態(tài)5時才進行修理,每次修理費為500元。兩狀態(tài)策略:處于狀態(tài)4和5時進行修理,處于狀態(tài)4時的修理費用每次為250元,處于狀態(tài)5時的每次修理費用為500元。三狀態(tài)策略:處于狀態(tài)3,4,5時進行修理,處于狀態(tài)3時的每次修理費用為200元,處于狀態(tài)4和5時的修理費用同前。應(yīng)用3:最佳維修策略的選擇目前,公司采用的維修策略為“單狀態(tài)”策略。假定不管處于何種狀態(tài),只要進行修理,狀態(tài)都將恢復(fù)為狀態(tài)1。已知在不進行任何修理時的狀態(tài)轉(zhuǎn)移概率,如下表所示。問題:確定哪個策略的費用最低。目標(biāo)為長期運行單位時間平均報酬。

應(yīng)用3:最佳維修策略的選擇需知r和P.不維修時的狀態(tài)轉(zhuǎn)移矩陣:應(yīng)用3:最佳維修策略的選擇與初始狀態(tài)i無關(guān)。單狀態(tài)策略下:解得:從而:應(yīng)用3:最佳維修策略的選擇兩狀態(tài)策略下:解得:從而:應(yīng)用3:最佳維修策略的選擇三狀態(tài)策略下:解得:從而:應(yīng)用3:最佳維修策略的選擇單狀態(tài)策略下:兩狀態(tài)策略下:三狀態(tài)策略下:因此,兩狀態(tài)策略為最優(yōu)策略,平均每周期的費用為90.50元。5.5馬爾科夫決策的研究論文詹文杰,楊潔.連續(xù)雙向拍賣市場中基于馬爾可夫鏈的交易策略研究.中國管理科學(xué),2008,Vol.16(1):111-116.摘要:連續(xù)雙向拍賣市場中交易策略的設(shè)計問題遠比單向拍賣復(fù)雜,本文首先檢驗了該市場中交易價格的馬爾可夫性質(zhì),然后據(jù)此提出了基于馬爾可夫鏈的自學(xué)習(xí)動態(tài)交易策略,最后通過比較實驗發(fā)現(xiàn),該策略明顯優(yōu)于“約束型零信息”策略。關(guān)鍵詞:連續(xù)雙向拍賣;交易策略;馬爾可夫鏈連續(xù)雙向拍賣市場中

基于馬爾可夫鏈的交易策略研究1引言2連續(xù)雙向拍賣的交易規(guī)則3基于馬爾可夫鏈的交易策略4交易策略的比較實驗5結(jié)語1引言由于連續(xù)雙向拍賣市場的交易過程具有高度的動態(tài)性和隨機性,它的交易策略的研究比單向拍賣、集合競價更復(fù)雜,一直是研究者關(guān)注的重點。按照研究方法的不同,該問題的研究分為兩個階段。第一階段,通過簡化連續(xù)雙向拍賣市場的交易規(guī)則、交易人數(shù)和商品數(shù)量,把單

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論