運(yùn)籌學(xué)—決策論_第1頁(yè)
運(yùn)籌學(xué)—決策論_第2頁(yè)
運(yùn)籌學(xué)—決策論_第3頁(yè)
運(yùn)籌學(xué)—決策論_第4頁(yè)
運(yùn)籌學(xué)—決策論_第5頁(yè)
已閱讀5頁(yè),還剩89頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第第11章章 決策論決策論 Theory of Decision11.1 決策分析的基本問(wèn)題決策分析的基本問(wèn)題11.2 確定型和非確定型決策確定型和非確定型決策11.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 11.4 效用理論效用理論11.5馬爾可夫決策馬爾可夫決策 運(yùn)運(yùn) 籌籌 學(xué)學(xué) Operations Research 11.1 決策分析的基本問(wèn)題決策分析的基本問(wèn)題決策決策(Decision Making)是一種對(duì)已知目標(biāo)和方案的選擇過(guò)程,是一種對(duì)已知目標(biāo)和方案的選擇過(guò)程,當(dāng)人們已知確定需實(shí)現(xiàn)的目標(biāo)是什么,根據(jù)一定的決策準(zhǔn)則,當(dāng)人們已知確定需實(shí)現(xiàn)的目標(biāo)是什么,根據(jù)一定的決策準(zhǔn)則,在供選方案中做出決策的過(guò)程

2、。諾貝爾獎(jiǎng)獲得者西蒙認(rèn)為,管在供選方案中做出決策的過(guò)程。諾貝爾獎(jiǎng)獲得者西蒙認(rèn)為,管理就是決策,他認(rèn)為決策是對(duì)稀有資源備選分配方案進(jìn)行選擇理就是決策,他認(rèn)為決策是對(duì)稀有資源備選分配方案進(jìn)行選擇排序的過(guò)程。學(xué)者排序的過(guò)程。學(xué)者Gregory在在決策分析決策分析中提及,決策是對(duì)決中提及,決策是對(duì)決策者將采取的行動(dòng)方案的選擇過(guò)程。策者將采取的行動(dòng)方案的選擇過(guò)程。 決策科學(xué)包括決策心理學(xué)、決策的數(shù)量化方法、決策評(píng)價(jià)以決策科學(xué)包括決策心理學(xué)、決策的數(shù)量化方法、決策評(píng)價(jià)以及決策支持系統(tǒng)、決策自動(dòng)化等。及決策支持系統(tǒng)、決策自動(dòng)化等。 隨著計(jì)算機(jī)和信息通信技術(shù)的發(fā)展,決策分析的研究也得到隨著計(jì)算機(jī)和信息通信技術(shù)

3、的發(fā)展,決策分析的研究也得到極大的促進(jìn),隨之產(chǎn)生了計(jì)算機(jī)輔助決策支持系統(tǒng)(極大的促進(jìn),隨之產(chǎn)生了計(jì)算機(jī)輔助決策支持系統(tǒng)(Decision Support System),許多問(wèn)題在計(jì)算機(jī)的幫助下得以解決,在),許多問(wèn)題在計(jì)算機(jī)的幫助下得以解決,在一定程度上代替了人們對(duì)一些常見(jiàn)問(wèn)題的決策分析過(guò)程。一定程度上代替了人們對(duì)一些常見(jiàn)問(wèn)題的決策分析過(guò)程。11.1 決策分析的基本問(wèn)題決策分析的基本問(wèn)題11.1.1 決策分析基本概念決策分析基本概念決策決策 狹義決策認(rèn)為決策就是作決定,單純強(qiáng)調(diào)最終結(jié)果;廣義狹義決策認(rèn)為決策就是作決定,單純強(qiáng)調(diào)最終結(jié)果;廣義決策認(rèn)為將管理過(guò)程的行為都納入決策范疇,決策貫穿于整

4、個(gè)決策認(rèn)為將管理過(guò)程的行為都納入決策范疇,決策貫穿于整個(gè)管理過(guò)程中。管理過(guò)程中。決策目標(biāo)決策目標(biāo) 決策者希望達(dá)到的狀態(tài),工作努力的目的。一般而言,決策者希望達(dá)到的狀態(tài),工作努力的目的。一般而言,在管理決策中決策者追求的當(dāng)然是利益最大化。在管理決策中決策者追求的當(dāng)然是利益最大化。決策準(zhǔn)則決策準(zhǔn)則 決策判斷的標(biāo)準(zhǔn),備選方案的有效性度量。決策判斷的標(biāo)準(zhǔn),備選方案的有效性度量。決策屬性決策屬性 決策方案的性能、質(zhì)量參數(shù)、特征和約束,如技術(shù)指決策方案的性能、質(zhì)量參數(shù)、特征和約束,如技術(shù)指標(biāo)、重量、年齡、聲譽(yù)等,用于評(píng)價(jià)它達(dá)到目標(biāo)的程度和水平。標(biāo)、重量、年齡、聲譽(yù)等,用于評(píng)價(jià)它達(dá)到目標(biāo)的程度和水平??茖W(xué)決

5、策過(guò)程科學(xué)決策過(guò)程 任何科學(xué)決策的形成都必須執(zhí)行科學(xué)的決策程序,任何科學(xué)決策的形成都必須執(zhí)行科學(xué)的決策程序,如圖如圖11-1所示。決策最忌諱的就是決策者拍腦袋決策,只有經(jīng)歷所示。決策最忌諱的就是決策者拍腦袋決策,只有經(jīng)歷過(guò)圖過(guò)圖11-1所示的所示的“預(yù)決策預(yù)決策決策決策決策后決策后”三個(gè)階段,才有可能三個(gè)階段,才有可能產(chǎn)生科學(xué)的決策產(chǎn)生科學(xué)的決策 11.1 決策分析的基本問(wèn)題決策分析的基本問(wèn)題11.1 決策分析的基本問(wèn)題決策分析的基本問(wèn)題調(diào)查研究調(diào)查研究 確定決策目標(biāo)確定決策目標(biāo)搜集有關(guān)的信息資料搜集有關(guān)的信息資料預(yù)測(cè)技術(shù)預(yù)測(cè)技術(shù)預(yù)測(cè)未來(lái)的可能情況預(yù)測(cè)未來(lái)的可能情況擬訂各種可行方案擬訂各種可行

6、方案可行性研究可行性研究方案評(píng)估方案評(píng)估決策準(zhǔn)則決策準(zhǔn)則方案選擇方案選擇方案實(shí)施方案實(shí)施預(yù)預(yù)決決策策決決策策實(shí)實(shí)施施情情況況反反饋饋意意見(jiàn)見(jiàn)決策后決策后圖圖11-1 科學(xué)決策過(guò)程科學(xué)決策過(guò)程11.1 決策分析的基本問(wèn)題決策分析的基本問(wèn)題決策系統(tǒng)決策系統(tǒng) 狀態(tài)空間、策略空間、損益函數(shù)構(gòu)成了決策系統(tǒng)。狀態(tài)空間、策略空間、損益函數(shù)構(gòu)成了決策系統(tǒng)。狀態(tài)空間狀態(tài)空間 不以人的意志為轉(zhuǎn)移的客觀(guān)因素,設(shè)一個(gè)狀態(tài)為不以人的意志為轉(zhuǎn)移的客觀(guān)因素,設(shè)一個(gè)狀態(tài)為Si,有有m種不同狀態(tài),其集合記為:種不同狀態(tài),其集合記為:miSSSSSSim, 1,321S稱(chēng)狀態(tài)空間,稱(chēng)狀態(tài)空間,S的元素的元素Si稱(chēng)為狀態(tài)變量。稱(chēng)為

7、狀態(tài)變量。策略空間策略空間 人們根據(jù)不同的客觀(guān)情況,可能做出主觀(guān)的選擇,人們根據(jù)不同的客觀(guān)情況,可能做出主觀(guān)的選擇,記一種策略方案為記一種策略方案為Ui,有,有n種不同的策略,其集合為:種不同的策略,其集合為: njuuuuUjn, 1,21U稱(chēng)為策略空間;稱(chēng)為策略空間;U的元素的元素Uj稱(chēng)為決策變量。稱(chēng)為決策變量。損益函數(shù)損益函數(shù) 當(dāng)狀態(tài)處在當(dāng)狀態(tài)處在Si情況下,人們做出情況下,人們做出Uj決策,從而產(chǎn)生決策,從而產(chǎn)生的損益值的損益值Vij,顯然,顯然Vij是是Si,Uj的函數(shù),即:的函數(shù),即:njmiuSvVjiij, 2 , 1;, 2 , 1),(11.1 決策分析的基本問(wèn)題決策分析的

8、基本問(wèn)題當(dāng)狀態(tài)變量是離散型變量時(shí),損益值構(gòu)成的矩陣叫損益矩陣當(dāng)狀態(tài)變量是離散型變量時(shí),損益值構(gòu)成的矩陣叫損益矩陣 111212122212(,)(,)(,)(,)(,)(,)()(,)(,)(,)nnijm nmmmnv S Uv S Uv S Uv S Uv S Uv S UVVv SUv SUv SU上述三個(gè)主要素組成了決策系統(tǒng),決策系統(tǒng)可以表示為三個(gè)主上述三個(gè)主要素組成了決策系統(tǒng),決策系統(tǒng)可以表示為三個(gè)主要素的函數(shù):要素的函數(shù):DD(S, U, V)人們將根據(jù)不同的判斷標(biāo)準(zhǔn)原則,求得實(shí)現(xiàn)系統(tǒng)目標(biāo)的最優(yōu)人們將根據(jù)不同的判斷標(biāo)準(zhǔn)原則,求得實(shí)現(xiàn)系統(tǒng)目標(biāo)的最優(yōu)(或滿(mǎn)意)決策方案。(或滿(mǎn)意)決策方

9、案。11.1 決策分析的基本問(wèn)題決策分析的基本問(wèn)題11.1.2 決策分析基本原則決策分析基本原則1. 最優(yōu)化(滿(mǎn)意)原則最優(yōu)化(滿(mǎn)意)原則2. 系統(tǒng)原則系統(tǒng)原則3.可行性原則可行性原則4.信息對(duì)稱(chēng)、準(zhǔn)全原則信息對(duì)稱(chēng)、準(zhǔn)全原則11.1.3 決策分析基本分類(lèi)決策分析基本分類(lèi)表表111按影響范圍按影響范圍戰(zhàn)略決策、戰(zhàn)役決策、戰(zhàn)術(shù)決策戰(zhàn)略決策、戰(zhàn)役決策、戰(zhàn)術(shù)決策按狀態(tài)空間按狀態(tài)空間確定型決策、非確定型決策、風(fēng)險(xiǎn)型決策確定型決策、非確定型決策、風(fēng)險(xiǎn)型決策按決策時(shí)間按決策時(shí)間程序化決策、半程序化決策、非程序化決策程序化決策、半程序化決策、非程序化決策按描述方法按描述方法定性化決策、定量化決策定性化決策、定

10、量化決策按目標(biāo)數(shù)量按目標(biāo)數(shù)量單目標(biāo)決策、多目標(biāo)決策單目標(biāo)決策、多目標(biāo)決策按連續(xù)性按連續(xù)性單級(jí)決策、序貫決策單級(jí)決策、序貫決策按決策者數(shù)量按決策者數(shù)量個(gè)人決策、群決策個(gè)人決策、群決策按問(wèn)題大小按問(wèn)題大小宏觀(guān)決策、微觀(guān)決策宏觀(guān)決策、微觀(guān)決策表表112 程序化、非程序化、半程序化決策程序化、非程序化、半程序化決策決策類(lèi)型決策類(lèi)型傳統(tǒng)方法傳統(tǒng)方法現(xiàn)代方法現(xiàn)代方法程序化程序化現(xiàn)有的規(guī)章制度現(xiàn)有的規(guī)章制度運(yùn)籌學(xué)、管理信息系統(tǒng)(運(yùn)籌學(xué)、管理信息系統(tǒng)(MIS)半程序化半程序化經(jīng)驗(yàn)、直覺(jué)經(jīng)驗(yàn)、直覺(jué)灰色系統(tǒng)、模糊數(shù)學(xué)等方法灰色系統(tǒng)、模糊數(shù)學(xué)等方法非程序化非程序化經(jīng)驗(yàn)、應(yīng)急創(chuàng)新能力經(jīng)驗(yàn)、應(yīng)急創(chuàng)新能力人工智能、風(fēng)險(xiǎn)應(yīng)

11、變能力培訓(xùn)人工智能、風(fēng)險(xiǎn)應(yīng)變能力培訓(xùn)11.1 決策分析的基本問(wèn)題決策分析的基本問(wèn)題下一節(jié):確定型和非確定型決策下一節(jié):確定型和非確定型決策11.1 決策分析的基本問(wèn)題決策分析的基本問(wèn)題11.2 確定型和非確定型決策確定型和非確定型決策11.2 確定型和非確定型決策確定型和非確定型決策11.2.1 確定型決策確定型決策確定型決策確定型決策是指決策的未來(lái)狀態(tài)是已知的,只需從備選的決策方是指決策的未來(lái)狀態(tài)是已知的,只需從備選的決策方案中,挑選出最優(yōu)方案。案中,挑選出最優(yōu)方案。 【例【例11.1】某企業(yè)根據(jù)市場(chǎng)需要,需添置一臺(tái)數(shù)控機(jī)床,可采】某企業(yè)根據(jù)市場(chǎng)需要,需添置一臺(tái)數(shù)控機(jī)床,可采用的方式有三種:

12、用的方式有三種: 甲方案:引進(jìn)外國(guó)進(jìn)口設(shè)備,固定成本甲方案:引進(jìn)外國(guó)進(jìn)口設(shè)備,固定成本1000萬(wàn)元,產(chǎn)品每件萬(wàn)元,產(chǎn)品每件可變成本為可變成本為12元;元; 乙方案:用較高級(jí)的國(guó)產(chǎn)設(shè)備,固定成本乙方案:用較高級(jí)的國(guó)產(chǎn)設(shè)備,固定成本800萬(wàn)元,產(chǎn)品每件萬(wàn)元,產(chǎn)品每件可變成本為可變成本為15元;元; 丙方案:用一般國(guó)產(chǎn)設(shè)備,固定成本丙方案:用一般國(guó)產(chǎn)設(shè)備,固定成本600萬(wàn)元,產(chǎn)品每件可變?nèi)f元,產(chǎn)品每件可變成本為成本為20元;元; 試確定在不同生產(chǎn)規(guī)模情況下的購(gòu)置機(jī)床的最優(yōu)方案。試確定在不同生產(chǎn)規(guī)模情況下的購(gòu)置機(jī)床的最優(yōu)方案?!窘狻俊窘狻?此題為確定型決策利用經(jīng)濟(jì)學(xué)知識(shí),選取最優(yōu)決此題為確定型決策利用

13、經(jīng)濟(jì)學(xué)知識(shí),選取最優(yōu)決策最優(yōu)決策也就是在不同生產(chǎn)規(guī)模條件下,選擇總成本較低策最優(yōu)決策也就是在不同生產(chǎn)規(guī)模條件下,選擇總成本較低的方案各方案的總成本線(xiàn)如圖的方案各方案的總成本線(xiàn)如圖11.2 圖圖11.2TC甲甲F甲甲Cv甲甲Q100012QTC乙乙F乙乙Cv乙乙Q80015QTC丙丙F丙丙Cv丙丙Q60020Q 圖中出現(xiàn)了圖中出現(xiàn)了A、B、C三個(gè)交點(diǎn),三個(gè)交點(diǎn),其中其中A點(diǎn)經(jīng)濟(jì)意義:在點(diǎn)經(jīng)濟(jì)意義:在A點(diǎn)采用甲點(diǎn)采用甲方案與丙方案成本相同方案與丙方案成本相同TC甲甲TC丙丙,F(xiàn)甲甲Cv甲甲QAF丙丙Cv丙丙QA )(5012206001000萬(wàn)件甲丙丙甲CvCvFFQAQ5011.2 確定型和非確

14、定型決策確定型和非確定型決策同理:同理:B點(diǎn)點(diǎn)TC乙乙TC丙丙,F(xiàn)乙乙Cv乙乙QBF丙丙Cv丙丙QB )(401520600800萬(wàn)件乙丙丙乙CvCvFFQBC點(diǎn):點(diǎn):TCL甲甲TC乙乙,F(xiàn)甲甲Cv甲甲QCF乙乙Cv乙乙QC B點(diǎn)經(jīng)濟(jì)意義為:當(dāng)生產(chǎn)點(diǎn)經(jīng)濟(jì)意義為:當(dāng)生產(chǎn)40萬(wàn)件時(shí),采用乙方案和采用丙方案成萬(wàn)件時(shí),采用乙方案和采用丙方案成本相同均為本相同均為1400萬(wàn)元萬(wàn)元 (萬(wàn)件)甲乙乙甲320012158001000CvCvFFQC圖圖11.211.2 確定型和非確定型決策確定型和非確定型決策得到生產(chǎn)規(guī)模最優(yōu)方案為:當(dāng)?shù)玫缴a(chǎn)規(guī)模最優(yōu)方案為:當(dāng)生產(chǎn)規(guī)模產(chǎn)量小于生產(chǎn)規(guī)模產(chǎn)量小于40萬(wàn)件時(shí),萬(wàn)件時(shí)

15、,采用丙方案;當(dāng)生產(chǎn)規(guī)模產(chǎn)量采用丙方案;當(dāng)生產(chǎn)規(guī)模產(chǎn)量大于大于40萬(wàn)件,小于萬(wàn)件,小于200/3萬(wàn)件萬(wàn)件時(shí),采用乙方案;當(dāng)生產(chǎn)規(guī)模時(shí),采用乙方案;當(dāng)生產(chǎn)規(guī)模產(chǎn)量大于產(chǎn)量大于200/3萬(wàn)件時(shí),采用萬(wàn)件時(shí),采用甲方案甲方案 其經(jīng)濟(jì)意義為:當(dāng)生產(chǎn)規(guī)模為萬(wàn)件時(shí),采用甲、乙方案成本相其經(jīng)濟(jì)意義為:當(dāng)生產(chǎn)規(guī)模為萬(wàn)件時(shí),采用甲、乙方案成本相同從圖中可知:當(dāng)生產(chǎn)規(guī)模同從圖中可知:當(dāng)生產(chǎn)規(guī)模QB時(shí),采用丙方案;當(dāng)時(shí),采用丙方案;當(dāng)QB 生生產(chǎn)規(guī)模產(chǎn)規(guī)模 QC時(shí),采用乙方案;當(dāng)時(shí),采用乙方案;當(dāng)QC 0,則對(duì)任何概率不則對(duì)任何概率不為零的事件為零的事件B,有,有, 2 , 1)|()()|()()|(mABPAP

16、ABPAPBAPiiimmm11.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 niiikjjkkjNPNZPNPNZPZNP1)()()()()(njlk, 2 , 1;, 2 , 1更一般地更一般地此公式為后驗(yàn)概率此公式為后驗(yàn)概率11.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 產(chǎn)品需求量產(chǎn)品需求量x0100200300400先驗(yàn)概率先驗(yàn)概率p(xi)0.050.150.30.250.25例如,根據(jù)以往的經(jīng)驗(yàn),產(chǎn)品需求量的概率為例如,根據(jù)以往的經(jīng)驗(yàn),產(chǎn)品需求量的概率為產(chǎn)品進(jìn)入市場(chǎng)產(chǎn)品進(jìn)入市場(chǎng)2個(gè)月的試銷(xiāo)后,需求量的樣本信息個(gè)月的試銷(xiāo)后,需求量的樣本信息(比例比例)為為產(chǎn)品需求量產(chǎn)品需求量0100200300400需求量比例需求

17、量比例0.050.150.350.250.20貝葉斯公式:貝葉斯公式:若若A1、A2、構(gòu)成一個(gè)完備事件,構(gòu)成一個(gè)完備事件,P(Ai)0,則對(duì)任何概率不則對(duì)任何概率不為零的事件為零的事件B,有,有, 2 , 1)|()()|()()|(mABPAPABPAPBAPiiimmm11.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 【例】盒子里有【例】盒子里有100枚均勻的硬幣,有枚均勻的硬幣,有60枚是正常的,枚是正常的,40枚兩面枚兩面都是徽。從盒子中任取一枚讓你猜是哪一類(lèi)硬幣。猜中得都是徽。從盒子中任取一枚讓你猜是哪一類(lèi)硬幣。猜中得5元,元,猜不中不得錢(qián)。你猜是哪一類(lèi)?猜不中不得錢(qián)。你猜是哪一類(lèi)?B1(正常正常)B

18、1(雙徽雙徽)3/52/5A1(猜正常猜正常)50A2(猜雙徽猜雙徽)05獲利的期望值獲利的期望值V(A1)=53/5+02/5=3V(A2)=03/5+52/5=2正確的決策是:應(yīng)該選擇猜正常正確的決策是:應(yīng)該選擇猜正常11.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 如果現(xiàn)在拋擲如果現(xiàn)在拋擲3次,次,3次都出現(xiàn)徽,你又如何猜?該硬幣是正常次都出現(xiàn)徽,你又如何猜?該硬幣是正常的概率為多少,是雙徽的概率為多少。的概率為多少,是雙徽的概率為多少。設(shè)設(shè)H為為3次出現(xiàn)反面這一隨機(jī)事件,次出現(xiàn)反面這一隨機(jī)事件,B1為硬幣是正常,為硬幣是正常,B2為硬幣為硬幣是雙徽,則是雙徽,則1)|(,8121)|(231BHpBHp

19、3次都出現(xiàn)雙徽的概率為:次都出現(xiàn)雙徽的概率為:40195215381)()|()()|()(2211BpBHpBpBHpHp19340195381)()()|()|(111HpBpBHpHBp19164019521)()()|()|(222HpBpBHpHBp11.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 B1(正常正常)B1(雙徽雙徽)3/1916/19A1(猜正常猜正常)50A2(猜雙徽猜雙徽)05用后驗(yàn)概率代替原來(lái)的概率,決策矩陣為:用后驗(yàn)概率代替原來(lái)的概率,決策矩陣為:獲利的期望值獲利的期望值V(A1)=53/19+02/5=15/19V(A2)=03/5+516/19=80/19正確的決策是:應(yīng)該選

20、擇猜雙徽正確的決策是:應(yīng)該選擇猜雙徽11.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 根據(jù)過(guò)去經(jīng)驗(yàn)可知當(dāng)自然狀態(tài)為根據(jù)過(guò)去經(jīng)驗(yàn)可知當(dāng)自然狀態(tài)為Nj條件下調(diào)查結(jié)果為條件下調(diào)查結(jié)果為Zk的條件概的條件概率率njlkNZPjk, 2 , 1;, 2 , 1)(再利用貝葉斯公式和全概率公式,求當(dāng)結(jié)果為再利用貝葉斯公式和全概率公式,求當(dāng)結(jié)果為ZK的條件下自然的條件下自然狀態(tài)為狀態(tài)為Nj的條件概率的條件概率 niiikjjkkjNPNZPNPNZPZNP1)()()()()(njlk, 2 , 1;, 2 , 111.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 在后驗(yàn)分析中用在后驗(yàn)分析中用)(kjZNP代替先驗(yàn)分析中的代替先驗(yàn)分析中的P(N

21、j),利用期望值準(zhǔn)則計(jì)算出),利用期望值準(zhǔn)則計(jì)算出Ek再根據(jù)全概率公式,可知結(jié)果為再根據(jù)全概率公式,可知結(jié)果為Zk的概率為的概率為miiikkNPNZPZP1)()()(因此,后驗(yàn)分析的效益期望值為因此,后驗(yàn)分析的效益期望值為 lkkkZPEEMV12)(lkmiZNPNSfEnjkjjiik, 1;, 1)(),(1, miEEijjk, 1,max11.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 當(dāng)狀態(tài)只有兩個(gè)時(shí),后驗(yàn)概率及期望收益可用快捷公式計(jì)算。當(dāng)狀態(tài)只有兩個(gè)時(shí),后驗(yàn)概率及期望收益可用快捷公式計(jì)算。記先驗(yàn)概率向量為記先驗(yàn)概率向量為P,條件概率矩陣為,條件概率矩陣為A,后驗(yàn)概率矩陣為,后驗(yàn)概率矩陣為B,收

22、益矩陣為收益矩陣為V,有,有 2221212122221211112121112122121111112221121121,apapapapapapapapapapapapBaaaaAppP,則先驗(yàn)收益期望值向量為則先驗(yàn)收益期望值向量為EMV1PTV后驗(yàn)收益期望值矩陣為后驗(yàn)收益期望值矩陣為EkBV11.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 【例【例11.6】 某廠(chǎng)對(duì)一臺(tái)機(jī)器的換代問(wèn)題做決策,有三種方案:某廠(chǎng)對(duì)一臺(tái)機(jī)器的換代問(wèn)題做決策,有三種方案:A1為買(mǎi)另為買(mǎi)另一臺(tái)新機(jī)器;一臺(tái)新機(jī)器;A2為對(duì)老機(jī)器進(jìn)行改建;為對(duì)老機(jī)器進(jìn)行改建;A3是維護(hù)加強(qiáng)輸入不同質(zhì)量的是維護(hù)加強(qiáng)輸入不同質(zhì)量的原料,三種方案的收益見(jiàn)表原

23、料,三種方案的收益見(jiàn)表11.8約有約有30%的原料是質(zhì)量好的,還可以的原料是質(zhì)量好的,還可以花花600元對(duì)原料的質(zhì)量進(jìn)行測(cè)試,這種測(cè)試可靠性見(jiàn)表元對(duì)原料的質(zhì)量進(jìn)行測(cè)試,這種測(cè)試可靠性見(jiàn)表11.9求最優(yōu)方求最優(yōu)方案案11.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 原料的實(shí)際質(zhì)量原料的實(shí)際質(zhì)量N1好好N2差差測(cè)試結(jié)果測(cè)試結(jié)果Z1好好0.80.3Z2差差0.20.7原料質(zhì)量原料質(zhì)量Ni購(gòu)新機(jī)器購(gòu)新機(jī)器A1改建老機(jī)器改建老機(jī)器A2維護(hù)老機(jī)器維護(hù)老機(jī)器A3N1好(好(0.3)31.00.8N2差(差(0.7)-1.50.50.6表表11.9 測(cè)試可靠性測(cè)試可靠性 表表11.8 收益表收益表(單位:萬(wàn)元單位:萬(wàn)元)()k

24、iP Z N11.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 【解【解】 (1)若不做測(cè)試,各方案的先驗(yàn)收益 -0.150.7(-1.5)0.331EMV65. 07 . 05 . 03 . 00 . 12EMV66. 07 . 06 . 03 . 08 . 03EMV30.66lEMVEMV萬(wàn)元應(yīng)選方案應(yīng)選方案3,維護(hù)老機(jī)器。,維護(hù)老機(jī)器。 24. 03 . 08 . 0)()()(11111NPNZPZNP06. 03 . 02 . 0)()()(11221NPNZPZNP(2)計(jì)算后驗(yàn)概率計(jì)算后驗(yàn)概率()kjP ZN已知已知聯(lián)合概率為:聯(lián)合概率為: 11.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 21122()() ()

25、0.3 0.70.21P N ZP Z NP N22222()() ()0.7 0.70.49P N ZP ZNP N邊際概率為邊際概率為 45. 021. 024. 0)()()(12111ZNPZNPZP55. 049. 006. 0)()()(22212ZNPZNPZP代入(代入(11.2)從而可得后驗(yàn)概率)從而可得后驗(yàn)概率533. 045. 0/24. 0)()()(11111ZPZNPZNP109. 055. 0/06. 0)()()(22121ZPZNPZNP467. 045. 0/21. 0)()()(11212ZPZNPZNP891. 055. 0/49. 0)()()(222

26、22ZPZNPZNP11.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 則有則有0.5330.46731.00.80.1090.8911.500.8985.50.60.76650.60.70661.00950.5545218kE6218. 08985. 0kE即當(dāng)測(cè)試結(jié)果為原料的質(zhì)量好,則購(gòu)買(mǎi)新機(jī)器;若測(cè)試結(jié)果為即當(dāng)測(cè)試結(jié)果為原料的質(zhì)量好,則購(gòu)買(mǎi)新機(jī)器;若測(cè)試結(jié)果為原材料的質(zhì)量差,則維護(hù)老機(jī)器。原材料的質(zhì)量差,則維護(hù)老機(jī)器。747. 06218. 08985. 055. 045. 02kEPEMV687. 006. 0747. 022CEMVEMV決策為:應(yīng)花決策為:應(yīng)花600元進(jìn)行測(cè)試,測(cè)試后若質(zhì)量好,購(gòu)入新機(jī)

27、器生元進(jìn)行測(cè)試,測(cè)試后若質(zhì)量好,購(gòu)入新機(jī)器生產(chǎn);若質(zhì)量差,維護(hù)老機(jī)器生產(chǎn)產(chǎn);若質(zhì)量差,維護(hù)老機(jī)器生產(chǎn) 【例】石油開(kāi)發(fā)決策問(wèn)題【例】石油開(kāi)發(fā)決策問(wèn)題收益收益勘探勘探250鉆探鉆探150賣(mài)出收益賣(mài)出收益90有油時(shí)收益有油時(shí)收益800干涸時(shí)收益干涸時(shí)收益0自然自然狀態(tài)狀態(tài)先驗(yàn)概率先驗(yàn)概率好好不好不好有油有油干涸干涸勘探結(jié)果勘探結(jié)果自然狀態(tài)自然狀態(tài)11.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 11.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 自然狀態(tài)自然狀態(tài)先驗(yàn)概率先驗(yàn)概率好好(FSS)不好不好(USS)有油有油(Oil)P(O)= 0.6P(F|O)=0.8P(U|O)= 0.2干涸干涸(Dry)P(D)= 0.4P(F|D)=0

28、P(U|D)= 1P(Finding 勘探結(jié)果勘探結(jié)果| State自然狀態(tài)自然狀態(tài))后驗(yàn)概率后驗(yàn)概率P(自然狀態(tài)自然狀態(tài)|勘探結(jié)果勘探結(jié)果)勘探結(jié)果勘探結(jié)果邊際概率邊際概率有油有油(Oil)干涸干涸(Dry)好好(F)不好不好(U)勘探好的概率:勘探好的概率:P(F)=P(O)*P(F|O)+P(D)*P(F|D) =0.60.8+0.40=0.48勘探好的概率:勘探好的概率:P(U)=P(O)*P(U|O)+P(D)*P(U|D) =0.60.2+0.41=0.52勘探好時(shí)有油的概率勘探好時(shí)有油的概率P(O|F)= P(O)*P(F|O) /P(O)*P(F|O)+P(D)*P(F|D)

29、=0.60.8/0.48=1勘探好時(shí)干涸的概率勘探好時(shí)干涸的概率P(D|F)= P(D)*P(F|D) /P(O)*P(F|O)+P(D)*P(F|D) =0.40/0.48=0勘探不好時(shí)有油的概率勘探不好時(shí)有油的概率P(O|U)= P(O)*P(U|O) /P(O)*P(U|O)+P(D)*P(U|D) =0.60.2/0.52=0.2037勘探不好時(shí)干涸的概率勘探不好時(shí)干涸的概率P(D|U)= P(D)*P(U|D) /P(O)*P(U|O)+P(D)*P(U|D) =0.41/0.52=0.76920.480.5210.23076900.769231決策樹(shù)參看文件:決策樹(shù)參看文件:DAT

30、Achpt11ch11.xls下一節(jié):效用理論下一節(jié):效用理論作業(yè):教材作業(yè):教材P269 T3711.3 風(fēng)險(xiǎn)型決策風(fēng)險(xiǎn)型決策 11.4 效用理論效用理論Utility Theory11.4.1 效用效用貝努利貝努利(D.Berneulli)首次提出效用概念,他用圖首次提出效用概念,他用圖11.7表示出人表示出人們對(duì)錢(qián)財(cái)?shù)恼鎸?shí)價(jià)值的考慮與其錢(qián)財(cái)擁有量之間有對(duì)數(shù)關(guān)們對(duì)錢(qián)財(cái)?shù)恼鎸?shí)價(jià)值的考慮與其錢(qián)財(cái)擁有量之間有對(duì)數(shù)關(guān)系系效用是一種相對(duì)的指標(biāo)值,它的大小表示決策者對(duì)于風(fēng)險(xiǎn)的效用是一種相對(duì)的指標(biāo)值,它的大小表示決策者對(duì)于風(fēng)險(xiǎn)的態(tài)度,對(duì)某事物的傾向、偏差等主觀(guān)因素的強(qiáng)弱程度用于量態(tài)度,對(duì)某事物的傾向、偏

31、差等主觀(guān)因素的強(qiáng)弱程度用于量度決策者對(duì)于風(fēng)險(xiǎn)的態(tài)度度決策者對(duì)于風(fēng)險(xiǎn)的態(tài)度. 效用效用U貨幣貨幣M圖圖117 貝努利效用曲線(xiàn)貝努利效用曲線(xiàn)11.4 效用理論效用理論Utility Theory【例【例】(1)方案)方案A1;穩(wěn)獲穩(wěn)獲100元。方案元。方案B1:用拋擲硬幣的方法,猜對(duì)得:用拋擲硬幣的方法,猜對(duì)得250元,猜錯(cuò)不得錢(qián)。元,猜錯(cuò)不得錢(qián)。(2)方案)方案A2;穩(wěn)獲穩(wěn)獲100元。方案元。方案B2:用拋擲硬幣的方法,直到出:用拋擲硬幣的方法,直到出現(xiàn)正面為止,第現(xiàn)正面為止,第n 次出現(xiàn)正面得到次出現(xiàn)正面得到2n元。元。大多數(shù)選擇大多數(shù)選擇A1、A2.通過(guò)計(jì)算有通過(guò)計(jì)算有E(B1)E(A1),

32、 E(B2)E(A2)一般來(lái)說(shuō)效用值在一般來(lái)說(shuō)效用值在0,1之間取值之間取值.凡是決策者最看好、最傾凡是決策者最看好、最傾向、最愿意的事物(事件)的效用值可取向、最愿意的事物(事件)的效用值可取1;反之,效用;反之,效用值取值取0當(dāng)各方案期望值相同時(shí),一般用最大效用值決策當(dāng)各方案期望值相同時(shí),一般用最大效用值決策準(zhǔn)則,選擇效用值最大的方案準(zhǔn)則,選擇效用值最大的方案 11.4 效用理論效用理論Utility Theory通過(guò)效用指標(biāo)將某些難于量化、有質(zhì)的區(qū)別的事件給予量化,通過(guò)效用指標(biāo)將某些難于量化、有質(zhì)的區(qū)別的事件給予量化,得到各方案的綜合效用值,選擇效用值最大的方案作為決策準(zhǔn)得到各方案的綜合

33、效用值,選擇效用值最大的方案作為決策準(zhǔn)則。則。11.4.2 效用曲線(xiàn)效用曲線(xiàn)確定效用曲線(xiàn)的基本方法有兩種:一種是直接確定效用曲線(xiàn)的基本方法有兩種:一種是直接提問(wèn)法提問(wèn)法,需要決,需要決策者回答提問(wèn),主觀(guān)衡量應(yīng)用較少;第二種是策者回答提問(wèn),主觀(guān)衡量應(yīng)用較少;第二種是對(duì)比提問(wèn)法對(duì)比提問(wèn)法,此法使用較多此法使用較多 設(shè)現(xiàn)有設(shè)現(xiàn)有A0,A1兩種方案供選兩種方案供選A0表示決策者不需要花費(fèi)任何風(fēng)表示決策者不需要花費(fèi)任何風(fēng)險(xiǎn)可獲益險(xiǎn)可獲益x0;而;而A1有兩種自然狀態(tài),可以概率有兩種自然狀態(tài),可以概率P獲得收益獲得收益x1,以,以概率(概率(1P)獲得收益)獲得收益x2;且;且x1x0 x2 令令yi表示

34、效益表示效益xi的效用值則的效用值則x0,x1,x2的效用值分別表示為的效用值分別表示為y0,y1,y2 若在某條件下,決策者認(rèn)為若在某條件下,決策者認(rèn)為A0 , A1兩方案等價(jià),則有:兩方案等價(jià),則有: 021)1 (yyPPy11.4 效用理論效用理論Utility Theory4個(gè)數(shù)個(gè)數(shù)p,x0,x1,x2中給定中給定3個(gè),提問(wèn)第個(gè),提問(wèn)第4個(gè)變量由決策者確定,個(gè)變量由決策者確定,求出效用值。求出效用值。一般采用改進(jìn)一般采用改進(jìn)VM(Von NeumannMorgenstern)方法,固定方法,固定P0.5,x1,x2改變改變x0三次,得出相應(yīng)的三次,得出相應(yīng)的y的值,確定三點(diǎn),作出效用

35、的值,確定三點(diǎn),作出效用曲線(xiàn)曲線(xiàn) )()(5 . 0)(5 . 0021xyxyxy11.4 效用理論效用理論Utility Theory)()(5 . 0)(5 . 0021xyxyxy【例【例11.7】x1=100,x2=400,取取y(x1)=0, y(x2)=1-100400第一次提問(wèn):第一次提問(wèn):x0為何值時(shí),上式成立?答:為何值時(shí),上式成立?答:“ 0”y(0)=0.50+0.510.51(0,0.5)第二次提問(wèn):第二次提問(wèn):x0為何值時(shí),上式成立?答:為何值時(shí),上式成立?答:“ 200”y(200)=0.5y(0)+0.51 = 0.50.5+0.510.75第三次提問(wèn):第三次提

36、問(wèn):x0為何值時(shí),為何值時(shí),上式成立?答:上式成立?答:“ 100”y(100)=0.5y(0)+0.5y(200)= 0.50.5+0.50.750.625(200,0.75)(100,0.625)100200 300011.4 效用理論效用理論Utility Theory不同決策者對(duì)待風(fēng)險(xiǎn)態(tài)度不同,因而會(huì)得到不同形狀的效用曲不同決策者對(duì)待風(fēng)險(xiǎn)態(tài)度不同,因而會(huì)得到不同形狀的效用曲線(xiàn)一般可分為保守型線(xiàn)一般可分為保守型、中間型、中間型、風(fēng)險(xiǎn)型、風(fēng)險(xiǎn)型,如下圖,如下圖 y1IIIx(Xmax,1)(Xmin,0)XmaxXmin011.4.3 效用曲線(xiàn)類(lèi)型效用曲線(xiàn)類(lèi)型圖中圖中I為保守型,其特點(diǎn)為:

37、當(dāng)收益為保守型,其特點(diǎn)為:當(dāng)收益值較小時(shí),效用值增加較快;隨收值較小時(shí),效用值增加較快;隨收益值增大時(shí),效用值增加速度變慢,益值增大時(shí),效用值增加速度變慢,表明決策者不求大利,謹(jǐn)慎小心,表明決策者不求大利,謹(jǐn)慎小心,保守保守圖中圖中II為中間型,其特點(diǎn)為:收為中間型,其特點(diǎn)為:收益值和效用值成正比,表明決策益值和效用值成正比,表明決策者完全按機(jī)遇辦事,心平氣和者完全按機(jī)遇辦事,心平氣和圖中圖中III為風(fēng)險(xiǎn)型,其特點(diǎn)為與為風(fēng)險(xiǎn)型,其特點(diǎn)為與I保守型恰好相反,當(dāng)收益值較小保守型恰好相反,當(dāng)收益值較小時(shí),效用值增加較慢;隨收益值時(shí),效用值增加較慢;隨收益值增大時(shí),效用值增加速度變快,增大時(shí),效用值增

38、加速度變快,表明決策者對(duì)增加收益反應(yīng)敏感,表明決策者對(duì)增加收益反應(yīng)敏感,愿冒較大風(fēng)險(xiǎn),謀求大利,不怕愿冒較大風(fēng)險(xiǎn),謀求大利,不怕冒險(xiǎn)冒險(xiǎn) III11.4 效用理論效用理論Utility Theory常用的效用函數(shù):常用的效用函數(shù):11.4 效用理論效用理論Utility Theory11.4.4 效用值的應(yīng)用效用值的應(yīng)用【例【例11.8】 若某決策若某決策問(wèn)題的決策樹(shù)如下圖所問(wèn)題的決策樹(shù)如下圖所示,其決策者的效用期示,其決策者的效用期望值同時(shí)附在效益期望望值同時(shí)附在效益期望值后,請(qǐng)做出決策值后,請(qǐng)做出決策 E(2)=0.53000.5(200)=50 E(3)0.52000.5(100)=50

39、 根據(jù)最大效益期望值準(zhǔn)則,無(wú)法判斷優(yōu)劣根據(jù)最大效益期望值準(zhǔn)則,無(wú)法判斷優(yōu)劣 y2=0.510.500.5, y3=0.50.9+0.50.3=0.6 解:解:(1)計(jì)算效益期望值分別為)計(jì)算效益期望值分別為11.4 效用理論效用理論Utility TheoryA2方案效用值方案效用值A(chǔ)1方案效用值,因此取方案效用值,因此取A2方案為決策方案方案為決策方案繪制效用曲線(xiàn)圖見(jiàn)下圖,可知,該決策者偏向于保守型,不求大繪制效用曲線(xiàn)圖見(jiàn)下圖,可知,該決策者偏向于保守型,不求大利,謹(jǐn)慎小心利,謹(jǐn)慎小心 11.4 效用理論效用理論Utility Theory-20030010100200-100yx11.5

40、馬爾可夫決策馬爾可夫決策 Markov Decision11.5馬爾可夫決策馬爾可夫決策 Markov Decision11.5.1 馬爾可夫鏈馬爾可夫鏈 用用X(t)表示隨機(jī)系統(tǒng)在時(shí)刻表示隨機(jī)系統(tǒng)在時(shí)刻t 的狀態(tài),狀態(tài)序列的狀態(tài),狀態(tài)序列TttX);(為一隨機(jī)過(guò)程,如果系統(tǒng)當(dāng)前的轉(zhuǎn)移概率只與當(dāng)前的運(yùn)行狀為一隨機(jī)過(guò)程,如果系統(tǒng)當(dāng)前的轉(zhuǎn)移概率只與當(dāng)前的運(yùn)行狀態(tài)有關(guān),而與以前的狀態(tài)無(wú)關(guān),即:對(duì)隨機(jī)過(guò)程態(tài)有關(guān),而與以前的狀態(tài)無(wú)關(guān),即:對(duì)隨機(jī)過(guò)程 TttX);(若對(duì)任意的若對(duì)任意的0t1t2tntn+1及及tiT,X(tn+1)關(guān)于)關(guān)于X(t1), X(tn)的條件概率恰好等于)的條件概率恰好等于X

41、(tn+1)關(guān)于)關(guān)于X(tn)的條件概率,)的條件概率,用數(shù)學(xué)符號(hào)表示為:用數(shù)學(xué)符號(hào)表示為:,)()(;,)()()(1)(1ninnnnninnnUitXjtXPtUitXjtXP策以前各時(shí)期的狀態(tài)和決則稱(chēng)則稱(chēng) 具有馬爾可夫性隨機(jī)過(guò)程稱(chēng)為馬爾可夫過(guò)程。具有馬爾可夫性隨機(jī)過(guò)程稱(chēng)為馬爾可夫過(guò)程。 TttX);(所有可能的全體取值稱(chēng)為過(guò)程的狀態(tài)空間。所有可能的全體取值稱(chēng)為過(guò)程的狀態(tài)空間。 TttX);(若馬氏過(guò)程的狀態(tài)空間為非負(fù)整數(shù)集若馬氏過(guò)程的狀態(tài)空間為非負(fù)整數(shù)集E0,1,2,稱(chēng)為馬,稱(chēng)為馬氏鏈。例如,今天下雨這一狀態(tài)用氏鏈。例如,今天下雨這一狀態(tài)用“ 0”表示,不下雨用表示,不下雨用“ 1”

42、表表示,則狀態(tài)空間為示,則狀態(tài)空間為 E0,1。天氣變化過(guò)程符合馬。天氣變化過(guò)程符合馬Markov性。性。11.5.2 轉(zhuǎn)移概率轉(zhuǎn)移概率 記記Pij為從狀態(tài)為從狀態(tài)X(n)=i轉(zhuǎn)移到下一個(gè)狀態(tài)轉(zhuǎn)移到下一個(gè)狀態(tài)X(n+1)=j 的概率,一的概率,一步轉(zhuǎn)移概率矩陣為步轉(zhuǎn)移概率矩陣為mmmmmmPPPPPPPPPP21222211121111.5馬爾可夫決策馬爾可夫決策 Markov Decision【例【例11.9】有】有3家電器公司分別生產(chǎn)三種不同牌子的空調(diào)。各自家電器公司分別生產(chǎn)三種不同牌子的空調(diào)。各自開(kāi)展廣告攻勢(shì)促銷(xiāo)本公司產(chǎn)品。各公司所占的市場(chǎng)比例是隨時(shí)開(kāi)展廣告攻勢(shì)促銷(xiāo)本公司產(chǎn)品。各公司所占

43、的市場(chǎng)比例是隨時(shí)間變化的。間變化的。 XXn,n0構(gòu)成一個(gè)以構(gòu)成一個(gè)以E1,2,3為為 狀態(tài)空間的狀態(tài)空間的Markov鏈。假設(shè)在任一時(shí)刻,公司鏈。假設(shè)在任一時(shí)刻,公司1能留住它的能留住它的1/2的老顧客,其余的則的老顧客,其余的則對(duì)半購(gòu)買(mǎi)另兩個(gè)公司的產(chǎn)品;公司對(duì)半購(gòu)買(mǎi)另兩個(gè)公司的產(chǎn)品;公司2的一半顧客能留下,其余轉(zhuǎn)的一半顧客能留下,其余轉(zhuǎn)向公司向公司1;公司;公司3有有3/4能留下,其余流向公司能留下,其余流向公司2。Markov鏈的轉(zhuǎn)鏈的轉(zhuǎn)移概率矩陣和轉(zhuǎn)移圖:移概率矩陣和轉(zhuǎn)移圖:4341002121414121P1/21/41/41/21/21/43/411.5馬爾可夫決策馬爾可夫決策 M

44、arkov Decision求求n期后公司期后公司i的市場(chǎng)占有率,的市場(chǎng)占有率,n時(shí)的市場(chǎng)占有率。時(shí)的市場(chǎng)占有率。記記Pj(n)=P(Xn=j)為為Markov鏈鏈X時(shí)刻時(shí)刻n處于狀態(tài)處于狀態(tài)j的概率,的概率,P為初為初始分布。始分布?!径ɡ怼径ɡ怼?XXn,n0為一個(gè)為一個(gè)Markov鏈,則有鏈,則有112111220,12(1) (,|)(2) (1)( )(3) ( )(0),(0)(,)nnnni ii iiinmP Xi XiXiXipppP nP n PG nGP Gg gg為初始狀態(tài),是行向量對(duì)任意對(duì)任意m,n0,有,有)()()(nPmPnmP對(duì)任意對(duì)任意i,jE,有,有Ekk

45、jikijnpmpnmp)()()(此方程稱(chēng)為此方程稱(chēng)為Champan-Kolmogorov方程,簡(jiǎn)稱(chēng)方程,簡(jiǎn)稱(chēng)CK方程方程11.5.3 轉(zhuǎn)移狀態(tài)轉(zhuǎn)移狀態(tài) 11.5馬爾可夫決策馬爾可夫決策 Markov Decision【例【例11.10】假設(shè)】假設(shè)3個(gè)公司開(kāi)始的市場(chǎng)占有率為個(gè)公司開(kāi)始的市場(chǎng)占有率為(0.3,0.35,0.35),求求5個(gè)月后的市場(chǎng)占有率個(gè)月后的市場(chǎng)占有率(狀態(tài)狀態(tài))?!窘狻窘狻縋0 (0.3,0.35,0.35)5()0()5(PGG)3375. 0 ,3375. 0 ,325. 0(75. 025. 0005 . 05 . 025. 025. 05 . 0)35. 0 ,3

46、5. 0 , 3 . 0()0() 1 (PGG)33408. 0 ,33262. 0 ,3333. 0(75. 025. 0005 . 05 . 025. 025. 05 . 0)35. 0 ,35. 0 , 3 . 0()0()5(55PGG11.5馬爾可夫決策馬爾可夫決策 Markov Decision遍歷性:如果一個(gè)齊次的馬爾可夫鏈遍歷性:如果一個(gè)齊次的馬爾可夫鏈X(n), n=1,2,的的n步轉(zhuǎn)移步轉(zhuǎn)移概率為概率為Pij(n),對(duì)于一切狀態(tài),對(duì)于一切狀態(tài)i,j,存在著不依賴(lài)于初始狀態(tài),存在著不依賴(lài)于初始狀態(tài)i的常的常數(shù)數(shù)Pj,使得,使得 jijnpnp)(lim成立,則稱(chēng)此馬爾可夫鏈

47、具有遍歷性也就是說(shuō),一個(gè)具有遍成立,則稱(chēng)此馬爾可夫鏈具有遍歷性也就是說(shuō),一個(gè)具有遍歷性的馬爾可夫鏈,當(dāng)轉(zhuǎn)移的次數(shù)歷性的馬爾可夫鏈,當(dāng)轉(zhuǎn)移的次數(shù)n極大時(shí),此系統(tǒng)轉(zhuǎn)移到狀極大時(shí),此系統(tǒng)轉(zhuǎn)移到狀態(tài)態(tài)j的概率為一個(gè)常數(shù)的概率為一個(gè)常數(shù)Pj,而與初始狀態(tài)無(wú)關(guān),而與初始狀態(tài)無(wú)關(guān) nnPlim求求【引理】設(shè)【引理】設(shè)m 階矩陣階矩陣P具有具有m個(gè)線(xiàn)性無(wú)關(guān)的特征向量個(gè)線(xiàn)性無(wú)關(guān)的特征向量 B(b1,b2, ,bm)對(duì)應(yīng)的特征值為對(duì)應(yīng)的特征值為1, 2,m,則,則B可逆且有可逆且有PBB1,Pn= BnB1.其中其中diag(1, 2,m)11.5馬爾可夫決策馬爾可夫決策 Markov Decision上例中,求

48、上例中,求Pn及及nnPlim求轉(zhuǎn)移概率矩陣求轉(zhuǎn)移概率矩陣P的特征值及特征向量。由的特征值及特征向量。由|IP|=0得得0)25. 0)(5 . 0)(1(75. 025. 0005 . 05 . 025. 025. 05 . 0特征值及特征向量矩陣為特征值及特征向量矩陣為313132101313131,111211101412111BB,11.5馬爾可夫決策馬爾可夫決策 Markov Decision1141211BBBBPnnnnnnnnnnnnnnnnn)41(31)21(31)41(3131)41(32)21(31)41(32)21(31)41(3231)41(34)21(31)41(

49、3131)41(3131)41(3231則有則有11.5馬爾可夫決策馬爾可夫決策 Markov Decision313131313131313131limnnP31,31,31lim)35. 0 ,35. 0 , 3 . 0(lim)0()(limnnnnnPPGnGG長(zhǎng)期后市場(chǎng)占有率各占長(zhǎng)期后市場(chǎng)占有率各占1/3PnGnG)() 1(GPGPnGnGnn,)(lim) 1(lim由由得得解方程得到穩(wěn)定狀態(tài)的概率解方程得到穩(wěn)定狀態(tài)的概率G11.5馬爾可夫決策馬爾可夫決策 Markov Decision【例【例11.10】 設(shè)某公司有兩種狀態(tài):設(shè)某公司有兩種狀態(tài):1和和2,1為盈利,為盈利,2為

50、虧為虧損當(dāng)其處于損當(dāng)其處于1時(shí),下一年仍為時(shí),下一年仍為1的概率是的概率是1/2,因此下一年轉(zhuǎn)為,因此下一年轉(zhuǎn)為2的概率也是的概率也是1/2當(dāng)公司處于狀態(tài)當(dāng)公司處于狀態(tài)2時(shí),下一年經(jīng)過(guò)努力回到狀態(tài)時(shí),下一年經(jīng)過(guò)努力回到狀態(tài)1的概率為的概率為2/5,仍處于虧損狀態(tài)的概率為,仍處于虧損狀態(tài)的概率為3/5若公司現(xiàn)處于狀若公司現(xiàn)處于狀態(tài)態(tài)1,問(wèn)經(jīng)過(guò),問(wèn)經(jīng)過(guò)n年后該公司處于狀態(tài)年后該公司處于狀態(tài)1和和2的概率各是多少?的概率各是多少? 解解: 顯然,系統(tǒng)有兩個(gè)狀態(tài),設(shè)顯然,系統(tǒng)有兩個(gè)狀態(tài),設(shè)S為狀態(tài)空間,則:為狀態(tài)空間,則:S=i, j=1, 2此處,此處,p11=1/2, p12=1/2, p21=2

51、/5, p22=3/5因此因此 5352212122211211ppppP設(shè)設(shè)G(g1,g2),由,由GGP11.5馬爾可夫決策馬爾可夫決策 Markov Decision設(shè)設(shè)G(g1,g2),由,由GGP5352212122211211ppppP53522121),(),(2121gggg1,5321,522121212211gggggggg95,9421gg11.5馬爾可夫決策馬爾可夫決策 Markov Decision11.5.4 收益預(yù)測(cè)模型收益預(yù)測(cè)模型 ),(nnif 設(shè)系統(tǒng)在第設(shè)系統(tǒng)在第n個(gè)時(shí)期處于狀態(tài)個(gè)時(shí)期處于狀態(tài)X(n)=i,轉(zhuǎn)移到過(guò)程終結(jié)時(shí)的總期,轉(zhuǎn)移到過(guò)程終結(jié)時(shí)的總期望收益

52、為望收益為 , 2 , 1;, 2 , 1),(),(111nmijfrPifnjnnijijnnrij 表示從狀態(tài)表示從狀態(tài)X(n)=i 轉(zhuǎn)移到下一個(gè)狀態(tài)轉(zhuǎn)移到下一個(gè)狀態(tài)X(n+1)=j 相應(yīng)的收益,相應(yīng)的收益,則有:則有: n表示從第表示從第n個(gè)時(shí)期到過(guò)程終結(jié)的決策規(guī)則個(gè)時(shí)期到過(guò)程終結(jié)的決策規(guī)則的序列的序列 ,1nn),(1nnn其中其中n為第為第n個(gè)時(shí)期的決策規(guī)則,個(gè)時(shí)期的決策規(guī)則, 11.5馬爾可夫決策馬爾可夫決策 Markov Decisionq(i)表示由狀態(tài)表示由狀態(tài)i 作一次轉(zhuǎn)移的期望報(bào)酬,即狀態(tài)的即時(shí)期望報(bào)作一次轉(zhuǎn)移的期望報(bào)酬,即狀態(tài)的即時(shí)期望報(bào)酬則酬則 ), 2 , 1()

53、(1mjijijmirPiq),()(),(111mjnnijnnjfPiqif令令或或) 1()(1mjjijiinfPqnf11.5馬爾可夫決策馬爾可夫決策 Markov Decision若記數(shù)從末端開(kāi)始,上式的逆序?qū)懛椋喝粲洈?shù)從末端開(kāi)始,上式的逆序?qū)懛椋?)()()()(21nfnfnfnFmmqqqQ21mmmmmmPPPPPPPPPP212222111211則則 , 2 , 1) 1()(nnFPQnFQF) 1 (, 2 , 1;, 2 , 1) 1()(1nminfPqnfmjjijii11.7馬爾可夫決策馬爾可夫決策 Markov Decision11.7馬爾可夫決策馬爾可

54、夫決策 Markov Decision【例】商品的轉(zhuǎn)移概率矩陣和利潤(rùn)表如下【例】商品的轉(zhuǎn)移概率矩陣和利潤(rùn)表如下暢銷(xiāo)暢銷(xiāo)滯銷(xiāo)滯銷(xiāo)暢銷(xiāo)暢銷(xiāo)0.50.5滯銷(xiāo)滯銷(xiāo)0.40.6暢銷(xiāo)暢銷(xiāo)滯銷(xiāo)滯銷(xiāo)暢銷(xiāo)暢銷(xiāo)5010滯銷(xiāo)滯銷(xiāo)2020轉(zhuǎn)移概率表轉(zhuǎn)移概率表利潤(rùn)表利潤(rùn)表(萬(wàn)元萬(wàn)元)q1=0.550+0.51030, q2=0.420+0.6(20)4), 2 , 1()(1mjijijmirPiq, 2 , 1) 1()(nnFPQnF300.50.53043(2)40.40.645.6300.50.54354.3(3)40.40.65.616.56FFn123456f1(n)304454.365.4376.5438

55、7.6543f2(n)45.616.5627.65638.765649.87656期利潤(rùn)預(yù)測(cè)期利潤(rùn)預(yù)測(cè)11.5.5 最優(yōu)策略模型最優(yōu)策略模型 Markov決策由五重組來(lái)描述:決策由五重組來(lái)描述: 1. 狀態(tài)狀態(tài) i 2. 策略集策略集 ,狀態(tài),狀態(tài)i 的策略規(guī)則為的策略規(guī)則為 3. 轉(zhuǎn)移概率矩陣轉(zhuǎn)移概率矩陣P 4. 報(bào)酬,狀態(tài)報(bào)酬,狀態(tài)i 的策略規(guī)則為的策略規(guī)則為 轉(zhuǎn)移到狀態(tài)轉(zhuǎn)移到狀態(tài)j 的報(bào)酬為的報(bào)酬為 期望即時(shí)報(bào)酬為期望即時(shí)報(bào)酬為 5. 目標(biāo)函數(shù)目標(biāo)函數(shù)V(n),1nn)(i)(i)(iijr)(iiq11.5馬爾可夫決策馬爾可夫決策 Markov Decision Markov決策(決策

56、(MD)描述)描述 在某一時(shí)刻(階段)隨機(jī)變量在某一時(shí)刻(階段)隨機(jī)變量X處于狀態(tài)處于狀態(tài)i ,決策者選擇某個(gè),決策者選擇某個(gè)策略使目標(biāo)最優(yōu)。策略使目標(biāo)最優(yōu)。MD常用的目標(biāo)有常用的目標(biāo)有3種:種: 1.有限階段目標(biāo);有限階段目標(biāo);2. 折扣目標(biāo);折扣目標(biāo);3.平均目標(biāo)平均目標(biāo)有限階段目標(biāo)最大。通過(guò)有限階段目標(biāo)最大。通過(guò)Z變換:變換:mifnPqnfPqnfmjjijimjjijii, 2 , 1) 1() 1()(1111.5馬爾可夫決策馬爾可夫決策 Markov DecisionMjjijiqsv1(1)(0)FTQSF( )iif nnvf記記11miijjijvnfpnvqf1miijj

57、ijvfp fqi=1,2, ,m (11.18)解方程組求出變量解方程組求出變量 fi 與與 v 采用迭代計(jì)算:采用迭代計(jì)算:(1)選擇一個(gè)初始策)選擇一個(gè)初始策 ,每一個(gè)狀態(tài),每一個(gè)狀態(tài)i(i=1,2,m)選擇)選擇一個(gè)決策規(guī)則一個(gè)決策規(guī)則 使其決策使其決策 ,令,令n=0; n0)(nmf)()(iunkin(2) 對(duì)已知策略,令對(duì)已知策略,令 ,求解方程組,求解方程組(11.18),得相應(yīng)的,得相應(yīng)的策略獲利策略獲利v(n)和相對(duì)值和相對(duì)值 f(n),(,(i=1,2,m;n=0,1,2);); 11.5馬爾可夫決策馬爾可夫決策 Markov Decision(3)應(yīng)用上一策略已求得的

58、)應(yīng)用上一策略已求得的 ,尋求一個(gè)新的策略規(guī)則,尋求一個(gè)新的策略規(guī)則 n+1,對(duì)每一個(gè)狀態(tài),對(duì)每一個(gè)狀態(tài)i,使,使 )(nmf11( )( )( )1maxnnmiiniijjijvqpff由此得新的策略由此得新的策略 1n(4)若所得策略)若所得策略 與前次迭代所得策略與前次迭代所得策略 完全相等,則完全相等,則停止迭代,已得到了最優(yōu)策略;否則回到步驟停止迭代,已得到了最優(yōu)策略;否則回到步驟2,令,令n=n+1 1nn11.5馬爾可夫決策馬爾可夫決策 Markov Decision【例【例11.12】某水泥廠(chǎng)有一臺(tái)窯爐處于兩種運(yùn)行狀態(tài),即運(yùn)轉(zhuǎn)和】某水泥廠(chǎng)有一臺(tái)窯爐處于兩種運(yùn)行狀態(tài),即運(yùn)轉(zhuǎn)和故障,窯爐工人每年定期檢查設(shè)備一次若窯爐正常則選擇維故障,窯爐工人每年定期檢查設(shè)備一次若窯爐正常則選擇維護(hù)或不維護(hù);若窯爐故障則選擇大修或常規(guī)維修,其轉(zhuǎn)移概率護(hù)或不維護(hù);若窯爐故障則選擇大修或常規(guī)維修,其轉(zhuǎn)移概率與相應(yīng)的報(bào)酬如下表,試求該廠(chǎng)應(yīng)采取的最佳策略使在無(wú)限期與相應(yīng)的報(bào)酬如下表,試求該廠(chǎng)應(yīng)采取的最佳策略使在無(wú)限期的未來(lái)每年所獲平均收入最大的未來(lái)每年所獲平均收入最大 表表11 .12 轉(zhuǎn)移概率和報(bào)酬轉(zhuǎn)移概率和報(bào)酬)()(ivKi iip1 iip2 2iir 1iir)(iiq狀態(tài)狀態(tài)I決決 策策轉(zhuǎn)移概率轉(zhuǎn)移概率報(bào)報(bào) 酬酬期望期望即時(shí)報(bào)酬即時(shí)報(bào)酬1運(yùn)轉(zhuǎn)運(yùn)轉(zhuǎn)1.(不維護(hù)不維護(hù))2.(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論