




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
決策理論與方法
(DecisionMakingTheoryandMethods)
《決策理論與方法》編寫組決策理論與方法
(DecisionMakingTheor第四章動(dòng)態(tài)決策分析第四章動(dòng)態(tài)決策分析學(xué)習(xí)目的了解多階段決策、序貫決策的概念及特點(diǎn);掌握動(dòng)態(tài)規(guī)劃與決策樹方法及其在多階段決策、序貫決策中的應(yīng)用。學(xué)習(xí)目的了解多階段決策、序貫決策的概念及特點(diǎn);本講內(nèi)容4.1動(dòng)態(tài)決策的基本原理4.2多屬性決策本講內(nèi)容4.1動(dòng)態(tài)決策的基本原理4.1多階段決策問題的提出4.1.1動(dòng)態(tài)規(guī)劃概述
規(guī)劃問題的最終目的就是確定各決策變量的取值,以使目標(biāo)函數(shù)達(dá)到極大或極小。在線性規(guī)劃和非線性規(guī)劃中,決策變量都是以集合的形式被一次性處理的;然而,有時(shí)我們也會(huì)面對(duì)決策變量需分期、分批處理的多階段決策問題。所謂多階段決策問題是指這樣一類活動(dòng)過程:它可以分解為若干個(gè)互相聯(lián)系的階段,在每一階段分別對(duì)應(yīng)著一組可供選取的決策集合,即構(gòu)成過程的每個(gè)階段都需要進(jìn)行一次決策。將各個(gè)階段的決策綜合起來構(gòu)成一個(gè)決策序列,稱為一個(gè)策略。顯然,由于各個(gè)階段選取的決策不同,對(duì)應(yīng)整個(gè)過程可以有一系列不同的策略。當(dāng)過程采取某個(gè)具體策略時(shí),相應(yīng)可以得到一個(gè)確定的效果,采取不同的策略,就會(huì)得到不同的效果。多階段的決策問題,就是要在所有可能采取的策略中選取一個(gè)最優(yōu)策略,以便得到最佳的效果。動(dòng)態(tài)規(guī)劃同前面介紹過的各種優(yōu)化方法不同,它不是一種算法,而是考察問題的一種途徑。動(dòng)態(tài)規(guī)劃是一種求解多階段決策問題的系統(tǒng)技術(shù),可以說它橫跨整個(gè)規(guī)劃領(lǐng)域(線性規(guī)劃和非線性規(guī)劃)。當(dāng)然,由于動(dòng)態(tài)規(guī)劃不是一種特定的算法,因而它不像線性規(guī)劃那樣有一個(gè)標(biāo)準(zhǔn)的數(shù)學(xué)表達(dá)式和明確定義的一組規(guī)則,動(dòng)態(tài)規(guī)劃必須對(duì)具體問題進(jìn)行具體的分析處理。在多階段決策問題中,有些問題對(duì)階段的劃分具有明顯的時(shí)序性,動(dòng)態(tài)規(guī)劃的“動(dòng)態(tài)”二字也由此而得名。4.1多階段決策問題的提出4.1.1動(dòng)態(tài)規(guī)劃概述
動(dòng)態(tài)規(guī)劃的主要?jiǎng)?chuàng)始人是美國數(shù)學(xué)家貝爾曼。20世紀(jì)40年代末50年代初,當(dāng)時(shí)在蘭德公司從事研究工作的貝爾曼首先提出了動(dòng)態(tài)規(guī)劃的概念。1951年貝爾曼首先提出了動(dòng)態(tài)規(guī)劃中解決多階段決策問題的最優(yōu)化原理,并給出了許多實(shí)際問題的解法。1957年貝爾曼出版了他的第一部著作《動(dòng)態(tài)規(guī)劃》,標(biāo)志著運(yùn)籌學(xué)這一重要分支的誕生。該著作成為當(dāng)時(shí)唯一的進(jìn)一步研究和應(yīng)用動(dòng)態(tài)規(guī)劃的理論源泉。1961年貝爾曼出版了他的第二部著作,并于1962年同杜瑞佛思合作出版了第三部著作。在貝爾曼及其助手們致力于發(fā)展和推廣這一技術(shù)的同時(shí),其他一些學(xué)者也對(duì)動(dòng)態(tài)規(guī)劃的發(fā)展作了巨大的貢獻(xiàn),其中最值得一提的是愛爾思和梅特頓。愛爾思先后于1961年和1964年出版了兩部關(guān)于動(dòng)態(tài)規(guī)劃的著作,并于1964年同尼母霍思爾、威爾德一道創(chuàng)建了處理分支、循環(huán)性多階段決策系統(tǒng)的一般性理論。梅特頓提出了許多對(duì)動(dòng)態(tài)規(guī)劃后來發(fā)展有著重要意義的基礎(chǔ)性觀點(diǎn),并且對(duì)明晰動(dòng)態(tài)規(guī)劃路徑的數(shù)學(xué)性質(zhì)作出了巨大的貢獻(xiàn)。動(dòng)態(tài)規(guī)劃從創(chuàng)立到現(xiàn)在50多年來,無論在工程技術(shù)、企業(yè)管理還是在工農(nóng)業(yè)生產(chǎn)及軍事等部門都有著廣泛的應(yīng)用,并取得了顯著的效果。在管理方面,動(dòng)態(tài)規(guī)劃可用于資源分配問題、最短路徑問題、庫存問題、背包問題、設(shè)備更新問題、最優(yōu)控制問題等等,所以動(dòng)態(tài)規(guī)劃是現(xiàn)代管理學(xué)中進(jìn)行科學(xué)決策不可缺少的工具。動(dòng)態(tài)規(guī)劃的優(yōu)點(diǎn)在于,它把一個(gè)多維決策問題轉(zhuǎn)化為若干個(gè)一維最優(yōu)化問題,而對(duì)一維最優(yōu)化問題一個(gè)一個(gè)地去解,這種方法是許多求極值方法所做不到的,它幾乎優(yōu)于所有現(xiàn)存的優(yōu)化方法。除此之外,動(dòng)態(tài)規(guī)劃能求出全局極大或極小,這一點(diǎn)也優(yōu)于其他優(yōu)化方法。需要指出的是,動(dòng)態(tài)規(guī)劃是求解最優(yōu)化問題的一種方法,是解決問題的一種途徑,而不是一種算法。在前面我們學(xué)習(xí)了用單純形法解線性規(guī)劃問題,凡是具有線性規(guī)劃問題那樣統(tǒng)一的數(shù)學(xué)模型都可以用單純形法去求解,而動(dòng)態(tài)規(guī)劃的主要?jiǎng)?chuàng)始人是美國數(shù)學(xué)家貝爾曼。20動(dòng)態(tài)規(guī)劃問題的求解卻沒有統(tǒng)一的方法(類似于單純形法)。因此在用動(dòng)態(tài)規(guī)劃求解最優(yōu)化問題中,必須對(duì)具體問題具體分析,針對(duì)不同的問題,使用動(dòng)態(tài)規(guī)劃最優(yōu)化原理和方法,建立起與其相應(yīng)的數(shù)學(xué)模型,然后再用動(dòng)態(tài)規(guī)劃方法去求解。根據(jù)動(dòng)態(tài)規(guī)劃這些特點(diǎn),要求我們?cè)趯W(xué)好動(dòng)態(tài)規(guī)劃的基本原理和方法的同時(shí),還應(yīng)具有豐富的想象力,只有這樣才能建好模型求出問題的最優(yōu)解。動(dòng)態(tài)規(guī)劃問題的求解卻沒有統(tǒng)一的方法(類似于單純形法)。因此在4.1動(dòng)態(tài)決策的基本原理4.1.1動(dòng)態(tài)規(guī)劃
動(dòng)態(tài)規(guī)劃(dynamicProgramming,DP)是解決多階段決策過程最優(yōu)化的一種方法,其基本思路是將多階段決策過程轉(zhuǎn)化為一系列相互關(guān)聯(lián)的單階段問題,并依次求解。
DP是離散系統(tǒng)最優(yōu)化的一種有效工具,目前動(dòng)態(tài)規(guī)劃已廣泛用于工業(yè)、農(nóng)業(yè)、工程技術(shù)、資源、環(huán)境、經(jīng)濟(jì)、社會(huì)等領(lǐng)域。
4.1動(dòng)態(tài)決策的基本原理4.1.1動(dòng)態(tài)規(guī)劃4.1動(dòng)態(tài)決策的基本原理4.1.1動(dòng)態(tài)規(guī)劃例4-1-1最優(yōu)線路問題。由水源地向城市的輸水線路需通過3個(gè)控制點(diǎn),每個(gè)控制點(diǎn)均有兩個(gè)可選方案,每段線路的輸水費(fèi)用如下圖所示。選出一條輸水線路,使得總輸水費(fèi)用最小。4.1動(dòng)態(tài)決策的基本原理4.1.1動(dòng)態(tài)規(guī)劃4.1動(dòng)態(tài)決策的基本原理4.1.1動(dòng)態(tài)規(guī)劃
最優(yōu)性原理(theprincipleofoptimality)也稱為Bellman原理,是R.Bellman提出的DP的基本原理,其表述為:“一個(gè)過程的最優(yōu)策略具有這樣的性質(zhì),即無論初始狀態(tài)和初始決策如何,對(duì)于由前面的決策所形成的狀態(tài)來說,其后各階段的決策序列必定構(gòu)成相應(yīng)子過程的最優(yōu)策略”。4.1動(dòng)態(tài)決策的基本原理4.1.1動(dòng)態(tài)規(guī)劃4.1動(dòng)態(tài)決策的基本原理4.1.2決策樹
決策樹(decisiontree)就是將決策過程各個(gè)階段之間的結(jié)構(gòu)繪制成一張箭線圖,每個(gè)決策或事件(即自然狀態(tài))都可能引出兩個(gè)或多個(gè)事件,導(dǎo)致不同的結(jié)果。決策樹的構(gòu)成有四個(gè)要素:1)決策結(jié)點(diǎn);2)方案枝;3)狀態(tài)結(jié)點(diǎn);4)概率枝。
4.1動(dòng)態(tài)決策的基本原理4.1.2決策樹4.1動(dòng)態(tài)決策的基本原理4.1.2決策樹
方案枝方案枝決策結(jié)點(diǎn)概率枝概率枝狀態(tài)結(jié)點(diǎn)概率枝概率枝概率枝狀態(tài)結(jié)點(diǎn)概率枝4.1動(dòng)態(tài)決策的基本原理4.1.2決策樹方案枝方案枝決策4.1動(dòng)態(tài)決策的基本原理4.1.2決策樹決策樹法的決策程序如下:
1)繪制樹狀圖,根據(jù)已知條件排列出各個(gè)方案和每一方案的各種自然狀態(tài)。
2)將各狀態(tài)概率及損益值標(biāo)于概率枝上。
3)計(jì)算各方案期望值并將其標(biāo)于該方案對(duì)應(yīng)的狀態(tài)結(jié)點(diǎn)上。
4)進(jìn)行剪枝,比較各個(gè)方案的期望值,并標(biāo)于方案枝上,將期望值小的(即劣等方案剪掉)所剩的最后方案為最佳方案。
4.1動(dòng)態(tài)決策的基本原理4.1.2決策樹4.2多階段決策
多階段決策有以下三個(gè)特點(diǎn),第一,決策者需要做出時(shí)間上有先后之別的多個(gè)決策;第二,前一次決策的選擇將直接影響到后一次決策,后一次決策的狀態(tài)取決于前一次決策的結(jié)果;第三,決策者關(guān)心的是多次決策的總結(jié)果,而不是各次決策的即時(shí)后果。
4.2多階段決策4.2多階段決策4.2.1多階段決策過程的基本概念(1)階段(2)狀態(tài)(3)決策與策略(4)指標(biāo)函數(shù)與目標(biāo)函數(shù)(5)多階段決策過程4.2多階段決策4.2.1多階段決策過程的基本概念4.2多階段決策4.2.2多階段決策問題的決策方法多階段決策問題包括確定型與隨機(jī)型兩大類,在確定型多階段決策中,目標(biāo)值都是確定值,在風(fēng)險(xiǎn)型多階段決策中,目標(biāo)值用期望值作為評(píng)價(jià)的標(biāo)準(zhǔn)。下面分別以兩個(gè)例子說明其決策方法。4.2多階段決策4.2.2多階段決策問題的決策方法4.2多階段決策4.2.2多階段決策問題的決策方法例4-2-1某公司考慮為某新產(chǎn)品定價(jià),該產(chǎn)品的單價(jià)擬從每件5元、6元、7元、8元這四個(gè)價(jià)格中選取其中之一,每年年初允許變動(dòng)價(jià)格,但幅度不能超過1元。該公司預(yù)計(jì)該產(chǎn)品暢銷只有五年,五年后將被淘汰,另據(jù)銷售情況的預(yù)測,在價(jià)格不同的情況下各年的預(yù)計(jì)利潤額見右表。單價(jià)第1年第2年第3年第4年第5年5元10121520256元1213162024716151514144.2多階段決策4.2.2多階段決策問題的決策方法單價(jià)第4.2多階段決策4.2.2多階段決策問題的決策方法例4-2-1決策圖
736045845元1012152025736045846元1213162024736045847元1414161818736045848元16151514144.2多階段決策4.2.2多階段決策問題的決策方法734.2多階段決策4.2.2多階段決策問題的決策方法
例4-2-2為了更正確地掌握市場情況,正式投產(chǎn)公司打算先生產(chǎn)少量產(chǎn)品試銷,試銷費(fèi)需要5000元。試銷結(jié)果分為產(chǎn)品受歡迎(H1),一般(H2)和不受歡迎(H3)三種。由于試銷面不寬,試銷結(jié)果的準(zhǔn)確性有限。其準(zhǔn)確度(似然分布矩陣)見下表:θP(θ)P(H1︱θ)P(H2︱θ)P(H3︱θ)θ10.60.60.30.1θ20.30.20.60.2θ30.10.20.30.54.2多階段決策4.2.2多階段決策問題的決策方法θP4.2多階段決策4.2.2多階段決策問題的決策方法例4-2-2的表格(0.6)(0.3)(0.1)4000020000-300003000030000-20000100001000010000
(0.6)(0.3)(0.1)0.60.20.20.30.60.30.10.20.54.2多階段決策4.2.2多階段決策問題的決策方法(0如不買此項(xiàng)專利,把這筆費(fèi)用用在其他方面,在同樣的時(shí)期可獲利1.1萬元。那么,該公司應(yīng)該如何決(1)是否買專利?(2)如果買專利,是否采取試銷辦法?(3)如果不試銷,應(yīng)大批生產(chǎn),中批生產(chǎn)還是小批生產(chǎn)?如果試銷,又應(yīng)該如何根據(jù)試銷結(jié)果決定其行動(dòng)?如不買此項(xiàng)專利,把這筆費(fèi)用用在其他方面,在同樣的時(shí)期可獲利1第一階段127買專利不買專利試銷不試銷3456H1H2H38910a1a2a3θ1θ2θ3(略)第二階段第三階段例4-2-2第一階段127買專利不買專利試銷不試銷3456H1H2H38例4-2-2解:這是一個(gè)三階段決策問題,采用逆序歸納法進(jìn)行決策分析,先要計(jì)算在一定的試銷結(jié)果下的各后驗(yàn)概率。由全概率公式:計(jì)算得:例4-2-2解:這是一個(gè)三階段決策問題,采用逆序歸納法進(jìn)行決例4-2-2再由貝葉斯公式:計(jì)算得:例4-2-2再由貝葉斯公式:計(jì)算得:例4-2-2當(dāng)試銷結(jié)果為H1時(shí):故當(dāng)試銷結(jié)果為H1時(shí),應(yīng)選擇大批生產(chǎn)a1,截去方案a2、a3,結(jié)點(diǎn)4的值為3.406萬元。----結(jié)點(diǎn)8----結(jié)點(diǎn)9----結(jié)點(diǎn)10例4-2-2當(dāng)試銷結(jié)果為H1時(shí):故當(dāng)試銷結(jié)果為H1時(shí),應(yīng)例4-2-2當(dāng)試銷結(jié)果為H2時(shí):故當(dāng)試銷結(jié)果為H2時(shí),應(yīng)選擇中批生產(chǎn)a2,截去方案a1、a3,結(jié)點(diǎn)5的值為2.62萬元
。例4-2-2當(dāng)試銷結(jié)果為H2時(shí):故當(dāng)試銷結(jié)果為H2時(shí),應(yīng)例4-2-2當(dāng)試銷結(jié)果為H3時(shí):故當(dāng)試銷結(jié)果為H3時(shí),也應(yīng)選擇中批生產(chǎn)a2,截去方案a1、a3,結(jié)點(diǎn)6的值為1.53萬元。例4-2-2當(dāng)試銷結(jié)果為H3時(shí):故當(dāng)試銷結(jié)果為H3時(shí),也例4-2-2試銷收益期望值:故當(dāng)不試銷時(shí),應(yīng)選擇大批生產(chǎn)a1,截去方案a2、a3,結(jié)點(diǎn)7的值為2.7萬元。不試銷的收益期望值:----結(jié)點(diǎn)3例4-2-2試銷收益期望值:故當(dāng)不試銷時(shí),應(yīng)選擇大批生產(chǎn)a1例4-2-2決策:(1)購買專利; (2)不試銷; (3)大批生產(chǎn)a2。購買專利總期望收益=2.7-1=1.7萬元,大于不買技術(shù)的收益1.1萬元,截去不買專利方案,結(jié)點(diǎn)1的值為1.7萬元
。試銷收益期望值扣除試銷費(fèi)用5000元后小于不試銷的收益值,截去試銷方案,結(jié)點(diǎn)2的值為2.7萬元。例4-2-2決策:(1)購買專利;購買專利總期望收益=2.7第一階段127買專利不買專利試銷不試銷3456H1
0.44H20.39H30.178910a1a2a30.8180.1360.046(略)第二階段第三階段例4-2-24萬元2萬元-3萬元1.1萬元3.406萬2.77萬1萬3.406萬2.62萬1.53萬2.78054萬-0.5萬2.7萬2.7萬-1萬1.7萬第一階段127買專利不買專利試銷不試銷3456H10.444.2多階段決策4.2.2多階段決策問題的決策方法例4-2-的決策樹買不試試不買8493567214.2多階段決策4.2.2多階段決策問題的決策方法買不本講內(nèi)容4.3序貫決策
4.3.1序貫決策的基本概念
4.3.2序貫決策的決策方法本講內(nèi)容4.3序貫決策4.3序貫決策4.3.1序貫決策的基本概念上面的多階段決策,階段數(shù)是確定的。除這種決策外,還有一些決策的階段數(shù)不是事先確定的,它依賴于執(zhí)行決策過程中出現(xiàn)的情況。這種決策問題稱為序貫決策(sequentialdecisionproblem)。序列決策在進(jìn)行決策后又產(chǎn)生一些新的情況,需要進(jìn)行新的決策,接著又有一些新的情況,又需要進(jìn)行新的決策。這樣決策、情況、決策……,這就構(gòu)成一個(gè)序列。
4.3序貫決策4.3.1序貫決策的基本概念4.3序貫決策4.3.1序貫決策的基本概念序貫決策是用于隨機(jī)性或不確態(tài)定性動(dòng)態(tài)系統(tǒng)最優(yōu)化的決策方法。它的特點(diǎn)是:
1)所研究的系統(tǒng)是動(dòng)態(tài)的,即系統(tǒng)所處的狀態(tài)與時(shí)間有關(guān),可周期(或連續(xù))地對(duì)它觀察;
2)決策是序貫地進(jìn)行的,即每個(gè)時(shí)刻根據(jù)所觀察到的狀態(tài)和以前狀態(tài)的記錄,從一組可行方案中選用一個(gè)最優(yōu)方案(即作最優(yōu)決策),使取決于狀態(tài)的某個(gè)目標(biāo)函數(shù)取最優(yōu)值(極大或極小值);
3)系統(tǒng)下一步(或未來)可能出現(xiàn)的狀態(tài)是隨機(jī)的或不確定的。4.3序貫決策4.3.1序貫決策的基本概念4.3序貫決策4.3.1序貫決策的基本概念
系統(tǒng)在每次作出決策后下一步可能出現(xiàn)的狀態(tài)是不能確切預(yù)知的,存在兩種情況:
1)系統(tǒng)下一步可能出現(xiàn)的狀態(tài)的概率分布是已知的,可用客觀概率的條件分布來描述。對(duì)于這類系統(tǒng)的序貫決策研究得較完滿的是狀態(tài)轉(zhuǎn)移律具有無后效性的系統(tǒng),相應(yīng)的序貫決策稱為馬爾可夫決策過程,它是將馬爾可夫過程理論與決定性動(dòng)態(tài)規(guī)劃相結(jié)合的產(chǎn)物。
2)系統(tǒng)下一步可能出現(xiàn)的狀態(tài)的概率分布不知道,只能用主觀概率的條件分布來描述。用于這類系統(tǒng)的序貫決策屬于決策分析的內(nèi)容。4.3序貫決策4.3.1序貫決策的基本概念4.3序貫決策4.3.2序貫決策的決策方法
序貫決策的過程是:從初始狀態(tài)開始,每個(gè)時(shí)刻做出最優(yōu)決策后,接著觀察下一步實(shí)際出現(xiàn)的狀態(tài),即收集新的信息,然后再做出新的最優(yōu)決策,反復(fù)進(jìn)行直至最后。解決序貫決策問題的有效辦法仍然是決策樹,解決序貫決策的關(guān)鍵是確定一個(gè)決策序列終止的原則。在下例中,這個(gè)原則就是:不管到?jīng)Q策的哪個(gè)階段,只要有一個(gè)非經(jīng)抽樣的后悔期望值小于進(jìn)行一次抽樣的費(fèi)用,決策序列便可終止。4.3序貫決策4.3.2序貫決策的決策方法4.3序貫決策4.3.2序貫決策的決策方法
例4-3-1某工廠的產(chǎn)品每1000件裝成一箱出售。每箱中產(chǎn)品的次品率有0.01,0.40,0.90三種可能,其概率分別為0.2,0.6,0.2。現(xiàn)在的問題是:出廠前是否要對(duì)產(chǎn)品進(jìn)行嚴(yán)格檢驗(yàn),將次品挑出。可以選擇的行動(dòng)有兩個(gè):①整箱檢驗(yàn)(a1),檢驗(yàn)費(fèi)為每箱100元;②整箱不檢驗(yàn)(a2),但如果顧客在使用中發(fā)現(xiàn)次品,每件次品除條換為合格品外還要賠償0.25元損失費(fèi)。4.3序貫決策4.3.2序貫決策的決策方法4.3序貫決策為了更好地做出決定可以先從一箱中隨機(jī)抽取1件作為樣本檢驗(yàn)它,然后根據(jù)這件產(chǎn)品是都次品再?zèng)Q定該箱是否要檢驗(yàn),抽樣成本為4.2元。進(jìn)行第一次抽樣后,除選擇檢驗(yàn)還是不檢驗(yàn)外,還可以根據(jù)前面抽樣的結(jié)果,考慮再進(jìn)行一次抽樣檢驗(yàn)如此形成一個(gè)決策序列。試進(jìn)行序列決策:(1)是否需要抽樣?(若需要,抽樣幾次?)(2)在抽樣或不抽樣的前提下,采用何種方案進(jìn)行檢驗(yàn)?4.3序貫決策為了更好地做出決定可以先從一箱中隨機(jī)抽取1件【例8.2】
解:θ1,θ2,θ3分別表示產(chǎn)品次品率為0.01,0.4,0.9三種狀態(tài)。對(duì)于抽樣檢驗(yàn)一件產(chǎn)品,X=1和X=0分別表示樣品為次品和合格品兩個(gè)結(jié)果。結(jié)果值均用期望損失值表示。序列決策樹圖不能夠一次繪制成功,而是隨著決策過程序列的延伸和終止依次進(jìn)行。為了簡化圖形,行動(dòng)方案al和a2可能出現(xiàn)的狀態(tài)及其對(duì)應(yīng)的損失值均在圖中略去,僅在方案枝末端標(biāo)注上期望損失值?!纠?.2】解:θ1,θ2,θ3分別表示產(chǎn)品次品率為014532867抽樣繼續(xù)抽樣a1a2A1A2A3A4不抽樣X1=0X1=1停止抽樣9X2=0X2=1a1a2繼續(xù)抽樣停止抽樣(略)………14532867抽樣繼續(xù)抽樣a1a2A1A2A3A4不抽樣X相應(yīng)的損失矩陣為先進(jìn)行第一次抽樣的后驗(yàn)概率計(jì)算該問題的費(fèi)用矩陣為:相應(yīng)的損失矩陣為先進(jìn)行第一次抽樣的后驗(yàn)概率計(jì)算該問題的費(fèi)用矩決策理論與方法教學(xué)第四章動(dòng)態(tài)決策分析課件【例8.2】第一次抽樣的后驗(yàn)概率矩陣為【例8.2】第一次抽樣的后驗(yàn)概率矩陣為后驗(yàn)行動(dòng)方案的期望損失值矩陣為一次抽樣后最滿意方案分別為:后驗(yàn)行動(dòng)方案的期望損失值矩陣為一次抽樣后最滿意方案分別為:6.894.3250.458219.52.6933.404.3250.458253.3119.525抽樣a1a2a1a2a1a2A1A2A3A4S1S2不抽樣X1=0X1=10.5780.4220.34260.62280.03460.34260.56870.42650.00470.56870.42650.20.60.20.00470.56870.42650.20.20.697.5000012597.5000012597.50000125期望損失值(包含抽樣費(fèi)用)4.20
若為正品,則無須檢驗(yàn)整箱產(chǎn)品;若為次品,則整箱檢驗(yàn)。最滿意方案是,應(yīng)抽取一件產(chǎn)品作樣品檢驗(yàn)。6.894.3250.458219.52.6933.404.在A2上X1=1的決策點(diǎn)處,由于行動(dòng)方案a1的期望損失值0.4582已小于抽樣費(fèi)用4.20,所以第二次抽樣分支S2在此處被截?cái)?,決策序列在該分支上終止。而在Xl=0的決策點(diǎn)處,由于行動(dòng)方案al,a2。的期望損失值分別為33.40和4.324,均大于抽樣費(fèi)用4.20,因此,在此分支上,可進(jìn)行第二次抽樣,抽樣結(jié)果用X2表示。X2=0和X2=1分別表示第二次抽樣抽取一個(gè)樣品為正品和次品。在A2上X1=1的決策點(diǎn)處,由于行動(dòng)方案a1的期望損失值0.第二次抽樣的后驗(yàn)概率計(jì)算如下:第二次抽樣的后驗(yàn)概率計(jì)算如下:決策理論與方法教學(xué)第四章動(dòng)態(tài)決策分析課件第二次抽樣的后驗(yàn)概率矩陣為后驗(yàn)行動(dòng)方案的期望損失值矩陣為二次抽樣后最滿意方案分別為:第二次抽樣的后驗(yàn)行動(dòng)方案的期望損失值矩陣為二次抽樣后最滿由于X2=0在的決策點(diǎn)處,方案a2的期望損失值0.6038已小于抽樣費(fèi)用4.20,則序列決策的這一分支應(yīng)該終止。同樣,對(duì)于X2=1決策點(diǎn)處,由于方案a1的期望損失值1.1778也小于抽樣費(fèi)用,則這一分枝也應(yīng)終止。于是,到此決策序列全部終止。由于X2=0在的決策點(diǎn)處,方案a2的期望損失值0.6038已4.20a1a2s1a1a2s2X1=02533.44.3254.2019.50.578a1a2s3X2=046.170.60384.200.7163a1a2s3X1=113.734.200.28371.1778a1a2s2X1=113.734.200.4220.4582A1A2A3S1S26.892.694.3250.45820.76664.3251.1778…4.20a1a2s1a1a2s2X1=02533.44.32在A3上X2=0的決策點(diǎn)處,最滿意行動(dòng)方案為a2,截去a1和s3;在X2=1的決策點(diǎn)處,最滿意行動(dòng)方案為a1,截去a2和s3。在s2狀態(tài)點(diǎn)處,期望損失值為:在A3上X2=0的決策點(diǎn)處,最滿意行動(dòng)方案為a2,截去a在A2上X1=0的決策點(diǎn)處,最滿意行動(dòng)方案為a2,截去a1和s2;在X1=1的決策點(diǎn)處,最滿意行動(dòng)方案為a1,截去a2和s2。在s1狀態(tài)點(diǎn)處,期望損失值為:在A1決策點(diǎn)處,最滿意方案的期望損失值為:所以截去a1和a2。
在A2上X1=0的決策點(diǎn)處,最滿意行動(dòng)方案為a2,截去a綜上所述,決策是:應(yīng)該進(jìn)行一次抽樣檢驗(yàn)。若為正品,則采取行動(dòng)方案a2,即整箱產(chǎn)品不予檢驗(yàn);若為次品,則采取行動(dòng)方案a1,即整箱產(chǎn)品予以檢驗(yàn),序列決策過程也可以用簡化決策樹圖表示。6.892.694.204.3250.4582s10.5780.422a1a24.3250.4621綜上所述,決策是:應(yīng)該進(jìn)行一次抽樣檢驗(yàn)。6.892.694.§4.4馬爾可夫決策研究這樣的一類決策問題: 采取的行動(dòng)已經(jīng)確定,但將這個(gè)行動(dòng)付諸實(shí)踐的過程又分為幾個(gè)時(shí)期。在不同的時(shí)期,系統(tǒng)可以處在不同的狀態(tài),而這些狀態(tài)發(fā)生的概率又可受前面時(shí)期實(shí)際所處狀態(tài)的影響。其中一種最簡單、最基本的情形,是每一時(shí)期狀態(tài)參數(shù)的概率分布只與這一時(shí)期的前一時(shí)期實(shí)際所處的狀態(tài)有關(guān),而與更早的狀態(tài)無關(guān),這就是所謂的馬爾可夫鏈?!?.4馬爾可夫決策研究這樣的一類決策問題:§4.4馬爾可夫決策4.4.1馬爾可夫決策問題馬氏過程 馬爾科夫(M.A.Markov
)提出一種描述系統(tǒng)狀態(tài)轉(zhuǎn)移的數(shù)學(xué)模型,稱為馬爾科夫過程,簡稱馬氏過程。馬氏決策 利用馬氏過程分析系統(tǒng)當(dāng)前狀態(tài)并預(yù)測未來狀態(tài)的決策方法,稱為馬爾科夫決策,簡稱馬氏決策。§4.4馬爾可夫決策4.4.1馬爾可夫決策問題§4.4馬爾可夫決策4.4.2馬爾可夫鏈與轉(zhuǎn)移概率矩陣
若隨機(jī)過程{X(t),t∈T},對(duì)于任意的
t1<t2<…<tn,ti∈T都有
P{x(tn)<y|x(tn-1)=xn-1,…,x(t1)=x1} =P{x(tn)<y|x(tn-1)=xn-1}則稱{X(t),t∈T}具有馬爾可夫性。含義:{x(tn)}的將來只是通過現(xiàn)在與過去發(fā)生聯(lián)系,一旦現(xiàn)在已知,則將來與過去無關(guān)?!?.4馬爾可夫決策4.4.2馬爾可夫鏈與轉(zhuǎn)移概率矩陣4.4.2馬爾可夫鏈與轉(zhuǎn)移概率矩陣
條件概率P{xn=j|xn-1=i}稱為轉(zhuǎn)移概率,表示系統(tǒng)在n-1步狀態(tài)為i時(shí),第n步狀態(tài)為j的概率—一步轉(zhuǎn)移概率。若一步轉(zhuǎn)移概率不隨時(shí)間變化(具有穩(wěn)定性),記pij=P{xn=j|xn-1=i},稱矩陣P=(pij)為轉(zhuǎn)移概率矩陣。 其中: 4.4.2馬爾可夫鏈與轉(zhuǎn)移概率矩陣條件概率P{xn=j4.4.2馬爾可夫鏈與轉(zhuǎn)移概率矩陣馬爾可夫鏈定義 如果隨機(jī)過程{Xt},t=1,2,…,滿足下述性質(zhì),則稱{Xt}是一個(gè)有限狀態(tài)的馬爾可夫(Markov)鏈。(1)具有有限種狀態(tài);(2)具有馬爾可夫性;(3)轉(zhuǎn)移概率具有平穩(wěn)性。4.4.2馬爾可夫鏈與轉(zhuǎn)移概率矩陣馬爾可夫鏈定義§4.4馬爾可夫決策例:某企業(yè)為使技術(shù)人員具有多方面經(jīng)驗(yàn),實(shí)行技術(shù)人員在技術(shù)部門、生產(chǎn)部門和銷售部門的輪換工作制度。輪換辦法采取隨機(jī)形式,每半年輪換一次。初始狀態(tài),即技術(shù)人員開始是在某部門工作的概率用Pj(0)表示,j=1,2,3;pij表示處于第i個(gè)部門的技術(shù)人員在半年后轉(zhuǎn)移到第j個(gè)部門的概率?!?.4馬爾可夫決策例:某企業(yè)為使技術(shù)人員具有多方面經(jīng)§4.4馬爾可夫決策已知:問某人開始在第1部門工作,一年后在第2部門工作的概率是多少?一年后,技術(shù)人員在3個(gè)部門工作的概率各為多少?§4.4馬爾可夫決策已知:問某人開始在第1部門工作,一年后§4.4馬爾可夫決策解:由狀態(tài)1經(jīng)過兩次轉(zhuǎn)移到狀態(tài)2的所有途徑為
1→1→2,1→2→2,1→3→2
記由狀態(tài)i經(jīng)兩步轉(zhuǎn)移到狀態(tài)j的概率為 ,則:若某人開始在第一部門工作,則一年后在第二部門工作的概率是50%。§4.4馬爾可夫決策解:由狀態(tài)1經(jīng)過兩次轉(zhuǎn)移到狀態(tài)2的所有§4.4馬爾可夫決策解:記一年后技術(shù)人員在第j個(gè)部門工作的概率為Pj(2),則:一年后,技術(shù)人員在3個(gè)部門工作的概率§4.4馬爾可夫決策解:記一年后技術(shù)人員在第j個(gè)部門工作的§4.4馬爾可夫決策
由上例可看出 從而有一般地,有§4.4馬爾可夫決策 由上例可看出 從而有一般地,有§4.4馬爾可夫決策4.4.3穩(wěn)態(tài)概率為穩(wěn)態(tài)概率。由于初始狀態(tài)對(duì)n步轉(zhuǎn)移后所處狀態(tài)的影響隨n增大而減少,故:因此我們可以從n步轉(zhuǎn)移矩陣的極限取得穩(wěn)態(tài)概率分布稱§4.4馬爾可夫決策4.4.3穩(wěn)態(tài)概率為穩(wěn)態(tài)概率。由§4.4馬爾可夫決策得且此方程組稱為穩(wěn)態(tài)方程。記則§4.4馬爾可夫決策得且此方程組稱為穩(wěn)態(tài)方程。記則4.4.4馬爾可夫應(yīng)用實(shí)例例1
某生產(chǎn)商標(biāo)為A的產(chǎn)品的廠商為了與另外兩個(gè)生產(chǎn)同類產(chǎn)品B和C的廠家競爭,有三種可供選擇的措施:(1)發(fā)放有獎(jiǎng)債券;(2)開展廣告宣傳;(3)優(yōu)質(zhì)售后服務(wù)。三種方案分別實(shí)施以后,經(jīng)統(tǒng)計(jì)調(diào)查可知,該類商品的市場占有率的轉(zhuǎn)移矩陣分別是4.4.4馬爾可夫應(yīng)用實(shí)例例1某生產(chǎn)商標(biāo)為A的產(chǎn)品的廠該類商品的月總銷售量為1000萬件,每件可獲利1元。另外,三種措施的成本費(fèi)分別為150萬,40萬,30萬。為長遠(yuǎn)利益考慮,生產(chǎn)商標(biāo)為A的產(chǎn)品的廠商應(yīng)該采取何種措施?解:采取第一種措施的穩(wěn)態(tài)概率解得:且該類商品的月總銷售量為1000萬件,每件可獲利1元。另外,三解:同理可解出采取第二、第三種措施的穩(wěn)態(tài)概率分別為:計(jì)算生產(chǎn)A的廠商采取三種方案的期望利潤如下:方案市場占有率期望毛利(萬元)方案成本(萬元)期望凈利(萬元)(1)2/3666.67150516.67(2)19/34558.8340518.83(3)6/11545.4530515.45因此生產(chǎn)A的廠商應(yīng)采取的長期策略為方案(2)。解:同理可解出采取第二、第三種措施的穩(wěn)態(tài)概率分別為:計(jì)算生產(chǎn)
例2
我國出口某種設(shè)備,在國際市場上的銷售狀況有兩種:暢銷和滯銷。暢銷每年可以獲利100萬元,滯銷時(shí)每年僅獲利30萬元。以一年為一個(gè)時(shí)期,如果不采用廣告推廣產(chǎn)品或采取廣告措施,狀態(tài)的轉(zhuǎn)移矩陣分別如下P1暢銷滯銷暢銷0.80.2滯銷0.40.6不采取廣告措施
采取廣告措施P2暢銷滯銷暢銷0.90.1滯銷0.70.3例2 我國出口某種設(shè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東梅州職業(yè)技術(shù)學(xué)院《交通規(guī)劃課程設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 哈爾濱商業(yè)大學(xué)《物理化學(xué)實(shí)驗(yàn)(上)》2023-2024學(xué)年第二學(xué)期期末試卷
- 黑龍江藝術(shù)職業(yè)學(xué)院《地理專業(yè)》2023-2024學(xué)年第二學(xué)期期末試卷
- 14保護(hù)呼吸器官(教學(xué)設(shè)計(jì))-2024-2025學(xué)年科學(xué)三年級(jí)上冊(cè)人教鄂教版
- 河南輕工職業(yè)學(xué)院《嵌入式綜合實(shí)訓(xùn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 中南林業(yè)科技大學(xué)《生命科學(xué)進(jìn)展》2023-2024學(xué)年第二學(xué)期期末試卷
- 宜賓學(xué)院《天然產(chǎn)物》2023-2024學(xué)年第二學(xué)期期末試卷
- 哈爾濱商業(yè)大學(xué)《流體力學(xué)B》2023-2024學(xué)年第二學(xué)期期末試卷
- 瀘州四川瀘州瀘縣氣象局見習(xí)基地招收見習(xí)人員2人筆試歷年參考題庫附帶答案詳解
- 大連軟件職業(yè)學(xué)院《數(shù)據(jù)結(jié)構(gòu)實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- GB/T 5796.3-1986梯形螺紋基本尺寸
- GB/T 4851-2014膠粘帶持粘性的試驗(yàn)方法
- GB/T 3860-2009文獻(xiàn)主題標(biāo)引規(guī)則
- GB/T 13277.3-2015壓縮空氣第3部分:濕度測量方法
- 人教版小學(xué)精通英語單元五下Unit1整合教案
- (課件)港口安全知識(shí)培訓(xùn)講解
- 2022年企業(yè)安全生產(chǎn)知識(shí)培訓(xùn)講座PPT課件(帶內(nèi)容)
- 產(chǎn)品設(shè)計(jì)思維課件
- 電子直線加速器的工作原理專題培訓(xùn)課件
- 2023年孝感市孝南區(qū)全要素自然資源有限公司招聘筆試題庫及答案解析
- 臨終關(guān)懷成品課件
評(píng)論
0/150
提交評(píng)論