決策理論與方法教學(xué)第四章動(dòng)態(tài)決策分析課件

上傳人：w*** IP屬地：貴州上傳時(shí)間：2023-07-30 格式：PPTX 頁數(shù)：75 大?。?.29MB 積分：25 舉報(bào) 版權(quán)申訴

決策理論與方法教學(xué)第四章動(dòng)態(tài)決策分析課件_第2頁

決策理論與方法教學(xué)第四章動(dòng)態(tài)決策分析課件_第3頁

決策理論與方法教學(xué)第四章動(dòng)態(tài)決策分析課件_第4頁

決策理論與方法教學(xué)第四章動(dòng)態(tài)決策分析課件_第5頁

已閱讀5頁，還剩70頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

決策理論與方法

（DecisionMakingTheoryandMethods）

《決策理論與方法》編寫組決策理論與方法

（DecisionMakingTheor第四章動(dòng)態(tài)決策分析第四章動(dòng)態(tài)決策分析學(xué)習(xí)目的了解多階段決策、序貫決策的概念及特點(diǎn)；掌握動(dòng)態(tài)規(guī)劃與決策樹方法及其在多階段決策、序貫決策中的應(yīng)用。學(xué)習(xí)目的了解多階段決策、序貫決策的概念及特點(diǎn)；本講內(nèi)容4.1動(dòng)態(tài)決策的基本原理4.2多屬性決策本講內(nèi)容4.1動(dòng)態(tài)決策的基本原理4.1多階段決策問題的提出4.1.1動(dòng)態(tài)規(guī)劃概述

規(guī)劃問題的最終目的就是確定各決策變量的取值，以使目標(biāo)函數(shù)達(dá)到極大或極小。在線性規(guī)劃和非線性規(guī)劃中，決策變量都是以集合的形式被一次性處理的；然而，有時(shí)我們也會(huì)面對(duì)決策變量需分期、分批處理的多階段決策問題。所謂多階段決策問題是指這樣一類活動(dòng)過程：它可以分解為若干個(gè)互相聯(lián)系的階段，在每一階段分別對(duì)應(yīng)著一組可供選取的決策集合，即構(gòu)成過程的每個(gè)階段都需要進(jìn)行一次決策。將各個(gè)階段的決策綜合起來構(gòu)成一個(gè)決策序列，稱為一個(gè)策略。顯然，由于各個(gè)階段選取的決策不同，對(duì)應(yīng)整個(gè)過程可以有一系列不同的策略。當(dāng)過程采取某個(gè)具體策略時(shí)，相應(yīng)可以得到一個(gè)確定的效果，采取不同的策略，就會(huì)得到不同的效果。多階段的決策問題，就是要在所有可能采取的策略中選取一個(gè)最優(yōu)策略，以便得到最佳的效果。動(dòng)態(tài)規(guī)劃同前面介紹過的各種優(yōu)化方法不同，它不是一種算法，而是考察問題的一種途徑。動(dòng)態(tài)規(guī)劃是一種求解多階段決策問題的系統(tǒng)技術(shù)，可以說它橫跨整個(gè)規(guī)劃領(lǐng)域（線性規(guī)劃和非線性規(guī)劃）。當(dāng)然，由于動(dòng)態(tài)規(guī)劃不是一種特定的算法，因而它不像線性規(guī)劃那樣有一個(gè)標(biāo)準(zhǔn)的數(shù)學(xué)表達(dá)式和明確定義的一組規(guī)則，動(dòng)態(tài)規(guī)劃必須對(duì)具體問題進(jìn)行具體的分析處理。在多階段決策問題中，有些問題對(duì)階段的劃分具有明顯的時(shí)序性，動(dòng)態(tài)規(guī)劃的“動(dòng)態(tài)”二字也由此而得名。4.1多階段決策問題的提出4.1.1動(dòng)態(tài)規(guī)劃概述

動(dòng)態(tài)規(guī)劃的主要?jiǎng)?chuàng)始人是美國數(shù)學(xué)家貝爾曼。20世紀(jì)40年代末50年代初，當(dāng)時(shí)在蘭德公司從事研究工作的貝爾曼首先提出了動(dòng)態(tài)規(guī)劃的概念。1951年貝爾曼首先提出了動(dòng)態(tài)規(guī)劃中解決多階段決策問題的最優(yōu)化原理，并給出了許多實(shí)際問題的解法。1957年貝爾曼出版了他的第一部著作《動(dòng)態(tài)規(guī)劃》，標(biāo)志著運(yùn)籌學(xué)這一重要分支的誕生。該著作成為當(dāng)時(shí)唯一的進(jìn)一步研究和應(yīng)用動(dòng)態(tài)規(guī)劃的理論源泉。1961年貝爾曼出版了他的第二部著作，并于1962年同杜瑞佛思合作出版了第三部著作。在貝爾曼及其助手們致力于發(fā)展和推廣這一技術(shù)的同時(shí)，其他一些學(xué)者也對(duì)動(dòng)態(tài)規(guī)劃的發(fā)展作了巨大的貢獻(xiàn)，其中最值得一提的是愛爾思和梅特頓。愛爾思先后于1961年和1964年出版了兩部關(guān)于動(dòng)態(tài)規(guī)劃的著作，并于1964年同尼母霍思爾、威爾德一道創(chuàng)建了處理分支、循環(huán)性多階段決策系統(tǒng)的一般性理論。梅特頓提出了許多對(duì)動(dòng)態(tài)規(guī)劃后來發(fā)展有著重要意義的基礎(chǔ)性觀點(diǎn)，并且對(duì)明晰動(dòng)態(tài)規(guī)劃路徑的數(shù)學(xué)性質(zhì)作出了巨大的貢獻(xiàn)。動(dòng)態(tài)規(guī)劃從創(chuàng)立到現(xiàn)在50多年來，無論在工程技術(shù)、企業(yè)管理還是在工農(nóng)業(yè)生產(chǎn)及軍事等部門都有著廣泛的應(yīng)用，并取得了顯著的效果。在管理方面，動(dòng)態(tài)規(guī)劃可用于資源分配問題、最短路徑問題、庫存問題、背包問題、設(shè)備更新問題、最優(yōu)控制問題等等，所以動(dòng)態(tài)規(guī)劃是現(xiàn)代管理學(xué)中進(jìn)行科學(xué)決策不可缺少的工具。動(dòng)態(tài)規(guī)劃的優(yōu)點(diǎn)在于，它把一個(gè)多維決策問題轉(zhuǎn)化為若干個(gè)一維最優(yōu)化問題，而對(duì)一維最優(yōu)化問題一個(gè)一個(gè)地去解，這種方法是許多求極值方法所做不到的，它幾乎優(yōu)于所有現(xiàn)存的優(yōu)化方法。除此之外，動(dòng)態(tài)規(guī)劃能求出全局極大或極小，這一點(diǎn)也優(yōu)于其他優(yōu)化方法。需要指出的是，動(dòng)態(tài)規(guī)劃是求解最優(yōu)化問題的一種方法，是解決問題的一種途徑，而不是一種算法。在前面我們學(xué)習(xí)了用單純形法解線性規(guī)劃問題，凡是具有線性規(guī)劃問題那樣統(tǒng)一的數(shù)學(xué)模型都可以用單純形法去求解，而動(dòng)態(tài)規(guī)劃的主要?jiǎng)?chuàng)始人是美國數(shù)學(xué)家貝爾曼。20動(dòng)態(tài)規(guī)劃問題的求解卻沒有統(tǒng)一的方法（類似于單純形法）。因此在用動(dòng)態(tài)規(guī)劃求解最優(yōu)化問題中，必須對(duì)具體問題具體分析，針對(duì)不同的問題，使用動(dòng)態(tài)規(guī)劃最優(yōu)化原理和方法，建立起與其相應(yīng)的數(shù)學(xué)模型，然后再用動(dòng)態(tài)規(guī)劃方法去求解。根據(jù)動(dòng)態(tài)規(guī)劃這些特點(diǎn)，要求我們?cè)趯W(xué)好動(dòng)態(tài)規(guī)劃的基本原理和方法的同時(shí)，還應(yīng)具有豐富的想象力，只有這樣才能建好模型求出問題的最優(yōu)解。動(dòng)態(tài)規(guī)劃問題的求解卻沒有統(tǒng)一的方法（類似于單純形法）。因此在4.1動(dòng)態(tài)決策的基本原理4.1.1動(dòng)態(tài)規(guī)劃

動(dòng)態(tài)規(guī)劃（dynamicProgramming，DP）是解決多階段決策過程最優(yōu)化的一種方法，其基本思路是將多階段決策過程轉(zhuǎn)化為一系列相互關(guān)聯(lián)的單階段問題，并依次求解。

DP是離散系統(tǒng)最優(yōu)化的一種有效工具，目前動(dòng)態(tài)規(guī)劃已廣泛用于工業(yè)、農(nóng)業(yè)、工程技術(shù)、資源、環(huán)境、經(jīng)濟(jì)、社會(huì)等領(lǐng)域。

4.1動(dòng)態(tài)決策的基本原理4.1.1動(dòng)態(tài)規(guī)劃4.1動(dòng)態(tài)決策的基本原理4.1.1動(dòng)態(tài)規(guī)劃例4-1-1最優(yōu)線路問題。由水源地向城市的輸水線路需通過3個(gè)控制點(diǎn)，每個(gè)控制點(diǎn)均有兩個(gè)可選方案，每段線路的輸水費(fèi)用如下圖所示。選出一條輸水線路，使得總輸水費(fèi)用最小。4.1動(dòng)態(tài)決策的基本原理4.1.1動(dòng)態(tài)規(guī)劃4.1動(dòng)態(tài)決策的基本原理4.1.1動(dòng)態(tài)規(guī)劃

最優(yōu)性原理（theprincipleofoptimality）也稱為Bellman原理，是R.Bellman提出的DP的基本原理，其表述為：“一個(gè)過程的最優(yōu)策略具有這樣的性質(zhì)，即無論初始狀態(tài)和初始決策如何，對(duì)于由前面的決策所形成的狀態(tài)來說，其后各階段的決策序列必定構(gòu)成相應(yīng)子過程的最優(yōu)策略”。4.1動(dòng)態(tài)決策的基本原理4.1.1動(dòng)態(tài)規(guī)劃4.1動(dòng)態(tài)決策的基本原理4.1.2決策樹

決策樹(decisiontree)就是將決策過程各個(gè)階段之間的結(jié)構(gòu)繪制成一張箭線圖，每個(gè)決策或事件（即自然狀態(tài)）都可能引出兩個(gè)或多個(gè)事件，導(dǎo)致不同的結(jié)果。決策樹的構(gòu)成有四個(gè)要素：1)決策結(jié)點(diǎn)；2)方案枝；3)狀態(tài)結(jié)點(diǎn)；4)概率枝。

4.1動(dòng)態(tài)決策的基本原理4.1.2決策樹4.1動(dòng)態(tài)決策的基本原理4.1.2決策樹

方案枝方案枝決策結(jié)點(diǎn)概率枝概率枝狀態(tài)結(jié)點(diǎn)概率枝概率枝概率枝狀態(tài)結(jié)點(diǎn)概率枝4.1動(dòng)態(tài)決策的基本原理4.1.2決策樹方案枝方案枝決策4.1動(dòng)態(tài)決策的基本原理4.1.2決策樹決策樹法的決策程序如下：

1)繪制樹狀圖，根據(jù)已知條件排列出各個(gè)方案和每一方案的各種自然狀態(tài)。

2)將各狀態(tài)概率及損益值標(biāo)于概率枝上。

3)計(jì)算各方案期望值并將其標(biāo)于該方案對(duì)應(yīng)的狀態(tài)結(jié)點(diǎn)上。

4)進(jìn)行剪枝，比較各個(gè)方案的期望值，并標(biāo)于方案枝上，將期望值小的(即劣等方案剪掉)所剩的最后方案為最佳方案。

4.1動(dòng)態(tài)決策的基本原理4.1.2決策樹4.2多階段決策

多階段決策有以下三個(gè)特點(diǎn)，第一，決策者需要做出時(shí)間上有先后之別的多個(gè)決策；第二，前一次決策的選擇將直接影響到后一次決策，后一次決策的狀態(tài)取決于前一次決策的結(jié)果；第三，決策者關(guān)心的是多次決策的總結(jié)果，而不是各次決策的即時(shí)后果。

4.2多階段決策4.2多階段決策4.2.1多階段決策過程的基本概念（1）階段（2）狀態(tài)（3）決策與策略（4）指標(biāo)函數(shù)與目標(biāo)函數(shù)（5）多階段決策過程4.2多階段決策4.2.1多階段決策過程的基本概念4.2多階段決策4.2.2多階段決策問題的決策方法多階段決策問題包括確定型與隨機(jī)型兩大類，在確定型多階段決策中，目標(biāo)值都是確定值，在風(fēng)險(xiǎn)型多階段決策中，目標(biāo)值用期望值作為評(píng)價(jià)的標(biāo)準(zhǔn)。下面分別以兩個(gè)例子說明其決策方法。4.2多階段決策4.2.2多階段決策問題的決策方法4.2多階段決策4.2.2多階段決策問題的決策方法例4-2-1某公司考慮為某新產(chǎn)品定價(jià)，該產(chǎn)品的單價(jià)擬從每件5元、6元、7元、8元這四個(gè)價(jià)格中選取其中之一，每年年初允許變動(dòng)價(jià)格，但幅度不能超過1元。該公司預(yù)計(jì)該產(chǎn)品暢銷只有五年，五年后將被淘汰，另據(jù)銷售情況的預(yù)測，在價(jià)格不同的情況下各年的預(yù)計(jì)利潤額見右表。單價(jià)第1年第2年第3年第4年第5年5元10121520256元1213162024716151514144.2多階段決策4.2.2多階段決策問題的決策方法單價(jià)第4.2多階段決策4.2.2多階段決策問題的決策方法例4-2-1決策圖

736045845元1012152025736045846元1213162024736045847元1414161818736045848元16151514144.2多階段決策4.2.2多階段決策問題的決策方法734.2多階段決策4.2.2多階段決策問題的決策方法

例4-2-2為了更正確地掌握市場情況，正式投產(chǎn)公司打算先生產(chǎn)少量產(chǎn)品試銷，試銷費(fèi)需要5000元。試銷結(jié)果分為產(chǎn)品受歡迎(H1)，一般(H2)和不受歡迎(H3)三種。由于試銷面不寬，試銷結(jié)果的準(zhǔn)確性有限。其準(zhǔn)確度（似然分布矩陣）見下表：θP(θ)P(H1︱θ)P(H2︱θ)P(H3︱θ)θ10.60.60.30.1θ20.30.20.60.2θ30.10.20.30.54.2多階段決策4.2.2多階段決策問題的決策方法θP4.2多階段決策4.2.2多階段決策問題的決策方法例4-2-2的表格（0.6）（0.3）（0.1）4000020000-300003000030000-20000100001000010000

（0.6）（0.3）（0.1）0.60.20.20.30.60.30.10.20.54.2多階段決策4.2.2多階段決策問題的決策方法（0如不買此項(xiàng)專利，把這筆費(fèi)用用在其他方面，在同樣的時(shí)期可獲利1.1萬元。那么，該公司應(yīng)該如何決（1）是否買專利？（2）如果買專利，是否采取試銷辦法？（3）如果不試銷，應(yīng)大批生產(chǎn)，中批生產(chǎn)還是小批生產(chǎn)？如果試銷，又應(yīng)該如何根據(jù)試銷結(jié)果決定其行動(dòng)？如不買此項(xiàng)專利，把這筆費(fèi)用用在其他方面，在同樣的時(shí)期可獲利1第一階段127買專利不買專利試銷不試銷3456H1H2H38910a1a2a3θ1θ2θ3（略）第二階段第三階段例4-2-2第一階段127買專利不買專利試銷不試銷3456H1H2H38例4-2-2解：這是一個(gè)三階段決策問題，采用逆序歸納法進(jìn)行決策分析，先要計(jì)算在一定的試銷結(jié)果下的各后驗(yàn)概率。由全概率公式：計(jì)算得：例4-2-2解：這是一個(gè)三階段決策問題，采用逆序歸納法進(jìn)行決例4-2-2再由貝葉斯公式：計(jì)算得：例4-2-2再由貝葉斯公式：計(jì)算得：例4-2-2當(dāng)試銷結(jié)果為H1時(shí)：故當(dāng)試銷結(jié)果為H1時(shí)，應(yīng)選擇大批生產(chǎn)a1，截去方案a2、a3，結(jié)點(diǎn)4的值為3.406萬元。----結(jié)點(diǎn)8----結(jié)點(diǎn)9----結(jié)點(diǎn)10例4-2-2當(dāng)試銷結(jié)果為H1時(shí)：故當(dāng)試銷結(jié)果為H1時(shí)，應(yīng)例4-2-2當(dāng)試銷結(jié)果為H2時(shí)：故當(dāng)試銷結(jié)果為H2時(shí)，應(yīng)選擇中批生產(chǎn)a2，截去方案a1、a3，結(jié)點(diǎn)5的值為2.62萬元

。例4-2-2當(dāng)試銷結(jié)果為H2時(shí)：故當(dāng)試銷結(jié)果為H2時(shí)，應(yīng)例4-2-2當(dāng)試銷結(jié)果為H3時(shí)：故當(dāng)試銷結(jié)果為H3時(shí)，也應(yīng)選擇中批生產(chǎn)a2，截去方案a1、a3，結(jié)點(diǎn)6的值為1.53萬元。例4-2-2當(dāng)試銷結(jié)果為H3時(shí)：故當(dāng)試銷結(jié)果為H3時(shí)，也例4-2-2試銷收益期望值：故當(dāng)不試銷時(shí)，應(yīng)選擇大批生產(chǎn)a1，截去方案a2、a3，結(jié)點(diǎn)7的值為2.7萬元。不試銷的收益期望值：----結(jié)點(diǎn)3例4-2-2試銷收益期望值：故當(dāng)不試銷時(shí)，應(yīng)選擇大批生產(chǎn)a1例4-2-2決策：（1）購買專利；（2）不試銷；（3）大批生產(chǎn)a2。購買專利總期望收益＝2.7－1＝1.7萬元，大于不買技術(shù)的收益1.1萬元，截去不買專利方案，結(jié)點(diǎn)1的值為1.7萬元

。試銷收益期望值扣除試銷費(fèi)用5000元后小于不試銷的收益值，截去試銷方案，結(jié)點(diǎn)2的值為2.7萬元。例4-2-2決策：（1）購買專利；購買專利總期望收益＝2.7第一階段127買專利不買專利試銷不試銷3456H1

0.44H20.39H30.178910a1a2a30.8180.1360.046（略）第二階段第三階段例4-2-24萬元2萬元－3萬元1.1萬元3.406萬2.77萬1萬3.406萬2.62萬1.53萬2.78054萬-0.5萬2.7萬2.7萬-1萬1.7萬第一階段127買專利不買專利試銷不試銷3456H10.444.2多階段決策4.2.2多階段決策問題的決策方法例4-2-的決策樹買不試試不買8493567214.2多階段決策4.2.2多階段決策問題的決策方法買不本講內(nèi)容4.3序貫決策

4.3.1序貫決策的基本概念

4.3.2序貫決策的決策方法本講內(nèi)容4.3序貫決策4.3序貫決策4.3.1序貫決策的基本概念上面的多階段決策，階段數(shù)是確定的。除這種決策外，還有一些決策的階段數(shù)不是事先確定的，它依賴于執(zhí)行決策過程中出現(xiàn)的情況。這種決策問題稱為序貫決策（sequentialdecisionproblem）。序列決策在進(jìn)行決策后又產(chǎn)生一些新的情況，需要進(jìn)行新的決策，接著又有一些新的情況，又需要進(jìn)行新的決策。這樣決策、情況、決策……，這就構(gòu)成一個(gè)序列。

4.3序貫決策4.3.1序貫決策的基本概念4.3序貫決策4.3.1序貫決策的基本概念序貫決策是用于隨機(jī)性或不確態(tài)定性動(dòng)態(tài)系統(tǒng)最優(yōu)化的決策方法。它的特點(diǎn)是：

1）所研究的系統(tǒng)是動(dòng)態(tài)的，即系統(tǒng)所處的狀態(tài)與時(shí)間有關(guān)，可周期（或連續(xù)）地對(duì)它觀察；

2）決策是序貫地進(jìn)行的，即每個(gè)時(shí)刻根據(jù)所觀察到的狀態(tài)和以前狀態(tài)的記錄，從一組可行方案中選用一個(gè)最優(yōu)方案（即作最優(yōu)決策），使取決于狀態(tài)的某個(gè)目標(biāo)函數(shù)取最優(yōu)值（極大或極小值）；

3）系統(tǒng)下一步(或未來)可能出現(xiàn)的狀態(tài)是隨機(jī)的或不確定的。4.3序貫決策4.3.1序貫決策的基本概念4.3序貫決策4.3.1序貫決策的基本概念

系統(tǒng)在每次作出決策后下一步可能出現(xiàn)的狀態(tài)是不能確切預(yù)知的，存在兩種情況：

1）系統(tǒng)下一步可能出現(xiàn)的狀態(tài)的概率分布是已知的，可用客觀概率的條件分布來描述。對(duì)于這類系統(tǒng)的序貫決策研究得較完滿的是狀態(tài)轉(zhuǎn)移律具有無后效性的系統(tǒng)，相應(yīng)的序貫決策稱為馬爾可夫決策過程，它是將馬爾可夫過程理論與決定性動(dòng)態(tài)規(guī)劃相結(jié)合的產(chǎn)物。

2）系統(tǒng)下一步可能出現(xiàn)的狀態(tài)的概率分布不知道，只能用主觀概率的條件分布來描述。用于這類系統(tǒng)的序貫決策屬于決策分析的內(nèi)容。4.3序貫決策4.3.1序貫決策的基本概念4.3序貫決策4.3.2序貫決策的決策方法

序貫決策的過程是：從初始狀態(tài)開始，每個(gè)時(shí)刻做出最優(yōu)決策后，接著觀察下一步實(shí)際出現(xiàn)的狀態(tài)，即收集新的信息，然后再做出新的最優(yōu)決策，反復(fù)進(jìn)行直至最后。解決序貫決策問題的有效辦法仍然是決策樹，解決序貫決策的關(guān)鍵是確定一個(gè)決策序列終止的原則。在下例中，這個(gè)原則就是：不管到?jīng)Q策的哪個(gè)階段，只要有一個(gè)非經(jīng)抽樣的后悔期望值小于進(jìn)行一次抽樣的費(fèi)用，決策序列便可終止。4.3序貫決策4.3.2序貫決策的決策方法4.3序貫決策4.3.2序貫決策的決策方法

例4-3-1某工廠的產(chǎn)品每1000件裝成一箱出售。每箱中產(chǎn)品的次品率有0.01，0.40，0.90三種可能，其概率分別為0.2，0.6，0.2。現(xiàn)在的問題是：出廠前是否要對(duì)產(chǎn)品進(jìn)行嚴(yán)格檢驗(yàn)，將次品挑出。可以選擇的行動(dòng)有兩個(gè)：①整箱檢驗(yàn)(a1)，檢驗(yàn)費(fèi)為每箱100元；②整箱不檢驗(yàn)(a２)，但如果顧客在使用中發(fā)現(xiàn)次品，每件次品除條換為合格品外還要賠償0.25元損失費(fèi)。4.3序貫決策4.3.2序貫決策的決策方法4.3序貫決策為了更好地做出決定可以先從一箱中隨機(jī)抽取1件作為樣本檢驗(yàn)它，然后根據(jù)這件產(chǎn)品是都次品再?zèng)Q定該箱是否要檢驗(yàn)，抽樣成本為4.2元。進(jìn)行第一次抽樣后，除選擇檢驗(yàn)還是不檢驗(yàn)外，還可以根據(jù)前面抽樣的結(jié)果，考慮再進(jìn)行一次抽樣檢驗(yàn)如此形成一個(gè)決策序列。試進(jìn)行序列決策：（1）是否需要抽樣？（若需要，抽樣幾次？）（2）在抽樣或不抽樣的前提下，采用何種方案進(jìn)行檢驗(yàn)？4.3序貫決策為了更好地做出決定可以先從一箱中隨機(jī)抽取1件【例8.2】

解：θ1，θ2，θ3分別表示產(chǎn)品次品率為0.01，0.4，0.9三種狀態(tài)。對(duì)于抽樣檢驗(yàn)一件產(chǎn)品，X=1和X=0分別表示樣品為次品和合格品兩個(gè)結(jié)果。結(jié)果值均用期望損失值表示。序列決策樹圖不能夠一次繪制成功，而是隨著決策過程序列的延伸和終止依次進(jìn)行。為了簡化圖形，行動(dòng)方案al和a2可能出現(xiàn)的狀態(tài)及其對(duì)應(yīng)的損失值均在圖中略去，僅在方案枝末端標(biāo)注上期望損失值?！纠?.2】解：θ1，θ2，θ3分別表示產(chǎn)品次品率為0１4532867抽樣繼續(xù)抽樣a1a2A1A2A3A4不抽樣X1=0X1=1停止抽樣9X2=0X2=1a1a2繼續(xù)抽樣停止抽樣（略）………１4532867抽樣繼續(xù)抽樣a1a2A1A2A3A4不抽樣X相應(yīng)的損失矩陣為先進(jìn)行第一次抽樣的后驗(yàn)概率計(jì)算該問題的費(fèi)用矩陣為：相應(yīng)的損失矩陣為先進(jìn)行第一次抽樣的后驗(yàn)概率計(jì)算該問題的費(fèi)用矩決策理論與方法教學(xué)第四章動(dòng)態(tài)決策分析課件【例8.2】第一次抽樣的后驗(yàn)概率矩陣為【例8.2】第一次抽樣的后驗(yàn)概率矩陣為后驗(yàn)行動(dòng)方案的期望損失值矩陣為一次抽樣后最滿意方案分別為：后驗(yàn)行動(dòng)方案的期望損失值矩陣為一次抽樣后最滿意方案分別為：6.894.3250.458219.52.6933.404.3250.458253.3119.525抽樣a1a2a1a2a1a2A1A2A3A4S1S2不抽樣X1=0X1=10.5780.4220.34260.62280.03460.34260.56870.42650.00470.56870.42650.20.60.20.00470.56870.42650.20.20.697.5000012597.5000012597.50000125期望損失值(包含抽樣費(fèi)用)4.20

若為正品，則無須檢驗(yàn)整箱產(chǎn)品；若為次品，則整箱檢驗(yàn)。最滿意方案是，應(yīng)抽取一件產(chǎn)品作樣品檢驗(yàn)。6.894.3250.458219.52.6933.404.在A2上X1=1的決策點(diǎn)處，由于行動(dòng)方案a1的期望損失值0.4582已小于抽樣費(fèi)用4.20，所以第二次抽樣分支S2在此處被截?cái)?，決策序列在該分支上終止。而在Xl＝0的決策點(diǎn)處，由于行動(dòng)方案al，a2。的期望損失值分別為33.40和4.324，均大于抽樣費(fèi)用4.20，因此，在此分支上，可進(jìn)行第二次抽樣，抽樣結(jié)果用X2表示。X2＝0和X2=1分別表示第二次抽樣抽取一個(gè)樣品為正品和次品。在A2上X1=1的決策點(diǎn)處，由于行動(dòng)方案a1的期望損失值0.第二次抽樣的后驗(yàn)概率計(jì)算如下：第二次抽樣的后驗(yàn)概率計(jì)算如下：決策理論與方法教學(xué)第四章動(dòng)態(tài)決策分析課件第二次抽樣的后驗(yàn)概率矩陣為后驗(yàn)行動(dòng)方案的期望損失值矩陣為二次抽樣后最滿意方案分別為：第二次抽樣的后驗(yàn)行動(dòng)方案的期望損失值矩陣為二次抽樣后最滿由于X2=0在的決策點(diǎn)處，方案a2的期望損失值0.6038已小于抽樣費(fèi)用4.20，則序列決策的這一分支應(yīng)該終止。同樣，對(duì)于X2=1決策點(diǎn)處，由于方案a1的期望損失值1.1778也小于抽樣費(fèi)用，則這一分枝也應(yīng)終止。于是，到此決策序列全部終止。由于X2=0在的決策點(diǎn)處，方案a2的期望損失值0.6038已4.20a1a2s1a1a2s2X1=02533.44.3254.2019.50.578a1a2s3X2=046.170.60384.200.7163a1a2s3X1=113.734.200.28371.1778a1a2s2X1=113.734.200.4220.4582A1A2A3S1S26.892.694.3250.45820.76664.3251.1778…4.20a1a2s1a1a2s2X1=02533.44.32在A3上X2=0的決策點(diǎn)處，最滿意行動(dòng)方案為a2，截去a1和s3；在X2=1的決策點(diǎn)處，最滿意行動(dòng)方案為a1，截去a2和s3。在s2狀態(tài)點(diǎn)處，期望損失值為：在A3上X2=0的決策點(diǎn)處，最滿意行動(dòng)方案為a2，截去a在A2上X1=0的決策點(diǎn)處，最滿意行動(dòng)方案為a2，截去a1和s2；在X1=1的決策點(diǎn)處，最滿意行動(dòng)方案為a1，截去a2和s2。在s1狀態(tài)點(diǎn)處，期望損失值為：在A1決策點(diǎn)處，最滿意方案的期望損失值為：所以截去a1和a2。

在A2上X1=0的決策點(diǎn)處，最滿意行動(dòng)方案為a2，截去a綜上所述，決策是：應(yīng)該進(jìn)行一次抽樣檢驗(yàn)。若為正品，則采取行動(dòng)方案a2，即整箱產(chǎn)品不予檢驗(yàn)；若為次品，則采取行動(dòng)方案a1，即整箱產(chǎn)品予以檢驗(yàn)，序列決策過程也可以用簡化決策樹圖表示。6.892.694.204.3250.4582s10.5780.422a1a24.3250.4621綜上所述，決策是：應(yīng)該進(jìn)行一次抽樣檢驗(yàn)。6.892.694.§4.4馬爾可夫決策研究這樣的一類決策問題：采取的行動(dòng)已經(jīng)確定，但將這個(gè)行動(dòng)付諸實(shí)踐的過程又分為幾個(gè)時(shí)期。在不同的時(shí)期，系統(tǒng)可以處在不同的狀態(tài)，而這些狀態(tài)發(fā)生的概率又可受前面時(shí)期實(shí)際所處狀態(tài)的影響。其中一種最簡單、最基本的情形，是每一時(shí)期狀態(tài)參數(shù)的概率分布只與這一時(shí)期的前一時(shí)期實(shí)際所處的狀態(tài)有關(guān)，而與更早的狀態(tài)無關(guān)，這就是所謂的馬爾可夫鏈?！?.4馬爾可夫決策研究這樣的一類決策問題：§4.4馬爾可夫決策4.4.1馬爾可夫決策問題馬氏過程馬爾科夫（M.A.Markov

）提出一種描述系統(tǒng)狀態(tài)轉(zhuǎn)移的數(shù)學(xué)模型，稱為馬爾科夫過程，簡稱馬氏過程。馬氏決策利用馬氏過程分析系統(tǒng)當(dāng)前狀態(tài)并預(yù)測未來狀態(tài)的決策方法，稱為馬爾科夫決策，簡稱馬氏決策。§4.4馬爾可夫決策4.4.1馬爾可夫決策問題§4.4馬爾可夫決策4.4.2馬爾可夫鏈與轉(zhuǎn)移概率矩陣

若隨機(jī)過程｛X(t),t∈T｝，對(duì)于任意的

t1<t2<…<tn，ti∈T都有

P{x(tn)<y|x(tn-1)=xn-1,…,x(t1)=x1} =P{x(tn)<y|x(tn-1)=xn-1}則稱｛X(t),t∈T｝具有馬爾可夫性。含義：{x(tn)}的將來只是通過現(xiàn)在與過去發(fā)生聯(lián)系，一旦現(xiàn)在已知，則將來與過去無關(guān)?！?.4馬爾可夫決策4.4.2馬爾可夫鏈與轉(zhuǎn)移概率矩陣4.4.2馬爾可夫鏈與轉(zhuǎn)移概率矩陣

條件概率P{xn=j|xn-1=i}稱為轉(zhuǎn)移概率，表示系統(tǒng)在n-1步狀態(tài)為i時(shí)，第n步狀態(tài)為j的概率—一步轉(zhuǎn)移概率。若一步轉(zhuǎn)移概率不隨時(shí)間變化(具有穩(wěn)定性),記pij＝P{xn=j|xn-1=i}，稱矩陣P＝(pij)為轉(zhuǎn)移概率矩陣。其中： 4.4.2馬爾可夫鏈與轉(zhuǎn)移概率矩陣條件概率P{xn=j4.4.2馬爾可夫鏈與轉(zhuǎn)移概率矩陣馬爾可夫鏈定義如果隨機(jī)過程{Xt},t=1,2,…，滿足下述性質(zhì)，則稱{Xt}是一個(gè)有限狀態(tài)的馬爾可夫（Markov）鏈。（1）具有有限種狀態(tài)；（2）具有馬爾可夫性；（3）轉(zhuǎn)移概率具有平穩(wěn)性。4.4.2馬爾可夫鏈與轉(zhuǎn)移概率矩陣馬爾可夫鏈定義§4.4馬爾可夫決策例：某企業(yè)為使技術(shù)人員具有多方面經(jīng)驗(yàn)，實(shí)行技術(shù)人員在技術(shù)部門、生產(chǎn)部門和銷售部門的輪換工作制度。輪換辦法采取隨機(jī)形式，每半年輪換一次。初始狀態(tài)，即技術(shù)人員開始是在某部門工作的概率用Pj(0)表示，j＝1，2，3；pij表示處于第i個(gè)部門的技術(shù)人員在半年后轉(zhuǎn)移到第j個(gè)部門的概率?！?.4馬爾可夫決策例：某企業(yè)為使技術(shù)人員具有多方面經(jīng)§4.4馬爾可夫決策已知：問某人開始在第1部門工作，一年后在第2部門工作的概率是多少？一年后，技術(shù)人員在3個(gè)部門工作的概率各為多少？§4.4馬爾可夫決策已知：問某人開始在第1部門工作，一年后§4.4馬爾可夫決策解：由狀態(tài)1經(jīng)過兩次轉(zhuǎn)移到狀態(tài)2的所有途徑為

1→1→2，1→2→2，1→3→2

記由狀態(tài)i經(jīng)兩步轉(zhuǎn)移到狀態(tài)j的概率為，則：若某人開始在第一部門工作，則一年后在第二部門工作的概率是50%。§4.4馬爾可夫決策解：由狀態(tài)1經(jīng)過兩次轉(zhuǎn)移到狀態(tài)2的所有§4.4馬爾可夫決策解：記一年后技術(shù)人員在第j個(gè)部門工作的概率為Pj(2)，則：一年后，技術(shù)人員在3個(gè)部門工作的概率§4.4馬爾可夫決策解：記一年后技術(shù)人員在第j個(gè)部門工作的§4.4馬爾可夫決策

由上例可看出從而有一般地，有§4.4馬爾可夫決策由上例可看出從而有一般地，有§4.4馬爾可夫決策4.4.3穩(wěn)態(tài)概率為穩(wěn)態(tài)概率。由于初始狀態(tài)對(duì)n步轉(zhuǎn)移后所處狀態(tài)的影響隨n增大而減少，故：因此我們可以從n步轉(zhuǎn)移矩陣的極限取得穩(wěn)態(tài)概率分布稱§4.4馬爾可夫決策4.4.3穩(wěn)態(tài)概率為穩(wěn)態(tài)概率。由§4.4馬爾可夫決策得且此方程組稱為穩(wěn)態(tài)方程。記則§4.4馬爾可夫決策得且此方程組稱為穩(wěn)態(tài)方程。記則4.4.4馬爾可夫應(yīng)用實(shí)例例1

某生產(chǎn)商標(biāo)為A的產(chǎn)品的廠商為了與另外兩個(gè)生產(chǎn)同類產(chǎn)品B和C的廠家競爭，有三種可供選擇的措施：(1)發(fā)放有獎(jiǎng)債券；(2)開展廣告宣傳；(3)優(yōu)質(zhì)售后服務(wù)。三種方案分別實(shí)施以后，經(jīng)統(tǒng)計(jì)調(diào)查可知，該類商品的市場占有率的轉(zhuǎn)移矩陣分別是4.4.4馬爾可夫應(yīng)用實(shí)例例1某生產(chǎn)商標(biāo)為A的產(chǎn)品的廠該類商品的月總銷售量為1000萬件，每件可獲利1元。另外，三種措施的成本費(fèi)分別為150萬，40萬，30萬。為長遠(yuǎn)利益考慮，生產(chǎn)商標(biāo)為A的產(chǎn)品的廠商應(yīng)該采取何種措施？解：采取第一種措施的穩(wěn)態(tài)概率解得：且該類商品的月總銷售量為1000萬件，每件可獲利1元。另外，三解：同理可解出采取第二、第三種措施的穩(wěn)態(tài)概率分別為：計(jì)算生產(chǎn)A的廠商采取三種方案的期望利潤如下：方案市場占有率期望毛利(萬元)方案成本(萬元)期望凈利(萬元)(1)2/3666.67150516.67(2)19/34558.8340518.83(3)6/11545.4530515.45因此生產(chǎn)A的廠商應(yīng)采取的長期策略為方案(2)。解：同理可解出采取第二、第三種措施的穩(wěn)態(tài)概率分別為：計(jì)算生產(chǎn)

例2

我國出口某種設(shè)備，在國際市場上的銷售狀況有兩種：暢銷和滯銷。暢銷每年可以獲利100萬元，滯銷時(shí)每年僅獲利30萬元。以一年為一個(gè)時(shí)期，如果不采用廣告推廣產(chǎn)品或采取廣告措施，狀態(tài)的轉(zhuǎn)移矩陣分別如下P1暢銷滯銷暢銷0.80.2滯銷0.40.6不采取廣告措施

采取廣告措施P2暢銷滯銷暢銷0.90.1滯銷0.70.3例2 我國出口某種設(shè)

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

決策理論與方法教學(xué)第四章動(dòng)態(tài)決策分析課件

文檔簡介

溫馨提示

最新文檔

評(píng)論

決策理論與方法教學(xué)第四章動(dòng)態(tài)決策分析課件

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔