統(tǒng)計決策方法概論課件_第1頁
統(tǒng)計決策方法概論課件_第2頁
統(tǒng)計決策方法概論課件_第3頁
統(tǒng)計決策方法概論課件_第4頁
統(tǒng)計決策方法概論課件_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

10八月20231統(tǒng)計決策方法概論02八月20231統(tǒng)計決策方法概論課前思考機器自動識別分類,能不能避免錯分類?怎樣才能減少錯誤?不同錯誤造成的損失一樣嗎?先驗概率,后驗概率,概率密度函數(shù)?什么是貝葉斯公式?正態(tài)分布?期望值、方差?正態(tài)分布為什么是最重要的分布之一?2023/8/10課前思考機器自動識別分類,能不能避免錯分類?2023/8/學習指南本章要說明分類識別中為什么會有錯分類,在何種情況下會出現(xiàn)錯分類?錯分類的可能性會有多大?怎樣才能使錯分類最少?不同的錯分類造成的危害是不同的,有的錯分類種類造成的危害更大,因此控制這種錯分類則是更重要的。為此引入了一種“風險”與“損失”概念,希望做到使風險最小。要著重理解“風險”與“損失”的概念,以及在引入“風險”概念后的處理方法。2023/8/10學習指南本章要說明分類識別中為什么會有錯分類,在何種情況下理解本章的關鍵要正確理解先驗概率,類概率密度函數(shù),后驗概率這三種概率對這三種概率的定義,相互關系要搞得清清楚楚Bayes公式正是體現(xiàn)這三者關系的式子,要透徹掌握。2023/8/10理解本章的關鍵2023/8/2統(tǒng)計決策理論是模式分類問題的基本理論之一貝葉斯決策理論是統(tǒng)計決策理論中的一個基本方法統(tǒng)計決策理論最小風險貝葉斯決策2聶曼-皮爾遜判決3最小錯誤率貝葉斯決策1第二章統(tǒng)計決策理論62023/8/10正態(tài)分布決策理論4最小風險貝葉斯決策2聶曼-皮爾遜判決3最小錯誤率貝葉斯決策1最小錯誤率貝葉斯決策172023/8/10最小錯誤率貝葉斯決策172023/8/2信息獲取預處理特征提取分類決策模式識別系統(tǒng)的基本構成分類決策:把樣本分到哪一類最合理樣本1樣本2樣本3類別空間樣本空間到?jīng)Q策空間的一個映射采用不同的標準會得到不同意義下的“最優(yōu)”的決策最小錯誤率貝葉斯決策82023/8/10信息獲取預處理特征提取分類決策模式識別系統(tǒng)的基本構成分類決策基于最小錯誤率的貝葉斯決策基本思想使錯誤率為最小的分類規(guī)則稱之為基于最小錯誤率的貝葉斯決策基于最小錯誤率的貝葉斯決策基本思想例子:挑選西瓜編號敲聲好瓜1沉悶是2沉悶否3沉悶否4沉悶否5清脆是6清脆是7清脆否8濁響是9濁響否

102023/8/10例子:挑選西瓜編號敲聲好瓜1沉悶是2沉悶否3沉悶否4沉悶否5貝葉斯公式先驗

似然

后驗

112023/8/10當敲擊聲音為清脆時,該西瓜是好瓜的概率貝葉斯公式先驗

似然

后驗

112023/8/2當敲挑選西瓜這種決策信息沒有意義

如何根據(jù)敲聲挑選出好的西瓜?

根據(jù)貝葉斯公式

只根據(jù)先驗知識挑選西瓜

122023/8/10挑選西瓜這種決策信息沒有意義

如何根據(jù)敲聲挑選出好的西瓜如果有:

則為好瓜,反之亦然

分母相同,實際只需要比較分子這種根據(jù)后驗概率進行決策的方法稱為最小錯誤率貝葉斯決策132023/8/10如果有:

則為好瓜,反之亦然

分母相同,實際只需要比較判別函數(shù)的幾種等價形式2023/8/10等價決策規(guī)則:判別函數(shù)的幾種等價形式2023/8/2等價決策規(guī)則:討論類條件概率密度函數(shù)直接用來分類是否合理?2023/8/10具有一定的合理性不滿足最小錯誤率要求但是沒有考慮先驗概率討論類條件概率密度函數(shù)直接用來分類是否合理?2023/8/2類條件概率和后驗概率區(qū)別?后驗概率:P(ω1|x)和P(ω2|x)同一條件x下,比較ω1與ω2出現(xiàn)的概率兩類ω1和ω2,則有P(ω1|x)+P(ω2|x)=1如P(ω1|x)>P(ω2|x)則可以下結論,在x條件下,事件ω1出現(xiàn)的可能性大類條件概率:P(x|ω1)和P(x|ω2)是在不同條件下討論的問題即使只有兩類ω1與ω2,P(x|ω1)+P(x|ω1)≠1P(x|ω1)與P(x|ω2)兩者沒有聯(lián)系問題類條件概率和后驗概率區(qū)別?問題問題為什么先驗概率和類條件概率密度函數(shù)可以作為已知,而后驗概率需要通過計算獲得?計算概率都要擁有大量數(shù)據(jù)估計先驗概率與類條件概率密度函數(shù)時都可搜集到大量樣本對某一特定事件要搜集大量樣本是不太容易只能借助Bayes公式來計算得到2023/8/10問題為什么先驗概率和類條件概率密度函數(shù)可以作為已知,而后驗概錯誤率分析對待分類模式的特征我們得到一個觀察值

x

,合理的決策規(guī)則:

決策錯誤的條件概率(隨機變量x

的函數(shù)):

182023/8/10錯誤率分析對待分類模式的特征我們得到一個觀察值x,合理平均錯誤率

(連續(xù)情況)(離散情況)192023/8/10如果我們把作出w1決策的所有觀測值區(qū)域稱為R1,則在R1區(qū)內的每個x值,條件錯誤概率為p(w2|x)。另一個區(qū)R2中的x,條件錯誤概率為p(w1|x)因此平均錯誤率P(e)可表示成

平均錯誤率

(連續(xù)情況)(離散情況)192023/8/22023/8/102023/8/2優(yōu)點:癌細胞篩查:是癌細胞但是判斷為正常細胞的風險應該比正常細胞判斷為癌細胞的風險大得多決策規(guī)則最小誤差最小風險限定一類錯誤率只是在最小錯誤率下的最優(yōu)212023/8/10缺點:基于后驗概率決策的貝葉斯分類器具有最小錯誤率小結優(yōu)點:癌細胞篩查:是癌細胞但是判斷為正常細胞的風險應該比正常最小風險貝葉斯決策2222023/8/10最小風險貝葉斯決策2222023/8/2基本思想使錯誤率最小并不一定是一個普遍適用的最佳選擇。例如:癌細胞分類,兩種錯誤的代價(損失)不同兩種錯誤:癌細胞→正常細胞正常細胞→癌細胞寧可擴大一些總的錯誤率,但也要使總的損失減少。引進一個與損失有關聯(lián)的,更為廣泛的概念——風險。在作出決策時,要考慮所承擔的風險。2023/8/10基本思想使錯誤率最小并不一定是一個普遍適用的最佳選擇。202相關概率損耗函數(shù)λii=λ(αi/ωi)表示模式樣本X本來屬于ωi類而判決為ωi類所受損失。損耗函數(shù)λij=λ(αi/ωj)表示模式樣本X本來屬于ωj類錯判為ωi所受損失風險R(期望損失):對未知x采取一個判決行動α(x)所付出的代價(損耗)條件風險(也叫條件期望損失)在整個特征空間中定義期望風險,期望風險2023/8/10相關概率損耗函數(shù)λii=λ(αi/ωi)表示模式樣本X本來屬最小風險貝葉斯決策2023/8/10決策規(guī)則:

最小風險貝葉斯決策2023/8/2決策規(guī)則:

最小風險VS最小錯誤率2023/8/10二類問題:把x歸于ω1時風險:把x歸于ω2時風險:

最小風險VS最小錯誤率2023/8/2二類問題:把x歸于聶曼-皮爾遜決策3272023/8/10聶曼-皮爾遜決策3272023/8/2聶曼-皮爾遜準則聶曼-皮爾遜準則是在取某類錯誤率為常數(shù)時,另一類錯誤率盡可能小。例如:2023/8/10兩類錯誤率聶曼-皮爾遜準則聶曼-皮爾遜準則是在取某類錯誤率為常數(shù)時,另Lagrange乘子法將有約束極值問題問題轉化為2023/8/10Lagrange乘子法將有約束極值問題問題轉化為2023/8注:可以看出聶曼-皮爾遜決策規(guī)則與最小錯誤率貝葉斯決策規(guī)則都是以似然比為基礎的,不同地是最小錯誤決策閾值為先驗概率之比,而聶曼-皮爾遜決策閾值則是Lagrange乘子。注:可以看出聶曼-皮爾遜決策規(guī)則與最小錯誤率貝葉斯決策規(guī)則都2023/8/102023/8/2優(yōu)點:

322023/8/10缺點:必須知道類條件概率(似然)可以設計理論上最優(yōu)分類器小結優(yōu)點:

322023/8/2缺點:可以設計理論上最優(yōu)分類器小正態(tài)分布決策理論4332023/8/10正態(tài)分布決策理論4332023/8/2本節(jié)和前三節(jié)的關系前三節(jié):基本概念階段性的總結本節(jié):概念具體化結合一種比較典型的概率分布來進一步分析基于最小錯誤貝葉斯決策分類器的種種情況本節(jié)和前三節(jié)的關系前三節(jié):基本概念本節(jié)重點什么叫正態(tài)分布高斯分布的表達式如何將正態(tài)分布與基于最小錯誤率的貝葉斯決策結合起來如何簡化方式表示正態(tài)分布本節(jié)重點什么叫正態(tài)分布研究正態(tài)分布的原因數(shù)學上比較簡單N(μ,σ2)只有均值和方差兩個參數(shù)物理上的合理性研究正態(tài)分布的原因單變量正態(tài)分布單變量正態(tài)分布概率密度函數(shù)定義為單變量正態(tài)分布單變量正態(tài)分布概率密度函數(shù)定義為思考:正態(tài)分布,或高斯分布是先驗概率P(ωi),還是分布P(X|ωi),還是后驗概率P(ωi|X)?不是我們所討論的先驗概率P(ωi),也不是后驗概率P(ωi|X),而是p(x|ωi)。2023/8/10思考:正態(tài)分布,或高斯分布是先驗概率P(ωi),還是分布P((多變量)多維正態(tài)分布

2023/8/10(多變量)多維正態(tài)分布

2023/8/22023/8/102023/8/2性質①、μ與∑對分布起決定作用P(x)=N(μ,∑),μ由n個分量組成,∑由n(n+1)/2元素組成?!喽嗑S正態(tài)分布由n+n(n+1)/2個參數(shù)組成。

②、等密度點的軌跡是一個超橢球面。區(qū)域中心由μ決定,區(qū)域形狀由∑決定。③、不相關性等價于獨立性。若xi與xj互不相關,則xi與xj一定獨立。④、邊緣分布與條件分布的正態(tài)性。⑤、線性變換的正態(tài)性Y=AX,A為線性變換矩陣。若X為正態(tài)分布,則Y也是正態(tài)分布。⑥、線性組合的正態(tài)性。2023/8/10性質①、μ與∑對分布起決定作用P(x)=N(μ,∑),μ正態(tài)分布時最小錯誤率貝葉斯決策2023/8/10判別函數(shù):類條件概率密度用正態(tài)來表示:決策面方程:正態(tài)分布時最小錯誤率貝葉斯決策2023/8/2判別函數(shù):類條第一種情況各個特征統(tǒng)計獨立,且同方差情況2023/8/10判別函數(shù):第一種情況各個特征統(tǒng)計獨立,且同方差情況2023/8/2判別2023/8/10如果M類先驗概率相等:最小距離分類器未知樣本x與μi相減,找最近的μi把x歸類2023/8/2如果M類先驗概率相等:最小距離分類器2023/8/102023/8/2討論討論

對于未知樣本x,把x與各類均值相減,把x歸于最近一類,即為最小距離分類器。Σi=Σ相等,即各類協(xié)方差相等。幾何上看,相當于各類樣本集中于以均值點為中心的同大小和形狀的超橢球內。第二種情況對于未知樣本x,把x與各類均值相減,把x歸于最近一類統(tǒng)計決策方法概論課件討論:針對ω1,ω2二類情況,如圖:討論:針對ω1,ω2二類情況,如圖:Σi為任意,各類協(xié)方差矩陣不等,二次項xT

Σix與i有關,所以判別函數(shù)為二次型函數(shù)。第三種情況(一般情況)Σi為任意,各類協(xié)方差矩陣不等,二次項xTΣix與i有關統(tǒng)計決策方法概論課件討論對于(a)圖,的方差比小,因此來自的樣本更加可能在該類的均值附近找到,且由于圓的對稱性,決策面是包圍的一個圓若把軸伸展,圖(b)的決策面就伸展為一個橢圓討論對于(a)圖,的方差比討論若兩類的條件概率在方向上具有相同的方差,但在方向上的方差比的方差大,此時值大的樣本可能來自類,且決策面為圖(c)的拋物線若對在方向上加大其方差,其決策面為圖(d)的雙曲線討論若兩類的條件概率在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論