第2章隨機模式的分類方法1_第1頁
第2章隨機模式的分類方法1_第2頁
第2章隨機模式的分類方法1_第3頁
第2章隨機模式的分類方法1_第4頁
第2章隨機模式的分類方法1_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、華中科技大學控制科學與工程系 模式識別概論備課筆記第2章 隨機模式的分類方法該方法基于貝葉斯決策理論,往往以某種概率的形式給出。本章首先介紹貝葉斯分類方法中的一般性的判決規(guī)則,并且抽象出隨機模式的判決函數(shù)和決策面方程,給出2種分類器結構。2.1 引言隨機模式:在可以覺察到的客觀世界中,存在著大量的物體和事件,他們在基本條件不變時,具有某種不確定性,每一次觀測的結果沒有重復性,這種模式就是隨機模式。雖然隨機模式樣本測量值具有不確定性,但同類抽樣實驗的大量樣本的觀測值具有某種統(tǒng)計特性,這個統(tǒng)計特性是建立各種分類方法的基本依據(jù)。先看一下確定性模式判決函數(shù)的問題。如下圖所示:通過判決函數(shù),特征空間被區(qū)

2、分界面劃分成兩種類型的區(qū)域A和B。由于模式樣本的觀測值是確定性的,經常被正確分配到類型區(qū)域A、B之中。假如我們用概率的形式來表達,就是:在類型A的條件下觀測模式樣本x,則x位于區(qū)域A的概率為1,而位于區(qū)域B的概率為0。同樣,在類型B的條件下觀測模式樣本x,情況正好相反,x位于區(qū)域A的概率為0,而位于區(qū)域B的概率為1。這實際上是將概率的方法引入到確定模式,對于大多數(shù)實際情況,這是非常理想的概率分布。許多實際情況,即使在類型A的條件下,模式樣本x位于區(qū)域A的概率也往往小于1,而位于區(qū)域B的概率也不為0。對于類型B的條件也一樣。這種交錯分布的樣本使分類發(fā)生錯誤,是模式隨機性的一種表現(xiàn)。此時,分類方法

3、就從確定性模式轉到隨機模式。Bayes決策理論是隨機模式分類方法最重要的基礎。下面是幾個重要的概念:1. 先驗概率先驗概率是預先已知的或者可以估計的模式識別系統(tǒng)位于某種類型的概率。若仍然用兩個類型A和B為例,可用和表示各自的先驗概率,此時滿足。推廣到一般的c類問題中,用表示類型,則各自的先驗概率用表示,且滿足:其實,在處理實際問題時,有時不得不以先驗概率的大小作為判決的依據(jù)。如:有一批木材,其中樺木占70,松木占30,A樺木,B松木,則,如果從中任取一塊木材,而又要用先驗概率作出判決,那就判為樺木。先驗概率不能作為判決的唯一依據(jù),但當先驗概率相當大時,它也能成為主要因素。2類(條件)概率密度它

4、是系統(tǒng)位于某種類型條件下,模式樣本x出現(xiàn)的概率密度分布函數(shù),常用,以及來表示。先驗概率密度在分類方法中起至關重要的作用,它的函數(shù)形式及主要參數(shù)或者是已知的,或者是可通過大量抽樣實驗估計出來。3. 后驗概率它是某個具體的模式樣本x位于某種類型的概率,常以,以及表示。后驗概率可以根據(jù)貝葉斯公式計算出來,可直接用作分類判決的依據(jù)。例如:一個2類問題,w1表示診斷為無癌癥,w2診斷為有癌癥。P(w1) 表示診斷正常的概率,P(w2) 表示某地區(qū)的人被診斷出患上癌癥的概率,該值可以通過大量的統(tǒng)計得到,x表示“試驗反應呈陽性”。那么,P(x|w1)表示診斷為無癌癥且試驗反應為陽性,P(w1|x)表示試驗為

5、陽性,而且沒有癌癥。同樣,可以有w2的類概率密度和后驗概率。2.2 最小錯誤率判決規(guī)則(最簡單的Bayes分類方法)分析一個“兩類問題”。以上一個例子為例,用w1和w2表示兩種不同的類型,如w1表示診斷正常,w2表示診斷出患有癌癥。用和分別表示先驗概率。如:診斷正常的概率,表示某地人患癌癥的概率,可通過大量的統(tǒng)計得到。用和表示兩個類概率密度。樣本x表示“試驗反應陽性”,則診斷為無癌癥且試驗反應為陽性,試驗為陽性且沒有癌癥。根據(jù)全概率公式,模式樣本x出現(xiàn)的全概率密度為:(2.21)根據(jù)Bayes公式,在模式樣本x出現(xiàn)的條件下,兩個類型的后驗概率為:, (2.22)此時,樣本歸屬于“后驗概率較高”

6、的那種類型。也就是:,則,則(2.23),則偶然決定,或根據(jù)(2.22)式,上述判決規(guī)則等價于:,則,則 (2.24),則偶然決定,或上面只是給出了最小錯誤率貝葉斯決策規(guī)則,但沒有證明按這種規(guī)則進行分類確實使錯誤率最小??梢园焉鲜鰞深悊栴}導出的最小錯誤率判決規(guī)則一般化,推廣到c類問題中,表達為:若:,則,等價于:,則例1:為了對癌癥進行診斷,對一批人進行一次普查,各每個人打試驗針,觀察反應,然后進行統(tǒng)計,規(guī)律如下:(1) 這一批人中,每1000個人中有5個癌癥病人;(2) 這一批人中,每100個正常人中有一個試驗呈陽性反應;(3) 這一批人中,每100個癌癥病人中有95人試驗呈陽性反應。問:若

7、某人(甲)呈陽性反應,甲是否正常?解:假定x表示實驗反應為陽性,(1) 人分為兩類:w1正常人,w2癌癥患者,(2) 由已知條件計算概率值:先驗概率:,類條件概率密度:,(3) 決策過程 由最小錯誤判決規(guī)則,可知:由于比大很多,所以先驗概率起了較大作用。2.3 最小風險判決規(guī)則最小風險判決規(guī)則也是一種Bayes分類方法。最小錯誤率判決規(guī)則沒有考慮錯誤判決帶來的“風險”,或者說沒有考慮某種判決帶來的損失。同一問題中,某種判決總會有一定的損失,特別是錯誤判決有風險。不同的錯誤判決有不同的風險,如上一節(jié)的例子中,判斷細胞是否為癌細胞,可能有兩種錯誤判決: 正常細胞錯判為癌細胞; 癌細胞錯判為正常細胞

8、。兩種錯誤帶來的風險不同。在中,會給健康人帶來不必要的精神負擔,在中,會使患者失去進一步檢查、治療的機會,造成嚴重后果。顯然,第種錯誤判決的風險大于第種。判決風險也可以理解為判決損失,即使在正確判決的情況下,一般也會付出某種代價,也會有損失。正是由于有判決風險的存在,最小錯誤率判決就不夠了,必須引入最小風險判決規(guī)則。假定有c類問題,用表示類型,用表示可能作出的判決。實際應用中,判決數(shù)a和類型數(shù)c可能相等,;也可能不等,即允許除c類的c個決策之外,可以采用其它決策,如“拒絕”決策,此時。對于給定的模式樣本x,令表示而判決為的風險。若判決一定,對c個不同類型的,有c個不同的。的c個離散值隨類型的性

9、質變化,具有很大的隨機性,可看成是隨機變量。另外,由于判決數(shù)目有a個,這樣對于不同的判決和不同類型就有一個維風險矩陣。一般風險矩陣類型判決假定某樣本x的后驗概率已經確定,則有:,且,對于每一種判決,可求出隨機變量的條件平均風險,也叫“條件平均損失”:(2.3-1)最小風險判決規(guī)則就是把樣本x歸屬于“條件平均風險最小”的那一種判決。也就是:若,則 (2.3-2)實施最小風險判決規(guī)則的步驟如下:(1) 在給定樣本x條件下,計算各類后驗概率,。(2) 按照(2.3-1)式求各種判決的條件平均風險,為此,需要知道風險矩陣。(3) 按照(2.3-2)式,比較各種判決的條件平均風險,把樣本x歸屬于條件平均風險最小的那一種判決。注意:實際工作中,列出合適的風險矩陣很不容易,要根據(jù)研究的具問題,分析錯誤決策造成損失的嚴重程度,與有關專家共同商討決定。上面分析了兩種決策規(guī)則,下面討論它們之間的關系:判決風險又叫判決損失,又叫損失函數(shù)?,F(xiàn)假設正確判決損失為0,錯誤判決損失為1,且判決數(shù)目與類型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論