模式識別導(dǎo)論四_第1頁
模式識別導(dǎo)論四_第2頁
模式識別導(dǎo)論四_第3頁
模式識別導(dǎo)論四_第4頁
模式識別導(dǎo)論四_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、模式識別導(dǎo)論四第1頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四對x再觀察:有細(xì)胞光密度特征 ,有類條件概率密度: P(x/ ) =1,2,。如圖所示利用貝葉斯公式 :通過 對細(xì)胞的再觀察,就可以把先驗(yàn)概率轉(zhuǎn)化為后驗(yàn)概率,利用后驗(yàn)概率可對未知細(xì)胞x進(jìn)行識別 。第四章 貝葉斯決策理論4-1 Bayes分類器最優(yōu)分類器、最佳分類器一、兩類問題例如:細(xì)胞識別問題 1正常細(xì)胞,2異常細(xì)胞某地區(qū),經(jīng)大量統(tǒng)計獲先驗(yàn)概率P(1),P(2)。若取該地區(qū)某人細(xì)胞x屬何種細(xì)胞 ,只能由 先驗(yàn)概率決定。第2頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四設(shè)N個樣本分為兩類1,2。每個樣本抽出n個特

2、征, x =(x1, x2, x3, xn)T通過 對細(xì)胞的再觀察,就可以把先驗(yàn)概率轉(zhuǎn)化為后驗(yàn)概率,利用后驗(yàn)概率可對未知細(xì)胞x進(jìn)行識別 。 1、判別函數(shù):若已知先驗(yàn)概率P(1),P(2),類條件概率密度P(x/ 1), P(x/ 2)。 則可得貝葉斯判別函數(shù)四種形式 :第3頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四2、決策規(guī)則:第4頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四 3、決策面方程: x為一維時,決策面為一點(diǎn),x為二維時決策面為曲線,x為三維時,決策面為曲面,x大于三維時決策面為超曲面。例:某地區(qū)細(xì)胞識別; P(1)=0.9, P(2)=0.1 未知細(xì)胞x,

3、先從類條件概率密度分布曲線上查到:解:該細(xì)胞屬于正常細(xì)胞還是異常細(xì)胞,先計算后驗(yàn)概率:P(x/ 1)=0.2, P(x/ 2)=0.4第5頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四g(x)閾值單元 4、分類器設(shè)計:第6頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四二、多類情況:=(1,2,m),x=(x1,x2,xn) 1.判別函數(shù):M類有M個判別函數(shù)g1(x), g2(x), gm(x).每個判別函數(shù)有上面的四種形式。 2.決策規(guī)則:另一種形式:3、決策面方程:4、分類器設(shè)計:g1(x)Maxg(x)g2(x)gn(x)第7頁,共57頁,2022年,5月20日,6點(diǎn)2

4、7分,星期四4-2 正態(tài)分布決策理論 一、正態(tài)分布判別函數(shù) 1、為什么采用正態(tài)分布: a、正態(tài)分布在物理上是合理的、廣泛的。 b、正態(tài)分布數(shù)學(xué)上簡單,N(, ) 只有均值和方差兩個參數(shù)。 2、單變量正態(tài)分布: 第8頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四3、(多變量)多維正態(tài)分布 (1)函數(shù)形式:第9頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四(2)、性質(zhì): 、與對分布起決定作用P()=N(, ), 由n個分量組成,由n(n+1)/2元素組成。多維正態(tài)分布由n+n(n+1)/2個參數(shù)組成。 、等密度點(diǎn)的軌跡是一個超橢球面。區(qū)域中心由決定,區(qū)域形狀由決定。 、不相關(guān)性

5、等價于獨(dú)立性。若xi與xj互不相關(guān),則xi與xj一定獨(dú)立。 、線性變換的正態(tài)性Y=AX,A為線性變換矩陣。若X為正態(tài)分布,則Y也是正態(tài)分布。 、線性組合的正態(tài)性。第10頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四判別函數(shù):類條件概率密度用正態(tài)來表示:二、最小錯誤率(Bayes)分類器:從最小錯誤率這個角度來分析Bayes 分類器 1.第一種情況:各個特征統(tǒng)計獨(dú)立,且同方差情況。(最簡單情況)決策面方程:第11頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四 判別函數(shù):最小距離分類器:未知x與i相減,找最近的i把x歸類如果M類先驗(yàn)概率相等:第12頁,共57頁,2022年,5月

6、20日,6點(diǎn)27分,星期四第13頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四討論:第14頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四未知x,把x與各類均值相減,把x歸于最近一類。最小距離分類器。2、第二種情況:i 相等,即各類協(xié)方差相等。第15頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四第16頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四討論:針對1,2二類情況,如圖:第17頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四3、第三種情況(一般情況):為任意,各類協(xié)方差矩陣不等,二次項(xiàng)xT x與i有關(guān)。所以判別函數(shù)為二次型函數(shù)。第18頁,共5

7、7頁,2022年,5月20日,6點(diǎn)27分,星期四第19頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四4-3 關(guān)于分類器的錯誤率分析 1、一般錯誤率分析:第20頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四2、正態(tài)分布最小錯誤率(在正態(tài)分布情況下求最小錯誤率)第21頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四第22頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四4-4 最小風(fēng)險Bayes分類器假定要判斷某人是正常(1)還是肺病患者(2),于是在判斷中可能出現(xiàn)以下情況:第一類,判對(正常正常) 11 ;第二類,判錯(正常肺病) 21 ; 第三類,判對(肺病肺

8、病) 22;第四類,判錯(肺病正常) 12 。在判斷時,除了能做出“是” i類或“不是” i類的動作以外,還可以做出“拒識”的動作。為了更好地研究最小風(fēng)險分類器,我們先說明幾個概念:第23頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四在整個特征空間中定義期望風(fēng)險,期望風(fēng)險:行動i:表示把模式x判決為i類的一次動作。損耗函數(shù)ii=(i/i)表示模式X本來屬于i類而錯判為i所受損失。因?yàn)檫@是正確判決,故損失最小。損耗函數(shù)ij=(i/j)表示模式X本來屬于j類錯判為i所受損失。因?yàn)檫@是錯誤判決,故損失最大。風(fēng)險R(期望損失):對未知x采取一個判決行動(x)所付出的代價(損耗)條件風(fēng)險(也叫

9、條件期望損失):第24頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四條件風(fēng)險只反映對某x取值的決策行動i所帶來的風(fēng)險。期望風(fēng)險則反映在整個特征空間不同的x取值的決策行動所帶來的平均風(fēng)險。最小風(fēng)險Bayes決策規(guī)則:第25頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四二類問題:把x歸于1時風(fēng)險: 把x歸于2時風(fēng)險:第26頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四第27頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四4-5 Bayes分類的算法(假定各類樣本服從正態(tài)分布)1.輸入類數(shù)M;特征數(shù)n,待分樣本數(shù)m.2.輸入訓(xùn)練樣本數(shù)N和訓(xùn)練集資料矩陣X(Nn)

10、。并計算有關(guān)參數(shù)。3.計算矩陣y中各類的后驗(yàn)概率。4.若按最小錯誤率原則分類,則可根據(jù) 3 的結(jié)果判定y中各類樣本的類別。5.若按最小風(fēng)險原則分類,則輸入各值,并計算y中各樣本屬于各類時的風(fēng)險并判定各樣本類別。第28頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四例1、有訓(xùn)練集資料矩陣如下表所示,現(xiàn)已知,N=9、N1=5、N2=4、n=2、M=2,試問,X=(0,0)T應(yīng)屬于哪一類?解1、假定二類協(xié)方差 矩陣不等(12) 則均值:訓(xùn)練樣本號k1 2 3 4 5 1 2 3 4 特征 x1特征 x21 1 0 -1 -1 0 1 0 -1 0 1 1 1 0-1 -2 -2 -2類別1

11、2第29頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四第30頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四第31頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四解2、假定兩類協(xié)方差矩陣相等=1+2第32頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四訓(xùn)練樣本號k1 2 31 2 31 2 3特征 x10 1 2-2 -1 -2 0 1 -1特征 x21 0 -1 1 0 -1 -1 -2 -2類別123解1、假定三類協(xié)方差不等;例2:有訓(xùn)練集資料矩陣如下表所示,現(xiàn)已知, N=9、N1=N2=3、n=2、M=3,試問,未知樣本 X=(0,0)T應(yīng)屬于哪一類?第

12、33頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四第34頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四可得三類分界線如圖所示:第35頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四解2、設(shè)三類協(xié)方差矩陣相等第36頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四可得三類分界線如圖所示:第37頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四作業(yè):在下列條件下,求待定樣本x=(2,0)T的類別,畫出分界線,編程上機(jī)。1、二類協(xié)方差相等,2、二類協(xié)方差不等。訓(xùn)練樣本號k1 2 31 2 3特征x11 1 2-1 -1 -2特征x21 0 -11 0 -1類別

13、 1 2第38頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四作業(yè):有訓(xùn)練集資料矩陣如下表所示,現(xiàn)已知, N=9、N1=N2= N3=3、n=2、M=3,試問,X=(-2,2)T應(yīng)屬于哪一類?要求:用兩種解法a、三類協(xié)方差不等;b、三類協(xié)方差相等。編程上機(jī),畫出三類的分界線。訓(xùn)練樣本號k1 2 31 2 3 1 2 3特征x10 2 1-1 -2 -2 0 0 1特征x20 1 0 1 0 -1 -2 -1 -2類別123第39頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四4-6 在一類錯誤率固定使另一類錯誤率最小的判別準(zhǔn)則(聶曼-皮爾遜判決neyman-pearson)第4

14、0頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四第41頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四例:兩類的模式分布為二維正態(tài) 協(xié)方差矩陣為單位矩陣1=2=I,設(shè)20.09求聶曼皮爾遜準(zhǔn)則 T.解:第42頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四第43頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四所以此時聶曼皮爾遜分類器的分界線為:由圖可知為保證2足夠小,邊界應(yīng)向1一側(cè)靠,則1T與2的關(guān)系表如右:T 4 2 1 20.04 0.09 0.16 0.25 0.38第44頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四4-7最大最小判別準(zhǔn)則:前

15、邊的討論都是假定先驗(yàn)概率不變,現(xiàn)在討論在P(i)變化時如何使最大可能風(fēng)險最小,先驗(yàn)概率P(1)與風(fēng)險R間的變化關(guān)系如下:第45頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四第46頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四這樣,就得出最小風(fēng)險與先驗(yàn)概率的關(guān)系曲線,如圖所示:討論:第47頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四上式證明,所選的判別邊界,使兩類的概率相等:這時可使最大可能的風(fēng)險為最小,這時先驗(yàn)概率變化,其風(fēng)險不變第48頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四4-8 決策樹多峰情況Bayes分類器只能適用于樣本分布呈單峰情況,對多

16、峰情況則不行。若用決策樹,可進(jìn)行如下步驟分類整個分類過程可用右圖的樹表示:1、基本概念(1)決策樹:二叉樹。每個節(jié)點(diǎn)都是兩類分類器。例如;節(jié)點(diǎn)a上的決策規(guī)則為:(2)代價(損失)矩陣定義節(jié)點(diǎn)L的代價為:第49頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四2、決策樹的構(gòu)造在構(gòu)造決策樹時,需要考慮以下問題:1)、如何判斷一節(jié)點(diǎn)是否為葉子。如右圖表示,假定A、B、C、D、E、F各包含50個樣本,并有以下的代價矩陣對于節(jié)點(diǎn)a,可以作出以下兩個決策之一:決策1,a不再分割決策2,a分為兩類決策1的代價為 A1(a)=Ca 節(jié)點(diǎn)a的代價決策2的代價為 A2(a)=(Cb+Cc) 節(jié)點(diǎn)b,c的代價

17、和其中, 為一經(jīng)驗(yàn)因子,用以防止無限分割下去第50頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四只要經(jīng)驗(yàn)因子2.25,便有A2(a) A1(a),因此取決策2的代價較小,故應(yīng)把分為兩類。一般地決策代價為:2)、選擇節(jié)點(diǎn)的分割方式: a、根據(jù)經(jīng)驗(yàn)確定。例如,全部樣本分為三類,其代價矩陣為第51頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四b、根據(jù)對樣本分布的了解試探確定。如右圖所示,將a劃分為b,c的方式有兩種c、根據(jù)聚類結(jié)果來劃分。3)、如何確定各節(jié)點(diǎn)分類器。原則:、分類器應(yīng)盡量簡單,因此,多采用線性分類器,、盡量減小分類時所使用的特征,選用最有效的特征進(jìn)行分類第52頁,共57頁,2022年,5月20日,6點(diǎn)27分,星期四4-9 序貫分類迄今為止所討論的分類問題,關(guān)于待分類樣本的所有信息都是一次性提供的。但是,在許多實(shí)際問題中,觀察實(shí)際上是序貫的。隨著時間的推移可以得到越來越多的信息。假設(shè)對樣品進(jìn)行第 i 次觀察獲取一序列特征為:X=(x1,x2,xi)T 則對于1,2兩類問題,若X 1,則判決完畢若X 2 ,則判決完畢若X不屬1也不屬2 ,則不能判決,進(jìn)行第i+1次觀察,得X=(x1,x2,xi,x i+1)T ,再重復(fù)上面的判決,直到所有的樣品分類完畢為止。這樣做的好處是使那些在二類邊界附近的樣本不會因某種偶然的微小變化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論