第二章貝葉斯決策理論與統(tǒng)計(jì)判別方法匯總

上傳人：d*** IP屬地：天津上傳時間：2023-09-25 格式：DOCX 頁數(shù)：52 大?。?92.43KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩47頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第二章貝葉斯決策理論與統(tǒng)計(jì)判別方法課前思考1、機(jī)器自動識別分類，能不能避免錯分類，如漢字識別能不能做到百分之百正確？怎樣才能減少錯誤？2、錯分類往往難以避免，因此就要考慮減小因錯分類造成的危害損失，譬如對病理切片進(jìn)行分析，有可能將正確切片誤判為癌癥切片，反過來也可能將癌癥病人誤判為正常人，這兩種錯誤造成的損失一樣嗎？看來后一種錯誤更可怕，那么有沒有可能對后一種錯誤嚴(yán)格控制？3、概率論中講的先驗(yàn)概率，后驗(yàn)概率與概率密度函數(shù)等概念還記得嗎？什么是貝葉斯公式？4、什么叫正態(tài)分布？什么叫期望值？什么叫方差？為什么說正態(tài)分布是最重要的分布之一？學(xué)習(xí)目標(biāo)這一章是模式識別的重要理論基礎(chǔ)，它用概率論的概念分析造成錯分類和識別錯誤的根源，并說明與哪些量有關(guān)系。在這個基礎(chǔ)上指出了什么條件下能使錯誤率最小。有時不同的錯誤分類造成的損失會不相同，因此如果錯分類不可避免，那么有沒有可能對危害大的錯分類實(shí)行控制。對于這兩方面的概念要求理解透徹。這一章會將分類與計(jì)算某種函數(shù)聯(lián)系起來，并在此基礎(chǔ)上定義了一些術(shù)語，如判別函數(shù)、決策面（分界面），決策域等，要正確掌握其含義。這一章會涉及設(shè)計(jì)一個分類器的最基本方法——設(shè)計(jì)準(zhǔn)則函數(shù)，并使所設(shè)計(jì)的分類器達(dá)到準(zhǔn)則函數(shù)的極值，即最優(yōu)解，要理解這一最基本的做法。這一章會開始涉及一些具體的計(jì)算，公式推導(dǎo)、證明等，應(yīng)通過學(xué)習(xí)提高這方面的理解能力，并通過習(xí)題、思考題提高自己這方面的能力。本章要點(diǎn)1、機(jī)器自動識別出現(xiàn)錯分類的條件，錯分類的可能性如何計(jì)算，如何實(shí)現(xiàn)使錯分類出現(xiàn)可能性最小一一基于最小錯誤率的Bayes決策理論2、如何減小危害大的錯分類情況一一基于最小錯誤風(fēng)險(xiǎn)的Bayes決策理論3、模式識別的基本計(jì)算框架一一制定準(zhǔn)則函數(shù)，實(shí)現(xiàn)準(zhǔn)則函數(shù)極值化的分類器設(shè)計(jì)方法4、正態(tài)分布條件下的分類器設(shè)計(jì)5、判別函數(shù)、決策面、決策方程等術(shù)語的概念6、Bayes決策理論的理論意義與在實(shí)踐中所遇到的困難知識點(diǎn)

§2.1引言在前一章中已提到，模式識別是一種分類問題，即根據(jù)識別對象所呈現(xiàn)的觀察值，將其分到某個類別中去。統(tǒng)計(jì)決策理論是處理模式分類問題的基本理論之一，對模式分析和分類器的設(shè)計(jì)起指導(dǎo)作用。貝葉斯決策理論是統(tǒng)計(jì)模式識別中的一個基本方法，我們先討論這一決策理論，然后討論涉及統(tǒng)計(jì)判別方法的一些基本問題。在描述本章所要討論的問題之前，再提一下對于待識別的物理對象的描述問題。假設(shè)一個待識別的物理對象用其d個屬性觀察值描述，稱之為d個特征，這組成一個d維的特征向量，而這d維待征所有可能的取值范圍則組成了一個d維的特征空間。為了說明這句話，我們討論一個具體的例子。假設(shè)蘋果的直徑尺寸限定在7厘米到15厘米之間，它們的重量在3兩到8兩之間變化。如果直徑長度x用厘米為單位，重量y以兩為單位。那么，由x值從7到15,y值從3到8包圍的二維空間就是對蘋果進(jìn)行度量的特征空間。貝葉斯決策理論方法所討論的問題是：已知總共有c類物體，也就是說待識別物體屬于這c類中的一個類別，對這c類不同的物理對象，以及各類在這d維特征空間的統(tǒng)計(jì)分布，具體說來是各類別3i=1,2,…,c的先驗(yàn)概率P（3i）及類條件概率密度函數(shù)p（x|3i）已知的條件下，如何對某一樣本按其特征向量分類的問題。由于屬于不同類的待識別對象存在著呈現(xiàn)相同觀察值的可能，即所觀察到的某一樣本的特征向量為X,而在c類中又有不止一類可能呈現(xiàn)這一X值，這種可能性可用P（3i|X）表示。如何作出合理的判決就是貝葉斯決策理論所要討論的問題。下一節(jié)討論幾種常用的決策規(guī)則，接著要分析正態(tài)分布時統(tǒng)計(jì)決策的問題以及錯誤概率等問題。由于這種決策理論基于已知概率分布為前提，因此在本章還要討論概率密度函數(shù)的估計(jì)問題。上一章提到機(jī)器實(shí)現(xiàn)自動分類有兩大類方法：一種是模板匹配方法，而另一種就是對特征空間劃分為子空間（每類的勢力范圍）的方法。本章是針對第二種方法的。核心問題是：樣本為特征向量X時，它屬于哪一類可能性有多大，如能確定屬于各個類別的百分比（概率），分類決策就有了依據(jù)。例如某個樣本的特征向量為X,X屬于第一類樣本的可能性為60%,而第二類的可能性為40%。在沒有任何樣本信息的情況下，則應(yīng)將樣本決策為第一類以使錯分類可能性小（40%）,這就是這一章考慮分類問題的出發(fā)點(diǎn)。§2.2幾種常用的決策規(guī)則本節(jié)將討論幾種常用的決策規(guī)則。不同的決策規(guī)則反映了分類器設(shè)計(jì)者的不同考慮，對決策結(jié)果有不同的影響。其中最有代表性的是基于最小錯誤率的貝葉斯決策與基于最小風(fēng)險(xiǎn)的貝葉斯決策，下面分別加以討論?；谧钚″e誤率的貝葉斯決策一般說來，C類不同的物體應(yīng)該具有各不相同的屬性，在d維特征空間，各自有不同的分布。當(dāng)某一特征向量值X只為某一類物體所特有，即flk=1對其作出決策是容易的，也不會出什么差錯。問題在于出現(xiàn)模棱兩可的情況。此時，任何決策都存在判錯的可能性這一節(jié)討論的是使錯誤率為最小的決策方法，稱為基于最小錯誤率的貝葉斯決策理論。最小錯誤率是在統(tǒng)計(jì)的意義上說的，請注意其含義。在這里要弄清楚條件概率這個概念。P(*|#)是條件概率的通用符號，在T后邊出現(xiàn)的#為條件，之前的*為某個事件，即在某條件#下出現(xiàn)某個事件*的概率。P(3k|X)是表示在X出現(xiàn)條件下，樣本為3k類的概率。一個事物在某條件下出現(xiàn)的概率P(*|#)與該事件在不帶任何條件下出現(xiàn)的概率(寫成P(*))是不相同的。例如全世界人口有60億。因此你見到一個人在不帶任何條件下，有20%的可能性是中國人P(*)=0.2，但是如果你在中國，或香港、臺灣，那么中國、香港、臺灣都是指一種條件(#)，這種地理?xiàng)l件下，你所見到的某一個人是中國人(*)的概率就要大得多，此時P(*|#)就應(yīng)該大于20%，甚至更多了。下面先討論一個例子——癌細(xì)胞的識別，以此說明解決問題的過程。假設(shè)每個要識別的細(xì)胞已作過預(yù)處理，并抽取出了d個特征描述量，用一個d維的特征向量X表示，識別的目的是要依據(jù)該X向量將細(xì)胞劃分為正常細(xì)胞或者異常細(xì)胞。這里我們用表示是正常細(xì)胞，而^2則屬于異常細(xì)胞。類別的狀態(tài)是一個隨機(jī)變量，而某種狀態(tài)出現(xiàn)的概率是可以估計(jì)的。概率的估計(jì)包含兩層含義，一是由統(tǒng)計(jì)資料表明，正常細(xì)胞與異常細(xì)胞在統(tǒng)計(jì)意義上的比例，這稱為先驗(yàn)概率P（叫）及P（32），另一種則分別表示所檢查細(xì)胞呈現(xiàn)出不同屬性的概率密度函數(shù)P（X|叫）和P（x|32），顯然在一般情況下正常細(xì)胞占比例大，即P（叫）＞P（32）,因此如果我們不對具體的細(xì)胞化驗(yàn)值作仔細(xì)觀察，我們作出該細(xì)胞是正常細(xì)胞的判決，在統(tǒng)計(jì)的意義上來說，也就是平均意義上說，錯判可能性比判為異常細(xì)胞時小。但是僅按先驗(yàn)概率來決策，就會把所有細(xì)胞都劃歸為正常細(xì)胞，并沒有達(dá)到將正常細(xì)胞與異常細(xì)胞區(qū)分開的目的。這表明由先驗(yàn)概率所提供的信息太少。為此我們還必須利用對細(xì)胞作病理分析所觀測到的信息，也就是所抽取到的d維觀測向量。為簡單起見，假定只用其一個特征進(jìn)行分類，即d=1，并已知這兩類的類條件概率密度函數(shù)分布已知，如圖2.1所示，其中P（x|叫）是正常細(xì)胞的屬性分布，P（x|32）是異常細(xì)胞的屬性分布。那末，當(dāng)觀測向量為X值時，它屬于各類的概率又是多少呢?為此我們可以利用貝葉斯公式,來計(jì)算這種條件概率，稱之為狀態(tài)的后驗(yàn)概率P（3jX）。Bayes(貝葉斯)公式是根據(jù)聯(lián)合概率這一概念推出的，同時出現(xiàn)兩個事件X及卩的概率為P(X,3j)。它是某個條件出現(xiàn)的概率(如P(3)),以及在此條件下某事件出現(xiàn)概率(P(xg))的乘積，在此寫為：P(x,wi)=P(x|wi)P(wi)=P(wi|x)P(x)。先驗(yàn)概率是針對,i二12…,C，這c個事件出現(xiàn)的可能性而言的，不考慮其它任何條件。例如世界上有60億人口，而中國人口12億，因此不管其它條件，應(yīng)有20％的可能是中國人。類條件概率密度函數(shù)P(x|3j)是指條件下在一個連續(xù)的函數(shù)空間出現(xiàn)X的概率密度，在我們這里指第類樣本，他的屬性X是如何分布的。(2-1)式表明，在得到一個待識別量的觀測狀態(tài)X后，我們可以通過先驗(yàn)概率P(3i)及類別條件概率密度函數(shù)P(x|3i),得到呈現(xiàn)狀態(tài)X時，該樣本分屬各類別的概率，顯然這個概率值可以作為我們識別對象判屬的依據(jù)。上例中圖2.1表示的類條件概率可用式(2-1)換算成如圖2.2所示的后驗(yàn)概率分布。可以看出，在X值小時，細(xì)胞被判為正常是比較合理的，判斷錯誤的可能性小。基于最小錯誤概率的貝葉斯決策理論就是按后驗(yàn)概率的大小作判決的。這個規(guī)則又可以寫成如下幾種等價形式：如果，則恥?(2-2)如用先驗(yàn)概率及類條件概率密度函數(shù)表示，則有：0.5圖2.20.5圖2.2P(Wi|X)P(W|X)如果呵咄⑹隹玖*叫)，貝嚴(yán)4(2-3)以比值的方式表示，心)=昨匈＞沁如果，則，否則恥巴(2-4)(4)(2-4)式還可改寫成為對數(shù)形式，若則，否則恥旳(2-5)g)其中(2-4)式中的l(x)在統(tǒng)計(jì)學(xué)中稱為似然比，而汛巴)稱為似然比閾值。而式(2-5)中h(x)是似然比寫成相應(yīng)的負(fù)對數(shù)形式。它的好處是，與利用(2-4)式本身相比較，進(jìn)行計(jì)算更為方便。面舉一數(shù)值例子。例2.1。假設(shè)在某地區(qū)切片細(xì)胞中正常(叫)和異常(32)兩類的先驗(yàn)概率分別為P(叫)=0.9，P(32)=0.1?，F(xiàn)有一待識別細(xì)胞呈現(xiàn)出狀態(tài)x，由其類條件概率密度分布曲線查得p(x3J=0.2,p(x|32)=0.4，試對細(xì)胞x進(jìn)行分類。解：利用貝葉斯公式，分別計(jì)算出狀態(tài)為x時叫與32的后驗(yàn)概率而^1^0=1-^1^0=0.182根據(jù)貝葉斯決策(2-2)則有P(w1|x)二0.818>P(32|x)二0.0182因此判定該細(xì)胞為正常細(xì)胞比較合理。請用公式(2-3)與(2-5)計(jì)算，檢查一下結(jié)果是否一樣？從這個例子可以看出，盡管類別32呈現(xiàn)出狀態(tài)x的條件概率要高于類呈現(xiàn)此狀態(tài)的概率，但是考慮到P(叫)遠(yuǎn)大于P(32)，因此狀態(tài)x屬于類別叫的可能性遠(yuǎn)比屬于類別32的可能性大。將該細(xì)胞判為正常在統(tǒng)計(jì)的意義上講出錯率要小得多。為了幫助搞清楚一些基本概念，我們還要強(qiáng)調(diào)一下條件概率這個概念。我們舉出兩對概率，一對是P(31|x)和P(32|X)，另一對是P(X|叫)和P(x|W1)o從表面上看，只是條件符號兩邊的項(xiàng)對換了位置，但實(shí)質(zhì)上卻有很大區(qū)別。前一對是在同一條件x下，比較叫與32出現(xiàn)的概率，如果我們只考慮兩類叫和32,則有P（3[im+PgzIxPI。而對兩者進(jìn)行數(shù)值上的比較，如P（3"）＞P（32|X）則可以下結(jié)論，在X條件下，事件叫出現(xiàn)的可能性大。對后一對概率來說，與第一對完全不同，因?yàn)樗鼈兪窃诓煌瑮l件下討論的問題。因此比較兩者沒有意義，而且即使只有兩類叫與叫,P（X|W1）+P（X|W2）*1o這里要特別強(qiáng)調(diào)一點(diǎn)是P（X|叫）與P（X|32）兩者沒有聯(lián)系，都是指各自條件下出現(xiàn)X的可能性，不能僅因?yàn)榍罢弑群笳叽?，就認(rèn)為X是第一類事物的可能性較大，只有考慮先驗(yàn)概率這一因素，才能決定X條件下，3[類還是32類的可能性比較大。另外大家可能覺得比較奇怪，為什么后驗(yàn)概率要利用Bayes公式從先驗(yàn)概率和類條件概率密度函數(shù)計(jì)算獲得。這是因?yàn)橛?jì)算概率都要擁有大量數(shù)據(jù)才行。在估計(jì)先驗(yàn)概率與類條件概率密度函數(shù)時都可搜集到大量樣本，而對某一特定事件（如x）要搜集大量樣本是不太容易的。因此只能借助Bayes公式來計(jì)算得到。對基于最小錯誤率的貝葉斯決策來說，以后驗(yàn)概率值的大小作判據(jù)是最基本的方法，而其它形式的作用都基本相同，但使用時更方便些。以上討論的是在兩類情況下基于最小錯誤概率的貝葉斯決策規(guī)則，下面需證明按這種規(guī)則進(jìn)行分類確實(shí)使錯誤率為最小。下面僅以一維情況來證明，其結(jié)果并不難推廣到多維的情況。由于統(tǒng)計(jì)判別方法是基于統(tǒng)計(jì)參數(shù)作出決策，因此錯誤率也只能從平均的意義上講，表示為在觀測值可能取值的整個范圍內(nèi)錯誤率的均值。在連續(xù)條件下，平均錯誤率，以p(e)表示，應(yīng)有(2-6)(2-6)其中p(e,x)表示錯誤率為e觀測值為x的聯(lián)合概率密度，P(e|x)是觀測值為x時的條件錯誤概率密度函數(shù)，P(x)為x值出現(xiàn)的概率，而積分運(yùn)算則表示為在整個d維特征空間上的總和。在此一維情況下，x取從到的整個范圍。在兩類別問題中，按(2-2)式給出的決策規(guī)則，當(dāng)P(w2|x)>p(w1|x)時決策為w2。顯然這個決策意味著，對觀測值x有P(w1|x)概率的錯誤率。例如在上例中所作的w1決策，實(shí)際上包含有P(w2|x)=0.182的錯誤概率。在兩類別的情況下，可以將p(e|x)表示成當(dāng)如果我們把作出w1決策的所有觀測值區(qū)域稱為R1，則在R1區(qū)內(nèi)的每個x值，條件錯誤概率為p(w2|x)。另一個區(qū)R2中的x,條件錯誤概率為p(w1|x)o因此平均錯誤率P(e)可表示成F@)=上円>|過)芒(x)必+上円>|呵：0)必g8)由于在R1區(qū)內(nèi)任一個x值都有P(w2|x)<P(w1|x)，同樣在R2區(qū)內(nèi)任一個x值都有P(w1|x)<P(w2|x)錯誤率在每個x值處都取小者，因而平均錯誤率P(e)也必然達(dá)到最小，這就證明了按(2-2)式作出的決策，其平均錯誤率為最小。P(W2)P2(e)P(W2)P2(e)P(wi)Pi(e)圖2.3P(x|wi)P(wi)P(X|W2)P{W2)為了形象地說明以上證明，圖2.3表示了在某種概率分布下R1與R2區(qū)的分布情況，該圖分別畫出P(X|3l)P(3l)及p(x|32)P(32)的分布情況，由于P(e)也可以(2-8)式寫成鞏型=L尸⑷2|X)/?血)必+f尸(馬IX)戸㈣)必(2-9)因此錯誤率為圖中兩個劃線部分之和，顯而易見只有這種劃分才能使對應(yīng)的錯誤率區(qū)域面積為最小。以上討論的是兩類別問題情況，在C類別情況下，很容易寫成相應(yīng)的最小錯誤率貝葉斯決策規(guī)則：尸⑷\X)=maxF(叫I乂)如果，則(2-10)也可將其寫成用先驗(yàn)概率與類條件概率密度相聯(lián)系的形式，得：如果F(乂|廻)尸⑷)=maxP(X\￡D..)P(^..),則Ee迴(2-11)至于計(jì)算多類別決策過程中的錯誤率，需把特征空間分割成R1,R2，…，Rc個區(qū)域在每個區(qū)域Ri統(tǒng)計(jì)將所有其它類錯誤劃為該區(qū)域?qū)?yīng)的i類的概率，則每個區(qū)域共有c-1項(xiàng)錯誤率，總共有c(c-1)計(jì)算項(xiàng)，計(jì)算是很繁瑣的。為此，可以改成計(jì)算平均正確分類概率P(c)即(2-12)由于上式中只有c項(xiàng)，計(jì)算要簡單得多。然后通過式子P(e)=1-P(c)，就可計(jì)算出平均錯誤率。例應(yīng)用貝葉斯決策的膚色提取利用貝葉斯原理，可以建立簡單的膚色模型，并用來從圖像中提取手部、臉部膚色，進(jìn)而得到人的身體姿勢。我們使用的方法是：1．先在一副訓(xùn)練圖象中手工描繪出膚色區(qū)域，2．然后統(tǒng)計(jì)每種顏色點(diǎn)在膚色區(qū)域中出現(xiàn)的次數(shù)和在區(qū)域外出現(xiàn)的次數(shù)的比值，作為這種顏色是膚色的概率，3．這樣就得到了一張查找表，表中的每個元素是這個點(diǎn)是膚色的概率我們就得到了一個點(diǎn)是不是膚色的概率分布。4．再加上域值限制之后，認(rèn)為只有概率大于一定域值的才是膚色。這樣，對圖中任意一點(diǎn)，查找表中對應(yīng)的概率，就可以很快的知道它是不是膚色了?；谧钚★L(fēng)險(xiǎn)的貝葉斯決策上面我們討論了使錯誤率最小的貝葉斯決策規(guī)則。然而當(dāng)接觸到實(shí)際問題時，可以發(fā)現(xiàn)使錯誤率最小并不一定是一個普遍適用的最佳選擇。譬如，在上面討論過的細(xì)胞分類的例子中，把正常細(xì)胞錯分為癌細(xì)胞，或相反方向的錯誤，其嚴(yán)重性是截然不同的。把正常細(xì)胞誤判為異常細(xì)胞固然會給人帶來不必要的痛苦，但若將癌細(xì)胞誤判為正常細(xì)胞，則會使病人因失去及早治療的機(jī)會而遭受極大的損失。由此可見，根據(jù)不同性質(zhì)的錯誤會引起不同程度的損失這一考慮出發(fā)，我們寧肯擴(kuò)大一些總的錯誤率，但也要使總的損失減少。這會引進(jìn)一個與損失有關(guān)聯(lián)的，更為廣泛的概念——風(fēng)險(xiǎn)。在作出決策時，要考慮所承擔(dān)的風(fēng)險(xiǎn)。基于最小風(fēng)險(xiǎn)的貝葉斯決策規(guī)則正是為了體現(xiàn)這一點(diǎn)而產(chǎn)生的。在討論基于風(fēng)險(xiǎn)的決策方法的具體內(nèi)容之前，讓我們首先回顧一下上一節(jié)討論的基于最小錯誤概率的決策方法。從式(2-10)可以看出，在分類時所作的判決(稱之為決策)單純?nèi)Q于觀測值X對各類(也稱自然狀態(tài))的后驗(yàn)概率中之最大值，因而也就無法估計(jì)作出錯誤決策所帶來的損失。為此不妨將作出判決的依據(jù)從單純考慮后驗(yàn)概率最大值，改為對該觀測值X條件下各狀態(tài)后驗(yàn)概率求加權(quán)和的方式，表示成Ri(X)=^pP^J.\X)(2-13)沖)其中表示觀測樣本X實(shí)屬類別j,而被判為狀態(tài)i時所造成的損失，R,則表示了觀測值X被判為i類時損失的均值。如果我們希望盡可能避免將某狀態(tài)錯判為狀態(tài)3卩則可將相應(yīng)的值選擇得大些，以表明損失的嚴(yán)重性。加權(quán)和Ri用來衡量觀測樣本X被判為狀態(tài)卩所需承擔(dān)的風(fēng)險(xiǎn)。而究竟將X判為何類則應(yīng)依據(jù)所有％,（i=1,…,c）中的最小值，即最小風(fēng)險(xiǎn)來定。我們再從另一角度把這個問題說清楚。我們見到一個病理切片X,要確定其中有沒有癌細(xì)胞（用叫表示正常，32表示異常），則P（叫IX）與P（32|X）分別表示了兩種可能性的大小。如果X確實(shí)是癌細(xì)胞（32），但被判作正常（叫），則會

有損失，這種損失用冷）表示，X確實(shí)是正常（3J，卻被判定為異常（32），則損失

表示成,另外為了使式子寫的更方便，我們也可以定義潛與入羅是指正確判

斷也可有的損失。那么把X判作叫引進(jìn)的損失應(yīng)該與馮以及入B都有關(guān)，哪一個占主要成分，則取決于P（叫|X）與P（32|X）。因此變成了一個加權(quán)和R1(X)=X(J)P(W1|X)+^)P(a)2|X)同樣將X判為32的風(fēng)險(xiǎn)就成為B.2(X)=X(12JP(co1|X)+^)P(co2|X)此時作出哪一種決策就要看是R1（X）小還是R2（X）小了，這就是基于最小風(fēng)險(xiǎn)的貝葉斯決策的基本出發(fā)點(diǎn)。有關(guān)該例的數(shù)值例子在例2.2。以上討論是為了說明這種方法的概念。下面我們給出一些確切的定義。（1）自然狀態(tài)與狀態(tài)空間。其中自然狀態(tài)是指待識別對象的類別，而狀態(tài)空間Q則是由所有自然狀態(tài)所組成的空間，Q={3〔，叫，…，叫}（2）決策與決策空間。在決策論中，對分類問題所作的判決，稱之為決策，由所有決策組成的空間稱為決策空間。決策不僅包括根據(jù)觀測值將樣本劃歸哪一類別（狀態(tài)），還可包括其它決策，如“拒絕”等，因此決策空間內(nèi)決策總數(shù)a可以不等于類別數(shù)C,表示成卅)損失函數(shù)入9冋)(或?qū)懗扇?凹))。這就是前面我們引用過的。它明確表示對自然狀態(tài)W,作岀決策q時所造成的損失。觀測值X條件下的期望損失R(aJX),班碼|天)=士\缸宀)卩阿|天),i=1,2,…，a(2-14)這就是前面引用的符號Ri,也稱為條件風(fēng)險(xiǎn)。與式(2-10)類似，最小風(fēng)險(xiǎn)貝葉斯決策規(guī)則可寫成：|用)=nm應(yīng)(問IX)如果，則a=ak(2-15)但與(2-10)式不同的是，這里計(jì)算的是最小值。與上一小節(jié)中基于最小錯誤概率的決策方法中所引用的平均錯誤率P(e)相類似，在這里引入一個期望風(fēng)險(xiǎn)R,R=fR(a(X)|X)p(X)dX(2-16)它表示對所有X取值所作的決策a(X)所帶來的平均風(fēng)險(xiǎn)。與上一節(jié)證明基于最小錯誤概率的貝葉斯決策方法相類似，當(dāng)所采取的每一個決策都使其條件風(fēng)險(xiǎn)最小，則對所有的X所作的決策，其期望風(fēng)險(xiǎn)也必然最小。對于實(shí)際問題，最小風(fēng)險(xiǎn)貝葉斯決策可按下列步驟進(jìn)行：在已知P(j),P(X|3j),i=1,…，c及給岀待識別的X的情況下，根據(jù)貝葉斯公式計(jì)算岀后驗(yàn)概率：j=1,j=1,…，x⑵利用計(jì)算出的后驗(yàn)概率及決策表，按式（2-14）計(jì)算出采取q,i=1,…，a的條件風(fēng)險(xiǎn),i=,i=1,2,…,a（3）對⑵中得到的a個條件風(fēng)險(xiǎn)值R（aJX）,i=1,…，a進(jìn)行比較，找出使條件風(fēng)險(xiǎn)最小的決策ak，即則ak就是最小風(fēng)險(xiǎn)貝葉斯決策。例2.2在例2.1條件的基礎(chǔ)上，并且已知入『。，（入“表示入gg）的簡寫），入12=6,入21=1，入22=0,按最小風(fēng)險(xiǎn)貝葉斯決策進(jìn)行分類。解：已知條件為P（叫）二0.9,P（叫2）二0-1p（X|叫）二0.2,p（X|叫2）二0.r入11二0,入12二6,入21―1,入22二0根據(jù)2.1的計(jì)算結(jié)果可知后驗(yàn)概率為P（叫IX）二0.818,P（叫2|X）二0.182再按式（2-14）計(jì)算出條件風(fēng)險(xiǎn)R（眄|X）=工打jF0j|X）=兀FC%|X）=1.092j-iR（吧|X）=$>#（3|X）=X21P（co2|X）=0.818j-i由于R(a1|X)>R(a2|X)即決策為312的條件風(fēng)險(xiǎn)小于決策為的條件風(fēng)險(xiǎn)，因此應(yīng)采取決策行動a2，即判待識別的細(xì)胞X為312類一一異常細(xì)胞。將本例與例2.1相對比，其分類結(jié)果正好相反，這是因?yàn)橛绊憶Q策結(jié)果的因素又多了一個“損失”。由于兩類錯誤決策所造成的損失相差很懸殊，因此“損失”在這里起了主導(dǎo)作用。從以上討論可以看出，正確制訂損失函數(shù)值，是基于最小風(fēng)險(xiǎn)的貝葉斯決策方法在實(shí)際中使用的一個關(guān)鍵問題。而實(shí)際中列出合適的決策表并不是一件容易的事，需根據(jù)所研究的具體問題，分析錯誤決策造成損失的嚴(yán)重程度，與有關(guān)專家共同商討來確定。最后我們再討論一下上面兩種決策方法之間的關(guān)系，設(shè)損失函數(shù)為汎(眄丨⑴J=1二1,j=l,2,...,C,(2-17)

式中假定對C類只有C個決策，即不考慮“拒絕”等其它情況，（2-17）表明，當(dāng)作出正確決策（即i=j）時沒有損失，而對于任何錯誤決策，其損失均為1。這樣定義的損失函數(shù)稱為0—1損失函數(shù)。根據(jù)（2-14）式條件風(fēng)險(xiǎn)為(2-18)(2-18)而，也恰恰是將X判為3」時的錯誤概率。因此基于最小風(fēng)險(xiǎn)的貝葉斯決策結(jié)果，在0—1損失函數(shù)情況下，也就是基于最小錯誤概率的貝葉斯決策結(jié)果。由此可見，最小錯誤率貝葉斯決策就是在0—1損失函數(shù)條件下的最小風(fēng)險(xiǎn)貝葉斯決策。換句話說，前者是后者的特例。實(shí)際上,因此，當(dāng)最大時出區(qū)）最小。實(shí)際上,因此，當(dāng)最大時出區(qū)）最小。它與基于最小錯誤率的貝葉斯決策的判據(jù)是一樣的。如果我們只考慮兩類別問題，并只有一維特征向量的情況，我們可以畫出一張與圖2.3類似的圖2.4，用來表示最小風(fēng)險(xiǎn)貝葉斯決策方法的分類結(jié)果。與圖2.3不同的是，R1與R2兩個區(qū)域的分界線不再是t,而是向左移了一段距離，這是由于損失函數(shù)入12比入21大所造成（可以假設(shè)九二入22二0），在發(fā)生位移這一區(qū)域內(nèi)，盡管P（X|3jP（叫）＞P（X|叫?P（312），但是為了減少將叫2錯判為叫所帶來的嚴(yán)重?fù)p失，在P（X|叫2）P（312）尚不很小的情況下，使將312類樣本錯判為叫的可能性減小，以減小決策所承擔(dān)的風(fēng)險(xiǎn)。當(dāng)然平均錯誤率則明顯增大了。(2-13)式定義了樣本為X作出i決策時的期望風(fēng)險(xiǎn)，可以從兩個方面理解。一種是由于樣本存在分屬各類的可能性，而對實(shí)屬一類卻決策成i類會造成程度不同的損失，因而期望損失應(yīng)是風(fēng)險(xiǎn)系數(shù)心"與相乘之總和。另一種看法可以將損失看成是對后驗(yàn)概率的重要性作加權(quán)，兄V是對的加權(quán)系數(shù)。因此只要稍大一點(diǎn)，就會使風(fēng)險(xiǎn)明顯增大。公式(2-17)與(2-18)說明了基于最小錯誤率與基于最小風(fēng)險(xiǎn)兩種Bayes決策的關(guān)系，結(jié)論是基于最小錯誤率的決策是基于最小風(fēng)險(xiǎn)決策的一個特例。這是因?yàn)楹笳叨嗔艘恍┫禂?shù)允許調(diào)整，而按(2-17)式調(diào)整就將基于最小風(fēng)險(xiǎn)決策改成基于最小錯誤率決策，這種設(shè)置可調(diào)整參數(shù)集的情況比限定參數(shù)集的情況有更大自由度，因此后者必定為前者的一個特定情況。2.2.4判別函數(shù)、決策面與分類器設(shè)計(jì)以上我們討論了幾種常用的決策原則，在這些原則的指導(dǎo)下，可以進(jìn)行分類器的設(shè)計(jì)。在討論分類器設(shè)計(jì)前，需要說明在分類器設(shè)計(jì)中使用的一些概念，這就是決策面與判別函數(shù)。在前面討論中曾提到，分類決策實(shí)質(zhì)上是在描述待識別對象的d維特征所組成的特征空間內(nèi)，將其劃分為c個決策域，待識別的特征向量落在哪個決策域，該樣本就被判為哪一類。因此決策域的邊界面就是決策面，在數(shù)學(xué)上用解析形式表示成決策面方程。用于表達(dá)決策規(guī)則的某些函數(shù)則稱為判別函數(shù)。顯然判別函數(shù)與決策面方程是密切相關(guān)的，并且都是由相應(yīng)決策規(guī)則所確定的。例如在兩類別問題中，按最小錯誤率作決策時，決策規(guī)則的一種形式是F仙|X)》F?2|X)=X丸］,否則X已叫則相應(yīng)的判別函數(shù)就是gi(X)=P(wi|X),i=1,2而決策面方程則可寫成g,x)二g2(x)此時決策規(guī)則也可以寫成用判別函數(shù)表示的形式如果gi(X)>gj(X)i,j=1,2且i±j則X門,否則Xw3j至于多類別情況，則對應(yīng)于一種決策規(guī)則要定義一組判別函數(shù)g^X),i=1,2,…，c而決策規(guī)則可表示成gi(x)=maxg-(X)如果J，則將X歸于卩類；多類別情況下的決策面方程比兩類問題復(fù)雜，并且只有在特征空間中具有相鄰關(guān)系的決策域的邊界面才是有意義的決策面。當(dāng)3i的決策域與円的決策域相鄰時，以下關(guān)系決定了相應(yīng)的決策面gi(X)=gj(X)

此外，決策面是一種統(tǒng)稱，當(dāng)特征空間只是一維時，一個決策面實(shí)際上只是一個點(diǎn)。在二維特征空間里，決策面是一條曲線。三維則是一曲面，超過三維的空間，決策面是一個超曲面。圖2.5（a）表示了一個三類別問題用一維特征空間時的所有決策邊界，而圖2.5（b）則表示了相應(yīng)的二維特征空間中的決策邊界。角（x）=q（x）（決策邊界）的a2.5（真印自asa編c模式識別》）在討論了判別函數(shù)等概念后，設(shè)計(jì)分類器的任務(wù)就清楚了。分類器可以用軟件或硬件實(shí)現(xiàn)。圖2.6表示了兩類別問題分類器的框圖，而圖2.7則表示了多類別分類器的結(jié)構(gòu)框圖。兩者主要的不同在于多類別情況需有一個求最大值的環(huán)節(jié)，在圖2.7中用MAX表示，而兩類情況則可簡化為正負(fù)號判別器（閾值單元）。Xi+1刪計(jì)舞決策Xd圖26圖27（復(fù)印自辺筆棋編《模式識別加IW元Xi+1刪計(jì)舞決策Xd圖26圖27（復(fù)印自辺筆棋編《模式識別加IW元MAX/M大直語壬器決策分類器設(shè)計(jì)除了確定結(jié)構(gòu)框圖外，問題主要集中在判別函數(shù)的選擇，使用最小風(fēng)險(xiǎn)決策時合理的損失函數(shù)的確定。此外貝葉斯決策理論都是基于統(tǒng)計(jì)分布確定的情況下的計(jì)算，而統(tǒng)計(jì)參數(shù)的確定恰恰是最困難的問題。如果要按貝葉斯決策方法設(shè)計(jì)分類器，就必須設(shè)法獲得必需的統(tǒng)計(jì)參數(shù)，這個問題可參看《模式識別基本教程》。前面討論的Bayes決策理論其實(shí)是很簡單的，對特征空間任一點(diǎn)X只要能確定落在該點(diǎn)的樣本X屬于哪一種類的可能性大，就將這點(diǎn)劃分到這類的決策域。問題是后驗(yàn)概率P（3j|X）要通過先驗(yàn)概率和類概率密度函數(shù)計(jì)算。因?yàn)锽ayes決策是一種通用方法，它只在原理上講特征空間中符合什么條件才能作為哪一類決策域，而我們希望能把決策域用簡便的方式，最好是函數(shù)形式劃分出來，直接計(jì)算判別函數(shù)就方便了。顯然具體的決策域劃分與樣本的概率分布有關(guān)。下面結(jié)合正態(tài)分布概率密度函數(shù)進(jìn)行討論，在討論結(jié)束時我們會發(fā)現(xiàn)從中可以得到不少啟示?！?.3正態(tài)分布時的統(tǒng)計(jì)決策到學(xué)習(xí)2.3節(jié)之前我們應(yīng)該對前面學(xué)習(xí)的內(nèi)容進(jìn)行階段性的總結(jié)。因?yàn)榍懊鎺坠?jié)講的是一些基本概念，而從2.3節(jié)開始則將這些概念具體化，在正態(tài)分布條件下具體化。前面幾節(jié)主要應(yīng)該掌握的是：分類器設(shè)計(jì)時使用什么原則是關(guān)鍵，他會影響到分類器的效果。應(yīng)該掌握的是兩種最基本的原則。一種是要求錯分率最小即完全以減少分類錯誤為原則。這是一個通用原則，也應(yīng)該知道基于最小風(fēng)險(xiǎn)的貝葉斯決策的原理。弄清后驗(yàn)概率等幾個概念，為什么用后驗(yàn)概率大小來判斷就能實(shí)現(xiàn)錯誤率最?。俊帮L(fēng)險(xiǎn)”與“損失”的概念也很重要，通過它們把錯分類造成的影響考慮進(jìn)來了。應(yīng)該通過下面這幾個問題思考一下自己是否掌握基本內(nèi)容。沖)a?風(fēng)險(xiǎn)系數(shù)是怎么定義的？(樣本本屬于第j類，但如果錯分到第i沖)類，會造成的損失)b?為什么對某個樣本作第i個決策的風(fēng)險(xiǎn)要按(2-13)或(2-14)等式計(jì)算？答案是，一個樣本X被錯分類時會造成損失,但實(shí)際造成的損失還要與后驗(yàn)概率，與的數(shù)值成正比。如果X屬于的可能性不大，那么它造成的損失所占的比例就小了。c?如果比"比應(yīng)大得多，那么分類器設(shè)計(jì)希望避免哪一類錯分類？網(wǎng)大則表示這種錯誤造成的損失大，希望這一類錯誤盡可能減少。分類所用的計(jì)算式都有一個特點(diǎn)，是比較所計(jì)算數(shù)值誰大誰小。這種函數(shù)就稱為判別函數(shù)，函數(shù)的自變量是樣本X，故一般表示成gi(X)，如果gi(X)=maxgj(X)則稱特征空間的這一點(diǎn)X是第i類的決策域。由gi(X)占主導(dǎo)地位的區(qū)域稱為第i類的決策域，我們將它表示成Ri，如果第i類決策域Ri與第j類決策域相鄰，則它們之間有邊界。在邊界上有g(shù)i(X)=gj(X),該式是一個方程式，稱為決策面方程。第2.3節(jié)主要是結(jié)合一種比較典型的概率分布來進(jìn)一步基于最小錯誤貝葉斯決策分類器的種種情況。這一節(jié)的學(xué)習(xí)中要抓住哪些重點(diǎn)呢？什么叫正態(tài)分布，或高斯分布，它是哪一種概率定義說的？是先驗(yàn)概率P(3i),還是分布P(X|3i)，還是后驗(yàn)概率P(3i|X)?對于高斯分布的表達(dá)式，要明白它的兩個關(guān)鍵，一是均值，另一是協(xié)方差矩陣。要懂得如何將正態(tài)分布與基于最小錯誤率的貝葉斯決策結(jié)合起來。關(guān)鍵還是要弄清楚正態(tài)分布是指對哪一種概率。明白這點(diǎn)就會弄清楚用基于最小錯誤率決策中的哪個方程式了。由于高斯分布是指數(shù)函數(shù)，因此計(jì)算時常用對數(shù)使計(jì)算簡化，這是一個具體技巧，因?yàn)槿缭紽區(qū))=A(X)e-B岡，則bgF0)就會變成10gF(X)=kgA(X)-B(X)，許多重要性質(zhì)都包含在b(x)中，因此這樣進(jìn)行計(jì)算就會簡單些。在討論過程中會引進(jìn)一些不同分類器的定義，如最小距離分類器、線性分類器等，這些定義也是比較重要的。節(jié)中討論了在一般的概率統(tǒng)計(jì)分布情況下的統(tǒng)計(jì)決策理論，這一節(jié)我們要討論最常用的正態(tài)分布情況。在模式識別及其它信息處理應(yīng)用系統(tǒng)中，正態(tài)分布假設(shè)是對各種隨機(jī)變量使用得最普遍的假設(shè)。這主要有兩方面的原因：一個最重要的原因是正態(tài)分布在數(shù)學(xué)上比較簡便。除了一些極其簡單與不甚實(shí)用的統(tǒng)計(jì)分布模型外，正態(tài)分布可說是數(shù)學(xué)上最簡便的一種。數(shù)學(xué)的簡便性便于人們對統(tǒng)計(jì)識別方法進(jìn)行數(shù)學(xué)分析。正態(tài)分布的一些特殊情況還會揭示統(tǒng)計(jì)判別方法中許多有趣的性質(zhì)，有助于我們對統(tǒng)計(jì)判別方法加深理解。在模式識別技術(shù)的研究中，需要用設(shè)計(jì)樣本集來設(shè)計(jì)分類器，還需用測試樣本集來檢驗(yàn)分類器的分類效果，并對不同的分類器設(shè)計(jì)的性能進(jìn)行比較，用正態(tài)分布模型抽取設(shè)計(jì)樣本集與考試樣本集在數(shù)學(xué)上實(shí)現(xiàn)起來也比較方便。另一個很重要的原因是物理上的合理性，缺少這一條，正態(tài)分布模型也不可能得到如此廣泛的應(yīng)用。在許多實(shí)際應(yīng)用場合，如果同一類樣本在特征空間內(nèi)的確較集中地分布在其類均值的附近，遠(yuǎn)離均值處分布較少，那么一般情況下以正態(tài)分布模型近似往往是比較合理的。人們也往往因數(shù)學(xué)分析復(fù)雜程度考慮而不得不采用這種模型，當(dāng)然使用時應(yīng)注意結(jié)果是否合理或關(guān)注其可接受的程度。下面我們先簡略敘述正態(tài)模型的一些基本概念與有關(guān)的重要特性，以便后續(xù)分析。然后討論正態(tài)分布時統(tǒng)計(jì)決策問題。2.3.1正態(tài)分布概率密度函數(shù)的定義與性質(zhì)一、單變量正態(tài)分布單變量正態(tài)分布概率密度函數(shù)定義為(2(2－29)式中u表示隨機(jī)變量X的數(shù)學(xué)期望，02為其方差，而。則稱為標(biāo)準(zhǔn)差。(2-30)(2-30)(2-31)(2-29)表明單變量正態(tài)分布概率密度函數(shù)p(x)完全可由“與o2兩個參數(shù)確定，常記作N(u,O2)。正態(tài)分布的樣本主要集中分布在其均值附近，其分散程度可用標(biāo)準(zhǔn)差來衡量，o愈大分散程度也越大。從正態(tài)分布的總體中抽取樣本，約有95%的樣本都落在區(qū)間2o,u+2o)內(nèi)。首先正態(tài)分布是指一個隨機(jī)實(shí)數(shù)度量值在整個實(shí)數(shù)域上的分布規(guī)律。因此它屬于概率密度函數(shù)類，不是我們所討論的先驗(yàn)概率P(3j)，也不是后驗(yàn)概率P(3j|X)，而是p(x|3j)。式(2-29)用p(x)表示，是因?yàn)橥ㄓ霉剑缇唧w到我們的情況，可將(2-29)具體化，則p(x|(?1)=^e'^2#2兀b其中卩，oi分別是對(2-29)中3及o的具體化。二、多元正態(tài)分布多元正態(tài)分布的概率密度函數(shù)多元是指樣本以多個變量來描述，或具有多個屬性，在此一般用d維特征向量表示，X=[x1，…，xd]T。d維特征向量的正態(tài)分布用下式表示(2-32)(2-32)其中U是X的均值向量，也是d維，尸E{X}二[山，旳，…，Udh(2-33)為是dxd維協(xié)方差矩陣，而Z-1是》的逆矩陣，|Z|是為的行列式為二E{(X-p)(X-M)t}(2-34)為是非負(fù)矩陣，在此我們只考慮正定陣，即匡|>0。多元正態(tài)分布與單態(tài)量正態(tài)分布在形式上盡管不同，但有很多相似之處，實(shí)際上單變量正態(tài)分布只是維數(shù)為1的多元分布。當(dāng)d=1時上只是一個1x1的矩陣，也就是只有1個元素的矩陣，退化成一個數(shù)，門1/2也就是標(biāo)準(zhǔn)差o，匚1也就是62，而(X-m)t(X沖)也變成(X-u)2，因此(2-32)也就演變成(2-29)。但是多元正態(tài)分布要比單變量時復(fù)雜得多，具有許多重要的特性，下面只就有關(guān)的特性加以簡單敘述。多元正態(tài)分布的概率密度函數(shù)中的元就是我們前面說得特征向量的分量數(shù)，也就是維數(shù)。為了方便我們著重討論二維向量，是一個隨機(jī)向量，其中每一個分量都是隨機(jī)變量，服從正態(tài)分布。但是一個二維隨機(jī)向量不僅要求考慮每個分量單獨(dú)的分布，還要考慮兩個隨機(jī)變量之間的關(guān)系。下圖的例子中的兩個二元正態(tài)分布的各個分量是相同的，即它們的期望(“1和p2)方差。1和02都相同，但這兩個特征向量在空間的分布卻不相同。從下圖：對右圖來說，x1和x2有很大的相關(guān)性，而對左圖來說，隨機(jī)變量x1與x2之間的相關(guān)性很小。這可以從兩者的區(qū)別看出來。對于右圖可以看出一個隨機(jī)變量的x1分量較小時，另一分量x2也必然較小。而當(dāng)隨機(jī)變量的x1較大時，則其相應(yīng)的x2分量也較大。換句話說，如果x1分量小于其均值出,則其相應(yīng)的分量x2也很可能小于它的均值m2。因此當(dāng)x1-M1<0時，也常伴有x2-u2<0，這說明它們之間有聯(lián)系，或稱相關(guān)性，用（衍一血）（衍一兩）這兩項(xiàng)相乘來看就有傾向化。對E［（瓦2一戸2）（瓦1一Ml）］：整個隨機(jī)變量樣本集取期望值，就會使有非零值。反過來看左圖中的隨機(jī)變量分布，就沒有這種規(guī)律，一個隨機(jī)變量X1分量小于其均值，并不對其相應(yīng)分量X2與之間的關(guān)系有什么限制。在此時一個隨機(jī)變量（％-山）與E［（X2一陽一Ml）］：（x2-p2）的乘積的符號就可正可負(fù)，則就可能接近于零，或等于E［（瓦2一戸2）（瓦1一Ml）］：零。因此我們可以用來衡量這種相關(guān)性，稱為協(xié)方差。則前者的協(xié)方差是個正數(shù)，而后者很可能為零，協(xié)方差越大，說明兩個變量的相關(guān)度越高。為了將各個分量的方差、協(xié)方差都用一個統(tǒng)一的方式表示，則可使用式（2-34），用符號》表示。你如果將（2-34）表示一個二維向量，你就會發(fā)現(xiàn)該矩陣的非對角元素正表示了兩個分量之間的相關(guān)性，而主對角元素則是各分量本身的方差。(2-34)為稱為協(xié)方差矩陣。(2-34)為稱為協(xié)方差矩陣。那么以下是上兩圖特征向量分布的協(xié)方差矩陣：和L10.9和L10.90.91，請問哪個是左圖，哪個是右圖？(前一個是左圖)如果是一個三維向量，它的協(xié)方差矩陣是幾乘幾的矩陣？每個元素又對應(yīng)什么含義？(是個3x3矩陣「5"皿—)閃一聊)還需要指出的是，協(xié)方差矩陣并不只對正態(tài)分布有用，它是多元隨機(jī)變量中一個重要的數(shù)學(xué)統(tǒng)計(jì)表示方法，它描述了一個隨機(jī)變量樣本集中各個分量之間的相關(guān)性。協(xié)方差矩陣還有一些很重要的屬性，是經(jīng)常用到的。其中一個特性是：它是一個對稱矩陣。另一個特性是：由于它的主對角元素都是各分量的方差，因此一般情況下都是大于零的值。因此協(xié)方差矩是正定的，這一點(diǎn)也是十分有用的。多元正態(tài)分布的性質(zhì)參數(shù)U與》對分布具有決定性。這一點(diǎn)與單變量時是相似的，記作p(X)~N(uQ)。等密度點(diǎn)分布在超橢球面上。由于(2-32)是指數(shù)函數(shù)，因此等密度點(diǎn)對應(yīng)：

(x-m)tZ-i(x-m)二常數(shù)(2-35)在二維情況下，(2-35)的解是一個橢圓軌跡，其長短軸方向由》協(xié)方差矩陣的特征向量決定，在三維時則是一個橢球面，超過三維則是超橢球面，主軸方向由協(xié)方差矩陣的特征向量決定，各主軸的長度則與相應(yīng)的特征值成正比。在數(shù)理統(tǒng)計(jì)中把(X-u)tZ-i(X-u)稱為向量X到向量u的Mahalanobis距離的平方，即r2=(x-u)tZ-i(x-u)(2-36)按此定義多元正態(tài)分布等密度點(diǎn)X的軌跡是到u的Mahalanolbis距離為常數(shù)的超橢球面。(2-36)式在二維時表示一個橢圓，在三維表示橢球，在高維是表示超橢球，這是一個二次型問題，在線性代數(shù)中學(xué)過，為了復(fù)習(xí)，讀者可以用二維的例子來計(jì)算。簡便起見，設(shè)(2-35)例子來計(jì)算。簡便起見，設(shè)(2-35)式中01試求滿足此條件的曲線。I手+3(k丿，故得，為一個橢圓)可將mahalanolbis距離與歐氏距離作比較，前者是一個橢圓，而后者則是圓。請問可以用(2-43)表示歐氏距離嗎？Z二？(Z=I是單位矩陣)多元正態(tài)分布的離散程度由參數(shù)|Z|i/2決定，這與單變量時由標(biāo)準(zhǔn)差o決定是對應(yīng)一致的。不相關(guān)性等價于獨(dú)立性。在數(shù)理統(tǒng)計(jì)中一般情況下，兩個隨機(jī)變量xi與Xj之間不相關(guān)，并不意味著它們之間一定獨(dú)立。不相關(guān)只表明E[XjXj]二E[x}E[Xj]，即兩變量乘積的期望值等于這兩變量期望值之乘積，而只有卩(知勺二p(x)p(Xj)，即兩變量的聯(lián)合密度函數(shù)等于兩者概率密度函數(shù)的乘積，這兩個隨機(jī)變量才是獨(dú)立的。但反過來相互獨(dú)立的隨機(jī)變量，它們之間也是不相關(guān)的。然而對多元正態(tài)分布的任意兩個分量谷與Xj而言，如果谷與Xj不相關(guān)，則它們之間也一定是獨(dú)立的，也就是說正態(tài)分布中不相關(guān)性等價于獨(dú)立性。邊緣分布和條件分布的正態(tài)性。多元正態(tài)分布的邊緣分布和條件分布仍然是正態(tài)分布。這就是說多元正態(tài)的隨機(jī)向量，就其每個分量單獨(dú)的分布而言，也是正態(tài)分布的。另一方面，對某個分量或若干個分量保持常數(shù)的條件下樣本的分布也仍然是正態(tài)的。線性變換的正態(tài)性。這是指多元正態(tài)分布的隨機(jī)向量的線性變換仍然是多元正態(tài)分布的隨機(jī)向量。如果設(shè)X[X1,X2，…，Xd]T，是具有均值向量U，正定協(xié)方差矩陣為》的正態(tài)隨機(jī)向量，現(xiàn)對X作線性變換得丫二AX，其中A是非奇異的線性變換矩陣，則丫也是正態(tài)分布的，它的均值向量為Au,而協(xié)方差矩陣為AZAto這表明經(jīng)線性變換后，原正態(tài)分布的樣本可變?yōu)榱硪粎?shù)不同的正態(tài)分布樣本。同時由于協(xié)方差矩陣》是對稱矩陣，因此總可以找到某個線性變換A，使變換后的協(xié)方差矩陣AZAt成為對角矩陣，這就意味著在某一個新的坐標(biāo)系統(tǒng)中，可以做到使各分量之間是相互獨(dú)立的。這一性質(zhì)對解決某些模式識別問題有重要意義。線性組合的正態(tài)性。這是指多元正態(tài)分布的隨機(jī)向量，在經(jīng)過線性組合后得到的一維隨機(jī)變量也是正態(tài)分布的。用式子表示為，若X=[x1，…，xd]t,0是與其同維的某個向量，如用a對X實(shí)行線性組合得丫二qtx，則丫的分布仍然是正態(tài)的。2.3.2正態(tài)分布概率模型下的最小錯誤率貝葉斯決策在正態(tài)分布條件下最小錯誤率貝葉斯分類器有些特殊的性質(zhì)，可使判別函數(shù)及決策面方程計(jì)算得到不同程度的簡化。下面我們從最簡單的情況開始討論，然后逐漸涉及較一般的情況。一、最小距離分類器情況采用（2-3）式表示的決策規(guī)則，即p（X|⑴i）F（q）=maxp（X|wJPfwJ,i,j二1,…，u如果則Xewi因此判別函數(shù)為P（Xl°i）P（Oi），其中pCX|s」是多元正態(tài)分布，可表示成P（X1s」?N?？紤]到正態(tài)分布函數(shù)是指數(shù)函數(shù)形式，判別函數(shù)采用對數(shù)形式則更為方便，因此判別函數(shù)可寫成：gi（X）=-寺區(qū)-旳）丁塑（X-厲）-fin2x-iln|Si|+lnF〔q）（2-37）而相應(yīng)的決策面方程為即

(2-38)(2-38)在正態(tài)分布的某一種特殊情況下，最小錯誤率貝葉斯分類器可演化成最小距離分類器。最小距離分類器的定義是，每個樣本以它到每類樣本均值的歐氏距離的最小值確定其分類，即如果IIX—5—min||X—、||豎1,冋…，C則XM(2-39)樣本分布滿足以下正態(tài)分布條件時，最小錯誤分類器與(2-39)表示的決策規(guī)則相當(dāng)；S￡=0EI,P(o￡)=1/031=^">c其中I是dxd維單位矩陣，即TOC\o"1-5"\h\zCF2-■■0Sj=■CT2--■0■CF2以上條件表明，c類樣本都以半徑相等的超球面形狀分布在特征空間內(nèi)，且具有相等的先驗(yàn)概率。圖2.8(a)表示一個在二維特征空間中滿足上述條件的兩類別問題示意圖，圖中兩類分布為兩個相同的同心園，圖中山與旳為其圓心。

(2-40)由于決策是根據(jù)各判別函數(shù)之間的大小，因而在(2-40)中一些與類別無關(guān)的項(xiàng)可以忽略，再加上先驗(yàn)概率相等這個條件，判別函數(shù)可簡化成(2-41)(2-41)由此可見，在這種條件下，最小歐氏距離是決定分類的準(zhǔn)則。圖2.8(a)表示了兩類別情況下山與旳連線的垂直平分線是其決策面圖2.8(b)則畫出多類別的情況，它們分別是相鄰區(qū)域的垂直平分線組合而成。圖2.8

前面我們曾經(jīng)提到過分類的兩種基本方法中的一種——模板匹配，最小距離分類器就可看作模板匹配。每個類有一個典型樣本(即均值向量)，稱為模板，而待分類樣本X只要按歐氏距離計(jì)算與哪個模板最相似(歐氏距離最短)即可作決定。二、線性分類器決策面為超平面的分類器稱為線性分類器。有不止一種正態(tài)分布概率模型，可使最小錯誤率貝葉斯決策的決策面具有超平面形式。這里我們討論兩種情況。》i=O2li=1,…，c這種情況與上一種情況不同之處在于并不要求各類的先驗(yàn)概率相等這個條件。在這種情況下，判別函數(shù)可從(2-40)簡化為(2-42)(2-42)(2-42)是X的二次函數(shù)，但是由于二項(xiàng)XtX與類別號i無關(guān)，因此判別函數(shù)可進(jìn)一步簡化成(2-43)(2-44)+(2-43)(2-44)+(2-45)WjD=—kii/20E+liiP(QJ(2-45)可見判別函數(shù)為一線性函數(shù)。根據(jù)決策面方程gi(X)-gi(X)二0可有(2-46)(2-46)利用-此旳=（Mi-聲擴(kuò)（Mi-聲j）及仏i一幻）丫血：一幻）=代入（2-46）并整理，可得Wt(X-X0)=0(2-47)其中W=Mi-pj(2-48)由（2-47）與（2-48）式可以看出，決策面為一超平面，其法線方向?yàn)椋ㄆ?叩，當(dāng)P（3）二P（叫時該超平面過（片+叩/2點(diǎn)，在二維情況下，就是過片與H連線的垂直平分線，如圖2.8（a）所示。當(dāng)P（3j）±P（3j）時，該超平面的位置要向遠(yuǎn)離先驗(yàn)概率大的方向偏，但超平面方向不變。從上面討論的最小距離分類器與線性分類器中可以看出，這兩者都是線性分類器，最小距離分類器是線性分類器的一個特例。另一點(diǎn)是最小距離分類器在正態(tài)分布情況下，是按超球體分布以及先驗(yàn)概率相等的前提下，才體現(xiàn)最小錯誤率的。最小距離分類器的思想在分類器設(shè)計(jì)中是一種較常用的方法。以上分析表明，只有在一定條件下，最小距離分類器同時又是最小錯誤率分類器。實(shí)際上，最小距離分類器的概念是分類器中是最常用的，因?yàn)樗w現(xiàn)了基于最相似性的原則，即被分類事物與哪一種作為標(biāo)準(zhǔn)的事物相像，就判為該類這一原則。在這一節(jié)的分析則說明了什么條件下最小距離分類器同時實(shí)現(xiàn)了最小錯誤率。在正態(tài)分布條件下，一是正態(tài)分布的協(xié)方差矩陣為單位矩陣，因此等概率密度點(diǎn)軌跡對應(yīng)于歐氏距離為常數(shù)；另一是先驗(yàn)概率要相等，這一點(diǎn)在解實(shí)際問題中往往加以忽略，因?yàn)橄闰?yàn)概率難以得到。能采用線性分類器的另一種簡單情況是Zi=Z,即各類的協(xié)方差矩陣都相同。從幾何上看，這相當(dāng)于各類樣本具有同樣概率密度函數(shù)的點(diǎn)的軌跡是同樣大小和形狀的超橢球面。但不同類樣本的超橢球面的中心由類均值H決定。圖2.9表示在二維特征空間的情況，此時超橢球面是二維空間的橢圓。在Zi=Z,i=1,…,c的條件下，由于為與類別號i無關(guān)因此判別函數(shù)可從(2-37)簡化成gi(X)=—1/2(X—|J.i)'rS_l(X—|-|-￡)+InP(oJ(2_49)如果c類先驗(yàn)概率都相等，則(2-49)可進(jìn)一步簡化為呂=嚴(yán)=徑-⑷『汩徑-毘)(2_50)(2-50)的右邊正是前面提到的Mahalanobis距離的平方。因此這時的決策規(guī)則為：計(jì)算X到每類均值片的Mahalanobis距離平方r2，把它歸于「2最小的類別。為了確定先驗(yàn)概率不等條件下的決策面方程，可以展開(2-49)并忽略與i無關(guān)的XtZ-iX項(xiàng)，經(jīng)整理可得gi(X)(2_51)其中Wi=S_'^i(2-52)

計(jì)一掃—嚴(yán)嘰(2-53)由(2-51)可以看出決策面方程也是線性方程，決策面是超平面。如果第i類與第j類的決策域在特征空間中相鄰，則這兩者之間的決策面方程為gi(X)-gj(X)二0即逾m=0(2-54)其中用=遲7(□廠、)(2-55)(2-56)(2-56)如果將(2-55)、(2-56)與(2-47)、(2-48)的兩個式子相比較，可以發(fā)現(xiàn)這兩對式子很相近，只是(2-48)中的歐氏距離||叮屮|2在(2-56)中由Mahalanobis距離的平方所取代。另一點(diǎn)是W在式(2-55)中多了一個Z-1因子。因此可以作出相應(yīng)結(jié)論：當(dāng)P(3)二P(3j)時，其相應(yīng)的決策面超平面過均值向量連線的中點(diǎn)；但當(dāng)先驗(yàn)概率不等時，超平面朝遠(yuǎn)離先驗(yàn)概率大的方向移動。與上一小節(jié)不同的是，一般情況下該超平面不與兩均值向量的連線正交。圖2.9畫出在二維特征空間先驗(yàn)概率相等的情況。到此為止將上面討論的情況總結(jié)一下,以有利于加深理解。以上幾種情況都是線形分類器的情況，也就是用線形函數(shù)作為判別函數(shù)，或分界面方程是線性。在正態(tài)分布條件下，基于最小錯誤率貝葉斯決策只要能做到兩類協(xié)方差矩陣是一樣的，那么無論先驗(yàn)概率相等不相等，都可以用線性分界面實(shí)現(xiàn)。而最小歐氏距離分類器則要求正態(tài)分布協(xié)方差矩陣為單位陣，先驗(yàn)概率相等。反過來說，如果希望用線性分類器實(shí)現(xiàn)錯分類少的分類，則兩類用正態(tài)分布近似時，應(yīng)要求

其協(xié)方差矩陣相似，先驗(yàn)概率相近才行。當(dāng)然如果兩類分布分得很開，沒有什么重疊，也可做到錯分率很小。與下一節(jié)討論的情況相比，可以看到為了實(shí)現(xiàn)錯分率小，分界面類型就要比線性函數(shù)類型復(fù)雜了，在正態(tài)分布條件下，一般是超二次曲面。三、各類協(xié)方差矩陣不相等的情況各類協(xié)方差矩陣不相等的情況是多元正態(tài)分布的一般情況，在這種情況下芻趙j,i,j=1,2,…,C。因此在(2-45)表示的判別函數(shù)一般式中只有(d/2)ln2n這一項(xiàng)可以被省略，判別函數(shù)可表示成(2-57)將(2-57)進(jìn)一步整理得其中(2-58)(dxd矩陣)(2-59)叫￡"(d維列向量)(2-6o)w迫=—(1/2孔I+lnP(?J(2-61)(2-57)將(2-57)進(jìn)一步整理得其中(2-58)(dxd矩陣)(2-59)叫￡"(d維列向量)(2-6o)w迫=—(1/2孔I+lnP(?J(2-61)由(2-61)可見判別函數(shù)在一般情況下為X的二次型，因而其相應(yīng)的決策面方程(當(dāng)兩個決策域毗鄰)根據(jù)gi(x)-q(x)二o有(2-62)在一情況下決策面為二次超曲面，隨著乙及P(3j)的不同而呈現(xiàn)不同形式的超二次曲面，如超球面、超橢球面、超拋物面、超雙曲面，也可能是超平面。圖2.10示出在二元正態(tài)情況下決策面具有不同形式的若干例子。在圖2.10所示的各種情況中，假設(shè)變量x1與x2是相互獨(dú)立的，并假設(shè)先驗(yàn)概率相等，因而決策面形式的不同僅取決于方差項(xiàng)的差異。圖中用圓或橢圓的尺度表征相應(yīng)類別的方差。圖2.10(a)是兩個超球體等密度分布的情況。由于這兩類分布離散度不同，決策面是一個園，而不是前面提到過的最小距離分類器的情況。圖2.10(b)的情況只是(a)在x2軸方向有擴(kuò)展，因而圓形分布及決策面都演變成橢圓。圖2.10(c)表示決策面為拋物面的一個例子。圖2.10(d)與(e)中兩類分布的差別在于均值點(diǎn)相互關(guān)系不同，造成決策面的形式很不相同，由于2.10(e)中出現(xiàn)了對稱性情況，雙曲線退化成直線。以上對多元正態(tài)分布概率模型條件下最小錯誤率貝葉斯決策方面進(jìn)行了討論，分析了幾種簡單情況下判別函數(shù)及決策面的特點(diǎn)，也提到了一般性的情況。上述討論分析了在何種正態(tài)分布條件下，最小錯誤率貝葉斯決策具有線性決策面。討論中還提到最小距離分類器，這種分類器在模式識別中經(jīng)常采用，但是如果從統(tǒng)計(jì)上錯誤率最小角度看，不僅各類樣本需要分布在類似于超球體內(nèi)，且這些分布要近乎相同，再加上先驗(yàn)概率相等的條件。換句話說，只有在這種條件下，最小距離分類器與統(tǒng)計(jì)上最小錯誤率決策是一致的。模式識別的主要目的是要對觀察到的現(xiàn)象與事物,通過度量確定事物的類型。在人工智能各領(lǐng)域，圖像處理、計(jì)算機(jī)視覺、語音處理等都有大量分類與模式識別的任務(wù)。例如在第一章中討論的車牌識別中，就包含了車牌識別，數(shù)字、字母區(qū)別劃分，數(shù)字與字母識別等多個模式識別任務(wù)。對事物進(jìn)行分類需要知道正確分類的可能性有多大，因此錯誤識別率是評價一種分類方法與一個分類器性能的最主要指標(biāo)?；谧钚″e誤率的貝葉斯決策理論方法在原則上討論了在何種條件下錯誤率最小，并給出了計(jì)算錯誤率的原則性公式。本章小節(jié)回顧這一章的學(xué)習(xí)，我們主要學(xué)到了一些什么主要的知識呢？第一使用什么樣的決策原則我們可以做到錯誤率最小呢？這個條件是要知道一個樣本X分屬不同類別的可能性，表示成P（3j|X），然后根據(jù)后驗(yàn)概率最大的類來分類。后驗(yàn)概率要通過Bayes公式從先驗(yàn)概率與類分布函數(shù)來計(jì)算。但是Bayes決策太原則了，使用的前提是知道特征空間中樣本各個值的后驗(yàn)概率。但是我們在實(shí)際設(shè)計(jì)分類器算法只能依據(jù)一個訓(xùn)練樣本集提供的數(shù)據(jù)。第二錯分類最小并不一定是一個識別系統(tǒng)最重要的指標(biāo)，對語音識別、文

字識別來說可能這是最重要的指標(biāo)，但對醫(yī)療診斷、地震、天氣預(yù)報(bào)等還要考慮錯分類的不同后果，因此引入了風(fēng)險(xiǎn)，損失這些概念，以便在決策時兼顧不同后果的影響。

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第二章貝葉斯決策理論與統(tǒng)計(jì)判別方法匯總

文檔簡介

溫馨提示

最新文檔

評論

第二章 貝葉斯決策理論與統(tǒng)計(jì)判別方法匯總

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

第二章貝葉斯決策理論與統(tǒng)計(jì)判別方法匯總