醫(yī)藥信息處理與分析-第4章_第1頁(yè)
醫(yī)藥信息處理與分析-第4章_第2頁(yè)
醫(yī)藥信息處理與分析-第4章_第3頁(yè)
醫(yī)藥信息處理與分析-第4章_第4頁(yè)
醫(yī)藥信息處理與分析-第4章_第5頁(yè)
已閱讀5頁(yè),還剩166頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《醫(yī)藥信息處理與分析》第四章醫(yī)藥信息處理與分析案例中國(guó)工信出版集團(tuán)人民郵電出版社MedicalInformationProcessingandAnalysis晏峻峰占艷編著主成分分析多元線性回歸分析聚類分析判別分析4.14.2內(nèi)容導(dǎo)航CONTENTS決策樹(shù)分析支持向量機(jī)算法4.34.44.54.6貝葉斯分類算法時(shí)間序列分析4.74.8

在醫(yī)療衛(wèi)生課題研究中,經(jīng)常遇到某個(gè)指標(biāo)受到多個(gè)變量影響的情況,例如血糖濃度的大小除了與年齡有關(guān)外,還受到飲食情況、體重、性別、家族史等多種因素的影響,此時(shí)就需要進(jìn)行多元線性回歸分析。

在數(shù)理統(tǒng)計(jì)中,變量之間的不確定關(guān)系稱為相關(guān)關(guān)系,回歸分析是一種研究變量之間相關(guān)關(guān)系的數(shù)量表示的方法,它可以分為線性回歸分析和非線性回歸分析。線性回歸分析主要有一元線性回歸分析和多元線性回歸分析,非線性回歸主要有曲線回歸分析和logistic回歸分析。4.1多元線性回歸分析

一元線性回歸分析是由一個(gè)主要影響因素作為自變量來(lái)解釋因變量的變化,在現(xiàn)實(shí)問(wèn)題研究中,因變量的變化往往受幾個(gè)重要因素的影響,此時(shí)就需要用兩個(gè)或兩個(gè)以上的影響因素作為自變量來(lái)解釋因變量的變化,這就是多元回歸分析,也稱為多重回歸分析。

當(dāng)多個(gè)自變量與因變量之間是線性關(guān)系時(shí),所進(jìn)行的回歸分析就是多元線性回歸分析。多元線性回歸分析是研究一個(gè)因變量與多個(gè)自變量之間線性依賴關(guān)系的統(tǒng)計(jì)方法,其目的是:分析原因變量對(duì)結(jié)果變量的作用大?。挥靡阎脑蜃兞款A(yù)測(cè)結(jié)果變量的變化;控制混雜因素,評(píng)價(jià)研究因素的獨(dú)立效應(yīng)。4.1.1多元線性回歸分析的基本思想

在式5-1中,除了b0之外的各項(xiàng)待定系數(shù)稱為偏回歸系數(shù)?;貧w方程中的各項(xiàng)系數(shù)可以用最小二乘法確定,偏回歸系數(shù)的假設(shè)檢驗(yàn)思想與一元線性回歸相似,不同之處在于:除了要對(duì)整個(gè)回歸方程進(jìn)行假設(shè)檢驗(yàn)之外,還要對(duì)每一個(gè)自變量進(jìn)行偏回歸顯著性檢驗(yàn)。如果不能得到顯著性結(jié)論,則應(yīng)該剔除此自變量后重新進(jìn)行多元線性回歸分析,直到最后所有的有顯著意義的自變量都進(jìn)入回歸方程。4.1.1多元線性回歸分析的基本思想

4.1.2多元線性回歸分析的求解過(guò)程2.Matlab實(shí)現(xiàn)在Matlab中可以使用regress函數(shù)來(lái)進(jìn)行多元線性回歸分析。調(diào)用格式:[b,bint,r,rint,stats]=regress(Y,X,alpha)參數(shù)說(shuō)明:(1)Y是因變量數(shù)據(jù)向量,它是一個(gè)的列向量;(2)X是一個(gè)的矩陣,其第一列是全1向量,這一點(diǎn)對(duì)于回歸來(lái)說(shuō)很重要,這一個(gè)全1列向量對(duì)應(yīng)回歸方程的常數(shù)項(xiàng),一般情況下需要人工造一個(gè)全1列向量。(3)alpha為顯著性水平(缺省時(shí)設(shè)定為0.05);4.1.2多元線性回歸分析的求解過(guò)程2.Matlab實(shí)現(xiàn)在Matlab中可以使用regress函數(shù)來(lái)進(jìn)行多元線性回歸分析。調(diào)用格式:[b,bint,r,rint,stats]=regress(Y,X,alpha)參數(shù)說(shuō)明:(4)輸出向量b和bint為回歸系數(shù)及其置信區(qū)間;(5)輸出向量r和rint為殘差及其置信區(qū)間;(6)輸出向量stats是用于檢驗(yàn)回歸模型的統(tǒng)計(jì)量,它有4個(gè)值,第1個(gè)值是確定系數(shù)R2,其值越大說(shuō)明回歸方程越有價(jià)值;第2個(gè)值是F統(tǒng)計(jì)量值,其值越大說(shuō)明回歸方程越顯著;第3個(gè)值是與統(tǒng)計(jì)量F對(duì)應(yīng)的概率P,當(dāng)P<α?xí)r拒絕H0,顯著性成立,即回歸模型成立;第4個(gè)值是對(duì)誤差方差的估計(jì)。4.1.2多元線性回歸分析的求解過(guò)程2.Matlab實(shí)現(xiàn)在Matlab中可以使用regress函數(shù)來(lái)進(jìn)行多元線性回歸分析。調(diào)用格式:[b,bint,r,rint,stats]=regress(Y,X,alpha)參數(shù)說(shuō)明:

需要說(shuō)明的是,stats只能用于對(duì)整個(gè)回歸方程進(jìn)行假設(shè)檢驗(yàn),要對(duì)每一個(gè)自變量進(jìn)行偏回歸顯著性檢驗(yàn)時(shí),可以利用regress函數(shù)返回的回歸系數(shù)的置信區(qū)間進(jìn)行判斷,當(dāng)某個(gè)自變量對(duì)應(yīng)的回歸系數(shù)bi對(duì)應(yīng)的置信區(qū)間包含0時(shí),說(shuō)明此自變量沒(méi)有偏回歸顯著意義,應(yīng)該把它剔除,然后重新進(jìn)行多元線性回歸分析。4.1.2多元線性回歸分析的求解過(guò)程例4.1

隨機(jī)抽取某學(xué)校20名學(xué)生,測(cè)量其體重(kg)、胸圍(cm)、肩寬(cm)和肺活量(L),數(shù)據(jù)如表4-1所示,試進(jìn)行多元線性回歸分析。4.1.3多元線性回歸分析實(shí)例解析1.解析:分別繪制自變量X1與Y、X2與Y、X3與Y的散點(diǎn)圖(圖4-1),從圖4-1中可看到Y(jié)與X1、X2、X3有近似線性關(guān)系,而Y與X1的線性關(guān)系最明顯。建立回歸方程為:圖4-13個(gè)自變量分別與Y的散點(diǎn)圖4.1.3多元線性回歸分析實(shí)例解析利用regress函數(shù)進(jìn)行多元線性回歸分析的結(jié)果見(jiàn)表4-2。從表4-2中可以看到,p值<0.05,說(shuō)明整個(gè)回歸方程有統(tǒng)計(jì)學(xué)意義;R2

的值表示因變量的變異種有76.3%可由自變量的變化來(lái)解釋;從回歸系數(shù)b的置信區(qū)間來(lái)看,X3所對(duì)應(yīng)的系數(shù)b3的置信區(qū)間包含0,說(shuō)明X3與Y的偏回歸無(wú)統(tǒng)計(jì)學(xué)意義,故去掉X3后作只有X1和X2的多元線性回歸分析,結(jié)果見(jiàn)表4-3。4.1.3多元線性回歸分析實(shí)例解析從表4-3中可以看到,只考慮X1和X2的多元線性回歸分析時(shí),F(xiàn)值增大,p值<0.05,整個(gè)回歸方程有統(tǒng)計(jì)學(xué)意義,估計(jì)的誤差方差也減小,說(shuō)明此時(shí)的回歸模型更適合數(shù)據(jù)的分布。此外,X1和X2所對(duì)應(yīng)的系數(shù)b1和b2的置信區(qū)間都不包含0,說(shuō)明X1和X2與Y的偏回歸均有統(tǒng)計(jì)學(xué)意義。為了查看R2

的值是否還有提升的空間,可以繪制此時(shí)的殘差分布圖(見(jiàn)圖4-2),可以發(fā)現(xiàn)第4個(gè)樣本點(diǎn)的殘差置信區(qū)間不包含0,為異常點(diǎn),應(yīng)該去除后重新進(jìn)行多元線性回歸分析。

4.1.3多元線性回歸分析實(shí)例解析圖4-2回歸模型的殘差分布圖4.1.3多元線性回歸分析實(shí)例解析4.1.3多元線性回歸分析實(shí)例解析從表4-4中可以看到,R2的值表示因變量的變異中有83.1%可由自變量的變化來(lái)解釋,F(xiàn)值與前面相比明顯增大,誤差方差也有所減小,整個(gè)回歸方程有統(tǒng)計(jì)學(xué)意義且顯著成立,自變量X1和X2與Y的偏回歸均有統(tǒng)計(jì)學(xué)意義。與前面的兩個(gè)回歸方程相比,此時(shí)的回歸模型最適合樣本的分布。因此,最后的多元線性回歸方程為:主成分分析多元線性回歸分析聚類分析判別分析4.14.2內(nèi)容導(dǎo)航CONTENTS決策樹(shù)分析支持向量機(jī)算法4.34.44.54.6貝葉斯分類算法時(shí)間序列分析4.74.8

在實(shí)際的問(wèn)題研究過(guò)程中,為了全面分析問(wèn)題,往往提出很多與問(wèn)題有關(guān)的變量(或因素),因?yàn)槊總€(gè)變量都在不同程度上反映被研究問(wèn)題的某些信息。但是,在用統(tǒng)計(jì)分析方法研究這個(gè)多變量的問(wèn)題時(shí),變量個(gè)數(shù)太多就會(huì)增加問(wèn)題的復(fù)雜性。人們往往希望變量個(gè)數(shù)較少而得到的信息較多,此時(shí)通常需要進(jìn)行主成分分析。4.2

主成分分析

主成分分析是一種對(duì)多變量數(shù)據(jù)進(jìn)行降維處理的方法,所謂降維即降低維度。維度,又稱維數(shù),是數(shù)學(xué)中獨(dú)立參數(shù)的數(shù)目。一個(gè)模型的維度是指模型中獨(dú)立變量的個(gè)數(shù)或在模型中用到的變量的個(gè)數(shù)。4.2.1主成分分析的基本思想

在多數(shù)情況下,變量之間是有一定的相關(guān)關(guān)系的,當(dāng)兩個(gè)變量之間有一定的相關(guān)關(guān)系時(shí),可以解釋為這兩個(gè)變量在反映被研究問(wèn)題的信息上有一定的重疊。當(dāng)變量之間具有高度的相關(guān)性時(shí),如果直接對(duì)數(shù)據(jù)進(jìn)行分析,往往會(huì)由于變量數(shù)目過(guò)多而造成解釋上的困難,還會(huì)造成模型參數(shù)的過(guò)度擬合,降低分類或預(yù)測(cè)的準(zhǔn)確性和可靠性。此時(shí)往往需要先對(duì)數(shù)據(jù)應(yīng)進(jìn)行降維處理,相當(dāng)于對(duì)體積龐大的數(shù)據(jù)集進(jìn)行減肥,在降維的過(guò)程中既要保證不喪失大部分的有效信息,還要同時(shí)減小數(shù)據(jù)計(jì)算的維數(shù)。4.2.1主成分分析的基本思想

主成分分析也稱為主分量分析,它的基本思想是將原始的變量重新組合成一組新的互相無(wú)關(guān)的綜合變量,根據(jù)實(shí)際需要從中選取較少的幾個(gè)綜合變量作為原始變量的代表,盡可能多地反映原始變量所反映的信息,從而達(dá)到數(shù)據(jù)降維的目的。也就是將原始的相關(guān)性較高的變量轉(zhuǎn)化成個(gè)數(shù)較少、能解釋大部分原始數(shù)據(jù)方差并且彼此互相獨(dú)立的幾個(gè)新變量(即所謂的主成分),從而消除原始變量之間的共線性,剔除冗余信息,使模型更好地反映真實(shí)情況。4.2.1主成分分析的基本思想

主成分分析的目的在于壓縮變量的個(gè)數(shù),用較少的新變量去代替原始變量,新變量之間是兩兩互不相關(guān)的,并且新變量在反映問(wèn)題的信息方面盡可能保持原始變量所反映的大部分信息。信息的大小通常是用離差平方和或方差來(lái)衡量。4.2.2主成分分析的求解過(guò)程

主成分分析將原始的p個(gè)變量(指標(biāo))作線性組合,得出新的綜合指標(biāo)(F1,F2,…,Fp),其中F1是“信息最多”的指標(biāo),即它的方差var(F1)最大,稱它為第一主成分;F2是除了F1之外信息最多的指標(biāo),即它的方差var(F2)僅次于var(F1),并且F2與F1互不相關(guān),即它們的協(xié)方差cov(F1,F2)=0,稱F2為第二主成分;依次類推。

由上述推導(dǎo)過(guò)程可知,F(xiàn)1,F2,…,Fp兩兩互不相關(guān),并且它們的方差依次遞減。在實(shí)際的數(shù)據(jù)處理過(guò)程中,一般只選取前m個(gè)最大的主成分(m<p),從而達(dá)到數(shù)據(jù)降維的目的。4.2.2主成分分析的求解過(guò)程(1)對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化設(shè)有n個(gè)樣本,p個(gè)指標(biāo),得到的原始資料矩陣為:式4-24.2.2主成分分析的求解過(guò)程(1)對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化

為了實(shí)現(xiàn)樣本數(shù)據(jù)的標(biāo)準(zhǔn)化,應(yīng)該求出樣本數(shù)據(jù)的平均和方差。樣本數(shù)據(jù)的標(biāo)準(zhǔn)化是基于數(shù)據(jù)的平均和方差進(jìn)行的。因?yàn)樵趯?shí)際應(yīng)用中往往存在指標(biāo)的量綱不同,所以在計(jì)算之前須先消除量綱的影響,而將原始數(shù)據(jù)標(biāo)準(zhǔn)化。4.2.2主成分分析的求解過(guò)程(1)對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化

對(duì)數(shù)據(jù)矩陣Y作標(biāo)準(zhǔn)化處理,即對(duì)每一個(gè)指標(biāo)分量作標(biāo)準(zhǔn)化變換,變換公式為:式4-3

其中,樣本均值為:式4-4

樣本標(biāo)準(zhǔn)差為:式4-5

4.2.2主成分分析的求解過(guò)程(1)對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化之后的數(shù)據(jù)矩陣為:式4-6

4.2.2主成分分析的求解過(guò)程(2)計(jì)算相關(guān)矩陣

對(duì)于給定的n個(gè)樣本,求樣本間的相關(guān)系數(shù)。相關(guān)矩陣中的每一個(gè)元素由相應(yīng)的相關(guān)系數(shù)所表示。式4-7

4.2.2主成分分析的求解過(guò)程(3)求特征值和特征向量設(shè)求得的相關(guān)矩陣為R,求解特征方程|R-λi|=0。

通過(guò)求解特征方程,可以可得到p個(gè)特征值:λ1≥λ2≥λ3≥…≥λp≥0對(duì)應(yīng)于每一個(gè)特征值的特征向量:αi

=(αi1,αi2,...,αip),i=1~p式4-9

4.2.2主成分分析的求解過(guò)程(4)求主成分(取線性組合)根據(jù)求得的p個(gè)特征向量,p個(gè)主要成分分別為:F1=α11x1+α12x2+…+α1pxp式4-10F2=α21x1+α22x2+…+α2pxp式4-11……Fp=αp1x1+αp2x2+…+αppxp式4-12上式就是主成分分析的模型,其通式為:Fi=αi1x1+αi2x2+…+αipxp,i=1~p式4-13稱F1為第一主成分,F(xiàn)2為第二主成份,…,F(xiàn)i為第i主成份。系數(shù)αi1,αi2,...,αip稱為第i個(gè)主成分的載荷。求各個(gè)主成份的關(guān)鍵是求特征根λ及其對(duì)應(yīng)的特征向量α。主成分分析以較少的m個(gè)指標(biāo)代替原來(lái)的p個(gè)指標(biāo)對(duì)系統(tǒng)進(jìn)行分析,使得對(duì)系統(tǒng)進(jìn)行綜合評(píng)價(jià)時(shí)更為方便。

4.2.2主成分分析的求解過(guò)程

4.2.2主成分分析的求解過(guò)程(5)求貢獻(xiàn)率和累計(jì)貢獻(xiàn)率

確定主成分的個(gè)數(shù)有多種方法,常用的方法是保留累計(jì)貢獻(xiàn)率大于85%的前m個(gè)主成分,忽略后幾個(gè)小特征值的成分。

此外,也可以將特征值大于1的因子數(shù)目定為主成分的個(gè)數(shù)。

還有一種方法是繪制特征值與因子數(shù)目的曲線,如果到達(dá)某一因子數(shù)之后,特征值減小幅度的變化不大,則此轉(zhuǎn)折點(diǎn)的因子數(shù)即為主成分的個(gè)數(shù)m。

在實(shí)際數(shù)據(jù)分析過(guò)程中,究竟取前幾個(gè)主成分,還需要結(jié)合主成分的實(shí)際解釋和專業(yè)知識(shí)來(lái)確定。

4.2.2主成分分析的求解過(guò)程(6)計(jì)算主成分得分

根據(jù)標(biāo)準(zhǔn)化的原始數(shù)據(jù),按照各個(gè)樣本,分別代入主成分表達(dá)式,就可以得到各主成分下的各個(gè)樣本的新數(shù)據(jù),即為主成分得分。(7)進(jìn)行后續(xù)的統(tǒng)計(jì)分析

得到主成分下的各個(gè)樣本的新數(shù)據(jù)之后,就可以進(jìn)行后續(xù)的統(tǒng)計(jì)分析了,常見(jiàn)的應(yīng)用有主成分回歸、變量子集合的選擇、綜合評(píng)價(jià)等等。

4.2.2主成分分析的求解過(guò)程2.Matlab實(shí)現(xiàn)在Matlab中可以使用princomp函數(shù)來(lái)進(jìn)行主成分分析。調(diào)用格式:[COEFF,SCORE,LATENT]=princomp(X)參數(shù)說(shuō)明:(1)輸入變量X為由多個(gè)變量按列排列構(gòu)成的輸入矩陣;

(2)COEFF的第i列為第i個(gè)主成分的載荷;(3)SCORE為輸入樣本計(jì)算主成分的得分,即各個(gè)樣本在主成分下?lián)Q算出來(lái)的新數(shù)據(jù);(4)LATENT為按遞減順序排列的X的協(xié)方差矩陣cov(X)的特征根。

此外,還可以使用princov函數(shù)來(lái)進(jìn)行主成分分析,princov與princomp的區(qū)別在于其輸入矩陣應(yīng)該為數(shù)據(jù)矩陣的協(xié)方差矩陣。

4.2.2主成分分析的求解過(guò)程例4.2

主成分分析原理示例。為了說(shuō)明主成分分析的原理,特構(gòu)造兩個(gè)呈線性相關(guān)的變量X1和X2,對(duì)它們進(jìn)行主成分分析。1.解析:從X1和X2的散點(diǎn)圖可以看出兩者呈高度線性相關(guān),且沿著斜線分布的方向,數(shù)據(jù)分布的方差較大,如圖4-3所示。對(duì)X1和X2進(jìn)行主成分分析,得到兩個(gè)主成分變量Y1和Y2。第一個(gè)主成分Y1的累積貢獻(xiàn)率為0.9998,相當(dāng)于提取了原來(lái)兩項(xiàng)指標(biāo)的所有信息。繪制Y1和Y2的散點(diǎn)圖,可以發(fā)現(xiàn)Y2值基本不變,即所有的信息都集中在Y1上,如圖4-4所示。由此可見(jiàn),主成分分析相當(dāng)于對(duì)數(shù)據(jù)空間的原坐標(biāo)軸進(jìn)行了旋轉(zhuǎn)操作,將其轉(zhuǎn)到使得數(shù)據(jù)分布方差最大的方向,即第一主成分的方向,在本例中第一主成分的方向即圖4-3中的斜線方向。

4.2.3主成分分析實(shí)例解析4.2.3主成分分析實(shí)例解析2.程序代碼:%%exam52.mclear;closeall;clc;X1=6*randn(100,1);X2=3*X1+randn(100,1);figure,plot(X1,X2,'o');xlabel('X1');ylabel('X2');axisequal;X=[X1,X2];[COEFF,SCORE,latent]=princomp(X);%%主成分分析pp=cumsum(latent)./sum(latent)%%累積貢獻(xiàn)率Y1=SCORE(:,1);Y2=SCORE(:,2);figure,plot(Y1,Y2,'o');xlabel('Y1');ylabel('Y2');axisequal;%%endexam52.m圖4-3X1X2的散點(diǎn)圖4.2.3主成分分析實(shí)例解析圖4-4Y1Y2的散點(diǎn)圖4.2.3主成分分析實(shí)例解析例4.3

隨機(jī)抽取某校30名中學(xué)生,測(cè)量器身高(cm)、體重(kg)、胸圍(cm)和坐高(cm),數(shù)據(jù)如表4-5所示,對(duì)其進(jìn)行主成分分析。(數(shù)據(jù)來(lái)源[3])

4.2.3主成分分析實(shí)例解析1.解析:將表4-5中的數(shù)據(jù)存儲(chǔ)在data53.mat文件中供后續(xù)使用。對(duì)原始數(shù)據(jù)進(jìn)行主成分分析,各主成分的累積貢獻(xiàn)率為[0.89,0.97,0.99,1],圖4-5顯示了各個(gè)主成分所對(duì)應(yīng)的特征根變化,從圖中可以看到從第3個(gè)主成分開(kāi)始時(shí)特征根沒(méi)有太大的變化,因此可以選擇前3個(gè)主成分,它們包含了原始數(shù)據(jù)中99%的信息。

圖4-5由特征根決定主成分個(gè)數(shù)4.2.3主成分分析實(shí)例解析1.解析:這3個(gè)主成分可表示為:Y1=0.62X1*+0.56X2*+0.41X3*+0.36X4*Y2=-0.65X1*+0.35X2*+0.66X3*-0.17X4*Y3=0.22X1*-0.75X2*+0.62X3*+0.06X4*其中X1*、X2*、X3*和X4*表示數(shù)據(jù)經(jīng)過(guò)了零均值處理。新的綜合變量Y1對(duì)4個(gè)指標(biāo)的影響都有所考慮,Y2主要考慮了X1、X2和X3這3個(gè)指標(biāo)的影響,Y3主要考慮了X2和X3這2個(gè)指標(biāo)的影響。

4.2.3主成分分析實(shí)例解析2.程序代碼:%%exam53.mclear;closeall;clc;

loaddata53.mat;[COEFF,SCORE,latent]=princomp(X);%%主成分分析pp=cumsum(latent)./sum(latent)%%累積貢獻(xiàn)率figure,plot(latent,'o-'),title('特征根變化')%%endexam53.m

4.2.3主成分分析實(shí)例解析主成分分析多元線性回歸分析聚類分析判別分析4.14.2內(nèi)容導(dǎo)航CONTENTS決策樹(shù)分析支持向量機(jī)算法4.34.44.54.6貝葉斯分類算法時(shí)間序列分析4.74.8

在日常生活和科學(xué)研究過(guò)程中,經(jīng)常遇到分類問(wèn)題,例如在生物學(xué)中對(duì)動(dòng)植物進(jìn)行分類和對(duì)基因進(jìn)行分類等,此時(shí)通常需要進(jìn)行聚類分析。4.3聚類分析

聚類分析,也稱為群分析、分割分析或分類學(xué)分析,它是根據(jù)“物以類聚”的思想,按照樣品或指標(biāo)在性質(zhì)上的親疏或相似程度對(duì)它們進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法。聚類分析根據(jù)事物本身的特性來(lái)研究個(gè)體的分類,其原則是分到同一類中的個(gè)體要有較大的相似性,而不同類中的個(gè)體要有較大的差異。4.3.1聚類分析的基本思想

聚類分析和判別分析都是對(duì)樣品個(gè)體進(jìn)行分類的統(tǒng)計(jì)分析方法,但是它們有著重大的區(qū)別:一方面,聚類分析可以對(duì)樣本分類,也可以對(duì)變量分類;但判別分析只能對(duì)樣本分類。另一方面,在聚類分析中,樣本的類別事先是未知的,甚至樣本可以分為幾類也是未知的,只要知道樣本各變量的觀察值,就可以對(duì)樣本進(jìn)行分類;但判別分析必須事先擁有一批分類明確的樣本(訓(xùn)練樣本),基于這批樣本建立判別函數(shù)和判別準(zhǔn)則,然后才能對(duì)未知分類的新樣品進(jìn)行分類。因此,在模式識(shí)別中,聚類分析屬于無(wú)監(jiān)督學(xué)習(xí),而判別分析屬于有監(jiān)督學(xué)習(xí)。4.3.1聚類分析的基本思想

在實(shí)際的數(shù)據(jù)分析過(guò)程中,聚類分析和判別分析往往結(jié)合起來(lái)使用。例如,判別分析要求事先要知道各類總體情況才能判斷新樣品的歸類,當(dāng)總體分類不清楚時(shí),可以先用聚類分析對(duì)原有的樣本進(jìn)行分類,然后再用判別分析對(duì)新樣品進(jìn)行分類。

聚類分析的基本思想是在樣本之間定義距離,在變量之間定義相似系數(shù)。距離或相似系數(shù)代表樣本或變量之間的相似程度。按相似程度的大小,將樣本(或變量)逐一歸類,關(guān)系密切的類聚到一個(gè)小的分類單位上,然后逐步擴(kuò)大,使得關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位上,直到所有的樣本(或變量)都聚集完畢后,就會(huì)形成一個(gè)表示親疏關(guān)系的譜系圖,最后再依次按照具體要求對(duì)樣本(或變量)進(jìn)行分類。4.3.1聚類分析的基本思想

在進(jìn)行聚類分析之前,需要先確定用什么指標(biāo)來(lái)評(píng)價(jià)聚類對(duì)象之間的差別。如果把每個(gè)樣品看成p維空間中的一個(gè)點(diǎn),n個(gè)樣品就組成p維空間中的n個(gè)點(diǎn),就可以用距離來(lái)度量樣品之間的相似程度。距離越近,樣品的相似程度就越高。此處所說(shuō)的距離是點(diǎn)和點(diǎn)之間的距離,簡(jiǎn)稱點(diǎn)間距離。點(diǎn)間距離有很多種定義方式,最簡(jiǎn)單、最常用的是歐氏距離,此外還有絕對(duì)值距離、馬氏距離、明氏距離等等。4.3.1聚類分析的基本思想

除了點(diǎn)和點(diǎn)之間的距離之外,還要考慮是類和類之間的距離。由一個(gè)點(diǎn)組成的類是最基本的類,如果每個(gè)類都是由一個(gè)點(diǎn)組成的,那么點(diǎn)間的距離就是類間的距離。但如果某個(gè)類包含不止一個(gè)點(diǎn),那么就要確定類間距離。類間距離是度量一類樣品或變量與另一類樣品或變量之間的相似程度的統(tǒng)計(jì)量,距離越小則相似程度越高。類間距離是基于點(diǎn)間距離定義的,其定義方式也有很多種,常用的幾種類間距離有:最短距離、最長(zhǎng)距離、重心距離和中位數(shù)距離。4.3.1聚類分析的基本思想最短距離:定義類間距離等于兩類中距離最近的一對(duì)樣品之間的距離。最長(zhǎng)距離:定義類間距離等于兩類中距離最遠(yuǎn)的一對(duì)樣品之間的距離。重心距離:定義類間距離等于兩類重心之間的距離,一個(gè)類的重心指的是類內(nèi)所有樣品的均值坐標(biāo)。中位數(shù)距離:定義類間距離等于兩類中所有樣品對(duì)之間的距離的中位數(shù)。4.3.1聚類分析的基本思想

選擇不同的距離指標(biāo)會(huì)導(dǎo)致聚類結(jié)果有所不同,但一般差別不會(huì)太大。

聚類分析的目標(biāo)就是要將樣本分到不同的類中,并且滿足以下兩個(gè)條件:第一,同質(zhì)性,即同一個(gè)類中的樣本彼此之間應(yīng)該高度相似,如果兩個(gè)樣本屬于同一個(gè)類,那么它們之間的距離應(yīng)該較小。第二,差異性,即屬于不同類的樣本應(yīng)該是有較大差別的,如果兩個(gè)樣本屬于不同的類,那么它們之間的距離應(yīng)該較大。

接下來(lái)我們將重點(diǎn)介紹兩種聚類分析方法,系統(tǒng)聚類和K-means聚類。4.3.1聚類分析的基本思想1.系統(tǒng)聚類簡(jiǎn)介

系統(tǒng)聚類也稱為分層聚類,其基本思想是:事先不需要確定要分多少類,通過(guò)不斷地把距離最小的兩個(gè)類合并成一個(gè)類來(lái)逐漸進(jìn)行聚類。

首先將N個(gè)樣品看成N個(gè)類(每個(gè)類包含且只包含一個(gè)樣品),然后將距離最小的兩個(gè)類合并成一個(gè)類、得到N-1個(gè)類,再?gòu)闹姓页鼍嚯x最小的兩個(gè)類合并成一個(gè)類、得到N-2個(gè)類,如此重復(fù)下去,每次歸類都減少一個(gè)類,最后N個(gè)樣品都?xì)w為一類。上述聚類過(guò)程可以用一張直觀的圖(稱為聚類譜系圖)表示出來(lái),由此圖可以清晰地看出聚類過(guò)程,并且可以根據(jù)分類的數(shù)目確定哪些樣品應(yīng)該歸為一類。4.3.2系統(tǒng)聚類1.系統(tǒng)聚類簡(jiǎn)介應(yīng)用系統(tǒng)聚類法進(jìn)行聚類分析的步驟如下:(1)確定待分類樣品的指標(biāo)。(2)收集數(shù)據(jù)。(3)對(duì)數(shù)據(jù)進(jìn)行變換處理(如標(biāo)準(zhǔn)化或規(guī)格化)。(4)構(gòu)造N個(gè)類,每個(gè)類包含且只包含一個(gè)樣品。(5)計(jì)算這些類兩兩之間的距離,構(gòu)成距離矩陣。(6)合并距離最小的兩個(gè)類,成為一個(gè)新類。(7)如果類的個(gè)數(shù)等于1,則轉(zhuǎn)到步驟(8),否則回到步驟(5)。(8)最后繪制聚類譜系圖,按不同的分類標(biāo)準(zhǔn)或不同的分類原則,得出不同的分類結(jié)果,即決定類的個(gè)數(shù)和類。4.3.2系統(tǒng)聚類1.系統(tǒng)聚類簡(jiǎn)介系統(tǒng)聚類的特點(diǎn)及應(yīng)用注意事項(xiàng):(1)類的個(gè)數(shù)不需要事先定好。(2)需要確定距離矩陣,因此運(yùn)算量較大,適用于處理小樣本數(shù)據(jù)。(3)

系統(tǒng)聚類適用于小樣本資料的樣品聚類或變量聚類。原始數(shù)據(jù)可以是數(shù)值變量,也可以是多分類變量,或二分類變量,但最好不要有不同類型變量的混合,三種變量可以選擇不同的距離度量。4.3.2系統(tǒng)聚類2.系統(tǒng)聚類的Matlab實(shí)現(xiàn)Matlab提供了兩種方法來(lái)進(jìn)行系統(tǒng)聚類分析。

第1種方法是利用clusterdata函數(shù)對(duì)樣本數(shù)據(jù)進(jìn)行一次聚類,這個(gè)方法簡(jiǎn)潔方便,但缺點(diǎn)是使用范圍較窄,可供用戶選擇的面較窄,不能由用戶根據(jù)自身需要來(lái)設(shè)定參數(shù),不能更改距離的計(jì)算方法。4.3.2系統(tǒng)聚類2.系統(tǒng)聚類的Matlab實(shí)現(xiàn)第2種方法是分步聚類:(1)用pdist函數(shù)計(jì)算變量之間的距離,即求出變量之間的相似性;(2)用linkage函數(shù)定義變量之間的連接,即用linkage函數(shù)來(lái)產(chǎn)生聚類樹(shù);(3)用cophenet函數(shù)評(píng)價(jià)聚類信息,如果返回值不接近1,可以修改距離定義方式重新進(jìn)行系統(tǒng)聚類;(4)用cluster函數(shù)創(chuàng)建聚類。4.3.2系統(tǒng)聚類2.系統(tǒng)聚類的Matlab實(shí)現(xiàn)下面將對(duì)上述函數(shù)做詳細(xì)說(shuō)明。(1)clusterdata函數(shù)調(diào)用格式:T=clusterdata(X,cutoff)clusterdata函數(shù)可以視為pdist、linkage和cluster的綜合,T=clusterdata(X,cutoff)等價(jià)于Y=pdist(X,’euclid’);Z=linkage(Y,’single’);T=cluster(Z,cutoff)

。4.3.2系統(tǒng)聚類4.3.2系統(tǒng)聚類(2)pdist函數(shù)調(diào)用格式:Y=pdist(X,'metric')功能:用'metric'參數(shù)指定的方法計(jì)算數(shù)據(jù)矩陣X中樣本之間的距離。若此前數(shù)據(jù)尚未無(wú)量綱化,則進(jìn)行計(jì)算之前最好先用zscore函數(shù)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。參數(shù)說(shuō)明:①X是m*n的數(shù)據(jù)矩陣,即由m個(gè)樣本組成、每個(gè)樣本有n個(gè)指標(biāo)的數(shù)據(jù)集。②'metric'是計(jì)算距離的方法選項(xiàng),包括:'euclidean'(歐氏距離),'seuclidean'(標(biāo)準(zhǔn)化歐氏距離),'mahalanobis'(馬氏距離),'cityblock'(布洛克距離),'minkowski'(明可夫斯基距離),'chebychev'(Chebychev距離)等等。當(dāng)沒(méi)有指定'metric'這個(gè)參數(shù)時(shí),則采用默認(rèn)值'euclidean'(歐氏距離)。③pdist函數(shù)的返回值Y是一個(gè)有m*(m-1)/2個(gè)元素的行向量,分別表示m個(gè)樣本兩兩之間的距離。行向量可以縮小保存空間,但卻不便于讀者理解數(shù)據(jù),如果想簡(jiǎn)單直觀地表示,可以用squareform函數(shù)將其轉(zhuǎn)化為方陣,其中x(i,j)表示第i個(gè)樣本與第j個(gè)樣本之間的距離,對(duì)角線元素均為0。5.3.2系統(tǒng)聚類

4.3.2系統(tǒng)聚類(3)squareform函數(shù)調(diào)用格式:Z=squareform(Y)功能:強(qiáng)制將距離矩陣從上三角形式轉(zhuǎn)化為方陣形式,或從方陣形式轉(zhuǎn)化為上三角形式。(4)linkage函數(shù)調(diào)用格式:Z=linkage(Y,'method')功能:用'method'參數(shù)指定的算法計(jì)算系統(tǒng)聚類樹(shù)。參數(shù)說(shuō)明:①Y是pdist函數(shù)返回的有m*(m-1)/2個(gè)元素的行向量。②'method'是采用的系統(tǒng)聚類算法選項(xiàng),包括:'single'(最短距離法),'complete'(最長(zhǎng)距離法),'average'(未加權(quán)平均距離法),'weighted'(加權(quán)平均法),'centroid'(質(zhì)心距離法),'median'(加權(quán)質(zhì)心距離法),'ward'(內(nèi)平方距離法,也稱最小方差算法)。當(dāng)沒(méi)有指定'method'這個(gè)參數(shù)時(shí),則采用默認(rèn)值'single'(最短距離法)。③linkage函數(shù)的返回值Z是一個(gè)(m-1)*3的矩陣,其中前兩列為索引標(biāo)識(shí),表示哪兩個(gè)序號(hào)的樣本可以聚為同一類,第三列為這兩個(gè)樣本之間的距離。另外,除了m個(gè)樣本之外,對(duì)于每次新產(chǎn)生的類,依次用m+1、m+2、…來(lái)標(biāo)識(shí)。(5)dendrogram函數(shù)調(diào)用格式:dendrogram(Z,p)功能:dendrogram函數(shù)用更直觀的聚類樹(shù)來(lái)展示linkage函數(shù)的返回值Z,它產(chǎn)生的聚類樹(shù)最下邊表示樣本,然后一級(jí)一級(jí)往上聚類,最終成為最頂端的一類,縱軸高度代表距離列??梢栽O(shè)置聚類樹(shù)最下端的樣本數(shù)(默認(rèn)為30),修改dendrogram(Z,p)中的參數(shù)p即可實(shí)現(xiàn)(1<p≤m),dendrogram(Z,0)表示p=m的情況,顯示所有葉節(jié)點(diǎn)。4.3.2系統(tǒng)聚類(6)cophenet函數(shù)調(diào)用格式:c=cophenet(Z,Y)功能:利用pdist函數(shù)生成的Y和linkage函數(shù)生成的Z計(jì)算cophenet相關(guān)系數(shù)。cophenet檢驗(yàn)一定算法下產(chǎn)生的二叉聚類樹(shù)和實(shí)際情況的相符程度,就是檢測(cè)二叉聚類樹(shù)中各元素間的距離和pdist計(jì)算產(chǎn)生的實(shí)際的距離之間有多大的相關(guān)性。(7)cluster函數(shù):調(diào)用格式:T=cluster(Z,'Cutoff',C)功能:根據(jù)linkage函數(shù)的輸出Z創(chuàng)建分類。4.3.2系統(tǒng)聚類3.系統(tǒng)聚類實(shí)例解析例4.4有研究發(fā)現(xiàn)脂肪肝與甘油三脂(TG)、膽固醇(TC)、谷丙轉(zhuǎn)氨酶(ALT)和血糖(GS)的增高之間有一定的相關(guān)性,但非一致性,即非脂肪肝人群也有可能TG、TC、ALT、GS中有幾項(xiàng)增高。在醫(yī)學(xué)診斷上,如何根據(jù)檢測(cè)的TG、TC、ALT、GS來(lái)輔助判別是否為脂肪肝有一定的臨床意義。對(duì)某單位員工體檢數(shù)據(jù)中的脂肪肝疾病進(jìn)行系統(tǒng)聚類分析,體檢的原始數(shù)據(jù)見(jiàn)表5-6。(數(shù)據(jù)來(lái)源[5])4.3.2系統(tǒng)聚類表4-6脂肪肝判別分析原始數(shù)據(jù)4.3.2系統(tǒng)聚類3.系統(tǒng)聚類實(shí)例解析(1)解析:可以通過(guò)一步求解算法和多步求解算法進(jìn)行聚類分析,圖4-6所示為系統(tǒng)聚類的聚類譜系圖。從圖4-6中可以看到,如果認(rèn)為要將樣本分為兩類,則第36號(hào)樣本屬于一類,剩余樣本屬于另一類。4.3.2系統(tǒng)聚類3.系統(tǒng)聚類實(shí)例解析圖4-6系統(tǒng)聚類的聚類譜系圖4.3.2系統(tǒng)聚類4.3.2系統(tǒng)聚類3.系統(tǒng)聚類實(shí)例解析(2)程序代碼:%%exam54.mclear;closeall;clc;loaddata54.mat%%其中有sampleAll%%一步求法group1=clusterdata(sampleAll,'maxclust',2);%%分層聚類一步求法的分類結(jié)果%%分步求法Y=pdist(sampleAll);Z=linkage(Y);c=cophenet(Z,Y)%%用于評(píng)價(jià)分類效果,越接近于1越好Y=pdist(sampleAll,'cityblock');%%換一種距離度量方法重新進(jìn)行分層聚類Z=linkage(Y,'average');c=cophenet(Z,Y)group2=cluster(Z,'maxclust',2);[group1,group2]%%對(duì)一步求法的分類、分步求法的分類進(jìn)行比較figure,dendrogram(Z,size(sampleAll,1));%%endexam54.mK-均值聚類是一種簡(jiǎn)單、高效的聚類方法,也稱為快速聚類或動(dòng)態(tài)聚類,它適用于對(duì)較大樣本進(jìn)行樣品聚類,它要求資料中聚類指標(biāo)均為數(shù)值變量,且事先必須知道樣品應(yīng)該分為多少類,即必須指定期望的聚類數(shù)K。其基本思想是通過(guò)不斷調(diào)整分組,使組間差異與組內(nèi)差異的比值達(dá)到最大,即把觀測(cè)數(shù)據(jù)分布的空間劃分為K個(gè)互斥的區(qū)域,然后判斷每個(gè)觀測(cè)數(shù)據(jù)落在哪個(gè)區(qū)域中。4.3.3

K-均值聚類K-均值聚類采用迭代算法進(jìn)行聚類,具體步驟如下:(1)隨機(jī)選擇K個(gè)樣品作為K個(gè)初始聚類中心。(2)計(jì)算每個(gè)樣品到K個(gè)聚類中心的距離,樣品到哪一個(gè)聚類中心的距離最小,它就應(yīng)該歸入哪一個(gè)類,這樣就可以把所有樣品分為K個(gè)類。(3)計(jì)算每個(gè)類的類別中心,得到K個(gè)類別中心,把它們作為新的聚類中心。(4)如果新的聚類中心與之前的聚類中心相比變化不大(或組間差異與組內(nèi)差異的比值達(dá)到穩(wěn)定,或迭代次數(shù)超過(guò)限制),則停止迭代、得出最終的聚類結(jié)果;否則回到步驟(2),繼續(xù)迭代。4.3.3

K-均值聚類K-均值聚類的特點(diǎn)及應(yīng)用注意事項(xiàng):(1)K的值要事先定好。如果事先對(duì)樣品的分類一無(wú)所知,則只能嘗試地定義不同的聚類數(shù)K。

(2)初始聚類中心可以人為地選擇,可以選擇一些有代表性的點(diǎn),也可以根據(jù)某些標(biāo)準(zhǔn)來(lái)確定,還可以先人為地將所有樣品分類,然后計(jì)算每一類的均值作為初始聚類中心。(3)K-均值聚類對(duì)噪聲及孤立點(diǎn)數(shù)據(jù)敏感。(4)不必確定距離矩陣,因此比系統(tǒng)聚類運(yùn)算量小,適用于處理龐大的樣本數(shù)據(jù)。(5)適用于發(fā)現(xiàn)球狀類。4.3.3

K-均值聚類4.3.3

K-均值聚類示例4.3.3

K-均值聚類下表對(duì)系統(tǒng)聚類和K-均值聚類的應(yīng)用進(jìn)行了比較。4.3.3

K-均值聚類Matlab中用于進(jìn)行K-均值聚類的函數(shù)有kmeans和silhouette。(1)kmeans函數(shù)調(diào)用格式:idx=kmeans(X,K)功能:進(jìn)行K-均值聚類。參數(shù)說(shuō)明:①X是m*n的數(shù)據(jù)矩陣,即由m個(gè)樣本組成、每個(gè)樣本有n個(gè)指標(biāo)的數(shù)據(jù)集。②K是一個(gè)整數(shù)值,表示將X劃分為K類。③idx是一個(gè)m*1的向量,存儲(chǔ)的是每個(gè)樣本的聚類標(biāo)號(hào)。4.3.3

K-均值聚類(2)silhouette函數(shù)調(diào)用格式:[S,H]=silhouette(X,clust,distance)功能:進(jìn)行K-均值聚類之后,為了評(píng)價(jià)分類的效果,可以利用分類結(jié)果繪制silhouette圖來(lái)判斷,該圖顯示了某個(gè)類離其相鄰類的接近程度。參數(shù)說(shuō)明:①X與前面所述的kmeans函數(shù)的參數(shù)X意義相同;②clust為kmeans的返回值idx;③S的范圍在+1到-1之間,其中+1表示很好的分類,0表示沒(méi)有把該樣本與其他類分開(kāi),-1表示分類結(jié)果很可能錯(cuò)誤。4.3.3

K-均值聚類例

對(duì)例4.4中的樣本集不考慮先驗(yàn)知識(shí),重新進(jìn)行K-均值聚類分析?!窘馕觥?/p>

根據(jù)K-均值聚類,分類結(jié)果如下表所示,分類的正確率為77.8%。

當(dāng)采用K-均值聚類時(shí),為了評(píng)價(jià)分類的效果,可以利用分類結(jié)果繪制silhouette圖來(lái)判斷,該圖顯示了某個(gè)類離其相鄰類的接近程度。如下圖所示,可以看出當(dāng)將給定樣本空間分為兩類時(shí),有2個(gè)樣本的分類結(jié)果可能不正確,因?yàn)槠鋵?duì)應(yīng)的silhouette函數(shù)返回值小于0。4.3.3

K-均值聚類表K-均值聚類結(jié)果4.3.3

K-均值聚類圖K-均值聚類的結(jié)果評(píng)價(jià)圖4.3.3

K-均值聚類【程序代碼】%%exam56.mclear;closeall;clc;

loaddata52.mat%%其中有sampleH和samplePsampleAll=[sampleH;sampleP];

%%k-means法N=2;%%事先給定的待分類數(shù)[idx2]=kmeans(sampleAll,N,'distance','city','display','iter')%%返回值為分類結(jié)果[silh2,h]=silhouette(sampleAll,idx2,'city');xlabel('SilhouetteValue')ylabel('Cluster')%%endexam56.m4.3.3

K-均值聚類∈?4.4

判別分析

在日常生活和科學(xué)研究過(guò)程中,經(jīng)常會(huì)遇到根據(jù)觀測(cè)到的數(shù)據(jù)資料對(duì)所研究的對(duì)象進(jìn)行判別歸類的問(wèn)題。例如,醫(yī)生在診斷疾病時(shí),根據(jù)就診者的各項(xiàng)癥狀、體征和化驗(yàn)結(jié)果來(lái)判斷此人是否患有某種疾病,這就是一個(gè)典型的判別歸類問(wèn)題,解決這類問(wèn)題通常需要進(jìn)行判別分析。4.4

判別分析

判別分析是用于判別研究對(duì)象所屬類型的一種統(tǒng)計(jì)分析方法,它根據(jù)判別對(duì)象若干個(gè)指標(biāo)的觀測(cè)結(jié)果來(lái)判定其應(yīng)該屬于哪一類。

判別分析根據(jù)已掌握的一批分類明確的樣品在若干指標(biāo)上的觀察值,建立一個(gè)關(guān)于指標(biāo)的判別函數(shù)和判別準(zhǔn)則,然后根據(jù)這個(gè)判別函數(shù)和判別準(zhǔn)則對(duì)新的樣品進(jìn)行分類,并且根據(jù)判別的準(zhǔn)確率來(lái)評(píng)估它的實(shí)用性。4.4.1

判別分析的基本思想

判別函數(shù)指的是一個(gè)關(guān)于指標(biāo)變量的函數(shù),每一個(gè)樣品在指標(biāo)變量上的觀察值代入判別函數(shù)后可以得到一個(gè)確定的函數(shù)值。建立判別函數(shù)的方法有多種,例如可以將已知類型作為因變量,將樣品的各項(xiàng)指標(biāo)作為自變量,采用多元線性回歸的方法建立判別函數(shù)。

判別準(zhǔn)則指的是根據(jù)樣品的判別函數(shù)值,對(duì)樣品進(jìn)行分類的法則。

判別分析的核心要素是要有一批分類明確的訓(xùn)練樣本,根據(jù)對(duì)訓(xùn)練樣本的分析構(gòu)造出判別函數(shù),以判斷新樣品所屬的類別。因此,在模式識(shí)別中,判別分析屬于有監(jiān)督的學(xué)習(xí)。4.4.1

判別分析的基本思想1.判別分析的基本步驟一般來(lái)說(shuō),判別分析的基本步驟可以概括如下:(1)建立判別函數(shù)和建立判別準(zhǔn)則:建立的原則是將所有樣品按其判別函數(shù)值的大小和事先規(guī)定的判別原則分到不同的組里,能使得分組結(jié)果與原始分組最吻合。(2)回代樣本:計(jì)算出每一個(gè)樣品的判別函數(shù)值,并根據(jù)判別準(zhǔn)則將樣品歸類。(4)估計(jì)回代的錯(cuò)誤率:比較新的分組結(jié)果和原始分組的差別,并以此確定判別函數(shù)的效能。(5)判別新的樣品:如果判別函數(shù)的效能較高,就可以用它來(lái)對(duì)新樣品進(jìn)行歸類判別。4.4.2

判別分析的求解過(guò)程2.判別分析的具體方法

根據(jù)不同的判別準(zhǔn)則,判別分析可以分為距離判別法、Fisher判別法和Bayes判別法等等,下面將對(duì)這幾種方法做簡(jiǎn)要的說(shuō)明。4.4.2

判別分析的求解過(guò)程2.判別分析的具體方法(1)距離判別法

距離判別法的核心思想是根據(jù)所定義的距離來(lái)進(jìn)行判別。樣本中的每一組,都可以在模型中的變量所定義的多元空間中確定一個(gè)點(diǎn),這個(gè)點(diǎn)代表了所有變量的均數(shù),稱它為類別中心。根據(jù)樣品離各個(gè)類別中心的距離遠(yuǎn)近來(lái)進(jìn)行歸類判別,樣品離哪一個(gè)類別中心的距離最近,它就歸屬于哪一個(gè)類。因此,距離判別法又稱為最鄰近方法或直觀判別法。距離判別對(duì)各類總體的分布沒(méi)有特定的要求,適用于任意分布的資料。4.4.2

判別分析的求解過(guò)程2.判別分析的具體方法(1)距離判別法

當(dāng)計(jì)算樣品與某一類總體之間的距離時(shí),可以將總體用樣本平均值代替。

常用的距離指標(biāo)有:絕對(duì)值距離、歐氏距離、馬氏距離等等。Matlab中提供了用于計(jì)算歐式距離的norm函數(shù)和用于計(jì)算馬氏距離的mahal函數(shù)。4.4.2

判別分析的求解過(guò)程2.判別分析的具體方法(2)Fisher判別法

Fisher判別法的核心思想是投影,即尋找一個(gè)投影的方向,將數(shù)據(jù)投影到該方向后使得每一類內(nèi)的離差盡可能小,而不同類間投影的離差盡可能大。簡(jiǎn)單來(lái)說(shuō)就是同類別的點(diǎn)(樣品)“盡可能聚在一起”,不同類別的點(diǎn)(樣品)“盡可能分離”,從而達(dá)到分類的目的。有了投影之后,再用前面講過(guò)的距離遠(yuǎn)近的方法來(lái)得到判別準(zhǔn)則、進(jìn)行分類判別。4.4.2

判別分析的求解過(guò)程Fisher判別二維向量的投影

數(shù)據(jù)在不同方向投影的分布密度

Fisher判別2.判別分析的具體方法(3)Bayes判別法

Bayes判別法是以概率論中Bayes條件概率公式為基礎(chǔ)導(dǎo)出的判別方法,它計(jì)算每個(gè)樣品屬于每一個(gè)類的概率,屬于哪一個(gè)類的概率最大,就將樣品歸入哪一個(gè)類。判別準(zhǔn)則是按后驗(yàn)概率大小歸類。

先前介紹的距離判別法簡(jiǎn)單實(shí)用,但它沒(méi)有考慮每個(gè)總體出現(xiàn)的機(jī)會(huì)大?。聪闰?yàn)概率),也沒(méi)有考慮到錯(cuò)判的損失,Bayes判別法正是為解決這兩方面的問(wèn)題而提出的。Bayes的統(tǒng)計(jì)思想是假定對(duì)研究的對(duì)象已經(jīng)有一定的認(rèn)識(shí)(常用先驗(yàn)概率分布來(lái)描述這種認(rèn)識(shí)),然后抽取一個(gè)樣本,用樣本來(lái)修正已有的認(rèn)識(shí)(先驗(yàn)概率分布),得到后驗(yàn)概率分布。各種統(tǒng)計(jì)推斷都通過(guò)后驗(yàn)概率分布來(lái)進(jìn)行。將Bayes統(tǒng)計(jì)思想應(yīng)用于判別分析就得出了Bayes判別法。4.4.2

判別分析的求解過(guò)程2.判別分析的具體方法(3)Bayes判別法

Matlab提供的classify函數(shù)采用Bayes方法進(jìn)行判別分析。Fisher判別和Bayes判別的區(qū)別主要在于兩者的判別準(zhǔn)則不同:Fisher判別以距離作為判別準(zhǔn)則,即樣品與哪個(gè)類的距離最短就分到哪個(gè)類;Bayes判別以概率作為判別準(zhǔn)則,即樣品屬于哪個(gè)類的后驗(yàn)概率最大,就分到哪個(gè)類。

Fisher判別和Bayes判別通常適用于數(shù)值變量資料。Fisher判別對(duì)變量總體分布沒(méi)有要求,但Bayes判別要求總體服從多元正態(tài)分布。4.4.2

判別分析的求解過(guò)程3.Matlab實(shí)現(xiàn)

在Matlab中可以使用norm、mahal等函數(shù)來(lái)進(jìn)行距離判別,可以使用classify函數(shù)來(lái)進(jìn)行Bayes判別分析。調(diào)用格式:[class,err]=classify(sample,training,group)參數(shù)說(shuō)明:輸入?yún)?shù)sample為待判樣品;training為訓(xùn)練樣本;group為訓(xùn)練樣本的分類變量;輸出參數(shù)class為待判樣品的分類結(jié)果;err為誤判率的估計(jì)。4.4.2

判別分析的求解過(guò)程例4.6

有研究發(fā)現(xiàn)脂肪肝與甘油三脂(TG)、膽固醇(TC)、谷丙轉(zhuǎn)氨酶(ALT)和血糖(GS)的增高之間有一定的相關(guān)性,但非一致性,即非脂肪肝人群也有可能TG、TC、ALT、GS中有幾項(xiàng)增高。在醫(yī)學(xué)診斷上,如何根據(jù)檢測(cè)的TG、TC、ALT、GS來(lái)輔助判別是否為脂肪肝有一定的臨床意義。對(duì)某單位員工體檢數(shù)據(jù)中的脂肪肝疾病進(jìn)行判別分析,體檢的原始數(shù)據(jù)見(jiàn)表5-8,試用不同的方法進(jìn)行判別分析。對(duì)于一個(gè)(TG,TC,ALT,GS)為(1.22,7,38,5)的新樣品,試對(duì)其做出判別診斷。(數(shù)據(jù)來(lái)源[5])4.4.3

判別分析實(shí)例解析4.4.3

判別分析實(shí)例解析4.4.3

判別分析實(shí)例解析1.解析:

運(yùn)行程序、查看結(jié)果,發(fā)現(xiàn)兩種方法的判別結(jié)果相同,對(duì)非脂肪肝樣本的分類判別中,第9個(gè)、第10個(gè)樣品的分類錯(cuò)誤;對(duì)脂肪肝樣本的分類判別中,第14個(gè)樣品的分類錯(cuò)誤;錯(cuò)誤率為8.33%。對(duì)于給定的新樣品,兩種方法都判別其屬于第二類(脂肪肝組)。4.4.3

判別分析實(shí)例解析主成分分析多元線性回歸分析聚類分析判別分析4.14.2內(nèi)容導(dǎo)航CONTENTS決策樹(shù)分析支持向量機(jī)算法4.34.44.54.6貝葉斯分類算法時(shí)間序列分析4.74.8

在日常生活中,面臨日趨增多的數(shù)據(jù)信息,當(dāng)需要對(duì)項(xiàng)目進(jìn)行決策、方案選擇或者該項(xiàng)目是否存在特定風(fēng)險(xiǎn)的情況時(shí)(如醫(yī)生通過(guò)病人進(jìn)行相關(guān)醫(yī)學(xué)檢查得到的數(shù)據(jù)進(jìn)行疾病診斷),可以利用相關(guān)的數(shù)據(jù)工具進(jìn)行輔助決策。

決策樹(shù)(decisionmakingtree)這一概念正是應(yīng)運(yùn)而生,其可以提供形式化的、采用數(shù)據(jù)分析和論證的方法。該方法進(jìn)行嚴(yán)密的邏輯推導(dǎo)和逐漸逼近的數(shù)據(jù)計(jì)算方式,從初始決策點(diǎn)開(kāi)始,根據(jù)所需解決問(wèn)題的可能發(fā)展方向進(jìn)行分枝,并計(jì)算每個(gè)分枝發(fā)生的概率和對(duì)決策所產(chǎn)生的影響,計(jì)算出每個(gè)分枝的收益期望,最后根據(jù)該期望進(jìn)行決策選擇的依據(jù),為項(xiàng)目確定、方案選擇或風(fēng)險(xiǎn)分析提供合理的決策建議。4.5決策樹(shù)

決策樹(shù)(decisionmakingtree)是一個(gè)類似于流程圖的樹(shù)結(jié)構(gòu),是一種用來(lái)表示人們?yōu)榱俗鞒瞿骋粋€(gè)決策而進(jìn)行一系列判斷過(guò)程的樹(shù)形圖。決策樹(shù)代表著決策集的樹(shù)形結(jié)構(gòu),最終結(jié)構(gòu)是一棵樹(shù),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每一個(gè)分枝代表一個(gè)測(cè)試輸出,而每個(gè)樹(shù)葉節(jié)點(diǎn)代表類或類分布。樹(shù)的最頂層節(jié)點(diǎn)是根節(jié)點(diǎn)。內(nèi)部節(jié)點(diǎn)用矩形表示,而樹(shù)葉節(jié)點(diǎn)用橢圓表示。由分類已知的某些例子來(lái)建構(gòu)決策樹(shù),可以從中歸納出某些規(guī)律性,產(chǎn)生出來(lái)的決策樹(shù),也能對(duì)未知結(jié)果的例子做預(yù)測(cè)。

4.5.1決策樹(shù)的基本概念4.5.1決策樹(shù)的基本概念解決分類問(wèn)題的一般方法A1A2A3類1Y100LN2N125SN3Y400LY4N415MN學(xué)習(xí)算法學(xué)習(xí)模型模型應(yīng)用模型TIDA1A2A3類1Y100L?2N125S?3Y400L?4N415M?訓(xùn)練集(類標(biāo)號(hào)已知)檢驗(yàn)集(類標(biāo)號(hào)未知)歸納推論1、Hunt,Marin和Stone提出的概念學(xué)習(xí)系統(tǒng)(ConceptLearningSystem)CLS,它是決策樹(shù)學(xué)習(xí)算法的基礎(chǔ)。2、1975年,J.R.Quinlan提出ID3算法,并在1983年和1986年對(duì)ID3進(jìn)行了總結(jié)和簡(jiǎn)化,使其成為決策樹(shù)學(xué)習(xí)算法的典型。3、Schlimmer和Fisher于1986年對(duì)ID3進(jìn)行改造,在每個(gè)可能的決策樹(shù)節(jié)點(diǎn)創(chuàng)建緩沖區(qū),使決策樹(shù)可以遞增式生成,得到ID4算法。4、1988年,Utgoff在ID4基礎(chǔ)上提出了ID5學(xué)習(xí)算法,進(jìn)一步提高了效率。1993年,Quinlan進(jìn)一步發(fā)展了ID3算法,改進(jìn)成C4.5算法。5、C5.0算法是C4.5算法在大數(shù)據(jù)集上應(yīng)用的分類算法。4.5.2相關(guān)算法與決策樹(shù)相關(guān)的重要算法CLS,ID3,C4.5,CART,C5.0ID3算法的關(guān)鍵是分支策略的劃分,即如何對(duì)選擇的屬性進(jìn)行度量。Gini指標(biāo)、增益率和信息增益是常見(jiàn)的三種度量方法。該算法是以信息論為基礎(chǔ),以信息熵和信息增益度為衡量標(biāo)準(zhǔn),從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的歸納分類。ID3算法構(gòu)造決策樹(shù)的過(guò)程

信息增益度是兩個(gè)信息量之間的差值,其中一個(gè)信息量是需確定T的一個(gè)元素的信息量,另一個(gè)信息量是在已得到的屬性X的值后需確定的T一個(gè)元素的信息量,信息增益度公式為:Gain(X,T)=Information(T)-Information(X,T)式5-20ID3算法計(jì)算每個(gè)屬性的信息增益,并選取具有最高增益的屬性作為給定集合的測(cè)試屬性。對(duì)被選取的測(cè)試屬性創(chuàng)建一個(gè)節(jié)點(diǎn),并以該節(jié)點(diǎn)的屬性標(biāo)記,對(duì)該屬性的每個(gè)值創(chuàng)建一個(gè)分支據(jù)此劃分樣本。ID3決策算法的實(shí)現(xiàn)如下:ID3

(Examples,

Target_Attribute,

Attributes)

1.為決策樹(shù)創(chuàng)建一個(gè)根節(jié)點(diǎn)。2.如果Examples都為正,那么返回label=+

的單結(jié)點(diǎn)樹(shù)Root。//例子的正反表示該對(duì)象所屬的類型。3.如果Examples都為反,那么返回label=-的單結(jié)點(diǎn)樹(shù)Root。//例子的正反表示該對(duì)象所屬的類型。4.如果Attributes為空,那么返回單結(jié)點(diǎn)樹(shù)Root,label=Examples中最普遍的Target_attribute值。5.否則

6.A←Attributes中分類Examples能力最好的屬性

7.Root的決策屬性←A

ID3算法構(gòu)造決策樹(shù)的過(guò)程8.對(duì)于A的每個(gè)可能值vi9.在Root下加一個(gè)新的分支對(duì)應(yīng)測(cè)試A=vi10.令

Examples(vi)為Examples中滿足A屬性值為vi的子集11.如果

Examples(vi)為空12.在這個(gè)新分支下加一個(gè)葉子結(jié)點(diǎn),結(jié)點(diǎn)的label=Examples中最普遍Target_attribute值13.否則在這個(gè)新分支下加一個(gè)子樹(shù)ID3(

Examplesvi

,Target_attribute,Attributes-{A})14.結(jié)束15.返回根節(jié)點(diǎn)ID3算法構(gòu)造決策樹(shù)的過(guò)程

過(guò)度擬合是決策樹(shù)模型和許多預(yù)測(cè)模型所面臨的重要問(wèn)題,當(dāng)學(xué)習(xí)算法利用假設(shè)反復(fù)進(jìn)行訓(xùn)練集誤差的減少,使得測(cè)試集誤差增加則稱為過(guò)度擬合。在構(gòu)建決策樹(shù)過(guò)程中,通常采用下面兩種方法以避免過(guò)度擬合:4.5.3決策樹(shù)的修剪

在構(gòu)建決策樹(shù)過(guò)程中,通常采用下面兩種方法以避免過(guò)度擬合:預(yù)剪枝(Pre-pruning

):在訓(xùn)練集完全分類前停止決策樹(shù)的生長(zhǎng)。后剪枝(Post-pruning):允許訓(xùn)練集完全分類,再根據(jù)一定策略,采用自底向上的分層剪枝。例4.7研究糖尿病數(shù)據(jù)(diabetesdataset),構(gòu)造一棵決策樹(shù)。通過(guò)對(duì)于相同人種所具有數(shù)據(jù)庫(kù)中對(duì)應(yīng)的屬性值判斷該病人是否患有糖尿病。4.5.4決策樹(shù)在醫(yī)院患者分析中的應(yīng)用Preg.Plas.Pres.Skin.Insu.Mass.Pedi.Age.Calss.61487235033.60.6275011856629026.60.3513108183640023.30.67232118966239428.10.1672100137403516843.12.2883315116740025.60.20130037850328831.00.2482611011500035.30.1342902197704554330.50.158531表4-10部分測(cè)試集數(shù)據(jù)4.5.4決策樹(shù)在醫(yī)院患者分析中的應(yīng)用

圖5-14決策樹(shù)模型4.5.4決策樹(shù)在醫(yī)院患者分析中的應(yīng)用圖5-15決策樹(shù)圖形主成分分析多元線性回歸分析聚類分析判別分析4.14.2內(nèi)容導(dǎo)航CONTENTS決策樹(shù)分析支持向量機(jī)算法4.34.44.54.6貝葉斯分類算法時(shí)間序列分析4.74.84.6支持向量機(jī)算法醫(yī)學(xué)統(tǒng)計(jì)、醫(yī)學(xué)圖像分析、輔助診斷等應(yīng)用中常常遇到根據(jù)一批已知類別的經(jīng)驗(yàn)數(shù)據(jù),形成對(duì)新的未知類別的類似數(shù)據(jù)進(jìn)行分類判斷的問(wèn)題,這一類問(wèn)題都屬于分類問(wèn)題。常用的分類算法很多,其中,支持向量機(jī)算法就是一種性能良好、應(yīng)用廣泛的分類算法。支持向量機(jī)(SupportVectorMachine,SVM)是CorinnaCortes和Vapnik等在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出的一種新的模式識(shí)別方法。該方法在解決小樣本、非線性及高維的模式識(shí)別問(wèn)題中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他問(wèn)題中。算法將實(shí)際問(wèn)題通過(guò)非線性變換轉(zhuǎn)換到高維特征空間,在高維空間中構(gòu)造線性判別函數(shù)來(lái)實(shí)現(xiàn)原空間中的非線性判別函數(shù)。算法最終將轉(zhuǎn)化成為一個(gè)二次型尋優(yōu)問(wèn)題,從理論上說(shuō),得到的將是全局最優(yōu)點(diǎn),解決了在神經(jīng)網(wǎng)絡(luò)方法中無(wú)法避免的局部極值問(wèn)題。所定義的特殊優(yōu)化函數(shù)的性質(zhì)能保證分類器有較好的泛化能力,同時(shí)它巧妙地解決了維數(shù)問(wèn)題,其算法復(fù)雜度與樣本維數(shù)無(wú)關(guān)。課件制作人:謝鈞謝希仁4.6.1算法基本思想1.分類算法的基本概念、經(jīng)驗(yàn)風(fēng)險(xiǎn)與泛化能力支持向量機(jī)的一個(gè)最顯著的特點(diǎn)是可以很好的解決經(jīng)驗(yàn)風(fēng)險(xiǎn)最小(訓(xùn)練樣本錯(cuò)分最少)和泛化能力最大(最大可能正確地分類新的測(cè)試樣本)之間的矛盾。2.線性SVM的工作原理支持向量機(jī)(SVM)中最簡(jiǎn)單、最基本的一種是線性SVM。以線性SVM為例可以理解支持向量機(jī)的核心思想和基本工作原理。課件制作人:謝鈞謝希仁1.分類算法的基本概念、經(jīng)驗(yàn)風(fēng)險(xiǎn)與泛化能力分類問(wèn)題的實(shí)質(zhì):分類問(wèn)題的實(shí)質(zhì)就是假設(shè)所有的數(shù)據(jù)(訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù))總體符合某一個(gè)分布規(guī)律,如果其中有一些數(shù)據(jù)的分類屬性已知(即訓(xùn)練數(shù)據(jù)),我們就可以從訓(xùn)練數(shù)據(jù)中取尋找數(shù)據(jù)分布規(guī)律,并且將其當(dāng)做總體數(shù)據(jù)的分布規(guī)律,從而也對(duì)未知分類屬性的數(shù)據(jù)(即測(cè)試樣本)進(jìn)行分類。課件制作人:謝鈞謝希仁1.分類算法的基本概念、經(jīng)驗(yàn)風(fēng)險(xiǎn)與泛化能力經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化:經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化就是要求訓(xùn)練樣本錯(cuò)分最少,如圖的是一個(gè)較簡(jiǎn)單的例子,訓(xùn)練樣本是線性可分的,即可以用一條直線將正負(fù)兩類訓(xùn)練樣本完全分開(kāi)。滿足經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的分類線可能不止一條,如圖所示,L1、L2、…L5都是滿足經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的分類線,那么當(dāng)遇到新的數(shù)據(jù)點(diǎn)(測(cè)試樣本)時(shí),這些分類線是否也都能正確呢?答案是否定的。比如,明顯屬于class1的測(cè)試樣本P2就會(huì)被分類線L4錯(cuò)誤的分類為class2。由此認(rèn)為,分類線L4的泛化能力不夠強(qiáng)。這說(shuō)明,即使一個(gè)分類線滿足經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的條件,并不能保證其具有好的泛化能力。課件制作人:謝鈞謝希仁1.分類算法的基本概念、經(jīng)驗(yàn)風(fēng)險(xiǎn)與泛化能力1.經(jīng)驗(yàn)風(fēng)險(xiǎn)最小和泛化能力最大之間的矛盾當(dāng)訓(xùn)練樣本有噪聲數(shù)據(jù)(分類標(biāo)號(hào)錯(cuò)誤的訓(xùn)練樣本)存在時(shí),如果一味追求經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,那么可能為了將噪聲數(shù)據(jù)“正確”地分類而得到泛化能力很差的分類線。如圖所示,若訓(xùn)練數(shù)據(jù)中存在一個(gè)噪聲點(diǎn)q1,從分布規(guī)律上看q1應(yīng)當(dāng)屬于class2這一類,但它的分類標(biāo)號(hào)被錯(cuò)誤的標(biāo)記為class1。則由于q1的存在,原有的L1、L2、…L5等分類線都不滿足經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的條件(都錯(cuò)分q1),而僅有L6滿足條件,但是顯然L6在分類其它新的訓(xùn)練樣本的時(shí)候,其分類性能是遠(yuǎn)遠(yuǎn)不如L2的。這說(shuō)明,我們所希望的兩個(gè)分類器具有的性能中,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小和泛化能力最大這兩者之間存在著矛盾。課件制作人:謝鈞謝希仁2.線性SVM的工作原理支持向量機(jī)著重解決分類的泛化能力。該算法認(rèn)為,分類的過(guò)程中,如果類別間隔越大,那么分類界限對(duì)新的樣本分錯(cuò)的概率就越小,即泛化能力越大。支持向量機(jī)的基本工作原理是找到這樣的分類線,使得它能夠盡可能多的將兩類訓(xùn)練樣本的數(shù)據(jù)點(diǎn)正確的分開(kāi),同時(shí)使分開(kāi)的兩類訓(xùn)練樣本的數(shù)據(jù)點(diǎn)距離分類線最遠(yuǎn)(直觀地說(shuō)就是“最大化間隔”)。課件制作人:謝鈞謝希仁2.線性SVM的工作原理如圖1所示,L1是任意一條滿足經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的分類線,將分類線L1分別往左右兩邊平行移動(dòng),平移過(guò)程中分別在兩個(gè)方向各自遇到的首個(gè)正/負(fù)樣本中的數(shù)據(jù)點(diǎn)即為“支持向量”,“支持向量”是訓(xùn)練樣本中距離類別交界處最近的數(shù)據(jù)點(diǎn);由“支持向量”和分類線方向可以共同確定邊界直線L2和L3;夾在邊界直線L2和L3之間的區(qū)域即為類別“間隔”(如圖1的黃色區(qū)域所示)。同樣的,如圖2所示,L’1是也一條滿足經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的分類線,黃色區(qū)域是確定L’1為分類線的情況下的類別“間隔”。顯然,由于圖1所示的類別“間隔”大于圖2所示的類別“間隔”,當(dāng)新的測(cè)試樣本在“間隔”區(qū)域內(nèi)出現(xiàn)時(shí),前者錯(cuò)分的可能性要小于后者。課件制作人:謝鈞謝希仁2.線性SVM的工作原理考慮當(dāng)類別“間隔”不變,分類線位置發(fā)生平移的情況。如圖所示,當(dāng)分類線在邊界直線L2和L3之間平行移動(dòng)時(shí),可以得到不同的分類線(如L1和L’1)。如果分類線和某一邊界直線之間的距離越近,那么該邊界直線外的測(cè)試樣本(實(shí)際屬于該類別)被錯(cuò)分的可能性越大。分類線L’1和邊界直線L3之間的距離小于L1和L3之間的距離,那么,對(duì)于實(shí)際屬于class2類別的測(cè)試數(shù)據(jù)P1,分類線L’1會(huì)將其錯(cuò)誤地分類為class1;但是分類線L1則會(huì)將其正確分類。由此可知,最優(yōu)分類線的特點(diǎn)是滿足類別“間隔”最大化,同時(shí),最優(yōu)分類線本身到兩條邊界直線的距離相等。課件制作人:謝鈞謝希仁4.6.2線性SVM的求解過(guò)程根據(jù)線性SVM原理分析已知,所求的最優(yōu)分類線的特點(diǎn)是滿足類別“間隔”(即兩條邊界直線之間的距離)最大化,同時(shí),最優(yōu)分類線本身到兩條邊界直線的距離相等。因此,上述最優(yōu)分類界限的求解,可以等價(jià)變換為有約束條件的最優(yōu)化問(wèn)題,以2維特征空間為例,可以推廣到n維空間。課件制作人:謝鈞謝希仁4.6.2線性SVM的求解過(guò)程對(duì)2維空間中的m個(gè)訓(xùn)練數(shù)據(jù),以向量形式表示,記為,則可令記為訓(xùn)練樣本點(diǎn)的集合,且為訓(xùn)練樣本的類標(biāo)號(hào)。若確定直線方向,則可知是否存在符合分類條件的分類線。若存在符合分類條件的分類線(平行的多條),則必然也能找到經(jīng)過(guò)支持向量且平行于分類線的兩條類邊界線。且多條分類線中只需考慮距離兩條類邊界線等距離的分類線作為候選的最優(yōu)分類線。候選的最優(yōu)分類線的直線的方程可以記為:,同時(shí)可以將兩條類邊界線的直線方程表示為:和。此時(shí),根據(jù)最優(yōu)分類線和所有訓(xùn)練數(shù)據(jù)點(diǎn)的位置關(guān)系,對(duì),必然有成立;對(duì),必然有成立;對(duì)于那些支持向量,必然有成立。課件制作人:謝鈞謝希仁4.6.2線性SVM的求解過(guò)程同時(shí),任一訓(xùn)練數(shù)據(jù)與候選的最優(yōu)分類線的距離為:,候選的最優(yōu)分類線與兩類訓(xùn)練數(shù)據(jù)中的支持向量的距離都為,即該方向的分類線所能得到的最大的類別“間隔”為。因此,SVM所求的最優(yōu)分界面可表示為如下目標(biāo)函數(shù)的優(yōu)化問(wèn)題:約束條件:該優(yōu)化函數(shù)為二次型,約束條件是線性的,因此是典型的二次規(guī)劃問(wèn)題,可由拉格朗日乘子法求解。課件制作人:謝鈞謝希仁4.6.3其他類型的支持向量機(jī)軟間隔SVM對(duì)存在數(shù)據(jù)污染、近似線性分類的情況,可能并不存在一個(gè)最優(yōu)的線性分類面,存在噪聲數(shù)據(jù)時(shí),為保證所有訓(xùn)練數(shù)據(jù)的準(zhǔn)確分類,可能會(huì)導(dǎo)致過(guò)擬合。因此,需要發(fā)展允許有一定范圍內(nèi)的“錯(cuò)分”,又有較大分類間隔的最優(yōu)分類面。為此提出的一種解決方法是軟間隔SVM,又稱廣義最優(yōu)分類面SVM,通過(guò)引入錯(cuò)誤分類樣本,以增大分類間隔。實(shí)際上,廣義最優(yōu)分類面是在分類準(zhǔn)確性與泛化特性上尋求一個(gè)平衡點(diǎn)。非線性SVM訓(xùn)練樣本非線性可分,將其映射到高維空間,可使樣本在新的高位特征空間中線性可分。低維特征空間到高維特征空間的映射通過(guò)核變換實(shí)現(xiàn)。不同的核函數(shù)對(duì)應(yīng)于不同的核變換。課件制作人:謝鈞謝希仁4.6.4matlab的SVM函數(shù)使用Matlab中有專門用來(lái)進(jìn)行SVM訓(xùn)練和分類的函數(shù):svmtrain和svmclassify函數(shù)。svmtrain函數(shù)的作用:根據(jù)輸入的訓(xùn)練數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的類別,訓(xùn)練SVM分類器,得到分類界限。svmtrain函數(shù)的基本使用(語(yǔ)法及調(diào)用參數(shù)):SVMStruct=svmtrain(Training,Group)Training:訓(xùn)練數(shù)據(jù)的所有屬性(N*K維數(shù)組,N個(gè)訓(xùn)練樣本,K個(gè)屬性)Group:訓(xùn)練數(shù)據(jù)的類別標(biāo)號(hào)(N*1維數(shù)組,取值為0或1,分別表示正負(fù)樣本)SVMStruct:訓(xùn)練得到的SVM分類器(包括分類界限、支持向量等)課件制作人:謝鈞謝希仁4.6.4matlab的SVM函數(shù)使用svmclassify函數(shù)的作用:輸入之前訓(xùn)練得到的SVM分類器和待分類的測(cè)試數(shù)據(jù),得到測(cè)試數(shù)據(jù)的類別標(biāo)號(hào)。svmclassify函數(shù)的基本使用(語(yǔ)法及調(diào)用參數(shù)):Group=svmclassify(SVMStruct,Sample)SVMStruct:之前訓(xùn)練得到的SVM分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論