章11-2-模式識(shí)別方法_第1頁(yè)
章11-2-模式識(shí)別方法_第2頁(yè)
章11-2-模式識(shí)別方法_第3頁(yè)
章11-2-模式識(shí)別方法_第4頁(yè)
章11-2-模式識(shí)別方法_第5頁(yè)
已閱讀5頁(yè),還剩63頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

§11.5.7.SIMCA方法[13]SIMCA(softindependentmodellingofclassanalogy或者statisticalisolinearmulticategoryanalogy)屬于類模型方法,即對(duì)每類構(gòu)造一主成分回歸的數(shù)學(xué)模型,并在此根底上去進(jìn)行試樣的分類。此法在1976年由瑞典學(xué)者S.Wold所提出,很快受到普遍的重視,并在化學(xué)中得到廣泛的應(yīng)用。如有數(shù)據(jù)陣其中,n為試樣數(shù),m為變量,即維數(shù)。對(duì)于某一類,主成分回歸模型為式中,ai為變量i之均值,A為主成分?jǐn)?shù),βia是變量i在主成分a上的裝載,θak是試樣k是關(guān)于主成分a的得分,εik是偏差.對(duì)于多類,那么主成分回歸模型為

其中q表示類。SIMCA方法分類的主要操作步驟可歸結(jié)為:1.數(shù)據(jù)標(biāo)準(zhǔn)化假設(shè)數(shù)據(jù)來(lái)源不一時(shí),變量間彼此差異可能很大,那么須將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化(autoscaling)處理。經(jīng)過(guò)標(biāo)準(zhǔn)化處理的每一變量均值為0,方差為1(見(jiàn)§11.2)。2.主成分?jǐn)?shù)A的測(cè)定確定A值的最有效的方法為交叉驗(yàn)證(crossvalidation)法。這種方法的操作過(guò)程為:(1)將訓(xùn)練集中的某類分成T組,在分組中要盡可能考慮到試樣的代表性。如某類由25個(gè)試樣所組成,令T=8,即將之分為8組。第一組為1,9,17和25,第二組為2,10,和18,第三組為3,11和19,等,直到第八組,試樣為8,16和24。(2)首先將第一組試樣從訓(xùn)練集中除去,并設(shè)降維的數(shù)據(jù)矩陣為Y--,試樣數(shù)為n-.(3)對(duì)于Y--,應(yīng)用前述單類主成分模型公式(11.9)去擬合。擬合中依次令A(yù)=0,1,2,…直到M-2或n--2(取決于二者中小者)(4)運(yùn)用在(3)中建立的數(shù)學(xué)模型去擬合所除去的試樣。此步中,A=0,1,…,并且α,β固定不變。相應(yīng)于每一A值,計(jì)算試樣的偏差εik,由此得到這些偏差平方的加和ΔA。(5)將所除去的那組試樣重新放回?cái)?shù)據(jù)陣Y。(vi)由數(shù)據(jù)陣Y中除去下一組試樣,從而得到一新的降維數(shù)據(jù)陣Y--,回到步(3).假設(shè)每一組均被除去一次,那么到第(7)步。(7)對(duì)于每一A值,將ΔA加和得到DA,由(DA-1-DA)/n對(duì)DA/[n(M-A-1)]作F檢驗(yàn)來(lái)判斷A的重要性,從而確定A值。一旦每類A值確定之后那么可使式(11.10),即多類主成分模型對(duì)于試樣的判別能力到達(dá)極大。3.主成分模型中β,θ等參數(shù)的測(cè)定式(11.10)中βia,θak由矩陣Z(q)’Z(q)對(duì)角化求得。其中Z(q)為第q類訓(xùn)練集中每一變量減去平均值后所形成的數(shù)據(jù)陣,Z(q)’為Z(q)的轉(zhuǎn)置矩陣.εik(q)可由Z值減去公式中β和θ的乘積項(xiàng)得到,那么方差可由下式求得:一旦每一類中上述參數(shù)求出之后,即可運(yùn)用主成分回歸模型去預(yù)測(cè)未知試樣。4.未知試樣測(cè)試用主成分回歸模型去擬合未知試樣Yip.與一般多元回歸相同,此時(shí)Zi=yip-ai(q)為因變量,βia(q)(a=1,2,…,Aq)為自變量:此處ca為回歸系數(shù)。表征試樣p擬合好壞,可由偏差εip的方差表示:判別試樣p是否屬于q類,那么用F顯著性檢驗(yàn)。對(duì)于類內(nèi)試樣F檢驗(yàn)的公式為:其中,校正因子nq/(nq-Aq-1)的參加是因?yàn)楫?dāng)計(jì)算該類β和θ時(shí)P試樣已被包括進(jìn)去。將F的計(jì)算值與臨界值[自由度分別為(M-Aq)和(nq-Aq-1)(M-Aq)]相比較,假設(shè)F<F臨界,那么試樣p歸入q類,否那么,將試樣p擬合于其他類。當(dāng)試樣p擬合于其他類時(shí),即p已不是類內(nèi)試樣,其F顯著性檢驗(yàn)的公式為:同樣將F的計(jì)算值與臨界值[自由度分別為(M-Aq)和(nq-Aq-1)(M-Aq)]相比較,假設(shè)計(jì)算值小于臨界值,那么將試樣p歸入其他某q類,否那么,試樣p為一新類。5.兩類間相似度—非相似度測(cè)量用類r中的所有試樣去擬合類q主成分模型,那么可得到類間的相似度測(cè)量,類r與q間的方差為:同樣可以得到S(r,p)2。將式(11.13)所得方差與式(11.11)所得方差相比較,那么可得兩類間相似度的測(cè)量。6.變量重要性的測(cè)量變量在判別中的重要性可由剩余方差(residualvariance)與原始數(shù)據(jù)的方差相比較而得。假設(shè)原始數(shù)據(jù)經(jīng)過(guò)標(biāo)準(zhǔn)化處理,那么所有變量i的方差相同:由此可得Ui值越大,即剩余方差與原始數(shù)據(jù)方差的比值愈小,該變量在主成分模型中的作用越小。7.試樣相關(guān)性測(cè)量與變量相類同,即將試樣的剩余方差式(11.12)與某一類整個(gè)方差式(11.11)相比較(F檢驗(yàn)),其剩余方差越小,該試樣與此類的相關(guān)性越大。[例]鳶尾花的分類。在30年代,由R.A.Fisher所收集的有關(guān)鳶尾花的數(shù)據(jù),是后來(lái)常被用于模式識(shí)別的一套經(jīng)典的數(shù)據(jù)。我們?nèi)∑湟痪植?,即第一類,多剛?setose)鳶尾花和第二類,雜色(versicolor)鳶尾花。每類25個(gè)試樣,兩類共50個(gè)。對(duì)花的描述是:〔1〕花萼長(zhǎng)度(x1);〔2〕花萼寬度(x2);〔3〕花瓣長(zhǎng)度(x3);〔4〕花瓣寬度(x4)。這50個(gè)試樣的測(cè)試數(shù)據(jù)及相應(yīng)的歸類示于表11.9。表11.9鳶尾花的測(cè)試數(shù)據(jù)及歸類對(duì)于原始數(shù)據(jù),每個(gè)試樣按照類分別減去均值。然后,按照類分別進(jìn)行主成分分析。取一個(gè)主成分,那么在主成分回歸方程式中βia(裝載)和θak(得分)分別示于表11.10和表11.11。表11.10主成分回歸方程中的裝載(βia)表11.11主成分回歸方程中的得分(θak)類1和類2的標(biāo)準(zhǔn)方差分別為S0(1)2=0.0257和S0(2)2=0.0525。試樣分別擬合于兩類主成份回歸模型的標(biāo)準(zhǔn)方差及F檢驗(yàn)分別示于表11.12。兩類顯著性檢驗(yàn)F的臨界值相同,即均為F(3,69)0.01=4.08。在表中第二和第三列,括弧中數(shù)碼1或2分別表示用類1模型計(jì)算或用類2模型計(jì)算所得方差。所以,“最近類〞,即為此試樣最有可能所屬的類。“第2個(gè)最近類〞可依此類推。但,是否屬于類1或類2,那么還要通過(guò)F檢驗(yàn)來(lái)確定。如前所述,假假設(shè)F的計(jì)算值小于F的臨界值,那么將試樣歸于此類,否那么,歸于其它類。假設(shè)某試樣不能歸于任一類,那么該試樣為新的一類。依此,觀察表11.12那么可發(fā)現(xiàn),對(duì)于類1模型,試樣1-25,只有第23的F計(jì)算值〔4.64〕大于4.08〔臨界值〕,故試樣23不能歸于類1;試樣26-50可全部正確歸于類2。相類同,對(duì)于類2模型,試樣26-50均可正確地歸于類2;而1-25,除了試樣23,其它均可正確歸于類1。由于試樣23的F計(jì)算值大于臨界值4.08,故亦不能歸于類2。試樣23為一異常試樣,應(yīng)歸于新的一類。在50個(gè)試樣中,僅有一個(gè)試樣不能正確歸類,所以識(shí)別率為98%。表11.12SIMCA方法的分類結(jié)果§11.6無(wú)管理方法§11.6.1系統(tǒng)聚類分析[14]聚類分析是數(shù)理統(tǒng)計(jì)中的一種方法,特別適用于試樣歸屬不清楚的情況。它所基于的主要思想是在多維空間中,同類化合物應(yīng)靠得近些,彼此間的距離小些;相反,不同類的化合物應(yīng)離得遠(yuǎn)些,彼此間的距離大些。聚類分析即為如何使相似的試樣“聚〞在一起,從而到達(dá)分類的目的。聚類分析為無(wú)管理方法,其中用得最多的為系統(tǒng)聚類(hierarchicalclusrering)法。系統(tǒng)聚類法的根本思想是首先定義試樣之間和類與類之間的距離。在各自成類試樣中,將距離最近的兩類合并,重新計(jì)算新類與其他類間的距離,并按最小距離歸類,重復(fù)此過(guò)程,每次減少一類,直到所有的試樣成為一類為止。其聚類過(guò)程用圖表示,稱為聚類圖。定義類與類間距離有多種方法,不同的定義就產(chǎn)生了不同的系統(tǒng)聚類分析方法。常用的方法有8種。這些方法是:1.最短距離法此種方法定義Gi與Gj之間的距離為其中dkl是試樣xk與xl的距離。也就是說(shuō)兩類之間的距離等于兩類中最近試樣之間的距離。設(shè)某一步將類Gp和Gq合并成Gr,那么類Gi與Gr距離的遞推公式為:2最長(zhǎng)距離法在此種方法中類與類之間的距離等于兩類中最遠(yuǎn)試樣的距離,即顯然,最長(zhǎng)距離法的遞推公式是:3.中間距離法在中間距離法中,類與類之間的距離既不采用兩類之間最近的距離,也不采用最遠(yuǎn)距離,而是采用最遠(yuǎn)和最近之間的距離。如果在某一步將類Gp和Gq合并為Gr,任一類Gi與Gr的距離的取法可由如右邊的三角形說(shuō)明。如果用最短距離法,Dir等于Dip和Diq中短一邊;如果用最長(zhǎng)距離法,Di等于Dip和Diq中長(zhǎng)的邊。而在中間距離法中,Dir既不取Dip,也不取Diq,Dir取的是夾在這兩條邊之間的三角形中線。由初等幾何知道:當(dāng)β=-1/4時(shí),Dir就是上述的三角形中線。上式即為中間距離法的遞推公式。4.重心法該類方法定義兩類之間的距離為對(duì)應(yīng)這兩類重心之間的距離。對(duì)試樣來(lái)說(shuō),每一類的重心即為該類試樣的均值。設(shè)某一步將Gp與Gq合并成Gr,它們各含有np,nq,nr(nr=np+nq)個(gè)試樣,那么此種方法的遞推公式為:5.類平均法在該種方法中,類Gp與Gq之間的距離表示為:其中,np,nq

為類Gp,Gq中的試樣數(shù)。就是說(shuō)類之間的平方距離等于各元素兩兩之間的平方距離的平均。其遞推公式為:6.可變類平均法類平均法的距離遞推公式中對(duì)于類Gp和Gq之間的距離沒(méi)有反映進(jìn)去,可變類平均法將之改進(jìn)為:其中,β可變,β<17.可變法此種方法的遞推公式為:其中,β可變,β<18.方差平方和法這個(gè)方法首先由Ward提出,故文獻(xiàn)中常稱之為Ward法。該方法所基于的思想為方差分析。如某一步中,G1={x1,x2}={1,2},G2={x3,x4}={4.5,6},G3={x5}={8},假設(shè)將G1,G2合并,那么兩類中所有元素的均值為(1+2+4.5+6)/4=3.375,那么方差平方和為(1-3.375)2+(2-3.375)2+(4.5-3.375)2+(6-3.375)2=15.687。假設(shè)將G1與G3合并,那么其方差平方和為(1-3.667)2+(2-3.667)2+(8-3.667)2=28.667。假設(shè)將G2和G3合并,那么其方差平方和為6.117。在這三種分類方案中,以G2和G3合并增加的方差平方和為最小,故將G2和G3合并。也就是說(shuō),這種方法是將某一步中G1,G2,…Gk類合并成k-1類,而由此增加的方差平方和為最小。該種方法的遞推公式為:上述幾種方法總的遞推公式為:方法不同,式中αp,αq,β,γ的取值也不同。取值方法示于表11.13。其中,ni,np,nq和nr為相應(yīng)類中試樣數(shù)。在可變法及可變類平均法中的β可變,分類效果與β取值關(guān)系極大。β假設(shè)近于1,分類效果不好。通常β取負(fù)值。表11.13系統(tǒng)聚類法參數(shù)表下面我們以一極為簡(jiǎn)單的例子來(lái)說(shuō)明聚類分析方法的步驟。如有5個(gè)試樣,每一試樣僅有一個(gè)特征:1,2,4.5,6,8。表11.14D0(1)計(jì)算試樣之間的距離此處選用絕對(duì)距離(見(jiàn)§11.4.2),得表11.14。(2)定義類與類之間的距離如采用最短距離法。(3)逐步歸類開(kāi)始時(shí),5個(gè)試樣各自成一類,類間距離即為試樣間距離,即Dij=dij。選擇最小的Dij,此時(shí)為類G1和G2,將它們合并成新類G6,并計(jì)算與其類間的距離,得表11.15。表11.15D1重復(fù)如上過(guò)程可得表11.16和11.17,其歸類結(jié)果表示于圖11.9。表11.16D2表11.17D3圖11.9系統(tǒng)聚類圖最后我們給出一實(shí)例:在作者的實(shí)驗(yàn)室中曾經(jīng)測(cè)定過(guò)血中Sr,Cu,Mg和Zn等4種元素。在前面,此例雖然已被引用過(guò),但是為方便讀者,此處仍給出原始測(cè)定結(jié)果(表11.18),其中,1—13為冠心病者,14—26為健康人。這4種元素分別與變量x1,x2,x3和x4相對(duì)應(yīng),即每一樣品為由上述變量所構(gòu)成的4維空間中的一個(gè)點(diǎn)。

試樣間距離采用塔尼莫特(Tanimoto)系數(shù)法;類間距離采用方差平方和(Ward)法,其聚類結(jié)果示于圖11.10。圖11.10血樣4元素系統(tǒng)聚類圖*ID為試樣序號(hào)表11.18血中4種元素測(cè)定結(jié)果(μg/ml)1)測(cè)試結(jié)果為二次測(cè)定平均值。§11.6.2.最小生成樹(shù)最小生成樹(shù)法是圖論中的一種算法。由圖論可知,圖G由兩個(gè)集合組成:一是頂點(diǎn)的集合V(G),另一是邊的集合E(G)。圖G可記做

G=(V,E)聚類開(kāi)始時(shí),圖G為所有的頂點(diǎn)相連的連通圖。圖中頂點(diǎn)為要分類的化合物,邊為多維空間中化合物的距離,當(dāng)從任一頂點(diǎn)遍歷圖時(shí),必定將邊的集合E(G)分成兩個(gè)集合T(G)和B(G),其中,T(G)是遍歷圖時(shí)所通過(guò)的邊集,B(G)是剩余的邊集。顯然,G‘=(V,T)是G的子圖,稱之為連通圖的生成樹(shù)(spanningtree)。所謂最小生成樹(shù)(minimalspanningtree)即為連通n個(gè)頂點(diǎn)的n-1條邊的加和為最小的生成樹(shù)。最小生成樹(shù)的生成步驟如下:1.設(shè)T的初態(tài)為空集;2.在連通圖上任選一頂點(diǎn)參加到V(T)集合中去。3.將以下步驟重復(fù)n-1次:(1)在i屬于V(T),j不屬于V(T)的邊中選取權(quán)值最小的邊(i,j);(2)將頂點(diǎn)j參加到V(T)中去;(3)輸出i,j及相應(yīng)權(quán)值wij。[例]取本章表11.9中兩類的各前10個(gè)試樣,即試樣1-10為多剛毛鳶尾花;11-20為雜色鳶尾花。兩個(gè)試樣間的距離即圖G中邊的權(quán)重以歐氏距離量度。式中,xik為第i個(gè)試樣的第k個(gè)特征,即鳶尾花的花瓣特征。對(duì)一組數(shù)據(jù),在最小生成樹(shù)中結(jié)點(diǎn)(試樣)對(duì)及其邊的權(quán)重值示于表11.19。表11.19最小生成樹(shù)中結(jié)點(diǎn)對(duì)及其邊的權(quán)重圖11.11所示為該最小生成樹(shù)的二維影射圖,它由主成分分析(K-L轉(zhuǎn)換)方法所得。假設(shè)由結(jié)點(diǎn)4和18間(點(diǎn)間距離最大者)斷開(kāi),那么形成兩個(gè)局部:左側(cè)全部為類1,即多剛毛鳶尾花;右側(cè)全部為類2,即雜色鳶尾花.由此可見(jiàn),此最小生成樹(shù)反映了原數(shù)據(jù)空間中數(shù)據(jù)間相鄰關(guān)系。圖11.11不同鳶尾花的最小生成樹(shù)§11.7顯示方法[15-18]如前所述,一種化合物總是定義為多維空間中的一個(gè)點(diǎn),但在多維空間中點(diǎn)的分布(即數(shù)據(jù)結(jié)構(gòu))是什么樣那么超出了人類視覺(jué)判別能力。假假設(shè)有方法把這些點(diǎn)投影到低維,如二維或三維空間中那么可借助于圖示進(jìn)行化合物的分類。§11.7.1線性映射(Karhunen-Loeve)主成分分析(PCA)有多種形式,它們構(gòu)成了多維數(shù)據(jù)分析的數(shù)學(xué)根底。Karhunen-Loeve(K-L)轉(zhuǎn)換是一種形式。該種轉(zhuǎn)換是使二維空間中的兩個(gè)坐標(biāo)y1和y2(或三維空間中的三個(gè)坐標(biāo)y1,y2和y3)是高維空間中原坐標(biāo)x1,x2…,xn的線性組合,并且y1和y2(或y1,y2和y3)正交。K-L轉(zhuǎn)換為二維(或三維)坐標(biāo)中引進(jìn)均方誤差最小的一種轉(zhuǎn)換。如在m維空間中n個(gè)點(diǎn)的矩陣:它的協(xié)方差陣為:其中為m維空間中n個(gè)點(diǎn)的重心將協(xié)方差陣對(duì)角化,那么得本征矢量矩陣T和本征值λ1,λ2,…,λm其中,λ1≥λ2≥…≥λm;T’=(t1,t2,…,tm)。在如上計(jì)算中,亦可用相關(guān)矩陣(見(jiàn)后邊數(shù)字例子),最終所得結(jié)論是一致的。為了在低維,如二維空間進(jìn)行試樣點(diǎn)的顯示,取與兩個(gè)最大的本征值λ1和λ2相對(duì)應(yīng)的本征矢量t(1)和t(2)來(lái)計(jì)算新的坐標(biāo)y1和y2:(11.16)但根據(jù)情況,有時(shí)亦取第1,3;2,3或3,4等與本征值相對(duì)應(yīng)的本征矢量進(jìn)行計(jì)算。運(yùn)用此種方法所得圖形的可信度可用下式判定:其比率越大,說(shuō)明1和2的代表性越強(qiáng),即所包含的信息量越大,那么所得映射圖接近理想情況。經(jīng)驗(yàn)說(shuō)明,其百分比率一般應(yīng)大于80%。[例]老年性白內(nèi)障是老年人弱視力的主要致因。在白內(nèi)障形成時(shí),不僅Na/K的比例有改變,而且其他金屬元素也相應(yīng)有所變化。在作者的實(shí)驗(yàn)室[15]測(cè)定了白內(nèi)障晶狀體和對(duì)照組中Ca,Mg,Na,K,Mn,Fe,Cu和Zn等8種金屬元素,其結(jié)果示于表11.20中。對(duì)原始數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理。用下式計(jì)算相關(guān)矩陣:表11.208種金屬元素在老年性白內(nèi)障和正常晶狀體中的含量式中rij表示變量xi和xj的相關(guān)系數(shù),當(dāng)i=j時(shí),rij=1。在此例中下腳p=8。運(yùn)用Jacobi方法計(jì)算特征值及與之相應(yīng)的本征矢量。其本征值為:

λ1=2.3758λ5=0.8863

λ2=1.4998λ6=0.4654

λ3=1.3603λ7=0.1801

λ4=1.1138λ8=0.1185與之相對(duì)應(yīng)的前四個(gè)本征矢量為:

t1’=(-0.2329,-0.09168,-0.4712,0.5425,-0.1607,-0.4064,-0.4780,-0.04004)

t2’=(0.5064,-0.2151,-0.3462,0.2501,-0.3585,0.02583,0.4857,0.3871)

t3’=(-0.3975,-0.2944,-0.06075,0.2659,0.3695,0.5641,-0.03175,0.4746)

t4’=(0.04553,-0.8005,0.1987,0.02561,-0.2260,0.1728,-0.06608,-0.8812)利用式(11.16)可計(jì)算新坐標(biāo)y1,y2,…,y8(即主成分PC1,PC2,…PC8)。以主成分1和主成分2張成的二維平面,其投影結(jié)果示于圖11.12。由此可見(jiàn),三類(即白內(nèi)障晶狀體,白內(nèi)障晶狀體核和正常晶狀體)被清楚地劃分在不同的區(qū)域。主成分1和主成分2所解釋的信息量為47%。假設(shè)以主成分1,2和3為坐標(biāo),所得三維投影示于圖11.13。和圖11.12相類同,幾種不同的晶體在三維空間中清楚地散布在不同的區(qū)間。主成分1,2和3所解釋的信息量為65%。圖11.12白內(nèi)障二主成分投影圖圖11.13白內(nèi)障三主成分投影圖§11.7.2非線性影射(non-linearmapping,NLM)同線性投影一樣,非線性投影的目的也是將m維空間的點(diǎn)投影到低維空間如二維或三維空間以使我們易于觀察試樣的數(shù)據(jù)結(jié)構(gòu)。即NLM:x→y此處,x和y分別為m維空間和低維,如二維空間中的矢量:

x={xi},i=1,2,…,n(n為試樣數(shù))

y={yi},i=1,2,…,n(n為試樣數(shù))而設(shè)在m維空間矢量xi與xj的距離為及在二維空間中yi與yj的距離為dij=dis(yi,yj)其中,dij’=dis(xi,xj),dij=dis(yi,yj)為xi和xj間的距離表示。在NLM方法中,多維空間中的點(diǎn)經(jīng)過(guò)投影(即在低維如二維或三維空間中)力圖保持點(diǎn)與點(diǎn)間的距離不變,在理想情況下dij=dij*,但事實(shí)上這是不可能的,因?yàn)榻?jīng)過(guò)投影之后必然會(huì)產(chǎn)生誤差:誤差函數(shù)為采用不同的誤差函數(shù)E及其距離的測(cè)試表達(dá)式,那么有各種不同的NLM方法。不管什么樣的NLM方法,其操作步驟大致為:步1:設(shè)定初始矢量y。從理論上講,y可以任意給定,不妨將線性投影的結(jié)果作為初始矢量y。步2:調(diào)解y的結(jié)構(gòu)使得由新y所產(chǎn)生的誤差比原來(lái)y所產(chǎn)生的誤差要小。由現(xiàn)在的數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換到下一數(shù)據(jù)結(jié)構(gòu)稱為迭代。步3:重復(fù)步2,當(dāng)滿足如下條件之一時(shí)停止迭代:(1)E已到達(dá)預(yù)先給定值;(2)迭代已到達(dá)預(yù)先給定次數(shù);(3)操作者對(duì)現(xiàn)有數(shù)據(jù)結(jié)構(gòu)已滿意。本節(jié)我們主要介紹一下Sammon的NLM算法。令dij*為歐氏距離,即同樣,dij亦為歐氏距離,那么其誤差函數(shù)定義為:在計(jì)算中需不斷調(diào)整在d空間中的n個(gè)矢量,直到E到達(dá)最小值或預(yù)先給定值。也就是說(shuō),當(dāng)E到達(dá)預(yù)定值時(shí),y即為x在d維空間中的轉(zhuǎn)換矢量。誤差函數(shù)E是2n個(gè)獨(dú)立變量yij(i=1,2,…,n;j=1,2)的函數(shù),所以在Sammon的算法中,這2n個(gè)變量必需同時(shí)調(diào)整,以得到新的數(shù)據(jù)結(jié)構(gòu)。為了實(shí)現(xiàn)這一點(diǎn),可以運(yùn)用最陡下降法或單純形法來(lái)求得E的最小值。假設(shè)現(xiàn)在的數(shù)據(jù)結(jié)構(gòu)為:運(yùn)用最陡下降法連續(xù)計(jì)算新矢量這種計(jì)算由如下遞推公式控制:此處α為校正因子,E為相應(yīng)于目前數(shù)據(jù)構(gòu)形的誤差。為yp的一階偏導(dǎo)數(shù)。該組yp’(p=1,2,…,n)將為d空間中新的數(shù)據(jù)構(gòu)形。在每一步迭代中,均需計(jì)算誤差函數(shù)對(duì)yp的一階和二階偏導(dǎo)。其中,一階偏導(dǎo)為:式中即,C為常數(shù),由于由此可得二階偏導(dǎo)為:

p=1,2,…,n§11.8綜合性數(shù)據(jù)例子本章我們介紹了模式識(shí)別中的各類方法,且對(duì)大局部方法已經(jīng)給出了數(shù)字例子。本節(jié)我們給出兩個(gè)比較有代表性的例子,旨在說(shuō)明在解決實(shí)際問(wèn)題中常常需要綜合運(yùn)用多種方法。另外,為了閱讀上的方便,重新給出了計(jì)算中的某些公式。[例1]中國(guó)茶的模式識(shí)別分類[18]從中國(guó)不同地區(qū)取綠茶,紅茶和烏龍茶三類共31個(gè)試樣,一些化學(xué)成分的分析結(jié)果示于表11.21。關(guān)于茶葉質(zhì)量的評(píng)估由有關(guān)專家品嘗而得。1.?dāng)?shù)據(jù)的標(biāo)準(zhǔn)化處理將數(shù)據(jù)陣X(N×M)(N為試樣數(shù);M為變量數(shù))的數(shù)據(jù)元進(jìn)行標(biāo)準(zhǔn)化處理:其中為均值,sm為標(biāo)準(zhǔn)偏差。表11.21三類茶葉試樣化學(xué)分析結(jié)果C1—C7和H1—H5為綠茶;K1—K4,F(xiàn)1—F7為紅茶;T1—T4,S1—S4為烏龍茶,其中C,H,K,F(xiàn),T和S分別表示中國(guó)不同地方之名稱的字頭。2.系統(tǒng)聚類分析試樣間距離采用歐氏距離:類間距離采用Ward算法:上式表示類i與新類(由類j與類k聚合而成)間的距離,其ni表示類i中的試樣數(shù)。系統(tǒng)聚類結(jié)果示于圖11.14。圖11.14茶葉試樣的系統(tǒng)聚類圖3.主成分分析對(duì)于某一試樣i的第k個(gè)主成分PC(yik)為其中tmk為相關(guān)矩陣(M*N)第k個(gè)本征矢量的第m項(xiàng)(相應(yīng)于第m個(gè)變量)。主成分的標(biāo)準(zhǔn)化得分(score)由下式獲得:而主成分的裝載(loading)的數(shù)學(xué)表達(dá)式為:由裝載可以表征原來(lái)變量與主成分間的關(guān)系。得分和裝載的概念可見(jiàn)第五章(即主成分分析和因子分析)。表11.22給出相應(yīng)于頭3個(gè)主成分的裝載,以及本征值

1---

3等。表11.22茶葉數(shù)據(jù)主成分分析結(jié)果表11.22中公因子方差表示相應(yīng)于這幾個(gè)主成分的某一變量所能解釋的偏差量,如纖維素可以解釋98%,多酚可以解釋94%等。對(duì)于某一變量公因子方差等于各主成分裝載的平方加和。由表11.22可見(jiàn),頭三個(gè)本征值能解釋的偏差量為96.6%。另外,還可看出,第一個(gè)主成分與纖維素類(頭三個(gè)變量)均為正相關(guān),而與其它三個(gè)變量均為負(fù)相關(guān)。第二個(gè)主成分對(duì)變量氨基酸最重要,而第三個(gè)主成分對(duì)變量纖維素最重要。圖11.15茶葉三個(gè)主成分的投影圖以主成分1—3張成三維空間,試樣點(diǎn)的投影示于圖11.15,而以主成分1和2為坐標(biāo)的投影示于圖11.16。二圖均可將綠茶、紅茶和烏龍茶三類茶葉清楚地散布在不同的區(qū)域。另外,由圖11.16似乎可以看出,沿著第一個(gè)坐標(biāo)軸的投影表征了茶葉的質(zhì)量,即每一類均是沿著坐標(biāo)1由質(zhì)量?jī)?yōu)良的茶葉到質(zhì)量較差的茶葉。圖11.16茶葉二個(gè)主成分的投影圖4.SIMCA方法分類在SIMCA方法中,對(duì)于每一類q構(gòu)造一主成分模型:假設(shè)在類q中有rq個(gè)主成分,那么其中Zim(q)意義同前,即分別為均值和標(biāo)準(zhǔn)偏差。對(duì)于類q剩余方差為:對(duì)于任一試樣p,主成分得分ypk由下式計(jì)算:其中,Zpm(q)經(jīng)過(guò)標(biāo)準(zhǔn)化處理。此試樣矢量由類模型的預(yù)測(cè)為:而剩余方差為在本例中,按照產(chǎn)地,即C,H,K,F(xiàn),T和S將三類茶葉分為6個(gè)組,對(duì)于每組構(gòu)造一主成分模型。交叉驗(yàn)證的結(jié)果說(shuō)明,每一組的主成分?jǐn)?shù)均為1。圖11.17所示為與綠茶類模型的距離圖。而距離由前述某試樣擬合于類模型時(shí)剩余方差(Sp(q)2)公式計(jì)算。x軸表示與綠茶C組模型的距離,y軸表示與綠茶H組模型的距離。圖中平行于x軸的直線相應(yīng)于H圖11.17距離圖“△〞,C組;“〇〞,H組;“●〞,其他組。組模型的臨界距離,而平行于y軸的直線相應(yīng)于C組模型的臨界距離。臨界距離由F檢驗(yàn)測(cè)得。判斷試樣p該否歸入某類時(shí)的F檢驗(yàn)為:其自由度為M-rq和(nq-rq-1)(M-rq)。當(dāng)計(jì)算值F小于某一顯著水平下查表得到的F值時(shí),試樣應(yīng)歸于某類q。臨界距離即為當(dāng)α=0.05作F檢驗(yàn)滿足上述條件時(shí)的Sp(q)2值。由圖可見(jiàn),所有的試樣均得到了正確分類。與綠茶類同,用同樣的方法可以對(duì)紅茶和烏龍茶進(jìn)行分析。5.質(zhì)量預(yù)測(cè)為了定量預(yù)測(cè)茶葉的質(zhì)量,我們以主成分(PC1)為橫坐標(biāo),以質(zhì)量指數(shù)為縱坐標(biāo),那么綠茶(C組)和紅茶(F組)的回歸直線分別示于圖11.18和圖11.19。圖11.18綠茶質(zhì)量指數(shù)回歸分析圖11.19紅茶質(zhì)量指數(shù)回歸分析其相關(guān)系數(shù)分別為0.997和0.983。對(duì)于綠茶的H組,紅茶的K組和烏龍茶的T組所得結(jié)果類似。但對(duì)于S組,未得到有意義的結(jié)果,因?yàn)镾2,S3和S4對(duì)于主成分1得分幾乎相同。[例2]含氟復(fù)合化合物中Eu2+躍遷發(fā)射的模式識(shí)別研究[17]含氟復(fù)合化合物中摻入稀土元素是一代新型的發(fā)光材料。在作者的實(shí)驗(yàn)室曾經(jīng)進(jìn)行過(guò)含氟復(fù)合物中Eu2+發(fā)射光譜模式識(shí)別的研究。這類化合物的通式為ABmFn,其中A,B分別為某金屬原子,F(xiàn)為氟原子。為了模式識(shí)別研究,我們提取了如表11.23所示的12個(gè)特征。訓(xùn)練集中63個(gè)化合物的這些特征的參數(shù)及其化合物所屬的類列于表11.24。表11.23關(guān)于化合物ABmFn的變量表11.24訓(xùn)練集特征續(xù)表11.246.變量的選擇在模式識(shí)別中,變量的選擇致關(guān)重要,本例中側(cè)重說(shuō)明變量選擇方法的綜合運(yùn)用。(1)方差法變量的方差定義為:此處為試樣j的第i變量。很顯然,V

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論