模式識別方法ppt課件_第1頁
模式識別方法ppt課件_第2頁
模式識別方法ppt課件_第3頁
模式識別方法ppt課件_第4頁
模式識別方法ppt課件_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、模式識別理論及其應(yīng)用簡介,Pattern Recognition and its Application,模式識別計算過程示意圖,有監(jiān)督模式識別(判別分析),如果樣本的類別數(shù)是已知的,先用一組已知類別的化合物作為訓練集,建立判別模型,再用建立的模型根據(jù)相似性原則來對未知樣本進行識別,稱為判別分析。判別分析是在事先知道類別特征的情況下建立判別模型對樣本進行識別歸屬,是一種有監(jiān)督模式識別。,無監(jiān)督模式識別(聚類分析),如果預(yù)先不知道樣本的類別,要在學習過程中根據(jù)樣本的相似性對被識別的樣品進行識別分類和歸類,稱為聚類分析。聚類分析是完全依靠樣本自然特性進行識別的方法,是一種無監(jiān)督模式識別。,常用術(shù)語

2、,特征抽提(Feature Extraction) 訓練集(Training Set) 預(yù)報集(Prediction Set) 識別率(Recognition Rate) 預(yù)報能力(Predictive Ability) 留一法(Leaving One Method),注意事項,訓練集的數(shù)據(jù)一定要可靠。 訓練集的樣本數(shù)目要足夠多,樣本數(shù)m與模式空間維數(shù)n 的比值至少應(yīng)滿足m/n3,最好m/n10。 模式空間特征的選擇是成敗的關(guān)鍵,要選取與樣本分類有關(guān)的特征,如果不能包括與分類有關(guān)的主要特征,模式識別就不會有好的效果。,模式識別的數(shù)據(jù)預(yù)處理,特征抽提,模式間相似度的度量,馬氏距離(Mahalan

3、obis Distance),設(shè)Xi ,是從均值為 ,協(xié)方差陣為Z的總體G中的樣本,則它們的馬氏距離為 而Xi與總體G的距離為它與均值 的距離,馬氏距離(Mahalanobis Distance),其中Xi為樣本i所有變量構(gòu)成的p1維向量,Z為關(guān)于p個變量的協(xié)方差陣(pp維)。 當采用主成分得分向量Ti替代Xi時,由于主成分向量正交,Z成為由其方差(特征值)構(gòu)成的對角陣,此時馬氏距離為:,K-Nearest Neighbors Discrimination Method,KNN法的基本假設(shè):“同類樣本在模式空間中相互較靠近” 。,K最近鄰法考查未知樣本點的K個近鄰(K為單數(shù)整數(shù)),若近鄰某一類

4、樣本最多,則可將未知樣本判為該類。 為了進行定量判別,可先找出待分類樣本的最近鄰,并事先約定最近鄰區(qū)域中的訓練集樣本數(shù)。如果只取一個最近鄰樣本點,即樣本數(shù)為,則稱1NN法;如果取個最近鄰樣本點,即樣本數(shù)為2,則稱2NN法;如果樣本數(shù)為K,則稱K近鄰法,簡稱KNN法。,KNN算法,計算未知樣本點和所有訓練集樣本點之間的距離。 從最小距離開始計樣本數(shù),一直計到有K個樣本數(shù)為止,此時所對應(yīng)的距離就為最近鄰的最小距離。 如果在這個最小距離中,距某一類訓練集中的樣本數(shù)多,距離又小,則可將待分類樣本劃到該類中。 優(yōu)點:對數(shù)據(jù)結(jié)構(gòu)無特殊要求,簡單易行,不需要訓練過程。 缺點:未對訓練點進行信息壓縮,每判斷一

5、個點都要將其對所有已知點的距離計算一遍,工作量較大。,簡化的KNN法類重心法,將訓練集中每類樣本點的重心求出,然后判別未知樣本點與各類重心的距離。未知樣本點距哪一類重心距離最近,即未知樣本屬于哪一類。 例:有兩種地層,用7種指標的分析數(shù)據(jù)判別,先從已經(jīng)準確判斷的地層中各取9個樣本,測得的數(shù)據(jù)如下表:,將上表數(shù)據(jù)進行歸一化處理后計算兩 類的重心得: C1=-0.0103,0.0402,-0.0246,0.0166, 0.0313,-0.0246,-0.0174 C2=0.0103,-0.0402,0.0246,-0.0166, -0.0313,0.0246,0.0174 地層I、II的每一個矢量

6、與C1和C2的距 離分別如表a和表b所示:,線性學習機法Linear learning machineLLM,作為模式識別中決策分類的一種方法,該法希望通過某種方法,在模式空間中到找到一個判決面(此面叫做分類器),使不同類的模式點分別位于判別面的兩側(cè)。未知模式的分類可根據(jù)它位于判別面的哪一側(cè)來定。若判別面是一個線性超平面,就叫線性分類器。,例:現(xiàn)有甲狀腺病人(記為類1)和正常人(記為類2)各10例,分別測試5項功能指標,測試結(jié)果見表a和表b所示。以每一類的前8個 樣本作為訓練集(表a),后2個作為測試集(表b)。用LLM法對其進行判別。,基于主成分對近紅外光譜進行discrimination

7、analysis的方法原理,對建模樣品的近紅外光譜進行主成分分析,將原來上千個波長點下的近紅外吸光值壓縮為m個主成分得分來表示; 計算每一類樣品在主成分坐標系(即載荷軸、特征向量,又叫主成分光譜)下的類重心坐標; 求每個樣品到每一類重心的馬氏距離,距哪一類馬氏距離最小,該樣品就歸哪一類。,無監(jiān)督模式識別法,不需要訓練集,對所研究的模式進行適當分類的問題則需要用無監(jiān)督模式識別方法,這類模式識別方法又叫聚類分析法(clustering analysis method)。,常用聚類分析方法有: 分級聚類分析法Hierarchical clustering methods 最?。ù螅┥蓸浞∕inim

8、un(Max) Spanning Tree Method K均值聚類法K-means Clustering Method 模糊聚類法Fuzzy clustering method PCA投影分類法等等,1 基于PCA的聚類分析法,因為 X =USVt 即XV=US 亦即XV= v1, v2,., vA = US 可見矩陣US=T (亦稱非標準化的得分矩陣) 的每一個元素實際是每一個樣本向量xit(i=1,2,.,n)對荷載矩陣V中的每一相互正交的荷載矢量上的投影坐標(內(nèi)積本質(zhì)上就是投影),它反映了樣本與樣本之間的相互關(guān)系; 同理可得,載荷矩陣的每一個元素實際是每一個變量向量xj(j=1,2,.

9、,d)對得分矩陣中的每一相互正交的得分矢量上的投影坐標,它反映了變量與變量之間的相互關(guān)系。,主成分分析的數(shù)學與幾何意義示意圖,Projection discrimination based onprincipal component analysis,2基于相似統(tǒng)計量的分類方法,(1) 一次計算形成法 該法根據(jù)相似矩陣直接按相似性的大小連接成圖。 首先選出最相似的一對樣本,連接成組,并隨時 把有關(guān)連接順序、被連接的樣品號和相似性水平 記入連接順序表中,連接完一對樣本后,再選擇 相似性大的一對,如此依次進行,直到把所有點 都聚合為一群并得到一個連接順序表,根據(jù)該表 作出分類譜系圖。,i) 若選出

10、的一對樣本在已形成的組中均未出現(xiàn)過,則將它們形成一個獨立的新組。 ii) 若選出的一對樣本中有一個在已經(jīng)分好的組中出現(xiàn)過,則把另一個樣品加入該組中。 iii) 若選出的兩對樣品都分別出現(xiàn)在兩個組中,則把這兩個組合并為一個組。 iv) 若選出的一對樣品都在同一組中則不需再分組。,某銅鎳礦床樣品的聚類分析譜系圖,(2)最大生成樹法Largest Spanning Tree Method,上圖點與點之間的數(shù)據(jù)叫作路徑強度,表示兩樣本點間的相似程度。如果一個路徑的起點與終點重合,稱這條路徑構(gòu)成一個回路,對于圖中砍去某些邊得到的樹叫生成樹。若某生成樹所有路徑的強度都大于或等于其它生成樹的路徑強度,則稱此

11、生成樹為最大生成樹。 只要找到相似關(guān)圖的最大生成樹,就可以根據(jù)最大生成樹進行模糊聚類分析,其分類準則是:對于規(guī)定的閾值水平,路徑強度大于的頂點可歸為一類。,根據(jù)最大生成樹進行聚類分析的方法如下: (1)先連接路徑強度最大的兩點,然后連接路徑強度次大的兩點; (2)繼續(xù)連接所剩下點的最大路徑強度的兩點,直到所有的點都被連接; (3)對連接所得到的樹進行檢查,找到最小路徑的邊,將其割斷就得到兩類,如此繼續(xù)分割,直至類數(shù)已達到所要分的類數(shù)。,模式識別在分析化學中的應(yīng)用,譜圖解析 理想的譜圖解析方法是徹底弄清各種譜圖產(chǎn)生的機理,從理論上完成從實測譜圖到化學成分、分子結(jié)構(gòu)、化學鍵等化學信息的變換。但實際

12、上很難完全做到這點。 譜圖數(shù)據(jù)的急劇增加使得單憑少數(shù)有經(jīng)驗的專家來做譜圖解析已不能滿足需要。,計算機圖譜解析技術(shù): (1)數(shù)據(jù)庫圖譜顯示方法將大量已知化合物的圖譜存入數(shù)據(jù)庫,通過檢索的方祛來識別譜圖。 (2)模式識別法利用已知譜圖作訓練集,對未知物的譜圖作分類、鑒別以至結(jié)構(gòu)測定等等(例如近紅外儀軟件中的定性分析軟件)。,模式識別方法有某種“舉一反三”的功能, 能從大量已知化合物圖譜抽提具有較普遍意 義的規(guī)律,用來對未知化合物的譜圖分類。 這使得模式識別方法在譜圖解析、分析化學、 結(jié)構(gòu)確定等方面有重要的實際意義。 迄今為止,質(zhì)譜、原子光譜、紅外光譜、核 磁共振譜、射線譜、色譜、極譜等的譜圖 識別都已用了模式識別方法,不同程度地收 到效果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論