




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
模式識(shí)別理論及其應(yīng)用簡介
PatternRecognitionanditsApplication模式識(shí)別計(jì)算過程示意圖有監(jiān)督模式識(shí)別(判別分析)如果樣本的類別數(shù)是已知的,先用一組已知類別的化合物作為訓(xùn)練集,建立判別模型,再用建立的模型根據(jù)相似性原則來對(duì)未知樣本進(jìn)行識(shí)別,稱為判別分析。判別分析是在事先知道類別特征的情況下建立判別模型對(duì)樣本進(jìn)行識(shí)別歸屬,是一種有監(jiān)督模式識(shí)別。無監(jiān)督模式識(shí)別(聚類分析)如果預(yù)先不知道樣本的類別,要在學(xué)習(xí)過程中根據(jù)樣本的相似性對(duì)被識(shí)別的樣品進(jìn)行識(shí)別分類和歸類,稱為聚類分析。聚類分析是完全依靠樣本自然特性進(jìn)行識(shí)別的方法,是一種無監(jiān)督模式識(shí)別。
常用術(shù)語特征抽提(FeatureExtraction)訓(xùn)練集(TrainingSet)預(yù)報(bào)集(PredictionSet)識(shí)別率(RecognitionRate)預(yù)報(bào)能力(PredictiveAbility)
留一法(LeavingOneMethod)注意事項(xiàng)①
訓(xùn)練集的數(shù)據(jù)一定要可靠。②
訓(xùn)練集的樣本數(shù)目要足夠多,樣本數(shù)m與模式空間維數(shù)n的比值至少應(yīng)滿足m/n≥3,最好m/n≥10。③
模式空間特征的選擇是成敗的關(guān)鍵,要選取與樣本分類有關(guān)的特征,如果不能包括與分類有關(guān)的主要特征,模式識(shí)別就不會(huì)有好的效果。模式識(shí)別的數(shù)據(jù)預(yù)處理
特征抽提模式間相似度的度量馬氏距離(MahalanobisDistance)
設(shè)Xi,是從均值為,協(xié)方差陣為Z的總體G中的樣本,則它們的馬氏距離為而Xi與總體G的距離為它與均值的距離馬氏距離(MahalanobisDistance)
其中Xi為樣本i所有變量構(gòu)成的p×1維向量,Z為關(guān)于p個(gè)變量的協(xié)方差陣(p×p維)。當(dāng)采用主成分得分向量Ti替代Xi時(shí),由于主成分向量正交,Z成為由其方差(特征值)構(gòu)成的對(duì)角陣,此時(shí)馬氏距離為:K-NearestNeighborsDiscriminationMethodKNN法的基本假設(shè):“同類樣本在模式空間中相互較靠近”。K最近鄰法考查未知樣本點(diǎn)的K個(gè)近鄰(K為單數(shù)整數(shù)),若近鄰某一類樣本最多,則可將未知樣本判為該類。
為了進(jìn)行定量判別,可先找出待分類樣本的最近鄰,并事先約定最近鄰區(qū)域中的訓(xùn)練集樣本數(shù)。如果只取一個(gè)最近鄰樣本點(diǎn),即樣本數(shù)為1,則稱1NN法;如果?。矀€(gè)最近鄰樣本點(diǎn),即樣本數(shù)為2,則稱2NN法;如果樣本數(shù)為K,則稱K近鄰法,簡稱KNN法。KNN算法計(jì)算未知樣本點(diǎn)和所有訓(xùn)練集樣本點(diǎn)之間的距離。從最小距離開始計(jì)樣本數(shù),一直計(jì)到有K個(gè)樣本數(shù)為止,此時(shí)所對(duì)應(yīng)的距離就為最近鄰的最小距離。如果在這個(gè)最小距離中,距某一類訓(xùn)練集中的樣本數(shù)多,距離又小,則可將待分類樣本劃到該類中。優(yōu)點(diǎn):對(duì)數(shù)據(jù)結(jié)構(gòu)無特殊要求,簡單易行,不需要訓(xùn)練過程。缺點(diǎn):未對(duì)訓(xùn)練點(diǎn)進(jìn)行信息壓縮,每判斷一個(gè)點(diǎn)都要將其對(duì)所有已知點(diǎn)的距離計(jì)算一遍,工作量較大。
簡化的KNN法—類重心法將訓(xùn)練集中每類樣本點(diǎn)的重心求出,然后判別未知樣本點(diǎn)與各類重心的距離。未知樣本點(diǎn)距哪一類重心距離最近,即未知樣本屬于哪一類。例:有兩種地層,用7種指標(biāo)的分析數(shù)據(jù)判別,先從已經(jīng)準(zhǔn)確判斷的地層中各取9個(gè)樣本,測(cè)得的數(shù)據(jù)如下表:
將上表數(shù)據(jù)進(jìn)行歸一化處理后計(jì)算兩類的重心得:C1=[-0.0103,0.0402,-0.0246,0.0166,0.0313,-0.0246,-0.0174]′C2=[0.0103,-0.0402,0.0246,-0.0166,-0.0313,0.0246,0.0174]′地層I、II的每一個(gè)矢量與C1和C2的距離分別如表a和表b所示:
線性學(xué)習(xí)機(jī)法
Linearlearningmachine—LLM
作為模式識(shí)別中決策分類的一種方法,該法希望通過某種方法,在模式空間中到找到一個(gè)判決面(此面叫做分類器),使不同類的模式點(diǎn)分別位于判別面的兩側(cè)。未知模式的分類可根據(jù)它位于判別面的哪一側(cè)來定。若判別面是一個(gè)線性超平面,就叫線性分類器。
例:現(xiàn)有甲狀腺病人(記為類1)和正常人(記為類2)各10例,分別測(cè)試5項(xiàng)功能指標(biāo),測(cè)試結(jié)果見表a和表b所示。以每一類的前8個(gè)
樣本作為訓(xùn)練集(表a),后2個(gè)作為測(cè)試集(表b)。用LLM法對(duì)其進(jìn)行判別。
基于主成分對(duì)近紅外光譜進(jìn)行discriminationanalysis的方法原理對(duì)建模樣品的近紅外光譜進(jìn)行主成分分析,將原來上千個(gè)波長點(diǎn)下的近紅外吸光值壓縮為m個(gè)主成分得分來表示;計(jì)算每一類樣品在主成分坐標(biāo)系(即載荷軸、特征向量,又叫主成分光譜)下的類重心坐標(biāo);求每個(gè)樣品到每一類重心的馬氏距離,距哪一類馬氏距離最小,該樣品就歸哪一類。無監(jiān)督模式識(shí)別法
不需要訓(xùn)練集,對(duì)所研究的模式進(jìn)行適當(dāng)分類的問題則需要用無監(jiān)督模式識(shí)別方法,這類模式識(shí)別方法又叫聚類分析法(clusteringanalysismethod)。常用聚類分析方法有:分級(jí)聚類分析法—Hierarchicalclusteringmethods最?。ù螅┥蓸浞ā狹inimun(Max)SpanningTreeMethodK均值聚類法—K-meansClusteringMethod模糊聚類法—FuzzyclusteringmethodPCA投影分類法等等1
基于PCA的聚類分析法因?yàn)閄=USVt
即XV=US亦即XV=[v1,v2,...,vA]
==US可見矩陣US=T(亦稱非標(biāo)準(zhǔn)化的得分矩陣)的每一個(gè)元素實(shí)際是每一個(gè)樣本向量xit(i=1,2,...,n)對(duì)荷載矩陣V中的每一相互正交的荷載矢量上的投影坐標(biāo)(內(nèi)積本質(zhì)上就是投影),它反映了樣本與樣本之間的相互關(guān)系;同理可得,載荷矩陣的每一個(gè)元素實(shí)際是每一個(gè)變量向量xj(j=1,2,...,d)對(duì)得分矩陣中的每一相互正交的得分矢量上的投影坐標(biāo),它反映了變量與變量之間的相互關(guān)系。
主成分分析的數(shù)學(xué)
與幾何意義示意圖Projectiondiscriminationbasedon
principalcomponentanalysis2
基于相似統(tǒng)計(jì)量的分類方法(1)一次計(jì)算形成法
該法根據(jù)相似矩陣直接按相似性的大小連接成圖。首先選出最相似的一對(duì)樣本,連接成組,并隨時(shí)把有關(guān)連接順序、被連接的樣品號(hào)和相似性水平記入連接順序表中,連接完一對(duì)樣本后,再選擇相似性大的一對(duì),如此依次進(jìn)行,直到把所有點(diǎn)都聚合為一群并得到一個(gè)連接順序表,根據(jù)該表作出分類譜系圖。
i)若選出的一對(duì)樣本在已形成的組中均未出現(xiàn)過,則將它們形成一個(gè)獨(dú)立的新組。ii)若選出的一對(duì)樣本中有一個(gè)在已經(jīng)分好的組中出現(xiàn)過,則把另一個(gè)樣品加入該組中。iii)
若選出的兩對(duì)樣品都分別出現(xiàn)在兩個(gè)組中,則把這兩個(gè)組合并為一個(gè)組。iv)若選出的一對(duì)樣品都在同一組中則不需再分組。
某銅鎳礦床樣品的聚類分析譜系圖
(2)最大生成樹法
LargestSpanningTreeMethod上圖點(diǎn)與點(diǎn)之間的數(shù)據(jù)叫作路徑強(qiáng)度,表示兩樣本點(diǎn)間的相似程度。如果一個(gè)路徑的起點(diǎn)與終點(diǎn)重合,稱這條路徑構(gòu)成一個(gè)回路,對(duì)于圖中砍去某些邊得到的樹叫生成樹。若某生成樹所有路徑的強(qiáng)度都大于或等于其它生成樹的路徑強(qiáng)度,則稱此生成樹為最大生成樹。只要找到相似關(guān)圖的最大生成樹,就可以根據(jù)最大生成樹進(jìn)行模糊聚類分析,其分類準(zhǔn)則是:對(duì)于規(guī)定的閾值水平
,路徑強(qiáng)度大于
的頂點(diǎn)可歸為一類。根據(jù)最大生成樹進(jìn)行聚類分析的方法如下:(1)先連接路徑強(qiáng)度最大的兩點(diǎn),然后連接路徑強(qiáng)度次大的兩點(diǎn);(2)繼續(xù)連接所剩下點(diǎn)的最大路徑強(qiáng)度的兩點(diǎn),直到所有的點(diǎn)都被連接;(3)對(duì)連接所得到的樹進(jìn)行檢查,找到最小路徑的邊,將其割斷就得到兩類,如此繼續(xù)分割,直至類數(shù)已達(dá)到所要分的類數(shù)。
模式識(shí)別在分析化學(xué)中的應(yīng)用譜圖解析
理想的譜圖解析方法是徹底弄清各種譜圖產(chǎn)生的機(jī)理,從理論上完成從實(shí)測(cè)譜圖到化學(xué)成分、分子結(jié)構(gòu)、化學(xué)鍵等化學(xué)信息的變換。但實(shí)際上很難完全做到這點(diǎn)。譜圖數(shù)據(jù)的急劇增加使得單憑少數(shù)有經(jīng)驗(yàn)的專家來做譜圖解析已不能滿足需要。計(jì)算機(jī)圖譜解析技術(shù):(1)數(shù)據(jù)庫圖譜顯示方法—將大量已知化合物的圖譜存入數(shù)據(jù)庫,通過檢索的方祛來識(shí)別譜圖。(2)模式識(shí)別法—利用已知譜圖作訓(xùn)練集,對(duì)未知物的譜圖作分類、鑒別以至結(jié)構(gòu)測(cè)定等等(例如近紅外儀軟件中的定性分析軟件)。
模式識(shí)別方法有某種“舉一反三”的功能,能從大量已知化合物圖譜抽提具有較普遍意義的規(guī)律,用來對(duì)未知化合物的譜圖分類。這使得模式識(shí)別方法在譜圖解析、分析化學(xué)、結(jié)構(gòu)確定等方面有重要的實(shí)際意義。迄今為止,質(zhì)譜、原子光譜、紅外光譜、核磁共振譜、γ射線譜、色譜、極譜等的譜圖識(shí)別都已用了模式識(shí)別方法,不同程度地收到效果。這方面的研究工作是現(xiàn)代分析化學(xué)的前沿課題之一。(3)模式識(shí)別在核磁共振譜解析中的應(yīng)用
用1H-NMR譜按2.5Hz區(qū)段(總頻率范圍0~500Hz)取200個(gè)模式向量的分量用于識(shí)別分子結(jié)構(gòu)。用模擬的NMR譜演示線性分類法識(shí)別乙基、正丙基和異丙基等基團(tuán)。但用99個(gè)NMR譜作線性判別函數(shù)分類時(shí),因線性可分,預(yù)報(bào)能力僅45%。改用K最近鄰法則分類結(jié)果大有改進(jìn),預(yù)報(bào)能力達(dá)93%。
9、春去春又回,新桃換舊符。在那桃花盛開的地方,在這醉人芬芳的季節(jié),愿你生活像春天一樣陽光,心情像桃花一樣美麗,日子像桃子一樣甜蜜。3月-253月-25Sunday,March9,202510、人的志向通常和他們的能力成正比例。10:59:1010:59:1010:593/9/202510:59:10AM11、夫?qū)W須志也,才須學(xué)也,非學(xué)無以廣才,非志無以成學(xué)。3月-2510:59:1010:59Mar-2509-Mar-2512、越是無能的人,越喜歡挑剔別人的錯(cuò)兒。10:59:1010:59:1010:59Sunday,March9,202513、志不立,天下無可成之事。3月-253月-2510:59:1010:59:10March9,202514、ThankyouverymuchfortakingmewithyouonthatsplendidoutingtoLondon.ItwasthefirsttimethatIhadseentheToweroranyoftheotherfamoussights.IfI'dgonealone,Icouldn'thaveseennearlyasmuch,becauseIwouldn'thaveknownmywayabout.。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中考英語模刷題擬試卷(含答案)
- 電力電纜敷設(shè)施工方案
- 別墅裝修保潔合同范例
- 代理酒類合同范本
- 個(gè)人租房合同范例乙方版本
- 物流行業(yè)安全運(yùn)輸監(jiān)管方案計(jì)劃
- 師生互動(dòng)提升計(jì)劃
- 親子溝通與情感交流計(jì)劃
- 中學(xué)教育教學(xué)創(chuàng)新計(jì)劃
- 《貴州新仁新能源科技有限公司貴州省六枝特區(qū)大壩螢石礦(新建)礦產(chǎn)資源綠色開發(fā)利用方案(三合一)》評(píng)審意見
- 建筑架子工(普通架子工)??荚囶}+參考答案
- 2024年消防月全員消防安全知識(shí)培訓(xùn)
- 出租車駕駛員從業(yè)資格證考試題庫500道題
- 口腔綜合治療臺(tái)用水衛(wèi)生管理規(guī)范
- 年產(chǎn)2500噸苯并三氮唑、2000噸甲基苯并三氮唑技改項(xiàng)目竣工環(huán)保驗(yàn)收監(jiān)測(cè)調(diào)查報(bào)告
- 高三英語語法填空專項(xiàng)訓(xùn)練100(附答案)及解析
- 《人力資源管理》全套教學(xué)課件
- 貴州大學(xué)新型智庫建設(shè)實(shí)施方案
- 項(xiàng)目一任務(wù)一《家宴菜單設(shè)計(jì)》課件浙教版初中勞動(dòng)技術(shù)八年級(jí)下冊(cè)
- 食品安全自查、從業(yè)人員健康管理、進(jìn)貨查驗(yàn)記錄、食品安全事故處置保證食品安全規(guī)章制度
- 重點(diǎn)流域水環(huán)境綜合治理中央預(yù)算內(nèi)項(xiàng)目申報(bào)指南
評(píng)論
0/150
提交評(píng)論