國外MATLAB文獻(xiàn)已翻譯.doc_第1頁
國外MATLAB文獻(xiàn)已翻譯.doc_第2頁
國外MATLAB文獻(xiàn)已翻譯.doc_第3頁
國外MATLAB文獻(xiàn)已翻譯.doc_第4頁
國外MATLAB文獻(xiàn)已翻譯.doc_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

河 北 工 業(yè) 大 學(xué)畢業(yè)設(shè)計(jì)(論文)外文資料翻譯學(xué) 院: 系(專業(yè)): 姓 名: 學(xué) 號(hào): 外文出處: Pattern Recognition 附 件: 1.外文資料翻譯譯文;2.外文原文。 指導(dǎo)教師評(píng)語: 簽名: 2010 年6 月 日附件1:外文資料翻譯譯文基于沒有交集的主成分模型下的模式識(shí)別方法化學(xué)計(jì)量學(xué)研究組,化學(xué)研究所,umea大學(xué)摘要:通過獨(dú)立的主成分建模方法對(duì)單獨(dú)種類進(jìn)行模式識(shí)別,這一方法我們已經(jīng)進(jìn)行了深刻的研究,主成分的模型說明了單一種類之內(nèi)擬合所有的連續(xù)變量。所以,假如數(shù)據(jù)充足的話,主成分模型的方法可以對(duì)指定的一組樣品中存在的任何模式進(jìn)行識(shí)別,另外,將每一種類中樣品通過獨(dú)立的主成分模型作出擬合,用這種簡(jiǎn)單的方式,可以提供有關(guān)這些變量作為單一變量的相關(guān)性。這些試樣中存在著“離群”,而且不同種類間也有“距離”。我們應(yīng)用經(jīng)典的Fisher鳶尾花數(shù)據(jù)作為例證。1介紹對(duì)于挖掘和使用經(jīng)驗(yàn)數(shù)據(jù)的規(guī)律性,已經(jīng)在像化學(xué)和生物這樣的學(xué)科中成為了首要考慮的因素。在化學(xué)上一個(gè)經(jīng)典的例子就是元素周期表。當(dāng)元素按漸增的原子質(zhì)量排列時(shí),化學(xué)元素特性上的規(guī)律以每8個(gè)為一個(gè)周期的出現(xiàn)。相似的,生物學(xué)家也常按照植物和動(dòng)物形態(tài)學(xué)上的規(guī)律才將其歸類。比如,植物的花朵和葉片的形狀,動(dòng)物兩臂的長度和寬度以及動(dòng)物不同的骨骼等等。數(shù)據(jù)分析方法(通常叫做模式識(shí)別方法),特別的創(chuàng)制用以探知多維數(shù)據(jù)的規(guī)律性。這種方法已在科學(xué)的各分支上得到了廣泛的應(yīng)用。模式識(shí)別中的經(jīng)典問題可系統(tǒng)的陳述如下:指定一些種類,每一類都被定義為一套樣本,訓(xùn)練集和檢驗(yàn)集,還有基于每組樣本的M測(cè)度值,那么是否有可能基于原M值對(duì)新的樣本作出分類呢?我們提出解決這類或相關(guān)問題的許多方法,這些方法也由Kanal和另外一些人回顧過了。 在科學(xué)的分支中,比如化學(xué)和生物中,數(shù)據(jù)分析的范圍往往比僅獲得一組未分類數(shù)據(jù)廣泛,通常上,數(shù)據(jù)分析的目的之一仍然可說是分類,但有時(shí)我們不能確定一個(gè)樣本是否屬于一未知的或未辨明的類別,我們希望不僅去辨別已知種類,還有未知種類。還有一點(diǎn)很重要,數(shù)據(jù)分析方法不能過于強(qiáng)調(diào)種類間的區(qū)別,由于已使用的異變量的介入考慮,兩或多種的區(qū)別是很小或不明顯的。 第二,如果我們把一個(gè)物體按類比的方法看成某一種,我們其實(shí)關(guān)心的是物體的某種特性在此種類中的類比性,而某些特性又沒有。在化學(xué)中,類比模型有著理論上和實(shí)踐上的重要性,而且可以看成是化學(xué)模式識(shí)別方法的早期應(yīng)用。 第三,也許是最重要的一點(diǎn),在化學(xué)和生物應(yīng)用上,我們經(jīng)常關(guān)心某個(gè)種類中數(shù)據(jù)的經(jīng)驗(yàn)描述,以獲取某種的經(jīng)驗(yàn)?zāi)P?,這個(gè)模型可以被用作解釋和說明。比如說,為了構(gòu)建樣本,用已知的合適的特性。 實(shí)際上,基于相似種類,亦即同一種類的樣本的測(cè)度方式是可以得出一般模型的。這些模型可以用來解決問題的一般分類和以及處理上面討論的其他問題。這些是后來證明本文是基于簡(jiǎn)單的泰勒展開式的模型推導(dǎo)。由此產(chǎn)生的模型形式是主成分(PC)的模型。只要在數(shù)據(jù)分析實(shí)驗(yàn)過程中一系列連續(xù)性假設(shè)可以得到滿足,主成分分析模型可以用來描述基于單獨(dú)一組樣本的變量衡量,總模型由一組不相交集的主成分模型;一個(gè)模型對(duì)應(yīng)每個(gè)類。 不相交集的主成分模型已由福永,渡邊等人在模式識(shí)別中應(yīng)用過。由于Karhunen-loeve 擴(kuò)展在模式識(shí)別方法的科學(xué)中常被稱作主成分分析。福永聲望調(diào)查指出,當(dāng)數(shù)據(jù)分析的單一的目的是分類,你可能想放棄模型擬合的方法,而使用組合的特征向量,以最大限度地分辨種類間區(qū)別。福利和桑蒙就按照這種思路,他們的意思就是基于分類的單一目的,構(gòu)建最優(yōu)特征向量組合。 因此,模式識(shí)別的建模方法是不是最有效的分類方法。有些方法是在犧牲效率的優(yōu)勢(shì),獲得各種類的實(shí)證模型,也在建模中防止各種類間的過于獨(dú)立。主成分分析方法有特別的優(yōu)勢(shì),可以近似的類內(nèi)任意連續(xù)的行為,此外,他們?cè)跍y(cè)量空間的線條或超平面的表現(xiàn)形式,這使得他們很容易映射和可視。 本文的目的是在化學(xué)和生物學(xué)中使用了重點(diǎn)模式識(shí)別中的主成分分析方法的。因此,在適應(yīng)條款中從細(xì)節(jié)方面給出了陳述。作為一個(gè)例證,該方法適用于Fisher鳶尾花數(shù)據(jù)。2類模型在模式識(shí)別方面的框架現(xiàn)有研究下模式識(shí)別方法的本質(zhì),承認(rèn)這一事實(shí),即根據(jù)定義在一個(gè)單一的獨(dú)立的類的對(duì)象,存在某種相似的方式。在此相似性的基礎(chǔ)上,一個(gè)數(shù)學(xué)模型,是在相當(dāng)一般的假設(shè)前提上得出。在一個(gè)類描述了樣本的行為,因此,總的數(shù)學(xué)模型,包括為每個(gè)類一個(gè)不相交的模型的集合。通過對(duì)對(duì)象的觀察“已知”分類(這些對(duì)象組成參考集合),在不同的相似性模型的參數(shù)估計(jì)(給定的數(shù)值)。 未分類的對(duì)象,根據(jù)這他們最適合模型去擬合所有的參數(shù)化類模型然后分類。要知道存在這樣的可能性,未分類的樣本可能是一種新的,不適合以前的任何已知的類模型。 因此,模式識(shí)別由兩部分框架組成:數(shù)據(jù)和通過這些數(shù)據(jù)“校準(zhǔn)”相似類別。 2.1數(shù)據(jù)這些數(shù)據(jù)包括測(cè)量變值(索引i)在一個(gè)樣本組的數(shù)目(指數(shù)K)。作為一個(gè)例子,我們將使用包涵150個(gè)樣本的鳶尾花費(fèi)雪的經(jīng)典數(shù)據(jù)。該測(cè)量量包括萼片長度萼片寬度花瓣長度花瓣寬度。此外,我們認(rèn)為樣本必屬于已給定的種類。這些種類通常用對(duì)已知分類中對(duì)象的方法來確定。這些對(duì)象構(gòu)成的參考集,有時(shí)也被稱為訓(xùn)練集(每類1套)。例子中的種類有三種,我們認(rèn)為所有鳶尾花都屬于山鳶尾云芝鳶尾維吉尼亞鳶尾這三類中?;诋?dāng)前的闡述,這些鳶尾花分為兩部分,第一類25個(gè)樣本為訓(xùn)練集和測(cè)試集為(后者25所假定為未知的分類)。另見附表1和2。這些數(shù)據(jù)表示為yik,共同形成尺寸M * N的(圖2)的觀察矩陣Y。在本文章中,這將是假設(shè)的矩陣Y完整,即所有的M個(gè)變量用以衡量全部N個(gè)對(duì)象。這是沒有必要的假設(shè),然而,當(dāng)數(shù)據(jù)丟失,模型也工作,另見第3節(jié)。對(duì)一個(gè)M維向量形式的對(duì)象所作的觀測(cè),可以因此被看作是一個(gè)m維空間中的點(diǎn)代表,這里所謂的測(cè)量空間。2.1.1轉(zhuǎn)化數(shù)據(jù)。理想情況下,變量應(yīng)根據(jù)其相關(guān)加權(quán)考慮特定的分類問題。然而,有關(guān)這方面的資料之前,很少可用。然而,習(xí)慣上轉(zhuǎn)化后的變量,都讓他們平等的權(quán)重(等于方差),所謂數(shù)據(jù)標(biāo)準(zhǔn)化。這可以對(duì)參考集的基礎(chǔ)上或使用所有可用的數(shù)據(jù)實(shí)現(xiàn)。在本例子中的4個(gè)變量的方差是相似的,但是,沒有數(shù)據(jù)的標(biāo)準(zhǔn)化已經(jīng)完成。 如果一個(gè)變量的值的分布是非常不均勻的,例如,大多數(shù)測(cè)量值比較小,但一些非常大,若采取對(duì)數(shù)化或平方根化觀測(cè)值或使用其他特殊轉(zhuǎn)換來修正,可能是不切實(shí)際的。在目前這個(gè)例子來說,沒有進(jìn)行這樣的轉(zhuǎn)變。 2.2相似模型 目前的處理為每個(gè)單獨(dú)的類定義一個(gè)單獨(dú)的模型。因此,讓我們考慮一個(gè)n個(gè)樣本,按照定義,在某些方面是相似的單個(gè)類。在每個(gè)對(duì)象,都對(duì)矩陣Y中數(shù)據(jù)元素yik 測(cè)定了 M的變量的值。如果種類的樣本是相同的,除了由于測(cè)量誤差小偏差值eik所有樣本的變量i的值是相同的。因此,對(duì)于這個(gè)簡(jiǎn)單的例子,在一個(gè)類中的數(shù)據(jù)可通過模型描述。公式一 然而,方程(1)往往是過于的簡(jiǎn)單.基本假設(shè)即在一個(gè)類的對(duì)象是如此相似,他們幾乎是一致的,是實(shí)際上這種情況很少發(fā)生。如果我們另外假設(shè)樣本都稍有不同,第二個(gè)模型得到(見附錄和導(dǎo)附錄1。1)。公式二最后,種類中樣本之間的較大的變化,導(dǎo)致了相似模型(見附件)。公式三可以看出,所有三個(gè)模型(1-3)都分別被0,1和A標(biāo)注作為主成分個(gè)數(shù)。如果現(xiàn)在的對(duì)象來自一系列的種類(下標(biāo)為q),這些數(shù)據(jù)因此可以由一個(gè)不相交的數(shù)量模型描述:公式四對(duì)應(yīng)的單級(jí)模型(1),(2)及(3)分別令A(yù)q為零,一個(gè)或更多. 讓我們進(jìn)一步為每個(gè)類殘余方差設(shè)定限制,q2。單一種類中模型1的幾何表示,是一個(gè)以q為半徑的超球面測(cè)量空間領(lǐng)域(圖3)。這個(gè)簡(jiǎn)單的模型,事實(shí)上,是很多模式識(shí)別很的基礎(chǔ),兩點(diǎn)之間的歐氏距離是兩個(gè)相應(yīng)樣本之間的相異性表征,測(cè)量空間中幾何模型的表示方式(2)是一個(gè)半徑q(圖4)而且模型(3)由更高的容量表示。該模型(4)是僅利用測(cè)量變量和樣本之間的變化上假設(shè)的連續(xù)性獲得的。因此,只要這些假設(shè)能夠?qū)崿F(xiàn),在一個(gè)類中的數(shù)據(jù)不論其結(jié)構(gòu)可以被描述模型(3),如果條件足夠所有主成分都包括在內(nèi)。因此,反過來,模型(4),只要該參考集的數(shù)據(jù)矩陣的維數(shù)足夠大,允許我們對(duì)每組主成分結(jié)果做出估計(jì),在Q類的數(shù)據(jù)會(huì)做出完整的描述。這些特性使模型(4)成為在模式識(shí)別的應(yīng)用中的理想模式,為了得到初步工作方法,沒有太大必要知道每類的數(shù)據(jù)結(jié)構(gòu),沒有什么必要知道各種類間的區(qū)別,為了達(dá)到接近最佳效率,然而,人們通常需要在類中,以驗(yàn)證為單峰這樣的事情,研究樣本量之間的關(guān)系和分類性能;參見佛利(18)和福永(Ref.13, Ch.5)的討論。在參考集中做完參數(shù)估計(jì)后,模型(4)給出基于對(duì)每類中的, 和參數(shù)值方面的參數(shù)化結(jié)構(gòu)。這些值數(shù)就可以,除了以分類目的進(jìn)行普通的使用,還可以用來討論和解釋種類結(jié)構(gòu),種類關(guān)系和結(jié)構(gòu)的差異等。2.2.1在模型中數(shù)據(jù)條款(A)相似性模型(4)分別適應(yīng)到每種類的訓(xùn)練集中.在做這一步前,我們必須以某種方式確定在每個(gè)種類中的數(shù)據(jù)維度。在目前情況下,維數(shù)用樣品的數(shù)目方程(4)中的Aq衡量,對(duì)于這個(gè)問題更廣泛的討論,讀者可以參考福永(Ref.13.Ch.8和10)和凱納(Ref.1.Section)。圖 Fig3 方程(1)分別描述的兩個(gè)種類在二維測(cè)量空間中圖 Fig.4方程(2)分別描述的三個(gè)種類在二維測(cè)量空間中。為包含在該種類中,一個(gè)樣本應(yīng)落在與周圍的代表類模型線寬2q帶中。對(duì)于每個(gè)單獨(dú)的種類,在實(shí)踐中行之有效的現(xiàn)行模式的方法是使用交叉驗(yàn)證技術(shù)(24.25),做法如下:(a) 將樣本分成T組,T大致為5至10組,每組應(yīng)盡可能對(duì)于全體來說具有代表性,在目前的例子中,與每個(gè)參考25集(表1) ,若分成8組,第一組包含樣本1,9,17和25,第二組包含樣本2,10和18日,第三組包含樣本3,11和19等,直到第八組包含對(duì)象8,16和24。(b) 首先將第一組試樣從訓(xùn)練集中除去,并設(shè)降維的數(shù)據(jù)矩陣為Y-,試樣數(shù)為n-.(c) 對(duì)于Y-,應(yīng)用前述單類主成分模型公式(3)去擬合。擬合中依次令A(yù)=0,1,2,直到M-2或n2,取決于二者中小者。 (參見下面2.2.2部分)。(d) 運(yùn)用在(3)中建立的數(shù)學(xué)模型去擬合所除去的試樣。此步中,A=0,1,并且,固定不變。相應(yīng)于每一A值,計(jì)算試樣的偏差ik,由此得到這些偏差平方的加和A。(e) 將所除去的那組試樣重新放回?cái)?shù)據(jù)陣Y。(f) 由數(shù)據(jù)陣Y中除去下一組試樣,從而得到一新的降維數(shù)據(jù)陣Y-,回到步(e).若每一組均被除去一次,則到第(7)步。(g) 對(duì)于每一A值,將A加和得到DA,由(DA-1-DA)/n對(duì)DA/n(M-A-1)作F檢驗(yàn)來判斷A的重要性,從而確定A值。也以此確定最后的主成分?jǐn)?shù)是否具有顯著性,這種方法與之前是完全一樣,使用的F -測(cè)試,以確定在多項(xiàng)式回歸(26)具有最終長遠(yuǎn)意義,它也取決于對(duì)獨(dú)立觀測(cè)間做出的相同的假設(shè)。因此,交叉驗(yàn)證技術(shù)決定了樣本的主成分A數(shù),對(duì)每個(gè)種類來說,使模型(4)的預(yù)測(cè)能力相對(duì)于參考集最大化。圖5顯示了這對(duì)鳶尾花數(shù)據(jù)分析技術(shù)的結(jié)果??梢钥闯?,所有三個(gè)類別的第一部分結(jié)果體現(xiàn)著更好的適應(yīng)性,即數(shù)據(jù)比可以通過簡(jiǎn)單的距離相關(guān)模型(1)描述包含更多的結(jié)構(gòu)。對(duì)于類3第二個(gè)任期相對(duì)于邊境的意義給出了更好的適應(yīng)性。因此,鳶尾花數(shù)據(jù)是由三個(gè)不相交的充分描述一個(gè)成分模型(方程4中的A = 1)。第二主成分(A= 2)也許更能適合種類3。2.2.2估計(jì)模型(4)的參數(shù)值。在模型(4)可使用前,在新的對(duì)象分類中,例如,必須確定從該參考集的數(shù)據(jù),為q = 1, 2, ,Q (Q =種類數(shù))等于參數(shù)值i(q) ia(q) and q2, i= 1,2,.,M(M=變量個(gè)數(shù)),a = 1,2,.Aq(Aq =種類q模型4中的成分?jǐn)?shù))和k = 1,2,.,nq(nq = qth參考集中的樣本數(shù))。 這相當(dāng)于每個(gè)數(shù)據(jù)的參考集矩陣減去平均數(shù)i(q)后得出的主成分估計(jì)。這對(duì)應(yīng)于矩陣對(duì)角化的Z(q)Z(q)+,其中Z(q) 表示的矩陣,是由qth參考集減去每個(gè)變量平均值i(q).Fig.5我們可得到一些實(shí)用的方法,在目前的應(yīng)用中,我更傾向于使用偏最小二乘法(NIPALS),這種方法是一種同時(shí)逐一用迭代法計(jì)算與之相對(duì)應(yīng)的特征向量的特征值的方法(至于數(shù)值的細(xì)節(jié),參見Refs.29.30)。該方法的優(yōu)點(diǎn)是使用交叉驗(yàn)證方法(2.2.1章節(jié))可較好的實(shí)現(xiàn)聯(lián)合,因?yàn)樵谧詈蟮挠?jì)算中,從先前利用作為初始值Y -矩陣計(jì)算出的特征值, 從而融合得非常快。因此,ia ,ak由矩陣Z(q)Z(q)對(duì)角化,由參數(shù)值求得。偏差ik(q)可由Z值減去公式中和的乘積項(xiàng)得到,則方差so(q)2可由下式求得:第一個(gè)求和的是在訓(xùn)練集中樣本數(shù)(nq)做出的,第二個(gè)求和nq在變量數(shù)目的(M )做出的。 因此,為每種類的相似度計(jì)算模型(4)通過訓(xùn)練集中的數(shù)據(jù)被“校正”。 在校正模型可以用于確定新樣本的分類和其他下面問題上。表3給出鳶尾花結(jié)果參數(shù),以一個(gè)主成分將1號(hào)和3號(hào)變量投影到平面上,如圖6所示。 由于系數(shù)矩陣的特征向量性質(zhì),它們很容易理解。該i(q)的值僅僅是第i個(gè)變量為q種類的均值。-向量相互正交,因此是所有-向量在每個(gè)種類間,具有零均值。因此,-變量表示圍繞種類間均值相應(yīng)的變量的變化。為了使該參數(shù)的數(shù)值更容易解釋,有時(shí),特別是當(dāng)許多組分都需要用來描述在同一個(gè)種類中的數(shù)據(jù),由單一矩陣旋轉(zhuǎn)乘法-和-矩陣(分別是M*A 和A*M維數(shù)),是有必要的。這在目前的例子還沒做,有關(guān)詳細(xì)信息,讀者可以參考關(guān)于因子分析的標(biāo)準(zhǔn)文獻(xiàn)。 在鳶尾花的例子中,其中所有的變量是長度或?qū)挾葧r(shí),第一個(gè)向量表達(dá)了相應(yīng)的個(gè)體樣以及第一個(gè)向量在相應(yīng)變量的大小在組內(nèi)變化時(shí)的“比率”。Table 3(a).Table 3(b). 我們可以看到表3(b),底部,第三組中的數(shù)據(jù)在大小的變化上幾乎是兩倍于第一組的。在第三組中,在兩倍大小的增萼片長度(11(3))和花瓣長度31(3)加倍,而在種類一,花瓣長度和寬度的大小幾乎是獨(dú)立的(31(1) and 41(3))。由于這不適合做一個(gè)Fisher的數(shù)據(jù)的詳細(xì)解釋,我將不進(jìn)一步討論這些結(jié)果,給出的例子是足以說明在一類的參數(shù)中如何給出一個(gè)“種類結(jié)構(gòu)”的量化情況。 2.2.3一個(gè)參考集內(nèi)值的分布。 對(duì)于參數(shù)集的每個(gè)樣本,由參考集(類q)的數(shù)據(jù)矩陣對(duì)應(yīng)的模型(4),給出了參數(shù)值ak(q) ,如果我們希望,這些值可以用來確定每個(gè)a(q) 的區(qū)域;為了使未分類的樣本是作為種類內(nèi)成員,較小的殘余方差(種類內(nèi)相同的順序,方程5)應(yīng)在可以接受的區(qū)域內(nèi)隨著相關(guān)參數(shù)取得。然而,以這種方式進(jìn)行一個(gè)新的樣本的分類將變得更復(fù)雜,此外,這個(gè)程序大多數(shù)應(yīng)用中是不必要的。我推薦,根據(jù)2.2.4的擬合,得到簡(jiǎn)單控制后參數(shù)值(ca)。在將未分類鳶尾花數(shù)據(jù)(見下文)分成3類的模型中,一個(gè)參數(shù)值(Ca)落在相應(yīng)范圍加上或減去標(biāo)準(zhǔn)差參見Table 3(b)底部之外被標(biāo)示為“異類數(shù)”(見表2)。當(dāng),比如,3個(gè)種類(見表2)中,這種“異類數(shù)”的樣本34的衡量標(biāo)準(zhǔn)有12個(gè)值。Fig.6.2.2.4將未分類樣本按模型(4)擬合相似模型,包括參數(shù)的值,如上所述,完全由種類間訓(xùn)練集數(shù)據(jù)矩陣確定。如果之后想嘗試檢驗(yàn)特定的對(duì)象(指數(shù)P)符合本類的程度,程序如下:(a) 比如說yip, 將樣本的測(cè)量值向具有相同樣本數(shù)和相同參數(shù)值i(q) and i(q)的模型 (4) 擬合,它們都是從第2.2.2節(jié)中的“校準(zhǔn)模型”得到的。這種擬合對(duì)應(yīng)簡(jiǎn)單的多元線性回歸,即zi = yipi(q) , zi 和ia(q); a=1, 2, , Aq作為獨(dú)立變量。 公式六(b)偏差ip的方差表征試樣p擬合種類q好壞:公式七 如果sp(q)2遠(yuǎn)遠(yuǎn)大于(F檢驗(yàn))參考集得出的標(biāo)準(zhǔn)偏差(公式5),那么樣本p不屬于q組,可以看出,有可能一個(gè)樣本是屬于多個(gè)劃分類別的,在這種情況下觀察到的數(shù)據(jù)不足以唯一確定樣本的所屬種類,也有可能發(fā)現(xiàn)樣本是不屬于任何的種類的,它是一種新型的樣本。 在鳶尾花的例子,每組取出25個(gè)個(gè)體構(gòu)成一個(gè)“測(cè)試”總體,這75個(gè)個(gè)體中任一個(gè)剩余差額(方程7),連同一個(gè)線性判別分析的相應(yīng)結(jié)果,列于表二。可以看出,目前的方法與其他方法相比毫不遜色; 在分析中僅依靠一或兩個(gè)主成分,用目前方法75個(gè)總體中71或者73能夠正確分類,其他兩種方法只能分出70個(gè)。如果所有150個(gè)個(gè)體進(jìn)行分類,目前的分別使用一或兩個(gè)主成分分類方法,能正確分出145和147個(gè),相較于其他兩種方法的145和141。 2.3 兩類間相似度非相似度測(cè)量通過用參考集r中的所有試樣去擬合類q校正模型,反之亦然,則可得到類間的相似度測(cè)量值,根據(jù)方程(8)得出的方差與按公式(5)得出值比較,可得到定量對(duì)比值。在方程(8)中的偏差(ik)通過把參考集r中對(duì)象向類q的相似性模型擬合計(jì)算得出。方差s(q,r)2類似地通過改變指數(shù)r到q獲得,反之亦然。 從鳶尾花數(shù)據(jù)得出的方差值見表4??梢钥闯?,無論是A= 1還是A = 2,都能很好的分離成3類。這兩種情況之間最近的距離是2和3類(2,3和3,2矩陣元素)。第二個(gè)主成分包含的結(jié)果使得第2和第3種類之間的距離略大些。2.4 變量相關(guān)性如果變量數(shù)(M)是3或者更大,我們可以通過比較sy,i2 和以下 se,i2的大小差異獲得每個(gè)變量的解釋能力;也就是說,每個(gè)變量的殘余方差與原始數(shù)據(jù)方差相比。如果數(shù)據(jù)已被自動(dòng)縮放,后者方差(式9)對(duì)所有變量i來說是相同的。公式9 10 11殘余方差和變量i(式12)數(shù)據(jù)方差的之間的比例是越小的,變量i具有越大的解釋力。因此,1- Ui是一個(gè)第i變量的相關(guān)性的衡量水平;相關(guān)性越密切,而且接近零,就具有越小的相關(guān)性。公式12表5顯示了基于鳶尾花例子計(jì)算的參考集中每個(gè)變量殘差和數(shù)據(jù)相關(guān)性。我們可以看出主成分變量1和3的相關(guān)性優(yōu)于變量2和4的。另一種方法來衡量一個(gè)變量的相關(guān)性是研究其差異性的大小。對(duì)于一個(gè)給定的變量i,我們可以,比較在參考集的所有對(duì)象都擬合在除去自己其他所有類別所得變量(1)的殘差,和相同的對(duì)象擬合他們組得到的變量(2)殘差。兩者的殘差的比率將給出多大程度上“正確”和“不正確”的分類。在這,我們將eikr(q)表示擬合屬于種類下標(biāo)為k的樣本后得到的殘差,我們得到Q-1組中每組的snot-class2中的總和,總和值在右側(cè)除以(Q - 1)以修正。鳶尾花數(shù)據(jù)的方程13值如表5所示。我們可以看出對(duì)于主成分1第三變量在差異性大小上更為重要,而對(duì)于主成分2變量的差異性都差不多。 Table 4 5表5。鳶尾花數(shù)據(jù)變量的相關(guān)性的衡量。第一行(1-Ui)表示了類內(nèi)的變量的重要性(見公式12)。第二行,snot-class2/sin-class2,衡量了類間參與分類變量的差異性程度(見公式13)公式13.2.5參考集中的樣本控制度就像研究變量相關(guān)性那樣,我們用同樣的方式,通過對(duì)比每個(gè)變量數(shù)據(jù)的殘差做出研究,變量相關(guān)性可以通過比較每個(gè)對(duì)象(式7)的殘差和整體類的殘差用(F-test)來比較 (式5) ,樣本殘余的方差越小,其相關(guān)性越大,鳶尾花例子參考集中每個(gè)對(duì)象的殘余方差如表1所示。我們可以看出在參考集的對(duì)象都沒有一個(gè)具有反常地高的方差;我們沒有必要剔除任何“異類”。2.6 選擇應(yīng)該指出的是, 上面討論的變量和物體典型性的處理是介于主成分分析的種類框架。一般熵方法以處理同樣的問題為基礎(chǔ)。這些方法由Wong等人研究和完善。他們也給出了其他方法的參考方式,當(dāng)建模方法應(yīng)用不夠有效時(shí),熵方法是很有吸引力的,比如數(shù)據(jù)是離散或定性的。2.7 現(xiàn)有程序總結(jié) 處理模式識(shí)別問題的方法,我建議下列步驟:1 通過分別為參照組繪制直方圖衡量組內(nèi)各變量的貢獻(xiàn)率,非常偏斜的布應(yīng)該改正,例如,采取將變量中觀測(cè)值對(duì)數(shù)化的方法。2 數(shù)據(jù)標(biāo)準(zhǔn)化,以使所有種類中每一變量得到均值是零且方差為一的結(jié)果。3 通過交叉驗(yàn)證(第2.2.1部分,例子Fig.5),估計(jì)用方程式4需要多少主成分?jǐn)?shù) (Aq)來充分地描述每類參考集.如果,存在多于一類間最優(yōu)主成分?jǐn)?shù)不同,然后在下面步驟使用這些“最優(yōu)的” Aq值。如果在鳶尾花數(shù)據(jù)中Aq值都是相同的,對(duì)于一類使用同一值。4 用參考集中Aq值分別擬合的主成分模型 (式4)。 這給出每類的參量 和的值(a=1, Aq) (第2.2.2部分例子在表3)5 由線性回歸方法,用在第四步中固定得到的和值將參考集的所有對(duì)象向所有類模型擬合.殘差將提供關(guān)于類間“距離的”信息(第2.3部分,例子在表4),變量的“相關(guān)性” (第2.4部分,例子在表5)和在參考集對(duì)象之中的可能異類值 (第2.5部分)。6 將測(cè)試集中的所有對(duì)象 (未分類的對(duì)象) 由線性回歸方法向所有類模型擬合,再在第5.步固定的參量和7 每個(gè)對(duì)象的殘余方差將提供關(guān)于其自身“最接近的類的”信息,以衡量這最接近的類是否是足夠接近其屬于能將分類的對(duì)象那類,并且衡量相對(duì)于次接近的種類,是否明顯接近現(xiàn)種類 (第2.2.4部分,例子在表2)如果他們落在每個(gè)種類(第2.2.3部分) “正?!钡膮^(qū)間,我們可以看到每個(gè)對(duì)象和種類回歸系數(shù)Ca(方程6), 如果他們沒有,這是不匹配的征兆。分析這樣結(jié)束。自然地,在實(shí)際案例中,我們由例如轉(zhuǎn)換這樣的周期指示量得出結(jié)果, 下來的周期,排除或包含變量,刪除對(duì)象參考集中等在接。在模式識(shí)別中,每次分析特定問題時(shí)都需要回答這類問題。但是難在當(dāng)前上下文概括地說談?wù)?。因?該方案是標(biāo)準(zhǔn)程序”, 并且在實(shí)際應(yīng)用上,方案上和步驟上期望并且努力得到偏差。3討論在獨(dú)立的對(duì)象,完全分開級(jí)別模型,它可能會(huì)得到一個(gè)非常簡(jiǎn)單的方法仍然強(qiáng)大和模式識(shí)別方法。事實(shí)上,它是可能的,能充分代表任何數(shù)據(jù)(如果這幾個(gè)假設(shè)是實(shí)現(xiàn)由主分量模型)和一些條款,本方法相當(dāng)普遍適用的。(一)該觀測(cè)對(duì)象的數(shù)據(jù)的可以被認(rèn)為是來自一個(gè)持續(xù)兩個(gè)向量變量函數(shù),(二) 參考集中變量和對(duì)象的數(shù)量足以“運(yùn)作”主成分的型。后者的假設(shè)是,以相關(guān)形式對(duì)所有形式的數(shù)據(jù)分析方法。它符合這一假定,參考集數(shù)據(jù)是對(duì)實(shí)際的種類結(jié)構(gòu)具有充分代表性的;如果這一假定不滿足,任何方法分析數(shù)據(jù)將會(huì)失敗。關(guān)于數(shù)據(jù)“連續(xù)性的”第一個(gè)假定似乎很合理的應(yīng)用在自然科學(xué)的許多領(lǐng)域,但不會(huì)滿足于數(shù)據(jù)的“肯定否定”模型。包括的這樣數(shù)據(jù)到現(xiàn)時(shí)方法里未被嘗試,但可能會(huì)因此產(chǎn)生的特殊問題。為了得到一個(gè)近的優(yōu)選地高效率的分類方法,然而,數(shù)據(jù)包含的更多信息應(yīng)該得到最大程度的應(yīng)用,就像由Fukunaga (14)和Foley等(18) 設(shè)計(jì)的方法那樣。本方法不能直接使用信息,因?yàn)椴煌瑓⒖技瘜?duì)象著實(shí)是不同的, 因此,區(qū)別類之間的分離不被夸大。新種類要被引用到我們之前分析過的問題時(shí),這種分離方法的特色是被采用。原模型不需要被重估。我們只需要分析這些數(shù)據(jù)的新的種類,并適合的新的種類到原模型。事實(shí)上,目前的方法能直接對(duì)矩陣的原始數(shù)據(jù)快速地進(jìn)行計(jì)算,沒有什么儲(chǔ)存要求。不需要被計(jì)算和存放與NxN (N-1) /2的距離矩陣元素。用于當(dāng)前方法的模型,即等式(4)與Snee用于分析形狀的模型非常相似.這表明沒有交集的主成分可能還在模式識(shí)別的更經(jīng)典領(lǐng)域的有更好的應(yīng)用,例如識(shí)別手寫書面字符,應(yīng)用中的變量應(yīng)該能使這樣的連續(xù)性假得到很好的滿足,例如各種各樣的字符的橫斷面的長度。Kowalski等人將現(xiàn)時(shí)方法運(yùn)用到油脂數(shù)據(jù).并且發(fā)現(xiàn)結(jié)果很好。另外,當(dāng)前相似性模型(式4中A =1)的也用于模式識(shí)別(群簇分析)的應(yīng)用,其中氣相色譜分析柱填充劑(N=226)根據(jù)他們經(jīng)驗(yàn)主義的相似性(10個(gè)變量)可以被分組。主成分分析方法通常適用之前,有幾個(gè)問題是有待解決的,最為重要的是失蹤的數(shù)據(jù)。也就是說,參考集和測(cè)試集數(shù)據(jù)矩陣是不完整的.由Christoffersson已經(jīng)提出的單一成分模型的估值程序,有可能擴(kuò)展到兩個(gè)成分模型(式4中A =2)。在我們的實(shí)驗(yàn)室,模式識(shí)別方法的開發(fā)基于在沒有交集的種類模型間這些參數(shù)估計(jì)的程序。致謝-大部分當(dāng)前的工作,是當(dāng)我在麥迪遜,威斯康辛大學(xué)的數(shù)據(jù)統(tǒng)計(jì)中心度過的那段愉快的時(shí)光中完成的,我受惠于統(tǒng)計(jì)中心所有成員的熱情的支持和幫助,對(duì)于教授Herman wold,我非常感激他在項(xiàng)目的各個(gè)階段的熱情和有價(jià)值的幫助。調(diào)解員也一直提供了相關(guān)的參考資料,給出了建設(shè)性的批評(píng),讓我受益匪淺。該項(xiàng)目由瑞典自然科學(xué)研究委員會(huì),斯德哥爾摩應(yīng)用數(shù)學(xué)研究所,威斯康辛大學(xué)研究生院贊助的。附錄下面的處理試圖表明,如果有足夠多的主成分個(gè)數(shù),方程(4)可以充分描述源于相似樣本間同一組分內(nèi)樣本測(cè)量值的任何數(shù)據(jù)矩陣.讓我們介紹兩套由矢量變量得到的“微觀”變量,他們是與直接觀測(cè)的測(cè)量、宏觀、變量相區(qū)別的.讓我們進(jìn)一步假設(shè)觀測(cè)變量(y)可以作為微觀變量的函數(shù)。Y=F(z,x)(A1)讓我們最終假設(shè)向量變量已選好z、x,所有觀測(cè)變量間的變化包括在微觀變量z中,所有對(duì)象間的變化包括在向量x中。應(yīng)該指出,總的來說,人們不知道種類內(nèi)不同樣本間哪些微小因素變化做出改變。一般情況下,然而,觀測(cè)數(shù)據(jù)的微觀變量的函數(shù),這一假定是廣為接受的,至少在自然科學(xué)領(lǐng)域.在化學(xué)上,這些微觀變量是電子變量,如電荷分布和旋轉(zhuǎn)的軌道上,空間分布不同,范德華作用力,溶質(zhì)溶劑交互作用,以及更與時(shí)俱進(jìn)的“解釋”化學(xué)系統(tǒng)的行為模式,在生物上,這些變量包括,比如蛋白質(zhì)信息、真空微觀結(jié)構(gòu)形態(tài),單個(gè)蛋白質(zhì),真空膜的微觀結(jié)構(gòu),細(xì)胞內(nèi)化學(xué)平衡在和核酸分子的行為被認(rèn)為適用的宏觀生物系統(tǒng)。如果我們現(xiàn)在開始看到某種類的確定樣本,該識(shí)別意味著所有的對(duì)象的所有元素的x-向量值都有相同的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論