PCA算法的原理及其示例.doc_第1頁(yè)
PCA算法的原理及其示例.doc_第2頁(yè)
PCA算法的原理及其示例.doc_第3頁(yè)
PCA算法的原理及其示例.doc_第4頁(yè)
PCA算法的原理及其示例.doc_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余2頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

PCA算法的原理及其示例鄭琛(北京師范大學(xué),北京 100875)摘要:主成分分析是一種掌握事物主要矛盾的統(tǒng)計(jì)分析方法,它可以從多元事物中解析出主要影響因素,揭示事物的本質(zhì),簡(jiǎn)化復(fù)雜的問(wèn)題,對(duì)于某些復(fù)雜數(shù)據(jù)就可應(yīng)用主成分分析法對(duì)其進(jìn)行簡(jiǎn)化。計(jì)算主成分的目的是將高維數(shù)據(jù)投影到較低維空間。文中介紹了PCA算法的基本概念和基本原理,利用算法在降維和特征提取方面的有效性,結(jié)合人臉識(shí)別的實(shí)例進(jìn)行詳細(xì)的闡述。關(guān)鍵字:主成分分析;數(shù)據(jù)降維;特征提取1、 PCA算法的基本概念 PCA是Principal component analysis的縮寫,中文翻譯為主成分分析。主成分又稱主分量、主元素。它是研究如何通過(guò)原來(lái)變量的少數(shù)幾個(gè)線性組合來(lái)解釋隨機(jī)向量的方差-協(xié)方差結(jié)構(gòu),是數(shù)據(jù)壓縮和特征提取中一種多維向量的統(tǒng)計(jì)分析方法1。這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu),去除噪音2和冗余,將原有的復(fù)雜數(shù)據(jù)降維,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu)。它的優(yōu)點(diǎn)是簡(jiǎn)單,而且無(wú)參數(shù)限制,可以方便的應(yīng)用與各個(gè)場(chǎng)合。因此應(yīng)用極其廣泛,從神經(jīng)科學(xué)到計(jì)算機(jī)圖形學(xué)都有它的用武之地。被譽(yù)為應(yīng)用線形代數(shù)最有價(jià)值的結(jié)果之一。2、 PCA算法的原理與基本思想 PCA算法的原理是設(shè)法將原來(lái)變量重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的總和變量盡可能多地反映原來(lái)變量的信息的統(tǒng)計(jì)的方法,也是數(shù)學(xué)上處理降維的一種方法。 PCA算法的基本思想是設(shè)法將原來(lái)眾多具有一定相關(guān)性(比如P個(gè)指標(biāo)),重新組合成一組新的互相無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)的指標(biāo)。通常數(shù)學(xué)上的處理就是將原來(lái)P個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。典型的做法就是用F1(選取的第一個(gè)線性組合,即第一個(gè)綜合指標(biāo))的方差來(lái)表達(dá),即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱 F1為第一主成分。如果第一主成分不足以代表原來(lái)P個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)線性組合,為了有效地反映原來(lái)信息,F(xiàn)1已有的信息就不需要再出現(xiàn)再F2中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要求Cov(F1,F(xiàn)2)=0,則稱F2為第二主成分,以此類推可以構(gòu)造出第三、第四,.,第P個(gè)主成分。應(yīng)當(dāng)注意,主成分分析本身往往并不是目的,而是達(dá)到目的的一種手段,因此,它多用在大型研究項(xiàng)目的某個(gè)中間環(huán)節(jié)。如把它用在多重回歸,便產(chǎn)生了主成分回歸,這種回歸具有優(yōu)良性質(zhì),另外,它在壓縮、特征提取及分類應(yīng)用中非常有用。3、 PCA求解的一般步驟PCA求解:特征方程的根在線形代數(shù)中,PCA問(wèn)題可以描述成以下形式:尋找一組正交基組成的矩陣P,有Y=PX,使得CYYYT是對(duì)角陣。則P的行向量(也就是一組正交基),就是數(shù)據(jù)X的主元向量。對(duì)CY進(jìn)行推導(dǎo): CY=YYT=(PX)(PX)T=PXXTPT=P(XXT)PT CY=PAPT定義AXXT,則A是一個(gè)對(duì)稱陣。對(duì)A進(jìn)行對(duì)角化求取特征向量得:A=EDET則D是一個(gè)對(duì)角陣,而E則是對(duì)稱陣A的特征向量排成的矩陣。這里要提出的一點(diǎn)是,A是一個(gè)mm的矩陣,而它將有r(rm)個(gè)特征向量。其中r是矩陣A的秩。如果rm,則A即為退化陣。此時(shí)分解出的特征向量不能覆蓋整個(gè)m空間。此時(shí)只需要在保證基的正交性的前提下,在剩余的空間中任意取得m-r維正交向量填充R的空格即可。它們將不對(duì)結(jié)果造成影響。因?yàn)榇藭r(shí)對(duì)應(yīng)于這些特征向量的特征值,也就是方差值為零。求出特征向量矩陣后我們?nèi)-ET,則A=PTDP,由線形代數(shù)可知P矩陣有性質(zhì)P-1=PT,從而進(jìn)行如下計(jì)算: CY=PAPT=P(PTDP)PT=(PPT)D(PPT)=(PP-1)D(PP-1) CY=D可知此時(shí)的P就是我們需要求得變換基。至此我們可以得到PCA的結(jié)果:X的主元即是XXT的特征向量,也就是矩陣P的行向量。矩陣CY對(duì)角線上第i個(gè)元素是數(shù)據(jù)X在方向Pi的方差。我們可以得到PCA求解的一般步驟:1)采集數(shù)據(jù)形成mn的矩陣。m為觀測(cè)變量個(gè)數(shù),n為采樣點(diǎn)個(gè)數(shù)。2)在每個(gè)觀測(cè)變量(矩陣行向量)上減去該觀測(cè)變量的平均值得到矩陣X。3)對(duì)XXT進(jìn)行特征分解,求取特征向量以及所對(duì)應(yīng)的特征根。四、舉例說(shuō)明基于PCA算法的人臉識(shí)別PCA方法由于其在降維和特征提取方面的有效性,在人臉識(shí)別領(lǐng)域得到了廣泛的應(yīng)用。PCA方法的基本原理是:利用K-L變換3抽取人臉的主要成分,構(gòu)成特征臉空間,識(shí)別時(shí)將測(cè)試圖像投影到此空間,得到一組投影系數(shù),通過(guò)與各個(gè)人臉圖像比較進(jìn)行識(shí)別。利用特征臉?lè)ㄟM(jìn)行人臉識(shí)別的過(guò)程由訓(xùn)練階段和識(shí)別階段兩個(gè)階段組成。其具體步驟如下:訓(xùn)練階段第一步:假設(shè)訓(xùn)練集有200個(gè)樣本,由灰度圖組成,每個(gè)樣本大小為M*N,寫出訓(xùn)練樣本矩陣:其中向量xi為由第i個(gè)圖像的每一列向量堆疊成一列的MN維列向量,即把矩陣向量化,如下圖所示:如:第i個(gè)圖像矩陣為則xi為第二步:計(jì)算平均臉4 計(jì)算訓(xùn)練圖片的平均臉:第三步:計(jì)算差值臉 計(jì)算每一張人臉與平均臉的差值:第四步:構(gòu)建協(xié)方差矩陣第五步:求協(xié)方差矩陣的特征值和特征向量,構(gòu)造特征臉空間協(xié)方差矩陣的維數(shù)為MN*MN,考慮其維數(shù)較大,計(jì)算量比較大,所以采用奇異值分解(SingularValue Decomposition ,SVD)定理5,通過(guò)求解AT A的特征值和特征向量來(lái)獲得AAT的特征值和特征向量。求出AT A的特征值 及其正交歸一化特征向量根據(jù)特征值的貢獻(xiàn)率選取前p個(gè)最大特征向量及其對(duì)應(yīng)的特征向量貢獻(xiàn)率是指選取的特征值的和與占所有特征值的和比,即:一般取 即使訓(xùn)練樣本在前p個(gè)特征向量集上的投影有99%的能量求出原協(xié)方差矩陣的特征向量則“特征臉”空間為:第六步 將每一幅人臉與平均臉的差值臉矢量投影到“特征臉”空間,即識(shí)別階段第一步:將待識(shí)別的人臉圖像 與平均臉的差值臉投影到特征空間,得到其特征向量表示:第二步:定義閾值第三步:采用歐式距離來(lái)計(jì)算 與每個(gè)人臉的距離為了區(qū)分人臉和非人臉,還需要計(jì)算原始圖像 與由特征臉空間重建的圖像 之間的距離其中:根據(jù)以下規(guī)則對(duì)人臉進(jìn)行分類:1)若 ,則輸入圖像不是人臉圖像;2)若 ,且 , 則輸入圖像包含未知人臉;3)若 ,且 , 則輸入圖像為庫(kù)中第k個(gè)人的人臉。五、結(jié)束語(yǔ) PCA技術(shù)的一大好處是對(duì)數(shù)據(jù)進(jìn)行降維的處理。我們可以對(duì)新求出的“主元”向量的重要性進(jìn)行排序,根據(jù)需要取前面最重要的部分,將后面的維數(shù)省去,可以達(dá)到降維從而簡(jiǎn)化模型或是對(duì)數(shù)據(jù)進(jìn)行壓縮的效果。同時(shí)最大程度的保持了原有數(shù)據(jù)的信息。 在前文的例子中,經(jīng)過(guò)PCA處理后的數(shù)據(jù)只剩下了一維,也就是彈簧運(yùn)動(dòng)的那一維,從而去除了冗余的變量,揭示了實(shí)驗(yàn)數(shù)據(jù)背后的物理原理。PCA技術(shù)的一個(gè)很大的優(yōu)點(diǎn)是,它是完全無(wú)參數(shù)限制的。在PCA的計(jì)算過(guò)程中完全不需要人為的設(shè)定參數(shù)或是根據(jù)任何經(jīng)驗(yàn)?zāi)P蛯?duì)計(jì)算進(jìn)行干預(yù),最后的結(jié)果只與數(shù)據(jù)相關(guān),與用戶是獨(dú)立的。但是,這一點(diǎn)同時(shí)也可以看作是缺點(diǎn)。如果用戶對(duì)觀測(cè)對(duì)象有一定的先驗(yàn)知識(shí),掌握了數(shù)據(jù)的一些特征,卻無(wú)法通過(guò)參數(shù)化等方法對(duì)處理過(guò)程進(jìn)行干預(yù),可能會(huì)得不到預(yù)期的效果,效率也不高。參考文獻(xiàn):1Jose C.A Fast On-line Algorithm for PCA and Its Convergence CharacteristicsJ.IEEE,Transactions on Neural Network, 2000, 4(2):299-3072唐懿芳,鐘達(dá)夫,主成分分析方法

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論