基于加權核主成分分析的魯棒加權重建算法_第1頁
基于加權核主成分分析的魯棒加權重建算法_第2頁
基于加權核主成分分析的魯棒加權重建算法_第3頁
基于加權核主成分分析的魯棒加權重建算法_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

基于加權核主成分分析的魯棒加權重建算法

0加權核主成分分析方法近年來,模式識別技術取得了迅速的發(fā)展和廣泛應用。資源提取是模式識別技術的一項重要技術和研究熱點。主成分分析(principalcomponentanalysis,PCA)屬于代數(shù)特征分析方法,是模式識別領域中一種經(jīng)典的特征提取和數(shù)據(jù)降維技術。PCA是一種線性的數(shù)據(jù)分析方法,該方法對數(shù)據(jù)中的非線性信息較難提取,這在一定程度上影響了PCA方法的效果。針對PCA方法在處理非線性問題時的不足,Sch?lkopf等人首次利用核函數(shù)將PCA推廣到高維核空間,提出了核主成分分析法(kernelprincipalcomponentanalysis,KPCA)。通過核方法將樣本數(shù)據(jù)映射到高維特征空間,使得原本在低維空間中不能很好提取的信息在高維空間變得線性可分,從而獲得更好的特征提取效果。樣本數(shù)據(jù)集由于干擾等因素的存在,往往含有一些離群點樣本。如何降低離群點樣本的干擾,提高算法的魯棒性一直是一個有待解決的難題?;谖墨I中的離群點檢測方法,文獻得到了一種魯棒的RWKPCA方法。傳統(tǒng)的PCA和KPCA方法均以重建誤差和最小為目的,一些加權特征提取方法權值的確定不僅對數(shù)據(jù)樣本集有很高的依賴,而且往往不能做到自適應,對樣本數(shù)據(jù)集中的離群點抗干擾能力也較差?;谖墨I的思想,本文通過在核空間中建立一個樣本加權重建誤差和最小的數(shù)學模型,得到了一種魯棒的加權核主成分分析方法。通過對樣本加權,提高算法對離群點樣本的魯棒性。同時本文引入核方法對文獻中模型進行改進,提高了算法對樣本數(shù)據(jù)中的非線性信息的提取能力。實驗部分分別對本文算法、文獻中WPCA、KPCA和RWKPCA方法的抗離群點能力、識別率在Yale人臉數(shù)據(jù)庫和UCI數(shù)據(jù)集上進行了對比。1特征空間vk核主成分分析方法是一種非線性的數(shù)據(jù)分析方法,其主要思想是:通過引入一個非線性變換Φ,將數(shù)據(jù)由輸入空間Rm映射到高維特征空間F,然后在特征空間F中利用PCA方法進行數(shù)據(jù)分析和處理。KPCA是對PCA方法在核空間中的一種擴展,能更有效地提取數(shù)據(jù)中的非線性信息。設樣本集X={x1,x2,x3…,xN}∈Rm,核函數(shù)通過變換Φ將樣本xi映射為特征空間F中的Φ(xi),將之中心化,即轉換為Ν∑i=1Φ(xi)=0∑i=1NΦ(xi)=0。可得F空間中的協(xié)方差矩陣C為通過求協(xié)方差矩陣C,可得特征值λ和特征向量V。由于所有的特征向量V均可以表示為Φ(x1),Φ(x2),…,Φ(xN)的線性張成,即V=Ν∑i=1αiΦ(xi)(2)因此,可得綜合式(2)(3)得定義一個N×N的核矩陣K,即Kij=Φ(xi)·Φ(xj),于是,可將式(4)簡化為解式(5)就能得到所求的特征向量和特征值,可得測試樣本在特征空間Vk中的投影為Vk?Φ(x)=Ν∑i=1(αi)k(Φ(xi)?Φ(x))(6)實際應用中經(jīng)常用中心化核矩陣?Κ替換K。中心化的矩陣為?Κ=Κ-Ι?Κ-Κ?Ι+Ι?Κ?Ι?Ιij=1Ν(7)2魯棒加權核的主要組成分析算法2.1加權重建誤差模型KPCA方法實際上是PCA方法在核空間中的擴展,通過核方法將樣本數(shù)據(jù)映射到高維特征空間,使得原本在低維空間中不能很好提取的信息在高維空間變得線性可分,從而獲得更好的特征提取效果。KPCA方法也可以從基于均方差意義上的重建誤差來建立,在重建誤差意義上KPCA可以表示為其中:K(:,i)為核矩陣K的i列表示映射到核空間中的第i個樣本,α為投影矩陣。模型式(8)以各樣本歐式距離上重建誤差和最小為目標,該模型認為每一個樣本所占的重要性均一樣。然而,不同的樣本對于具體的識別問題的重要性各不相同。實際應用中,由于干擾等因素的存在往往使得樣本集中存在一些離群點樣本,傳統(tǒng)的KPCA方法的重建誤差模型并未考慮到該因素?;谝陨系姆治?本文對KPCA方法的重建誤差通過加權的思想進行了修正,通過引入了信息熵來調(diào)節(jié)不同樣本所占權重的大小,在核空間建立了一個加權重建誤差和最小的模型:其中:K(:,i)為核矩陣K的i列表示映射到核空間中的第i個樣本;γi(大于0)為第i個樣本的權重;α為投影矩陣;λ為正則化參數(shù)。與文獻中的模型相比,通過核方法構建的新模型式(9)能充分發(fā)揮核方法對數(shù)據(jù)中的非線性信息很好提取的優(yōu)勢,從而獲得更好的特征提取效果。2.2特征提取模型求解本文通過核方法將樣本數(shù)據(jù)映射到核空間,在核空間中通過模型式(9)進行樣本加權,求解模型得到了一種魯棒的加權核主成分分析算法。模型式(9)中存在兩組未知變量,投影向量α以及樣本權重參數(shù)γi。本文采用交替優(yōu)化算法來求解模型。通過優(yōu)化理論中的拉格朗日方程,不難推出權重γi有式(11)的解析形式:γi=e-∥Κ(:?i)-ααΤΚ(:?i)∥λΝ∑i=1e-∥Κ(:?i)-ααΤΚ(:?i)∥λ(11)令權值矩陣W=diag(γ1,…,λN)是一個對角矩陣,那么式(11)可轉換為求矩陣K·W·KT的特征值分解問題,從而求解投影向量α。α由矩陣K·W·KT的前k個最大特征值對應的特征向量構成。分析等式(9)和(11)可以發(fā)現(xiàn),對重建誤差‖K(:,i)-ααTK(:,i)‖2較大的樣本(離群點樣本往往具有較大的重建誤差)其權重γi隨著重建誤差增大,權重γi取值越小;重建誤差較小的樣本,其權重γi取值較大。使得模型對重建誤差較大的項賦予較小權重,對重建誤差較小的項賦予較大的權重,這樣能較好地控制數(shù)據(jù)中出現(xiàn)的離群點,提高算法的魯棒性。本模型通過優(yōu)化算法自適應地對樣本進行加權,同時利用核方法對數(shù)據(jù)中非線性信息能更好提取的優(yōu)勢,得到一種更優(yōu)、更魯棒的特征提取方法。模型的求解算法如下:a)將數(shù)據(jù)樣本通過核函數(shù)映射到核空間F,得到中心化的核矩陣K。b)初始化第i個樣本的權值γi=1/N(N為訓練樣本總數(shù)),W為γi組成的對角陣,Flag=TRUE,重建誤差閾值Deta設定初始值。c)由K·W·KT求出投影向量α,得到第一個優(yōu)化參數(shù);d)若Flag=TRUE,則優(yōu)化正則化參數(shù),Flag=FALSE;否則,轉步驟e)。e)由式(11)更新權值γi,得到第二個優(yōu)化參數(shù),計算式(9)中重建誤差值,若與前一次重建誤差和之差的絕對值小于閾值Deta,則算法結束,得到投影向量α;否則,轉步驟c)繼續(xù)進行迭代優(yōu)化。3抗離群點能力、識別率為了測試算法的有效性,分別對本算法、WPCA、KPCA和RWKPCA方法的抗離群點能力、識別率在Yale人臉數(shù)據(jù)庫和UCI數(shù)據(jù)集上進行了對比實驗。實驗中采用最近鄰(1-NN)分類器進行分類,KPCA算法選用高斯徑向核函數(shù)。所有實驗均在MATLAB7.3、Pentium4512MB內(nèi)存的PC上運行。3.1實驗結果與分析Yale人臉數(shù)據(jù)庫包含15個人的165幅灰度圖像,其中每個人有11張在不同光照、表情和姿態(tài)下的圖像,每幅圖像的分辨率為112×92像素。為減少計算量,本文通過雙線性插值法將圖像的大小統(tǒng)一為50×50像素,部分人臉圖像如圖1所示。在未加入離群點樣本時,從Yale人臉庫每類人臉圖像中隨機選擇7幅圖像作為訓練樣本,剩余的樣本作為測試樣本,隨機重復20次實驗結果如圖2所示。為對比四種方法對離群點樣本的抗干擾能力,本文通過隨機函數(shù)生成大小為50×50、元素值為0~255的矩陣模擬離群點樣本。實驗時,將隨機得到的每類7個訓練樣本中的3個用離群點樣本替換,從而使得165個人臉樣本集中含33個離群點樣本數(shù)據(jù)。圖3為加入離群點樣本后重復20次的識別實驗結果。對比分析圖2和3可以發(fā)現(xiàn),在加入離群點前后本文方法的識別效果均優(yōu)于WPCA、KPCA和RWKPCA方法,在加入離群點樣本后本文方法的優(yōu)勢更加顯著。加入離群點樣本后四種方法的識別率均有下降,其中KPCA方法所受影響最大,而本文方法識別率下降程度遠小于其余三種方法。這主要是因為離群點樣本往往具有較大的重建誤差,而本文在核空間中建立的加權重建誤差和最小模型通過對重建誤差較大的項賦予較小權重,能很好地抑制離群點所帶來的干擾。文獻中的WPCA的識別率低于本文算法,是由于本文算法通過引入核方法的改進,能更好地提取數(shù)據(jù)中的非線性信息,而人臉數(shù)據(jù)中含有大量的非線性特征,從而說明本文在核空間構建的新模型比文獻中的模型具有更好的特征提取效果。故可以看出,本文算法比WPCA、KPCA和RWKPCA有更好的識別率、對離群點樣本有更優(yōu)的魯棒性。3.2集穩(wěn)定性分析實驗選用了UCI數(shù)據(jù)集中的四個數(shù)據(jù)集,分別為Wine、Iris、Sonar和Ionosphere。采用十折交叉驗證法進行識別實驗,然后對每一數(shù)據(jù)集根據(jù)特征數(shù)求出識別率的平均值,最終得到WPCA、KPCA和RWKPCA與本文方法在四個數(shù)據(jù)集上平均識別率最大時所對應的最高識別率、特征數(shù)及方差,實驗結果如表1所示。從表1可以發(fā)現(xiàn):本文的方法在四個UCI數(shù)據(jù)集上的最大識別率均高于WPCA、KPCA和RWKPCA方法;本文方法取最大識別率時方差均小于WPCA、KPCA和RWKPCA方法,具有更好的穩(wěn)定性??梢?本文方法比WPCA、KPCA和RWKPCA方法具有更高、更穩(wěn)定的識別率。4特征提取算法通過對原

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論