下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于加權(quán)核主成分分析的魯棒加權(quán)重建算法
0加權(quán)核主成分分析方法近年來,模式識(shí)別技術(shù)取得了迅速的發(fā)展和廣泛應(yīng)用。資源提取是模式識(shí)別技術(shù)的一項(xiàng)重要技術(shù)和研究熱點(diǎn)。主成分分析(principalcomponentanalysis,PCA)屬于代數(shù)特征分析方法,是模式識(shí)別領(lǐng)域中一種經(jīng)典的特征提取和數(shù)據(jù)降維技術(shù)。PCA是一種線性的數(shù)據(jù)分析方法,該方法對(duì)數(shù)據(jù)中的非線性信息較難提取,這在一定程度上影響了PCA方法的效果。針對(duì)PCA方法在處理非線性問題時(shí)的不足,Sch?lkopf等人首次利用核函數(shù)將PCA推廣到高維核空間,提出了核主成分分析法(kernelprincipalcomponentanalysis,KPCA)。通過核方法將樣本數(shù)據(jù)映射到高維特征空間,使得原本在低維空間中不能很好提取的信息在高維空間變得線性可分,從而獲得更好的特征提取效果。樣本數(shù)據(jù)集由于干擾等因素的存在,往往含有一些離群點(diǎn)樣本。如何降低離群點(diǎn)樣本的干擾,提高算法的魯棒性一直是一個(gè)有待解決的難題。基于文獻(xiàn)中的離群點(diǎn)檢測(cè)方法,文獻(xiàn)得到了一種魯棒的RWKPCA方法。傳統(tǒng)的PCA和KPCA方法均以重建誤差和最小為目的,一些加權(quán)特征提取方法權(quán)值的確定不僅對(duì)數(shù)據(jù)樣本集有很高的依賴,而且往往不能做到自適應(yīng),對(duì)樣本數(shù)據(jù)集中的離群點(diǎn)抗干擾能力也較差。基于文獻(xiàn)的思想,本文通過在核空間中建立一個(gè)樣本加權(quán)重建誤差和最小的數(shù)學(xué)模型,得到了一種魯棒的加權(quán)核主成分分析方法。通過對(duì)樣本加權(quán),提高算法對(duì)離群點(diǎn)樣本的魯棒性。同時(shí)本文引入核方法對(duì)文獻(xiàn)中模型進(jìn)行改進(jìn),提高了算法對(duì)樣本數(shù)據(jù)中的非線性信息的提取能力。實(shí)驗(yàn)部分分別對(duì)本文算法、文獻(xiàn)中WPCA、KPCA和RWKPCA方法的抗離群點(diǎn)能力、識(shí)別率在Yale人臉數(shù)據(jù)庫和UCI數(shù)據(jù)集上進(jìn)行了對(duì)比。1特征空間vk核主成分分析方法是一種非線性的數(shù)據(jù)分析方法,其主要思想是:通過引入一個(gè)非線性變換Φ,將數(shù)據(jù)由輸入空間Rm映射到高維特征空間F,然后在特征空間F中利用PCA方法進(jìn)行數(shù)據(jù)分析和處理。KPCA是對(duì)PCA方法在核空間中的一種擴(kuò)展,能更有效地提取數(shù)據(jù)中的非線性信息。設(shè)樣本集X={x1,x2,x3…,xN}∈Rm,核函數(shù)通過變換Φ將樣本xi映射為特征空間F中的Φ(xi),將之中心化,即轉(zhuǎn)換為Ν∑i=1Φ(xi)=0∑i=1NΦ(xi)=0??傻肍空間中的協(xié)方差矩陣C為通過求協(xié)方差矩陣C,可得特征值λ和特征向量V。由于所有的特征向量V均可以表示為Φ(x1),Φ(x2),…,Φ(xN)的線性張成,即V=Ν∑i=1αiΦ(xi)(2)因此,可得綜合式(2)(3)得定義一個(gè)N×N的核矩陣K,即Kij=Φ(xi)·Φ(xj),于是,可將式(4)簡(jiǎn)化為解式(5)就能得到所求的特征向量和特征值,可得測(cè)試樣本在特征空間Vk中的投影為Vk?Φ(x)=Ν∑i=1(αi)k(Φ(xi)?Φ(x))(6)實(shí)際應(yīng)用中經(jīng)常用中心化核矩陣?Κ替換K。中心化的矩陣為?Κ=Κ-Ι?Κ-Κ?Ι+Ι?Κ?Ι?Ιij=1Ν(7)2魯棒加權(quán)核的主要組成分析算法2.1加權(quán)重建誤差模型KPCA方法實(shí)際上是PCA方法在核空間中的擴(kuò)展,通過核方法將樣本數(shù)據(jù)映射到高維特征空間,使得原本在低維空間中不能很好提取的信息在高維空間變得線性可分,從而獲得更好的特征提取效果。KPCA方法也可以從基于均方差意義上的重建誤差來建立,在重建誤差意義上KPCA可以表示為其中:K(:,i)為核矩陣K的i列表示映射到核空間中的第i個(gè)樣本,α為投影矩陣。模型式(8)以各樣本歐式距離上重建誤差和最小為目標(biāo),該模型認(rèn)為每一個(gè)樣本所占的重要性均一樣。然而,不同的樣本對(duì)于具體的識(shí)別問題的重要性各不相同。實(shí)際應(yīng)用中,由于干擾等因素的存在往往使得樣本集中存在一些離群點(diǎn)樣本,傳統(tǒng)的KPCA方法的重建誤差模型并未考慮到該因素。基于以上的分析,本文對(duì)KPCA方法的重建誤差通過加權(quán)的思想進(jìn)行了修正,通過引入了信息熵來調(diào)節(jié)不同樣本所占權(quán)重的大小,在核空間建立了一個(gè)加權(quán)重建誤差和最小的模型:其中:K(:,i)為核矩陣K的i列表示映射到核空間中的第i個(gè)樣本;γi(大于0)為第i個(gè)樣本的權(quán)重;α為投影矩陣;λ為正則化參數(shù)。與文獻(xiàn)中的模型相比,通過核方法構(gòu)建的新模型式(9)能充分發(fā)揮核方法對(duì)數(shù)據(jù)中的非線性信息很好提取的優(yōu)勢(shì),從而獲得更好的特征提取效果。2.2特征提取模型求解本文通過核方法將樣本數(shù)據(jù)映射到核空間,在核空間中通過模型式(9)進(jìn)行樣本加權(quán),求解模型得到了一種魯棒的加權(quán)核主成分分析算法。模型式(9)中存在兩組未知變量,投影向量α以及樣本權(quán)重參數(shù)γi。本文采用交替優(yōu)化算法來求解模型。通過優(yōu)化理論中的拉格朗日方程,不難推出權(quán)重γi有式(11)的解析形式:γi=e-∥Κ(:?i)-ααΤΚ(:?i)∥λΝ∑i=1e-∥Κ(:?i)-ααΤΚ(:?i)∥λ(11)令權(quán)值矩陣W=diag(γ1,…,λN)是一個(gè)對(duì)角矩陣,那么式(11)可轉(zhuǎn)換為求矩陣K·W·KT的特征值分解問題,從而求解投影向量α。α由矩陣K·W·KT的前k個(gè)最大特征值對(duì)應(yīng)的特征向量構(gòu)成。分析等式(9)和(11)可以發(fā)現(xiàn),對(duì)重建誤差‖K(:,i)-ααTK(:,i)‖2較大的樣本(離群點(diǎn)樣本往往具有較大的重建誤差)其權(quán)重γi隨著重建誤差增大,權(quán)重γi取值越小;重建誤差較小的樣本,其權(quán)重γi取值較大。使得模型對(duì)重建誤差較大的項(xiàng)賦予較小權(quán)重,對(duì)重建誤差較小的項(xiàng)賦予較大的權(quán)重,這樣能較好地控制數(shù)據(jù)中出現(xiàn)的離群點(diǎn),提高算法的魯棒性。本模型通過優(yōu)化算法自適應(yīng)地對(duì)樣本進(jìn)行加權(quán),同時(shí)利用核方法對(duì)數(shù)據(jù)中非線性信息能更好提取的優(yōu)勢(shì),得到一種更優(yōu)、更魯棒的特征提取方法。模型的求解算法如下:a)將數(shù)據(jù)樣本通過核函數(shù)映射到核空間F,得到中心化的核矩陣K。b)初始化第i個(gè)樣本的權(quán)值γi=1/N(N為訓(xùn)練樣本總數(shù)),W為γi組成的對(duì)角陣,Flag=TRUE,重建誤差閾值Deta設(shè)定初始值。c)由K·W·KT求出投影向量α,得到第一個(gè)優(yōu)化參數(shù);d)若Flag=TRUE,則優(yōu)化正則化參數(shù),Flag=FALSE;否則,轉(zhuǎn)步驟e)。e)由式(11)更新權(quán)值γi,得到第二個(gè)優(yōu)化參數(shù),計(jì)算式(9)中重建誤差值,若與前一次重建誤差和之差的絕對(duì)值小于閾值Deta,則算法結(jié)束,得到投影向量α;否則,轉(zhuǎn)步驟c)繼續(xù)進(jìn)行迭代優(yōu)化。3抗離群點(diǎn)能力、識(shí)別率為了測(cè)試算法的有效性,分別對(duì)本算法、WPCA、KPCA和RWKPCA方法的抗離群點(diǎn)能力、識(shí)別率在Yale人臉數(shù)據(jù)庫和UCI數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)中采用最近鄰(1-NN)分類器進(jìn)行分類,KPCA算法選用高斯徑向核函數(shù)。所有實(shí)驗(yàn)均在MATLAB7.3、Pentium4512MB內(nèi)存的PC上運(yùn)行。3.1實(shí)驗(yàn)結(jié)果與分析Yale人臉數(shù)據(jù)庫包含15個(gè)人的165幅灰度圖像,其中每個(gè)人有11張?jiān)诓煌庹铡⒈砬楹妥藨B(tài)下的圖像,每幅圖像的分辨率為112×92像素。為減少計(jì)算量,本文通過雙線性插值法將圖像的大小統(tǒng)一為50×50像素,部分人臉圖像如圖1所示。在未加入離群點(diǎn)樣本時(shí),從Yale人臉庫每類人臉圖像中隨機(jī)選擇7幅圖像作為訓(xùn)練樣本,剩余的樣本作為測(cè)試樣本,隨機(jī)重復(fù)20次實(shí)驗(yàn)結(jié)果如圖2所示。為對(duì)比四種方法對(duì)離群點(diǎn)樣本的抗干擾能力,本文通過隨機(jī)函數(shù)生成大小為50×50、元素值為0~255的矩陣模擬離群點(diǎn)樣本。實(shí)驗(yàn)時(shí),將隨機(jī)得到的每類7個(gè)訓(xùn)練樣本中的3個(gè)用離群點(diǎn)樣本替換,從而使得165個(gè)人臉樣本集中含33個(gè)離群點(diǎn)樣本數(shù)據(jù)。圖3為加入離群點(diǎn)樣本后重復(fù)20次的識(shí)別實(shí)驗(yàn)結(jié)果。對(duì)比分析圖2和3可以發(fā)現(xiàn),在加入離群點(diǎn)前后本文方法的識(shí)別效果均優(yōu)于WPCA、KPCA和RWKPCA方法,在加入離群點(diǎn)樣本后本文方法的優(yōu)勢(shì)更加顯著。加入離群點(diǎn)樣本后四種方法的識(shí)別率均有下降,其中KPCA方法所受影響最大,而本文方法識(shí)別率下降程度遠(yuǎn)小于其余三種方法。這主要是因?yàn)殡x群點(diǎn)樣本往往具有較大的重建誤差,而本文在核空間中建立的加權(quán)重建誤差和最小模型通過對(duì)重建誤差較大的項(xiàng)賦予較小權(quán)重,能很好地抑制離群點(diǎn)所帶來的干擾。文獻(xiàn)中的WPCA的識(shí)別率低于本文算法,是由于本文算法通過引入核方法的改進(jìn),能更好地提取數(shù)據(jù)中的非線性信息,而人臉數(shù)據(jù)中含有大量的非線性特征,從而說明本文在核空間構(gòu)建的新模型比文獻(xiàn)中的模型具有更好的特征提取效果。故可以看出,本文算法比WPCA、KPCA和RWKPCA有更好的識(shí)別率、對(duì)離群點(diǎn)樣本有更優(yōu)的魯棒性。3.2集穩(wěn)定性分析實(shí)驗(yàn)選用了UCI數(shù)據(jù)集中的四個(gè)數(shù)據(jù)集,分別為Wine、Iris、Sonar和Ionosphere。采用十折交叉驗(yàn)證法進(jìn)行識(shí)別實(shí)驗(yàn),然后對(duì)每一數(shù)據(jù)集根據(jù)特征數(shù)求出識(shí)別率的平均值,最終得到WPCA、KPCA和RWKPCA與本文方法在四個(gè)數(shù)據(jù)集上平均識(shí)別率最大時(shí)所對(duì)應(yīng)的最高識(shí)別率、特征數(shù)及方差,實(shí)驗(yàn)結(jié)果如表1所示。從表1可以發(fā)現(xiàn):本文的方法在四個(gè)UCI數(shù)據(jù)集上的最大識(shí)別率均高于WPCA、KPCA和RWKPCA方法;本文方法取最大識(shí)別率時(shí)方差均小于WPCA、KPCA和RWKPCA方法,具有更好的穩(wěn)定性??梢?本文方法比WPCA、KPCA和RWKPCA方法具有更高、更穩(wěn)定的識(shí)別率。4特征提取算法通過對(duì)原
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年電子商務(wù)平臺(tái)軟件開發(fā)與運(yùn)營服務(wù)合同2篇
- 網(wǎng)管業(yè)務(wù)培訓(xùn)課程設(shè)計(jì)
- 八年級(jí)歷史下冊(cè)復(fù)習(xí)提要課件
- 抽樣調(diào)查課程設(shè)計(jì)
- 無主燈教學(xué)課程設(shè)計(jì)
- 花草移植課程設(shè)計(jì)
- 2024年藝術(shù)的語錄
- 水源熱泵課程設(shè)計(jì)
- 醫(yī)務(wù)科護(hù)士處理醫(yī)務(wù)事務(wù)
- 食品行業(yè)客服工作者感悟
- 杭州市西湖區(qū)2024年三年級(jí)數(shù)學(xué)第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)試題含解析
- 2022-2023學(xué)年廣東省廣州市花都區(qū)六年級(jí)(上)期末英語試卷(含答案)
- 2024年湖南省高中學(xué)業(yè)水平合格考物理試卷真題(含答案詳解)
- 機(jī)動(dòng)車檢測(cè)站質(zhì)量手冊(cè)(根據(jù)補(bǔ)充技術(shù)要求修訂)
- 2024年(學(xué)習(xí)強(qiáng)國)思想政治理論知識(shí)考試題庫與答案
- 上海上海市醫(yī)療急救中心招聘筆試歷年典型考題及考點(diǎn)附答案解析
- 《大數(shù)據(jù)分析技術(shù)》課程標(biāo)準(zhǔn)
- 2024年河南農(nóng)業(yè)職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫及參考答案
- 期末考試-公共財(cái)政概論-章節(jié)習(xí)題
- AED急救知識(shí)課件
- 高中物理課件:Tracker軟件在高中物理實(shí)驗(yàn)教學(xué)中的應(yīng)用-
評(píng)論
0/150
提交評(píng)論