



免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
改進(jìn)主成分分柝(PCA)魯棒性的算法比較 葉明喜,黃鈺,蔣昊 (蘭州商學(xué)院,甘肅蘭州730101) 摘要:與傳統(tǒng)的PCA算法相比較,基于分布特征算法的主成分分析,由于量測(cè)的不精確使特性或參數(shù)的實(shí)際值會(huì)偏離它標(biāo)稱(chēng)值,另一個(gè)是受環(huán)境因素影響而引起特性或參數(shù)的緩慢漂移,這樣得到的分析結(jié)果在很大程度上受到異常值的干擾.本文通過(guò)對(duì)比幾種算法,提出改善主成分分析(PCA)算法魯棒性的一種實(shí)現(xiàn)途徑,去除或者減少異常點(diǎn)影響,以提高PCA的精度. 關(guān)鍵詞:主成分分析;pca魯棒性;標(biāo)稱(chēng)值;異常點(diǎn);馬氏距離 :TP391:A:1673-260X(xx)07-0017-03 1PCA的原理和魯棒性 傳統(tǒng)PCA算法是一種基于空間坐標(biāo)的降維技術(shù),將高維數(shù)據(jù)按照線(xiàn)性投影的方式投影到低維空間,在保留過(guò)程變量間關(guān)系結(jié)構(gòu)的同時(shí),去除了噪聲以及變量之間的相關(guān)性,但傳統(tǒng)主成分基于特征值分解的PCA方法存在嚴(yán)重魯棒性問(wèn)題,這大大影響了PCA的運(yùn)算精度.如PCA算法給出ai在隨機(jī)向量x的第i主方向,根據(jù)盡可能地靠近原始數(shù)據(jù)x,則所有的ai都應(yīng)該調(diào)整大道MSE,則有下列公式: 協(xié)方差矩陣: 矩陣A為構(gòu)造的正交陣,傳統(tǒng)PCA算法是對(duì)隨機(jī)向量x的協(xié)方差陣進(jìn)行特征值分解來(lái)獲得x的協(xié)方差矩陣var(F),其為一對(duì)角矩陣,而對(duì)角元素恰好是原始數(shù)據(jù)集相關(guān)矩陣的特征值.其中樣本數(shù)據(jù)集協(xié)方差陣的估計(jì)值: 但現(xiàn)在從主成分分析數(shù)學(xué)模型需要滿(mǎn)足的條件出發(fā)(Fi,F(xiàn)j互不相關(guān)),為了改善PCA算法精度,對(duì)PCA魯棒性改善需要從兩個(gè)角度出發(fā):一是如何能夠達(dá)到輸出的各主成分之間互不相關(guān),上面的PCA算法獲得的各主成分互不相關(guān)當(dāng)且僅當(dāng)輸入x服從零均值、協(xié)方差為n維高斯分布,當(dāng)不服從此條件下高斯分布,相關(guān)文獻(xiàn)提出了獨(dú)立成分分析(ICA)來(lái)解決此問(wèn)題1. 另外,傳統(tǒng)PCA算法基于協(xié)方差陣的二階方面考慮,因此得到的主成分只能做到互不相關(guān),而不能做到相互獨(dú)立.為提高PCA算法的魯棒性,必須去除或者減少異常點(diǎn)樣本污染對(duì)算法的影響.異常點(diǎn)的產(chǎn)生原因是多方面的,例如突發(fā)的隨機(jī)噪聲,測(cè)量或者記錄的偶爾出錯(cuò)等等.很自然地要考慮如何找出樣本集中的異常點(diǎn)樣本,在求解協(xié)方差矩陣時(shí)將其排除在外.因此首先需要確定異常點(diǎn)樣本的判據(jù),下文的三種算法判別異常點(diǎn)樣本將作比較介紹. 算法二:是開(kāi)始設(shè)定一個(gè)可能的參考異常值,初始化時(shí)將第一個(gè)點(diǎn)和第二點(diǎn)之間的馬氏距離作為標(biāo)稱(chēng)值,將所有點(diǎn)計(jì)算出到均值點(diǎn)的馬氏距離,計(jì)算出樣本點(diǎn)中大于參考標(biāo)稱(chēng)值點(diǎn)所占的比例,如果大于參考標(biāo)稱(chēng)值的比例比初設(shè)異常值在樣本數(shù)據(jù)中比例大,則需要將標(biāo)稱(chēng)值減少一個(gè)比例系數(shù),最終使得在一個(gè)事先設(shè)置的的精度范圍內(nèi).則讓程序?qū)^大數(shù)據(jù)點(diǎn)進(jìn)行排序,剔除較大的數(shù)據(jù)點(diǎn)之后,同時(shí)重新計(jì)算協(xié)方差陣和新的樣本容量,使得留下的點(diǎn)都是非離群點(diǎn),如果剔除的比例和自設(shè)的初識(shí)異常值比例近似相等,則中止該過(guò)程.然而,經(jīng)過(guò)模擬之后發(fā)現(xiàn)算法二比算法一改進(jìn)很多,但仍不理想,表現(xiàn)出算法對(duì)于異常值樣本比較敏感. 算法三:是引入?yún)?shù)作為統(tǒng)計(jì)距離的測(cè)度,而該參數(shù)取自相關(guān)系數(shù)Rij,它度量變量之間的線(xiàn)性相關(guān)性.這樣通過(guò)對(duì)原始數(shù)據(jù)的標(biāo)準(zhǔn)化處理后,相關(guān)系數(shù)陣的變換使得在不同維度之間變量大小具有了可比性,經(jīng)過(guò)這樣一個(gè)過(guò)程處理,最終還原為原始的變量.算法三比起算法二在魯棒性上有改進(jìn). 2改進(jìn)魯棒性PCA算法 2.1判別異常點(diǎn)樣本的理論基礎(chǔ) 基于誤差最小準(zhǔn)則是判別異常點(diǎn)樣本的理論基礎(chǔ),在剔除異常點(diǎn)樣本中應(yīng)用較為廣泛.故令e=x-u為誤差,定義誤差平和函數(shù)的估計(jì)表達(dá)式: 2.2魯棒PCA算法描述 期初給出W的估計(jì)值就是因?yàn)閷?shí)際很難做到精確,以估計(jì)值來(lái)剔除異常點(diǎn),從而達(dá)到精確W估計(jì)值,再剔除異常點(diǎn),這樣循環(huán)下去. 根據(jù)上面得到的PCA變換矩陣,利用式(3)計(jì)算原始樣本集E中每個(gè)樣本xi在本步k的誤差,迭代步數(shù)k+1,設(shè)樣本集中異常點(diǎn)樣本數(shù)L(k+1)=L(k)+1,也就是從樣本集中刪除上一步重構(gòu)誤差最大的L(k+1)個(gè)樣本,并由剩下的樣本構(gòu)成新的待處理樣本集;判斷w(k+1)是否滿(mǎn)足收斂條件,若滿(mǎn)足則迭代結(jié)束,否則轉(zhuǎn)第2步.使得所有的樣本點(diǎn)馬氏距離都在給定的標(biāo)稱(chēng)值?著范圍內(nèi),并且無(wú)論怎樣循環(huán)下去,現(xiàn)有的樣本點(diǎn)不再被剔除,則中止循環(huán). 3仿真實(shí)驗(yàn)和結(jié)果分析 3.1仿真實(shí)驗(yàn) 傳統(tǒng)PCA算法和修正后的魯棒PCA算法,對(duì)不含異常點(diǎn)和包含異常點(diǎn)的樣本集進(jìn)行主成分分析.在這里考慮輸入為2維樣本,提取其最大主成分,即n=2,m=1.隨機(jī)均勻產(chǎn)生500個(gè)含有異常點(diǎn)的二維樣本集,記為樣本集x(如下圖所示);傳統(tǒng)的PCA算法對(duì)樣本集x分別進(jìn)行統(tǒng)計(jì)主成分分析,得到的主方向?yàn)镕x=0.9020,0.4317T.可以看出傳統(tǒng)PCA對(duì)于無(wú)異常點(diǎn)的樣本集計(jì)算精度還是很高的,F(xiàn)x基本等于實(shí)際主方向.但是魯棒性很差,只要樣本集中存在少量的異常點(diǎn)樣本,主方向計(jì)算結(jié)果誤差非常大. 以下三個(gè)算法基于R軟件繪制如下,具體為算法一:是在我們會(huì)發(fā)現(xiàn),如果d太小,變換后的信息有所失,如果d太大,變換后的數(shù)據(jù)收到異常點(diǎn)改變其穩(wěn)定的與坐標(biāo)軸平行垂直橢圓形狀.旋轉(zhuǎn)角度后在57范圍內(nèi)較為穩(wěn)定(如圖1). 算法二:取異常值的比例為0.10.9變化后繪制其主成分變換后的圖像,發(fā)現(xiàn)不是一個(gè)與坐標(biāo)軸垂直平行的橢球體,因?yàn)槭褂玫氖菙?shù)據(jù)集的協(xié)方差陣,沒(méi)有采用相關(guān)系數(shù)陣(如圖2). 算法三:剔除了較多的異常點(diǎn)數(shù)據(jù)點(diǎn)后,使得數(shù)據(jù)具有較強(qiáng)的魯棒性,具備改善PCA算法魯棒性和高效的數(shù)據(jù)壓縮特性,使得算法三在與以上兩種算法上比較上,采取相關(guān)系數(shù)構(gòu)造標(biāo)稱(chēng)值,較為理想(如圖3). 3.2結(jié)論分析 理想的PCA算法,應(yīng)先計(jì)算相關(guān)系數(shù)矩陣,而不是協(xié)方差陣進(jìn)行統(tǒng)計(jì)距離度量.單從數(shù)據(jù)的魯棒性角度出發(fā),可以采用相關(guān)系數(shù)矩陣進(jìn)行統(tǒng)計(jì)距離度量作PCA,然而考慮到數(shù)據(jù)點(diǎn)異常點(diǎn)的去除,采用算法三的算法可以對(duì)原始數(shù)據(jù)的特征進(jìn)行高效的轉(zhuǎn)換,且PCA魯棒性也比其他兩種算法較好,另外該算法對(duì)于初始的異常點(diǎn)比例的預(yù)測(cè)也無(wú)聯(lián)系.但PCA魯棒性改善不僅僅是單純從剔除數(shù)據(jù)異常點(diǎn)一種方式而得到改善,本文僅從算法上比較得出改善之舉,難免有不妥之處. 參考文獻(xiàn): (1)ComonP.Independentponentanalysis,anewconcept?.SignalProcessing,1994,36(3):287-314.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 濰坊理工學(xué)院《電算化財(cái)務(wù)管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 中國(guó)地質(zhì)大學(xué)(北京)《宋詞研究》2023-2024學(xué)年第二學(xué)期期末試卷
- 東莞職業(yè)技術(shù)學(xué)院《國(guó)際知識(shí)產(chǎn)權(quán)法(B)》2023-2024學(xué)年第二學(xué)期期末試卷
- 終身教育平臺(tái)建設(shè)方案
- 蘭州博文科技學(xué)院《化工過(guò)程安全》2023-2024學(xué)年第二學(xué)期期末試卷
- 七臺(tái)河職業(yè)學(xué)院《中學(xué)體育教學(xué)技能訓(xùn)練》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙江國(guó)際海運(yùn)職業(yè)技術(shù)學(xué)院《矩陣?yán)碚撆c應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 商丘醫(yī)學(xué)高等專(zhuān)科學(xué)?!豆た剀浖A(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025標(biāo)準(zhǔn)工業(yè)廠(chǎng)房租賃合同范本
- 心理健康課件小學(xué)逐字稿
- 液化石油氣安全標(biāo)簽
- 三年級(jí)數(shù)學(xué)《認(rèn)識(shí)分?jǐn)?shù)》
- T-CEEMA 004-2022 煤電機(jī)組輔機(jī)及系統(tǒng)節(jié)能、供熱和靈活性改造技術(shù)導(dǎo)則
- 水車(chē)租賃合同范本(3篇)
- 醫(yī)學(xué)康復(fù)治療技術(shù)作業(yè)治療課件
- 空港新城特勤消防站施工組織設(shè)計(jì)
- 餐具消毒記錄表
- 2022山東歷史高考答題卡word版
- 空軍發(fā)展歷程課件
- 試生產(chǎn)安全條件檢查
- 小學(xué)英語(yǔ)自然拼讀課件
評(píng)論
0/150
提交評(píng)論