




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、維度規(guī)約 主成分分析(PCA)v在模式識(shí)別中,一個(gè)常見的問題就是特征選擇或特征提取,在理論上我們要選擇與原始數(shù)據(jù)空間具有相同的維數(shù)。然而,我們希望設(shè)計(jì)一種變換使得數(shù)據(jù)集由維數(shù)較少的“有效”特征來表示。主成分分析v主成分分析(或稱主分量分析,principal component analysis)由皮爾遜(Pearson,1901)首先引入,后來被霍特林(Hotelling,1933)發(fā)展了。v在PCA中,我們感興趣的是找到一個(gè)從原d維輸入空間到新的k維空間的具有最小信息損失的映射vX在方向w上的投影為xwzT 主成分分析(PCA)v一、主成分的定義及導(dǎo)出v二、主成分的性質(zhì)v三、從相關(guān)陣出發(fā)求
2、主成分一、主成分的定義及導(dǎo)出v設(shè) 為一個(gè) 維隨機(jī)向量, v主成分是這樣的 ,樣本投影到 上之后被廣泛散布,使得樣本之間的差別變得最明顯,即最大化方差。v設(shè) 希望在約束條件 下尋求向量 ,使 最大化Tnxxxx),(21n)(xCov1w1w11w1wxwzT11111)var(wwzT寫成拉格朗日問題現(xiàn)在關(guān)于 求導(dǎo)并令其等于0,得到如果 是 的特征向量, 是對(duì)應(yīng)的特征值,則上式是成立的) 1 () 1(max11111wwwwTTw1w1111022wwww1wv同時(shí)我們還得到v為了使方差最大,選擇具有最大特征值的特征向量 ,因此,第一個(gè)主成分 是輸入樣本的協(xié)方差陣的具有最大特征值對(duì)應(yīng)的特征向
3、量 1111wwwwTT1wv第二個(gè)主成分 也應(yīng)該最大化方差,具有單位長度,并且與 正交v對(duì)于第二個(gè)主成分,我們有v關(guān)于w2求導(dǎo)并令其為0,我們有2w1w)2()0() 1(max1222222wwwwwwTTTw022122wwwv上式兩邊乘以v其中v可知 ,并且可得Tw1022112121wwwwwwTTT,00121112122112212121wwwwwwwwwwwwwwwwTTTTTTTT是標(biāo)量,且022ww,v這表明w2應(yīng)該是 的特征向量,具有第二大特征值v類似的,我們可以證明其它維被具有遞減的特征值的特征向量給出,2v我們來看另一種推導(dǎo):v 如果我們建立一個(gè)矩陣C,其第i列是 的
4、規(guī)范化的特征向量,則 ,并且ICCTTTnnnTTnTnTCDCccccCcccCcccCC1112121),(),(是矩陣WxWzT,v其中, 是對(duì)象矩陣,其對(duì)角線元素是特征值v ,這稱為 的譜分解v由于C是正交的,并且 ,我們在 的左右兩邊乘以 和 ,得到v我們知道如果 ,則 ,我們希望它等于一個(gè)對(duì)角矩陣,于是,可以令Dn21,ICCCCTTTCCDCCTxWzTWWzT)cov(CW v在實(shí)踐中,即使所有的特征值都大于0,我們知道,某些特征值對(duì)方差的影響很小,并且可以丟失,因此,我們考慮例如貢獻(xiàn)90%以上方差的前k個(gè)主要成分,當(dāng) 降序排列時(shí),由前k個(gè)主要成分貢獻(xiàn)的方差比例為ink2121
5、v實(shí)踐中,如果維是高度相關(guān)的,則只有很少一部分特征向量具有較大的特征值,k遠(yuǎn)比n小,并且可能得到很大的維度歸約v總方差中屬于主成分 的比例為 稱為主成分 的貢獻(xiàn)率。v第一主成分 的貢獻(xiàn)率最大,表明它解釋原始變量 的能力最強(qiáng),而 的解釋能力依次遞減。v主成分分析的目的就是為了減少變量的個(gè)數(shù),因而一般是不會(huì)使用所有 主成分的,忽略一些帶有較小方差的主成分將不會(huì)給總方差帶來大的影響。 izizkjji11znxxx,21kzzz21,v前 個(gè)主成分的貢獻(xiàn)率之和 稱為主成分 的累計(jì)貢獻(xiàn)率,它表明 解釋 的能力。v通常取較小的 k ,使得累計(jì)貢獻(xiàn)達(dá)到一個(gè)較高的百分比(如8090)。此時(shí), 可用來代替 ,
6、從而達(dá)到降維的目的,而信息的損失卻不多。knjjkii11k21,kzzz,21nxxx21,kzzz,21nxxx21,主成分分析的應(yīng)用v在主成分分析中,我們首先應(yīng)保證所提取的前幾個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的水平,其次對(duì)這些被提取的主成分必須都能夠給出符合實(shí)際背景和意義的解釋。v主成分的解釋其含義一般多少帶有點(diǎn)模糊性,不像原始變量的含義那么清楚、確切,這是變量降維過程中不得不付出的代價(jià)。v如果原始變量之間具有較高的相關(guān)性,則前面少數(shù)幾個(gè)主成分的累計(jì)貢獻(xiàn)率通常就能達(dá)到一個(gè)較高水平,也就是說,此時(shí)的累計(jì)貢獻(xiàn)率通常較易得到滿足。v主成分分析的困難之處主要在于要能夠給出主成分的較好解釋,所提取的主成分中如有一個(gè)主成分解釋不了,整個(gè)主成分分析也就失敗了。支持向量機(jī)(補(bǔ)充講義)v上節(jié)課,我們討論了SVM的分類,這里簡略地討論如何將SVM推廣到回歸上v我們還是使用線性模型:v bxwxfT)(v對(duì)于回歸,我們使用差的平方作為誤差:v對(duì)于支持向量機(jī)的回歸,我們使用2)()(,(iiiixfyxfye敏感損失函數(shù)-否則如果)()(0)(,(iiiiiixfyxfyxfyev這意味著我們?nèi)萑谈哌_(dá) 的誤差,并且超出的誤差具有線性而不是平方影響。這種誤差函數(shù)更能抵制噪聲,因而更加魯棒v類似的,我們引入松弛變量來處理超過 的偏差v其中C是一個(gè)訓(xùn)練誤差和懲罰項(xiàng) 之間的權(quán)衡)(21min
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)雞廠用工合同范例
- 關(guān)于買房合同范例
- 交通工程合同范例
- 供應(yīng)生產(chǎn)合同范例
- 出租柜臺(tái)合同范例
- 內(nèi)部轉(zhuǎn)讓合同范例
- 個(gè)人境外旅游合同范例
- 個(gè)人寄售銷售合同范例
- 公路鐵路聯(lián)運(yùn)合同范本
- 借出電腦合同范例
- 人工挖孔樁施工危險(xiǎn)源辨識(shí)與評(píng)價(jià)及應(yīng)對(duì)措施
- 品管圈成果匯報(bào)——提高導(dǎo)管固定正確率PPT課件
- 第2講 麥克斯韋方程組
- 讀懂教材、讀懂學(xué)生、讀懂課堂,構(gòu)建和諧有效的課堂教學(xué)
- 裝飾施工進(jìn)度計(jì)劃網(wǎng)絡(luò)圖及橫道圖
- 機(jī)械畢業(yè)實(shí)習(xí)報(bào)告
- 材料科學(xué)與工程專業(yè) 畢業(yè)論文
- 糖尿病視網(wǎng)膜病變PPT課件
- 古詩分類講解五思鄉(xiāng)懷人詩
- 多極磁燃?xì)猸h(huán)保節(jié)能器-合力金科技
- 青少年心理學(xué)書籍:青少年心理學(xué)
評(píng)論
0/150
提交評(píng)論