PCA的原理及步驟

上傳人：d*** IP屬地：天津上傳時(shí)間：2022-02-06 格式：DOCX 頁(yè)數(shù)：7 大小：33.39KB 積分：18 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩2頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、一、基本原理主成分分析是數(shù)學(xué)上對(duì)數(shù)據(jù)降維的一種方法。其基本思想是設(shè)法將原來(lái)眾多的具有一定相關(guān)性的指標(biāo)X1, X2,，XP (比如p個(gè)指標(biāo))，重新組合成一組較少個(gè)數(shù)的互不相關(guān)的綜合指標(biāo) Fm來(lái)代替原來(lái)指標(biāo)。那么綜合指標(biāo)應(yīng)該如何去提取，使其既能最大程度的反映原變量 Xp所代表的信息，又能保證新指標(biāo)之間保持相互無(wú)關(guān)(信息不重疊) 。設(shè) F1 表示原變量的第一個(gè) 線性組合所形成的主成分指標(biāo) ，即F1a11X 1a21X2a p1X p , 由數(shù)學(xué)知識(shí)可知，每一個(gè)主成分所提取的信息量可用其方差來(lái)度量，其方差 Var(F1) 越大，表示F1 包含的信息

2、越多。常常希望第一主成分 F1 所含的信息量最大，因此在所有的線性組合中選取的 F1 應(yīng)該是 X1，X2,，XP的所有線性組合中方差最大的，故稱(chēng) F1為第一主成分。如果第一主成分不足以代表原來(lái)p個(gè)指標(biāo)的信息，再考慮選取第二個(gè)主成分指標(biāo)F2,為有效地反映原信息，F(xiàn)1已有的信息就不需要再出現(xiàn)在 F2中，即F2與F1要保持獨(dú) 立、不相關(guān)，用數(shù)學(xué)語(yǔ)言表達(dá)就是其協(xié)方差Cov(F1, F2)=0,所以F2是與F1不相關(guān)的X1, X2,，XP的所有線性組合中方差最大的，故稱(chēng) F2為第二主成分，依此類(lèi)推才造出的F1、F2、Fm為原變量指標(biāo)X1、X2XP第一、第二、第m個(gè)主成分。F1a11 X1a12

3、 X 2.a1 pX pFma21X1am1X1a22X2am2 X2. a2pXpampX根據(jù)以上分析得知：(1) Fi 與 Fj 互不相關(guān)，即 Cov(Fi , Fj) = 0,并有 Var(Fi尸ai ' 2 ai ,其中2為X的協(xié)方差陣(2)F1 是X1, X2,，Xp的一切線性組合(系數(shù)滿足上述要求)中方差最大的，即Fm是與F1, F2,，F(xiàn)m- 1都不相關(guān)的X1, X2,，XP的所有線性組合中方差最大者。F1,F2,，F(xiàn)mmc p)為構(gòu)造的新變量指標(biāo)，即原變量指標(biāo)的第一、第二、第m個(gè)主成分。由以上分析可見(jiàn)，主成分分析法的主要任務(wù)有兩點(diǎn)：(1)確定各主成分Fi (i=

4、1 , 2,，項(xiàng)關(guān)于原變量Xj (j=1 , 2 ,，p) 的表達(dá)式，即系數(shù)aj ( i=1 , 2,，m； j=1 , 2 ,，p)。從數(shù)學(xué)上可以證明，原變量協(xié)方差矩陣的特征根是主成分的方差，所以前m 個(gè)較大特征根就代表前m個(gè)較大的主成分方差值；原變量協(xié)方差矩陣前m個(gè)較大的特征值i (這樣選取才能保證主成分的方差依次最大)所對(duì)應(yīng)的特征向量就是相應(yīng)主成分Fi表達(dá)式的系數(shù)ai ，為了加以限制，系數(shù)ai 啟用的是i 對(duì)應(yīng)的單位化的特征向量，即有 ai 'ai = 1。(2)計(jì)算主成分載荷，主成分載荷是反映主成分Fi與原變量Xj之間的相互關(guān)聯(lián)程度：P(Zk，X)，二aMi, 1,2,

5、L,p;k 1,2, L ,m)二、主成分分析法的計(jì)算步驟主成分分析的具體步驟如下：(1)計(jì)算協(xié)方差矩陣計(jì)算樣品數(shù)據(jù)的協(xié)方差矩陣：2 =(sj)p p,其中1 nSij7 (xki xi)(xkj xj) i , j1 , 2,， pn 1 k 1(2)求出2的特征值i及相應(yīng)的正交化單位特征向量ai2的前m個(gè)較大的特征值1 2 m>0就是前m個(gè)主成分對(duì)應(yīng)的方差，i對(duì)應(yīng)的單位特征向量ai就是主成分Fi的關(guān)于原變量的系數(shù)，則原變量的第i個(gè) 主成分Fi為：Fi = ai'X主成分的方差(信息)貢獻(xiàn)率用來(lái)反映信息量的大小，i為：mi i / ii 1(3)選擇主成分最終要選擇幾個(gè)主成分，

6、即F1,F2,Fm中m的確定是通過(guò)方差(信息) 累計(jì)貢獻(xiàn)率G(m)來(lái)確定mpG(m) i / k i 1 k 1當(dāng)累積貢獻(xiàn)率大于85%寸，就認(rèn)為能足夠反映原來(lái)變量的信息了，對(duì)應(yīng)的 m 就是抽取的前m個(gè)主成分。(4)計(jì)算主成分載荷主成分載荷是反映主成分 Fi與原變量Xj之間的相互關(guān)聯(lián)程度，原來(lái)變量 Xj (j=1 , 2 ,p)在諸主成分Fi (i=1 , 2,，項(xiàng)上的荷載lij ( i=1 , 2,，m； j=1 , 2 ,，p)。：l(Zi,Xj) .二aj(i 1,2,L,m;j 1,2,L,p)在SPSS軟件中主成分分析后的分析結(jié)果中，“成分矩陣”反應(yīng)的就是主成分載荷矩陣。(5)計(jì)算主

7、成分得分計(jì)算樣品在m個(gè)主成分上的得分:FiaiiXia2iX2. a.Xp i = 1,2,，m實(shí)際應(yīng)用時(shí)，指標(biāo)的量綱往往不同，所以在主成分計(jì)算之前應(yīng)先消除量綱的影響。消除數(shù)據(jù)的量綱有很多方法,常用方法是將原始數(shù)據(jù)標(biāo)準(zhǔn)化,即做如下數(shù)據(jù)變換:*xijxjxjsji 1,2,., n; j 1,2,., p其中：xj2Xj)1Xj , s2(Xijn i in 1 i i根據(jù)數(shù)學(xué)公式知，任何隨機(jī)變量對(duì)其作標(biāo)準(zhǔn)化變換后，其協(xié)方差與其相關(guān) 系數(shù)是一回事，即標(biāo)準(zhǔn)化后的變量協(xié)方差矩陣就是其相關(guān)系數(shù)矩陣。另一方面，根據(jù)協(xié)方差的公式可以推得標(biāo)準(zhǔn)化后的協(xié)方差就是原變量的相關(guān)系數(shù)，亦即，標(biāo) 準(zhǔn)化后的變量的協(xié)

8、方差矩陣就是原變量的相關(guān)系數(shù)矩陣。也就是說(shuō)，在標(biāo)準(zhǔn)化前后變量的相關(guān)系數(shù)矩陣不變化。根據(jù)以上論述，為消除量綱的影響，將變量標(biāo)準(zhǔn)化后再計(jì)算具協(xié)方差矩陣，就是直接計(jì)算原變量的相關(guān)系數(shù)矩陣，所以主成分分析的實(shí)際常用計(jì)算步驟是：計(jì)算相關(guān)系數(shù)矩陣求出相關(guān)系數(shù)矩陣的特征值 i及相應(yīng)的正交化單位特征向量ai選擇主成分計(jì)算主成分得分總結(jié)：原指標(biāo)相關(guān)系數(shù)矩陣相應(yīng)的特征值 i為主成分方差的貢獻(xiàn)，方差的p貢獻(xiàn)率為i i/ i, i越大，說(shuō)明相應(yīng)的主成分反映綜合信息的能力越強(qiáng)， i 1可根據(jù)i的大小來(lái)提取主成分。每一個(gè)主成分的組合系數(shù)(原變量在該主成分上的載荷)ai就是相應(yīng)特征值i所對(duì)應(yīng)的單位特征向量。主成分分

9、析法的計(jì)算步驟1、原始指標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)化采集p維隨機(jī)向量x = (X1 ,X2,.,Xp)T)n個(gè)樣品x = (Xi1,Xi2,.,Xip)T , i=1,2,nn>p,構(gòu)造樣本陣，對(duì)樣本陣元進(jìn)行如下標(biāo)準(zhǔn)化變換:次=一=Sij = 1,2,田2、對(duì)標(biāo)準(zhǔn)化陣Z求相關(guān)系數(shù)矩陣zTz71 1其中3、解樣本相關(guān)矩陣R的特征方程I丑一 Ml =。得p個(gè)特征根，確定主成分%按；> 0.85確定m值，使信息的利用率達(dá)85%以上，對(duì)每個(gè)入j=l,2,m,解方程組Rb= jb得單位特征向量2/ 。4、將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主成分&j = zf % j = 1,2, mUi稱(chēng)為第一主成分，

10、U2稱(chēng)為第二主成分，Up稱(chēng)為第p主成分。5、對(duì)m個(gè)主成分進(jìn)行綜合評(píng)價(jià)對(duì)m個(gè)主成分進(jìn)行加權(quán)求和，即得最終評(píng)價(jià)值，權(quán)數(shù)為每個(gè)主成分的方差貢獻(xiàn)率。一、主成分分析基本原理概念：主成分分析是把原來(lái)多個(gè)變量劃為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法。從數(shù)學(xué)角度來(lái)看，這是一種降維處理技術(shù)。思路：一個(gè)研究對(duì)象，往往是多要素的復(fù)雜系統(tǒng)。變量太多無(wú)疑會(huì)增加分析問(wèn)題的難度和復(fù)雜性，利用原變量之間的相關(guān)關(guān)系，用較少的新變量代替原來(lái)較多的變量，并使這些少數(shù)變量盡可能多的保留原來(lái)較多的變量所反應(yīng)的信息，這樣問(wèn)題就簡(jiǎn)單化了。原理：假定有n個(gè)樣本，每個(gè)樣本共有p個(gè)變量，構(gòu)成一個(gè)nXp階的數(shù)據(jù) 矩陣，XiiXi2XipXX2

11、iX22X2pXniXn2Xnp記原變量指標(biāo)為Xi, X2,，Xp,設(shè)它們降維處理后的綜合指標(biāo)，即新變量為 z 1, Z2, Z3,Zm(rni< p),則z1l11X1l12 X2l1p Xpz2l21X1l22X2l2 pXpzml m1 X1l m2 X2lmpXp系數(shù) l ij 的確定原則：Zi 與 Zj (i wj ; i , j=1 , 2,，mj)相互無(wú)關(guān)；Zi是Xi, X2,，Xp的一切線性組合中方差最大者，Z2是與Zi不相關(guān)的Xi,X2,Xp的所有線性組合中方差最大者；Z m是與Zi, Z2,，Zm, 1都不相關(guān)的Xi,X2,Xp ,的所有線性組合中方差最大者。新變量指

12、標(biāo)Zi, Z2,，Zm分別稱(chēng)為原變量指標(biāo)Xi, X2,，Xp的第i ,第2, 第m主成分。從以上的分析可以看出，主成分分析的實(shí)質(zhì)就是確定原來(lái)變量Xj (j=i ，2 ,，p)在諸主成分Zi (i=i , 2,，mj)上的荷載l j ( i=i , 2,，m； j=i , 2 ,，p)0從數(shù)學(xué)上可以證明，它們分別是相關(guān)矩陣m個(gè)較大的特征值所對(duì)應(yīng)的特征向量。二、主成分分析的計(jì)算步驟i、計(jì)算相關(guān)系數(shù)矩陣riiri2ripRr2ir22r2 prpirp2rpprj (i, j=1, 2,，p)為原變量Xi與Xj的相關(guān)系數(shù)，Cj=Ci,其計(jì)算公式為Xi)(Xkj Xj)nXi)2(Xkj Xj)2k 1n(Xkirj k 1n(x-k1(Xki2、計(jì)算特征值與特征向量解特征方程小順序排列12分別求出對(duì)應(yīng)于特征值常用雅可比法(Jacobi )求出特征值，并使其按大0 . ?pi的特征向量ei(i 1,2,L,p),要求I e=1

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

PCA的原理及步驟

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

PCA的原理及步驟

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔