第2講主成分分析_第1頁
第2講主成分分析_第2頁
第2講主成分分析_第3頁
第2講主成分分析_第4頁
第2講主成分分析_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、2 主成分分析2.1 主成分的基本思想主成分分析(principal component analysis)也稱主分量分析,是1901年提出,再由霍特林(Hotelling1933)加以發(fā)展的一種統(tǒng)計方法基本思想:主要目的利用降維的思想,在損失很少信息的前提下把多個變量(指標)轉(zhuǎn)化為幾個綜合指標(變量)的多元統(tǒng)計方法轉(zhuǎn)化成的綜合指標稱為主成分,每個主成分是原始變量的線性組合且各個主成分之間互不相關(guān),主成分保留原始變量的絕大部分信息問題:100名學生的六門課程的成績:問:能否把6個變量X1,X2,X6(數(shù)學、物理等6科成績),用一兩個綜合變量Y1,Y2來表示?Y1,Y2包含有多少原來的信息呢?能

2、否用綜合變量對成績排序或進行其他分析?例中每個觀測值是6維空間(X1,X2,X6)中的點, 共100個。希望把6維空間用低維空間(Y1,Y2)表示2.2 主成分分析的幾何意義設(shè)有兩變量(數(shù)學、語文成績),構(gòu)成二維隨機向量,觀測次數(shù)據(jù),則樣本點在坐標系下基本分布在一條直線上如圖,在上分散性最大,而在與垂直的方向上變化很小為了分析更清楚,做線性變換 是正交矩陣相當于坐標系逆時針旋轉(zhuǎn)角得新坐標系,原觀測點在新坐標系下可表為旋轉(zhuǎn)后數(shù)據(jù)和分別反映了在垂直方向上數(shù)據(jù)的分散性信息由圖知在軸上數(shù)據(jù)值分散性最大(具最大樣本方差),說明最大而垂直方向上數(shù)據(jù)分散性最小,最小因此,的觀測值基本反映了觀測值變化的基本情

3、況,可用一維隨機變量代替二維隨機變量,達到降維的目的稱為第一主成分,其系數(shù)向量,具有為第二主成分,其系數(shù)向量,O圖41 二維隨機向量的第一、第二主成分示意圖二維隨機向量的100個點構(gòu)成一個橢圓形狀,見上圖主成分分析的目的:構(gòu)造原變量的一系列線性組合,使其方差(或樣本方差)達到最大維隨機向量的主成分其實就是個變量的一些特殊的線性組合,在幾何上這些線性組合正好把構(gòu)成的原坐標系統(tǒng)經(jīng)過旋轉(zhuǎn)后產(chǎn)生新坐標系統(tǒng),這個新坐標系統(tǒng)的軸方向上具有最大的變異,同時提供了協(xié)方差陣的最簡潔的表示(非對角線上為0)2.3總體主成分一.基本理論設(shè)某一事物研究涉及個指標,構(gòu)成-維隨機向量,均值,協(xié)方差陣非負定考慮的一個線性組

4、合(或稱對線性變換形成新的綜合變量):這里對于綜合變量,我們要確定,使得的方差達到最大由于對任意給定的常數(shù),如果對不加以限制,上述問題就變得毫無意義于是限制在下,求的最大值如果第一主成分在方向上的分散性還不足以反映原變量的分散性,再構(gòu)造的線性組合:這里,要求和不相關(guān)(信息不重疊),即,使達最大轉(zhuǎn)化為在約束條件和下,求使得使達最大一般,若還不足以反映原變量的信息,則進一步構(gòu)造的線性組合,求滿足:(1)系數(shù)向量單位化; (2)各主成分不相關(guān),無重疊信息,;(3)主成分方差由此遞減二總體主成分求法維隨機變量,的協(xié)方差矩陣的p個特征值,且特征值所對應的特征向量分別為,則的第個主成分為,且證明:(可略)

5、非負對稱,則存在正交矩陣,使為對角陣,且為標準正交化的特征向量證明:非負對稱,則存在正交矩陣,使為對角陣,且為標準正交化的特征向量(1)第一主成分為選滿足使得最大令 則且當時,上式取等號,從而時,達最大,得第一主成分(2)第二主成分為對第二主成分,滿足,使達最大令 則且由故 當時,上式取等號,從而時,滿足,且使達最大,得第二主成分 類似可證三.總體主成分的性質(zhì)(1)主成分協(xié)方差矩陣及總方差為個主成分構(gòu)成的隨機向量,則,其中為的個正交單位化特征向量構(gòu)成的正交矩陣,主成分向量的協(xié)方差陣為 各主成分的總方差 的各變量總方差分解成不相關(guān)變量的總方差(2)主成分的貢獻率與累計貢獻率第k個主成分的貢獻率它

6、反映了第k個主成分提取全部信息的多少 前k個主成分的累積貢獻率它反映了前k個主成分共同提取全部信息的多少說明:第個主成分與原始變量的相關(guān)系數(shù)稱為因子載荷四.主成分分析PROC PRINCOMP過程 v 基本語句形式:v PROC PRINCOMP ; /* 指出要進行分析的SAS集名稱、輸出集等 */v VAR 變量名稱; /* VAR后面列出數(shù)據(jù)集中參與主成分分析的變量名稱,若省略此句,則數(shù)據(jù)集中所有數(shù)值變量均參與分析*/v RUN;例2.1 設(shè)隨機向量協(xié)方差矩陣為,求主成分解:法一:直接計算(1)求特征根求特征根并依大到小排列,(2)正交單位化的特征向量解得,求出特征根,單位化得解得,任意

7、,求出解,得,求出特征根, 單位化得特征向量對應的特征根不同,故互相正交(3)求主成分(4)貢獻率第一、二三主成分的貢獻率分別為0.7286,0.2500,0.0214法二:程序?qū)崿F(xiàn)data examp2_1 (type=cov); /* 建立數(shù)據(jù)集,數(shù)據(jù)集為協(xié)方差矩陣要加上(type=cov) */_type_=cov; /* 輸入數(shù)據(jù)集為協(xié)方差矩陣要加上_type_=cov */input _name_ $ x1-x3; /* 輸入變量要加上_name_ $,取值可指定為輸入的變量名 */cards;x1 1 -2 0x2 -2 5 0x3 0 0 2;run;proc princomp

8、data=examp2_1 cov outstat=bb; /* 調(diào)用主成分分析的princomp過程,從協(xié)方差陣出發(fā)進行主成分分析,命令一個含變量均值、協(xié)方差陣、特征值、特征向量的輸出SAS集bb */var x1-x3; /* 參與分析變量為x1-x3 */run;proc print data=bb; /* */run;SAS 系統(tǒng) 10:24 Sunday, November 2, 2008 1 The PRINCOMP Procedure Observations 10000 Variables 3Total Variance 8 協(xié)方差矩陣的特征值、各主成分的貢獻率、累計貢獻率 E

9、igenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative 特征值 貢獻率 累計貢獻率 1 5.82842712 3.82842712 0.7286 0.7286 2 2.00000000 1.82842712 0.2500 0.9786 3 0.17157288 0.0214 1.0000協(xié)方差矩陣特征值排序的正交化特征向量 Eigenvectors 第一主成分 第二主成分 第三主成分 Prin1 Prin2 Prin3 x1 -.382683 0.00000 0.923880 x2 0.92

10、3880 0.00000 0.382683 x3 0.000000 1.00000 0.000000輸出數(shù)據(jù)集 含各變量均值、觀測數(shù)據(jù)個數(shù)1000、協(xié)方差陣、特征值和特征向量等 SAS 系統(tǒng) 10:24 Sunday, November 2, 2008 2 Obs _TYPE_ _NAME_ x1 x2 x3 1 MEAN 0.00 0.00 0.00觀測個數(shù)默認10000 2 N 10000.00 10000.00 10000.00 協(xié)方差矩陣 3 COV x1 1.00 -2.00 0.00 4 COV x2 -2.00 5.00 0.00 5 COV x3 0.00 0.00 2.00

11、特征值 6 EIGENVAL 5.83 2.00 0.17 主成分 7 SCORE Prin1 -0.38 0.92 0.00 主成分 8 SCORE Prin2 0.00 0.00 1.00 9 SCORE Prin3 0.92 0.38 0.00五基于相關(guān)系數(shù)矩陣的主成分分析-標準化變量的主成分將標準化 ,則令,的協(xié)方差矩陣恰為的相關(guān)系數(shù)矩陣主成分分析步驟: 1) 求的相關(guān)系數(shù)矩陣的特征值2) 相應的正交化的特征向量3) 的第個主成分為,且有 4) 第k個主成分的貢獻率前k個主成分的累積貢獻率例 2.2 協(xié)方差矩陣為,從出發(fā)進行主成分分析解:程序如下data examp2_2 (type=

12、cov); /* 建立數(shù)據(jù)集,數(shù)據(jù)集為協(xié)方差矩陣要加上(type=cov) */_type_=cov; /* 輸入數(shù)據(jù)集為協(xié)方差矩陣要加上_type_=cov */input _name_ $ x1-x3; /* 輸入變量要加上_name_ $,取值可指定為輸入的變量名 */cards;x1 1 -2 0x2 -2 5 0x3 0 0 2;run;proc princomp data=examp2_2 outstat=bb; /* 調(diào)用主成分分析的princomp過程,從相關(guān)系數(shù)矩陣出發(fā)進行主成分分析,命令一個含變量均值、協(xié)方差陣、特征值、特征向量的輸出SAS集bb */var x1-x3;

13、/* 參與分析變量為x1-x3 */run;從相關(guān)系數(shù)矩陣出發(fā)進行主成分分析The SAS System 20:59 Wednesday, July 14, 2013 4 The PRINCOMP Procedure Observations 10000 Variables 3 Eigenvalues of the Correlation Matrix相關(guān)系數(shù)矩陣的特征值、各主成分的貢獻率、累計貢獻率 Eigenvalue Difference Proportion Cumulative特征值 貢獻率 累計貢獻率 1 1.89442719 0.89442719 0.6315 0.6315 2

14、1.00000000 0.89442719 0.3333 0.9648 3 0.10557281 0.0352 1.0000 Eigenvectors相關(guān)系數(shù)矩陣按特征值排序的正交化特征向量 Prin1 Prin2 Prin3第一主成分 第二主成分 x1 0.707107 0.00000 0.707107 x2 -.707107 0.00000 0.707107 x3 0.000000 1.00000 0.000000從相關(guān)系數(shù)矩陣出發(fā)做主成分分析,即求標準化向量的主成分,的特征值及正交單位化的特征向量分別為, , , , 第一主成分貢獻率下降為 ,前兩個主成分貢獻率97.89%.由此看到,用

15、相關(guān)系數(shù)矩陣求主成分,使得的重要性得到了提升2.4樣本主成分的協(xié)方差矩陣(或相關(guān)系數(shù)矩陣)未知,可以利用樣本協(xié)方差矩陣或樣本相關(guān)系數(shù)矩陣作為或的估計進行主成分分析一.基于樣本協(xié)方差矩陣的主成分分析來自于總體的容量為的樣本觀測數(shù)據(jù) ,樣本協(xié)方差矩陣其中 , 為的樣本均值求主成分步驟:(1)求樣本協(xié)方差矩陣特征值;(2)相應的正交單位化特征向量,;(3)第個樣本主成分 , (4) 第k個樣本主成分的貢獻率 前k個主成分的累積貢獻率(5)第個樣本主成分的個觀測值稱為第個樣本主成分的得分,可以依據(jù)得分對各組樣本觀測數(shù)據(jù)進行排序()樣本主成分的觀測數(shù)據(jù)(得分向量)注意:樣本主成分的觀測數(shù)據(jù)(得分)的協(xié)方

16、差矩陣樣本總方差=二.基于樣本相關(guān)系數(shù)矩陣的主成分分析樣本相關(guān)系數(shù)矩陣出發(fā)進行主成分分析,相當于從標準化樣本的樣本協(xié)方差矩陣出發(fā)進行主成分分析,求出的特征值和正交單位化的特征向量即可樣本總方差為步驟: 1)求的特征值2)相應的正交單位化特征向量,3)第個樣本主成分 , 4) 第k個樣本主成分的貢獻率 前k個主成分的累積貢獻率5)第個樣本主成分的得分()表2.1 個變量的原始數(shù)據(jù)及其主成分得分 序號 原變量 主成分 1 2 例2.3 為全面了解我國西北某省的十家上市公司的獲利能力和經(jīng)營發(fā)展能力,特選取公司如下六個指標進行分析:每股凈收益; :凈資產(chǎn)收益率; :主營業(yè)務收益率;:主營業(yè)務增長率;

17、:凈資產(chǎn)增長率; :總資產(chǎn)增長率其中前三個變量反映了上市公司的獲利能力,后三個變量反映了公司的經(jīng)營發(fā)展能力表1.3給出了這10家公司關(guān)于六個指標在過去三年取值的加權(quán)平均,對其做主成分分析,并按第一主成分對這10家公司的綜合能力進行排序表2.2 10家上市公司的獲利和發(fā)展能力數(shù)據(jù) 公司編號 X1 X2 X3 X4 X5 X6 1 0.021 26.806 57.311 -39.819 -39.819 8.819 2 -0.142 -7.179 16.335 -11.359 -4.766 -4.626 3 -0.737 -62.417 7.359 -18.378 -19.165 12.2894 0

18、.320 7.276 17.372 39.506 19.858 41.939 5 0.160 4.820 38.323 37.113 23.744 34.063 6 0.351 11.842 23.118 14.725 11.616 9.516 7 0.243 5.173 17.515 14.435 123.101 79.489 8 -0.190 -10.912 8.236 -2.746 -7.439 -10.502 9 0.173 7.543 23.978 17.122 21.318 25.701 10 0.367 9.352 16.048 55.621 27.861 18.918 解:程序

19、如下:data examp2_3;input id x1-x6;cards; 1 0.021 26.806 57.311 -39.819 -39.819 8.819 2 -0.142 -7.179 16.335 -11.359 -4.766 -4.626 3 -0.737 -62.417 7.359 -18.378 -19.165 12.289 4 0.320 7.276 17.372 39.506 19.858 41.939 5 0.160 4.820 38.323 37.113 23.744 34.063 6 0.351 11.842 23.118 14.725 11.616 9.516

20、7 0.243 5.173 17.515 14.435 123.101 79.489 8 -0.190 -10.912 8.236 -2.746 -7.439 -10.502 9 0.173 7.543 23.978 17.122 21.318 25.701 10 0.367 9.352 16.048 55.621 27.861 18.918;run;proc corr cov nosimple data=examp2_3; /* 調(diào)用協(xié)方差分析的corr過程,計算協(xié)方差矩陣,不輸出變量的簡單統(tǒng)計量值*/var x1-x6;run;proc princomp data=examp2_3 out

21、=bb; /* 調(diào)princomp過程,用相關(guān)系數(shù)陣進行主成分分析,輸出集bb */var x1-x6;run; /*以下程序?qū)Ω鞴景吹谝恢鞒煞诌M行排名并打印結(jié)果*/data score1; /* 建立新數(shù)據(jù)集score1 */set bb; /* 調(diào)用數(shù)據(jù)集bb */keep id prin1; /* 保留id(編號)、print1(第一主成分得分) */proc sort data=score1; /* 對數(shù)據(jù)集數(shù)據(jù)集score1進行排序,按照prin1降序排列 */by descending prin1; run;proc print data=score1; /* 打印輸出數(shù)據(jù)集sc

22、ore1 */run;(1)調(diào)用協(xié)方差分析的corr過程,計算協(xié)方差矩陣及相關(guān)系數(shù)矩陣The SAS System 19:53 Saturday, October 16, 2012 1 CORR 過程 6 變量: x1 x2 x3 x4 x5 x6 樣本協(xié)方差矩陣S,自由度 = 9 x1 x2 x3 x4 x5 x6x1 0.115856 7.038086 1.469550 6.606916 7.176540 3.832540x2 7.038086 574.072521 227.762290 181.962655 202.129706 127.455392x3 1.469550 227.762

23、290 225.355308 -112.974155 -161.181280 15.099194x4 6.606916 181.962655 -112.974155 853.528265 653.378961 323.896329x5 7.176540 202.129706 -161.181280 653.378961 1896.138991 972.852413x6 3.832540 127.455392 15.099194 323.896329 972.852413 673.171848由樣本協(xié)方差矩陣看出,各指標的樣本方差差異很大,因此從樣本相關(guān)系數(shù)矩陣出發(fā)進行主成分分析(即求標準化的樣

24、本主成分)由SAS proc printcomp 過程得樣本相關(guān)系數(shù)矩陣如下:Pearson 樣本相關(guān)系數(shù)矩陣R及檢驗對應的兩個變量是否相關(guān)的檢驗p值 Pearson 相關(guān)系數(shù), N = 10 當 H0: Rho=0 時,Prob |r| x1 x2 x3 x4 x5 x6 x1 1.00000 0.86300 0.28760 0.66440 0.48419 0.43397 0.00130.05相關(guān) 0.4204 0.0361 0.1562 0.2102 x2 0.86300 1.00000 0.63323 0.25995 0.19374 0.20503 0.0013 0.0494 0.468

25、3 0.5918 0.5699 x3 0.28760 0.63323 1.00000 -0.25759 -0.24657 0.03877 0.4204 0.0494 0.4724 0.4922 0.9153 x4 0.66440 0.25995 -0.25759 1.00000 0.51360 0.42730 0.0361 0.4683 0.4724 0.1289 0.2181 x5 0.48419 0.19374 -0.24657 0.51360 1.00000 0.86109 0.1562 0.5918 0.4922 0.1289 0.0014 x6 0.43397 0.20503 0.0

26、3877 0.42730 0.86109 1.00000 0.2102 0.5699 0.9153 0.2181 0.0014(2)調(diào)用主成分分析的princomp過程,從相關(guān)系數(shù)矩陣出發(fā)進行主成分分析,輸出集bb The SAS System 19:53 Saturday, October 16, 2012 2 The PRINCOMP Procedure Observations 10 Variables 6 Simple Statistics(簡單統(tǒng)計量 均值、標準差) x1 x2 x3 x4 x5 x6Mean 0.0566000000 -0.76960000 22.55950000

27、10.62200000 15.63090000 21.56060000StD 0.3403766541 23.95981054 15.01183892 29.21520605 43.54467810 25.94555545 Correlation Matrix(樣本相關(guān)系數(shù)矩陣R) x1 x2 x3 x4 x5 x6 x1 1.0000 0.8630 0.2876 0.6644 0.4842 0.4340 x2 0.8630 1.0000 0.6332 0.2600 0.1937 0.2050 x3 0.2876 0.6332 1.0000 -.2576 -.2466 0.0388 x4 0.

28、6644 0.2600 -.2576 1.0000 0.5136 0.4273 x5 0.4842 0.1937 -.2466 0.5136 1.0000 0.8611 x6 0.4340 0.2050 0.0388 0.4273 0.8611 1.0000 表2.3 樣本相關(guān)系數(shù)矩陣R的特征值、各主成分貢獻率及累計貢獻率 Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative特征值 貢獻率% 累計貢獻率% 1 3.01107972 1.20332547 0.5018 0.5018 2

29、1.80775425 0.97312513 0.3013 0.8031 前兩個已達80.30% 3 0.83462912 0.55438892 0.1391 0.9422 4 0.28024020 0.22799377 0.0467 0.9890 5 0.05224643 0.03819614 0.0087 0.9977 6 0.01405029 0.0023 1.0000表2.4 樣本相關(guān)系數(shù)矩陣R特征值的正交化特征向量 Eigenvectors(特征向量) Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 第一主成分 第二主成分 x1 0.522844 0.21376

30、4 -.294754 -.196018 -.288537 -.687301 x2 0.396814 0.508698 -.103156 -.392312 -.066345 0.644060 x3 0.100256 0.655312 0.376261 0.489516 0.382587 -.181505 x4 0.416770 -.243670 -.569465 0.584037 0.227017 0.223608 x5 0.444032 -.376518 0.328673 -.370235 0.639571 -.083182 x6 0.433888 -.254864 0.573228 0.29

31、9781 -.552616 0.151465由表2.4知,前兩個主成分的累計貢獻率已達80.31%,因此,取前兩個主成分做進一步分析即可表4.5給出了對應于和的正交單位化特征向量和,由此得到標準化指標的前兩個樣本主成分為為六指標加權(quán)平均,反映各公司在獲利和發(fā)展能力的綜合實力值大,則各公司的獲利能力和經(jīng)營發(fā)展能力越強反映各公司獲利能力與發(fā)展能力的對比,獲利能力大且發(fā)展能力小,則值越大反之,值越大,公司在獲利能力和發(fā)展能力差異越大(3)按第一主成分對各公司進行排序 表2.5 各公司按第一主成分得分的排序結(jié)果 The SAS System 19:53 Saturday, October 16, 20

32、12 3 Obs id Prin1 排名 公司編號 第一樣本主成分的得分 1 7 2.47008 第一,綜合實力最強 2 10 1.32340 3 4 1.29914 4 5 1.02640 5 9 0.54590 6 6 0.48099 7 1 -0.86398 8 2 -1.41227 9 8 -1.60456 10 3 -3.26510想畫出第二主成分對第一主成分得分的散點圖,以及按第一主成分得分排序后的主成分得分和原始數(shù)據(jù),可以把程序改寫如下:data examp2_3;input id x1-x6;cards; 1 0.021 26.806 57.311 -39.819 -39.81

33、9 8.819 2 -0.142 -7.179 16.335 -11.359 -4.766 -4.626 3 -0.737 -62.417 7.359 -18.378 -19.165 12.289 4 0.320 7.276 17.372 39.506 19.858 41.939 5 0.160 4.820 38.323 37.113 23.744 34.063 6 0.351 11.842 23.118 14.725 11.616 9.516 7 0.243 5.173 17.515 14.435 123.101 79.489 8 -0.190 -10.912 8.236 -2.746 -7

34、.439 -10.502 9 0.173 7.543 23.978 17.122 21.318 25.701 10 0.367 9.352 16.048 55.621 27.861 18.918;run;proc princomp data=examp2_3 prefix=y out=bb; /* 調(diào)用主成分分析的princomp過程,從相關(guān)系數(shù)矩陣出發(fā)進行主成分分析,主成分名稱y,輸出集bb */var x1-x6;proc plot data=bb;plot y2*y1 $ id=*; /* 畫散點圖,橫標y1,縱標y2 */ proc sort data=bb; by descending y1; /* 對數(shù)據(jù)集數(shù)據(jù)集bb進行排序,按照第一主成分y1降序排列 */ run;proc print data=bb; /* 打印輸出數(shù)據(jù)集bb */var id y1 y2 x1-x6; /* 輸出一、二主成分及原始數(shù)據(jù)*/run;(4)第一、第二主成分散點圖 The SAS System 19:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論