SAS主成分分析報告_第1頁
SAS主成分分析報告_第2頁
SAS主成分分析報告_第3頁
SAS主成分分析報告_第4頁
SAS主成分分析報告_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、實用標準文案SAS主成分分析分類:數(shù)據(jù)之美 2013-07-28 20:18 2343 人閱讀 評論(0)收藏 舉報 目錄(?)-1.主成分分析流程2.SAS主成分分析示例3.SAS主成分分析輸出結(jié)果詳解4.特征值和特征向量隱藏的秘密5.總結(jié)6.參考文獻同事講主成分分析,舉了這么個例子:就像你選女人,有身材、相貌兩 個指標,如果身材、相貌都很突出,那當然很好選擇;但如果兩個女人, 一個身材突出,一個相貌出眾,看著都很喜歡,那可如何是好!這個時 候通過主成分分析,匯總出一個指標,這個指標可以一定程度上代替原 來的身材、相貌,這時就可以排序做出選擇了。這例子當然有很多缺陷,但至少指出了主成分分析的

2、目的之一:減少決策變量數(shù),也就是降維。主成分分析的另一個目的是防范多重共線性。實際問題往往涉及很多變量, 但某些變量之間會有一定的相關(guān)性, 我們 希望構(gòu)造較少的幾個互不相關(guān)的新指標來代替原始變量,去除多重共線性,減少所需分析的變量,同時盡可能減少這一過程的信息損失。主成 分分析正是基于這樣的目的而產(chǎn)生的有效方法。主成分分析流程主成分分析包含以下流程:1、原始數(shù)據(jù)標準化。2、計算標準化變量間的相關(guān)系數(shù)矩陣。3、計算相關(guān)系數(shù)矩陣的特征值和特征向量。4、計算主成分變量值。5、統(tǒng)計結(jié)果分析,提取所需的主成分。SAS主成分分析示例我們從實戰(zhàn)入手,先來個簡單的例子,完整體驗使用SAS進行主成分分析的過程。

3、準備好圖1所示的數(shù)據(jù)集,該數(shù)據(jù)集包含 5個變量和22個觀測。其中變量num用于標識每條觀測。圖1可以直接復制下面的程序完成輸入:data Practice.PCA_Demo;in put num varl var2 var3 var4;cards;12110.799.79.529.517.9139.618.7321.28.4906.841222.742.524.156.868.222.455.622.673.629.268.326.7819.515.218.817.4924.85.443.72.9108.418.6146.219.711.11219

4、.51328.34.713.31.81424.712.1116.812.61512.823.69023.71623.16.8100.13.71715.113.7100.914.2182.96.280.72.71918.411.899.313.82022.912.347.613.321225.829.4 83.5 27.618.8 8.661.1 8.9Jrun ;我們的目的是,化簡var1-var4四個變量,找出可以替代這四個變量的若干個彼此獨立的新變量,也就是找出主成分。主成分分析代碼如下:proc princompdata = Practice.PCA_Demoou

5、t = Work.PCA_Demo_outprefix = compoutstat = Work.PCA_Demo_statJvar var1 var2 var3 var4;run ;這段代碼翻譯過來的意思是:對源數(shù)據(jù)Practice.PCA_Demo 的四個變量var1、var2、var3和var4 (以下簡稱原始變量)做主成分分析,輸 出結(jié)果(包含源數(shù)據(jù)的所有變量及新增的主成分變量)放在Work.PCA_Demo_out數(shù)據(jù)集,主成分變量名的前綴使用comp。相關(guān)變量的統(tǒng)計結(jié)果(均值、方差、特征值、特征向量等)輸出到Work.PCA_Demo_stat 。程序運行后,輸出界面顯示如圖 2T

6、he PRINCOMP ProcedureObservat i ons22Varimbles4Simple StAt istles文檔大全Mean StDvarlIB.130808088.04788vair214.6SSB8S3B7.67899557vdr37L2727272740.Q070S677var414.213S383S6.5777293SCorrBlation Matrixvar1var2var3var+廿LOOOO-.?353-.357S-.6931如2-_?359i.oauoo.ie?efl.9752var3-8B780.19261.00000.1739/a r4-.88910.

7、S7G20.17391.0000Ei$envalues of ihe Correlai ion MatrixE i env a 1 ueD iff enenceProhort ionCumulit i ve12.&S54G7&41.744191S60.87490,674320.951276090.E23691560.23760.9127s0.3275M520.30591277o.oeis0.944640.021671760-00541.0000Eieriecl.or3complcomp 2ccwip3goiw4varl-.580270-.1114940.B3S0210.D8G318var20.

8、2022-.2322860.26242SG.789776var8K326150.9340480.27Q623D.O14334vaM0.570924-.2479170,39370573732輸出結(jié)果Work.PCA_Demo_out 存放了原始數(shù)據(jù)集的所有變量以及新變量compl、comp2、comp3 和comp4 ,分別代表第1至第4主成分,它們對原始變量的解釋力度依次減少。numirarlvazr2war3vaz4complcomp3co mp4112110.799.79 5-76。更 34o. oe229.517.9190.6IB. 71.301.60舊-,0B3321.20.490e.

9、 9-L 2J 77. M 05441222.742.524 11.3C-1.10. 11-05556.921. 255.222 41.S7-朋-.4-126S8.222 455 &22 &1.5Q-.73-2右C773 e-29.2326 72.75-0.72E0 266&15.515.319. S17 4-.267.40. 1C-179924 8S. 443.7么&-2. 2-.16-.IS0. 11010EVlB.e146.2K.T1 62L58訊-0, 1111126.94.44,91. 1-2.9-10. 171212IS.515. 110.2IS. 5-.25-1.6. 15-.2

10、713134.713.31.?-E.7-.96-.050. H1424,7IE. 11L6.SLOTLW01515U.&23.69D23. T1.&5-.060.52a.16覽23.16.3100.13 T-L.&1. 12. ie0. 17171715 113. 7100 914 20. 16,730. 06-.06IS102.95.260 72.T-.ITE.-.0319嗎ia. 411.899.313. aa Te 31-a. 2202022 912.347. B13.3-si-55n. 420E1215.89. 463 527. &2 T7-410.13 062E216.3a &61,

11、1d 3-1(J. OB-25-.u一同輸出的還有統(tǒng)計結(jié)果 Work.PCA_Demo_statType ofObservationNajne ofVari able&rCompoin&ntVUlvarvar3Y苛41EAT16. 19090909114 96363636471.2T272T27314. 21363&3642STD6.041696037. 6799395T4140.00T09&7738.5?77263&473IT222222224CORKvar lL-0 T3525564T-0.357900243-0. 6830847465CORRvar 2-0. 73525564710.19

12、257044990.9752174995&CORkvar 3-0. 3579002430.1B2570449910OR.var 4-0 &830&47460. 97521749050.173898291818EIGEWAL2.699467676. 9S1276OTO30.32T5a452430. 021&T1T59gSCOREcompl-0 5302703290. 5E2O2212fi00 2326145510. 57092339141CJSCtJMcomp2-0. 111493681-0 2322662520 5340463283-0. 24791743S11sco

13、wcontpS0 S5M211S3e0. 20242沁50 27062356560j39fl7O4M3412:scoocomp40.0&319530.7337761230 0143-93K23-0.673731660現(xiàn)在,我先假設(shè)你是個急性子,你可能會對我說:“不必告訴我這些輸 出結(jié)果的含義,我給了你四個變量,你只要返回給我較少的可用的字段 就可以了?!蹦敲次視卮鹉?,新的變量 compl和comp2就可以替 代原來的四個變量varl、var2、var3和var4,因為這兩個變量合起來 解釋了原來四個變量91.27%的信息,能夠滿足要求。何以見得?請看圖2的第4部分輸出Eigenvalues

14、of the CorrelationMatrix,第四列Cumulative 顯示,第一個特征值分量占比 0.6749(67.49% ),第1、2個特征值合起來占比 91.27%85%,因此新變量comp1和comp2已經(jīng)足以替代原有四個變量,它們是源數(shù)據(jù)集的 主成分。沒錯,在SAS上進行主成分分析,就是這么簡單,結(jié)果的使用也不復 雜,大多數(shù)情況下到此也就足夠了。不過出于對科學本質(zhì)的好奇,我們 還是要詳細研究下每項輸出結(jié)果的含義,以便更好地理解主成分分析。SAS主成分分析輸出結(jié)果詳解作為細節(jié)強迫癥重度患者,圖2圖4只要有個點沒搞清楚都覺得寢食難安。我們先來看圖2。第1部分很簡單,指出觀測數(shù)為

15、22,變量數(shù)為4,也就是我們在var 語句中指定4個原始變量。Mean第2部分Simple Statistics 是對原始變量的簡單描述性統(tǒng)計,是均值,StD是標準偏差(注意標準偏差與標準差的區(qū)別)。Mean的計算公式我們都很熟悉,就是(1)標準偏差StD的計算公式是:(2)第3部分Correlation Matrix是原始變量的相關(guān)系數(shù)矩陣,其中的元 素代表4個原始變量兩兩之間的相關(guān)系數(shù)。相關(guān)系數(shù)的計算公式是:r _刀二 (購一總世一罰則仏一莎尸伽一耳尸(3)從原始變量的相關(guān)系數(shù)矩陣可以看出,變量var1和var2、var1和var4呈現(xiàn)出較為顯著的負相關(guān),變量var2和var4則是強烈的正

16、相關(guān),其相關(guān)系數(shù)高達0.9752。第 4 部分 Eigenvalues of the Correlation Matrix輸出了相關(guān)系數(shù)矩陣的特征值。Eigenvalue 列從大到小依次展示了 4個特征值,特征 值越大,表示對應的主成分變量包含的信息越多,對原始變量的解釋力 度越強。Differe nee 是相鄰兩個特征值的差,比如1.74819156 = 2.69946764 -0.95127608Proportion 表示主成分的貢獻率,也就是,比如第 1個特征值的貢獻率 0.6749 = 2.69946764 /(2.69946764+0.95127608+0.32758452+0.02

17、167176)。Cumulative 則是累計貢獻率,到第 2個特征值累計貢獻率0.9127 =0.6749 + 0.2378。我們在判斷應提取多少個主成分時,根據(jù)的就是累計貢獻率。0.9127的累計貢獻率說明特征值1和特征值2對應的主成分變量comp1和 comp2合起來能夠反映原始變量 91.27%的信息,能夠滿足應用需求。這時我們可以作出決策:提取兩個主成分comp1和comp2代替4個原始變量。而如果我們希望主成分變量對原始變量的解釋力度應達到95%以上,那么就需要加入comp3,共提取3個主成分,其累計貢獻 率達到99.46%。而提取全部4個主成分變量,則沒有達到降維的目的, 意義已

18、經(jīng)不大。至于這個累計貢獻率要達到多少才算滿足需求,需要視 具體業(yè)務需求而定,我們的參考值是85%。第5部分Eigenvectors是特征值對應的特征向量。圖 5 一秒鐘告訴你 特征值和特征向量如何對應。圖中的第 1個特征值入=2.699467638 對應第一個特征向量 V=(-0.530270329, 0.582022127, 0.232614551,0.570923894)。同理可知第2個特征值和第2個特征向量的對應。Correlat ion MsitfizxTar!vir?r37Sir4varl var2var41.OOOC-.7353-.3579-,0831-.73531.C0090.3

19、8260.9762-.95790J8281.00000 J79S-.68310*375?0.1739LOOOC2 、 EieenYiIue112.6934&?64|II.95127B0BU.9274520.02IS7176Di fference1.746191500.G23691560.30591277Preport i on0.67490.2370U.0S130.0054CuKMjIat I YP0,B7490.31270.99461.0000cam plVari(- .539270var?0.5621)22var3O.28?615Y9ir40.5724CO ftp?comp8comp 40

20、.0860210.0AB919-,232?SS0f!B4230.7397760,334048(1.2706230.01494-.2473170爲胛7M-.673752E igenyectorsEigenvalues of the Cto rreI ali on Matrix特征值和特征向量的計算,依據(jù) KW =入卩的公式。這里A是相關(guān)系數(shù)矩陣(見圖5)可以自行驗證下面的等式是成立的。1-0.73;255647-0.35)7900243說 3084746-0-7352556471.(11825704 &0.975217498-0357900243 -0.683084746 A0.18257045

21、0.97521749910J73888292()173888292I丿-0.5302703!fl.582022120.23261455O.S70923892.fi994fi7638-0.530270329 0.5S 20221270.2326145510.570923894 /若要自行計算特征值和特征向量,可以在proc iml過程步中調(diào)用eigen上面計算相關(guān)系數(shù)矩陣的特征值和特征向量代碼如下:proc iml ;A= 1 - 0.735255647- 0.357900243- 0.683084746-0.7352556471 0.182570450.975217499,-0.3579002

22、430.182570451 0.173888292,-0.6830847460.9752174990.1738882921;call eigen(eigenvalues, eigenvectors. A);print A eigenvalues eigenvectors;quit ;現(xiàn)在,我們要解讀圖3,根據(jù)前面的分析,在圖3的數(shù)據(jù)集Work.PCA_Demo_out 中,我們只要保留 num、comp1 禾口 comp2三個字段,所形成的新數(shù)據(jù)集就可以替代源數(shù)據(jù)集,供未來的分析所使用。接下來,我們要來回答:主成分變量comp1、comp2、comp3和comp4的值是怎么來的?我們知道,主成

23、分變量是原始變量的線性表示,用公式表示如下:UXM(4)其中,X表示原始變量對應數(shù)據(jù)組成的矩陣(以下稱為原始數(shù)據(jù)矩陣),U是特征向量以列向量形式依次排列組成的矩陣(以下稱為特征向量矩陣)。在我們的示例中,211(L7呱了9.5 9.517.9139 j618721J8A906.8L222.742.524 JG8212522248.222 42263.029.268.326.719,515,218.81742485.443.72.9&4l&(i146.219.728.94.449LI19.515. i10.218.528,34.7133L824-Z12.1116.812.612.823. G90

24、23723 16.S100-13.715113.7UKL914衛(wèi)2.9G22.7ISA11.8313.899 g丄2347G13.35.829.43.5276L8J61/18.9 JX =(-0.5902703290.58202212680.232614551 0詣打旳238944-3,111493901 -0.2322862&20.9340483283-3.247317436(L83G02118380.2624232125(L270G23365G(L39 870494340.08631949G3 0733776123|0.0L4393fl223 I-0.G73731668 丿那么公式(4 )

25、的計算結(jié)果是:/ 23.7185.9531.134.7 X4831100.42S0.464.241.417L295P73.7517.1188.4349.0G5.9381J485J749.193.2422.3872.9520.974.1428.09845550.852.3813.6835.7G40.562.7349.2263.6946,174.68 14.3350J838 J62.82 丿什么?跟實際輸出結(jié)果不符?挺好的,掉一次坑你就印象深刻了。事實上主成分數(shù)據(jù)矩陣不是原始數(shù)據(jù)矩陣和特征向量矩陣直接相乘的結(jié)果, 而是原始數(shù)據(jù)標準化后的數(shù)據(jù)矩陣和特征向量矩陣相乘的結(jié)果。這就回到我們在主成分分析流程

26、就已經(jīng)提到的至關(guān)重要的第一步:原始數(shù)據(jù)標準化!數(shù)據(jù)標準化使得變量的平均值為0,標準偏差為1,消除了不同量綱對分析過程的影響。圖3的輸出結(jié)果是有缺失的,我們看不到原始變量的標準化變量。我們可以使用proc standard 過程步來查看數(shù)據(jù)標準化的結(jié)果,代碼如下: proc standarddata = Practice.PCA_Demo out = Work.PCA_Demo_std mea n = 0std = 1 ;var varl var2 var3 var4;run打開輸出數(shù)據(jù)集Work.PCA_Demo_std ,就能看到轉(zhuǎn)化結(jié)果:MunrsrlViir2vst41L0.5975-0

27、.503080. 710560.5522-0 3310 4344261.71/1380.523330 G224-0.602S6. 4631-0. 86444-0.5211 D59431-0. 71SZ1. 152655-1.1670.664117-o. mr0.05446&-o.m1. 020X9-. 3BLT. 9777T7-1 5641.BD5TBZ- 07431. 455T63tJ.41120 062301-1.31L60.3715991 C59T-i崗?-0.6692-1.3191010-0 9&30. 535ST21.67295 &39611111.5792-1.3234-i.e59

28、-1 52912120.4112a.oem-1.52650.409713131.5CK5-i 26434-I 1491-I 44714141.05737 32碣1. 13798-0. ISB1515-0.4J11 lTBftl它0 48811. 105915IS0.3565-L01090.72055-1.226IT17-0J36-U 11&0.7-1055-0.QOEia10-1 651T. 009020. 23554-1.34219190.27454).359050. 70056-0. MB20200.S33B-0 25475-D. StilT-C.10T2121-I 211.9313330

29、 30553i seoe22220 322-OTT8S2-0. 2543-0.619現(xiàn)在,我們來修正下公式(4)( 5) 其中,X堿是X的數(shù)據(jù)標準化后的矩陣/ 0.5S8-(L831-0-503 fl .4340.7111J8-a.55 0.5230.622-0.8C30.468-0.864-0.52LL05D-0-7191.153-1.167fl .864-0 4020.054-IL993LO2-0,392).9781射41.900-0.0741.45604110.083-1.312)3711.07-L193-068-1.31D-0.9681.873(Jj64V1,579-1.323-1.0

30、59-L5290.4110.07-1.5270.51.505-L284-L44-1.4471.057-0.3211138-0-L88-0.4211.1770468l.LOG0.858-LO110.721-1.226-1)136-0.112C.741-0.002-1.1551-1.089(1.230-L3420.274-03G0.701山(1480.834-fl-205-0-592-0.107-1 2911 9321.5611 0.324-0777_(U54(UL9 J現(xiàn)在再計算一遍Y,看看是不是如下結(jié)果呢?-fl.7580.850 341a 0631.458()09-0.081-L1820.7

31、680-0920.0541.383-L1450.108-U.D54L573-O.S2-0.477-0.115L5S7-fl. 734-0.279-O.tlOl2753-(teas0.2480.282-0,2G3-1820.159-0.173-2J75-o.ie-0.131“UM1.621.577DJD9-0J02k04-0.0800.171-0,247-1.6120.148-0.272-2709-).865-0.0480A42-0.5SLOGS1433-0.0011.C49-0.0630.5240.089-1.576LU50.159ii.ibS0.733U.()57-0.082-0.470x9

32、89-2.138-0.03 1-0.220J190.305-0-198-fl-812-0.5510.417-0.081-0.4050.12(L259-L(1370.06-0.128y =矩陣的乘法公式告訴我們,本質(zhì)上,某一個樣本(比如樣本 1 : (1, 21,10.7, 99.7,9.5)的第一主成分變量的值(-0.75812 ),就是原始變量 標準化后組成的行向量 (0.598, -0.503, 0.711, -0.55)與第一特征向量(列向量)(-0.530270329; 0.582022127; 0.232614551;0.570923894 )的乘積。第二主成分變量值,是原始變量組成

33、的行向量與第二特征向量(列向量)的乘積。依次類推。proc corr 過程步我們來驗證一下主成分變量之間是否線性無關(guān)。使用可以計算變量之間的相關(guān)系數(shù),代碼如下:proc corrdata = Work.PCA_Demo_outout = Work.PCA_Demo_Comp_Corrvar comp1-comp4;with comp1-comp4;run ;輸出結(jié)果為:CORR迢程4 With孌至;coinplcdhr2chip3cowp44SE:coinplcoifcp2cmip3comr4圖單銃計里P1P2MP4 c G c CN均值標淮偏差總和最小值最大值1101.648010-2.36

34、6332.771102200.J7533Q-LS1152L5770Q22Q0.572350-M3786L03E712290J47210-0.271500.23160Pear sen相矣芙藪,N - 22當 HO: Rho=0 日不 ProbIrlcomp4complcomp2COUPScompl1.00900O-ODOCO0.000000.00000i.oonoLOOOOI.OOCOcomp2O.DOdOOLDOODOc.oooooO.OPOCOkoaooLOOOO1.0000co mp3o.qouooO.OQOOO1.00000Q.OOOCO仁(W1.0000i.ooeoconip4a.oo

35、aooo.oaooog.QDOOO1.ooocokoaoo1.00001.0000可以看出,主成分變量之間的相關(guān)系數(shù)都為零最后我們來說說圖4的統(tǒng)計結(jié)果 Work.PCA_Demo_stat ,它其實就是把圖2的輸出結(jié)果存入數(shù)據(jù)集中。從表中Type of Observation 字段可以看出,MEAN表示均值,STD 是標準偏差,N是觀測數(shù),CORR是相關(guān)系數(shù),EIGENVAL是特征值, SCORE是以行向量形式表示的特征向量。特征值和特征向量隱藏的秘密主成分變量對應的特征向量的每個元素,與對應的特征值的平方根的乘積,等于該主成分變量,與該元素列標簽對應的原始變量之間的相關(guān)系 數(shù)。這是特征值與特

36、征向量隱藏的秘密, 可以用矩陣代數(shù)嚴格推導出來。不過這句話讀起來比較費勁,我們用圖8來表示這一關(guān)系。圖中的eigVec1至eigVec4 是4個特征向量,對應的特征值分別為 eigVal1 至eigVal4。我們在每個列中進行操作,用特征向量每個元素分別乘以 對應特征值的平方根,得到該主成分變量與所有原始變量的相關(guān)系數(shù)。特til向量eigVecleigVec2eigVecSeigV&c4-0.5303-0.11150.83600.086315820-0.23230-2624073380.23250.93400.27060.01440.5709-0.247303987-0.6737聞值eigValleigVal2eigVaBeigVaM2,5995I0.95131032760.0217特彳正值平方根*qrt(igVa11)V iqrt(mgVa2)sqrt(eigVal3)&qrt(eigVal4)1.54300.97530.57240.1472相關(guān)系數(shù)complcomp2comp3corrip4-0.8712-0.10870.47850.0127var20,9563、-0.22660.15020.1080var

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論