![第12章主成分分析_第1頁](http://file4.renrendoc.com/view/a9ae4c902505c4742a16c798866318e3/a9ae4c902505c4742a16c798866318e31.gif)
![第12章主成分分析_第2頁](http://file4.renrendoc.com/view/a9ae4c902505c4742a16c798866318e3/a9ae4c902505c4742a16c798866318e32.gif)
![第12章主成分分析_第3頁](http://file4.renrendoc.com/view/a9ae4c902505c4742a16c798866318e3/a9ae4c902505c4742a16c798866318e33.gif)
![第12章主成分分析_第4頁](http://file4.renrendoc.com/view/a9ae4c902505c4742a16c798866318e3/a9ae4c902505c4742a16c798866318e34.gif)
![第12章主成分分析_第5頁](http://file4.renrendoc.com/view/a9ae4c902505c4742a16c798866318e3/a9ae4c902505c4742a16c798866318e35.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第12章主成分分析本章主要內(nèi)容1 概述2 PrinComp過程3 主成分分析2概述科學(xué)研究所涉及的課題往往比較復(fù)雜,是因為影響客觀事物的因素多,需要考察的變量多。在大部分實際問題中,變量之間是有一定的相關(guān)性的,人們自然希望找到較少的幾個彼此不相關(guān)的綜合指標(biāo)盡可能多地反映原來眾多變量的信息。主成分分析(Principal Component Analysis)方法,1901年P(guān)earson最早提出,1933年,Hotelling做了進一步研究。3概述何為主成分?簡而言之,主成分實際上就是由原變量x1xm線性組合出來的個互不相關(guān)、且未丟失任何信息的新變量,也稱為綜合變量。多指標(biāo)的主成分分析常被用來
2、尋找判斷某種事物或現(xiàn)象的綜合指標(biāo),并給綜合指標(biāo)所蘊藏的信息以恰當(dāng)解釋,以便更深刻地揭示事物內(nèi)在的規(guī)律。4概述適合作主成分分析的資料,也適合作因子分析、對應(yīng)分析、聚類分析,何時應(yīng)選擇什么方主要取決于研究目的和對結(jié)果的要求。5PrinComp過程6PrinComp過程SAS的princomp過程計算相關(guān)陣或協(xié)方差陣的特征值和特征向量,當(dāng)特征值按從大到小的順序排列時,則相應(yīng)的特征向量可得到第1主成分、第2主成分等。用少數(shù)幾個主成分代替原始變量,并計算主成分得分。該過程可產(chǎn)生的計算結(jié)果有:簡單統(tǒng)計量(均數(shù)和標(biāo)準(zhǔn)差);相關(guān)陣和協(xié)方差陣;從大到小排列的特征根和相應(yīng)的特征向量等。7PrinComp過程Pri
3、ncomp過程的選項(部分)選項功能和用法Cov從協(xié)方差矩陣計算主成分。如果省略此選項,則使用相關(guān)矩陣。使用cov可以使方差較大的變量與具有較大特征值的主成分相關(guān)更為密切。N指定需要計算主成分的個數(shù)。程序的默認值是變量的個數(shù)。Prefix=為主成分命名。Std(standard)要求輸出數(shù)據(jù)集中包含標(biāo)準(zhǔn)化的主成分值。如省略此項,則輸出數(shù)據(jù)集中含未經(jīng)標(biāo)準(zhǔn)化的主成分值。Noint主成分分析不包括截距。8主成分分析示例12a01:某醫(yī)學(xué)院測得20例肝病患者的項肝功能指標(biāo)SGPT(轉(zhuǎn)氨酶)、肝大指數(shù)、ZnT(硫酸鋅濁度)和AFP(胎甲球),依次用X1至X4表示,觀測數(shù)據(jù)列入數(shù)據(jù)文件。試進行主成分分析。
4、數(shù)據(jù)文件9主成分分析/* SasProg12a01.Sas */data d12a01; INFILE e:sassasdatasasdata12a01.txt; INPUT x1-x4;Proc princomp OUT=d12a02 PREFIX=z; VAR x1-x4;run;data d12a02; SET d12a01; maxz=MAX(OF z1-z4);Proc print;run;OUT=d12a02表示要產(chǎn)生個數(shù)據(jù)集d12a02 ,它包括原始數(shù)據(jù)以及與各觀測值對應(yīng)的個主成分值;PREFIX=Z要求用Z1Z4分別表示4個主成分變量; 若此項缺省,則SAS系統(tǒng)自動用PRIN1
5、PRIN4表示4個主成分變量。10主成分分析結(jié)果解釋:第一部分(Number of Observations, Variables and Partial Variables):觀測數(shù)和變量。第二部分(Simple Statistics):變量的均數(shù)和標(biāo)準(zhǔn)差。第三部分(Correlation Matrix):相關(guān)系數(shù)矩陣。第四部分(Eigenvalues of the Correlation Matrix):相關(guān)系數(shù)陣的特征值。特征值越大,對應(yīng)的主成分變量包含的信息就越多。第1個至第4個主成分的貢獻率分別為42.9563%、27.3384%、24.5337%和5.1716%,最后1列為累計貢獻
6、率,由此列數(shù)值可知:前3個主成分就包含了原來4個指標(biāo)94.828%的信息。11主成分分析結(jié)果解釋:第五部分(Eigenvectors):特征向量。據(jù)此可以寫出由標(biāo)準(zhǔn)化變量所表達的各主成分的關(guān)系式。Z1Z2Z3Z412主成分分析結(jié)果解釋:在各主成分的表達式中,各標(biāo)準(zhǔn)化指標(biāo)xi前的系數(shù)與該主成分所對應(yīng)的特征值之平方根的乘積是該主成分與該指標(biāo)之間的相關(guān)系數(shù),如r(Z1,;r(Z2,;系數(shù)的絕對值越大,說明該主成分受該指標(biāo)的影響也就越大。因此,決定第1主成分Z1大小的主要為X1和X2,即SGPT和肝大指數(shù);決定第2主成分Z2大小的主要為X3,即ZnT;決定第3主成分Z3大小的主要為X4,即AFP;決定
7、第4主成分大小的主要為X1和X2,但作用相反。13主成分分析示例12b01(裴鑫德編著. 多元統(tǒng)計分析及其應(yīng)用. 北京:北京農(nóng)業(yè)大學(xué)出版社. 1991,10 第1版):對30個小麥品種觀測了10項指標(biāo),得到數(shù)據(jù)文件。試由樣本協(xié)差陣和樣本相關(guān)陣進行主成分分析。X1抽穗期X6穗下節(jié)長(cm)X2株高 (cm)X7主穗小穗數(shù)X3單株穗數(shù)X8每小穗粒數(shù)X4主穗長(cm)X9單株粒重(g)x5主穗粒數(shù)x10百粒重(g)14主成分分析/* SasProg12b01.Sas */data d12b01; infile e:sassasdatasasdata12b01.txt;input x1-x10;pro
8、c princomp prefix=y; var x1-x10;run;proc princomp cov prefix=y; var x1-x10;run;由相關(guān)陣R出發(fā)的主成分分析稱為R型分析;由協(xié)差陣S出發(fā)的主成分分析稱為S型分析。求出使累積率達85%以上的前k個主成分。15主成分分析結(jié)果解釋由協(xié)方差陣的特征值(Eigenvalues of the Covariance Matrix)可知,前三個主成分的累積貢獻率已達,表達式為:16主成分分析結(jié)果解釋由第1主成分y1看,它是變量x1-x10的線性函數(shù),且x2(株高)、x6(穗下節(jié)長)的系數(shù)最大;其次x1、x4、x1、x3系數(shù)也較大,這表
9、示第1主成分大時,反映植株較高、穗下節(jié)較長、單株粒重較大、主穗長較長、單株穗數(shù)較多、抽穗期較晚。第1主成分主要反映了植株高度,因此可以稱為植株高度因子。第2主成分主要反映了穗部性狀因子;第3主成分主要反映了植株群體大小因子。17主成分分析結(jié)果解釋由相關(guān)陣的特征值(Eigenvalues of the Correlation Matrix)可知,前五個主成分的累積貢獻率已達,表達式為:y1= 0.261839 x1 +0.478942 x2 +0.219693 x3 +0.403641 x4 -.175722 x5 +0.512654 x6 -.036207 x7 -.185702 x8 +0.
10、398313 x9 -.052176 x10y2= 0.251823 x1 +0.029450 x2 -.079521 x3 +0.230171 x4 +0.597503 x5 +0.009700 x6 +0.463309 x7 +0.495711 x8 +0.158125 x9 +0.184185 x10y3= 0.153333 x1 -.207673 x2 +0.638507 x3 -.276764 x4 +0.119603 x5 -.158753 x6 -.135651 x7 +0.210237 x8 +0.358787 x9 -.467156 x10 y4= -.519780 x1 +
11、0.052873 x2 +0.192137 x3 +0.116774 x4 +0.129460 x5 +0.158279 x6 -.546393 x7 +0.408960 x8 +0.100397 x9 +0.398491 x10 y5= 0.393837 x1 -.373731 x2 +0.045647 x3 +0.028699 x4 -.189090 x5 -.269972 x6 -.124743 x7 -.189863 x8 +0.382802 x9 +0.628907 x10 18主成分分析結(jié)果解釋第1主成分為植株高度因子;第2主成分主要反映了穗部性狀因子;第3主成分主要反映了植株群體
12、大小因子;第4主成分為熟期早晚因子;第5主成分是粒重因子。一般來說,R型分析累積方差貢獻率達85%以上時,一般主成分的的個數(shù)k要比S型分析所取得的主成分的個數(shù)k要大,因而主成分實際意義的解釋范圍就更廣一些。此外,R型分析還有消除指標(biāo)量綱影響的作用,因而在實際問題中R型分析用的比較多。19主成分分析示例12c01(黑龍江農(nóng)墾總局課題. 大學(xué)生體形和身體素質(zhì)綜合評價的研究. 2002,8):對50名女大學(xué)生測定6項體型指標(biāo):x1:身高(cm);x2:體重(kg);x3:胸圍(cm);x4:坐高(cm);x5:肩寬(cm);x6:骨盆寬(cm)。 對50名女大學(xué)生測定5項身體素質(zhì)指標(biāo): x1:50m
13、跑(秒);x2:800m跑(秒);x3:立定跳遠(m);x4:鉛球(m);x5:仰臥起坐(個/分)。 對50名男大學(xué)生測定5項身體素質(zhì)指標(biāo): x1:50m跑(秒);x2:1000m跑(秒);x3:立定跳遠(m);x4:鉛球(m);x5:引體向上(個)。 20主成分分析/* Sasprog12c01.Sas */data d12c01; infile e:sassasdatasasdata12c01.txt; input name $ x1-x6;proc princomp prefix=z; var x1-x6;run;21主成分分析結(jié)果分析:前2個主成分的累積貢獻率已達85.16%。前2個主
14、成分的表達式分別為: Z1 x1x2x3x4x5x6 Z2 x1x2x3x4x5x6從第一主成分看,身高x1、坐高x4、肩寬x5、骨盆寬x6的系數(shù)比較大,因此,當(dāng)大學(xué)生的6個指標(biāo)值代入第一主成分表達式所得第一主成分值較大時,必有身高較高、坐高較高、肩寬較寬、骨盆較寬等趨勢,因此我們可以認為第一主成分為健壯因子。第二主成分中,胸圍x3的系數(shù)最大,體重x2的系數(shù)也較大,說明第二主成分主要反映肥胖程度,因此可稱第二主成分為豐滿因子。于是,根據(jù)以上2個主成分就可判斷女同學(xué)的體形情況。將測定的指標(biāo)代入上面2個主成分表達式中,若Z1較大,則為健壯型的;若Z2較大,則為豐滿型的。22主成分分析/* Sasp
15、rog12c02.Sas */data d12c02; infile e:sassasdatasasdata12c02.txt; input name $ x1-x5;proc princomp prefix=z; var x1-x5;run;23主成分分析結(jié)果分析:前4個主成分累積貢獻率達到93.69%。表達式分別為: Z1 = 0.5272x1+0.4986x2+0.4453x3+0.4985x4 - 0.1634x5 24主成分分析結(jié)果分析:從第一主成分看,50m跑x1系數(shù)最大,因此,當(dāng)大學(xué)生的5項身體素質(zhì)指標(biāo)值代入第一主成分表達式所得第一主成分值較大時,首先是短跑較快的學(xué)生,因此我們可
16、以認為第一主成分為爆發(fā)力因子。從表達式系數(shù)可以看出,800m跑x2 、鉛球x4 、立定跳遠x3的系均也比較大,說明第一主成分與耐力、力量等也有較大相關(guān)性。第二主成分中,仰臥起坐x5的系數(shù)最大,說明第二主成分主要反映了腰腹的強健程度。第三主成分中,立定跳遠x3的系數(shù)最大,說明第四主成分是反映學(xué)生彈跳力的因子。第四主成分中,鉛球x4的系數(shù)最大,說明第四主成分是反映學(xué)生力量的因子。25主成分分析/* Sasprog12c02.Sas */data d12c02; infile e:sassasdatasasdata12c02.txt; input name $ x1-x5;proc princomp
17、 prefix=z; var x1-x5;run;26主成分分析結(jié)果分析:需要前4個主成分累積貢獻率達94.14%。表達式分別為: Z1 = 0.5389x1 + 0.4808x2 + 0.4903x3 + 0.4762x4 + 0.1063x5 27主成分分析結(jié)果分析:從第一主成分看,50m跑x1系數(shù)最大,因此,當(dāng)大學(xué)生的5項身體素質(zhì)指標(biāo)值代入第一主成分表達式所得第一主成分值較大時,首先是短跑較快的同學(xué),因此我們可以認為第一主成分為爆發(fā)力因子。從表達式系數(shù)可以看出,1000m跑x2 、鉛球x4 、立定跳遠x3的系均也比較大,說明第一主成分與耐力、力量等也有較大相關(guān)性。第二主成分中,引體向上x
18、5的系數(shù)最大,說明第二主成分主要反映了臂膀的強健程度。第三主成分中,鉛球x4系數(shù)較大,說明男同學(xué)身體素質(zhì)好要有一定的力量基礎(chǔ)。該主成分中1000米跑x2的系數(shù)數(shù)值很大,但呈負相關(guān)關(guān)系,與女同學(xué)的情況剛好相反。第四主成分中,立定跳遠x3的系數(shù)最大,說明第四主成分是反映同學(xué)彈跳力的因子。28主成分分析示例12d01(李方敏,艾天成,周治安等. 用主成分分析法評價漬害土壤肥力. 地域研究與開發(fā). 2001, 20(4):65-67,80):選取具有湖北省四湖地區(qū)典型盆碟狀地貌特征的潛江市國營高場農(nóng)場不同漬害程度的17個樣點的水稻土作為研究對象。測定和調(diào)查10項指標(biāo):土壤有機質(zhì)(t1)、易氧化有機質(zhì)(t2)、土壤有機質(zhì)氧化穩(wěn)定性(Kos值)(t3)、堿解氮(t4)、速效磷(t5)、速效鉀(t6)、陽離子代換量(CEC)(t7)、20m粒徑含量(t8)、20m含量比(t9)、地下水埋深(t10)。數(shù)據(jù)文件29主成分分析/* Sasprog12d01.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三年級數(shù)學(xué)上冊教學(xué)詳案-第3單元1捐書活動(北師大版)
- 2025年金屬門窗及類似制品合作協(xié)議書
- 2025年產(chǎn)品采購合同經(jīng)典版(三篇)
- 2025年個人獨資企業(yè)解散協(xié)議(三篇)
- 2025年個人機械加工合同模板(2篇)
- 2025年個人設(shè)備維修合同模板(三篇)
- 2025年個人裝修承包合同常用版(2篇)
- 2025年企業(yè)臨時用工聘合同(4篇)
- 2025年個人租賃房屋協(xié)議(2篇)
- 沿江服裝運輸合同
- 小學(xué)六年級數(shù)學(xué)上冊《簡便計算》練習(xí)題(310題-附答案)
- 2024年中國養(yǎng)老產(chǎn)業(yè)商學(xué)研究報告-銀發(fā)經(jīng)濟專題
- 高教版2023年中職教科書《語文》(基礎(chǔ)模塊)下冊教案全冊
- 人教版英語七年級上冊閱讀理解專項訓(xùn)練16篇(含答案)
- 護理教學(xué)查房評分標(biāo)準(zhǔn)
- GB/T 23505-2017石油天然氣工業(yè)鉆機和修井機
- 《清廉文化進校園》廉潔文化教育主題班會課件
- 人工智能發(fā)展史課件
- 古樹名木保護建設(shè)項目可行性研究報告
- 幼小銜接學(xué)拼音
- 運動技能學(xué)習(xí)與控制課件第九章運動技能學(xué)習(xí)概述
評論
0/150
提交評論