實(shí)例說(shuō)明利用Excel進(jìn)行主成分分析_第1頁(yè)
實(shí)例說(shuō)明利用Excel進(jìn)行主成分分析_第2頁(yè)
實(shí)例說(shuō)明利用Excel進(jìn)行主成分分析_第3頁(yè)
實(shí)例說(shuō)明利用Excel進(jìn)行主成分分析_第4頁(yè)
實(shí)例說(shuō)明利用Excel進(jìn)行主成分分析_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、方法:1 利用Excel2000進(jìn)行主成分分析第一步,錄入數(shù)據(jù),并對(duì)進(jìn)行標(biāo)準(zhǔn)化?!纠恳唤M古生物腕足動(dòng)物貝殼標(biāo)本的兩個(gè)變量:長(zhǎng)度和寬度。圖1 原始數(shù)據(jù)和標(biāo)準(zhǔn)化數(shù)據(jù)及其均值、方差(取自張超、楊秉庚計(jì)量地理學(xué)基礎(chǔ))計(jì)算的詳細(xì)過(guò)程如下: 將原始數(shù)據(jù)繪成散點(diǎn)圖(圖2)。主持分分析原則上要求數(shù)據(jù)具有線性相關(guān)趨勢(shì)如果數(shù)據(jù)之間不相關(guān)(即正交),則沒(méi)有必要進(jìn)行主成分分析,因?yàn)橹鞒煞址治龅哪康木褪怯谜坏淖兞看嬖瓉?lái)非正交的變量;如果原始數(shù)據(jù)之間為非線性關(guān)系,則有必要對(duì)數(shù)據(jù)進(jìn)行線性轉(zhuǎn)換,否則效果不佳。從圖2 可見(jiàn),原始數(shù)據(jù)具有線性相關(guān)趨勢(shì),且測(cè)定系數(shù)R2=0.4979,相應(yīng)地,相關(guān)系數(shù)R=0.7056。 對(duì)數(shù)據(jù)

2、進(jìn)行標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化的數(shù)學(xué)公式為這里假定按列標(biāo)準(zhǔn)化,式中,分別為第j列數(shù)據(jù)的均值和標(biāo)準(zhǔn)差,為第i行(即第i個(gè)樣本)、第j列(即第j個(gè)變量)的數(shù)據(jù),為相應(yīng)于的標(biāo)準(zhǔn)化數(shù)據(jù),為樣本數(shù)目。圖2 原始數(shù)據(jù)的散點(diǎn)圖圖3 標(biāo)準(zhǔn)化數(shù)據(jù)的散點(diǎn)圖 對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化的具體步驟如下: 求出各列數(shù)據(jù)的均值,命令為average,語(yǔ)法為:average(起始單元格:終止單元格)。如圖1所示,在單元格B27中輸入“=AVERAGE(B1:B26)”,確定或回車(chē),即得第一列數(shù)據(jù)的均值;然后抓住單元格B27的右下角(光標(biāo)的十字變細(xì))右拖至C27,便可自動(dòng)生成第二列數(shù)據(jù)的均值。求各列數(shù)據(jù)的方差。命令為varp,語(yǔ)法同均值。如圖1所示,

3、在單元格B28中輸入“=VARP(B2:B26)”,確定或回車(chē),可得第一列數(shù)據(jù)的方差,右拖至C28生成第二列數(shù)據(jù)的方差。 求各列數(shù)據(jù)的標(biāo)準(zhǔn)差。將方差開(kāi)方便得標(biāo)準(zhǔn)差。也可利用命令stdevp直接生成標(biāo)準(zhǔn)差,語(yǔ)法和操作方法同均值、方差,不贅述。 標(biāo)準(zhǔn)化計(jì)算。如圖1所示,在單元格D2中輸入“=(B2-$B$27)/$B$29”,回車(chē)可得第一列第一個(gè)數(shù)據(jù)“3”的標(biāo)準(zhǔn)化數(shù)值-1.786045,然后按住單元格D2的右下角下拖至D26,便會(huì)生成第一列數(shù)據(jù)的全部標(biāo)準(zhǔn)化數(shù)值;按照單元格D2的右下角右拖至E2,就能生成第二列第一個(gè)數(shù)據(jù)“2”的標(biāo)準(zhǔn)化數(shù)據(jù)-1.806077,抓住單元格E2的右下角下拖至E26便會(huì)生成

4、第二列數(shù)據(jù)的全部標(biāo)準(zhǔn)化數(shù)值。 作標(biāo)準(zhǔn)化數(shù)據(jù)的散點(diǎn)圖(圖3)??梢钥闯?,點(diǎn)列的總體趨勢(shì)沒(méi)有變換,兩種數(shù)據(jù)的相關(guān)系數(shù)與標(biāo)準(zhǔn)化以前完全相同。但回歸模型的截距近似為0,即有,斜率等于相關(guān)系數(shù),即有。 求標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)系數(shù)矩陣或協(xié)方差矩陣。求相關(guān)系數(shù)矩陣的方法是:沿著“工具(T)”“數(shù)據(jù)分析(D)”的路徑打開(kāi)“分析工具(A)”選項(xiàng)框(圖4),確定,彈出“相關(guān)系數(shù)”對(duì)話框(圖5),在“輸入?yún)^(qū)域”的空白欄中輸入標(biāo)準(zhǔn)化數(shù)據(jù)范圍,并以單元格G1為輸出區(qū)域,具體操作方法類(lèi)似于回歸分析。確定,即會(huì)在輸出區(qū)域給出相關(guān)圖4 分析工具選項(xiàng)框圖5 相關(guān)系數(shù)對(duì)話框系數(shù)矩陣的下三角即對(duì)角線部分,由于系對(duì)稱(chēng)矩陣,上三角的數(shù)值與

5、下三角相等,故未給出(圖6),可以通過(guò)“拷貝轉(zhuǎn)置粘帖”的方式補(bǔ)充空白部分。圖6 標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)系數(shù)和協(xié)方差 求協(xié)方差的方法是在“分析工具”選項(xiàng)框中選擇“協(xié)方差”(圖7),彈出“協(xié)方差” 選項(xiàng)框(圖8),具體設(shè)置與“相關(guān)系數(shù)”類(lèi)似,不贅述。結(jié)果見(jiàn)圖6,可以看出,對(duì)于標(biāo)準(zhǔn)化數(shù)據(jù)而言,協(xié)方差矩陣與相關(guān)系數(shù)矩陣完全一樣。因此,二者任取其一即可。圖7 在分析工具選項(xiàng)框中選擇“協(xié)方差”圖8 協(xié)方差選項(xiàng)框 計(jì)算特征根。我們已經(jīng)得到相關(guān)系數(shù)矩陣為,而二階單位矩陣為,于是根據(jù)公式,我們有按照行列式化為代數(shù)式的規(guī)則可得根據(jù)一元二次方程的求根公式,當(dāng)時(shí),我們有據(jù)此解得,(對(duì)于本例,顯然,)。這便是相關(guān)系數(shù)矩陣的兩

6、個(gè)特征根。 求標(biāo)準(zhǔn)正交向量。將代入矩陣方程,得到在系數(shù)矩陣中,用第一行加第二行,化為由此得,令,則有,于是得基礎(chǔ)解系,單位化為單位化的公式為()。 完全類(lèi)似,將代入矩陣方程,得到用系數(shù)矩陣的第二行減去第一行,化為于是得到,取,則有,因此得基礎(chǔ)解系為,單位化為這里、便是標(biāo)準(zhǔn)正交向量。 求對(duì)角陣。首先建立標(biāo)準(zhǔn)正交矩陣P,即有該矩陣的一個(gè)特殊性質(zhì)便是,即矩陣的轉(zhuǎn)置等于矩陣的逆。根據(jù),可知下面說(shuō)明一下利用Excel進(jìn)行矩陣乘法運(yùn)算的方法。矩陣乘法的命令為mmult,語(yǔ)法是mmult (矩陣1的單元格范圍,矩陣2的單元格范圍)。例如,用矩陣 與矩陣C相乘,首先選擇一個(gè)輸出區(qū)域如G1:H2,然后輸入“=m

7、mult(A1:B2,C1:D2)”,然后按下“Ctrl+Shift+Enter”鍵(圖9),即可給出1.2060441.2060440.20817-0.20817再用乘得的結(jié)果與P陣相乘,便得對(duì)角矩陣1.705603000.294397如果希望一步到位也不難,選定輸出區(qū)域如C3:D4,然后輸入“=mmult(mmult(A1:B2,C1:D2),E1:F2)” (圖10),同時(shí)按下“Ctrl+Shift+Enter”鍵,立即得到結(jié)果(圖11)。顯然,對(duì)角矩陣對(duì)角線的數(shù)值恰是相關(guān)系數(shù)矩陣的特征值。圖9 矩陣乘法示例圖10 矩陣連乘的命令與語(yǔ)法 至此,標(biāo)準(zhǔn)化的原始變量x與主成分之間z之間可以表作

8、顯然與之間正交。圖11 乘法結(jié)果:對(duì)角矩陣 根據(jù)特征根計(jì)算累計(jì)方差貢獻(xiàn)率?,F(xiàn)已求得第一特征根為,第二特征根為,二者之和剛好就是矩陣的維數(shù),即有,這里m=2為變量數(shù)目(注意前面的n=25為樣本數(shù)目)。比較圖6或圖10中給出的相關(guān)系數(shù)矩陣C與圖11中給出的對(duì)角矩陣D可以看出,Tr.(C)=1+1=2,Tr.(D)=1.7056+0.2944=2,即有Tr.(C)= Tr.(D),可見(jiàn)將相關(guān)系數(shù)亦即協(xié)方差矩陣轉(zhuǎn)換為對(duì)角矩陣以后,矩陣的跡(trace,即對(duì)角線元素之和)沒(méi)有改變,這意味著將原始變量化為主成分以后,系統(tǒng)的信息量沒(méi)有減少。現(xiàn)在問(wèn)題是,如果我們只取一個(gè)主成分代表原來(lái)的兩個(gè)變量,能反映原始變量

9、的多少信息?這個(gè)問(wèn)題可以借助相關(guān)系數(shù)矩陣的特征根來(lái)判斷。利用Excel容易算出,第一特征根占特征根總和即矩陣維數(shù)的85.28%(見(jiàn)下表),即有特征根累計(jì)值百分比累計(jì)百分比1.7056031.70560385.28%85.28%0.294397214.72%100.00%也就是說(shuō):1.7056, :0.2944, :2,這表明,如果僅取第一個(gè)主成分,可以反映原來(lái)數(shù)據(jù)85.28%的信息換言之,舍棄第二個(gè)主成分,原來(lái)數(shù)據(jù)的信息僅僅損失14.72%,但分析變量的自由度卻減少一個(gè),整個(gè)分析將會(huì)顯得更加簡(jiǎn)明。 計(jì)算主成分載荷。根據(jù)公式,容易算出 計(jì)算公因子方差和方差貢獻(xiàn)。根據(jù)上述計(jì)算結(jié)果可以比較公因子方差

10、和方差貢獻(xiàn)。再考慮全部的兩個(gè)主成分的時(shí)候,對(duì)應(yīng)于和的公因子方差分別為 對(duì)應(yīng)于第一主成分z1和第二主成分z2的方差貢獻(xiàn)分別為 可以看出(圖12): 第一,方差貢獻(xiàn)等于對(duì)應(yīng)主成分的特征根,即有第二,公因子方差相等或彼此接近,即有第一,公因子方差之和等于方差貢獻(xiàn)之和,即有第一個(gè)規(guī)律是我們決定提取主成分?jǐn)?shù)目的判據(jù)與之一,第二個(gè)規(guī)律是我們判斷提取主成分?jǐn)?shù)目是否合適的判據(jù)之一,第三個(gè)規(guī)律是我們判斷提取主成分后是否損失信息的判據(jù)之一。去掉次要的主成分以后,上述規(guī)律理當(dāng)仍然滿足。這時(shí)如果第二個(gè)規(guī)律不滿足,就意味著主成分的提取是不合適的。此外,上述規(guī)律也是我們檢驗(yàn)計(jì)算結(jié)果是否正確的判據(jù)之一。圖12 公因子方差、

11、方差貢獻(xiàn)的計(jì)算結(jié)果及其與特征根的貢獻(xiàn) 計(jì)算主成分得分。根據(jù)主成分與原始變量的關(guān)系,應(yīng)有或者對(duì)于本例而言,式中,這里,為前面計(jì)算的標(biāo)準(zhǔn)化特征向量。于是有化為代數(shù)形式便是式中的x均為標(biāo)準(zhǔn)化數(shù)據(jù)。對(duì)進(jìn)行轉(zhuǎn)置,可得圖13 計(jì)算特征向量的公式及語(yǔ)法圖14 計(jì)算主成分得分根據(jù)這個(gè)式子,利用Excel計(jì)算主成分得分的步驟如下: 將特征向量復(fù)制到標(biāo)準(zhǔn)化數(shù)據(jù)的附近; 選中一個(gè)與標(biāo)準(zhǔn)化數(shù)據(jù)占據(jù)范圍一樣大小的數(shù)值區(qū)域(如G2:H26); 輸入如下計(jì)算公式“=mmult(標(biāo)準(zhǔn)化數(shù)據(jù)的范圍,特征向量的范圍)”,在本例中就是“=MMULT(B2:C26,E2:F3)”(圖13); 同時(shí)按下“Ctrl+Shift+Ente

12、r”鍵。 計(jì)算主成分得分的均值和方差,可以發(fā)現(xiàn),均值為0(由于誤差之故,約等于0),方差等于特征根。 最后,可以對(duì)主成分得分進(jìn)行標(biāo)準(zhǔn)化。已知主成分得分的均值為0,我們不按總體方差進(jìn)行標(biāo)準(zhǔn)化,而按樣本方差進(jìn)行標(biāo)準(zhǔn)化。圖15 主成分得分的標(biāo)準(zhǔn)化結(jié)果 樣本方差的計(jì)算公式為相應(yīng)地,標(biāo)準(zhǔn)差為標(biāo)準(zhǔn)化公式同前面給出的一樣。結(jié)果見(jiàn)表15。注意,這里之所以按樣本方差進(jìn)行標(biāo)準(zhǔn)化,主要目的是為了與SPSS的計(jì)算結(jié)果進(jìn)行比較。 分別以z1、z2為坐標(biāo)軸,將主成分得分(包括標(biāo)準(zhǔn)化的得分)點(diǎn)列標(biāo)繪于坐標(biāo)圖中,可以發(fā)現(xiàn),點(diǎn)列分布沒(méi)有任何趨勢(shì):回歸結(jié)果表明,回歸系數(shù)和相關(guān)系數(shù)均為零,即有,(圖16,圖17)。這從幾何圖形上顯

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論