多元統(tǒng)計方法之主成分分析_第1頁
多元統(tǒng)計方法之主成分分析_第2頁
多元統(tǒng)計方法之主成分分析_第3頁
多元統(tǒng)計方法之主成分分析_第4頁
多元統(tǒng)計方法之主成分分析_第5頁
已閱讀5頁,還剩95頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、主成分分析Principal Component Analysis, PCA多元統(tǒng)計方法中國計量學(xué)院理學(xué)院數(shù)學(xué)系1 引言2 主成分分析的基本概念 主成分分析的目標 主成分分析的數(shù)學(xué)模型 主成分的幾何解釋 主成分的幾個性質(zhì) 主成分的選取和使用條件 主成分分析的算法3 主成分分析的應(yīng)用案例(采用基本的Matlab命令)4 Statistics Toolbox中的主成分分析函數(shù)及應(yīng)用5 SPSS在主成分分析中的使用及案例中國計量學(xué)院理學(xué)院數(shù)學(xué)系 在學(xué)生學(xué)習(xí)過程中,已經(jīng)修完p門課程,其成績?yōu)閤1,x2,xp,如何評價每個學(xué)生的綜合能力?假設(shè)每門課程有權(quán)重c1,c2,cp,則加權(quán)之和為:s= c1x1+

2、c2x2+cpxp。 每個學(xué)生對應(yīng)這樣一個成績,假設(shè)有n個學(xué)生,其成績分別為:s1,s2,sn。如果這些值很分散,表明每個人的綜合能力能很好地區(qū)分。關(guān)鍵是如何確定權(quán)重c1,c2,cp?在數(shù)學(xué)上反映的問題是什么呢? 1. 引言 中國計量學(xué)院理學(xué)院數(shù)學(xué)系 基于上述問題,人們就希望在定量研究中涉及的變量較少,而得到的信息量又較多。主成分分析正是研究如何通過原來變量的少數(shù)幾個線性組合來解釋原來變量絕大多數(shù)信息的一種多元統(tǒng)計方法。 一方面人們?yōu)榱吮苊膺z漏重要的信息而考慮盡可能多的指標, 另一方面隨著考慮指標的增多增加了問題的復(fù)雜性,同時由于各指標均是對同一事物的反映,不可避免地造成信息的大量重疊,這種信

3、息的重疊有時甚至?xí)⑹挛锏恼嬲卣髋c內(nèi)在規(guī)律。中國計量學(xué)院理學(xué)院數(shù)學(xué)系 一項十分著名的工作是美國的統(tǒng)計學(xué)家斯通(stone)在1947年關(guān)于國民經(jīng)濟的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等。 在進行主成分分析后,竟以97.4的精度,用三個新變量就取代了原17個變量。根據(jù)經(jīng)濟學(xué)知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟發(fā)展或衰退的趨勢F3。更有意思的是,這三個變量其實都是可以直接測量的。斯通將他得到的主成分與實際測量的總收入I、總收入變化

4、率I以及時間t因素做相關(guān)分析,得到下表:中國計量學(xué)院理學(xué)院數(shù)學(xué)系F1F2F3iitF11F201F3001i0.995-0.0410.057li-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.1121中國計量學(xué)院理學(xué)院數(shù)學(xué)系2. 主成分分析的基本概念 主成分分析的目標主成分分析,亦稱主分量分析.數(shù)學(xué)本質(zhì)利用降維技術(shù),將多個變量(指標)歸少數(shù)綜合指標.結(jié)為線性無關(guān)的幾個(少數(shù))主成分(綜合指標).目標化簡多指標系統(tǒng),構(gòu)造方便系統(tǒng)分析的中國計量學(xué)院理學(xué)院數(shù)學(xué)系 主成分分析的數(shù)學(xué)模型 適合用主成分分析的數(shù)據(jù)具有如下結(jié)構(gòu):樣本指 標 主成分分析最

5、大的問題是受量綱的影響,因此,實際應(yīng)用中,需要對數(shù)據(jù)進行標準化。一般使用協(xié)方差矩陣或相關(guān)系數(shù)矩陣R進行分析。x11x21x31xn1中國計量學(xué)院理學(xué)院數(shù)學(xué)系設(shè)原始 樣本點變量 型數(shù)據(jù)資料陣其中 求線性組合(主成分) Fi表示第i個主成分,也即中國計量學(xué)院理學(xué)院數(shù)學(xué)系 這是由于一個主成分不足以代表原來的p個變量的信息。因此需要尋找第二個乃至第三、四個主成分,原則上,第二個主成分不應(yīng)該再包含第一個主成分的信息,統(tǒng)計上的描述就是讓這兩個主成分的協(xié)方差為零,幾何上就是這兩個主成分的方向正交。滿足條件 中國計量學(xué)院理學(xué)院數(shù)學(xué)系F 2F 1X 1X 2 主成分的幾何解釋 以最簡單的二元正態(tài)變量來說明主成分

6、的幾何意義 . 其 n 個樣本點 的散布大致為一個橢圓.n 個點的在平面上作一個坐標變換,即按坐標 X1 和 X2 呈現(xiàn)某種線性相關(guān)性 .逆時針方向旋轉(zhuǎn)角度 .在坐標系 X1 OX2 中,取新坐標軸,在橢圓長軸方向取F1 , 短軸方向取F2 .根據(jù)旋軸變換公式新老坐標之間有關(guān)系 n 個點的坐標 F1 和 F2 幾乎不相關(guān).在坐標系 F1 OF2 中,F(xiàn) 2F 1X 1X 2在 F1 軸上的方差達到最大,在此方向上所含的有關(guān) n 個樣品間差異的信息是最多的 ,故稱 F1 為 第一主成分 .在和 F1 正交的軸 F2 上方差較小,稱 F2 為 第二主成分 .因此,用一維空間代替二維空間時,選用 F

7、1 可使信息的損失降到最小.這種系統(tǒng)簡化方法體現(xiàn)了抓事物主要矛盾的哲學(xué)思維.=? 主成分的幾個性質(zhì)矩陣為 , 的特征值為 單位特征向量為 令 則 記 定理 設(shè) p 個 n 維隨機向量 的協(xié)方差相應(yīng)的說明 主成分就是以協(xié)方差矩陣的單位特征向量之間互不相關(guān),主成分的名次是按特征根取值大小的順為系數(shù)的線性組合,主成分方差為的特征值,主成分序排列的.推論1的協(xié)差陣為對角陣主成分推論2 主成分的總方差 推論4 推論5 推論3 原始變量與主成分之間的相關(guān)系數(shù) 中國計量學(xué)院理學(xué)院數(shù)學(xué)系 主成份的選取與使用條件 方差貢獻率 第 k 個主成分的方差貢獻率 前 k 個主成分的累積方差貢獻率 在解決實際問題時, 一

8、般不是取 p個主成分, 而是根據(jù)累計貢獻率的大小取前 k個, 累計貢獻率達到85%; 這樣就基本包含了全部測量指標所具有的信息, 這樣即減少了變量的個數(shù)有便于對實際問題的分析和研究 . 使用條件 主成分分析適宜用于大樣本的場合.主成分分析要求變量之間有一定的相關(guān)關(guān)系: 主成分分析的算法 設(shè)有n個樣品,每個樣品觀測p項指標,將原始數(shù)據(jù)寫成矩陣 將原始數(shù)據(jù)標準化(這里為了書寫方便,不妨設(shè)上邊矩陣已標準化了)。 建立變量的相關(guān)系數(shù)陣 求得特征根 及相應(yīng)的單位特征向量 寫出主成分包括對主成分的解釋中國計量學(xué)院理學(xué)院數(shù)學(xué)系 在企業(yè)經(jīng)濟效益的評價中,涉及的指標往往很多。為了簡化系統(tǒng)結(jié)構(gòu),抓住經(jīng)濟效益評價中

9、的主要問題,我們可由原始數(shù)據(jù)矩陣出發(fā)求主成分。在對我國部分省、市、自治區(qū)獨立核算的工業(yè)企業(yè)的經(jīng)濟效益評價中,涉及到9項指標,原始數(shù)據(jù)見表5-7,即樣品數(shù)n=28,變量數(shù)p=9。3. 主成分分析的應(yīng)用案例 數(shù)據(jù)文件為czsr2003.txt.中國計量學(xué)院理學(xué)院數(shù)學(xué)系 100固定資產(chǎn)原值實現(xiàn)值(%)100元固定資產(chǎn)原值實現(xiàn)利稅(%)100元資金實現(xiàn)利稅(%)100元工業(yè)總產(chǎn)值實現(xiàn)利稅(%)100元銷售收入實現(xiàn)利稅(%)每噸標準煤實現(xiàn)工業(yè)產(chǎn)值(元)每千瓦時電力實現(xiàn)工業(yè)產(chǎn)值(元)全員勞動生產(chǎn)率(元/人.年)100元流動資金實現(xiàn)產(chǎn)值(元)北京(1)119.2930.9829.9225.9715.4821

10、783.4121006296.7天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(3)94.817.217.9518.149.3711672.0312607322.2山西(4)65.811.0811.0612.1516.848.821.6510166284.7內(nèi)蒙(5)54.799.249.5416.866.278941.87564225.4遼寧(6)94.5121.1222.8322.3511.2814162.3613.386311.7吉林(7)80.4913.3613.7616.67.1413062.079400274.1黑龍江(8)7

11、5.8615.8216.6720.8610.3712672.269830267上海(9)187.7945.939.7724.4415.0943464.1131246418.6江蘇(10)205.9627.6522.5813.427.8132024.6923377407.2浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(12)110.7820.720.1218.696.614682.2312578341.1福建(13)122.7622.5219.9318.348.3522002.6312164301.2表3-1中國計量學(xué)院理學(xué)院數(shù)學(xué)系 江西

12、(14)94.9414.714.1815.496.6916692.2410463274.4山東(15)117.5821.9320.8918.659.118202.817829331.1河南(16)85.9817.317.1820.127.6713061.8911247276.5湖北(17)103.9619.518.4818.779.1618292.7515745308.9湖南(18)104.0321.4721.2820.638.7212721.9813161309廣東(19)136.4423.6420.8317.337.8529593.7116259334廣西(20)100.7222.0420

13、.921.889.6717322.1312441296.4四川(21)84.7314.3514.1716.937.9613102.3411703242.5貴州(22)59.0514.4814.3524.538.0910681.329710206.7云南(23)73.7221.9122.729.729.3814471.9412517295.8陜西(24)78.0213.1312.5716.839.1917312.0811369220.3甘肅(25)59.6214.0716.2423.5911.349261.1313084246.8青海(26)51.668.328.2616.117.0510551

14、.319246176.49寧夏(27)52.958.258.8215.576.588341.1210406245.4新疆(28)60.2911.2613.1418.688.3910412.910983266續(xù)表3-1中國計量學(xué)院理學(xué)院數(shù)學(xué)系clear load czsr2003.txt n,p=size(czsr2003);MEAN=mean( czsr2003) ; %求各變量的均值STD=std( czsr2003); %求各變量的標準差MEAN=ones(n,p)*diag(MEAN);STD=ones(n,p)*diag(STD);x=(czsr2003-MEAN)./STD; %原始

15、數(shù)據(jù)標準化 原始數(shù)據(jù)標準化 R=cov(x); 注釋: 由于數(shù)據(jù)已經(jīng)過標準化處理,故x的協(xié)方差矩陣等于其相關(guān)系數(shù)矩陣,即R=corrcoef(x).2. 建立變量的協(xié)方差矩陣 V,D=eig(R); 注釋: 函數(shù)eig的功能是對矩陣R進行正交對角化變換,矩陣D是以R的特征值為對角元的對角矩陣(對角元按從小到大的順序排列),矩陣V是正交變換矩陣。3. 求得特征根及相應(yīng)的單位特征向量中國計量學(xué)院理學(xué)院數(shù)學(xué)系DD= ; %將特征值對角矩陣D改寫為列向量DDfor i=p:-1:1 %此處要注意eig函數(shù)的輸出D中特征值的排列順序DD=DD;D(i,i);end OFFER=DD/sum(DD); %

16、計算特征值的方差貢獻率 cumOFFER=cumsum(DD)/sum(DD); %計算特征值的方差累計貢獻率 OUTCOME=DD,OFFER,cumOFFER %綜合輸出計算結(jié)果 4. 寫出主成分 計算主成分的方差貢獻率和累計方差貢獻率OUTCOME = 6.1499 0.6833 0.6833 1.4729 0.1637 0.8470 0.6974 0.0775 0.9245 0.3178 0.0353 0.9598 0.1900 0.0211 0.9809 0.1160 0.0129 0.9938 0.0291 0.0032 0.9970 0.0243 0.0027 0.9997 0.

17、0024 0.0003 1.0000OUTCOME=DD,OFFER,cumOFFER %綜合輸出計算結(jié)果中國計量學(xué)院理學(xué)院數(shù)學(xué)系 選取主成分 根據(jù)特征值的方差累計貢獻率,取前2個(貢獻率達84.70%)或前3個(貢獻率達92.45%)主成分即可。PCACOV=V(:,end:-1:end-2) %輸出正交單位化的特征向量矩陣V的前3列 PCACOV = 0.3756 0.2595 -0.0141 0.3934 -0.1344 -0.0853 0.3753 -0.2653 -0.1074 0.0935 -0.7113 -0.5223 0.1746 -0.4913 0.8022 0.3721 0

18、.1650 -0.2246 0.3616 0.2254 0.0424 0.3513 0.0524 0.0830 0.3626 0.1268 0.0747 (3) 分析并命名主成分 對所選主成分作經(jīng)濟解釋。主成分分析的關(guān)鍵在于能否給主成分賦予新的意義,給出合理的解釋,這個解釋應(yīng)根據(jù)主成分的計算結(jié)果結(jié)合定性分析來進行。主成分是原來變量的線性組合,在這個線性組合中,各變量的系數(shù)有大有小,有正有負,有的大小相當,因而不能簡單地認為這個主成分是某個原變量的屬性的作用。 線性組合中個變量的系數(shù)的絕對值大者表明該主成分主要綜合了絕對值大的變量,有幾個變量系數(shù)大小相當時,應(yīng)認為這一主成分是這幾個變量的總和,這

19、幾個變量綜合在一起應(yīng)賦予怎樣的經(jīng)濟意義,要結(jié)合經(jīng)濟專業(yè)知識,給出恰如其分的解釋,才能達到深刻分析經(jīng)濟成因的目的。 第一主成分的線性組合中除了100元工業(yè)總產(chǎn)值實現(xiàn)利稅和100元銷售收入實現(xiàn)利稅外,其余變量的系數(shù)相當,所以第一主成分可看成是x1, x2, x3, x6, x7, x8, x9 的綜合變量??梢越忉尀榈谝恢鞒煞址从沉斯I(yè)生產(chǎn)中投入的資金、勞動力所產(chǎn)生的效果,它是“投入”與“產(chǎn)出”之比。第一主成分所占信息總量為68.3%,在我國目前的工業(yè)企業(yè)中,經(jīng)濟效益首先反映在投入與產(chǎn)出之比上,其中固定資產(chǎn)的有效所產(chǎn)生的經(jīng)濟效益更大一些。第一主成分的系數(shù)取為0.3756 0.3934 0.3753

20、 0.0935 0.1746 0.3721 0.3616 0.3513 0.3626中國計量學(xué)院理學(xué)院數(shù)學(xué)系 第二主成分是把工業(yè)生產(chǎn)中所得總量(即工業(yè)總產(chǎn)值和銷售收入)與局部量(即利稅)進行比較,反映了“產(chǎn)出”對國家所作的貢獻。這樣,在抓企業(yè)經(jīng)濟效益活動中,就應(yīng)注重投入與產(chǎn)出之比和產(chǎn)出對國家所作的貢獻,抓住了這2個方面,經(jīng)濟效益就一定會提高。第二主成分的系數(shù)取為0.2595 -0.1344 -0.2653 -0.7113 -0.4913 0.1650 0.2254 0.0524 0.1268中國計量學(xué)院理學(xué)院數(shù)學(xué)系 第三主成分你又如何解釋呢?第三主成分的系數(shù)取為-0.0141 -0.0853

21、-0.1074 -0.5223 0.8022 -0.2246 0.0424 0.0830 0.0747如何解釋第二、三主成分主成份系數(shù)的負號,可能需要更多的經(jīng)濟學(xué)理論的支持。中國計量學(xué)院理學(xué)院數(shù)學(xué)系主成分分析的應(yīng)用案例二 下列數(shù)據(jù)是2003年全國31個省市自治區(qū)11項指標的財政收入數(shù)據(jù)(單位:萬元)。 地區(qū)編號:1.北京、2.天津、3.河北、4.山西、5.內(nèi)蒙古、6.遼寧、7.吉林、8.黑龍江、9.上海、10.江蘇、11.浙江、12.安徽、13.福建、14.江西、15.山東、16.河南、17.湖北、18.湖南、19.廣東、20.廣西、21.海南、22.重慶、23.四川、24.貴州、25.云南、

22、26.西藏、27.陜西、28.甘肅、29.青海、30.寧夏、31.新疆補充:指標編號:1.增值稅、2.營業(yè)稅、3.企業(yè)所得稅、4.個人所得稅、5.城市維護建設(shè)稅、6.印花稅、7.耕地占用稅、8.行政性收費收入、9.罰沒收入、10.專項收入、11.其他收入中國計量學(xué)院理學(xué)院數(shù)學(xué)系OUTCOME = 8.5003 0.7728 0.7728 1.0981 0.0998 0.8726 0.8206 0.0746 0.9472 0.2622 0.0238 0.9710 0.1347 0.0122 0.9833 0.0969 0.0088 0.9921 0.0521 0.0047 0.9968 0.02

23、25 0.0020 0.9988 0.0066 0.0006 0.9994 0.0050 0.0005 0.9999 0.0011 0.0001 1.0000 (1) (2)步驟略去,看結(jié)果:中國計量學(xué)院理學(xué)院數(shù)學(xué)系PCACOV = 0.3357 0.0975 -0.0581 0.3224 0.2269 0.2466 0.3256 0.2465 0.1586 0.3190 0.2154 0.2960 0.3273 -0.0114 -0.1988 0.3183 0.2461 0.2628 0.2381 0.0979 -0.7299 0.2797 -0.4337 -0.0160 0.3011 -0

24、.3115 -0.2335 0.3267 -0.0275 -0.1187 0.1867 -0.6897 0.3358中國計量學(xué)院理學(xué)院數(shù)學(xué)系 (3) 分析并命名主成分 PCACOV的三個列向量應(yīng)為三個主成分的系數(shù)向量,而每一個系數(shù)向量在一定程度上代表了相應(yīng)變量與該主成分的相關(guān)性(與相關(guān)系數(shù)相差一個常數(shù))。 因此,如果從稅收對財政收入貢獻的角度理解,考慮PCACOV的第一列向量中元素絕對值的大小和最大特征值的方差貢獻率(77.28%),可以認為: 第一主成份由增值稅、營業(yè)稅、企業(yè)所得稅、個人所得稅、城市維護建設(shè)稅、印花稅和專項收入組成的綜合指標(企業(yè)稅賦指數(shù));按通常的理解稅收與財政收入是正相關(guān)

25、的,因此,第一主成份系數(shù)取為:0.3357 0.3224 0.3256 0.3190 0.3273 0.3183 0.2381 0.2797 0.3011 0.3267 0.1867.中國計量學(xué)院理學(xué)院數(shù)學(xué)系 第二主成分由行政性收費收入,罰沒收入和其他收入組成的綜合指標(行政干預(yù)指數(shù)) ;第二主成份系數(shù)取為:0.0975 0.2269 0.2465 0.2154 -0.0114 0.2461 0.0979 -0.4337 -0.3115 -0.0275 -0.6897. 第三主成分可單獨看成是由耕地占用稅構(gòu)成的指標(耕地消耗指數(shù));第三主成分系數(shù)取為:-0.0581 0.2466 0.1586

26、 0.2960 -0.1988 0.2628 -0.7299 -0.0160 -0.2335 -0.1187 0.3358.中國計量學(xué)院理學(xué)院數(shù)學(xué)系4. Statistics Toolbox主成分分析函數(shù)及應(yīng)用用原始數(shù)據(jù)進行主成份分析【函數(shù)與語法】PC=princomp(x) PC,SCORE,latent,tsquare=princomp(x) 【參數(shù)說明】 x 原始數(shù)據(jù)矩陣(樣本點變量) PC 主成分系數(shù)向量(列) SCORE 樣本點的主成分得分 latent x的協(xié)方差矩陣的特征值 tsquare 每一個樣本點的HotellingT2統(tǒng)計量的值注意:princomp函數(shù)沒有數(shù)據(jù)標準化的功

27、能。【應(yīng)用czsr2003.txt】 PC,SCORE,latent,tsquare=princomp(x) 2. 用原始標準化數(shù)據(jù)的協(xié)方差矩陣進行主成分分析【函數(shù)與語法】PC=pcacov(R) PC, latent,explained=pcacov(R) 【參數(shù)說明】 R 原始數(shù)據(jù)矩陣(樣本點變量) PC 主成分系數(shù)向量(列) latent 相關(guān)矩陣R的特征值 explained 每一個主成分的方差貢獻率注意,princomp函數(shù)沒有數(shù)據(jù)標準化的功能?!緫?yīng)用czsr2003.txt】 PC, latent,explained=pcacov(R) 【例5-1】 數(shù)據(jù)集Employee dat

28、a為Midwestern銀行在1969-1971年之間雇員情況的數(shù)據(jù),共包括474條觀測及如下10個變量:Id(觀測號)、Gender(性別)、Bdate(出生日期)、Educ(受教育程度(年數(shù))、Jobcat(工作種類)、Salary(目前年薪)、Salbegin(開始受聘時的年薪)、Jobtime(受雇時間(月)、Prevexp(受雇以前的工作時間(月)、Minority(是否少數(shù)民族)。下面我們用主成分分析方法處理該數(shù)據(jù),以期用少數(shù)變量來描述該地區(qū)居民的雇傭情況。 SPSS軟件FACTOR模塊提供了主成分分析的功能。下面先以SPSS軟件包自帶的數(shù)據(jù)Employee data.sav為例介

29、紹主成分分析的上機實現(xiàn)方法,在SPSS軟件的安裝目錄下可以找到該數(shù)據(jù)集;然后,我們舉一個實際的例子介紹主成分分析的具體應(yīng)用。5. SPSS在主成分分析中的使用及案例中國計量學(xué)院理學(xué)院數(shù)學(xué)系8/24/202242 進入SPSS軟件,打開數(shù)據(jù)集Employee data.sav。依次點選AnalyzeData ReductionFactor.進入Factor Analysis(因子分析)對話框(在SPSS軟件中,主成分分析與因子分析均在Factor Analysis模塊中完成)。此時,數(shù)據(jù)集Employee data.sav中的變量名均已顯示在左邊的窗口中,依次選中變量educ、salary、sa

30、lbegin、jobtime、prevexp并點向右的箭頭按鈕,這五個變量便進入variables窗口(此時若選中variables窗口中的變量,則窗口左側(cè)的箭頭按鈕即轉(zhuǎn)向左側(cè),點此按鈕即可剔除所選中變量)。點擊右側(cè)的OK按鈕,即可得到如下輸出結(jié)果5-1。中國計量學(xué)院理學(xué)院數(shù)學(xué)系輸出結(jié)果5-1(2)輸出結(jié)果5-1(1)中國計量學(xué)院理學(xué)院數(shù)學(xué)系輸出結(jié)果5-1(3)中國計量學(xué)院理學(xué)院數(shù)學(xué)系45 其中Communalities給出了該次分析從每個原始變量中提取的信息,表格下面的注示表明,該次分析是用Factor analysis模塊默認的信息提取方法即主成分分析完成的。可以看到除受教育程度信息損失較

31、大外,主成分幾乎包含了各個原始變量至少90%的信息。Total Variance Explained表則顯示了各主成分解釋原始變量總方差的情況,SPSS默認保留特征根大于1的主成分,在本例中看到當保留3個主成分為宜,這3個主成分集中了原始5個變量信息的90.66%,可見效果是比較好的。實際上,主成分解釋總方差的百分比也可以由Communalities表中計算得出,即 (0.896+0.916+0.999+0.968+0.754)/5=90.66%。Component Matrix表中給出了標準化原始變量用求得的主成分線性表示的近似表達式,我們以表中Current Salary一行為例,不妨用

32、prin1、prin2、來表示各個主成分,則由Component Matrix表可以得到:標準化的salary 中國計量學(xué)院理學(xué)院數(shù)學(xué)系8/24/2022 在上面的主成分分析中,SPSS默認是從相關(guān)陣出發(fā)求解主成分,且默認保留特征根大于1的主成分,實際上,對主成分的個數(shù)我們可以自己確定,方法為:進入Factor Analysis對話框并選擇好變量之后,點擊Extraction選項,在彈出的對話框中有一個Extract選擇框,默認是選擇Eigenvalues over 1也就是保留特征根大于1的主成分,我們可以輸入別的數(shù)值來改變SPSS軟件保留特征根的大小;另外,還可以選擇Number of F

33、actors選項直接確定主成分的個數(shù)。在實際進行主成分分析時可以先按照默認設(shè)置做一次主成分,然后根據(jù)輸出結(jié)果確定應(yīng)保留主成分的個數(shù),用該方法進行設(shè)定后重新分析。 因為我們上面的結(jié)果是默認從相關(guān)陣出發(fā)得到的,而由相關(guān)陣出發(fā)求得的主成分其性質(zhì)有簡單的表達形式,我們可以方便地加以驗證。中國計量學(xué)院理學(xué)院數(shù)學(xué)系由Component Matrix中的結(jié)果可以得到:等于第一主成分的方差,這就驗證了主成分的推論4。又有:這恰好與Communalities表中三個主成分提取salary變量的信息相等。我們重做一遍主成分分析,此次將5個主成分全部保留,得到Component Matrix表如輸出結(jié)果5-2: 中

34、國計量學(xué)院理學(xué)院數(shù)學(xué)系輸出結(jié)果5-2可以看到前三個主成分的相應(yīng)結(jié)果與輸出結(jié)果5-1中的對應(yīng)部分結(jié)果是一致的。對上表中結(jié)果有如下關(guān)系式:中國計量學(xué)院理學(xué)院數(shù)學(xué)系這就驗證了推論5。由此表還可以得到標準化原始變量用各主成分線性表示的精確的表達式,以仍以Current Salary為例,有:標準化的 salary 由SPSS軟件默認選項輸出的結(jié)果,我們還不能得到用原始變量表示出主成分的表達式,要得到這個結(jié)果及其他一些有用的結(jié)果,就需要對Factor Analysis模塊中的設(shè)置做一些調(diào)整,方法如下: 進入Factor Analysis對話框并選擇好變量之后,點擊對話框下部的Scores按鈕進入Fact

35、or Scores對話框,選擇Display factor score coefficient matrix選項并按Continue繼續(xù),該選項是讓系統(tǒng)輸出主成分得分系數(shù)矩陣。點擊OK按鈕運行,則除了默認結(jié)果,還輸出如下輸出結(jié)果5-3:中國計量學(xué)院理學(xué)院數(shù)學(xué)系輸出結(jié)果5-3上表中給出了用原始變量表示主成分的系數(shù)信息。因為系統(tǒng)默認是從相關(guān)矩陣出發(fā)進行分析,所以,上面表格中的系數(shù)是將原始變量標準化后表示主成分的系數(shù)。也就是說,有下式成立: 中國計量學(xué)院理學(xué)院數(shù)學(xué)系 應(yīng)當注意的是,此處SPSS給出的用原始變量表示主成分的表達式得到的是標準化后的主成分,也就是說,這樣求得的主成分的方差是1,而不是原始

36、變量相關(guān)矩陣的各個特征根了。如上式中,第一主成分的方差為2.477,而用上式求得的主成分方差為1,要得出未標準化的主成分與原始變量的表達式,只需將SPSS軟件給出的系數(shù)前面乘以主成分方差的平方根即可,未標準化第一主成分與原始變量的關(guān)系式如下:類似可以寫出第二、第三個主成分用標準化后的原始變量表示的表達式。中國計量學(xué)院理學(xué)院數(shù)學(xué)系 【例5.2同例3.1】在企業(yè)經(jīng)濟效益的評價中,涉及的指標往往很多。為了簡化系統(tǒng)結(jié)構(gòu),抓住經(jīng)濟效益評價中的主要問題,我們可由原始數(shù)據(jù)矩陣出發(fā)求主成分。在對我國部分省、市、自治區(qū)獨立核算的工業(yè)企業(yè)的經(jīng)濟效益評價中,涉及到9項指標,原始數(shù)據(jù)見表5-7,即樣品數(shù)n=28,變量

37、數(shù)p=9。中國計量學(xué)院理學(xué)院數(shù)學(xué)系 100固定資產(chǎn)原值實現(xiàn)值(%)100元固定資產(chǎn)原值實現(xiàn)利稅(%)100元資金實現(xiàn)利稅(%)100元工業(yè)總產(chǎn)值實現(xiàn)利稅(%)100元銷售收入實現(xiàn)利稅(%)每噸標準煤實現(xiàn)工業(yè)產(chǎn)值(元)每千瓦時電力實現(xiàn)工業(yè)產(chǎn)值(元)全員勞動生產(chǎn)率(元/人.年)100元流動資金實現(xiàn)產(chǎn)值(元)北京(1)119.2930.9829.9225.9715.4821783.4121006296.7天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(3)94.817.217.9518.149.3711672.0312607322.2山西(4)

38、65.811.0811.0612.1516.848.821.6510166284.7內(nèi)蒙(5)54.799.249.5416.866.278941.87564225.4遼寧(6)94.5121.1222.8322.3511.2814162.3613.386311.7吉林(7)80.4913.3613.7616.67.1413062.079400274.1黑龍江(8)75.8615.8216.6720.8610.3712672.269830267上海(9)187.7945.939.7724.4415.0943464.1131246418.6江蘇(10)205.9627.6522.5813.427

39、.8132024.6923377407.2浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(12)110.7820.720.1218.696.614682.2312578341.1福建(13)122.7622.5219.9318.348.3522002.6312164301.2表5-7中國計量學(xué)院理學(xué)院數(shù)學(xué)系 江西(14)94.9414.714.1815.496.6916692.2410463274.4山東(15)117.5821.9320.8918.659.118202.817829331.1河南(16)85.9817.317.1820.

40、127.6713061.8911247276.5湖北(17)103.9619.518.4818.779.1618292.7515745308.9湖南(18)104.0321.4721.2820.638.7212721.9813161309廣東(19)136.4423.6420.8317.337.8529593.7116259334廣西(20)100.7222.0420.921.889.6717322.1312441296.4四川(21)84.7314.3514.1716.937.9613102.3411703242.5貴州(22)59.0514.4814.3524.538.0910681.32

41、9710206.7云南(23)73.7221.9122.729.729.3814471.9412517295.8陜西(24)78.0213.1312.5716.839.1917312.0811369220.3甘肅(25)59.6214.0716.2423.5911.349261.1313084246.8青海(26)51.668.328.2616.117.0510551.319246176.49寧夏(27)52.958.258.8215.576.588341.1210406245.4新疆(28)60.2911.2613.1418.688.3910412.910983266續(xù)表5-7中國計量學(xué)院理

42、學(xué)院數(shù)學(xué)系55 0.4235231.3384051.5902821.6875562.2396340.4819710.9547461.2603710.0488050.9951991.4096491.6314530.6672281.0658731.1887581.8553941.1338441.200166-0.14352-0.271-0.10906-0.29487-0.00854-0.57821-0.45763-0.152790.49097-0.81499-0.98577-1.08721-1.811432.740046-1.79273-0.84655-0.56349-0.15927-1.0699

43、2-1.20067-1.303-0.61894-1.14919-0.86449-0.69303-1.00129-1.18752-0.150240.1868270.5837370.7710330.694243-0.3171-0.11989-2.27170.308902-0.47486-0.71949-0.7039-0.68477-0.82907-0.43245-0.4167-0.69238-0.34307-0.58206-0.43218-0.290780.393790.359408-0.47334-0.22224-0.62003-0.466192.0095833.0809562.9886561.

44、3001862.0961332.7554331.6711712.9832842.1625242.4302940.9494850.548246-1.48989-0.582541.5557832.264781.6592991.9648512.4650251.5813351.002539-0.85187-0.041662.1944081.7530481.43671.5885780.2264810.1377740.199007-0.15562-1.02776-0.26257-0.25294-0.157670.8186910.5038680.3503370.172033-0.24423-0.383850

45、.5050410.156444-0.227320.126834-0.14028-0.56298-0.64428-0.9658-0.99465-0.05179-0.24271-0.51352-0.337870.3839290.2814290.308322-0.16574-0.107890.1065570.3304330.725830.645294表5-8中國計量學(xué)院理學(xué)院數(shù)學(xué)系 -0.34774-0.25932-0.218380.206435-0.63406-0.43245-0.60092-0.38161-0.301460.068569-0.00238-0.03382-0.13536-0.085

46、810.1159940.279260.375190.2603510.070190.2277050.3636890.335558-0.24771-0.4681-0.50881-0.059580.2620850.8206170.4811450.299804-0.49995-0.567831.3009631.2617850.4616730.695579-0.006450.2942770.3097410.6520370.1018430.014276-0.35529-0.180720.043603-0.37669-0.60386-0.6457-0.60122-0.52735-0.42825-0.1403

47、6-0.30489-0.89101-0.97128-0.58868-0.620141.322972-0.47952-0.68202-1.18429-0.64022-1.51177-0.631610.2790930.5652822.636993-0.00486-0.28459-0.54975-0.167930.033199-0.53205-0.74635-0.87284-0.62654-0.074770.013227-0.40646-0.36109-1.27595-0.95809-0.63656-0.351821.084980.71632-0.83093-1.37875-0.07253-0.81

48、645-1.14239-1.30812-1.48472-0.80883-0.86219-0.69566-1.19453-0.71829-2.03561-1.11252-1.3163-1.40522-0.94555-1.03512-0.92741-1.38899-0.52311-0.84073-0.94257-0.96475-0.79192-0.15815-0.36913-0.710340.432779-0.42603-0.48353續(xù)表5-8中國計量學(xué)院理學(xué)院數(shù)學(xué)系 將表5-8數(shù)據(jù)導(dǎo)入spss軟件,依次點選Analyze-Data Reduction-Factor進入Factor Analys

49、is對話框。(在spss中,主成分分析與因子分析均在Factor Analysis模塊中完成。)如圖5-4所示:圖5-4中國計量學(xué)院理學(xué)院數(shù)學(xué)系 此時,數(shù)據(jù)集5-5.sav中的變量名均顯示在對話框左邊的窗口中,選擇變量x1,x2,x3,x4,x5,x6,x7,x8,x9進入variables窗口中,操作如圖5-5所示:圖5-5中國計量學(xué)院理學(xué)院數(shù)學(xué)系 圖5-5 點擊descriptives按鈕,在彈出的對話框中,在correlation matrix中選擇coefficients 。回到原對話框點擊右側(cè)的Ok,即可得到輸出結(jié)果5-4 和輸出結(jié)果5-5。中國計量學(xué)院理學(xué)院數(shù)學(xué)系60 輸出結(jié)果5-

50、4中國計量學(xué)院理學(xué)院數(shù)學(xué)系 輸出結(jié)果5-5由輸出結(jié)果5-4看到,前面2個主成分 、 的方差和占全部方差的比例為84.7%。我們就選取 為第一主成分,為第二主成分,且這兩個主成分之方差和占全部方差的84.7% %,即基本上保留了原來指標的信息,這樣由原來的9個指標轉(zhuǎn)化為2個新指標,起到了降維的作用。中國計量學(xué)院理學(xué)院數(shù)學(xué)系 SPSS軟件得到主成分系數(shù)矩陣如下:中國計量學(xué)院理學(xué)院數(shù)學(xué)系 由上表得到前2個主成分, , 的線性組合為: (5.13) 中國計量學(xué)院理學(xué)院數(shù)學(xué)系 通常為了分析各樣品在主成分所反映的經(jīng)濟意義方面的情況,還將標準化后的原始數(shù)據(jù)帶入主成分表達式計算出各樣品的主成分得分,由各樣品的

51、主成分得分(當主成分個數(shù)為2時)就可在二維空間中描出各樣品的分布情況。 將表5-8數(shù)據(jù)代入式(5.13)式,得到28個省、市、自治區(qū)的主成分得分,見表5-9。將這28各樣品在平面直角坐標系上描出來,進而可進行樣品分類。主成分得分圖見圖5-6。中國計量學(xué)院理學(xué)院數(shù)學(xué)系 樣品號第一主成分得分第二主成分得分11.135631.9987521.506450.442053-0.19631-0.080544-0.815360.316885-1.20017-0.603566-0.168561.044517-0.65065-0.667128-0.419990.5704192.837911.13592101.5

52、905-2.31268111.76154-1.50077120.02914-0.493130.20663-0.4310314-0.4798-1.03236150.39695-0.2989316-0.414350.08055170.14309-0.2474118-0.017560.31942190.73347-1.08331200.055450.5923621-0.56854-0.5028522-0.904951.0864123-0.008531.9777124-0.65494-0.3346325-0.663361.4408126-1.37435-0.4882327-1.2372-0.69389

53、28-0.62211-0.23546表5-9續(xù)表5-9中國計量學(xué)院理學(xué)院數(shù)學(xué)系 圖5-6由圖5-6可看出,分布在第一象限的是上海、北京、天津、廣西這4個省,這四個省、市、自治區(qū)的經(jīng)濟效益在全國來說屬于比較好的,其中上海的經(jīng)濟效益最好。分布在第四象限的江蘇、浙江、安徽、福建、山東、湖北、廣東七個省、市、自治區(qū)。因為第四象限的主要特征是第一主成分,第一主成分占信息總量的比重最大,所以這七個省的經(jīng)濟效益也算比較好。分布在第二象限和第三象限的地區(qū)可屬同一類,經(jīng)濟效益較差。中國計量學(xué)院理學(xué)院數(shù)學(xué)系 主成分得分操作:在Factor Analysis主對話框,點擊下方的Scores按鈕,進入Factor S

54、cores對話框,選中save as variables復(fù)選框,點擊continue。系統(tǒng)默認用回歸方法求得因子得分。見圖5-7。 圖5-7中國計量學(xué)院理學(xué)院數(shù)學(xué)系【作業(yè)】 全國重點水泥企業(yè)經(jīng)濟效益綜合評價例。 利用主成分綜合評價全國重點水泥企業(yè)的經(jīng)濟效益。原始數(shù)據(jù)(數(shù)據(jù)來自1984年中國統(tǒng)計年鑒)見表5-10。中國計量學(xué)院理學(xué)院數(shù)學(xué)系 廠家編號及指標固定資產(chǎn)利稅率資金利稅率銷售收入利稅率資金利潤率固定資產(chǎn)產(chǎn)值率流動資金周轉(zhuǎn)天數(shù)萬元產(chǎn)值能耗全員勞動生產(chǎn)率1琉璃河16.6826.7531.8418.453.255528.831.752邯鄲19.727.5632.9419.259.825532.9

55、22.873大同15.223.432.9816.2446.786541.691.534哈爾濱7.298.9721.34.7634.396239.281.635華新29.4556.4940.7443.6875.326926.682.146湘鄉(xiāng)32.9342.7847.9833.8766.465032.872.67柳州25.3937.8236.7627.5668.186335.792.438峨嵋15.0519.4927.2114.216.137635.761.759耀縣19.8228.7833.4120.1759.257139.131.8310永登21.1335.239.1626.5252.476

56、235.081.7311工源16.7528.7229.6219.2355.765830.081.5212撫順15.8328.0326.417.4361.196132.751.613大連16.5329.7332.4920.6350.416937.571.3114江南22.2454.5931.053767.956332.331.5715江油12.9220.8225.1212.5451.076639.181.83表5-10中國計量學(xué)院理學(xué)院數(shù)學(xué)系1.利用一般的Matlab命令將數(shù)據(jù)標準化;2. 利用Matlab命令計算出相關(guān)矩陣的方差及特征值;3.寫出主成分的線性表達式;4.利用統(tǒng)計工具箱中命令得到

57、如上結(jié)果;5.利用SPSS進行主成分分析;6.對得到的結(jié)果作出解釋;7.自學(xué)主成分回歸的內(nèi)容。需要完成:中國計量學(xué)院理學(xué)院數(shù)學(xué)系6. 主成分回歸介紹中國計量學(xué)院理學(xué)院數(shù)學(xué)系 國際旅游外匯收入是國民收入是國民經(jīng)濟發(fā)展的重要組成部分,影響一個國家或地區(qū)旅游收入的因素包括自然、文化、社會、經(jīng)濟、交通等多方面的因素。中國統(tǒng)計年鑒把第三次產(chǎn)業(yè)劃分為12個組成部分,分別為: 一、提出問題中國計量學(xué)院理學(xué)院數(shù)學(xué)系x1:農(nóng)林牧漁服務(wù)業(yè) x2:地質(zhì)勘查水利管理業(yè)x3:交通運輸倉儲和郵電通訊業(yè) x4:批發(fā)零售貿(mào)易和餐食業(yè)x5:金融保險業(yè) x6:房地產(chǎn)業(yè) x7:社會服務(wù)業(yè) x8:衛(wèi)生體育和社會福利業(yè) x9:教育文藝

58、和廣播 x10:科學(xué)研究和綜合藝術(shù)x11:黨政機關(guān) x12:其他行業(yè) 選自1998年我國31個省、市、自治區(qū)的數(shù)據(jù)。以旅游外匯收入(百萬美圓)為因變量。自變量的單位為億元人民幣。數(shù)據(jù)略。 中國計量學(xué)院理學(xué)院數(shù)學(xué)系InterceptCoefficients -205.236116.8459-1.75646 0.096008標準誤差t StatP-valueX Variable 1-1.4004522.8676-0.061240.951842X Variable 22.67500118.575080.144010.887092X Variable 33.3008772.4645561.339339

59、0.197128X Variable 4-0.944021.296117-0.728340.475774X Variable 5-5.50164.508593-1.220250.238117X Variable 64.0544343.9537451.0254670.318728X Variable 74.1425.0699840.816965 0.42463X Variable 8-15.364910.82589-1.419270.172905X Variable 917.367668.353372.0791210.052178X Variable 109.07888310.147280.89

60、4711 0.38275X Variable 11-10.585.610696-1.885690.075582X Variable 121.3507095.0015040.270060.790186 這個模型是不理想的,一個最嚴重的問題是多重共線性的問題。中國計量學(xué)院理學(xué)院數(shù)學(xué)系線性回歸模型的方差分析表方差來源自由度離差平方和方差F統(tǒng)計量顯著性水平回歸分析1211690140 974178.3 10.51335 8.15025E-06 殘差181667899 92661.04 總計3113358039 利用主成分的互不相關(guān)性來建立應(yīng)變量與主成分的回歸,在理論上可以達到消除多重共線性。 中國計量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論