主成分和因子分析課件_第1頁
主成分和因子分析課件_第2頁
主成分和因子分析課件_第3頁
主成分和因子分析課件_第4頁
主成分和因子分析課件_第5頁
已閱讀5頁,還剩101頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、主成分分析和因子分析 吳喜之1第1頁,共106頁。匯報什么?假定你是一個公司的財務經(jīng)理,掌握了公司的所有數(shù)據(jù),比如固定資產(chǎn)、流動資金、每一筆借貸的數(shù)額和期限、各種稅費、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你向上面介紹公司狀況,你能夠把這些指標和數(shù)字都原封不動地擺出去嗎? 當然不能。你必須要把各個方面作出高度概括,用一兩個指標簡單明了地把情況說清楚。 2第2頁,共106頁。主成分分析每個人都會遇到有很多變量的數(shù)據(jù)。比如全國或各個地區(qū)的帶有許多經(jīng)濟和社會變量的數(shù)據(jù);各個學校的研究、教學等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點是變量很多,在如此多的變量之中

2、,有很多是相關的。人們希望能夠找出它們的少數(shù)“代表”來對它們進行描述。本章就介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。實際上主成分分析可以說是因子分析的一個特例。在引進主成分分析之前,先看下面的例子。3第3頁,共106頁。成績數(shù)據(jù)(student.sav)100個學生的數(shù)學、物理、化學、語文、歷史、英語的成績如下表(部分)。 4第4頁,共106頁。從本例可能提出的問題目前的問題是,能不能把這個數(shù)據(jù)的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢

3、?能不能利用找到的綜合變量來對學生排序呢?這一類數(shù)據(jù)所涉及的問題可以推廣到對企業(yè),對學校進行分析、排序、判別和分類等問題。5第5頁,共106頁??臻g的點例中的的數(shù)據(jù)點是六維的;也就是說,每個觀測值是6維空間中的一個點。我們希望把6維空間用低維空間表示。先假定只有二維,即只有兩個變量,它們由橫坐標和縱坐標所代表;因此每個觀測值都有相應于這兩個坐標軸的兩個坐標值;如果這些數(shù)據(jù)形成一個橢圓形狀的點陣(這在變量的二維正態(tài)的假定下是可能的)那么這個橢圓有一個長軸和一個短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點,那只有在長軸的方向才能夠解釋這些點的變化了;這樣,由二維到一維的降維就

4、自然完成了。6第6頁,共106頁。7第7頁,共106頁。橢球的長短軸當坐標軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。8第8頁,共106頁。9第9頁,共106頁。主軸和主成分對于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表

5、大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principal component)。 10第10頁,共106頁。主成分之選取正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。選擇越少的主成分,降維就越好。什么是標準呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。11第11頁,共106頁。主

6、成分分析的數(shù)學要尋找方差最大的方向。即使得向量X的線性組合aX的方差最大的方向a.而Var(aX)=aCov(X)a;由于Cov(X)未知;于是用X的樣本相關陣R來近似.因此,要尋找向量a使得aRa最大(注意相關陣和協(xié)方差陣差一個常數(shù)記得相關陣和特征值問題嗎?回顧一下吧!選擇幾個主成分呢?要看“貢獻率.”12第12頁,共106頁。對于我們的數(shù)據(jù),SPSS輸出為這里的Initial Eigenvalues就是這里的六個主軸長度,又稱特征值(數(shù)據(jù)相關陣的特征值)。頭兩個成分特征值累積占了總方差的81.142%。后面的特征值的貢獻越來越少。 13第13頁,共106頁。特征值的貢獻還可以從SPSS的所

7、謂碎石圖看出14第14頁,共106頁。怎么解釋這兩個主成分。前面說過主成分是原始六個變量的線性組合。是怎么樣的組合呢?SPSS可以輸出下面的表。 這里每一列代表一個主成分作為原來變量線性組合的系數(shù)(比例)。比如第一主成分為數(shù)學、物理、化學、語文、歷史、英語這六個變量的線性組合,系數(shù)(比例)為-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 15第15頁,共106頁。如用x1,x2,x3,x4,x5,x6分別表示原先的六個變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分為這些系數(shù)稱為主成分載荷(loading),它表示主成

8、分和相應的原先變量的相關系數(shù)。比如y1表示式中x1的系數(shù)為-0.806,這就是說第一主成分和數(shù)學變量的相關系數(shù)為-0.806。相關系數(shù)(絕對值)越大,主成分對該變量的代表性也越大??梢钥吹贸?,第一主成分對各個變量解釋得都很充分。而最后的幾個主成分和原先的變量就不那么相關了。 16第16頁,共106頁??梢园训谝缓偷诙鞒煞值妮d荷點出一個二維圖以直觀地顯示它們如何解釋原來的變量的。這個圖叫做載荷圖。17第17頁,共106頁。該圖左面三個點是數(shù)學、物理、化學三科,右邊三個點是語文、歷史、外語三科。圖中的六個點由于比較擠,不易分清,但只要認識到這些點的坐標是前面的第一二主成分載荷,坐標是前面表中第一

9、二列中的數(shù)目,還是可以識別的。18第18頁,共106頁。因子分析主成分分析從原理上是尋找橢球的所有主軸。因此,原先有幾個變量,就有幾個主成分。而因子分析是事先確定要找?guī)讉€成分,這里叫因子(factor)(比如兩個),那就找兩個。這使得在數(shù)學模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計算也復雜得多。根據(jù)因子分析模型的特點,它還多一道工序:因子旋轉(factor rotation);這個步驟可以使結果更好。當然,對于計算機來說,因子分析并不比主成分分析多費多少時間。從輸出的結果來看,因子分析也有因子載荷(factor loading)的概念,代表了因子和原先變量的相關系數(shù)。但是在因子分

10、析公式中的因子載荷和主成分分析中的因子載荷位置不同。因子分析也給出了二維圖;但解釋和主成分分析的載荷圖類似。 19第19頁,共106頁。主成分分析與因子分析的公式上的區(qū)別主成分分析因子分析(m ex=eigen(cor(z);ex$values1 2.87331359 1.79666009 0.21483689 0.09993405 0.01525537$vectors house services employ school poppop 0.3427304 -0.60162927 0.05951715 -0.20403274 0.6894972617school 0.4525067 0.4

11、0641449 0.68882245 0.35357060 0.1748611748employ 0.3966948 -0.54166500 0.24795775 -0.02293716 -0.6980136963services 0.5500565 0.07781686 -0.66407565 0.50038572 -0.0001235807house 0.4667384 0.41642892 -0.13964890 -0.76318182 -0.0824254824 sweep(ex$ve,2,sqrt(ex$va),*)載荷 house services employ school po

12、ppop 0.5809571 -0.8064212 0.02758650 -0.064499538 8.516163e-02school 0.7670373 0.5447561 0.31927265 0.111771968 2.159757e-02employ 0.6724314 -0.7260453 0.11492966 -0.007250974 -8.621352e-02services 0.9323926 0.1043054 -0.30780239 0.158183675 -1.526378e-05house 0.7911612 0.5581795 -0.06472796 -0.2412

13、59690 -1.018059e-0254第54頁,共106頁。正交性驗證 t(ex$ve)%*%ex$ve house services employ school pop house 1.00e+00 -5.55e-17 6.9e-17 -1.11e-16 0.00e+00 services -5.55e-17 1.00e+00 4.16e-17 0.00e+00 -8.33e-17 employ 6.94e-17 4.16e-17 1.00e+00 2.78e-17 5.38e-17 school -1.11e-16 0.00e+00 2.78e-17 1.00e+00 -1.39e-1

14、7 pop 0.00e+00 -8.33e-17 5.38e-17 -1.39e-17 1.00e+0055第55頁,共106頁。相關陣的特征值: (R輸出) 2.8733 1.7967 0.2148 0.0999 0.0153特征向量矩陣(列向量) A (R輸出)0.343 -0.6016 0.0595 -0.2040 0.6894970.453 0.4064 0.6888 0.3536 0.1748610.397 -0.5417 0.2480 -0.0229 -0.6980140.550 0.0778 -0.6641 0.5004 -0.0001240.467 0.4164 -0.1396

15、 -0.7632 -0.08242556第56頁,共106頁。57第57頁,共106頁。The SAS System 11:15 Sunday, September 22, 2002Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative PRIN1 2.87331 1.07665 0.574663 0.57466 PRIN2 1.79666 1.58182 0.359332 0.93399 PRIN3 0.21484 0.11490 0.042967 0.97696 PRIN4 0.09

16、993 0.08468 0.019987 0.99695 PRIN5 0.01526 . 0.003051 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.342730 0.601629 0.059517 0.204033 0.689497 X2 0.452507 -.406414 0.688822 -.353571 0.174861 X3 0.396695 0.541665 0.247958 0.022937 -.698014 X4 0.550057 -.077817 -.664076 -.500386 -.000124 X5

17、0.466738 -.416429 -.139649 0.763182 -.082425(SAS輸出)58第58頁,共106頁。銷售人員數(shù)據(jù)(salesmen.sav)(50個觀測值)銷售增長 銷售利潤 新客戶銷售額 創(chuàng)造力 機械推理 抽象推理 數(shù)學推理93.0096.0097.809.0012.009.0020.0088.8091.8096.807.0010.0010.0015.0095.00100.3099.008.0012.009.0026.00101.30103.80106.8013.0014.0012.0029.00102.00107.80103.0010.0015.0012.003

18、2.0095.8097.5099.3010.0014.0011.0021.0095.5099.5099.009.0012.009.0025.00110.80122.00115.3018.0020.0015.0051.00102.80108.30103.8010.0017.0013.0031.00106.80120.50102.0014.0018.0011.0039.00103.30109.80104.0012.0017.0012.0032.0099.50111.80100.3010.0018.008.0031.00103.50112.50107.0016.0017.0011.0034.0099

19、.50105.50102.308.0010.0011.0034.0059第59頁,共106頁。特征值、累積貢獻率60第60頁,共106頁。特征值圖61第61頁,共106頁。二主成分因子負荷圖62第62頁,共106頁。主成分的因子負荷(每列平方和為相應特征值, 而每列除以相應特征值的平方根為相應的特征向量)這是主成分與各個變量的相關系數(shù)有的書把它當成特征向量了SPSS沒有給出特征向量63第63頁,共106頁。The SAS System Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulativ

20、e PRIN1 5.03460 4.10108 0.719228 0.71923 PRIN2 0.93352 0.43560 0.133359 0.85259 PRIN3 0.49792 0.07667 0.071131 0.92372 PRIN4 0.42125 0.34021 0.060178 0.98390 PRIN5 0.08104 0.06070 0.011577 0.99547 PRIN6 0.02034 0.00900 0.002906 0.99838 PRIN7 0.01134 . 0.001620 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3

21、PRIN4 PRIN5 PRIN6 PRIN7 SALE 0.433672 -.111754 -.075489 -.042373 0.632494 -.336596 -.527825 BENEFIT 0.420214 0.029287 -.442479 0.010753 -.000118 0.785342 -.099483 NEWSALE 0.421051 0.009202 0.204189 -.324928 -.701026 -.156811 -.399164 CREATIV 0.294286 0.668416 0.451492 -.302712 0.261008 0.114171 0.29

22、9960 MECHD 0.349092 0.294944 0.005922 0.846604 -.174263 -.196909 0.072311 ABSD 0.289167 -.642378 0.603780 0.153674 0.086959 0.236261 0.228444 MATHD 0.407404 -.200368 -.434040 -.246013 -.049583 -.371111 0.636224(SAS輸出)64第64頁,共106頁。后面是因子分析(Factor Analysis) 65第65頁,共106頁。因子分析(Factor Analysis) 66第66頁,共10

23、6頁。男子徑賽記錄數(shù)據(jù)(MTF, p384)100m 200m 400m 800m 1500m 5000m 10000m Marathon10.3920.8146.841.813.7014.0429.36137.72 argentin 10.3120.0644.841.743.5713.2827.66128.30australi 10.4420.8146.821.793.6013.2627.72135.90austria 10.3420.6845.041.733.6013.2227.45129.95belgium 10.2820.5845.911.803.7514.6830.55146.62b

24、ermuda 10.2220.4345.211.733.6613.6228.62133.13brazil 女子徑賽記錄數(shù)據(jù)(FTF, p34)100m 200m 400m 800m 1500m 3000m Marathon11.6122.9454.502.154.439.79178.52argentin 11.2022.3551.081.984.139.08152.37australi11.4323.0950.621.994.229.34159.37austria 11.4123.0452.002.004.148.88157.85belgium 11.4623.0553.302.164.589

25、.81169.98bermuda 11.3123.1752.802.104.499.77168.75brazil .67第67頁,共106頁。人口普查數(shù)據(jù)(census, p383)5.9414.22.272.272.911.552.622.6011.724.013.02(兩個方法區(qū)別不大)股票數(shù)據(jù)(stock, p382).00.00.00.04.00.03-.04.00-.01.04.12.06.09.09.08.06.03.07.01.02.68第68頁,共106頁。1995中國社會數(shù)據(jù)(317.sav)變量:人均GDP(元

26、) 新增固定資產(chǎn)(億元) 城鎮(zhèn)居民人均年可支配收入(元) 農(nóng)村居民家庭人均純收人(元) 高等學校數(shù)(所) 衛(wèi)生機構數(shù)(個)地區(qū): 北京 天津 河北 山西 內蒙 遼寧 吉林 黑龍江 上海 江蘇 浙江 安徽 福建 江西 山東 河南 湖北 湖南 廣東 廣西 海南 四川 貴州 云南 陜西 甘肅 青海 寧夏 新疆 (296矩陣)北京 10265 30.81 6235 3223 65 4955天津 8164 49.13 4929 2406 21 3182河北 3376 77.76 3921 1668 47 10266山西 2819 33.97 3305 1206 26 5922內蒙 3013 54.51

27、2863 1208 19 4915.于秀林書上說可有三個因子:收入因子, 社會因子, 投資因子69第69頁,共106頁。35家中國上市公司2000年年報數(shù)據(jù) (Chcomp.sav)變量:凈資產(chǎn)收益率%,總資產(chǎn)報酬率%,資產(chǎn)負債率%,總資產(chǎn)周轉率,流動資產(chǎn)周轉率,已獲利息倍數(shù),銷售增長率%,資本積累率%公司:深能源, 深南電, 富龍熱力, 穗恒運, 粵電力,韶能股份, 惠天熱電, 原水股份, 大連熱電, 龍電股份, 華銀電力, 長春經(jīng)開, 興業(yè)房產(chǎn), 金豐投資, 新黃 浦, 浦東金橋, 外高橋, 中華企業(yè), 渝開發(fā), 遼房天, 粵宏遠, ST中福, 倍特高新, 三木集團, 寰島實業(yè), 中關 村

28、, 中興通訊, 長城電腦, 青鳥華光, 清華同方, 永鼎光纜, 宏圖高科, 海星科技, 方正科技, 復華實業(yè)(358矩陣)深能源16.8512.3542.32.371.787.1845.7354.5深南電22.0015.3046.51.761.7715.6748.1119.41富龍熱力8.977.98810.4317.809.44.70第70頁,共106頁。Spearmans Example有一組古典文學、法語、英語、數(shù)學和音樂的測驗成績, 從它們的相關性表明存在一個潛在的“智力”因子(F1)。而另一組變量,表示身體健康的得分,只要有效就可以對應另一個潛在的因子(F2)。記

29、這些變量為(X1,Xp). 我要尋求下面這樣的結構:71第71頁,共106頁。72第72頁,共106頁。正交因子模型:X-m=AF+emi=變量i的均值ei=第i個特殊因子Fi=第i個公共因子aij=第i個變量在第j個因子上的載荷不能觀測的值滿足下列條件:F和e獨立E(F)=0, Cov(F)=IE(e)=0, Cov(e)=Y, Y是對角矩陣73第73頁,共106頁。F為公共因子向量, 每個公共因子(如Fi)是對模型中每個變量都起作用的因子; 而e為特殊因子向量, 每個特殊因子(如ei)只對一個變量(第i個)起作用.74第74頁,共106頁。因子分析的方法在于估計S=AA+Y和Y, 再分解以

30、得到A.X的協(xié)方差陣S可以分解成這里l1 l2 lp為S的特征值;而e1,ep為相應的特征向量(e1,ep為主成分的系數(shù), 因此稱為主成分法). 上面分解總是取和數(shù)的重要的頭幾項來近似.75第75頁,共106頁。X的協(xié)方差陣S可以近似為(如Y忽略)如Y不忽略, S可以近似為應用中, S可以用樣本相關陣R代替.76第76頁,共106頁。正交模型X=m+AF+e的協(xié)方差結構根據(jù)前面模型,可以得出下面結果:上面sii2= Sjaij2 + yi2中, Sjaij2稱為共性方差(公共方差或變量共同度common variance, communalities),而yi2稱為特殊方差.變量共同度刻畫全部

31、公共因子對變量Xi的總方差所做的貢獻. 77第77頁,共106頁。的統(tǒng)計意義就是第i個變量與第j個公共因子的相關系數(shù), 表示Xi依賴Fj的份量,這里eij是相應于特征值li的特征向量ei的第j個分量. 因子載荷陣中各列元素的平方和Sj= Siaij2稱為公共因子Fj對X諸變量的方差貢獻之總和因子載荷78第78頁,共106頁。除主成分法外還有最大似然法來估計A, m和Y(在多元正態(tài)分布的假定下).當然,還有其他方法(有些互相類似).79第79頁,共106頁。令T為任意m正交方陣(TT=TT=I), 則X-m=AF+e= ATTF+e=A*F * +e, 這里A*= AT, F * = TF. 因

32、此S=AA+Y=ATTA+Y=(A*)(A*)+Y也就是說, 因子載荷A只由一個正交陣T決定. 載荷A*= AT與A都給出同一個表示. 由AA= (A*)(A*)對角元給出的共性方差, 也不因T的選擇而改變.80第80頁,共106頁。正交變換T相當于剛體旋轉(或反射), 因子載荷A的正交變換AT稱為因子旋轉估計的協(xié)方差陣或相關陣, 殘差陣, 特殊方差及共性方差都不隨旋轉而變.這里“殘差陣”為協(xié)方差陣或相關陣與估計的AA+Y之差.81第81頁,共106頁。因子旋轉的一個準則為最大方差準則. 它使旋轉后的因子載荷的總方差達到最大. 如即要選變換T使下式最大(計算機循環(huán)算法)82第82頁,共106頁

33、。需要由X=AF變成F=bX. 或Fj=bj1X1+ bjpXp j=1,m,稱為因子得分(函數(shù)). 這通常用加權最小二乘法或回歸法等來求得.83第83頁,共106頁??偨Y模型X=m+AF+e因子分析的步驟1根據(jù)問題選取原始變量2求其相關陣R,探討其相關性3從R求解初始公共因子F及因子載荷矩陣A(主成分法或最大似然法)4因子旋轉5由X=AF到F=bX(因子得分函數(shù))6根據(jù)因子得分值進行進一步分析84第84頁,共106頁。回到數(shù)值例子回到我們成績例子.85第85頁,共106頁。洛衫磯對12個人口調查區(qū)的數(shù)據(jù)(data15-01)編號 總人口 總雇員數(shù) 中等校 專業(yè)服務 中等房價 平均校齡 項目數(shù)

34、 1570012.8250027025000 2100010.96001010000 334008.81000109000 4380013.6170014025000 5400012.8160014025000 682008.326006012000 7120011.44001016000 8910011.533006014000 9990012.534001801800010960013.73600390250001196009.63300801200012940011.440001001300086第86頁,共106頁。StatisticsData Reduction Factor:Var

35、iables:pop,school,employ,service,houseDescriptive: Statistics(Univariate Descriptives, Initial solution), Correlation Matrix (Coefficients, Significance levels)Extraction: Method (Principal component), Analyze (Correlation matrix), Extract (Number=2 factors) Display (Unrotated factor solution, Scree plot), Maximum Iterations for (25)Rotation: Method (Varmax), Display (Rotated solusion, Loading plot), Maximum Iterations for (25)Score: Save as variables, Method(Regression), Display factor score coefficient matrixOptions: Missing Value(Exclude cases Listwise), Coefficient displ

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論