主成分與因子分析 新版_第1頁
主成分與因子分析 新版_第2頁
主成分與因子分析 新版_第3頁
主成分與因子分析 新版_第4頁
主成分與因子分析 新版_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第第8章章 主成分與因子分析主成分與因子分析 主成分分析與因子分析主成分分析與因子分析的目的在于降降 維維,即在眾多存在的相關性的變量中,找 出少數(shù)幾個綜合性變量,來反映原來變量 所反映的主要信息,使問題簡化。 主要作用主要作用 o 能降低所研究的數(shù)據(jù)空間的維數(shù); o 可用于分析篩選回歸變量,構造回歸模型; o 可用于綜合評價; o 可對變量進行分類 導入案例:如何對學生成績進行綜合評價 我國歷來是采用原始分數(shù)報告學生的學習成績, 并作為選拔考試擇優(yōu)錄取的重要依據(jù)。由于各科試 題難度不同,學生各科成績分布也不相同,因而用 學生各科原始分數(shù)相加后的總分來反映學生個體在 總體中的相對位置有較大的局

2、限性。為了克服這種 局限性,我國在1998年高考中開始實行用標準分 錄取新生。它是高考制度具體措施的一大改革。標 準分是一種由原始分推導出來的相對地位量數(shù),它 是用來說明原始分在所屬的那批分數(shù)中的相對位置 的。但是截止到2007年,只有海南省還在使用標 準分,其它省份都使用原始分錄取新生。 主要內容主要內容 8.1 主成分分析主成分分析 8.2 因子分析因子分析 8.3 主成分分析和因子分析的區(qū)別主成分分析和因子分析的區(qū)別 8.4 用用SPSS進行因子分析進行因子分析 8.1 主成分分析主成分分析 8.1.1 主成分分析的數(shù)學模型 1.主成分主成分(Principal Components)含

3、義:含義: 例:例:上衣尺寸主要包括領長、袖長、衣長、 號 領圍、肩寬、臂圍、胸圍、腰圍、臀圍、袖寬等 14 型 個變量,顯然它們是相關的,因此可以找出反映上衣特 征的兩個不相關的綜合變量,就是上衣的號和型。 如:(男)180/100A 、 175/96A;(女)165/84A等 F1 * * * * * * * * 2.如何實現(xiàn):如何實現(xiàn): 兒童身高(X1)和體重(X2)兩個變量之間的關系可以用散點圖表 示出來,如圖8.1所示。 顯然,這兩個變量之間存在線性關系?,F(xiàn)在以直線P1為橫坐 標,以該軸的垂直線P2為縱坐標,建立一個新的平面直角坐標 系,則所有觀測點均在坐標軸P1周圍(即沿該方向觀測

4、值方差最 大),而在坐標軸P2方向上的波動很小,可以忽略。 這樣,二維問題即可以降為一維問題,只取一個綜合變量 P1(主成分)即可。 X2 F2 * * * X1 相當于在平面上做一個坐標變換,即按逆時針方向旋轉角 度,根據(jù)旋轉變換公式,新舊坐標之間有如下關系 112111122 212211222 cossin sincos PXXu Xu X PXXu Xu X qq qq =+=+ = -+=+ 主成分就是P個原始變量的某種線性組合;從幾何意義 上看,這些線性組合正是由X1,X2,XP構成的坐標系 經(jīng)旋轉而產(chǎn)生的新坐標系,新坐標系使之通過變差最大的 方向(或者說具有最大的樣本方差)。 3

5、.建立主成分分析的數(shù)學模型:建立主成分分析的數(shù)學模型: 假設觀測 p 項變量(指標),記為X1,X2,Xp,取n 件樣品,原始數(shù)據(jù)資料陣為 11121 21222 12 p p nnnp xxx xxx xxx 輊 犏 犏 犏 = 犏 犏 犏 犏 臌 L L MMM L x 指標1(X1) 指標2(X2) 指標p(Xp) 第1次觀測值 第n次觀測值 為找出主成分,尋求原變量X1,X2,Xp的線性組合 Fi,其數(shù)學模型 11111221 22112222 1122 pp pp pppppp pu Xu Xu X pu Xu XuX pu XuXuX =+ =+ =+ L L L L L 模型可簡

6、寫為 P=u1X1+u2X2+upXp =UTX 若令式中U=(u1,u2,up)T, X=(X1,X2,XP)T 滿足如下的條件: (1) Pi和Pj不相關,即 11111221 22112222 1122 pp pp pppppp pu Xu Xu X pu Xu XuX pu XuXuX =+ =+ =+ L L L L L Cov0(,12) ij PPijp=L( ,), , )()( 21p pDpDpD)( p i p i ii PDXD 11 )()( 1 22 2 2 1 ipii uuu (2) 主成分的方差依次遞減,重要性依次遞減,即 稱Pi為第i主成分(i=1,2,p)

7、。 (3) 總方差不變,即 (4) 每個主成分的系數(shù)平方和為1,即 4主成分的求法(見板書) 5主成分個數(shù)的提取 為簡化問題,通常提取q(qp)個主成分,原則是這q個主成 分能夠反映出原來P個變量的絕大部分的方差。 幾個概念: 1) 主成分的方差貢獻率 第i個主成分的方差在全部方差中所占的比重 : p i ii pDpD 1 )(/ )( p i ii 1 稱為第i個主成分的方差貢獻率方差貢獻率,反映了第i個主成分綜合原來 P個變量信息的能力 。 2) 主成分的累積方差貢獻率 前q個主成分共有多大的信息綜合能力,用這q個主成分的方 差和在全部方差中所占比重來描述,稱為前q個主成分的 即 p i

8、 ii q i pDpD 11 )(/ )(即 p i i q i i 11 知識要點提醒1:主成分的計算 需要說明的是,從協(xié)差陣和相關陣計算 主成分一般是不同的,當變量取值范圍彼此 相差很大或度量單位不同時,可以考慮標準 化,以便使計算結果有合理的解釋,避免出 現(xiàn)誤解。如沒有上述度量單位和數(shù)量級的差 異,從協(xié)差陣和相關陣出發(fā)計算的結果對主 成分的解釋或計算方差貢獻時,一般不會矛 盾。 知識要點提醒2:主成分分析的數(shù)據(jù)要求 無論是從原始變量協(xié)差陣出發(fā)求解主成分,還 是從相關陣求解主成分,均沒有涉及總體分布問題。 也就是說,與很多多元統(tǒng)計方法不同,主成分分析 不要求數(shù)據(jù)來自正態(tài)總體。主成分分析就

9、是對矩陣 結構的分析。對多元隨機變量而言,其協(xié)差陣或其 相關陣都是非負定的,這樣就可以按照求解主成分 的步驟求出其特征值、標準正交特征向量,進而求 出主成分,達到縮減數(shù)據(jù)維數(shù)的目的。 主成分分析的這一特性大大擴展了其應用范圍, 對多維數(shù)據(jù),只要是涉及降維的處理,我們都可以 嘗試用主成分分析,而不用花太多精力考慮其分布 情況。 8.1.2 主成分分析的步驟及應用 1.主成分分析的步驟 第一步:確定分析變量,收集數(shù)據(jù)資料。 第二步:對原始數(shù)據(jù)進行標準化。 第三步:對標準化后的樣本數(shù)據(jù)資料計算協(xié)差陣或相關陣。 第四步:計算或R的特征值及相應的特征向量Ui,并按i 的大小排序(i=1,2,p)。 第五

10、步:計算主成分的貢獻率及累計貢獻率。 第六步:確定主成分個數(shù)。 1.取累計貢獻率80%的前q個主成分 2.選用特征值1的前q個主成分。 第七步:將樣本數(shù)據(jù)代入前q個主成分的表達式,可分別計 算出各單位前q個主成分的得分。 2.主成分分析的應用 【例8.1】 某地區(qū)為了對14家工業(yè)企業(yè)進行經(jīng)濟效益的綜合 評估,選擇了8項不同的利潤指標,包括凈產(chǎn)值利潤率X1(%)、 固定資產(chǎn)利潤率X2(%)、總產(chǎn)值利潤率X3(%)、銷售收入利潤 率X4(%)、產(chǎn)品成本利潤率X5(%)、物耗利潤率X6(%)、人均 利潤率X7(%)、流動資金利潤率X8(%)。統(tǒng)計數(shù)據(jù)資料如下表 8-1所示。(見書) 8.2 因子分析

11、 8.2.1 因子分析的數(shù)學模型 1因子分析的含義 因子分析因子分析是主成分分析的推廣,它是探討存在相關關系的 變量之間,是否存在不能直接觀測到但對可觀測指標的變 化起支配作用的潛在因子因子(factor)的分析方法。 2因子分析的基本原理 因子分析因子分析就是通過變量的相關系數(shù)矩陣內部結構的研究, 找出能控制所有變量的少數(shù)幾個公共因子去描述多個變量 之間的相關關系,然后根據(jù)相關性的大小把變量分組. 共享這4個公共因子,但是每個變量又有自己的個性,即不被包 含的特殊因子 例例:某公司招聘人才,對每位應聘者進行外貌、求職信的形式、 專業(yè)能力、討人喜歡的能力、自信心、洞察力、誠實、推銷本 領、經(jīng)驗

12、、積極性、抱負、理解能力、潛在能力、實際能力、 適應性等15個方面的考核。這15個方面可歸結為應聘者的外露 能力、討人喜歡的能力、經(jīng)驗、專業(yè)能力4個方面,每一方面 稱之為一個公共因子。企業(yè)可根據(jù)這4個公共因子的情況來衡 量應聘者的綜合水平。這4個公共因子可以表示為 iiiiii FaFaFaFaX 44332211 4321 FFFF、 i 是不可觀測的潛在因子,即公共因子。15個變量 3因子分析的數(shù)學模型 假設有n個樣品,每個樣品觀測p項變量(指標),記為X1, X2,Xp,原始數(shù)據(jù)資料陣 11121 21222 12 p p nnnp xxx xxx xxx 輊 犏 犏 犏 = 犏 犏 犏

13、 犏 臌 L L MMM L x =(X1,X2,Xp) 則因子分析的一般數(shù)學模型為 111112211 221122222 1122 mm mm ppppmmp Xa Fa Fa F Xa Fa FaF Xa FaFaF e e e =+ =+ =+ L L L XAF 矩陣形式為 T 12 (,) m FF FF=L稱為公共因子 A=aij(i=1,2,p;j=1,2,m)稱為載荷矩陣 aij為第i個變量在第j個公共因子上的載荷,簡稱因子載荷,是 不可觀測的潛在因子 T 12 (,) m eeee=L, 是特殊因子,是不能被前m個公共因子 包含的部分 滿足如下的條件: (1) mp。 (2

14、) 假定特殊因子 i e服從 2 0)(1,2, ) i Nips=L(, (3) 不相關與不相關,與)(jiFFF ji (4) 假定原始變量、公共因子和特殊因子都已標準化, 即平均值為0,方差為1。 8.2.2 因子載荷因子載荷 1122 . iiiimmi Xa Fa Fa F 在上式的兩邊右乘以 j F,再求數(shù)學期望 11 ()()()()() ijijijjjimmjij E X Fa E FFa E F Fa E F FEF 由于在標準化下,原始指標X、公共因子F和特殊因子都已標 準化,平均值為0,方差為1;而且各因子不相關。因此,有 1 2 12 ijjijmjij j x Fi

15、FFiij FFim F FFij F F a ra ra ra rra 可知,因子載荷 是變量Xi與公共因子Fj的相關系數(shù)(即載荷 矩陣中第i行第j列的元素),反映了變量Xi與公共因子Fj的相關 程度。 ,絕對值越接近于1,表明公共因子Fj與變量 Xi的相關性越強。同時因子載荷 也反映了公共因子Fj對原始 變量Xi的重要作用和程度。 ij a 1 ij a ij a 1因子載荷矩陣中的幾個統(tǒng)計特征因子載荷矩陣中的幾個統(tǒng)計特征 1) 因子載荷aij的統(tǒng)計意義 2) 變量共同度的統(tǒng)計意義 變量Xi的共同度 也就是變量Xi的方差 22 1 (1,2, ) m iij j haip 2 i h 解釋

16、解釋 11iiimmi Xa Fa F 對兩邊求方差有 22 11 ()()()( ) iiimmi D XaD FaD FD 由于X和F已標準化了,所以有 22 1 1 m iji j a hi2,是全部公共因子 對Xi的總方差的貢獻, 即全部公共因子對Xi 的解釋貢獻程度 2,僅與Xi本身的變化有關, 即變量Xi的方差中不能由 全體公共因子解釋說明的 比例,2越小,說明變量 Xi的信息損失越少。 3) 公共因子方差貢獻的統(tǒng)計意義 公共因子Fj的方差貢獻是因子載荷矩陣中各列元素的平方和 2 1 p jij i Sa 公共因子Fj的方差貢獻反映了公共因子Fj對原始變量的解釋 能力。該值越高,說

17、明相應公共因子的重要性越高。 2因子載荷矩陣的估計方法因子載荷矩陣的估計方法 要建立實際問題的因子分析模型,關鍵是要根據(jù)樣本數(shù)據(jù)估計 因子載荷矩陣A,目前較為普遍使用的是主成分分析法 1) 先對數(shù)據(jù)進行一次主成分分析 得到主成分分析的模型為 T 1122 . iiiiPPi Pu Xu Xu Xu X 樣本協(xié)差陣S的特征值 12 0 P 對應的單位正交特征向量u1,u2,up 然后計算p個主成分 , 1 T ii Pu Xip 11 11 1 (,) T m T iiimm i T mm u Suuuu u 當略去特殊因子時,因子分析模型變?yōu)閄=AF TT ()()()DDDXAFAF AAA

18、 T 11 T 11 T S, mm mm u AAuu u 所以因子載荷矩陣A的第j列應為,即載荷矩陣A的樣本估計 量為 11 , pp Auu 當相關變量所取單位不同時,我們常常先對變量標準化, 標準化樣本協(xié)差陣S就是原始變量的樣本相關陣R,再用R代 替S,與上類似,進行載荷矩陣的估計。 實際應用時通常根據(jù)公共因子的累積貢獻率是否達到 80%以上,決定所取公共因子的個數(shù)。 8.2.3 因子旋轉與因子得分因子旋轉與因子得分 1因子旋轉因子旋轉 因子分析的目的是知道每個公共因子的實際意義(即命名解 釋),以便對實際問題進行科學的分析。由于因子載荷陣的不 唯一性,可以對其進行旋轉,使每個變量只在

19、一個公共因子 上有較大的載荷,而在其余公共因子上的載荷比較小。 2. 方差最大正交旋轉法方差最大正交旋轉法 方差最大正交旋轉法是從初始因子載荷矩陣的每一列出發(fā), 使和每個因子有關的載荷的平方的方差最大。 先考慮兩個因子的平面正交旋轉,設因子的載荷矩陣為 1112 2122 12pp aa aa aa A 1111122 2211222 1122ppp Xa Fa F Xa Fa F Xa Fa F 則因子分析模型為 cossin sincos T cossin sincos BATA 11121112 1211 cossinsincos cossinsincos pppp aaaa aaaa

20、1112 12pp bb bb 方差最大正交旋轉法的目的是希望通過因子旋轉后,使每個 因子上的載荷盡量拉開距離,一部分的載荷趨于1,另一部 分趨于0。這實際上希望將指標X1、X2,XP分成兩部分,一 部分主要與第一公共因子有關,另一部分主要與第二公共因 子有關 也就是要求要求(b112,b212,bp12)和(b122,b222,bp22)兩組數(shù)據(jù) 的方差V1和V2盡可能地大。即正交旋轉的角度必須滿足使 2 22 2 2 12 22 111 11 ()() pp ijij jii ijij bb VVV phph 達到最大值。這里取bij2是為了消除符號不同的影響,除以 hi2是為了消除各個變

21、量對公共因子依賴程度不同的影響。 d 0 d V 22 2/ tan4 ()/ DAB P CABP 令 有 22 1111 2 2222 1212 1 ()2 ()()2()() pppp iiiiii iiii iiii iiiij j iiii ABvCvDv aaaa vha hhhh 如果公共因子有m(m2)個,則需逐次取2個公共因子 全部配對進行上述的旋轉,共需旋轉Cm2次算作一個循環(huán), 如循環(huán)完畢得出的因子載荷矩陣還沒有達到目的,則可以進 行第二輪Cm2次配對旋轉,依次進行,直到達到實際要求為 止。 3因子得分因子得分 要使用這些公共因子做其他的研究,比如把得到的公共因子 作為自

22、變量來做回歸分析,對樣本進行分類或評價,這就需要 我們對公共因子進行測度,即給出公共因子的值(將公共因子 表示為變量的線性組合)。 設公共因子由原始變量表示的線性組合為 11jjjpp FXX1,jm 稱式(8.21)為因子得分函數(shù)。由于方程的個數(shù)少于變量的 個數(shù)(即mp),所以只能在最小二乘意義下對因子得分函數(shù)的 系數(shù)進行估計。設公共因子可以對p個變量做回歸,即建立回 歸方程為 11 jjjpp bbFXX 變量和公共因子均已標準化,故有bj0=0。由最小二乘估計有 T1 FA R X TT 1212 (,) ;( ,) mm FFFFx xxX R為原始變量的相關系數(shù)矩陣。 8.2.4 因子分析的步驟及應用因子分析的步驟及應用 1. 因子分析的步驟因子分析的步驟 第一步:第一步:確定分析變量,收集數(shù)據(jù)資料。 第二步:第二步:對原始數(shù)據(jù)進行標準化。 第三步:第三步:計算所選變量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論