主成分與因子分析 新版_第1頁
主成分與因子分析 新版_第2頁
主成分與因子分析 新版_第3頁
主成分與因子分析 新版_第4頁
主成分與因子分析 新版_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第第8章章 主成分與因子分析主成分與因子分析 主成分分析與因子分析主成分分析與因子分析的目的在于降降 維維,即在眾多存在的相關(guān)性的變量中,找 出少數(shù)幾個(gè)綜合性變量,來反映原來變量 所反映的主要信息,使問題簡(jiǎn)化。 主要作用主要作用 o 能降低所研究的數(shù)據(jù)空間的維數(shù); o 可用于分析篩選回歸變量,構(gòu)造回歸模型; o 可用于綜合評(píng)價(jià); o 可對(duì)變量進(jìn)行分類 導(dǎo)入案例:如何對(duì)學(xué)生成績(jī)進(jìn)行綜合評(píng)價(jià) 我國(guó)歷來是采用原始分?jǐn)?shù)報(bào)告學(xué)生的學(xué)習(xí)成績(jī), 并作為選拔考試擇優(yōu)錄取的重要依據(jù)。由于各科試 題難度不同,學(xué)生各科成績(jī)分布也不相同,因而用 學(xué)生各科原始分?jǐn)?shù)相加后的總分來反映學(xué)生個(gè)體在 總體中的相對(duì)位置有較大的局

2、限性。為了克服這種 局限性,我國(guó)在1998年高考中開始實(shí)行用標(biāo)準(zhǔn)分 錄取新生。它是高考制度具體措施的一大改革。標(biāo) 準(zhǔn)分是一種由原始分推導(dǎo)出來的相對(duì)地位量數(shù),它 是用來說明原始分在所屬的那批分?jǐn)?shù)中的相對(duì)位置 的。但是截止到2007年,只有海南省還在使用標(biāo) 準(zhǔn)分,其它省份都使用原始分錄取新生。 主要內(nèi)容主要內(nèi)容 8.1 主成分分析主成分分析 8.2 因子分析因子分析 8.3 主成分分析和因子分析的區(qū)別主成分分析和因子分析的區(qū)別 8.4 用用SPSS進(jìn)行因子分析進(jìn)行因子分析 8.1 主成分分析主成分分析 8.1.1 主成分分析的數(shù)學(xué)模型 1.主成分主成分(Principal Components)含

3、義:含義: 例:例:上衣尺寸主要包括領(lǐng)長(zhǎng)、袖長(zhǎng)、衣長(zhǎng)、 號(hào) 領(lǐng)圍、肩寬、臂圍、胸圍、腰圍、臀圍、袖寬等 14 型 個(gè)變量,顯然它們是相關(guān)的,因此可以找出反映上衣特 征的兩個(gè)不相關(guān)的綜合變量,就是上衣的號(hào)和型。 如:(男)180/100A 、 175/96A;(女)165/84A等 F1 * * * * * * * * 2.如何實(shí)現(xiàn):如何實(shí)現(xiàn): 兒童身高(X1)和體重(X2)兩個(gè)變量之間的關(guān)系可以用散點(diǎn)圖表 示出來,如圖8.1所示。 顯然,這兩個(gè)變量之間存在線性關(guān)系?,F(xiàn)在以直線P1為橫坐 標(biāo),以該軸的垂直線P2為縱坐標(biāo),建立一個(gè)新的平面直角坐標(biāo) 系,則所有觀測(cè)點(diǎn)均在坐標(biāo)軸P1周圍(即沿該方向觀測(cè)

4、值方差最 大),而在坐標(biāo)軸P2方向上的波動(dòng)很小,可以忽略。 這樣,二維問題即可以降為一維問題,只取一個(gè)綜合變量 P1(主成分)即可。 X2 F2 * * * X1 相當(dāng)于在平面上做一個(gè)坐標(biāo)變換,即按逆時(shí)針方向旋轉(zhuǎn)角 度,根據(jù)旋轉(zhuǎn)變換公式,新舊坐標(biāo)之間有如下關(guān)系 112111122 212211222 cossin sincos PXXu Xu X PXXu Xu X qq qq =+=+ = -+=+ 主成分就是P個(gè)原始變量的某種線性組合;從幾何意義 上看,這些線性組合正是由X1,X2,XP構(gòu)成的坐標(biāo)系 經(jīng)旋轉(zhuǎn)而產(chǎn)生的新坐標(biāo)系,新坐標(biāo)系使之通過變差最大的 方向(或者說具有最大的樣本方差)。 3

5、.建立主成分分析的數(shù)學(xué)模型:建立主成分分析的數(shù)學(xué)模型: 假設(shè)觀測(cè) p 項(xiàng)變量(指標(biāo)),記為X1,X2,Xp,取n 件樣品,原始數(shù)據(jù)資料陣為 11121 21222 12 p p nnnp xxx xxx xxx 輊 犏 犏 犏 = 犏 犏 犏 犏 臌 L L MMM L x 指標(biāo)1(X1) 指標(biāo)2(X2) 指標(biāo)p(Xp) 第1次觀測(cè)值 第n次觀測(cè)值 為找出主成分,尋求原變量X1,X2,Xp的線性組合 Fi,其數(shù)學(xué)模型 11111221 22112222 1122 pp pp pppppp pu Xu Xu X pu Xu XuX pu XuXuX =+ =+ =+ L L L L L 模型可簡(jiǎn)

6、寫為 P=u1X1+u2X2+upXp =UTX 若令式中U=(u1,u2,up)T, X=(X1,X2,XP)T 滿足如下的條件: (1) Pi和Pj不相關(guān),即 11111221 22112222 1122 pp pp pppppp pu Xu Xu X pu Xu XuX pu XuXuX =+ =+ =+ L L L L L Cov0(,12) ij PPijp=L( ,), , )()( 21p pDpDpD)( p i p i ii PDXD 11 )()( 1 22 2 2 1 ipii uuu (2) 主成分的方差依次遞減,重要性依次遞減,即 稱Pi為第i主成分(i=1,2,p)

7、。 (3) 總方差不變,即 (4) 每個(gè)主成分的系數(shù)平方和為1,即 4主成分的求法(見板書) 5主成分個(gè)數(shù)的提取 為簡(jiǎn)化問題,通常提取q(qp)個(gè)主成分,原則是這q個(gè)主成 分能夠反映出原來P個(gè)變量的絕大部分的方差。 幾個(gè)概念: 1) 主成分的方差貢獻(xiàn)率 第i個(gè)主成分的方差在全部方差中所占的比重 : p i ii pDpD 1 )(/ )( p i ii 1 稱為第i個(gè)主成分的方差貢獻(xiàn)率方差貢獻(xiàn)率,反映了第i個(gè)主成分綜合原來 P個(gè)變量信息的能力 。 2) 主成分的累積方差貢獻(xiàn)率 前q個(gè)主成分共有多大的信息綜合能力,用這q個(gè)主成分的方 差和在全部方差中所占比重來描述,稱為前q個(gè)主成分的 即 p i

8、 ii q i pDpD 11 )(/ )(即 p i i q i i 11 知識(shí)要點(diǎn)提醒1:主成分的計(jì)算 需要說明的是,從協(xié)差陣和相關(guān)陣計(jì)算 主成分一般是不同的,當(dāng)變量取值范圍彼此 相差很大或度量單位不同時(shí),可以考慮標(biāo)準(zhǔn) 化,以便使計(jì)算結(jié)果有合理的解釋,避免出 現(xiàn)誤解。如沒有上述度量單位和數(shù)量級(jí)的差 異,從協(xié)差陣和相關(guān)陣出發(fā)計(jì)算的結(jié)果對(duì)主 成分的解釋或計(jì)算方差貢獻(xiàn)時(shí),一般不會(huì)矛 盾。 知識(shí)要點(diǎn)提醒2:主成分分析的數(shù)據(jù)要求 無論是從原始變量協(xié)差陣出發(fā)求解主成分,還 是從相關(guān)陣求解主成分,均沒有涉及總體分布問題。 也就是說,與很多多元統(tǒng)計(jì)方法不同,主成分分析 不要求數(shù)據(jù)來自正態(tài)總體。主成分分析就

9、是對(duì)矩陣 結(jié)構(gòu)的分析。對(duì)多元隨機(jī)變量而言,其協(xié)差陣或其 相關(guān)陣都是非負(fù)定的,這樣就可以按照求解主成分 的步驟求出其特征值、標(biāo)準(zhǔn)正交特征向量,進(jìn)而求 出主成分,達(dá)到縮減數(shù)據(jù)維數(shù)的目的。 主成分分析的這一特性大大擴(kuò)展了其應(yīng)用范圍, 對(duì)多維數(shù)據(jù),只要是涉及降維的處理,我們都可以 嘗試用主成分分析,而不用花太多精力考慮其分布 情況。 8.1.2 主成分分析的步驟及應(yīng)用 1.主成分分析的步驟 第一步:確定分析變量,收集數(shù)據(jù)資料。 第二步:對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。 第三步:對(duì)標(biāo)準(zhǔn)化后的樣本數(shù)據(jù)資料計(jì)算協(xié)差陣或相關(guān)陣。 第四步:計(jì)算或R的特征值及相應(yīng)的特征向量Ui,并按i 的大小排序(i=1,2,p)。 第五

10、步:計(jì)算主成分的貢獻(xiàn)率及累計(jì)貢獻(xiàn)率。 第六步:確定主成分個(gè)數(shù)。 1.取累計(jì)貢獻(xiàn)率80%的前q個(gè)主成分 2.選用特征值1的前q個(gè)主成分。 第七步:將樣本數(shù)據(jù)代入前q個(gè)主成分的表達(dá)式,可分別計(jì) 算出各單位前q個(gè)主成分的得分。 2.主成分分析的應(yīng)用 【例8.1】 某地區(qū)為了對(duì)14家工業(yè)企業(yè)進(jìn)行經(jīng)濟(jì)效益的綜合 評(píng)估,選擇了8項(xiàng)不同的利潤(rùn)指標(biāo),包括凈產(chǎn)值利潤(rùn)率X1(%)、 固定資產(chǎn)利潤(rùn)率X2(%)、總產(chǎn)值利潤(rùn)率X3(%)、銷售收入利潤(rùn) 率X4(%)、產(chǎn)品成本利潤(rùn)率X5(%)、物耗利潤(rùn)率X6(%)、人均 利潤(rùn)率X7(%)、流動(dòng)資金利潤(rùn)率X8(%)。統(tǒng)計(jì)數(shù)據(jù)資料如下表 8-1所示。(見書) 8.2 因子分析

11、 8.2.1 因子分析的數(shù)學(xué)模型 1因子分析的含義 因子分析因子分析是主成分分析的推廣,它是探討存在相關(guān)關(guān)系的 變量之間,是否存在不能直接觀測(cè)到但對(duì)可觀測(cè)指標(biāo)的變 化起支配作用的潛在因子因子(factor)的分析方法。 2因子分析的基本原理 因子分析因子分析就是通過變量的相關(guān)系數(shù)矩陣內(nèi)部結(jié)構(gòu)的研究, 找出能控制所有變量的少數(shù)幾個(gè)公共因子去描述多個(gè)變量 之間的相關(guān)關(guān)系,然后根據(jù)相關(guān)性的大小把變量分組. 共享這4個(gè)公共因子,但是每個(gè)變量又有自己的個(gè)性,即不被包 含的特殊因子 例例:某公司招聘人才,對(duì)每位應(yīng)聘者進(jìn)行外貌、求職信的形式、 專業(yè)能力、討人喜歡的能力、自信心、洞察力、誠(chéng)實(shí)、推銷本 領(lǐng)、經(jīng)驗(yàn)

12、、積極性、抱負(fù)、理解能力、潛在能力、實(shí)際能力、 適應(yīng)性等15個(gè)方面的考核。這15個(gè)方面可歸結(jié)為應(yīng)聘者的外露 能力、討人喜歡的能力、經(jīng)驗(yàn)、專業(yè)能力4個(gè)方面,每一方面 稱之為一個(gè)公共因子。企業(yè)可根據(jù)這4個(gè)公共因子的情況來衡 量應(yīng)聘者的綜合水平。這4個(gè)公共因子可以表示為 iiiiii FaFaFaFaX 44332211 4321 FFFF、 i 是不可觀測(cè)的潛在因子,即公共因子。15個(gè)變量 3因子分析的數(shù)學(xué)模型 假設(shè)有n個(gè)樣品,每個(gè)樣品觀測(cè)p項(xiàng)變量(指標(biāo)),記為X1, X2,Xp,原始數(shù)據(jù)資料陣 11121 21222 12 p p nnnp xxx xxx xxx 輊 犏 犏 犏 = 犏 犏 犏

13、 犏 臌 L L MMM L x =(X1,X2,Xp) 則因子分析的一般數(shù)學(xué)模型為 111112211 221122222 1122 mm mm ppppmmp Xa Fa Fa F Xa Fa FaF Xa FaFaF e e e =+ =+ =+ L L L XAF 矩陣形式為 T 12 (,) m FF FF=L稱為公共因子 A=aij(i=1,2,p;j=1,2,m)稱為載荷矩陣 aij為第i個(gè)變量在第j個(gè)公共因子上的載荷,簡(jiǎn)稱因子載荷,是 不可觀測(cè)的潛在因子 T 12 (,) m eeee=L, 是特殊因子,是不能被前m個(gè)公共因子 包含的部分 滿足如下的條件: (1) mp。 (2

14、) 假定特殊因子 i e服從 2 0)(1,2, ) i Nips=L(, (3) 不相關(guān)與不相關(guān),與)(jiFFF ji (4) 假定原始變量、公共因子和特殊因子都已標(biāo)準(zhǔn)化, 即平均值為0,方差為1。 8.2.2 因子載荷因子載荷 1122 . iiiimmi Xa Fa Fa F 在上式的兩邊右乘以 j F,再求數(shù)學(xué)期望 11 ()()()()() ijijijjjimmjij E X Fa E FFa E F Fa E F FEF 由于在標(biāo)準(zhǔn)化下,原始指標(biāo)X、公共因子F和特殊因子都已標(biāo) 準(zhǔn)化,平均值為0,方差為1;而且各因子不相關(guān)。因此,有 1 2 12 ijjijmjij j x Fi

15、FFiij FFim F FFij F F a ra ra ra rra 可知,因子載荷 是變量Xi與公共因子Fj的相關(guān)系數(shù)(即載荷 矩陣中第i行第j列的元素),反映了變量Xi與公共因子Fj的相關(guān) 程度。 ,絕對(duì)值越接近于1,表明公共因子Fj與變量 Xi的相關(guān)性越強(qiáng)。同時(shí)因子載荷 也反映了公共因子Fj對(duì)原始 變量Xi的重要作用和程度。 ij a 1 ij a ij a 1因子載荷矩陣中的幾個(gè)統(tǒng)計(jì)特征因子載荷矩陣中的幾個(gè)統(tǒng)計(jì)特征 1) 因子載荷aij的統(tǒng)計(jì)意義 2) 變量共同度的統(tǒng)計(jì)意義 變量Xi的共同度 也就是變量Xi的方差 22 1 (1,2, ) m iij j haip 2 i h 解釋

16、解釋 11iiimmi Xa Fa F 對(duì)兩邊求方差有 22 11 ()()()( ) iiimmi D XaD FaD FD 由于X和F已標(biāo)準(zhǔn)化了,所以有 22 1 1 m iji j a hi2,是全部公共因子 對(duì)Xi的總方差的貢獻(xiàn), 即全部公共因子對(duì)Xi 的解釋貢獻(xiàn)程度 2,僅與Xi本身的變化有關(guān), 即變量Xi的方差中不能由 全體公共因子解釋說明的 比例,2越小,說明變量 Xi的信息損失越少。 3) 公共因子方差貢獻(xiàn)的統(tǒng)計(jì)意義 公共因子Fj的方差貢獻(xiàn)是因子載荷矩陣中各列元素的平方和 2 1 p jij i Sa 公共因子Fj的方差貢獻(xiàn)反映了公共因子Fj對(duì)原始變量的解釋 能力。該值越高,說

17、明相應(yīng)公共因子的重要性越高。 2因子載荷矩陣的估計(jì)方法因子載荷矩陣的估計(jì)方法 要建立實(shí)際問題的因子分析模型,關(guān)鍵是要根據(jù)樣本數(shù)據(jù)估計(jì) 因子載荷矩陣A,目前較為普遍使用的是主成分分析法 1) 先對(duì)數(shù)據(jù)進(jìn)行一次主成分分析 得到主成分分析的模型為 T 1122 . iiiiPPi Pu Xu Xu Xu X 樣本協(xié)差陣S的特征值 12 0 P 對(duì)應(yīng)的單位正交特征向量u1,u2,up 然后計(jì)算p個(gè)主成分 , 1 T ii Pu Xip 11 11 1 (,) T m T iiimm i T mm u Suuuu u 當(dāng)略去特殊因子時(shí),因子分析模型變?yōu)閄=AF TT ()()()DDDXAFAF AAA

18、 T 11 T 11 T S, mm mm u AAuu u 所以因子載荷矩陣A的第j列應(yīng)為,即載荷矩陣A的樣本估計(jì) 量為 11 , pp Auu 當(dāng)相關(guān)變量所取單位不同時(shí),我們常常先對(duì)變量標(biāo)準(zhǔn)化, 標(biāo)準(zhǔn)化樣本協(xié)差陣S就是原始變量的樣本相關(guān)陣R,再用R代 替S,與上類似,進(jìn)行載荷矩陣的估計(jì)。 實(shí)際應(yīng)用時(shí)通常根據(jù)公共因子的累積貢獻(xiàn)率是否達(dá)到 80%以上,決定所取公共因子的個(gè)數(shù)。 8.2.3 因子旋轉(zhuǎn)與因子得分因子旋轉(zhuǎn)與因子得分 1因子旋轉(zhuǎn)因子旋轉(zhuǎn) 因子分析的目的是知道每個(gè)公共因子的實(shí)際意義(即命名解 釋),以便對(duì)實(shí)際問題進(jìn)行科學(xué)的分析。由于因子載荷陣的不 唯一性,可以對(duì)其進(jìn)行旋轉(zhuǎn),使每個(gè)變量只在

19、一個(gè)公共因子 上有較大的載荷,而在其余公共因子上的載荷比較小。 2. 方差最大正交旋轉(zhuǎn)法方差最大正交旋轉(zhuǎn)法 方差最大正交旋轉(zhuǎn)法是從初始因子載荷矩陣的每一列出發(fā), 使和每個(gè)因子有關(guān)的載荷的平方的方差最大。 先考慮兩個(gè)因子的平面正交旋轉(zhuǎn),設(shè)因子的載荷矩陣為 1112 2122 12pp aa aa aa A 1111122 2211222 1122ppp Xa Fa F Xa Fa F Xa Fa F 則因子分析模型為 cossin sincos T cossin sincos BATA 11121112 1211 cossinsincos cossinsincos pppp aaaa aaaa

20、1112 12pp bb bb 方差最大正交旋轉(zhuǎn)法的目的是希望通過因子旋轉(zhuǎn)后,使每個(gè) 因子上的載荷盡量拉開距離,一部分的載荷趨于1,另一部 分趨于0。這實(shí)際上希望將指標(biāo)X1、X2,XP分成兩部分,一 部分主要與第一公共因子有關(guān),另一部分主要與第二公共因 子有關(guān) 也就是要求要求(b112,b212,bp12)和(b122,b222,bp22)兩組數(shù)據(jù) 的方差V1和V2盡可能地大。即正交旋轉(zhuǎn)的角度必須滿足使 2 22 2 2 12 22 111 11 ()() pp ijij jii ijij bb VVV phph 達(dá)到最大值。這里取bij2是為了消除符號(hào)不同的影響,除以 hi2是為了消除各個(gè)變

21、量對(duì)公共因子依賴程度不同的影響。 d 0 d V 22 2/ tan4 ()/ DAB P CABP 令 有 22 1111 2 2222 1212 1 ()2 ()()2()() pppp iiiiii iiii iiii iiiij j iiii ABvCvDv aaaa vha hhhh 如果公共因子有m(m2)個(gè),則需逐次取2個(gè)公共因子 全部配對(duì)進(jìn)行上述的旋轉(zhuǎn),共需旋轉(zhuǎn)Cm2次算作一個(gè)循環(huán), 如循環(huán)完畢得出的因子載荷矩陣還沒有達(dá)到目的,則可以進(jìn) 行第二輪Cm2次配對(duì)旋轉(zhuǎn),依次進(jìn)行,直到達(dá)到實(shí)際要求為 止。 3因子得分因子得分 要使用這些公共因子做其他的研究,比如把得到的公共因子 作為自

22、變量來做回歸分析,對(duì)樣本進(jìn)行分類或評(píng)價(jià),這就需要 我們對(duì)公共因子進(jìn)行測(cè)度,即給出公共因子的值(將公共因子 表示為變量的線性組合)。 設(shè)公共因子由原始變量表示的線性組合為 11jjjpp FXX1,jm 稱式(8.21)為因子得分函數(shù)。由于方程的個(gè)數(shù)少于變量的 個(gè)數(shù)(即mp),所以只能在最小二乘意義下對(duì)因子得分函數(shù)的 系數(shù)進(jìn)行估計(jì)。設(shè)公共因子可以對(duì)p個(gè)變量做回歸,即建立回 歸方程為 11 jjjpp bbFXX 變量和公共因子均已標(biāo)準(zhǔn)化,故有bj0=0。由最小二乘估計(jì)有 T1 FA R X TT 1212 (,) ;( ,) mm FFFFx xxX R為原始變量的相關(guān)系數(shù)矩陣。 8.2.4 因子分析的步驟及應(yīng)用因子分析的步驟及應(yīng)用 1. 因子分析的步驟因子分析的步驟 第一步:第一步:確定分析變量,收集數(shù)據(jù)資料。 第二步:第二步:對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。 第三步:第三步:計(jì)算所選變量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論