第13章主成分分析_第1頁(yè)
第13章主成分分析_第2頁(yè)
第13章主成分分析_第3頁(yè)
第13章主成分分析_第4頁(yè)
第13章主成分分析_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第 13 章 主成分分析13.1 主成分分析的理論與方法13.1.1 主成分分析的基本思想主成分分析是由 Hotelling 于 1933 年首先提出的。由于多個(gè)變量之間往往存在著一定程 度的相關(guān)性。人們自然希望通過(guò)線性組合的方式, 從這些指標(biāo)中盡可能快地提取信息。 當(dāng)?shù)?一個(gè)線性組合不能提取更多的信息時(shí),再考慮用第二個(gè)線性組合繼續(xù)這個(gè)快速提取的過(guò) 程,直到所提取的信息與原指標(biāo)相差不多時(shí)為止。這就是主成分分析的思想。一般說(shuō) 來(lái),在主成分分析適用的場(chǎng)合, 用較少的主成分就可以得到較多的信息量。 以各個(gè)主成分為 分量,就得到一個(gè)更低維的隨機(jī)向量;因此,通過(guò)主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了 原數(shù)

2、據(jù)的大部分信息。那么,什么是數(shù)據(jù)的“信息”呢?我們知道,當(dāng)一個(gè)變量只取一個(gè)數(shù)據(jù)時(shí), 這個(gè)變量(數(shù) 據(jù))提供的信息量是非常有限的, 當(dāng)這個(gè)變量取一系列不同數(shù)據(jù)時(shí), 我們可以從中讀出最大 值、最小值、平均數(shù)等信息。變量的變異性越大,說(shuō)明它對(duì)各種場(chǎng)景的“遍歷性”越強(qiáng),提 供的信息就更加充分,信息量就越大。所以,主成分分析中的信息,就是指標(biāo)的變異性,用 標(biāo)準(zhǔn)差或方差表示它。13.1.2 主成分分析的數(shù)學(xué)模型用原始數(shù)據(jù)矩陣 X的p個(gè)變量X1,L ,Xp作線性組合如下:?Y1 =u11X1+u12X2+L +u1pXp ?Y2 =u21X1 +u22X2 +L +u2pXp ?LL?Yp =up1X1+u

3、p2X2+L +uppXp用矩陣表示為:這里?Y1 ?u11Y =UX?Y = ?Y2 ?,U= ?u21?M?,= ?L?Yp ?up1u12Lu1p?X1 ?u22Lu2p?,X?X2?LLL ?, X?M?up2Lupp ?Xp?且滿(mǎn)足:(1)矩陣 U 的每一行都是單位行向量,即2 2 2ui1 +ui2+L +uip = 1 , ( i = 1,2,L ,p)(2) Y與Yj ( i 工j , i, j =1,2,L , p )之間不相關(guān);(3) Y是Xi,L ,Xp的一切線性組合(系數(shù)滿(mǎn)足條件(1)中方差最大的,Y2是與Y 不相關(guān)的X1,L ,Xp的一切線性組合中方差最大的, ,Yp

4、是與Y1,Y2,L Yp-1都不相關(guān)的 Xi,L ,Xp的一切線性組合中方差最大的;(4) Y,L ,Yp的方差之和等于X1,L ,Xp的方差之和。13.1.3主成分的求解主成分的求解過(guò)程也就是求解轉(zhuǎn)換矩陣U的過(guò)程。這里舍棄復(fù)雜的數(shù)學(xué)推導(dǎo),僅不加證明地給出求解主成分的一般步驟:1計(jì)算原始數(shù)據(jù)的協(xié)差陣 藝。2計(jì)算協(xié)差陣工的特征根為 入況 >Ap X),相應(yīng)的單位特征向量為 T1兀丄,Tp ,由 這些向量構(gòu)成的矩陣記為 T,即有正交矩陣T =(T ,T2 ,L ,Tp)則可以證明:所要求的轉(zhuǎn)換矩陣 U就是特征向量矩陣 T的轉(zhuǎn)置,即U二T'。也就是說(shuō), 所求的矩陣U的第i行就是樣本協(xié)差

5、陣 藝的第i大特征根對(duì)應(yīng)的單位特征向量T。同時(shí)可以證明:第i個(gè)主成分Y的方差就等于樣本協(xié)差陣藝的第i大特征根 入。13.1.4主成分的方差貢獻(xiàn)率主成分分析把p個(gè)原始變量X1,L ,Xp的總方差分解成了 p個(gè)相互獨(dú)立的變量 pY1,Y2,L ,Yp的方差之和 刀人。主成分分析的目的是減少變量的個(gè)數(shù),所以一般不會(huì)使用k=1所有p個(gè)主成分,忽略一些帶有較小方差的主成分將不會(huì)給總方差帶來(lái)太大的影響。這里我們稱(chēng)為第k個(gè)主成分Yk的方差貢獻(xiàn)率。第一主成分的貢獻(xiàn)率最大,這表明Y,=壬次綜合原始變量X1,L ,Xp的能力最強(qiáng),而 Y2,Y3,L ,Yp的綜合能力依次遞減。若只取m(v p)個(gè)主成分,則稱(chēng)mPk

6、=1.k=1為主成分Y1,Y2丄,丫m的累計(jì)貢獻(xiàn)率,累計(jì)貢獻(xiàn)率表明Y1,Y2,L,丫m綜合X1,L ,XP的能力。通常取m使得累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的百分?jǐn)?shù)。13.1.5主成分的幾何意義主成分分析數(shù)學(xué)模型中的正交變換,在幾何上就是作一個(gè)坐標(biāo)旋轉(zhuǎn)。因此,主成分分析在二維空間中有明顯的幾何意義。假設(shè)共有n個(gè)樣品,每個(gè)樣品都測(cè)量了兩個(gè)指標(biāo)(X1,X2),它們大致分布在一個(gè)橢圓內(nèi),如圖13-1所示。事實(shí)上,散點(diǎn)的分布總有可能沿著某一個(gè)方向略顯擴(kuò)張,這個(gè)方向就把它看作橢圓的長(zhǎng)軸方向。顯然,在坐標(biāo)系x1Ox2中,單獨(dú)看這n個(gè)點(diǎn)的分量X1和X2,它們沿著x方向和x2方向都具有較大的離散性,其離散 的程度可以

7、分別用 X1的方差和X2的方差測(cè)定。如果僅考慮 X1或X2中的任何一個(gè)分量, 那么包含在另一分量中的信息將會(huì)損失,因此,直接舍棄某個(gè)分量不是“降維”的有效辦法。圖13-1主成分的幾何意義如果我們將該坐標(biāo)系按逆時(shí)針?lè)较蛐D(zhuǎn)某個(gè)角度B變成新坐標(biāo)系y1Oy2,這里y1是橢圓的長(zhǎng)軸方向,y2是橢圓的短軸方向。旋轉(zhuǎn)公式為?= X1 cos 0 + X2 sin 0?丫2 = - X1 sin 0+ X2 cos 0我們看到新變量丫和是原變量x1和x2的線性組合,它的矩陣表示形式為:?丫1? ? cos 0 sin 0?X1? ?=? = TX?丫2? ?- sin 0 cos 0?X2?其中,T'

8、;為旋轉(zhuǎn)變換矩陣,它是一個(gè)正交矩陣,即有T' = T-1或TT = I 。易見(jiàn),n個(gè)點(diǎn)在新坐標(biāo)系下的坐標(biāo) Y和Y2幾乎不相關(guān),且n個(gè)點(diǎn)在y1軸上的方差達(dá)到最大,即在此方向上包含了有關(guān)n個(gè)樣品的大部分信息。我們稱(chēng) Y為第一主成分,稱(chēng) Y2為第二主成分。13.1.6主成分分析的出發(fā)點(diǎn)從前面的介紹我們知道,與因子分析一樣,主成分分析的一切計(jì)算也都是從樣本協(xié)差陣藝出發(fā)的,其結(jié)果受變量單位的影響。為了消除由于單位的不同可能帶來(lái)的影響,在進(jìn)行主成分分析之前也常常先將各原始變量作標(biāo)準(zhǔn)化處理。由于經(jīng)過(guò)標(biāo)準(zhǔn)化的數(shù)據(jù)的協(xié)方差矩陣就是X的相關(guān)系數(shù)矩陣R,如果主成分分析的一切計(jì)算都直接從樣本相關(guān)系數(shù)矩陣R而不

9、是協(xié)差陣藝出發(fā)的話,就等價(jià)于先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,然后再?gòu)膮f(xié)差陣出發(fā)進(jìn)行主成分分析。13.1.7利用因子分析的結(jié)果計(jì)算主成分SPSS沒(méi)有提供主成分分析的專(zhuān)用功能,只提供了因子分析的功能。但是因子分析和主 成分分析有著密切的聯(lián)系。因子提取的最常用方法就是“主成分法”。利用因子分析的結(jié)果, 可以很容易地實(shí)現(xiàn)主成分分析。由12.1.3節(jié)可知,使用主成分法求得的因子載荷陣:A=(. 入 Ti ,寸 A2T2, L , J 入pTp)其中,入況 >Ap >0為協(xié)差陣工的特征根,T; ,T2丄,Tp為相應(yīng)的單位特征向量。而由13.1.3節(jié)可知,主成分轉(zhuǎn)換矩陣 U就是特征向量矩陣T的轉(zhuǎn)置,即U 二

10、T'=(T1 ,T2,L ,Tp)因此,可以首先進(jìn)行因子分析,然后利用得到的因子載荷陣A和樣本協(xié)差陣的特征根來(lái)計(jì)算特征向量矩陣 T,即:其中,tij為特征向量矩陣T第i行第j列的元素,aij為因子載荷陣第i行第j列的元素, 入為第j個(gè)因子對(duì)應(yīng)的特征根。然后將特征向量矩陣T轉(zhuǎn)置,求得轉(zhuǎn)換矩陣 U。13.2主成分分析的實(shí)例為了研究我國(guó)2005年第1、2季度31個(gè)省、市、自治區(qū)城鎮(zhèn)居民家庭收支基本情況, 收集以下5個(gè)變量:X1 :平均每戶(hù)人口(人);X2 :平均每戶(hù)就業(yè)人口(人);X3 :平均每一就業(yè)者負(fù)擔(dān)人數(shù)(人);X4 :平均每人實(shí)際可支配收入(元);X5 :平均每人消費(fèi)性支出(元)。通

11、過(guò)這個(gè)例子,介紹如何利用SPSS軟件實(shí)現(xiàn)主成分分析。13.2.1 SPSS操作步驟(一)利用SPSS進(jìn)行因子分析將原始數(shù)據(jù)輸入SPSS數(shù)據(jù)編輯窗口,將5個(gè)變量分別命名為X1 X5。在SPSS® 口中選 擇Analyze宀Data Reduction宀Factor菜單項(xiàng),調(diào)出因子分析主對(duì)話框,并將變量X1 X5移入Variables框中,其他均保持系統(tǒng)默認(rèn)選項(xiàng),單擊0K按鈕,執(zhí)行因子分析過(guò)程(關(guān)于因子分子在SPSS中實(shí)現(xiàn)的詳細(xì)過(guò)程,參見(jiàn)12.2節(jié)),得到如表13-1所示的特征根和方差貢獻(xiàn)表以及表13-2所示的因子載荷陣。表13-1中Total列為各因子對(duì)應(yīng)的特征根,本例中共提取兩個(gè)公因

12、子;% of Varianee列為各因子的方差貢獻(xiàn)率;Cumulative %列為累積方差貢獻(xiàn)率,由表中可以看出,前兩個(gè)因子已經(jīng)可以解釋79.31%的方差。表13-1 特征根與方差貢獻(xiàn)表Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %12.57651.52051.5202.57651.52051.52021.38927.79079.3101.38927

13、.79079.3103.96119.22298.5324.047.93299.4655.027.535100.000Extraction Method: Principal Component Analysis.表13-2旋轉(zhuǎn)前因子載荷陣Comp onent MatrixComp onent12X1.121.928X2.708.612X3-.722.125X4.873-.299X5.882-.220(二)利用因子分析結(jié)果進(jìn)行主成分分析1.將表13-2因子載荷陣中的數(shù)據(jù)輸入 SPSS數(shù)據(jù)編輯窗口,兩個(gè)變量分別命名為a1和a2。2計(jì)算特征向量矩陣為了計(jì)算第一個(gè)特征向量,點(diǎn)擊菜單項(xiàng)中的 Transf

14、orm宀Compute,調(diào)出Compute variable對(duì)話框,如圖13-2,在對(duì)話框中輸入等式:“ t仁al / SQRT(2.576) ”。點(diǎn)擊0K按鈕,即可 在數(shù)據(jù)編輯窗口中得到以t1為變量名的第一特征向量。圖 13-2 Compute variable 對(duì)話框t2=a2 / SQRT(1.389) ”,單再次調(diào)出Compute variable對(duì)話框,在對(duì)話框中輸入等式: 擊OK按鈕,得到以t2為變量名第二特征向量。這樣,我們得到了如表 13-3所示的特征向量矩陣。表13-3 特征向量矩陣t1 t2X10.0750.787X20.4410.519X3-0.4500.106X40.5

15、44-0.254X50.550-0.187根據(jù)表13-3可以得到主成分的表達(dá)式:Y1= 0.075X 1 + 0.441X 2 - 0.450X 3+ 0.544X4 + 0.550X 5Y2 = 0.787X 1 + 0.519X 2 + 0.106X 3- 0.254X4 - 0.178X5這里需要特別注意的是,由于我們是以相關(guān)系數(shù)矩陣為出發(fā)點(diǎn)進(jìn)行因子分析,所以,主成分表達(dá)式中的各變量 X1 - X5應(yīng)該是經(jīng)過(guò)標(biāo)準(zhǔn)化變換后的標(biāo)準(zhǔn)變量。3計(jì)算主成分計(jì)算主成分之前首先需要對(duì)原始變量X1 - X5進(jìn)行標(biāo)準(zhǔn)化,得到 5個(gè)變量名分別為zx1zx5的標(biāo)準(zhǔn)化變量(變量標(biāo)準(zhǔn)化的方法參見(jiàn)3.11節(jié))。再次使

16、用Compute命令,調(diào)出Compute variable對(duì)話框,分別在對(duì)話框中輸入等式:“y1 = 0.075 * zx1 + 0.441 *zx2- 0.450 * zx3 +0.544 * zx4 +0.550 * zx5 ”和“y2 = 0.787 * zx1 + 0.519 * zx2+ 0.106 * zx3 - 0.254 * zx4 - 0.178 * zx5 ”就可以計(jì)算得到兩個(gè)主成分。13.2.2對(duì)財(cái)務(wù)指標(biāo)進(jìn)行主成分分析利用12.2節(jié)對(duì)2003年滬、深兩市證券交易所 48家上市公司的13個(gè)財(cái)務(wù)指標(biāo)因子分析結(jié)果對(duì)其進(jìn)行主成分分析。共提取4個(gè)因子的旋轉(zhuǎn)前因子載荷陣如表12-5。

17、表13-4 旋轉(zhuǎn)前的因子載荷陣Comp onent MatrixComp onent1234X12.970-.155-.096.008X13.957-.126-.126.088X6.924-.174-.055.056X11.894-.016-.291.006X10.802-.053-.374.151X7.678-.112.364-.606X8.676-.103.366-.614X3.581-.406.419.424X4.542-.450.393.418X1.309.869.148.055X2.543.793.155.131X5.519.735.206.160X9.529.062-.687-.1

18、68Extractio n Method: Prin cipal Comp onent An alysis.a. 4 comp onents extracted.使用Compute命令計(jì)算得到的特征向量矩陣如表13-5。表13-5 特征向量矩陣t1 t2 t3 t4X10.120 0.562 0.125 0.050X2 0.2110.5130.1300.119X30.225-0.262 0.353 0.386X40.210-0.291 0.331 0.380X50.201 0.475 0.173 0.146X6 0.358-0.112-0.0460.051X7 0.263-0.0720.306-0.552X8 0.262-0.0670.308-0.559X90.2050.040 -0.578 -0.153X10 0.311-0.034-0.3150.137X11 0.347-0.011-0.2450.006X12 0.376-0.100-0.0810.007X13 0.371-0.081-0.1060.080根據(jù)表13-5可

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論