主成分分析原理_第1頁
主成分分析原理_第2頁
主成分分析原理_第3頁
主成分分析原理_第4頁
主成分分析原理_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第七章 主成分分析(一)教學目的通過本章的學習, 對主成分分析從總體上有一個清晰地認識, 理解主成分分析的基本思 想和數(shù)學模型,掌握用主成分分析方法解決實際問題的能力。(二)基本要求 了解主成分分析的基本思想,幾何解釋,理解主成分分析的數(shù)學模型,掌握主成分分析 方法的主要步驟。(三)教學要點1、主成分分析基本思想,數(shù)學模型,幾何解釋2、主成分分析的計算步驟及應用(四)教學時數(shù)3 課時(五)教學內(nèi)容1、主成分分析的原理及模型2、主成分的導出及主成分分析步驟在實際問題中, 我們經(jīng)常會遇到研究多個變量的問題, 而且在多數(shù)情況下, 多個變量之 間常常存在一定的相關性。 由于變量個數(shù)較多再加上變量之間的

2、相關性, 勢必增加了分析問 題的復雜性。 如何從多個變量中綜合為少數(shù)幾個代表性變量, 既能夠代表原始變量的絕大多 數(shù)信息,又互不相關,并且在新的綜合變量基礎上,可以進一步的統(tǒng)計分析,這時就需要進 行主成分分析。第一節(jié) 主成分分析的原理及模型一、主成分分析的基本思想與數(shù)學模型(一)主成分分析的基本思想主成分分析是采取一種數(shù)學降維的方法, 找出幾個綜合變量來代替原來眾多的變量, 這些綜合變量能盡可能地代表原來變量的信息量, 而且彼此之間互不相關。 這種將把多個變 量化為少數(shù)幾個互相無關的綜合變量的統(tǒng)計分析方法就叫做主成分分析或主分量分析。主成分分析所要做的就是設法將原來眾多具有一定相關性的變量,

3、重新組合為一組新的 相互無關的綜合變量來代替原來變量。 通常, 數(shù)學上的處理方法就是將原來的變量做線性組 合,作為新的綜合變量,但是這種組合如果不加以限制,則可以有很多,應該如何選擇呢如 果將選取的第一個線性組合即第一個綜合變量記為F1 ,自然希望它盡可能多地反映原來變量的信息,這里“信息”用方差來測量,即希望Var(Fi)越大,表示Fi包含的信息越多。因此在所有的線性組合中所選取的F1應該是方差最大的,故稱 F1為第一主成分。如果第一主成分不足以代表原來 p個變量的信息,再考慮選取 F2即第二個線性組合,為了有效地反 映原來信息,F(xiàn)i已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學語言表達就是要求p

4、 個主成分。Cov(Fi, F2)0,稱F?為第二主成分,依此類推可以構造出第三、四二)主成分分析的數(shù)學模型對于一個樣本資料,觀測 p個變量x1,x2,xp , n 個樣品的數(shù)據(jù)資料陣為:xiixi2xi px2ix22x2 pXxi , x2, xpxnixn2xnpxi jx 2 j其中:xj J,ji,2, pxnjp個觀測變量綜合成為 p個新的變量(綜合變量)Fiaii xiai2 x 2ai p x pF2a2i xia 22 x2a 2 p x pFpa pi xiap 2 x2app x p主成分分析就是將,即簡寫為:Fjj1x1j2x2jp xpj 1,2, , p要求模型滿足

5、以下條件: Fj, Fj 互不相關(i j , i,j 1,2, p ) Fi的方差大于F2的方差大于F3的方差,依次類推2 2 2 ak1ak 2akp1 k 1,2, p.于是,稱Fi為第一主成分,F(xiàn)2為第二主成分,依此類推,有第p個主成分。主成分又叫主分量。這里aij我們稱為主成分系數(shù)。上述模型可用矩陣表示為:F AX ,其中FixiFF2Xx2Fpxpaiiai2ai paiAa2ia22a2 pa2a pi a p 2a ppa pA稱為主成分系數(shù)矩陣。、主成分分析的幾何解釋假設有 n 個樣品,每個樣品有二個變量,即在二維空間中討論主成分的幾何意義。設n個樣品在二維空間中的分布大致為

6、一個橢園,如下圖所示:將坐標系進行正交旋轉(zhuǎn)一個角度,使其橢圓長軸方向取坐標yi,在橢圓短軸方向取坐標y,旋轉(zhuǎn)公式為y1jx1j cosx2j sin)x2j cosy2j 夠(sinj1,2n寫成矩陣形式為: Yyi1yi2yiny2iy22y2ncossinXiiX12XmsincosX21X22X2n其中U為坐標旋轉(zhuǎn)變換矩陣,它是正交矩陣,即有UU XU 1,UU I,即滿足sin2 cos21。經(jīng)過旋轉(zhuǎn)變換后,得到下圖的新坐標:圖主成分幾何解釋圖新坐標 y1 y2 有如下性質(zhì):(1) n個點的坐標yi和目2的相關幾乎為零。(2) 二維平面上的n個點的方差大部分都歸結為 y1軸上,而y2軸

7、上的方差較小。yi和 y稱為原始變量Xi和X2的綜合變量。由于 n個點在 力軸上的方差最大,因而將 二維空間的點用在 yi軸上的一維綜合變量來代替,所損失的信息量最小,由此稱yi軸為第一主成分,y2軸與yi軸正交,有較小的方差,稱它為第二主成分。三、主成分分析的應用主成分概念首先是由 Karl parson 在 i90i 年引進,但當時只對非隨機變量來討論的。i933 年 Hotelling 將這個概念推廣到隨機變量。特別是近年來,隨著計算機軟件的應用, 使得主成分分析的應用也越來越廣泛。其中, 主成分分析可以用于系統(tǒng)評估。 系統(tǒng)評估是指對系統(tǒng)營運狀態(tài)做出評估, 而評估 一個系統(tǒng)的營運狀態(tài)往往

8、需要綜合考察許多營運變量,例如對某一類企業(yè)的經(jīng)濟效益作評 估,影響經(jīng)濟效益的變量很多, 很難直接比較其優(yōu)劣, 所以解決評估問題的焦點是希望客觀、 科學地將一個多變量問題綜合成一個單變量形式, 也就是說只有在一維空間中才能使排序評 估成為可能, 這正符合主成分分析的基本思想。 在經(jīng)濟統(tǒng)計研究中, 除了經(jīng)濟效益的綜合評 價研究外, 對不同地區(qū)經(jīng)濟發(fā)展水平的評價研究, 不同地區(qū)經(jīng)濟發(fā)展競爭力的評價研究, 人 民生活水平、生活質(zhì)量的評價研究,等等都可以用主成分分析方法進行研究。另外, 主成分分析除了用于系統(tǒng)評估研究領域外, 還可以與回歸分析結合, 進行主成分 回歸分析,以及利用主成分分析進行挑選變量,

9、選擇變量子集合的研究。第二節(jié) 主成分的導出及主成分分析的步驟一、主成分的導出根據(jù)主成分分析的數(shù)學模型的定義, 要進行主成分分析, 就需要根據(jù)原始數(shù)據(jù), 以及模 型的三個條件的要求, 如何求出主成分系數(shù), 以便得到主成分模型。 這就是導出主成分所要 解決的問題。i、根據(jù)主成分數(shù)學模型的條件要求主成分之間互不相關,為此主成分之間的協(xié)差陣應該是一個對角陣。即,對于主成分,F(xiàn) AX其協(xié)差陣應為,Var(F) Var ( AX ) (AX) (AX ) AXXA12p2、設原始數(shù)據(jù)的協(xié)方差陣為 V ,如果原始數(shù)據(jù)進行了標準化處理后則協(xié)方差陣等于相關矩陣,即有,V R XX3、再由主成分數(shù)學模型條件和正交

10、矩陣的性質(zhì),若能夠滿足條件最好要求A為正交矩陣,即滿足AA I于是,將原始數(shù)據(jù)的協(xié)方差代入主成分的協(xié)差陣公式得Var(F) AXX A ARAARARAA展開上式得r11r12r1pa11a21ap1r 21r22r2pa12a22ap2r p1rp2rppa1pa2pappa11a21a p11a12a22ap22a1pa2pa ppp展開等式兩邊,根據(jù)矩陣相等的性質(zhì),這里只根據(jù)第一列得出的方程為:00ripaipr2 pai p訕&11r p2ai2(rpp1 )a1 p為了得到該齊次方程的解,要求其系數(shù)矩陣行列式為0,即ri11ri2ri pr22rp2rpp顯然,1是相關系數(shù)矩陣的特征

11、值,ai根據(jù)第二列、第三列等可以得到類似的方程,lIa11,a12ai p是相應的特征向量。i是方程%1 ai1ri2ai2的p個根,i為特征方程的特征根,3j是其特征向量的分量。4、下面再證明主成分的方差是依次遞減設相關系數(shù)矩陣 R的p個特征根為1 2a12a22ap2p,相應的特征向量為 aja11a21Aa p1a1 pa2pappaa2ap相對于F1的方差為Var(F1)a1XX a1a1 Ra11冋樣有:Var(Fi)i,即主成分的方差依次遞減。并且協(xié)方差為:Cov(ai X,ajX)ai Rajpai(a a )ajp(Qa )(a aj)0, i jr2iai1(221)a121

12、1綜上所述,根據(jù)證明有,主成分分析中的主成分協(xié)方差應該是對角矩陣,其對角線上的元素恰好是原始數(shù)據(jù)相關矩陣的特征值,而主成分系數(shù)矩陣陣特征值相應的特征向量。矩陣A是一個正交矩陣。A的元素則是原始數(shù)據(jù)相關矩于是,變量x1, x2,Xp經(jīng)過變換后得到新的綜合變量F1F2aX1a 21X1a12X2a?2 X2a1 p X p a2 pX pFpa p1 X1ap2X2app X p新的隨機變量彼此不相關,且方差依次遞減。二、主成分分析的計算步驟樣本觀測數(shù)據(jù)矩陣為:X11X12X1pXX21X22X2pXn1Xn2Xnp第一步:對原始數(shù)據(jù)進行標準化處理。*Xj XjXij.(i.var(Xj),n;

13、j1,2,p)其中Xjvar(Xj)(Xij1xj)2(j,p)第二步:計算樣本相關系數(shù)矩陣。riirp2rpp為方便,假定原始數(shù)據(jù)標準化后仍用 X表示,則經(jīng)標準化處理后的數(shù)據(jù)的相關系數(shù)為1 nrijxti Xtjn 1 t 1(i,j 1,2, p)第三步:用雅克比方法求相關系數(shù)矩陣R的特征值(1, 2 p)和相應的特征向量a i aii, ai 2 , aip , i 1,2第四步:選擇重要的主成分,并寫出主成分表達式。主成分分析可以得到p個主成分,但是,由于各個主成分的方差是遞減的,包含的信息量也是遞減的,所以實際分析時,一般不是選取p個主成分,而是根據(jù)各個主成分累計貢獻率的大小選取前

14、k個主成分,這里貢獻率就是指某個主成分的方差占全部方差的比重,實際也就是某個特征值占全部特征值合計的比重。即貢獻率=pii 1貢獻率越大,說明該主成分所包含的原始變量的信息越強。主成分個數(shù)k的選取,主要根據(jù)主成分的累積貢獻率來決定,即一般要求累計貢獻率達到85%以上,這樣才能保證綜合變量能包括原始變量的絕大多數(shù)信息。另外,在實際應用中,選擇了重要的主成分后,還要注意主成分實際含義解釋。主成分分析中一個很關鍵的問題是如何給主成分賦予新的意義,給出合理的解釋。 一般而言,這個解釋是根據(jù)主成分表達式的系數(shù)結合定性分析來進行的。主成分是原來變量的線性組合,在這個線性組合中個變量的系數(shù)有大有小,有正有負,有的大小相當,因而不能簡單地認為這個主成分是某個原變量的屬性的作用,線性組合中各變量系數(shù)的絕對值大者表明該主成分主要綜合了絕對值大的變量, 有幾個變量系數(shù)大小相當時,應認為這一主成分是這幾個變量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論