主成分分析課件_第1頁
主成分分析課件_第2頁
主成分分析課件_第3頁
主成分分析課件_第4頁
主成分分析課件_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、主成分分析Principal Components Analysis,PCA主成分的概念 在實證數(shù)據(jù)分析研究中,人們?yōu)榱吮M可能完整地搜集信息,對于每個樣本往往要觀測它的很多項指標,少者四、五項,多則幾十項,這些指標之間通常不是相互獨立而是相關(guān)的。因此,從統(tǒng)計分析或推斷的角度來說,人們總是希望能把大量的原始指標組合成較少的幾個綜合指標,從而使分析簡化。 例如,一個人的身材需要用好多項指標才能完整地描述,諸如身高、臂長、腿長、肩寬、胸圍、腰圍、臀圍等,但人們購買衣服時一般只用長度和肥瘦兩個指標就夠了,這里長度和肥瘦就是描述人體形狀的多項指標組合而成的兩個綜合指標。假設(shè)觀測指標共有p個,分別用x1,

2、 x2,xp,表示,將這些指標綜合為一個指標的方法顯然有很多,但最簡單的方法是將這些指標用線性組合的方法將它們組合起來。因此,可設(shè)定其綜合指標的形式為這些指標的線性組合,即我們希望構(gòu)造少數(shù)幾個這樣的綜合指標,并且這幾個綜合指標之間是不相關(guān)的。 其中反映原始觀測指標的變動程度最大的綜合指標最重要,我們稱其為原始觀測指標的第一主成分;而反映原始觀測指標變動程度次大的綜合指標,稱為原始觀測指標的第二主成分;反映原始觀測指標變動程度第三大的綜合指標,稱為第三主成分;, 主成分分析( Principal Components Analysis )和因子分析(Factor Analysis)就是把變量維數(shù)

3、降低以便于描述、理解和分析的方法。 主成分分析也稱為主分量分析,是一種通過降維來簡化數(shù)據(jù)結(jié)構(gòu)的方法:如何把多個變量化為少數(shù)幾個綜合變量(綜合指標) ,而這幾個綜合變量可以反映原來多個變量的大部分信息,所含的信息又互不重疊,即它們之間要相互獨立,互不相關(guān)。這些綜合變量就叫因子或主成分,它是不可觀測的,即它不是具體的變量(這與聚類分析不同),只是幾個指標的綜合。在引入主成分分析之前,先看下面的例子。成績數(shù)據(jù)53個學生的數(shù)學、物理、化學、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?主成分分析的數(shù)學模型及幾何意義例中數(shù)據(jù)點是六維的;即每個觀測值是6維空間中的一個點。希望把6維空間用低維空間表示。先假定只有

4、二維,即只有兩個變量,語文成績(x1)和數(shù)學成績(x2),分別由橫坐標和縱坐標所代表;每個學生都是二維坐標系中的一個點。假定語文成績 (X1) 和數(shù)學成績 (X2) 的相關(guān)系數(shù)= 0.6 。設(shè) X1 和 X2 分別為標準化后的分數(shù),右圖為其散點圖。橢圓的長短軸 當坐標軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。 但是,坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。橢圓的長短軸 如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。

5、 橢圓的長短軸相差得越大,降維也越有道理。 主成分的方差貢獻率 主成分分析把P個原始變量X1,X2, XP的總方差分解成P個不相關(guān)的變量Y1,Y2, YP的方差之和 。主成分分析的目的是減少變量的個數(shù),所以一般不會使用所有P個主成分,忽略一些帶有較小方差的主成分將不會給總方差帶來太大的影響。 稱: 為主成分YK的貢獻率;第一主成分的貢獻率最大,這表明Y1綜合原始變量的能力最強,而Y2,Y3, YP等的綜合能力依次遞減。若只取 個主成分,則稱: 為主成分Y1,Y2, Ym的累積貢獻率,累積貢獻率表明Y1,Y2, Ym綜合X1,X2, XP的能力。通常取m使得累積貢獻率達到一個較高的百分數(shù)(85%

6、或75%以上) 計算主成分貢獻率及累計貢獻率 貢獻率累計貢獻率 一般取累計貢獻率達85%95%的特征值所對應的第1、第2、第m(mp)個主成分。 根據(jù)主成分分析的定義及性質(zhì),我們已大體上能看出主成分分析的一些應用。概括起來說,主成分分析主要有以下幾方面的應用。 主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(mp),而低維的Y空間代替 高維的x空間所損失的信息很少。即使只有一個主成分Yl(即 m1)時,這個Yl仍是使用全部X變量(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數(shù)全部近似于零的話,就可以把這個Xi刪除

7、,這也是一種刪除多余變量的方法。多維數(shù)據(jù)的一種圖形表示方法。我們知道當維數(shù)大于3時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫出n個樣品在二維平面上的分布狀況,由圖形可直觀地看出各樣品在主分量中的地位。 在經(jīng)濟問題中往往涉及眾多變量,他們之間既然有一定的相關(guān)性,就必然存在起支配作用的共同點,通過對原始變量相關(guān)矩陣內(nèi)部結(jié)構(gòu)的分析,找出影響某一經(jīng)濟過程的幾個綜合指標(綜合指標就是原來指標的線性組合)。綜合指標不僅保留了原始變量的主要信息,彼此之間又不相關(guān),又比

8、原來變量具有某些更優(yōu)越的性質(zhì),使得我們在研究復雜的經(jīng)濟問題時容易抓住主要矛盾,能夠?qū)碗s現(xiàn)象進行綜合評價,這就是主成分分析在工商管理與經(jīng)濟分析中的應用。 下面,我們根據(jù)表給出的數(shù)據(jù),對某農(nóng)業(yè)生態(tài)經(jīng)濟系統(tǒng)做主成分分析。 表1 某農(nóng)業(yè)生態(tài)經(jīng)濟系統(tǒng)各區(qū)域單元的有關(guān)數(shù)據(jù) 步驟如下: (1)將表1中的數(shù)據(jù)作標準差標準化處理,然后將它們代入公式 計算相關(guān)系數(shù)矩陣(表2)。表2相關(guān)系數(shù)矩陣 表3特征值及主成分貢獻率 =4.661/8.9988貢獻率主成分分析的SPSS實現(xiàn)過程結(jié)果解釋KMO值大于0.5,Bartletts Test的Sig. 大于0.05表明可用因子分析結(jié)果解釋說明提取的幾個因子包含每個原變

9、量的程度公因子方差結(jié)果解釋這里的Initial Eigenvalues就是特征值(數(shù)據(jù)相關(guān)陣的特征值)。頭三個成分特征值累積占了總方差的86.596%。后面的特征值的貢獻越來越少。 特征值的貢獻還可以從SPSS的所謂碎石圖看出怎么解釋這三個主成分。前面說過主成分是原始九個變量的線性組合。是怎么樣的組合呢?SPSS可以輸出下面的表。 這里每一列代表一個主成分作為原來變量線性組合的系數(shù)(比例)。比如第一主成分寫成九個原先變量的線性組合,系數(shù)(比例)為0.739, 0.123, -0.964, 0.042, 0.813, 0.819,0.933,0.197,0.964。 如用x1x9分別表示原先的九個變量,而用y1,y2,y3, 表示新的主成分,那么,原先九個變量x1,x2,x3,x4,x5,x6與第一和第二第三主成分y1,y2,y3的關(guān)系為:y1=0.739x1+0.123x2-0.964x3+0.042x4+ 0.813x5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論