多元統(tǒng)計分析-主成分分析課件_第1頁
多元統(tǒng)計分析-主成分分析課件_第2頁
多元統(tǒng)計分析-主成分分析課件_第3頁
多元統(tǒng)計分析-主成分分析課件_第4頁
多元統(tǒng)計分析-主成分分析課件_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

主成分分析主成分分析1主成分分析的基本思想主成分的計算主成分的性質(zhì)主成分分析的應(yīng)用主成分回歸主成分分析的基本思想2

一項十分著名的工作是美國的統(tǒng)計學(xué)家斯通(stone)在1947年關(guān)于國民經(jīng)濟(jì)的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等?!?

基本思想一項十分著名的工作是美國的統(tǒng)計學(xué)家斯通(ston3

在進(jìn)行主成分分析后,竟以97.4%的精度,用三新變量就取代了原17個變量。根據(jù)經(jīng)濟(jì)學(xué)知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟(jì)發(fā)展趨勢F3。更有意思的是,這三個變量其實都是可以直接測量的。斯通將他得到的主成分與實際測量的總收入I、總收入變化率

I以及時間t因素做相關(guān)分析,得到下表:在進(jìn)行主成分分析后,竟以97.4%的精度,用三新變4

F1F2F3iitF11

F201

F3001

i0.995-0.0410.057l

i-0.0560.948-0.124-0.102l

t-0.369-0.282-0.836-0.414-0.1121

F1F2F3iitF11

F201

F3005主成分分析的基本思想

主成分分析就是把原有的多個指標(biāo)轉(zhuǎn)化成少數(shù)幾個代表性較好的綜合指標(biāo),這少數(shù)幾個指標(biāo)能夠反映原來指標(biāo)大部分的信息(85%以上),并且各個指標(biāo)之間保持獨立,避免出現(xiàn)重疊信息。主成分分析主要起著降維和簡化數(shù)據(jù)結(jié)構(gòu)的作用。主成分分析的基本思想6

主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡化分析的方法。

在社會經(jīng)濟(jì)的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟(jì)指標(biāo),這些指標(biāo)能從不同的側(cè)面反映我們所研究的對象的特征,但在某種程度上存在信息的重疊,具有一定的相關(guān)性。

主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡7

主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的截面數(shù)據(jù)表進(jìn)行最佳綜合簡化,也就是說,對高維變量空間進(jìn)行降維處理。

很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這8§2數(shù)學(xué)模型與幾何解釋

假設(shè)我們所討論的實際問題中,有p個指標(biāo),我們把這p個指標(biāo)看作p個隨機(jī)變量,記為X1,X2,…,Xp,主成分分析就是要把這p個指標(biāo)的問題,轉(zhuǎn)變?yōu)橛懻搈個新的指標(biāo)F1,F(xiàn)2,…,F(xiàn)m(m<p),按照保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨立?!?數(shù)學(xué)模型與幾何解釋假設(shè)我們所討論的實9其中其中10

這種由討論多個指標(biāo)降為少數(shù)幾個綜合指標(biāo)的過程在數(shù)學(xué)上就叫做降維。主成分分析通常的做法是,尋求原指標(biāo)的線性組合Fi。這種由討論多個指標(biāo)降為少數(shù)幾個綜合指標(biāo)的過程在數(shù)11所以如果不對加以限制,問題就變得無意義。最大因此限制為單位向量。所以如果不對加以限制,問題就變得無意義。最大因此限制12滿足如下的條件:主成分之間相互獨立,即無重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即每個主成分的系數(shù)平方和為1。即滿足如下的條件:主成分之間相互獨立,即無重疊的信息。即主成分13?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸??????????????????????????????14?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸???????????????????????????????15????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸???????????????????????????????16

旋轉(zhuǎn)變換的目的是為了使得n個樣品點在Fl軸方向上的離散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大部分信息,在研究某經(jīng)濟(jì)問題時,即使不考慮變量F2也無損大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。旋轉(zhuǎn)變換的目的是為了使得n個樣品點在Fl軸17Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的n個點的方差大部分都?xì)w結(jié)在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起18?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸?????????????????????????????????????????????????????????????????????????????????????????????19§3

主成分的計算先討論二維情形求主成分F1和F2。§3主成分的計算先討論二維情形求主成分F1和F2。20觀察圖,我們已經(jīng)把主成分F1和F2

的坐標(biāo)原點放在平均值所在處,從而使得F1和F2

成為中心化的變量,即F1和F2

的樣本均值都為零。觀察圖,我們已經(jīng)把主成分F1和F2的坐標(biāo)原點放在平均值21因此F1可以表示為關(guān)鍵是,尋找合適的單位向量,使F1的方差最大。最大問題的答案是:X的協(xié)方差矩陣S的最大特征根所對應(yīng)的單位特征向量即為。并且就是F1的方差。推導(dǎo)因此F1可以表示為關(guān)鍵是,尋找合適的單位向量22同樣,F(xiàn)2可以表示為尋找合適的單位向量,使F2與F1獨立,且使F2的方差(除F1之外)最大。問題的答案是:X的協(xié)方差矩陣S的第二大特征根所對應(yīng)的單位特征向量即為。并且就是F2的方差。推導(dǎo)同樣,F(xiàn)2可以表示為尋找合適的單位向量23求解主成分的步驟:1.求樣本均值和樣本協(xié)方差矩陣S;2.求S的特征根求解特征方程,其中I是單位矩陣,解得2個特征根3.求特征根所對應(yīng)的單位特征向量4.寫出主成分的表達(dá)式求解主成分的步驟:1.求樣本均值24例1

下面是8個學(xué)生兩門課程的成績表

6585709065455565數(shù)學(xué)10090707085555545語文對此進(jìn)行主成分分析。1.求樣本均值和樣本協(xié)方差矩陣?yán)?下面是8個學(xué)生兩門課程的成績表658252.求解特征方程=0

化簡得:

解得:

2.求解特征方程=0263.求特征值所對應(yīng)的單位特征向量

所對應(yīng)的單位特征向量,

其中解得()=

所對應(yīng)的單位特征向量

,其中解得:3.求特征值所對應(yīng)的單位特征向量所對應(yīng)的單位特征向量274.得到主成分的表達(dá)式

第二主成分:第一主成分:5.主成分的含義通過分析主成分的表達(dá)式中原變量前的系數(shù)來解釋各主成分的含義。第一主成分F1是和的加權(quán)和,表示該生成績的好壞。第二主成分F2表示學(xué)生兩科成績的均衡性4.得到主成分的表達(dá)式第二主成分:第一主成分:5.主成分286.

比較主成分重要性

第一主成分F1的方差為第二主成分F2的方差為方差貢獻(xiàn)率

方差貢獻(xiàn)率為

主成分F1和F2的方差總和為原變量和的方差總和為總方差保持不變6.比較主成分重要性第一主成分F1的方差為第二主成分F229身高x1(cm)胸圍x2(cm)體重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.865.549.045.551.059.543.553.5例2下表是10位學(xué)生的身高、胸圍、體重的數(shù)據(jù)。對此進(jìn)行主成分分析。身高x1(cm)胸圍x2(cm)體重x3(kg)149.56301.求樣本均值和樣本協(xié)方差矩陣

2.求解協(xié)方差矩陣的特征方程

3.解得三個特征值

和對應(yīng)的單位特征向量:1.求樣本均值和樣本協(xié)方差矩陣2.求314.由此我們可以寫出三個主成分的表達(dá)式:

5.主成分的含義F1表示學(xué)生身材大小。F2反映學(xué)生的體形特征4.由此我們可以寫出三個主成分的表達(dá)式:5.主成分32三個主成分的方差貢獻(xiàn)率分別為:前兩個主成分的累積方差貢獻(xiàn)率為:

三個主成分的方差貢獻(xiàn)率分別為:前兩個主成分的累積方差貢獻(xiàn)率為33例3對88個學(xué)生5門不同課程的考試成績進(jìn)行分析,要求用合適的方法對這5門課程成績進(jìn)行平均,以對88個學(xué)生的成績進(jìn)行評比。這5門課程是:MechanicsVectors(閉),AlgebraAnalysisStatistics(開)。經(jīng)計算,得到5個主成分的表達(dá)式如下:例3對88個學(xué)生5門不同課程的考試成績進(jìn)行分析,要求34這5個主成分的方差分別為679.2,199.8,102.6,83.7和31.8。前兩個主成分各自的貢獻(xiàn)率和累積貢獻(xiàn)率為這5個主成分的方差分別為679.2,199.8,102.6,35在一般情況下,設(shè)有n個樣品,每個樣品觀測p個指標(biāo),將原始數(shù)據(jù)排成如下矩陣:

在一般情況下,設(shè)有n個樣品,每個樣品觀測p個指標(biāo),將原始36求樣本均值和樣本協(xié)方差矩陣S;2.求解特征方程=0,其中I是單位矩陣,解得p個特征根3.求所對應(yīng)的單位特征向量

即需求解方程組其中

求樣本均值和樣本協(xié)方差矩陣S;2.求解特征方程=0,其中I37

再加上單位向量的條件解得4.寫出主成分的表達(dá)式

再加上單位向量的條件解得4.寫出主成分的表達(dá)式38根據(jù)累積貢獻(xiàn)率的大小取前面m個(m<p)主成分選取原則:

且主成分個數(shù)的選取原則根據(jù)累積貢獻(xiàn)率的大小取前面m個(m<p)主成分主成分個數(shù)的39例4設(shè)的協(xié)方差矩陣為經(jīng)計算,的特征值為相應(yīng)的主成分分別為第一主成分的方差貢獻(xiàn)率為:例4設(shè)40§4R型分析§4R型分析41為消除量綱影響,在計算之前先將原始數(shù)據(jù)標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化變量的S=R,所以用標(biāo)準(zhǔn)化變量進(jìn)行主成分分析相當(dāng)于從原變量的相關(guān)矩陣R

出發(fā)進(jìn)行主成分分析。統(tǒng)計學(xué)上稱這種分析法為R型分析,由協(xié)方差矩陣出發(fā)的主成分分析為S型分析。

S型分析和R型分析的結(jié)果是不同的。在一般情況下,若各變量的量綱不同,通常采用R型分析。R型分析的概念為消除量綱影響,在計算之前先將原始數(shù)據(jù)標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化變量的42§5

主成分的性質(zhì)一、主成分的相關(guān)結(jié)構(gòu)主成分Fk的方差

主成分Fk的方差貢獻(xiàn)率為主成分與每個變量之間的相關(guān)系數(shù)

4.主成分對每個原變量的方差貢獻(xiàn)證明因子負(fù)荷量(因子載荷)§5主成分的性質(zhì)一、主成分的相關(guān)結(jié)構(gòu)4.主成分對每個43第i個分量為1,其余為0第i個分量為1,44第一主成分與原變量的相關(guān)系數(shù)依次是第一主成分與原變量的相關(guān)系數(shù)依次是

第一主成分與原變量的相關(guān)系數(shù)依次是第一主成分與原變量的相關(guān)45同樣,我們可以很容易地計算第二主成分與三個原變量之間的相關(guān)系數(shù):

同樣,我們可以很容易地計算第二主成分與三個原變量之間的相關(guān)系46F1F2F3X1X2X30.8120.5760.0050.906-0.3490.2310.944-0.313-0.089F1F2F3X1X2X30.6590.3320.0000.8210.1220.0530.8910.0980.008橫行之和為1,從橫行看,有

F1F247因此從縱向看,有:從縱向來看,反映了65.9%的信息,反映了82.1%的信息,反映了89.1%的信息。

因此從縱向看,有:從縱向來看,反映了65.48F1F2F3F4F5X1X2X3X4X50.7580.609-0.1750.1560.0260.7340.2240.3220.5480.0810.853-0.1360.139-0.003-0.4930.796-0.2880.4090.3210.1090.812-0.451-0.354-0.0940.050

F1F2F3F4F5X1X2X3X4X50.5740.3710.0300.0240.0010.5390.0500.1040.3000.0070.7270.0180.0190.0000.2430.6340.0830.1680.1030.0120.6800.2040.1250.0090.002F1F2F349二、主成分的性質(zhì)主成分的協(xié)差陣為對角陣二、主成分的性質(zhì)主成分的協(xié)差陣為對角陣50總方差保持不變與的相關(guān)系數(shù)若進(jìn)行R型分析,則

若進(jìn)行R型分析,則總方差保持不變?nèi)暨M(jìn)行R型分析,則若進(jìn)行R型分析,則51

對的方差貢獻(xiàn)為

若進(jìn)行R型分析,則從橫行看有從縱向看有對的方差貢獻(xiàn)為若進(jìn)行R型分析,則從橫行看有52§6用主成分圖解樣品和變量

§6用主成分圖解樣品和變量

53

主成分分析后,若能以兩個主成分代表原變量大部分的信息,則我們可以在平面上分析每一個樣品點。步驟如下:

1、對每個樣品分別求第一主成分F1和第二主成分F2的得分。

2、建立以F1和F2

為軸的直角坐標(biāo)系。以

F1為橫坐標(biāo),

F2為縱坐標(biāo),在坐標(biāo)系中描出各個樣品點(畫散點圖)。

3、解釋坐標(biāo)系的各個象限。一、圖解樣品(對樣品分類)主成分分析后,若能以兩個主成分代表原變量大部分54F1F2F1F255二、圖解變量(對變量分類)

主成分分析后,若能以兩個主成分代表原變量大部分的信息,則對應(yīng)每個原變量,只剩下和。以為橫軸,為縱軸,建立直角坐標(biāo)系。然后以為橫坐標(biāo),以為縱坐標(biāo),在坐標(biāo)系中描出各變量對應(yīng)的點。

二、圖解變量(對變量分類)主成分分析后,若能以56X1X2X3X5X4X1X2X3X5X457§7

主成分分析用于系統(tǒng)評估

§7主成分分析用于系統(tǒng)評估

58

第一種方法,通過主成分分析得到綜合指標(biāo)利用

F1作為評估指標(biāo),根據(jù)F1得分對樣本點進(jìn)行排序比較。但有兩個前提條件:

1.

F1與全體原變量都正相關(guān),即(i=1,2,…,p)。

2.

各(i=1,2,…,p)在數(shù)值上的分布較為均勻。第一種方法,通過主成分分析得到綜合指59

第二種方法,通過主成分分析,取前面m個主成分,以每個主成分的方差貢獻(xiàn)率為權(quán),構(gòu)造綜合評價函數(shù)按F值的大小對樣品進(jìn)行排序比較或分類。注意:實際上,這一方法不合理,的含義違背了綜合評價的本意?!恋诙N方法,通過主成分分析,取前面m個主成注60主成分回歸主成分回歸61居民消費水平指常住住戶對貨物和服務(wù)的全部最終消費支出,居民消費除了直接以貨幣形式購買貨物和服務(wù)的消費之外,還包括以其他方式獲得的貨幣和服務(wù)的消費支出。居民消費水平受許多因素的影響,主要有居民收入、消費觀念、消費環(huán)境、國家政策等等。由于資料的可得性和代表性,選擇以下變量。

一、提出問題居民消費水平的多因素分析居民消費水平指常住住戶對貨物和服務(wù)的全部最終消費支出,居民消62:居民消費水平(元):農(nóng)村居民家庭人均純收入(元):城鎮(zhèn)居民家庭人均可支配收入(元):國家財政支出總額(億元):每萬人在校大學(xué)生人數(shù)(人):每萬人在校研究生人數(shù)(人):人口自然增長率(‰):金融機(jī)構(gòu)個人人民幣儲蓄存款一年期存款利率(%)

數(shù)據(jù)見sasuser.vregex01:居民消費水平(元):農(nóng)村居民家庭人均純收入(元):63影響人們外出旅游的因素有居民收入、交通、閑暇時間、旅游目的地治安狀況、旅游目的地的環(huán)境衛(wèi)生以及接待能力等等。由于資料的可得性和代表性,選擇以下變量。

國內(nèi)旅游人數(shù)(百萬人)農(nóng)村居民人均純收入(元)城鎮(zhèn)居民人均可支配收入(元)公路線路里程(萬公里)數(shù)據(jù)見sasuser.tourmx例2國內(nèi)旅游人數(shù)模型影響人們外出旅游的因素有居民收入、交通、閑暇時間、旅游目的地64

二、主成分回歸方法主成分回歸:由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。二、主成分回歸方法主成分回歸:由主成分分651、經(jīng)濟(jì)分析數(shù)據(jù)

X1

:GDPX2:積累總額

X3:消費總額

Y:進(jìn)口總額求進(jìn)口總額與GDP、積累總額和消費總額之間的回歸方程。

三、主成分回歸的實例數(shù)據(jù)見sasuser.vregl011、經(jīng)濟(jì)分析數(shù)據(jù)

X1:GDP三、主成分66VariableDFEstimateStandardErrort值Prob>|t|Intercept

x1X2x31111-10.12799-0.051400.586950.286851.212160.070280.094620.10221-8.36-0.736.202.810.00010.48830.00040.0263ParameterEstimatesDependentMean21.89091R-Square0.9919RootMSE0.48887AdjR-Sq0.9884SummaryofFitVariableDFEstimateStandardt值P67F1F2F3x1X2x30.70630.04350.7065-0.03570.9990-0.02580.70700.0070-0.7072EigenvectorsEigenvalueDifferenceProportionCumulativePCR1PCR2PCR31.99920.99820.00261.00100.99550.66640.33270.00090.66640.99911.0000EigenvaluesoftheCorrelationMatrixF1=0.7063x1+0.0435x2+0.7065x3F2=-0.0357x1+0.9990x2-0.0258x3F1F2F3x10.7063-0.03570.7070Eig68

SourceDFSumofSquaresMeanSquareF值Prob>FModelErrorTotal28109.88280.117210.00004.94140.0147337.23020.0001AnalysisofVarianceVariableDFEstimateStandardErrort值Prob>|t|F1F2110.69000.19130.02710.038325.48594.99300.00010.0011ParameterEstimatesSourceDFSumofSquaresM69標(biāo)準(zhǔn)化后的變量把標(biāo)準(zhǔn)化變量還原,代入得:標(biāo)準(zhǔn)化后的變量把標(biāo)準(zhǔn)化變量還原,代入得:70影響人們外出旅游的因素有居民收入、交通、閑暇時間、旅游目的地治安狀況、旅游目的地的環(huán)境衛(wèi)生以及接待能力等等。由于資料的可得性和代表性,選擇以下變量。

國內(nèi)旅游人數(shù)(百萬人)農(nóng)村居民人均純收入(元)城鎮(zhèn)居民人均可支配收入(元)公路線路里程(萬公里)

數(shù)據(jù)見sasuser.tourmx例2國內(nèi)旅游人數(shù)模型影響人們外出旅游的因素有居民收入、交通、閑暇時間、旅游目的地71VariableDFEstimateStandardErrort值Prob>|t|Intercept

IncomeonIncomeocHighway1111417.8201-0.13810.1737-3.000974.02300.06990.03020.81925.6445-1.97595.7589-3.66330.00050.08360.00040.0064ParameterEstimatesDependentMean558.1017R-Square0.9920RootMSE19.2003AdjR-Sq0.9890SummaryofFitVariableDFEstimateStandardt值P72F1F2F3x1X2x30.58100.59180.5588-0.5167-0.26230.81500.6289-0.76220.1533EigenvectorsEigenvalueDifferenceProportionCumulativePCR1PCR2PCR32.80880.18500.00622.62380.17880.93630.06170.00210.93630.99791.0000EigenvaluesoftheCorrelationMatrixF1=0.5810x1+0.5918x2+0.5588x3F2=-0.5167x1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論