主成分分析法1_第1頁
主成分分析法1_第2頁
主成分分析法1_第3頁
主成分分析法1_第4頁
主成分分析法1_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

6.1主成分分析6.1.1主成分分析的概念與步驟6.1.2使用INSIGHT模塊作主成分分析6.1.3使用“分析家”作主成分分析主成分分析6.1.1主成分分析的概念與步驟1.主成分分析基本思想主成分分析是數(shù)學上對數(shù)據(jù)降維的一種方法。其基本思想是設法將原來眾多的具有一定相關性的指標(比如p個指標),重新組合成一組新的互不相關的綜合指標來代替原來指標。通常數(shù)學上的處理就是將原來p個指標作線性組合,作為新的綜合指標。但是這種線性組合,如果不加限制,則可以有很多,應該如何去選取呢?在所有的線性組合中所選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來p個指標的信息,再考慮選取F2即選第二個線性組合。為了有效地反映原有信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學語言表達就是要求Cov(F1,F(xiàn)2)=0。稱F2為第二主成分,依此類推可以構造出第三、第四、…、第p個主成分。2.主成分分析的數(shù)學模型設有n個樣品(多元觀測值),每個樣品觀測p項指標(變量):X1,X2,…,Xp,得到原始數(shù)據(jù)資料陣:其中Xi=(x1i,x2i,…,xni)',i=1,2,…,p。用數(shù)據(jù)矩陣X的p個列向量(即p個指標向量)X1,X2,…,Xp作線性組合,得綜合指標向量:簡寫成:Fi=a1iX1+a2iX2+…+apiXp

i=1,2,…,p

為了加以限制,對組合系數(shù)ai'=(a1i,a2i,…,api)作如下要求:即:ai為單位向量:ai'ai=1,且由下列原則決定:

1)Fi與Fj(i≠j,i,j=1,…,p)互不相關,即Cov(Fi,F(xiàn)j)=0,并有Var(Fi)=ai'Σai,其中Σ為X的協(xié)方差陣

2)F1是X1,X2,…,Xp的一切線性組合(系數(shù)滿足上述要求)中方差最大的,即,其中c=(c1,c2,…,cp)'

F2是與F1不相關的X1,X2,…,Xp一切線性組合中方差最大的,…,F(xiàn)p是與F1,F(xiàn)2,…,F(xiàn)p-1都不相關的X1,X2,…,Xp的一切線性組合中方差最大的。滿足上述要求的綜合指標向量F1,F(xiàn)2,…,F(xiàn)p就是主成分,這p個主成分從原始指標所提供的信息總量中所提取的信息量依次遞減,每一個主成分所提取的信息量用方差來度量,主成分方差的貢獻就等于原指標相關系數(shù)矩陣相應的特征值i,每一個主成分的組合系數(shù)ai'=(a1i,a2i,…,api)就是相應特征值i所對應的單位特征向量ti。方差的貢獻率為,i越大,說明相應的主成分反映綜合信息的能力越強。3.主成分分析的步驟(1)計算協(xié)方差矩陣計算樣品數(shù)據(jù)的協(xié)方差矩陣:Σ=(sij)pp,其中

i,j=1,2,…,p(2)求出Σ的特征值及相應的特征向量求出協(xié)方差矩陣Σ的特征值12…p>0及相應的正交化單位特征向量:則X的第i個主成分為Fi=ai'X

i=1,2,…,p。(3)選擇主成分在已確定的全部p個主成分中合理選擇m個來實現(xiàn)最終的評價分析。一般用方差貢獻率解釋主成分Fi所反映的信息量的大小,m的確定以累計貢獻率達到足夠大(一般在85%以上)為原則。(4)計算主成分得分計算n個樣品在m個主成分上的得分:

i=1,2,…,m(5)標準化實際應用時,指標的量綱往往不同,所以在主成分計算之前應先消除量綱的影響。消除數(shù)據(jù)的量綱有很多方法,常用方法是將原始數(shù)據(jù)標準化,即做如下數(shù)據(jù)變換:其中,,j=1,2,…,p。標準化后的數(shù)據(jù)陣記為X*,其中每個列向量(標準化變量)的均值為0,標準差為1,數(shù)據(jù)無量綱。標準化后變量的協(xié)方差矩陣(CovarianceMatrix)Σ=(sij)pp,即原變量的相關系數(shù)矩陣(CorrelationMatrix)R=(rij)pp:i,j=1,2,…,p

此時n個樣品在m個主成分上的得分應為:Fj=a1jX1*+a2jX2*+...+apjXp*

j=1,2,…,m6.1.2使用INSIGHT模塊作主成分分析【例6-1】全國沿海10個省市經(jīng)濟指標的主成分分析表6-1全國沿海10個省市經(jīng)濟綜合指標假設表6-1中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.jjzb中,試對各地區(qū)的經(jīng)濟發(fā)展水平進行主成分分析。地區(qū)GDPx1人均GDPx2工業(yè)增加值x3第三產(chǎn)業(yè)增加值x4固定資產(chǎn)投資x5基本建設投資x6社會消費品零售總額x7海關出口總額x8地方財政收入x9遼寧5458.2130001376.22258.41315.95292258.4123.7399.7山東10550116433502.538512288.71070.73181.9211.1610.2河北6076.690471406.72092.61161.6597.11968.345.9302.3天津2022.622068822.8960703.7361.9941.4115.7171.8江蘇10636.3143973536.33967.223201141.33215.8384.7643.7上海5408.8406272196.22755.81970.2779.32035.2320.5709浙江7670165702356.530652296.61180.62877.5294.2566.9福建4682135101047.11859964.5397.91663.3173.7272.9廣東11769.7150304224.64793.63022.91275.55013.61843.71201.6廣西2455.45062367995.7542.2352.71025.515.1186.71.使用INSIGHT模塊做主成分分析的步驟使用INSIGHT模塊做主成分分析的步驟如下:

1)在INSIGHT模塊中打開數(shù)據(jù)集Mylib.jjzb;選擇菜單“Analyze”“Multivariate(YX)(多元分析)”,打開“Multivariate(YX)”對話框;

2)將做主成分分析的變量x1~x9選為Y變量,將變量diqu選為Label變量,如圖所示。圖6-1多元分析對話框

3)單擊“Method”按鈕,在打開的對話框中可以選擇計算協(xié)方差矩陣的特征值或是計算相關系數(shù)矩陣的特征值。系統(tǒng)默認計算相關系數(shù)矩陣的特征值和特征向量,單擊“OK”按鈕返回。

4)單擊“Output”按鈕,在打開的對話框(圖左)中包括“DescriptiveStatistics”選項、“BivariatePlots”選項以及各種多元分析的選項。選中“PrincipalComponentAnalysis”復選框,單擊下面的“PrincipalComponentOptions”按鈕,打開“PrincipalComponentOptions”對話框,選中“Eigenvectors”復選框,取消“Correlations(Structure)”復選框,如圖右所示。

2.主成分的結果分析輸出的數(shù)字分析結果有4個部分:簡單統(tǒng)計量、相關系數(shù)矩陣、相關系數(shù)矩陣的特征值以及相關系數(shù)矩陣的特征向量。

3)圖6-5給出相關系數(shù)矩陣的特征值(Eigenvalue)、上下特征值之差(Difference)、各主成分的方差貢獻率(Proportion)以及累積貢獻率(Cumulative)。

相關系數(shù)矩陣的特征值即各主成分的方差,可以看出,第一主成分的方差貢獻率為80.11%,前兩個主成分的累積貢獻率已達92.33%,因此,只需用前面2個主成分就可以概括這組數(shù)據(jù)。

4)圖6-6給出相關系數(shù)矩陣的兩個最大特征值的特征向量,據(jù)此可以寫出第一和第二主成分得分:PCR1=0.35x1*+0.04x2*+0.36x3*+0.37x4*+0.37x5*+0.35x6*+0.36x7*+0.30x8*+0.36x9*PCR2=-0.21x1*+0.94x2*–0.01x3*–0.05x4*+0.10x5*–0.02x6*–0.14x7*+0.05x8*+0.18x9*

對于第一主成分而言,除了x2(人均GDP)外,各變量所占比重均在0.3以上,因此第一主成分(Prin1)主要由x1、x3~x9八個變量解釋;而第二主成分則主要由x2這一個變量解釋。

5)選擇菜單“Edit(編輯)”“Observations(觀測)”“LabelinPlots”,在彈出的對話框中選中所有diqu變量值,單擊“OK”按鈕返回,顯示結果中的散點圖上出現(xiàn)地區(qū)名;圖中看出,上海在第二主成分PCR2的得分遠遠高于其他省市,而在第一主成分PCR1的得分則處于中間。廣東、江蘇、山東和浙江則在第1主成分的得分上位于前列。

6)回到INSIGHT的數(shù)據(jù)窗口,可以看到前兩個主成分的得分情況(如圖6-8左)。單擊數(shù)據(jù)窗口左上角的箭頭,在彈出的菜單中選擇“Sort(排序)”選項,在打開的對話框中選定排序變量PCR1,并單擊“Asc/Des”按鈕將其設為降序(Des),如圖6-8所示。

單擊“OK”按鈕返回,得到按第一主成分排序的結果如圖6-9左所示。同樣方法可以得到按第二主成分排序的結果如圖6-9右所示。從第一主成分排序情況來看,沿海19省市經(jīng)濟發(fā)展狀況綜合排名前5位的省市依次為:廣東、江蘇、山東、浙江、上海;從第二主成分排序情況來看,人均GDP排名前5位的省市依次是:上海、天津、浙江、廣東、福建。

6.1.3使用“分析家”作主成分分析【例6-2】某企業(yè)為了了解其客戶的信用程度,評價客戶的信用等級,采用信用評估常用的5C方法,5C的目的是說明顧客違約的可能性。

1)品格x1,指客戶的信譽。

2)能力x2,指客戶的償還能力。

3)資本x3,指客戶的財務勢力和財務狀況。

4)附帶的擔保品x4。

5)環(huán)境條件x5,指客戶的外部因素。通過專家打分,得到10個客戶5項指標的得分如表6-3所示。表6-210個客戶5項指標的得分假設表6-2中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.xydj中,試對各客戶的信用等級進行評估??蛻艟幪朓Dx1x2x3x4x5客戶編號IDx1x2x3x4x5176.581.57675.871.768579.280.384.476.5270.67367.668.178.57949487.589.592390.787.39181.580884.666.968.864.866.4477.573.670.969.874.8957.760.457.460.865585.668.57062.276.5107069.271.764.968.91.使用“分析家”做主成分分析的步驟

1)在“分析家”中打開數(shù)據(jù)集Mylib.xydj;

2)選擇菜單“Statistics(統(tǒng)計)”“Multivariate(多元分析)”“PrincipalComponents(主成分分析)”,打開“PrincipalComponents”對話框;

3)在對話框中輸入主成分分析的變量,如圖所示。

4)單擊“Statistics(統(tǒng)計)”按鈕,打開“PrincipalComponents:Statistics”對話框;在“#ofcomponents:”右邊的框中指定主成分的個數(shù)4,如圖右。單擊“OK”返回;

5)單擊“SaveData”按鈕,打開“PrincipalComponents:SaveData”對話框,在該對話框中可選擇存儲數(shù)據(jù)。選中“Createandsavescoresdata”,如圖6-11所示。單擊“OK”返回;

6)單擊“Plots”按鈕,打開“PrincipalComponents:Plots”對話框,可以設置圖形輸出?!裨凇癝creePlot(碎石圖)”選項卡中(圖左),選中“Createscreeplot(建立碎石圖)”復選框?!裨凇癈omponentPlot(成分圖)”選項卡中(圖右),選中“CreatecomponentPlot(建立成分圖)”復選框。

2.主成分的結果分析輸出的數(shù)字分析結果包括4個部分:簡單統(tǒng)計量、相關系數(shù)矩陣、相關系數(shù)矩陣的特征值以及相關系數(shù)矩陣的特征向量。

1)圖6-13

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論