主成分分析法終稿_第1頁(yè)
主成分分析法終稿_第2頁(yè)
主成分分析法終稿_第3頁(yè)
主成分分析法終稿_第4頁(yè)
主成分分析法終稿_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主成分分析法定義:主成分分析法:principalcomponentanalysis(PCA)。也稱主分量分析,是揭示大樣本、多變量數(shù)據(jù)或樣本之間內(nèi)在關(guān)系的一種方法,旨在利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)。在實(shí)證問(wèn)題研究中,為了全面、系統(tǒng)地分析問(wèn)題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標(biāo),在多元統(tǒng)計(jì)分析中也稱為變量。主成分分析法是一種數(shù)學(xué)變換以簡(jiǎn)化數(shù)據(jù)的方法,它把給定的一組相關(guān)變量通過(guò)線性變換轉(zhuǎn)成另一組相互獨(dú)立或不相關(guān)的變量,這些新的變量按照方差依次遞減的順序排列。在數(shù)學(xué)變換中保持變量的總方差不變,使第一變量具有最大的方差,稱為第一主成分,第二變量的方差次大,并且和第一變量不相關(guān),稱為第二主成分。依次類推,I個(gè)變量就有I個(gè)主成分。每個(gè)主成分都是原始變量的線性組合,且各個(gè)主成分之間互不相關(guān)。這樣在研究復(fù)雜問(wèn)題時(shí)就可以只考慮少數(shù)幾個(gè)主成分而不至于損失太多信息,從而更容易抓住主要矛盾,揭示事物內(nèi)部變量之間的規(guī)律性,同時(shí)使問(wèn)題得到簡(jiǎn)化,提高分析效率。(實(shí)際問(wèn)題中遇到指標(biāo)較多且各指標(biāo)相關(guān)關(guān)系較大時(shí),人們??紤]應(yīng)用主成分分析的方法)。注意幾點(diǎn):(1)先判斷該數(shù)據(jù)降維的條件是否成立;(2)主成分系數(shù)的平方和為1。(3)選取的主成分對(duì)原始變量要有代表性.從數(shù)學(xué)上對(duì)主成分分析法進(jìn)行解釋:設(shè)有p個(gè)原始指標(biāo):叫,x2,…,Xp,用來(lái)對(duì)n個(gè)單位進(jìn)行評(píng)價(jià),則共有np個(gè)數(shù)據(jù)。主成分分析的目的是要將這些原始指標(biāo)組合成新的相互獨(dú)立的綜合指標(biāo):主成分分析的主要作用1.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(mVp),而低維的Y空間代替高維的x空間所損失的信息很少。即:使只有一個(gè)主成分Yl(即m=1)時(shí),這個(gè)Y1仍是使用全部X變量(p個(gè))得到的。例如要計(jì)算Y1的均值也得使用全部x的均值。在所選的前m個(gè)主成分中,如果某個(gè)Xi的系數(shù)全部近似于零的話,就可以把這個(gè)Xi刪除,這也是一種刪除多余變量的方法。多維數(shù)據(jù)的一種圖形表示方法。當(dāng)維數(shù)大于3時(shí)便不能畫出幾何圖形,多元統(tǒng)計(jì)研究的問(wèn)題大都多于3個(gè)變量。要把研究的問(wèn)題用圖形表示出來(lái)是不可能的。然而,經(jīng)過(guò)主成分分析后,我們可以選取前兩個(gè)主成分或其中某兩個(gè)主成分,根據(jù)主成分的得分,畫出n個(gè)樣品在二維平面上的分布情況,由圖形可直觀地看出各樣品在主分量中的地位,進(jìn)而還可以對(duì)樣本進(jìn)行分類處理,可以由圖形發(fā)現(xiàn)遠(yuǎn)離大多數(shù)樣本點(diǎn)的離群點(diǎn)。由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來(lái)自變量x做回歸分析。用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實(shí)際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報(bào),好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計(jì)算量來(lái)選擇量,獲得選擇最佳變量子集合的效果。主成分分析法的一般步驟:(待細(xì)看)1,首先需要判斷待分析的原始變量是否適合做主成分分析,同樣的,需要判定指標(biāo)之間的相關(guān)性,可以使用SPSS中的“CorrelationMatrix(相關(guān)系數(shù)矩陣)”判定。2,規(guī)范原始指標(biāo)數(shù)據(jù)如果指標(biāo)的單位不同,則需要消除指標(biāo)間不同量綱的影響,即對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,將原始數(shù)據(jù)處理成均值為0、方差為1的歸一化分析數(shù)據(jù)。p維隨機(jī)向量x=(X],X2,…,xp)T n個(gè)樣品Xj=(Xi-i,Xi-2,,,.,X/p)T,i=l,2,…,,nx表示第i個(gè)樣本的第j個(gè)指標(biāo)值,用Z-score法對(duì)樣本陣元進(jìn)行如下標(biāo)準(zhǔn)化變換:3、計(jì)算標(biāo)準(zhǔn)化數(shù)據(jù)的協(xié)方差矩陣,求相關(guān)系數(shù)矩陣其中打尢表示指標(biāo)j與指標(biāo)k的相關(guān)系數(shù)。

由于Z中的變量己是標(biāo)準(zhǔn)化的變量,此時(shí)Z的列變量的協(xié)方差矩陣就是相關(guān)系數(shù)矩陣。4、計(jì)算R的特征根和特征向量對(duì)于標(biāo)準(zhǔn)化后的數(shù)據(jù),從相關(guān)系數(shù)矩陣出發(fā),求得特征值與對(duì)應(yīng)的特征向量;而對(duì)同度量或是取值范圍在同量級(jí)而不需要標(biāo)準(zhǔn)化的數(shù)據(jù),則直接從協(xié)方差矩陣求特征值與特征向量。解樣本相關(guān)矩陣R的特征方程入f=。得p個(gè)從大到小排列的特征根:X1>X2>...>Xp>0由特征多項(xiàng)式Ra= ?得相應(yīng)的單位特征向量a乙J如=%厲1_4、將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主成分以特征向量的分量值為權(quán)數(shù),將標(biāo)準(zhǔn)化的指標(biāo)進(jìn)行加權(quán)就得到第i個(gè)主成分。F=aZ+a不..+a,Z=1,2,..p,i 1i1 i22 ipp鳳稱為第一主成分,F(xiàn)稱為第二主成分,…,F(xiàn)稱為第p主成分。2P5計(jì)算貢獻(xiàn)率和累計(jì)貢獻(xiàn)率,據(jù)以確定主成分的個(gè)數(shù)m。每個(gè)主成分F的貢獻(xiàn)率等于它的特征值久I除以原始指標(biāo)個(gè)數(shù)p,累計(jì)貢獻(xiàn)率等于各主i成分貢獻(xiàn)率順序相加。F主成分:的方差貢獻(xiàn)率為:前K個(gè)主成分的累計(jì)方差貢獻(xiàn)率為:說(shuō)明:在解決實(shí)際問(wèn)題時(shí),一般不是取戸個(gè)主成分,比較通行的確定主成分個(gè)數(shù)方法的原則有以下幾種:>0.85準(zhǔn)則>0.85準(zhǔn)則。(a(m)即前m個(gè)主成分保留原觀測(cè)變量信息的比重)。根據(jù)國(guó)內(nèi)外用主成分分析進(jìn)行多指標(biāo)綜合評(píng)價(jià)的實(shí)踐來(lái)看,a(m)>85%表明取前m個(gè)主成分基本包含了全部測(cè)量指標(biāo)所具有的信息,通??梢员WC樣本排序的穩(wěn)定。2)入g>入準(zhǔn)則。先計(jì)算特征根入g的均值入然后將之與入g比較,選取入g>入的前m個(gè)成分作為主成分。因?yàn)橛蓸?biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)矩陣R求得的入=1,因此只要取入g>1的前m個(gè)主成分即可。(3)選取第一主成分用于綜合評(píng)價(jià)。主成分分析法作為數(shù)據(jù)降維方法,其每一個(gè)主成分均有特定經(jīng)濟(jì)含義,可以用于揭示原始樣本中的基本性質(zhì)。第一主成分說(shuō)明了原始數(shù)據(jù)變動(dòng)的總規(guī)模,而其余各主成分則說(shuō)明樣本內(nèi)部的各方面的些桂、、…、、咼^ 、、、 …、—特征。弟一主成分的貝獻(xiàn)率為心/ ,這個(gè)值越大,表明弟一主成分綜合1,…,G信息的能力越強(qiáng)。6、對(duì)m個(gè)主成分進(jìn)行綜合評(píng)價(jià)每一個(gè)主成分表示了分析對(duì)象在某一方面的表現(xiàn)。選取的J??個(gè)主成分代表了分析對(duì)象的絕大部分信息,對(duì)主成分進(jìn)行綜合分析就是相當(dāng)于對(duì)分析對(duì)象的全部進(jìn)行綜合分析。1.作為權(quán)數(shù)構(gòu)造一個(gè)綜合評(píng)價(jià)函數(shù):y=if+...+/Fi11mm1.作為權(quán)數(shù)構(gòu)造一個(gè)綜合評(píng)價(jià)函數(shù):y=if+...+/Fi11mm評(píng)估指數(shù),依據(jù)對(duì)每個(gè)系統(tǒng)計(jì)算出的卩值大小進(jìn)行排序、比較或分類劃級(jí)。這種方法的局限是,當(dāng)產(chǎn)生主成分的特征向量的各分量符號(hào)不一致時(shí)就很難進(jìn)行排序評(píng)估。第二種方法是第一種方法的改進(jìn),只用第一個(gè)主成分作評(píng)估指數(shù)即『二爲(wèi),理由是:工 x第一主成分與原始變量1,…,F(xiàn)綜合相關(guān)度最強(qiáng),即 。如果想以一個(gè)綜合變量來(lái)代替原來(lái)所有原始變量,則最佳選擇應(yīng)該是熱,另一方面由于第一主成分環(huán)對(duì)應(yīng)于數(shù)據(jù)變異最大的方向也就是使數(shù)據(jù)信息損失最小,精度最高的一維綜合變量。注意:使用這種方法是有前提條件的,即要求所有評(píng)估指標(biāo)變量都是正相關(guān)的。

J主成分分析計(jì)算步驟先利用指標(biāo)體柔建立數(shù)據(jù)庫(kù)得到原始數(shù)據(jù)矩陣根據(jù)標(biāo)準(zhǔn)化的要求將原始數(shù)據(jù)標(biāo)準(zhǔn)化得到標(biāo)準(zhǔn)數(shù)據(jù)矩陣X。由標(biāo)準(zhǔn)化數(shù)據(jù)矩X計(jì)算相關(guān)矩陣丘口解特征方程丨R-&E1丸,計(jì)算出相關(guān)矩陣R怖特征值兀,按照石氓活…2排序,列出關(guān)于特征值人的特征向量》計(jì)算累計(jì)貢獻(xiàn)率--般杞據(jù)累計(jì)貢獻(xiàn)率^85%(80%)的原則確定主成份個(gè)數(shù),并為主成份命名口3.1.5主成分模型中各統(tǒng)計(jì)量的含義⑴特征值(Eigenvalue):它叮以用于確宦屯成分?jǐn)?shù)目及解釋+成分影響力度的指柄,址原始變量的證方葢在各個(gè)成分一苗新分配夕吉果"?般臥取待彳王根犬}'■1為標(biāo)準(zhǔn)。⑵主成分舀的方差貢獻(xiàn)珮:其計(jì)算公式為入氏"表明各成分舀的方差所包舎溝信息人全部方建總信息的存分LJ用血成分的方養(yǎng)來(lái)衡危變港所赳含的信息陽(yáng)這個(gè)值越衣”燒明該上成分二、綜合朗包含的尤,*「…兀伯思能旳越強(qiáng).⑶累計(jì)貢⑶累計(jì)貢獻(xiàn)率:前女個(gè)i:成分的累計(jì)貢獻(xiàn)率定文衣木訶k個(gè)-左成分累計(jì)提取了?…七多少信息.通常累L方遽貢獻(xiàn)率取大于等于SO%,這樣既減少r變最牛數(shù)又便丁対實(shí)際問(wèn)題分析和硏究詡°說(shuō)明:主成分的性質(zhì):主成分門,….有如下幾牛性質(zhì):(1)主我分間互不柑關(guān).即對(duì)任部刑"G和御村關(guān)系數(shù)q=o//(J)幼臺(tái)紊離心 甌菽榆成的向童光單位向童⑶各主成分的方差是梅.撫遞減的.即臨心凋詢心謔…王呦心》(4)總方差不增不減.即陽(yáng)托斗由k<ry>+...斗箱心詁=囪(,切+嗨(礎(chǔ)斗...+旳?CM=p這-性航說(shuō)犧,匕成弁繪原變量的紡性組合,繪對(duì)原變童信息的…種改組「j殳廿不巒加總営息量,也不滅少總管息量.(5)主成分刑原變童的村關(guān)系數(shù)eg口嚴(yán)年◎沁 町的相黃矩陣為沖.宙川哦?….燈則是相關(guān)矩陣砒I第冷特征向意⑷g^VBCtO^而且,特缸僅血繪第注成孑的方差,即m^=4Jl;'l'炒州咲體陣虛的第汁特汕fl'[(eigenvalue)A>^>-.>^0主成分分析法的優(yōu)點(diǎn):(1)主成分分析的降維處理技術(shù)能較好地解決多指標(biāo)評(píng)價(jià)的要求,它消除了評(píng)價(jià)指標(biāo)間的相關(guān)影響。另外,主成分分析用于多指標(biāo)綜合評(píng)價(jià)是對(duì)彼此獨(dú)立的分量進(jìn)行合成,正適于采用加權(quán)線性相合成方法,不必在合成方法選擇上多做工作。(2)減少了指標(biāo)選擇的工作量。在主成分分析中由于可以消除評(píng)價(jià)指標(biāo)間的相關(guān)影響,因而在指標(biāo)選擇上相對(duì)容易些。但主成分分析法確定評(píng)價(jià)指標(biāo)的原則是寧多勿少,盡可能地全面。主成分分析可以保留原始評(píng)價(jià)指標(biāo)的大部分信息。如果指標(biāo)選擇不夠全面,就會(huì)先天不足,再好的分析方法也會(huì)失去效用。(3)運(yùn)用主成分分析法進(jìn)行多指標(biāo)綜合評(píng)價(jià)的權(quán)數(shù)處理時(shí)的權(quán)數(shù)是從信息量和系統(tǒng)效應(yīng)角度來(lái)確定的,是伴隨數(shù)學(xué)變換過(guò)程生成的,可以避免很多人為的因素,使評(píng)價(jià)結(jié)果更為科學(xué)。因此主成分分析法成為綜合評(píng)價(jià)問(wèn)題中較為科學(xué)有效的方法之一。(4)使用主成分分析可以按照事物的相似性區(qū)分產(chǎn)品,結(jié)果可用一維、二維或三維平面坐標(biāo)圖標(biāo)示,特別直觀。(5)此外,隨著電子計(jì)算機(jī)技術(shù)的發(fā)展,SAS、SPSS等商品化統(tǒng)計(jì)分析軟件的推廣與應(yīng)用,使得主成分分析在各類綜合評(píng)價(jià)實(shí)踐中的廣泛應(yīng)用成為現(xiàn)實(shí)。主成分分析法的實(shí)現(xiàn):隨著現(xiàn)代科技的發(fā)展,主成分分析采用SPSS統(tǒng)計(jì)分析軟件中的主成分分析模塊進(jìn)行綜合評(píng)價(jià)。SPSS是社會(huì)科學(xué)統(tǒng)計(jì)軟件。它集數(shù)據(jù)整理、分析過(guò)程、結(jié)果輸出等功能于一身,是世界著名的統(tǒng)計(jì)分析軟件之一。因此,我們可以利用SPSS中的主成分分析模塊進(jìn)行評(píng)價(jià)。具體做法是:將參評(píng)指標(biāo)的數(shù)據(jù)導(dǎo)入軟件后,在分析模塊上選擇主成分法進(jìn)行分析。在矩陣旋轉(zhuǎn)方面,取“方差最大旋轉(zhuǎn)”。它是一種正交旋轉(zhuǎn)方法。它使每個(gè)因子上的具有最高載荷的變量數(shù)最小,可以簡(jiǎn)化對(duì)因子的解釋。其余的都可按系統(tǒng)默認(rèn)值確定。最后我

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論