最新主成分分析及matlab實現_第1頁
最新主成分分析及matlab實現_第2頁
最新主成分分析及matlab實現_第3頁
最新主成分分析及matlab實現_第4頁
最新主成分分析及matlab實現_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、主成分分析及matlab實現 主成分分析 主成分分析的基本原理 主成分分析的計算步驟 主成分分析方法應用實例 主成分分析及matlab實現 在實際問題研究中,多變量問題是經常在實際問題研究中,多變量問題是經常會遇到的。變量太多,無疑會增加分析問題會遇到的。變量太多,無疑會增加分析問題的難度與復雜性,而且在許多實際問題中,的難度與復雜性,而且在許多實際問題中,多個變量之間是具有一定的相關關系的。多個變量之間是具有一定的相關關系的。 因此,人們會很自然地想到,能否在相因此,人們會很自然地想到,能否在相關分析的基礎上,用較少的新變量代替原來關分析的基礎上,用較少的新變量代替原來較多的舊變量,而且使這

2、些較少的新變量盡較多的舊變量,而且使這些較少的新變量盡可能多地保留原來變量所反映的信息?可能多地保留原來變量所反映的信息? 問題的提出問題的提出:主成分分析及matlab實現 事實上,這種想法是可以實現的,主成分事實上,這種想法是可以實現的,主成分分析方法就是綜合處理這種問題的一種強有力分析方法就是綜合處理這種問題的一種強有力的工具。的工具。 主成分分析是把原來多個變量劃為少數幾主成分分析是把原來多個變量劃為少數幾個綜合指標的一種統計分析方法。個綜合指標的一種統計分析方法。 從數學角度來看,這是一種降維處理技術。從數學角度來看,這是一種降維處理技術。 主成分分析及matlab實現 n例如,某人

3、要做一件上衣要測量很多尺寸,如例如,某人要做一件上衣要測量很多尺寸,如身長、袖長、胸圍、腰圍、肩寬、肩厚等十幾身長、袖長、胸圍、腰圍、肩寬、肩厚等十幾項指標,但某服裝廠要生產一批新型服裝絕不項指標,但某服裝廠要生產一批新型服裝絕不可能把尺寸的型號分得過多可能把尺寸的型號分得過多 ?而是從多種指?而是從多種指標中綜合成幾個少數的綜合指標,做為分類的標中綜合成幾個少數的綜合指標,做為分類的型號,利用主成分分析將十幾項指標綜合成型號,利用主成分分析將十幾項指標綜合成3項指標,一項是反映長度的指標,一項是反映項指標,一項是反映長度的指標,一項是反映胖瘦的指標,一項是反映特體的指標。胖瘦的指標,一項是反

4、映特體的指標。主成分分析及matlab實現一、主成分分析的基本原理 假定有假定有n個樣本,每個樣本共有個樣本,每個樣本共有p p個變量,個變量,構成一個構成一個np階的數據矩陣階的數據矩陣npnnppxxxxxxxxxx212222111211(1.1) 主成分分析及matlab實現 當當p較大時,在較大時,在p維空間中考察問題比較麻維空間中考察問題比較麻煩。為了克服這一困難,就需要進行降維處理,煩。為了克服這一困難,就需要進行降維處理,即用較少的幾個綜合指標代替原來較多的變量即用較少的幾個綜合指標代替原來較多的變量指標,而且使這些較少的綜合指標既能盡量多指標,而且使這些較少的綜合指標既能盡量

5、多地反映原來較多變量指標所反映的信息,同時地反映原來較多變量指標所反映的信息,同時它們之間又是彼此獨立的。它們之間又是彼此獨立的。主成分分析及matlab實現 定義:記定義:記x1,x2,xp為原變量指標,為原變量指標,z1,z2,zm(mp)為新變量指標)為新變量指標111 11221221 122221 122221.1ppppmmmmppiipzl xl xl xzl xl xlxzl xlxlxll(1.2) 系數系數lij的確定原則:的確定原則: zi與與zj(ij;i,j=1,2,m)相)相互無關;互無關;主成分分析及matlab實現 z1是是x1,x2,xp的一切線性組合的一切線

6、性組合中方差最大者,中方差最大者,z2是與是與z1不相關的不相關的x1,x2,xp的所有線性組合中方差最大者的所有線性組合中方差最大者; zm是與是與z1,z2,zm1都不相關的都不相關的x1,x2,xp, 的所有線性組合中方差最大者。的所有線性組合中方差最大者。 則新變量指標則新變量指標z1,z2,zm分別稱為原分別稱為原變量指標變量指標x1,x2,xp的第的第1,第,第2,第,第m主成分。主成分。 主成分分析及matlab實現 從以上的分析可以看出,主成分分析的從以上的分析可以看出,主成分分析的實質就是確定原來變量實質就是確定原來變量xj(j=1,2 , p)在諸主成分在諸主成分zi(i=

7、1,2,m)上的荷載)上的荷載 lij( i=1,2,m; j=1,2 ,p)。)。 從數學上可以證明,它們分別是相關矩從數學上可以證明,它們分別是相關矩陣陣m個較大的特征值所對應的特征向量。個較大的特征值所對應的特征向量。 主成分分析及matlab實現二、主成分分析的計算步驟二、主成分分析的計算步驟 設有設有 n 個樣品,每個樣品觀測個樣品,每個樣品觀測 p 個指標,將個指標,將原始數據寫成矩陣原始數據寫成矩陣1將原始數據標準化。這里不妨設上邊矩陣已將原始數據標準化。這里不妨設上邊矩陣已標準化了。標準化了。 2建立變量的相關系數陣:建立變量的相關系數陣:12211()()()()nkiikj

8、jkijnnkiikjjkkxxxxrxxxx主成分分析及matlab實現3求求r的特征根的特征根及相應的單位特征向量:及相應的單位特征向量:4寫出主成分寫出主成分主成分分析及matlab實現 計算主成分貢獻率及累計貢獻率計算主成分貢獻率及累計貢獻率 貢獻率貢獻率累計貢獻率累計貢獻率 ),2, 1(1pipkki),2, 1(11pipkkikk 一般取累計貢獻率達一般取累計貢獻率達85%95%的特征值的特征值所對應的第所對應的第1 1、第、第2 2、第、第m(mp)個主成分。)個主成分。 m,21主成分分析及matlab實現三、 實例演示 例例 對全國對全國30個省市自治區(qū)經濟發(fā)展基個省市自

9、治區(qū)經濟發(fā)展基本情況的八項指標作主成分分析,原始本情況的八項指標作主成分分析,原始數據如下:數據如下:主成分分析及matlab實現主成分分析及matlab實現主成分分析及matlab實現主成分分析及matlab實現第一步第一步 將原始數據標準化。將原始數據標準化。第二步第二步 建立指標之間的相關系數陣建立指標之間的相關系數陣r如下如下主成分分析及matlab實現第三步第三步 求求r的特征值和特征向量。的特征值和特征向量。主成分分析及matlab實現 從上表看,前從上表看,前3個特征值累計貢獻率已達個特征值累計貢獻率已達89564,說明前說明前3個主成分基本包含了全部指標具有的信息,我們個主成分

10、基本包含了全部指標具有的信息,我們取前取前3個特征值,并計算出相應的特征向量:個特征值,并計算出相應的特征向量:主成分分析及matlab實現因而前三個主成分為:因而前三個主成分為:第一主成分:第一主成分:第二主成分:第二主成分:212346780.1079950.2585120.2875360.4009310.40431 50.4988010.488680.167392fxxxxxxxx主成分分析及matlab實現第三主成分:第三主成分: 在第一主成分的表達式中第一、二、三項指標的系數在第一主成分的表達式中第一、二、三項指標的系數較大,這三個指標起主要作用,我們可以把第一王成分看較大,這三個指

11、標起主要作用,我們可以把第一王成分看成是由國內生產總值、固定資產投資和居民消費水平所該成是由國內生產總值、固定資產投資和居民消費水平所該劃的反映經濟發(fā)展狀況的綜合指標;劃的反映經濟發(fā)展狀況的綜合指標; 在第二主成分中,第四、五、六、七項指標的影響在第二主成分中,第四、五、六、七項指標的影響大,且第六、七項指標的影響尤其大,可將之看成是反映大,且第六、七項指標的影響尤其大,可將之看成是反映物價指數、職工工資和貨物周轉量的綜合指標;物價指數、職工工資和貨物周轉量的綜合指標; 在第三主成分中,第八項指數影響最大,遠超過其它在第三主成分中,第八項指數影響最大,遠超過其它指標的影響,可單獨看成是工業(yè)總產

12、值的影響。指標的影響,可單獨看成是工業(yè)總產值的影響。主成分分析及matlab實現四四.主成分分析的應用主成分分析的應用n1.主成分分析用于系統評估主成分分析用于系統評估 利用主成分利用主成分f1,fp做線性組合,并以做線性組合,并以每個主成分每個主成分 fi 的方差貢獻率的方差貢獻率 作為權數作為權數構造一個綜合評價函數:構造一個綜合評價函數: 也稱也稱 y 為評估指數,依據對每個系統計算為評估指數,依據對每個系統計算出的出的 y 值大小進行排序比較或分類劃級。值大小進行排序比較或分類劃級。主成分分析及matlab實現例1. 城市環(huán)境生態(tài)化是城市發(fā)展的必然趁勢,表現為城市環(huán)境生態(tài)化是城市發(fā)展的

13、必然趁勢,表現為社會、經濟、環(huán)境與生態(tài)全方位的現代化水平,一個社會、經濟、環(huán)境與生態(tài)全方位的現代化水平,一個符合生態(tài)規(guī)律的生態(tài)城市應該是結構合理、功能高效符合生態(tài)規(guī)律的生態(tài)城市應該是結構合理、功能高效和關系協調的城市生態(tài)系統。所謂結構合理是指適度和關系協調的城市生態(tài)系統。所謂結構合理是指適度的人口密度,合理的土地利用,良好的環(huán)境質量,充的人口密度,合理的土地利用,良好的環(huán)境質量,充足的綠地系統,完善的基礎設施,有效的自然保護;足的綠地系統,完善的基礎設施,有效的自然保護;功能高效是指資源的優(yōu)化配置、物力的經濟投入、人功能高效是指資源的優(yōu)化配置、物力的經濟投入、人力的充分發(fā)揮、物流的暢通有序、信

14、息流的快捷;關力的充分發(fā)揮、物流的暢通有序、信息流的快捷;關系協調是指人和自然協調、社會關系協調、城鄉(xiāng)協調、系協調是指人和自然協調、社會關系協調、城鄉(xiāng)協調、資源利用和更新協調。一個城市要實現生態(tài)城市的發(fā)資源利用和更新協調。一個城市要實現生態(tài)城市的發(fā)展目標,關鍵是在市場經濟的體制下逐步改善城市的展目標,關鍵是在市場經濟的體制下逐步改善城市的生態(tài)環(huán)境質量,防止生態(tài)環(huán)境質量惡化,因此,對城生態(tài)環(huán)境質量,防止生態(tài)環(huán)境質量惡化,因此,對城市的生態(tài)環(huán)境水平調查評價很有必要。市的生態(tài)環(huán)境水平調查評價很有必要。主成分分析及matlab實現 我們對江蘇省十個城市的生態(tài)環(huán)境狀況進行了調查,得到生我們對江蘇省十個城

15、市的生態(tài)環(huán)境狀況進行了調查,得到生態(tài)環(huán)境指標的指數值,見表態(tài)環(huán)境指標的指數值,見表1?,F對生態(tài)環(huán)境水平分析和評?,F對生態(tài)環(huán)境水平分析和評價價。主成分分析及matlab實現主成分分析及matlab實現利用matlab中的princomp命令實現。具體程序如下x= 0.7883 0 .7391 0.8111 0.6587 0.6543 0.8259 0.8486 0.6834 0.8495 0.7846 0.7633 0.7287 0.7629 0.8552 0.7564 0.7455 0.7800 0.9490 0.8918 0.8954 0.4745 0.5126 0.8810 0.8903

16、0.8288 0.7850 0.8032 0.8862 0.3987 0.3970 0.8246 0.7603 0.6888 0.8977 0.7926 0.7856 0.6509 0.8902 0.6799 0.9877 0.8791 0.8736 0.8183 0.9446 0.9202 0.9263 0.9185 0.9505 0.8620 0.8873 0.9538 0.9257 0.9285 0.9434 0.9154 0.8871 0.9357 0.8760 0.9579 0.9741 0.8785 0.8542 0.8537 0.9027 0.8729 0.8485 0.8473

17、 0.9044 0.8866 0.9035 0.6305 0.6187 0.6313 0.7415 0.6398 0.6142 0.5734 0.8980 0.6186 0.7382 0.8928 0.7831 0.5608 0.8419 0.8464 0.7616 0.8234 0.6384 0.9604 0.8514;主成分分析及matlab實現主成分分析及matlab實現這樣,前三個主成分為 第一主成分貢獻率為43.12,第二主成分貢獻率為29.34,第三主成分貢獻率為11.97,前三個主成分累計貢獻率達84.24。 如果按80 以上的信息量選取新因子,則可以選取前三個新因子。第一新因子

18、z1 包含的信息量最大為43.12,它的主要代表變量為x8(城市文明)、x7(生產效率)、x4 (城市綠化),其權重系數分別為0.4815、0.4236、0.4048,反映了這三個變量與生態(tài)環(huán)境水平密切相關,第二新因子z2主成分分析及matlab實現 包含的信息量次之為29.34,它的主要代表變量為x3(地理結構)、x6(資源配置)、x9 (可持續(xù)性),其權重系數分別為0.5299、0.5273、0.4589,第三新因子 z3包含的信息量為11.97,代表總量為 x9(可持續(xù)性)、 x5(物質還原),權重系數分別為0.5933、0.5664。這些代表變量反映了各自對該新因子作用的大小,它們是生態(tài)環(huán)境系統中最重要的影響因素。 根據前三個主成分得分,用其貢獻率加權,即得十個城市各自的總得分 根據總得分排序,結果見表1。主成分分析及matlab實現n2.主成分回歸 考察進口總額y與三個自變量:國內總產值x1,存儲量x2,總消費量x3之間的關系,現收集數據如下,試用主成分回歸分析方法求進口總額與總產值、存儲量和總消費量的定量關系式.序號 x1 x2 x3 y1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論