主成分分析方法及matlab運(yùn)用解釋_第1頁
主成分分析方法及matlab運(yùn)用解釋_第2頁
主成分分析方法及matlab運(yùn)用解釋_第3頁
主成分分析方法及matlab運(yùn)用解釋_第4頁
主成分分析方法及matlab運(yùn)用解釋_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、本文格式為Word版,下載可任意編輯 主成分分析方法及matlab運(yùn)用解釋 主成分分析方法 在大量實(shí)際問題中,多個(gè)變量之間是具有一定的相關(guān)關(guān)系的。因此,我們就會(huì)很自然地想到,能否在各個(gè)變量之間相關(guān)關(guān)系研究的基礎(chǔ)上,用較少的新變量代替原來較多的變量,而且使這些較少的新變量盡可能多地保存原來較多的變量所反映的信息事實(shí)上,這種想法是可以實(shí)現(xiàn)的,這里介紹的主成分分析方法就是綜合處理這種問題的一種強(qiáng)有力的方法。 一、主成分分析的基本原理 主成分分析是把原來多個(gè)變量化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法,從數(shù)學(xué)角度來看,這是一種降維處理技術(shù)。假定有n 個(gè)地理樣本,每個(gè)樣本共有p 個(gè)變量描述,這樣就構(gòu)成了一

2、個(gè)np 階的地理數(shù)據(jù)矩陣: 111212122212p p n n np x x x x x x X x x x ?=?(1) 如何從這么多變量的數(shù)據(jù)中抓住地理事物的內(nèi)在規(guī)律性呢要解決這一問題,自然要在p 維空間中加以考察,這是對(duì)比麻煩的。為了戰(zhàn)勝這一困難,就需要進(jìn)行降維處理,即用較少的幾個(gè)綜合指標(biāo)來代替原來較多的變量指標(biāo),而且使這些較少的綜合指標(biāo)既能盡量多地反映原來較多指標(biāo)所反映的信息,同時(shí)它們之間又是彼此獨(dú)立的。那么,這些綜合指標(biāo)(即新變量)應(yīng)如何選取呢顯然,其最簡(jiǎn)單的形式就是取原來變量指標(biāo)的線性組合,適當(dāng)調(diào)整組合系數(shù),使新的變量指標(biāo)之間相互獨(dú)立且代表性最好。 假如記原來的變量指標(biāo)為x 1

3、,x 2,x p ,它們的綜合指標(biāo)新變量指標(biāo)為z 1,z 2,zm (mp)。則 11111221221122221122, ,p p p p m m m mp p z l x l x l x z l x l x l x z l x l x l x =+?=+?=+?(2) 在(2)式中,系數(shù)l ij 由以下原則來決定: (1)z i 與z j (ij;i ,j=1,2,m)相互無關(guān); (2)z 1是x 1,x 2,x p 的一切線性組合中方差最大者;z 2是與z 1不相關(guān)的x 1,x 2,x p 的所有線性組合中方差最大者;z m 是與z 1,z 2,z m-1都不相關(guān)的x 1,x 2,x

4、p 的所有線性組合中方差最大者。 這樣決定的新變量指標(biāo)z 1,z 2,zm 分別稱為原變量指標(biāo)x 1,x 2,x p 的第一,其次,第m 主成分。其中,z 1在總方差中占的比例最大,z 2,z 3,z m 的方差依次遞減。在實(shí)際問題的分析中,常挑揀前幾個(gè)最大的主成分,這樣既減少了變量的數(shù)目,又抓住了主要矛盾,簡(jiǎn)化了變量之間的關(guān)系。 從以上分析可以看出,找主成分就是確定原來變量x j (j=1,2,p)在諸主成分z i (i=1,2,m)上的載荷l ij (i=1,2,m ;j=1,2,p),從數(shù)學(xué)上簡(jiǎn)單知道,它們分別是x 1,x 2,x p 的相關(guān)矩陣的m 個(gè)較大的特征值所對(duì)應(yīng)的特征向量。 二

5、、主成分分析的計(jì)算步驟 通過上述主成分分析的基本原理的介紹,我們可以把主成分分析計(jì)算步驟歸納如下: (1) 計(jì)算相關(guān)系數(shù)矩陣 11 121212221 2 p p p p pp r r r r r r R r r r ?=? ?(3) 在公式(3)中,r ij (i ,j=1,2,p)為原來變量x i 與x j 的相關(guān)系數(shù),其計(jì)算公式為 由于R 是實(shí)對(duì)稱矩陣(即r ij =r ji ),所以只需計(jì)算其上三角元素或下三角元素即可。 (2)計(jì)算特征值與特征向量 首先解特征方程I -R =0求出特征值i (i=1,2,p),并使其按大小 順序排列,即12,p 0;然后分別求出對(duì)應(yīng)于特征值i 的特征向

6、量e i (i=1,2,p)。 (2) 計(jì)算主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率 主成分i z 貢獻(xiàn)率:1/(1,2,)p i k k r i p =,累計(jì)貢獻(xiàn)率:11/p m k k k k =。 一般取累計(jì)貢獻(xiàn)率達(dá)85-95的特征值1,2,m 所對(duì)應(yīng)的第一,其次, 第m (mp)個(gè)主成分。 (3) 計(jì)算主成分載荷 (,)(,1,2, ,)k i ki p z x i k p =(5) 由此可以進(jìn)一步計(jì)算主成分得分: 1112121 22212m m n n nm z z z z z z Z z z z ?=?(6) matlab:princomp 解釋 主成分分析函數(shù): coeff,score,let

7、ent=princomp(x); 供獻(xiàn)率:每一維數(shù)據(jù)對(duì)于區(qū)分全部數(shù)據(jù)的供獻(xiàn),供獻(xiàn)率最大的顯然是主成分,其次大的是次主成分 coef ,score ,latent ,t2 = princomp (x ); x :為要輸入的n 維原始數(shù)據(jù)。帶入這個(gè)matlab 自帶函數(shù),將會(huì)生成新的n 維加工后的數(shù)據(jù)(即score )。此數(shù)據(jù)與之前的n 維原始數(shù)據(jù)一一對(duì)應(yīng)。 score:生成的n維加工后的數(shù)據(jù)存在score里。它是對(duì)原始數(shù)據(jù)進(jìn)行的解析,進(jìn)而在新的坐標(biāo)系下獲得的數(shù)據(jù)。他將這n維數(shù)據(jù)按供獻(xiàn)率由大到小分列。(即在改變坐標(biāo)系的景象下,又對(duì)n維數(shù)據(jù)排序) latent:是一維列向量,每一個(gè)數(shù)據(jù)是對(duì)應(yīng)score里響應(yīng)維的供獻(xiàn)率,由于數(shù)占領(lǐng)n維所以列向量有n個(gè)數(shù)據(jù)。由大到小分列(由于score也是按供獻(xiàn)率由大到小分列)。 coef:是系數(shù)矩陣。經(jīng)由過程cofe可以知道x是如何轉(zhuǎn)換成score的。但這個(gè)轉(zhuǎn)換不是單純的轉(zhuǎn)換,務(wù)必使用以下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論