




已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
主分量分析與核主分量分析,第一節(jié)主分量分析第二節(jié)核主分量分析,.,2,第一節(jié)主分量分析,概述主分量分析的基本原理主分量分析的計(jì)算步驟主分量分析主要的作用主分量分析方法應(yīng)用實(shí)例,許多系統(tǒng)是多要素的復(fù)雜系統(tǒng),多變量問題是經(jīng)常會遇到的。變量太多,無疑會增加分析問題的難度與復(fù)雜性,而且在許多實(shí)際問題中,多個變量之間是具有一定的相關(guān)關(guān)系的。因此,人們會很自然地想到,能否在相關(guān)分析的基礎(chǔ)上,用較少的新變量代替原來較多的舊變量,而且使這些較少的新變量盡可能多地保留原來變量所反映的信息?,一、概述,事實(shí)上,這種想法是可以實(shí)現(xiàn)的,主分量分析方法就是綜合處理這種問題的一種強(qiáng)有力的工具。主分量分析是把原來多個變量劃為少數(shù)幾個綜合指標(biāo)的一種統(tǒng)計(jì)分析方法。從數(shù)學(xué)角度來看,這是一種降維處理技術(shù)。,在實(shí)際問題研究中,為了全面、系統(tǒng)地分析問題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標(biāo),在多元統(tǒng)計(jì)分析中也稱為變量。因?yàn)槊總€變量都在不同程度上反映了所研究問題的某些信息,并且指標(biāo)之間彼此有一定的相關(guān)性,因而所得的統(tǒng)計(jì)數(shù)據(jù)反映的信息在一定程度上有重疊。在用統(tǒng)計(jì)方法研究多變量問題時(shí),變量太多會增加計(jì)算量和增加分析問題的復(fù)雜性,人們希望在進(jìn)行定量分析的過程中,涉及的變量較少,得到的信息量較多。主成分分析正是適應(yīng)這一要求產(chǎn)生的,是解決這類題的理想工具。,主成分概念首先由KarlParson在1901年首先提出,當(dāng)時(shí)只是對非隨機(jī)變量來討論的。1933年Hotelling將這個概念推廣到隨機(jī)變量,作了進(jìn)一步發(fā)展。把從混合信號中求出主分量(能量最大的成份)的方法稱為主分量分析(PCA),而次分量(MinorComponents,MCs)與主分量(PrincipalComponents,PCs)相對,它是混合信號中能量最小的成分,被認(rèn)為是不重要的或是噪聲有關(guān)的信號,把確定次分量的方法稱為次分量分析(MCA)。,主分量分析又稱主成分分析,也有稱經(jīng)驗(yàn)正交函數(shù)分解或特征向量分析。分析對象:以網(wǎng)格點(diǎn)為空間點(diǎn)(多個變量)隨時(shí)間變化的樣本。主分量分析與回歸分析、差別分析不同,它是一種分析方法而不是一種預(yù)報(bào)方法。我們希望可以通過某種線性組合的方法使某個變量或者某些變量的解釋方差變得比較大,這些具有較大解釋方差的變量就稱為主分量。,主成分分析是一種經(jīng)典的統(tǒng)計(jì)方法,它對多元統(tǒng)計(jì)觀測數(shù)據(jù)的協(xié)方差結(jié)構(gòu)進(jìn)行分析,以期求出能簡約地表達(dá)這些數(shù)據(jù)依賴關(guān)系的主成分,也是一種特征提取的方法。一般來說,主成分分析的實(shí)施效果與評價(jià)指標(biāo)間的相關(guān)程度高低成正比。評價(jià)指標(biāo)間相關(guān)程度越高,主成分分析的效果就越好。PCA可以用于減少特征空間維數(shù)、確定變量的線性組合、選擇最有用的變量、變量辨識、識別目標(biāo)或是異常值分組等。主分量子空間提供了從高維數(shù)據(jù)到低維數(shù)據(jù)在均方誤差意義下的數(shù)據(jù)壓縮,它能最大程度地減少方差。,在統(tǒng)計(jì)學(xué)中,主成分分析(principalcomponentsanalysis,PCA)是一種簡化數(shù)據(jù)集的技術(shù)。它是一個線性變換。這個變換把數(shù)據(jù)變換到一個新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(biāo)(稱為第一主成分)上,第二大方差在第二個坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集的對方差貢獻(xiàn)最大的特征。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。但是,這也不是一定的,要視具體應(yīng)用而定。,.,10,PCA主要用于數(shù)據(jù)降維,對于一組樣本的特征組成的多維向量,多維向量里的某些元素本身沒有區(qū)分性,比如某個元素在所有的樣本中都為1,或者與1差距不大,那么這個元素本身就沒有區(qū)分性,用它做特征來區(qū)分,貢獻(xiàn)會非常小。所以我們的目的是找那些變化大的元素,即方差大的那些維,而去除掉那些變化不大的維,從而使特征留下的都是最能代表此元素的“精品”,而且計(jì)算量也變小了。對于一個k維的特征來說,相當(dāng)于它的每一維特征與其他維都是正交的(相當(dāng)于在多維坐標(biāo)系中,坐標(biāo)軸都是垂直的),那么我們可以變化這些維的坐標(biāo)系,從而使這個特征在某些維上方差大,而在某些維上方差很小。,例如,一個45度傾斜的橢圓,在第一坐標(biāo)系,如果按照x,y坐標(biāo)來投影,這些點(diǎn)的x和y的屬性很難用于區(qū)分他們,因?yàn)樗麄冊趚,y軸上坐標(biāo)變化的方差都差不多,我們無法根據(jù)這個點(diǎn)的某個x屬性來判斷這個點(diǎn)是哪個,而如果將坐標(biāo)軸旋轉(zhuǎn),以橢圓長軸為x軸,則橢圓在長軸上的分布比較長,方差大,而在短軸上的分布短,方差小,所以可以考慮只保留這些點(diǎn)的長軸屬性,來區(qū)分橢圓上的點(diǎn),這樣,區(qū)分性比x,y軸的方法要好!所以我們的做法就是求得一個k維特征的投影矩陣,這個投影矩陣可以將特征從高維降到低維。投影矩陣也可以叫做變換矩陣。新的低維特征必須每個維都正交,特征向量都是正交的。通過求樣本矩陣的協(xié)方差矩陣,然后求出協(xié)方差矩陣的特征向量,這些特征向量就可以構(gòu)成這個投影矩陣了。特征向量的選擇取決于協(xié)方差矩陣的特征值的大小。,舉一個例子:對于一個訓(xùn)練集,100個樣本,特征是10維,那么它可以建立一個100*10的矩陣,作為樣本。求這個樣本的協(xié)方差矩陣,得到一個10*10的協(xié)方差矩陣,然后求出這個協(xié)方差矩陣的特征值和特征向量,應(yīng)該有10個特征值和特征向量,我們根據(jù)特征值的大小,取前四個特征值所對應(yīng)的特征向量,構(gòu)成一個10*4的矩陣,這個矩陣就是我們要求的特征矩陣,100*10的樣本矩陣乘以這個10*4的特征矩陣,就得到了一個100*4的新的降維之后的樣本矩陣,每個樣本的維數(shù)下降了。,二、主分量分析的基本原理,假定有n個樣本,每個樣本共有p個變量,構(gòu)成一個np階的數(shù)據(jù)矩陣,(1.2.1),當(dāng)p較大時(shí),在p維空間中考察問題比較麻煩。為了克服這一困難,就需要進(jìn)行降維處理,即用較少的幾個綜合指標(biāo)代替原來較多的變量指標(biāo),而且使這些較少的綜合指標(biāo)既能盡量多地反映原來較多變量指標(biāo)所反映的信息,同時(shí)它們之間又是彼此獨(dú)立的。,定義:記x1,x2,xP為原變量指標(biāo),z1,z2,zm(mp)為新變量指標(biāo),(1.2.2),系數(shù)lij的確定原則:zi與zj(ij;i,j=1,2,m)相互無關(guān);,z1是x1,x2,xP的一切線性組合中方差最大者,z2是與z1不相關(guān)的x1,x2,xP的所有線性組合中方差最大者;zm是與z1,z2,zm1都不相關(guān)的x1,x2,xP,的所有線性組合中方差最大者。則新變量指標(biāo)z1,z2,zm分別稱為原變量指標(biāo)x1,x2,xP的第1,第2,第m主成分。,從以上的分析可以看出,主成分分析的實(shí)質(zhì)就是確定原來變量xj(j=1,2,p)在諸主成分zi(i=1,2,m)上的荷載lij(i=1,2,m;j=1,2,p)。從數(shù)學(xué)上可以證明,它們分別是相關(guān)矩陣m個較大的特征值所對應(yīng)的特征向量。,三、主分量分析的計(jì)算步驟,(一)計(jì)算相關(guān)系數(shù)矩陣rij(i,j=1,2,p)為原變量xi與xj的相關(guān)系數(shù),rij=rji,其計(jì)算公式為,(1.3.1),(1.3.2),(二)計(jì)算特征值與特征向量解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小順序排列;,分別求出對應(yīng)于特征值的特征向量,要求=1,即,其中表示向量的第j個分量。,計(jì)算主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率貢獻(xiàn)率,累計(jì)貢獻(xiàn)率,一般取累計(jì)貢獻(xiàn)率達(dá)85%95%的特征值所對應(yīng)的第1、第2、第m(mp)個主成分。,計(jì)算主成分載荷主成分計(jì)算概括以下幾點(diǎn):,(1.3.3),(1.5.4),三、主分量分析主要作用,1主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(mp),而低維的Y空間代替高維的x空間所損失的信息很少。即:使只有一個主成分Y1(即m1)時(shí),這個Y1仍是使用全部X變量(p個)得到的。例如要計(jì)算Y1的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數(shù)全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法。2有時(shí)可通過因子負(fù)荷aij的結(jié)論,弄清X變量間的某些關(guān)系。,3、多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時(shí)便不能畫出幾何圖形,多元統(tǒng)計(jì)研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進(jìn)而還可以對樣本進(jìn)行分類處理,可以由圖形發(fā)現(xiàn)遠(yuǎn)離大多數(shù)樣本點(diǎn)的離群點(diǎn)。,4由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。5用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實(shí)際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報(bào),好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計(jì)算量來選擇量,獲得選擇最佳變量子集合的效果。,四、主分量分析方法應(yīng)用實(shí)例,下面,我們根據(jù)表3.5.1給出的數(shù)據(jù),對某農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng)做主成分分析。,表3.5.1某農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng)各區(qū)域單元的有關(guān)數(shù)據(jù),步驟如下:(1)將表3.5.1中的數(shù)據(jù)作標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理,然后將它們代入公式(3.5.4)計(jì)算相關(guān)系數(shù)矩陣(表3.5.2)。,表3.5.2相關(guān)系數(shù)矩陣,(2)由相關(guān)系數(shù)矩陣計(jì)算特征值,以及各個主成分的貢獻(xiàn)率與累計(jì)貢獻(xiàn)率(表3.5.3)。由表3.5.3可知,第1,第2,第3主成分的累計(jì)貢獻(xiàn)率已高達(dá)86.596%(大于85%),故只需要求出第1、第2、第3主成分z1,z2,z3即可。,表3.5.3特征值及主成分貢獻(xiàn)率,(3)對于特征值=4.6610,=2.0890,=1.0430分別求出其特征向量e1,e2,e3,再用公式(3.5.5)計(jì)算各變量x1,x2,x9在主成分z1,z2,z3上的載荷(表3.5.4)。,表3.5.4主成分載荷,上述計(jì)算過程,可以借助于SPSS或Matlab軟件系統(tǒng)實(shí)現(xiàn)。,(1)第1主成分z1與x1,x5,x6,x7,x9呈現(xiàn)出較強(qiáng)的正相關(guān),與x3呈現(xiàn)出較強(qiáng)的負(fù)相關(guān),而這幾個變量則綜合反映了生態(tài)經(jīng)濟(jì)結(jié)構(gòu)狀況,因此可以認(rèn)為第1主成分z1是生態(tài)經(jīng)濟(jì)結(jié)構(gòu)的代表。(2)第2主成分z2與x2,x4,x5呈現(xiàn)出較強(qiáng)的正相關(guān),與x1呈現(xiàn)出較強(qiáng)的負(fù)相關(guān),其中,除了x1為人口總數(shù)外,x2,x4,x5都反映了人均占有資源量的情況,因此可以認(rèn)為第2主成分z2代表了人均資源量。,分析:,顯然,用3個主成分z1、z2、z3代替原來9個變量(x1,x2,x9)描述農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng),可以使問題更進(jìn)一步簡化、明了。,(3)第3主成分z3與x8呈現(xiàn)出的正相關(guān)程度最高,其次是x6,而與x7呈負(fù)相關(guān),因此可以認(rèn)為第3主成分在一定程度上代表了農(nóng)業(yè)經(jīng)濟(jì)結(jié)構(gòu)。(4)另外,表3.5.4中最后一列(占方差的百分?jǐn)?shù)),在一定程度上反映了3個主成分z1、z2、z3包含原變量(x1,x2,x9)的信息量多少。,.,34,第二節(jié)核主成分分析,概述核主成分的算法核主成分的特性計(jì)算的復(fù)雜性,一、概述,主分量分析法已經(jīng)有許多成功的應(yīng)用,但它的前提是只對服從高斯分布的數(shù)據(jù)特征提取效果較好,這就大大限制了它的應(yīng)用范圍。因?yàn)?,如果?shù)據(jù)呈任意分布,那么不論在原數(shù)據(jù)空間中如何做正交變換,都不可能找到一組最優(yōu)的特征方向,找到的所謂“主分量”也就不能表達(dá)數(shù)據(jù)的特征結(jié)構(gòu)了,而后續(xù)工作建立在這樣的“主分量”表示的新特征向量的基礎(chǔ)上,效果可想而知。PCA對數(shù)據(jù)分布有這樣的苛刻要求,主要由于它是一個線性方法,對于提取數(shù)據(jù)的非線性結(jié)構(gòu)無能為力。顯然,不論在原空間中對PCA方法如何做改進(jìn),都不可能擺脫這個前提的限制,從本質(zhì)上將其變?yōu)橐粋€非線性算法。,核主成分分析是對主成分分析的一種改進(jìn),主成分分析要求處理的數(shù)據(jù)服從高斯分布,因此其應(yīng)用受到大大的限制。針對之一局限性,核主成分分析首先利用非線性變換,將數(shù)據(jù)映射到特征空間,使其近似服從高斯分布,然后在特征空間利用主成分分析,所以,核主成分分析能夠處理較多類型的數(shù)據(jù)。,基于核函數(shù)的非線性主成分分析方法,簡稱為核主成分分析(KPCA),于1998年由Scholkopf首次提出。主要應(yīng)用于模式識別、信號處理等。如果選用適當(dāng)?shù)挠成浜瘮?shù),輸入空間線性不可分問題在特征空間將轉(zhuǎn)化為線性可分問題。這種非線性映射函數(shù)被稱之為核函數(shù)。將核函數(shù)與一般的主成分分析有機(jī)融合而形成的基于核的主成分分析,不僅具有優(yōu)秀的主成分提取性能尤其適合于處理非線性問題,其應(yīng)用前景更為廣泛。,基于核的主分量分析法(KPCA)是對主分量分析法的非線性推廣,這一過程涉及許多重要的思想和技巧,深入理解這些理論和核技巧是進(jìn)行核技巧工作的基礎(chǔ)。核主成分是在高維特征空間F中做通常的線性主成分分析。特征空間是輸入空間非線性變換得到的。在主向量上的連續(xù)投影的等高線在輸入空間變?yōu)榉蔷€性的,在輸入空間畫不出特征向量的原象。對核主成分來說,其關(guān)鍵在于不必自特征空間對經(jīng)過映射后的數(shù)據(jù)直接進(jìn)行計(jì)算。所有的計(jì)算將通過空間中的核函數(shù)來實(shí)現(xiàn)。,二、核主成分的算法,計(jì)算基于核的主成分,又稱為核主成分,步驟如下:(1)計(jì)算矩陣,(2)通過將K進(jìn)行對角化變換,并通過使來歸一化特征向量相對應(yīng)的系數(shù)。(3)提取一個測試點(diǎn)x的主成分(按照相應(yīng)的核K),根據(jù)下式計(jì)算特征向量的映射。,常用的核函數(shù),:,三、核主成分的特性,核主成分,實(shí)際上就是在特
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 春鵬公司團(tuán)購活動方案
- 月餅節(jié)超市活動方案
- 月末存款活動方案
- 未來教育課間活動方案
- 春節(jié)祭掃套餐活動方案
- 曲阜碧桂園活動方案
- 機(jī)關(guān)黨建植樹活動方案
- 機(jī)車兼職活動方案
- 智能環(huán)保參賽活動方案
- 未央公司慶典策劃方案
- 六年級數(shù)學(xué)下聽評課記錄
- 原材料管理制度文件
- 2025新人教版道德與法治一年級下冊《第三單元 幸福一家人》大單元整體教學(xué)設(shè)計(jì)2022課標(biāo)
- 手術(shù)室人員出入管理制度
- 2025年貴州省羅甸縣事業(yè)單位人才引進(jìn)166人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 《如何設(shè)定目標(biāo)》課件
- 房地產(chǎn)業(yè)智慧物業(yè)管理系統(tǒng)實(shí)施方案
- T∕HGJ 12402-2021 石油化工裝置火災(zāi)緊急隔離控制閥設(shè)計(jì)標(biāo)準(zhǔn)
- 辦公用紙項(xiàng)目建設(shè)實(shí)施方案
- 2024版《53天天練單元?dú)w類復(fù)習(xí)》3年級語文下冊(統(tǒng)編RJ)附參考答案
- 辣椒購銷合同范本
評論
0/150
提交評論