第4章-主成分分析_第1頁(yè)
第4章-主成分分析_第2頁(yè)
第4章-主成分分析_第3頁(yè)
第4章-主成分分析_第4頁(yè)
第4章-主成分分析_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四章主成分分析

【教學(xué)目的】通過(guò)本章的教學(xué)應(yīng)使學(xué)生了解主成分分析的基本原理及其作用,掌握主成分分析的方法,能夠應(yīng)用這一方法分析數(shù)據(jù),解決實(shí)際問(wèn)題?!窘虒W(xué)重點(diǎn)】主成分分析的作用及其應(yīng)用,貢獻(xiàn)率,累計(jì)貢獻(xiàn)率的意義及其在實(shí)際應(yīng)用中的作用。主成分的定義

在實(shí)證研究中,為了全面、系統(tǒng)地分析問(wèn)題,都盡可能完整地搜集信息,對(duì)每個(gè)觀測(cè)往往測(cè)量很多指標(biāo),這些指標(biāo)在不同程度上反映了所研究問(wèn)題的某些信息,并且指標(biāo)之間避免不了有一定的相關(guān)性,因而所得的統(tǒng)計(jì)資料反映的信息在一定程度上有重疊。在研究問(wèn)題時(shí),變量太多會(huì)增大計(jì)算量和增加分析問(wèn)題的復(fù)雜性,為了使問(wèn)題簡(jiǎn)化,人們自然希望在進(jìn)行定量分析的過(guò)程中涉及的變量較少,而得到的信息量又較多,主成分分析是解決這一問(wèn)題的理想工具。主成分分析是考察多個(gè)定量(數(shù)值)變量間相關(guān)性的一種多元統(tǒng)計(jì)方法。它是研究如何通過(guò)少數(shù)幾個(gè)主成分來(lái)解釋多變量的方差—協(xié)方差結(jié)構(gòu),其功能在于簡(jiǎn)化原有的變量群。具體地說(shuō),就是設(shè)法將原來(lái)多個(gè)指標(biāo)重新組合成一組新的相互無(wú)關(guān)的綜合指標(biāo),來(lái)代替原來(lái)指標(biāo),同時(shí)根據(jù)實(shí)際需要從中可取幾個(gè)較少的綜合指標(biāo)盡可能多的反映原來(lái)指標(biāo)的信息。這些綜合指標(biāo)是原來(lái)指標(biāo)的線性組合,我們稱之為主成分。主成分分析常被用來(lái)尋找判斷某種事物或現(xiàn)象的綜合指標(biāo),并給綜合指標(biāo)所蘊(yùn)藏的信息以恰當(dāng)解釋,以便更深刻的揭示事物內(nèi)在的規(guī)律。通過(guò)這種方法可以降低數(shù)據(jù)維數(shù),消除原始變量之間的相關(guān)性以便進(jìn)一步利用其他方法對(duì)數(shù)據(jù)進(jìn)行分析。主成分分析的基本思想

各指標(biāo)間既然有一定的相關(guān)性,就必然存在著起支配作用的共同因素,根據(jù)這一點(diǎn),通過(guò)對(duì)原始變量相關(guān)矩陣內(nèi)部結(jié)構(gòu)關(guān)系的研究,找出影響某一過(guò)程的幾個(gè)綜合指標(biāo),使綜合指標(biāo)為原來(lái)變量的線性組合,并使其盡可能多的反映原來(lái)指標(biāo)的信息,綜合指標(biāo)反映的信息量用其方差來(lái)表達(dá),即綜合指標(biāo)的方差越大,表示其包含的信息越多。在所有的線性組合中方差最大的稱為第一主成分,如果第一主成分不足以代表原來(lái)P個(gè)指標(biāo)的信息,再選取第二個(gè)線性組合作為第二主成分,第一主成分已有的信息就不需要再出現(xiàn)在第二主成分中,依次可造出P個(gè)主成分。這些主成分之間不僅不相關(guān),而且它們的方差依次遞減。在解決實(shí)際問(wèn)題時(shí),一般不是取P個(gè)主成分,而是根據(jù)累計(jì)貢獻(xiàn)率的大小取前幾個(gè)最大主成分,既保留了原指標(biāo)大部分的信息,又達(dá)到降維的目的。主成分分析的數(shù)學(xué)模型設(shè)原始變量為x1,x2,…,xp,考慮它們的線性變換yi

=a1ix1+a2ix2+…+apixp(i=1,2,…,p)其中y1,y2,…,yp滿足以下條件:(1)cov(yi,yj)=0,(i≠j);(2)D(y1)≥D(y2)≥…≥D(yp),即y1是x1,x2,…,xp的一切線性組合中方差最大者,y2是方差次大者,依此類推,稱y1為x1,x2,…xp的第一主成分,y2為第二主成分,…,yp為第p個(gè)主成分。主成分的表達(dá)式及其相互關(guān)系(用Z表示主成分)Z1=b11x1+b12x2+…+b1mxmZ2=b21x1+b22x2+…+b2mxm………………Zm=bm1x1+bm2x2+…+bmmxm式中Xi為標(biāo)準(zhǔn)化變量,此表達(dá)式由標(biāo)準(zhǔn)化變量的協(xié)方差矩陣(即相關(guān)矩陣)求特征值及其對(duì)應(yīng)的特征向量,SAS中直接給出的因子負(fù)荷量與此表達(dá)式相對(duì)應(yīng)。Z1=c11x1+c12x2+…+c1mxmZ2=c21x1+c22x2+…+c2mxm……………..Zm=cm1x1+cm2x2+…+cmmxm式中Xi為標(biāo)準(zhǔn)化變量,此表達(dá)式的系數(shù)在上式系數(shù)的基礎(chǔ)上,乘以相應(yīng)主成分的特征值之平方根。在結(jié)合具體問(wèn)題解釋各主成分時(shí),此表達(dá)式優(yōu)于上式,因?yàn)橐蜃虞d荷量就是主成分與變量間的相關(guān)系數(shù),此時(shí),因子載荷量的大小和它前面的正負(fù)號(hào)直接反映了主成分與相應(yīng)變量之間關(guān)系的密切程度和方向。SPSS中給出的因子載荷量與此表達(dá)式相對(duì)應(yīng)。主成分的推導(dǎo)

主成分其實(shí)就是原來(lái)指標(biāo)的一些特殊的線性組合,這些線性組合的系數(shù)就是原指標(biāo)協(xié)方差矩陣特征值所對(duì)應(yīng)的特征向量。設(shè)相關(guān)矩陣為R以及與之同階的單位矩陣為I,原始變量的個(gè)數(shù)為P,特征值為λ,求各特征值的過(guò)程就是求解特征方程:|R-λI|=0,此方程的左邊展開后實(shí)際上是一個(gè)λ的P階多項(xiàng)式,其解由大到小依次排列為λ1≥λ2≥…≥λp>0。各特征值對(duì)應(yīng)的特征向量即為線性組合的系數(shù)。在幾何上這些線性組合正是把原指標(biāo)構(gòu)成的坐標(biāo)系旋轉(zhuǎn)后產(chǎn)生的新坐標(biāo)系,新坐標(biāo)軸代表了具有最大變差的方向,同時(shí)提供了協(xié)方差矩陣的簡(jiǎn)潔表示,主成分分析從幾何上看是尋找p維空間中橢球體的主軸問(wèn)題。主成分的性質(zhì)

1.主成分的協(xié)方差矩陣為對(duì)角陣

2.全部主成分反映原變量的總信息,信息量的多少,用變量的方差來(lái)度量,變量標(biāo)準(zhǔn)化后,每一變量的方差均為1,故方差之和為P。3.主成分與變量間的相關(guān)系數(shù)就是相關(guān)矩陣特征值對(duì)應(yīng)的特征向量與該特征值的平方根的乘積,即表達(dá)式(3)中的cij。主成分分析的步驟

1.將原始數(shù)據(jù)標(biāo)準(zhǔn)化;2.根據(jù)標(biāo)準(zhǔn)化變量求出協(xié)方差矩陣(標(biāo)準(zhǔn)化后協(xié)方差矩陣與相關(guān)矩陣完全一樣);3.求出相關(guān)矩陣的特征值及其對(duì)應(yīng)的特征向量;4.確定主成分,結(jié)合專業(yè)知識(shí)給各主成分所蘊(yùn)藏的信息以恰當(dāng)?shù)慕忉?,并利用它們?lái)判斷樣品的特性。主成分的應(yīng)用

求出了主成分,并結(jié)合專業(yè)知識(shí)給各主成分所蘊(yùn)涵的信息以恰當(dāng)?shù)慕忉?,還可利用其判斷樣品的特性,并與聚類分析及判別分析結(jié)合運(yùn)用。主成分分析的微機(jī)實(shí)現(xiàn)

1主成分分析在SPSS中的實(shí)現(xiàn)在SPSS主菜單中選擇Analyze→DataReduction→Factor,可借用因子分析過(guò)程實(shí)現(xiàn)主成分分析。2主成分分析在SAS中的實(shí)現(xiàn)在SAS主菜單中選擇Solutions→ASSIST→DataAnalysis→Multivariate→PrincipalComponents,可實(shí)現(xiàn)主成分分析。SPSS中主成分分析部分結(jié)果解釋

主成分對(duì)原變量的貢獻(xiàn)率即原變量與各主成分的全相關(guān)系數(shù)的平方和,表達(dá)了某個(gè)變量被提取了多少信息。主成分Zk的方差貢獻(xiàn)率即λk在各特征值總和中所占的比重,此值越大,表明主成分Zk綜合原指標(biāo)信息的能力越強(qiáng)。主成分Z1,Z2,…,Zm的累計(jì)貢獻(xiàn)率即前m個(gè)特征值在特征值總和中所占的比重。累計(jì)貢獻(xiàn)率表示m個(gè)主成分提取了原指標(biāo)的多少信息。在應(yīng)用時(shí),一般取累計(jì)貢獻(xiàn)率為70%-85%或以上所對(duì)應(yīng)的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論