第十三講-主成分分析和因子分析_第1頁(yè)
第十三講-主成分分析和因子分析_第2頁(yè)
第十三講-主成分分析和因子分析_第3頁(yè)
第十三講-主成分分析和因子分析_第4頁(yè)
第十三講-主成分分析和因子分析_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主成分分析和因子分析

PrincipalComponentsAnalysisAndFactoranalysis引言實(shí)際工作中,為了全面系統(tǒng)反映問(wèn)題,往往收集的變量較多,但是經(jīng)常出現(xiàn)變量間具有較強(qiáng)的相關(guān)關(guān)系的情況。直接使用這些變量,會(huì)出現(xiàn)模型相當(dāng)復(fù)雜而無(wú)法得到合理的專業(yè)解釋的情況,更甚至?xí)霈F(xiàn)多重共線性問(wèn)題而引起較大的誤差。因此,引入主成分分析和因子分析。一、主成分分析主成分分析的一般目的:

定義主成分分析:是一種通過(guò)降維技術(shù)把多個(gè)變量化為少數(shù)幾個(gè)主成分(即綜合變量)的統(tǒng)計(jì)分析方法變量的降維主成分的解釋1

概述17個(gè)變量國(guó)民經(jīng)濟(jì)指標(biāo)3個(gè)變量雇主補(bǔ)貼純公共支出股息生產(chǎn)指數(shù)利息凈增庫(kù)存消費(fèi)資料外貿(mào)盈余人口總收入F1總收入變化率F2經(jīng)濟(jì)發(fā)展趨勢(shì)F3國(guó)民經(jīng)濟(jì)指標(biāo)

例子一項(xiàng)十分著名的工作是美國(guó)的統(tǒng)計(jì)學(xué)家斯通(stone)在1947年關(guān)于國(guó)民經(jīng)濟(jì)的研究。主成分分析1

概述年度指標(biāo)外貿(mào)盈余人口股息利息消費(fèi)資料…….….1980120100358646343571981155133441524134479198217612014159143634319831231531618319571661984186134281772856582198521115635124337745719861971652915547863951987166135271322935284198815517723187438573719891271355919529895981990123153161834657166年度指標(biāo)F1F2F319801201003519811551334419821761201419831231531619841861342819852111563519861971652919871661352719881551772319891271355919901231531661.1基本思想數(shù)據(jù)的降維、數(shù)據(jù)的解釋由于多個(gè)變量之間往往存在著一定程度的相關(guān)性。通過(guò)線性組合的方式將原來(lái)眾多具有一定相關(guān)性的指標(biāo),組合成一組新的相互無(wú)關(guān)的綜合指標(biāo)。從中選取幾個(gè)較少的綜合指標(biāo)盡可能多的反映原來(lái)眾多指標(biāo)的信息。在主成分分析適用的場(chǎng)合,用較少的主成分就可以得到較多的信息量。以各個(gè)主成分為分量,就得到一個(gè)更低維的隨機(jī)向量。因此,通過(guò)主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。7X1X2112-2-2-1-120相關(guān)變異X1和X2組成的散點(diǎn)分布在一條直線周圍,X1、X2間存在線性關(guān)系二、數(shù)學(xué)模型及幾何意義8X1X2Z1Z2112-2-2-2-211-1-1-1-12220以該直線為坐標(biāo)軸Z1,其垂直線Z2為另外一個(gè)坐標(biāo)抽,Z1和Z2互相垂直且彼此線性無(wú)關(guān)Z1Z2-2-211-1-1220相關(guān)變異N個(gè)觀測(cè)的差異主要表現(xiàn)在Z1方向上,可以用Z1代替原始變量X1X2研究觀測(cè)對(duì)象的差異。Z1,Z2可用原始變量X1X2的線性組合表示,即Z1為主成分的話,就反映了原始變量指標(biāo)的主要信息設(shè)有m個(gè)原始變量X1……Xm,欲找到新的綜合指標(biāo),Z1……Zm。從數(shù)學(xué)上講,就是尋求一組常數(shù)ai1,ai2….aim,使m個(gè)指標(biāo)的線性組合:在m個(gè)Zm新變量中可找到a個(gè)新變量能解釋原始數(shù)據(jù)的大部分方差所包含的信息。其余的m-a個(gè)新變量對(duì)方差影響很小。這m個(gè)變量為原始變量的主成分。每個(gè)新變量均為原始變量的線性組合。11Z=AX12第一主成分在所有Zi中最大13第二主成分……理論上主成分個(gè)數(shù)最多為m個(gè)(指標(biāo)個(gè)數(shù))實(shí)際工作中確定的主成分個(gè)數(shù)總是小于m個(gè)在所有Zi中為第2大。無(wú)關(guān),互相垂直:數(shù)據(jù)標(biāo)準(zhǔn)化計(jì)算協(xié)方差矩陣求協(xié)方差矩陣特征值和特征向量求成分的累積貢獻(xiàn)率求第n個(gè)主成分的表達(dá)式主成分分析步驟主成分分析五步走三、主成分的求法及性質(zhì)15三、主成分的求法及性質(zhì)16(一)主成分的求法

1.對(duì)各原始指標(biāo)值進(jìn)行標(biāo)準(zhǔn)化為了方便,仍用Xij表示Xij’。17標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣X=182.

求出X1,X2,…,Xm

的相關(guān)矩陣RR=Cov(X)

=19Pearson相關(guān)系數(shù)

標(biāo)準(zhǔn)化后的協(xié)方差協(xié)方差203.

求出矩陣R的全部特征值(eigenvalue)

i,

第i個(gè)主成分的組合系數(shù)ai1,ai2,

,aim滿足方程組:(r11-

i)ai1+r12ai2+

+r1maim=0

r21ai1+(r22-

i)ai2+

+r2maim=0

rm1

ai1+rm2ai2+

+(rmm-

i)aim=0

21(r11-

i)ai1+r12ai2+

+r1maim=0

r21ai1+(r22-

i)ai2+

+r2maim=0

rm1

ai1+rm2ai2+

+(rmm-

i)aim=0

i為矩陣R的第i個(gè)特征值,共有m個(gè)非負(fù)特征值,由大到小的順序排列為:

1≥

2≥

m≥0

i=Var(Zi)224.由以上方程組,求出相應(yīng)于特征值

i的特征向量(eigenvector)(ai1,ai2,

,aim)’23(二)主成分的性質(zhì)

1.各主成分互不相關(guān)

242.主成分的貢獻(xiàn)率與累積貢獻(xiàn)率

(原始指標(biāo)值標(biāo)準(zhǔn)化)(指標(biāo)個(gè)數(shù))貢獻(xiàn)率累積貢獻(xiàn)率253.主成分個(gè)數(shù)的選取(1)前k個(gè)主成分的累積貢獻(xiàn)率>70%。(2)主成分Zi的特征值

i≥

1。(3)結(jié)合專業(yè)知識(shí)判斷。4.因子載荷:用來(lái)了解主成分與原始數(shù)值的關(guān)系(第i主成分Zi與第j原始指標(biāo)Xi間相關(guān)系數(shù))

265.樣品的主成分得分四、SPSS過(guò)程以咱們?nèi)雽W(xué)時(shí)成績(jī)?yōu)槔?,介紹如何利用SPSS軟件實(shí)現(xiàn)主成分分析。專業(yè)政治英語(yǔ)數(shù)學(xué)專業(yè)課總分16559941143321625167127307164656910029816040751222971564377107283..輸出結(jié)果方差貢獻(xiàn)率累積貢獻(xiàn)率主成分系數(shù)矩陣(因子負(fù)荷量)各主成分在變量上的載荷,可得到主成分表達(dá)式。但是變量是標(biāo)準(zhǔn)化后的變量只有第一個(gè)的特征根大于1,只提取了1個(gè)主成分,第1個(gè)主成分方差占總方差的77%31五、主成分分析的應(yīng)用

1.對(duì)原始指標(biāo)進(jìn)行綜合以互不相關(guān)的較少個(gè)綜合指標(biāo)反應(yīng)眾多原始指標(biāo)提供的信息。

主成分回歸(解決多元共線問(wèn)題)。

2.進(jìn)行綜合評(píng)價(jià)

323.進(jìn)行探索性分析利用因子載荷陣,找出影響各綜合指標(biāo)的主要原始指標(biāo)。

4.對(duì)樣品進(jìn)行分類利用主成分得分對(duì)樣品進(jìn)行分類:因子分析部分一、因子分析基本思想從分析多個(gè)可觀測(cè)的原始指標(biāo)的相關(guān)關(guān)系入手,找到支配這種相關(guān)關(guān)系的有限個(gè)不可觀測(cè)的潛在變量。是多元分析中處理降維的一種統(tǒng)計(jì)方法。34

specificfactor

commonfactor35Xi:觀測(cè)指標(biāo)(標(biāo)準(zhǔn)化數(shù)據(jù))Fi:公因子ei:特殊因子aij:因子載荷(計(jì)算關(guān)鍵項(xiàng))36X=AF+e373839三、因子模型的性質(zhì)

矩陣A的統(tǒng)計(jì)意義1.公共度(共性方差)40因子的共性方差412.因子貢獻(xiàn)與因子貢獻(xiàn)率矩陣A第j列元素反映了第j個(gè)公因子Fj對(duì)所有原始指標(biāo)的影響;數(shù)據(jù)標(biāo)準(zhǔn)化后全部原始指標(biāo)的總方差為指標(biāo)個(gè)數(shù)m。Fj對(duì)原始指標(biāo)的方差貢獻(xiàn)率42各因子的貢獻(xiàn)433.因子載荷及因子載荷陣A44四、因子載荷陣的求解及計(jì)算步驟

1.

收集原始數(shù)據(jù)并整理為下表452.對(duì)各指標(biāo)進(jìn)行標(biāo)準(zhǔn)化3.求指標(biāo)間的相關(guān)系數(shù)矩陣RX4.求指標(biāo)間的約相關(guān)系數(shù)矩陣R*

(1)R*的非對(duì)角線元素與相關(guān)矩陣RX的非對(duì)角線元素相等

(2)R*的對(duì)角線元素為共性方差465.求出約關(guān)系數(shù)矩陣R*所有大于零的特征值及相應(yīng)的特征向量6.寫出因子載荷陣A,得出原始指標(biāo)X的公因子表達(dá)式47要求:1.

保留公因子個(gè)數(shù)q小于指標(biāo)個(gè)數(shù)m,原則:

j≥1

前k個(gè)公因子累積貢獻(xiàn)率≥70%2.

各共性方差接近于1。3.

各原始指標(biāo)在同一公因子Fj上的因子載荷之間的差別應(yīng)盡可能大。483.主成分分析與因子分析間的關(guān)系(1)兩者的分析重點(diǎn)不一致

Z=AX主成分為原始變量線性組合,重點(diǎn)在綜合原始變

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論