主成分分析知識(shí)分享_第1頁(yè)
主成分分析知識(shí)分享_第2頁(yè)
主成分分析知識(shí)分享_第3頁(yè)
主成分分析知識(shí)分享_第4頁(yè)
主成分分析知識(shí)分享_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主成分(chéngfèn)分析Principalcomponentanalysis第一頁(yè),共28頁(yè)。主成分(chéngfèn)分析的基本思想主成分(chéngfèn)的計(jì)算主成分(chéngfèn)分析的應(yīng)用第二頁(yè),共28頁(yè)。主成分分析的基本思想主成分分析就是把原有的多個(gè)指標(biāo)轉(zhuǎn)化成少數(shù)幾個(gè)代表性較好的綜合指標(biāo),這少數(shù)幾個(gè)指標(biāo)能夠(nénggòu)反映原來(lái)指標(biāo)大部分的信息(85%以上),并且各個(gè)指標(biāo)之間保持獨(dú)立,避免出現(xiàn)重疊信息。主成分分析主要起著降維和簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的作用。§1基本(jīběn)思想第三頁(yè),共28頁(yè)。主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡(jiǎn)化分析的方法。在社會(huì)經(jīng)濟(jì)的研究中,為了全面系統(tǒng)的分析和研究問(wèn)題,必須考慮許多經(jīng)濟(jì)指標(biāo),這些指標(biāo)能從不同的側(cè)面反映我們所研究的對(duì)象的特征,但在某種程度上存在信息(xìnxī)的重疊,具有一定的相關(guān)性。主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則(yuánzé)下,對(duì)這種多變量的截面數(shù)據(jù)表進(jìn)行最佳綜合簡(jiǎn)化,也就是說(shuō),對(duì)高維變量空間進(jìn)行降維處理。很顯然,識(shí)辨系統(tǒng)在一個(gè)低維空間要比在一個(gè)高維空間容易得多。第四頁(yè),共28頁(yè)?;谙嚓P(guān)系數(shù)矩陣(jǔzhèn)/協(xié)方差矩陣(jǔzhèn)做主成分分析?選擇幾個(gè)主成分?如何解釋主成分所包含的實(shí)際意義?在力求數(shù)據(jù)信息丟失最少的原則下,對(duì)高維的變量空間降維,即研究指標(biāo)體系的少數(shù)幾個(gè)(jǐɡè)線性組合,并且這幾個(gè)(jǐɡè)線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來(lái)指標(biāo)變異方面的信息。這些綜合指標(biāo)就稱為主成分。要討論的問(wèn)題是:第五頁(yè),共28頁(yè)?!?數(shù)學(xué)模型與幾何(jǐhé)解釋假設(shè)我們所討論的實(shí)際問(wèn)題中,有p個(gè)指標(biāo),我們把這p個(gè)指標(biāo)看作p個(gè)隨機(jī)變量,記為X1,X2,…,Xp,主成分分析就是要把這p個(gè)指標(biāo)的問(wèn)題,轉(zhuǎn)變?yōu)橛懻搈個(gè)新的指標(biāo)F1,F(xiàn)2,…,F(xiàn)m(m<p),按照保留(bǎoliú)主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨(dú)立。其中(qízhōng)第六頁(yè),共28頁(yè)。這種由討論多個(gè)指標(biāo)降為少數(shù)幾個(gè)綜合指標(biāo)的過(guò)程在數(shù)學(xué)上就叫做降維。主成分分析通常的做法(zuòfǎ)是,尋求原指標(biāo)的線性組合Fi。滿足如下(rúxià)的條件:主成分之間相互獨(dú)立,即無(wú)重疊(chóngdié)的信息。即主成分的方差依次遞減,重要性依次遞減,即每個(gè)主成分的系數(shù)平方和為1。即第七頁(yè),共28頁(yè)。?????????????????????????????????????主成分(chéngfèn)分析的幾何解釋旋轉(zhuǎn)(xuánzhuǎn)坐標(biāo)軸?旋轉(zhuǎn)變換的目的是為了使得n個(gè)樣本點(diǎn)在F1軸方向上的離散程度最大,即F1的方差最大,變量F1代表了原始數(shù)據(jù)的絕大部分信息,在研究某經(jīng)濟(jì)(jīngjì)問(wèn)題時(shí),即使不考慮變量F2也損失不多的信息。F1與F2除起了濃縮作用外,還具有不相關(guān)性。F1稱為第一主成分,F(xiàn)2稱為第二主成分。第八頁(yè),共28頁(yè)。主成分(chéngfèn)的計(jì)算先討論(tǎolùn)二維情形求第一(dìyī)主成分F1和F2。

我們已經(jīng)把主成分F1和F2的坐標(biāo)原點(diǎn)放在平均值所在處,從而使得F1和F2成為中心化的變量,即F1和F2的樣本均值都為零。第九頁(yè),共28頁(yè)。因此F1可以(kěyǐ)表示為關(guān)鍵是,尋找合適的單位向量,使F1的方差最大。問(wèn)題的答案是:X的協(xié)方差矩陣S的最大特征根所對(duì)應(yīng)的單位特征向量即為。并且就是F1的方差。第十頁(yè),共28頁(yè)。同樣(tóngyàng),F(xiàn)2可以表示為尋找合適的單位向量,使F2與F1獨(dú)立,且使F2的方差(除F1之外)最大。問(wèn)題的答案是:X的協(xié)方差矩陣S的第二大特征根所對(duì)應(yīng)的單位特征向量即為。并且就是F2的方差。第十一頁(yè),共28頁(yè)。其中(qízhōng),aij稱為因子載荷量因子載荷量:主成分與變量間的相關(guān)系數(shù),即:因子載荷量的大小(dàxiǎo)和它前面的正負(fù)號(hào)直接反映了主成分與相應(yīng)變量之間關(guān)系的密切程度和方向。從而可以說(shuō)明各主成分的意義第十二頁(yè),共28頁(yè)。求解主成分(chéngfèn)的步驟:1.求樣本均值和樣本協(xié)方差矩陣S;2.求S的特征(tèzhēng)根求解特征方程,其中I是單位矩陣,解得2個(gè)特征根3.求特征(tèzhēng)根所對(duì)應(yīng)的單位特征(tèzhēng)向量4.寫出主成分的表達(dá)式第十三頁(yè),共28頁(yè)。身高x1(cm)胸圍x2(cm)體重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.865.549.045.551.059.543.553.5例1下表是10位學(xué)生的身高、胸圍、體重的數(shù)據(jù)(shùjù)。對(duì)此進(jìn)行主成分(chéngfèn)分析。第十四頁(yè),共28頁(yè)。1.求樣本(yàngběn)均值和樣本(yàngběn)協(xié)方差矩陣

2.求解協(xié)方差矩陣的特征方程

3.解得三個(gè)特征值

和對(duì)應(yīng)(duìyìng)的單位特征向量:第十五頁(yè),共28頁(yè)。4.由此我們可以(kěyǐ)寫出三個(gè)主成分的表達(dá)式:

5.主成分(chéngfèn)的含義F1表示(biǎoshì)學(xué)生身材大小。F2反映學(xué)生的體形特征第十六頁(yè),共28頁(yè)。三個(gè)主成分(chéngfèn)的方差貢獻(xiàn)率分別為:前兩個(gè)(liǎnɡɡè)主成分的累積方差貢獻(xiàn)率為:

第十七頁(yè),共28頁(yè)。在一般情況下,設(shè)有n個(gè)樣品(yàngpǐn),每個(gè)樣品(yàngpǐn)觀測(cè)p個(gè)指標(biāo),將原始數(shù)據(jù)排成如下矩陣:

多指標(biāo)(zhǐbiāo)求解主成分的步驟:第十八頁(yè),共28頁(yè)。求樣本均值和樣本協(xié)方差矩陣S;2.求解特征方程=0,其中I是單位矩陣,解得p個(gè)特征根3.求所對(duì)應(yīng)的單位特征向量

解得4.寫出主成分(chéngfèn)的表達(dá)式

第十九頁(yè),共28頁(yè)。根據(jù)累積貢獻(xiàn)率的大小取前面m個(gè)(m<p)主成分選取(xuǎnqǔ)原則:

且主成分(chéngfèn)個(gè)數(shù)的選取原則第二十頁(yè),共28頁(yè)。例設(shè)的協(xié)方差矩陣為作主成分(chéngfèn)分析。解:如果從出發(fā)作主成分分析,易求得其特征值和相應(yīng)的正交單位(dānwèi)化特征向量為的兩個(gè)主成分分別為第一主成分的貢獻(xiàn)率為第二十一頁(yè),共28頁(yè)。R型分析(fēnxī)為消除量綱影響,在計(jì)算之前先將原始數(shù)據(jù)標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化變量的S=R,所以用標(biāo)準(zhǔn)化變量進(jìn)行主成分分析相當(dāng)于從原變量的相關(guān)矩陣R出發(fā)進(jìn)行主成分分析。統(tǒng)計(jì)學(xué)上稱這種分析法為R型分析,由協(xié)方差矩陣出發(fā)的主成分分析為S型分析。S型分析和R型分析的結(jié)果是不同(bùtónɡ)的。在一般情況下,若各變量的量綱不同(bùtónɡ),通常采用R型分析。R型分析(fēnxī)的概念第二十二頁(yè),共28頁(yè)。這里我們需要進(jìn)一步強(qiáng)調(diào)的是,從相關(guān)陣求得的主成分與協(xié)差陣求得的主成分一般情況是不相同的。實(shí)際表明,這種差異有時(shí)很大。我們認(rèn)為,如果各指標(biāo)之間的數(shù)量級(jí)相差懸殊,特別是各指標(biāo)有不同的物理量綱的話,較為合理的做法是使用R代替∑。對(duì)于研究經(jīng)濟(jì)問(wèn)題所涉及的變量單位大都不統(tǒng)一,采用R代替∑后,可以看作是用標(biāo)準(zhǔn)化的數(shù)據(jù)做分析,這樣使得主成分有現(xiàn)實(shí)經(jīng)濟(jì)意義(yìyì),不僅便于剖析實(shí)際問(wèn)題,又可以避免突出數(shù)值大的變量。第二十三頁(yè),共28頁(yè)。主成分分析(fēnxī)的步驟1.將原始數(shù)據(jù)標(biāo)準(zhǔn)化;2.根據(jù)標(biāo)準(zhǔn)化變量求出協(xié)方差矩陣(jǔzhèn)(標(biāo)準(zhǔn)化后協(xié)方差矩陣(jǔzhèn)與相關(guān)矩陣(jǔzhèn)完全一樣);3.求出相關(guān)矩陣(jǔzhèn)的特征值,計(jì)算累計(jì)貢獻(xiàn)率,及其對(duì)應(yīng)的特征向量;4.確定主成分,進(jìn)一步分析。對(duì)于(duìyú)X=(X1,X2,…,Xp),設(shè)則標(biāo)準(zhǔn)化變量為第二十四頁(yè),共28頁(yè)。企業(yè)的經(jīng)濟(jì)效益分析某市對(duì)下屬10個(gè)企業(yè)作經(jīng)濟(jì)效益分析,根據(jù)經(jīng)濟(jì)統(tǒng)計(jì)原理,用取得的生產(chǎn)成果(chéngguǒ)與各項(xiàng)成本的消耗作對(duì)比,來(lái)衡量每個(gè)企業(yè)的經(jīng)濟(jì)效益,也就是用下述五個(gè)指標(biāo)來(lái)對(duì)每個(gè)企業(yè)進(jìn)行分析。Z1:固定資產(chǎn)的產(chǎn)值率Z2:凈產(chǎn)值勞動(dòng)生產(chǎn)率Z3:萬(wàn)元產(chǎn)值的流動(dòng)資金占用率Z4:萬(wàn)元產(chǎn)值利潤(rùn)率Z5:萬(wàn)元資金的利潤(rùn)率第二十五頁(yè),共28頁(yè)。1、數(shù)據(jù)(shùjù)標(biāo)準(zhǔn)化2、

求相關(guān)矩陣R3、

計(jì)算R的特征值及累積貢獻(xiàn)率,并計(jì)算相應(yīng)的特征向量經(jīng)過(guò)計(jì)算取2個(gè)主成分(chéngfèn),信息的可靠程度超過(guò)85%第二十六頁(yè),共28頁(yè)。4、分析(fēnxī)意義第j個(gè)企業(yè)(qǐyè)的第一主成分值為各企業(yè)(qǐyè)的第一主成分值如下表0.77-1.8-1.160.105-0.84-1.2053.830.960.33-0.99311.第一主成分F1的意義在F1的表達(dá)式中,只有第三個(gè)指標(biāo)Z3(萬(wàn)元產(chǎn)值流動(dòng)資金占用率)的系數(shù)為負(fù)值(-0.45),而Z5的系數(shù)最大,Z5與Z3是刻畫企業(yè)經(jīng)營(yíng)水平高低的。當(dāng)Z3取值較小,Z5取值較大時(shí),F(xiàn)1就較大。于是F1在此突出地反映了一個(gè)企業(yè)經(jīng)營(yíng)水平的高低。由計(jì)算結(jié)果可見,企業(yè)7的經(jīng)營(yíng)水平最高,企業(yè)2的經(jīng)營(yíng)水平最低。第二十七頁(yè),共28頁(yè)。2.第二主成分(chéngfèn)F2的意義第j個(gè)企業(yè)(qǐyè)的第二主成分值為各企業(yè)的第二主成分(chéngfèn)值如下表-2.070.0927-2.1803-0.70770.4047-0.1223-0.43401.96021.7771.3257F2除了第一系數(shù)為正之外,其他約為負(fù)值,其中Z4系數(shù)絕對(duì)值最大。Z1的意義是投資水平,Z4的意義是銷售水平。如果投資大,銷售水平低,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論