主成分分析法的原理應(yīng)用及計(jì)算步驟之歐陽數(shù)創(chuàng)編_第1頁
主成分分析法的原理應(yīng)用及計(jì)算步驟之歐陽數(shù)創(chuàng)編_第2頁
主成分分析法的原理應(yīng)用及計(jì)算步驟之歐陽數(shù)創(chuàng)編_第3頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、、概述時(shí)間:2021.03.02創(chuàng)作:歐陽數(shù)在處理信息時(shí),當(dāng)兩個(gè)變量之間有一定相關(guān)關(guān)系時(shí), 可以解釋為這兩個(gè)變量反映此課題的信息有一定的重疊, 例如,高??蒲袪顩r評(píng)價(jià)中的立項(xiàng)課題數(shù)與項(xiàng)目經(jīng)費(fèi)、經(jīng) 費(fèi)支出等之間會(huì)存在較高的相關(guān)性;學(xué)生綜合評(píng)價(jià)研究中 的專業(yè)基礎(chǔ)課成績與專業(yè)課成績、獲獎(jiǎng)學(xué)金次數(shù)等之間也 會(huì)存在較高的相關(guān)性。而變量之間信息的高度重疊和高度 相關(guān)會(huì)給統(tǒng)計(jì)方法的應(yīng)用帶來許多障礙。為了解決這些問題,最簡單和最直接的解決方案是削 減變量的個(gè)數(shù),但這必然又會(huì)導(dǎo)致信息丟失和信息不完整 等問題的產(chǎn)生。為此,人們希望探索一種更為有效的解決 方法,它既能大大減少參與數(shù)據(jù)建模的變量個(gè)數(shù),同時(shí)也 不會(huì)造成

2、信息的大量丟失。主成分分析正式這樣一種能夠 有效降低變量維數(shù),并已得到廣泛應(yīng)用的分析方法。主成分分析以最少的信息丟失為前提,將眾多的原有 變量綜合成較少幾個(gè)綜合指標(biāo),通常綜合指標(biāo)(主成分) 有以下幾個(gè)特點(diǎn):主成分個(gè)數(shù)遠(yuǎn)遠(yuǎn)少于原有變量的個(gè)數(shù)原有變量綜合成少數(shù)幾個(gè)因子之后,因子將可以替代 原有變量參與數(shù)據(jù)建模,這將大大減少分析過程中的計(jì)算 工作量。主成分能夠反映原有變量的絕大部分信息因子并不是原有變量的簡單取舍,而是原有變量重組 后的結(jié)果,因此不會(huì)造成原有變量信息的大量丟失,并能 夠代表原有變量的絕大部分信息。主成分之間應(yīng)該互不相關(guān)通過主成分分析得出的新的綜合指標(biāo)(主成分)之間 互不相關(guān),因子參與

3、數(shù)據(jù)建模能夠有效地解決變量信息重 疊、多重共線性等給分析應(yīng)用帶來的諸多問題。主成分具有命名解釋性總之,主成分分析法是研究如何以最少的信息丟失將眾多 原有變量濃縮成少數(shù)幾個(gè)因子,如何使因子具有一定的命 名解釋性的多元統(tǒng)計(jì)分析方法。二、基本原理主成分分析是數(shù)學(xué)上對(duì)數(shù)據(jù)降維的一-種方法。其基本思 想是設(shè)法將原來眾多的具有一定相關(guān)性的指標(biāo)XI, X2,,XP (比如p個(gè)指標(biāo)),重新組合成一組較少個(gè)數(shù) 的互不相關(guān)的綜合指標(biāo)Fm來代替原來指標(biāo)。那么綜合指標(biāo) 應(yīng)該如何去提取,使其既能最大程度的反映原變量Xp所代 表的信息,又能保證新指標(biāo)之間保持相互無關(guān)(信息不重 疊)。設(shè)F1表示原變量的第一個(gè)線性組合所形成

4、的主成分指標(biāo),即 g ,由數(shù)學(xué)知識(shí)可知,每一個(gè)主成分所提取的信息量可用其方差來度量,其方差V吐(F1) 越大,表示F1包含的信息越多。常常希望第一主成分F1 所含的信息量最大,因此在所有的線性組合屮選取的F1應(yīng) 該是XI, X2,,XP的所有線性組合屮方差最大的,故稱 F1為第一主成分。如果第一主成分不足以代表原來p個(gè)指 標(biāo)的信息,再考慮選取第二個(gè)主成分指標(biāo)F2,為有效地反 映原信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2屮,即F2 與F1要保持獨(dú)立、不相關(guān),用數(shù)學(xué)語言表達(dá)就是其協(xié)方差 Cov(Fl, F2)=0,所以F2是與Fl不相關(guān)的XI, X2,, XP的所有線性組合中方差最大的,故稱F2為

5、第二主成 分,依此類推構(gòu)造出的Fl、F2、Fm為原變量指標(biāo) XI、X2XP第一、第二、第m個(gè)主成分。根據(jù)以上分析得知:(1) Fi與Fj互不相關(guān),即Cov(Fi , Fj)二0,并有 Var(Fi)-ai, Sai,其中工為X的協(xié)方差陣(2) F1是XI, X2,,Xp的一切線性組合(系數(shù)滿足 上述要求)中方差最大的,即Fm是與F1 , F2,Fm-1都不相關(guān)的XI, X2,,XP的所有線性 組合中方差最大者。Fl, F2,,F(xiàn)m (mWp)為構(gòu)造的新變量指標(biāo),即原變 量指標(biāo)的第一、第二、第m個(gè)主成分。歐陽數(shù)創(chuàng)編由以上分析可見,主成分分析法的主要任務(wù)有兩點(diǎn):(1)確定各主成分Fi (i二1,

6、2,,m)關(guān)于原變量Xj (j二1 , 2 ,,p )的表達(dá)式,即系數(shù)兇(i二1,2, ,m; j二1, 2 ,,p) o從數(shù)學(xué)上可以證明,原變 量協(xié)方差矩陣的特征根是主成分的方差,所以前m個(gè)較大 特征根就代表前m個(gè)較大的主成分方差值;原變量協(xié)方差 矩陣前m個(gè)較大的特征值冋(這樣選取才能保證主成分的 方差依次最大)所對(duì)應(yīng)的特征向量就是相應(yīng)主成分Fi表達(dá) 式的系數(shù)冋,為了加以限制,系數(shù)目啟用的是因?qū)?yīng)的單位 化的特征向量,即有EHJ二1。(2)計(jì)算主成分載荷,主成分載荷是反映主成分Fi與原 變量 Xj 之間的相互關(guān)聯(lián)程度:三、主成分分析法的計(jì)算步驟主成分分析的具體步驟如下:(1)計(jì)算協(xié)方差矩陣計(jì)

7、算樣品數(shù)據(jù)的協(xié)方差矩陣:工二(sij)p'p,其中 i, j二 1, 2,,p(2)求出E的特征值冃及相應(yīng)的正交化單位特征向量包工的前m個(gè)較大的特征值II3123 lm>0,就是前m個(gè)主成 分對(duì)應(yīng)的方差,因?qū)?yīng)的單位特征向量岡就是主成分Fi的關(guān)于原變量的系數(shù),則原變量的第i個(gè)主成分Fi為:Fi 二 EX主成分的方差(信息)貢獻(xiàn)率用來反映信息量的大小,0為:(3)選擇主成分最終要選擇幾個(gè)主成分,即F1,F2,Fm屮m的確定是通過方差(信息)累計(jì)貢獻(xiàn)率G (m)來確定當(dāng)累積貢獻(xiàn)率大于85%時(shí),就認(rèn)為能足夠反映原來變量的信息了,對(duì)應(yīng)的m就是抽取的前m個(gè)主成分。(4)計(jì)算主成分載荷主成分

8、載荷是反映主成分Fi與原變量Xj之間的相互關(guān)聯(lián)程度,原來變量Xj (j二1, 2 ,,p)在諸主成分Fi(i二 1, 2,,m)上的荷載 lij ( i二 1, 2 ,,m;j二 1, 2 ,,p) o :在SPSS軟件中主成分分析后的分析結(jié)果中,“成分矩陣”反應(yīng)的就是主成分載荷矩陣。(5)計(jì)算主成分得分計(jì)算樣品在m個(gè)主成分上的得分:i 1, 2, *9 m實(shí)際應(yīng)用時(shí),指標(biāo)的量綱往往不同,所以在主成分計(jì)算Z前應(yīng)先消除量綱的影響。消除數(shù)據(jù)的量綱有很多方法,常用方法是將原始數(shù)據(jù)標(biāo)準(zhǔn)化,即做如下數(shù)據(jù)變換:其中:國 , I X I根據(jù)數(shù)學(xué)公式知道,任何隨機(jī)變量對(duì)其作標(biāo)準(zhǔn)化變換 后,其協(xié)方差與其相關(guān)系數(shù)

9、是一回事,即標(biāo)準(zhǔn)化后的變量 協(xié)方差矩陣就是其相關(guān)系數(shù)矩陣。另一方面,根據(jù)協(xié)方 差的公式可以推得標(biāo)準(zhǔn)化后的協(xié)方差就是原變量的相關(guān)系 數(shù),亦即,標(biāo)準(zhǔn)化后的變量的協(xié)方差矩陣就是原變量的相 關(guān)系數(shù)矩陣。也就是說,在標(biāo)準(zhǔn)化前后變量的相關(guān)系數(shù)矩 陣不變化。根據(jù)以上論述,為消除量綱的影響,將變量標(biāo)準(zhǔn)化后再 計(jì)算其協(xié)方差矩陣,就是直接計(jì)算原變量的相關(guān)系數(shù)矩 陣,所以主成分分析的實(shí)際常用計(jì)算步驟是:計(jì)算相關(guān)系數(shù)矩陣求岀相關(guān)系數(shù)矩陣的特征值妝及相應(yīng)的正交化單位特征 向量妝選擇主成分計(jì)算主成分得分總結(jié):原指標(biāo)相關(guān)系數(shù)矩陣相應(yīng)的特征值li為主成分 方差的貢獻(xiàn),方差的貢獻(xiàn)率為 叵,目越大,說明相 應(yīng)的主成分反映綜合信息

10、的能力越強(qiáng),可根據(jù)11的大小來 提取主成分。每一個(gè)主成分的組合系數(shù)(原變量在該主成 分上的載荷)因就是相應(yīng)特征值11所對(duì)應(yīng)的單位特征向量。主成分分析法的計(jì)算步1、原始指標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)化采集P維隨機(jī)向量X =(xl,X2,.,Xp)T)n 個(gè)樣品 xi =(xil, xi2,. . . , xip)T , i二 1,2,,n,n>p,構(gòu)造樣本陣,對(duì)樣本陣元進(jìn)行如下標(biāo)準(zhǔn)化變換:E J Xij2其中叼n問二 )2一n-1,得標(biāo)準(zhǔn)化陣Zo2、對(duì)標(biāo)準(zhǔn)化陣Z求相關(guān)系數(shù)矩陣3、解樣本相關(guān)矩陣R的特征方程入如1 = 0得p個(gè) 特征根,確定主成分按!普n °-85確定m值,使信息的利用率達(dá)85%以

11、上,對(duì)每個(gè)入j, j二解方程組Rb二入jb 得單位特征向量巧。4、將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主成分U1稱為第一主成分,U2稱為第二主成分, Up稱為第p 主成分。5、對(duì)m個(gè)主成分進(jìn)行綜合評(píng)價(jià)對(duì)m個(gè)主成分進(jìn)行加權(quán)求和,即得最終評(píng)價(jià)值,權(quán)數(shù)為 每個(gè)主成分的方差貢獻(xiàn)率。一、主成分分析基本原理概念:主成分分析是把原來多個(gè)變量劃為少數(shù)幾個(gè)綜 合指標(biāo)的一種統(tǒng)計(jì)分析方法。從數(shù)學(xué)角度來看,這是一種 降維處理技術(shù)。思路:一個(gè)研究對(duì)象,往往是多要素的復(fù)雜系統(tǒng)。變 量太多無疑會(huì)增加分析問題的難度和復(fù)雜性,利用原變量 之間的相關(guān)關(guān)系,用較少的新變量代替原來較多的變量, 并使這些少數(shù)變量盡可能多的保留原來較多的變量所反

12、應(yīng) 的信息,這樣問題就簡單化了。原理:假定有n個(gè)樣本,每個(gè)樣本共有p個(gè)變量,構(gòu) 成一個(gè)nXp階的數(shù)據(jù)矩陣,記原變量指標(biāo)為xl, x2,,xp,設(shè)它們降維處理后 的綜合指標(biāo),即新變量為zl, z2, z3,,zm(mWp), 則 系數(shù)lij的確定原則:zi與zj (iHj; i, j二1, 2,,m)相互無關(guān);zl是xl, x2,,xP的一切線性組合中方差最大者, z2是與zl不相關(guān)的xl, x2,,xP的所有線性組合中方 差最大者;zm是與zl, z2, , zm1都不相關(guān)的xl, x2,xP,的所有線性組合中方差最大者。新變量指標(biāo)zl, z2,,zm分別稱為原變量指標(biāo)xl, x2,,xP的第

13、1,第2,,第m主成分。從以上的分析可以看出,主成分分析的實(shí)質(zhì)就是確定 原來變量xj (j=l, 2 ,,p)在諸主成分zi (i二1, 2,,m)上的荷載 lij ( i二 1, 2,,m; j二 1,2,,p) o從數(shù)學(xué)上可以證明,它們分別是相關(guān)矩陣m個(gè)較大的特征 值所對(duì)應(yīng)的特征向量。二、主成分分析的計(jì)算步驟1、計(jì)算相關(guān)系數(shù)矩陣rij (i, j二1, 2,,p)為原變量xi與xj的相關(guān)系了 數(shù),nj=rji,2、計(jì)算特征冇解特征方私 ,(Jacobi )求出特征值,并便貝孜入小順廳排列;分別求出對(duì)應(yīng)于特炷值的特征向因要求二1,即其牛目表示I即量的第j個(gè)分量。3、計(jì)算主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)

14、率貢獻(xiàn)率:累計(jì)貢獻(xiàn)率:一般取累計(jì)貢獻(xiàn)率達(dá)85%-95%的特征嚴(yán)所對(duì)應(yīng)的第1、第2、第m (mWp)個(gè)主成分。4、計(jì)算主成分載荷5、各主成分得分三、主成分分析法在SPSS中的操作1、指標(biāo)數(shù)據(jù)選取、收集與錄入(表1)2、Analyze *Data Reduction -*-Factor Analysis, 彈出 Factor Analysis 對(duì)話框:3、把指標(biāo)數(shù)據(jù)選入 Variables 框,Descriptives: Correlation Matrix 框組中選中 Coefficients,然后點(diǎn)擊 Continue,返回 Factor Analysis 對(duì)話框,單擊 OK。注意:SPSS在

15、調(diào)用Factor Analyze過程進(jìn)行分析時(shí), SPSS會(huì)自動(dòng)對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,所以在得到計(jì)算 結(jié)果后的變量都是指經(jīng)過標(biāo)準(zhǔn)化處理后的變量,但SPSS并 不直接給出標(biāo)準(zhǔn)化后的數(shù)據(jù),如需要得到標(biāo)準(zhǔn)化數(shù)據(jù),則 需調(diào)用Descriptives過程進(jìn)行計(jì)算。從表3可知GDP與工業(yè)增加值,第三產(chǎn)業(yè)增加值、固 定資產(chǎn)投資、基本建設(shè)投資、社會(huì)消費(fèi)品零售總額、地方 財(cái)政收入這幾個(gè)指標(biāo)存在著極其顯著的關(guān)系,與海關(guān)出口 總額存在著顯著關(guān)系??梢娫S多變量Z間直接的相關(guān)性比 較強(qiáng),證明他們存在信息上的重疊。主成分個(gè)數(shù)提取原則為主成分對(duì)應(yīng)的特征值大于1的前 m個(gè)主成分。特征值在某種程度上可以被看成是表示主成分

16、影響力度大小的指標(biāo),如果特征值小于1,說明該主成分的 解釋力度還不如直接引入一個(gè)原變量的平均解釋力度大, 因此一般可以用特征值大于1作為納入標(biāo)準(zhǔn)。通過表4(方 差分解主成分提取分析)可知,提取2個(gè)主成分,即m二2, 從表5(初始因子載荷矩陣)可知GDP、工業(yè)增加值、第三 產(chǎn)業(yè)增加值、固定資產(chǎn)投資、基本建設(shè)投資、社會(huì)消費(fèi)品 零售總額、海關(guān)出口總額、地方財(cái)政收入在第一主成分上 有較高載荷,說明第一主成分基本反映了這些指標(biāo)的信息; 人均GDP和農(nóng)業(yè)增加值指標(biāo)在第二主成分上有較高載荷, 說明第二主成分基本反映了人均GDP和農(nóng)業(yè)增加值兩個(gè)指 標(biāo)的信息。所以提取兩個(gè)主成分是可以基本反映全部指標(biāo) 的信息,所

17、以決定用兩個(gè)新變量來代替原來的十個(gè)變量。 但這兩個(gè)新變量的表達(dá)還不能從輸岀窗口中直接得到,因 為“Component Matrix”是指初始因了載荷矩陣,每一個(gè) 載荷量表示主成分與對(duì)應(yīng)變量的相關(guān)系數(shù)。用表5(主成分載荷矩陣)中的數(shù)據(jù)除以主成分相對(duì)應(yīng) 的特征值開平方根便得到兩個(gè)主成分中每個(gè)指標(biāo)所對(duì)應(yīng)的 系數(shù)。將初始因子載荷矩陣中的兩列數(shù)據(jù)輸入(可用復(fù)制 粘貼的方法)到數(shù)據(jù)編輯窗口(為變量Bl、B2),然后利 用 uTransform-*Compute Variable” , 在Compute Variable對(duì)話框中輸入“Al二B1/SQR(7. 22) ” 注:第二主 成分SQR后的括號(hào)屮填1. 235,即可得到特征向量A1 (見表 6)o同理,可得到特征向量A2。將得到的特征向量與標(biāo)準(zhǔn) 化后的數(shù)據(jù)相乘,然后就可以得出主成分表達(dá)式注:因本 例只是為了說明如何在SPSS進(jìn)行主成分分析,故在此不對(duì) 提取的主成分進(jìn)行命名,有興趣的讀者可自行命名。標(biāo)準(zhǔn)化:通過AnalyzeDescriptiveStatistics-*Descriptives 對(duì)話框來實(shí)現(xiàn):彈出 Descriptives 對(duì)話框后,把XlX10選入Variables 框, 在Save standardized values as variables 前的方框打 上鉤,點(diǎn)擊“OK”,經(jīng)標(biāo)準(zhǔn)化的數(shù)據(jù)會(huì)自動(dòng)填

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論