實(shí)驗(yàn)5數(shù)理統(tǒng)計(jì)實(shí)驗(yàn)主成份分析_第1頁(yè)
實(shí)驗(yàn)5數(shù)理統(tǒng)計(jì)實(shí)驗(yàn)主成份分析_第2頁(yè)
實(shí)驗(yàn)5數(shù)理統(tǒng)計(jì)實(shí)驗(yàn)主成份分析_第3頁(yè)
實(shí)驗(yàn)5數(shù)理統(tǒng)計(jì)實(shí)驗(yàn)主成份分析_第4頁(yè)
實(shí)驗(yàn)5數(shù)理統(tǒng)計(jì)實(shí)驗(yàn)主成份分析_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)軟件實(shí)驗(yàn)報(bào)告 實(shí)驗(yàn)序號(hào): 5 日期:2012年6月3日班級(jí)數(shù)理基礎(chǔ)科學(xué)姓名李強(qiáng)學(xué)號(hào)20091050080實(shí)驗(yàn)名稱(chēng)主成份分析問(wèn)題背景描述: 在研究實(shí)際問(wèn)題時(shí),往往需要收集多個(gè)變量。但這樣會(huì)使多個(gè)變量間存在較強(qiáng)的相關(guān)關(guān)系,即這些變量間存在較多的信息重復(fù),直接利用它們進(jìn)行分析,不但模型復(fù)雜,還會(huì)因?yàn)樽兞块g存在多重共線性而引起較大的誤差。為能夠充分利用數(shù)據(jù),通常希望用較少的新變量代替原來(lái)較多的舊變量,同時(shí)要求這些新變量盡可能反映原變量的信息。主成分分析正是解決這類(lèi)問(wèn)題的有效方法。它們能夠提取信息,使變量簡(jiǎn)化降維,從而使問(wèn)題更加簡(jiǎn)單直觀。尤其是在社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)綜合評(píng)價(jià)中主成分分析是常被使用的統(tǒng)計(jì)分析方

2、法。實(shí)驗(yàn)?zāi)康模?. 運(yùn)用主成份分析法對(duì)我國(guó)31個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況進(jìn)行綜合分析和評(píng)價(jià)。2.掌握主成分分析的思想和具體步驟。掌握SPSS實(shí)現(xiàn)主成分分析的具體操作,并對(duì)處理結(jié)果做出解釋。實(shí)驗(yàn)原理與數(shù)學(xué)模型:實(shí)驗(yàn)原理: 主成分分析是設(shè)法將原來(lái)眾多具有一定相關(guān)性(比如P個(gè)指標(biāo)),重新組合成一組新的互相無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)的指標(biāo)。 通常數(shù)學(xué)上的處理就是將原來(lái)P個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。最經(jīng)典的做法就是用F1 (選取的第一個(gè)線性組合,即第一個(gè)綜合指標(biāo))的方差來(lái)表達(dá),即Var(F1)越大,表示F1 包含的信息越多。因此在所有的線性組合中選取的 F1 應(yīng)該是方差最打的,故稱(chēng) F1為第一主

3、成分。如果第一主成分不足以代表原來(lái) P 個(gè)指標(biāo)的信息,再考慮選取F2 即選第二個(gè)線性組合,為了有效地反映原來(lái)信息,F(xiàn)1 已有的信息就不需要再出現(xiàn)再 F2 中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要求 Cov(F1, F2)=0,則稱(chēng) F2 為第二主成分,依此類(lèi)推可以構(gòu)造出第三、第四,第P個(gè)主成分。 數(shù)學(xué)模型: 要求方程組滿足以下條件:1. 每個(gè)主成分系數(shù)平方和為1即:2. 主成分之前互不相關(guān) 即:3. 主成分方差依次遞減,即實(shí)驗(yàn)所用軟件及版本:SPSS 16.0主要內(nèi)容(要點(diǎn)): 對(duì)2007年全國(guó)31個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況的九項(xiàng)指標(biāo)作主成分分析分析模型(數(shù)據(jù)如表1)。這九項(xiàng)指標(biāo)分別為:x1-GDP,x2-

4、年末總?cè)丝冢瑇3-財(cái)政收入,x4-固定資產(chǎn)投資,x5-居民消費(fèi)水平,x6-居民消費(fèi)價(jià)格指數(shù),x7-商品零售價(jià)格指數(shù),x8-職工平均工資,x9-工業(yè)總產(chǎn)值。在分析過(guò)程中,提取因子的方法為“主成分”法,并以數(shù)據(jù)的“相關(guān)陣”為分析矩陣,并且提取2個(gè)因子,采用“最大方差旋轉(zhuǎn)法”進(jìn)行因子旋轉(zhuǎn)。實(shí)驗(yàn)過(guò)程記錄(含:基本步驟、主要程序清單及異常情況記錄等):1、 實(shí)驗(yàn)基本步驟:1.錄入數(shù)據(jù)。2.按照analyze->Data Reduction->Factor的順序打開(kāi)。3.選擇參與因子分析的變量到Variables框。4.單擊“Discriptive”,打開(kāi)Factor Analysis:Des

5、criptives對(duì)話框,選擇Statistics框中的選項(xiàng)Initial solution和Correlation Matrix框中Coefficients選項(xiàng)、Anti-image選項(xiàng)、KMO and Bartletts test of sphericity選項(xiàng),最后選擇Continue;5.單擊“Extraction”, 打開(kāi) Factor Analysis: Extraction對(duì)話框,選擇Analyze框中的Correlation matrix選項(xiàng)、Display框中的Unrotated factor solution選項(xiàng)及Scree plot選項(xiàng)、Extract框中Nunber o

6、f factors選項(xiàng)處填入2,最后選擇Continue;6.單擊”Rotation”,打開(kāi)Factor Analysis: Rotation對(duì)話框,選擇Method框中的Varimax選項(xiàng)、Display框中的Rotated solution選項(xiàng)及Loading plot(s), 最后選擇Continue;7.單擊“Scores”,打開(kāi)Factor Analysis: Scores對(duì)話框,選擇Save as variables選項(xiàng)、Display factor score coefficient matrix選項(xiàng),同時(shí)在Method框中選擇Regression選項(xiàng),最后選擇Continue;

7、8.單擊“Options”,打開(kāi)Factor Analysis: Options對(duì)話框,選擇Missing Values框中的Exclude cases pairwise選項(xiàng)、Coefficient Display Format框中的Sorted by size選項(xiàng),最后選擇Continue;9.單擊“OK”,即可輸出結(jié)果。二、實(shí)驗(yàn)主要現(xiàn)象,清單數(shù)據(jù)及結(jié)果如下:表1 各變量之間的相關(guān)系數(shù)矩陣 表2 KMO和Bartlett檢驗(yàn) 表 3 逆圖像矩陣 表 4公因子方差表 表 5 總方差分解表 表 6(1)、主成分因子荷載矩陣表 表6(2)、旋轉(zhuǎn)后的因子載荷矩陣 圖 1 因子碎石圖 表 7 因子協(xié)方

8、差矩陣 圖 2 旋轉(zhuǎn)后的因子載荷圖 表 8 因子得分系數(shù)矩陣 表 9 因子得分協(xié)方差矩陣 實(shí)驗(yàn)結(jié)果報(bào)告與實(shí)驗(yàn)總結(jié):1、 實(shí)驗(yàn)現(xiàn)象,數(shù)據(jù)及結(jié)果分析:1.由表1知,據(jù)此九個(gè)原始變量之間的相關(guān)系數(shù)矩陣,可見(jiàn)許多變量之間直接的相關(guān)系數(shù)較強(qiáng),其中最高達(dá)到了0.976。而且存在信息上的重疊,可知原始變量之間相關(guān)程度比較高,變量之間影響較大,能夠從中提取公共因子,適合作主成分分析。2.由表2知,Bartlett's Test得出的Sig.=0.000,所以應(yīng)該拒絕零假設(shè)即各變量獨(dú)立的假設(shè),即變量間具有較強(qiáng)的相關(guān)性,同時(shí)Kaiser-Meyer-Olkin統(tǒng)計(jì)量為0.718,大于0.7,說(shuō)明各變量間信

9、息的重疊程度是比較高的,根據(jù)Kaiser給出了KMO度量標(biāo)準(zhǔn)可知原有變量適合進(jìn)行主因子分析。3.表3是逆圖像矩陣。4.在Communalities(公因子方差)中,給出了因子載荷陣的初始公因子方差(Initial)和提取公因子方差(Extraction),提取出兩個(gè)公因子后,計(jì)算出各變量的共同度即各變量中所含原始信息能被提取出的公因子所表示的程度。從上圖可知除居民消費(fèi)水平、商品零售價(jià)格指數(shù)的共同度外,其他四個(gè)變量的共同度都在80%以上,因此在指定條件下提取特征值的變量共同度很大,各個(gè)變量的信息丟失都較少。本次因子提取的總體效果較理想。5.由表5可知,由相關(guān)系數(shù)矩陣計(jì)算得到特征值、方差貢獻(xiàn)率,第

10、一個(gè)因子的特征根值為5.081,對(duì)方差的貢獻(xiàn)率為56.459%左右;第二個(gè)因子的特征根值為2.889,對(duì)方差的貢獻(xiàn)率為32.104%;之后的因子的貢獻(xiàn)率為0.05371。前兩個(gè)因子的累積貢獻(xiàn)率達(dá)到了88.563%,因此,對(duì)第三因子及以后的完全可以忽略不計(jì),用前兩個(gè)因子就可以很好地概括這組數(shù)據(jù)。而第二組數(shù)據(jù)項(xiàng)描述了因子解的情況,可以看到,由于指定提取兩個(gè)因子,兩個(gè)因子共同解釋了原有變量總方差的88.563%。總體上原有變量的信息丟失較少,因子分析效果較理想。又第三組數(shù)據(jù)項(xiàng)描述了最終因子解的情況,表中得因子旋轉(zhuǎn)后累計(jì)方差并沒(méi)有改變,也就是沒(méi)有影響原有變量的共同度,但卻重新分配了各個(gè)因子解釋原有變量

11、的方差,改變了各個(gè)因子的方差貢獻(xiàn),使得因子更易于解釋。6. 由圖1因子碎石圖也可以看出,橫坐標(biāo)為因子數(shù)目,縱坐標(biāo)為特征根。第一個(gè)因子特征根很大,對(duì)解釋原有變量的貢獻(xiàn)率最大;第二個(gè)因子特征根較大,對(duì)解釋原有變量的貢獻(xiàn)率也很大;第三個(gè)及以后的因子特征根都很小,對(duì)解釋原有變量的貢獻(xiàn)率很小。雖然第三個(gè)點(diǎn)是明顯拐點(diǎn),但是第三個(gè)及以后因子對(duì)應(yīng)的特征根都小于1,故選擇拐點(diǎn)前兩個(gè)因子做主要成分。7. 表6(1)是主成分因子荷載矩陣表,其中的每一列表示一個(gè)主成分作為原來(lái)變量線性組合的系數(shù),也就是主成分分析模型中的系數(shù)aij。系數(shù)表示該因子對(duì)變量的影響程度。這里每一列代表一個(gè)主成分作為原來(lái)變量線性組合的系數(shù)(比例

12、)。比如第一主成分作為x1-GDP,x2-年末總?cè)丝冢瑇3-財(cái)政收入,x4-固定資產(chǎn)投資,x5-居民消費(fèi)水平,x6-居民消費(fèi)價(jià)格指數(shù),x7-商品零售價(jià)格指數(shù),x8-職工平均工資,x9-工業(yè)總產(chǎn)值,九個(gè)原先變量的線性組合,系數(shù)(比例)為0.965,0.908,0.907,0.830,0.703,-0.693,0.496,0.538,-0.552。如用x1、x2、x3、x4、x5、x6、x7、x8、x9分別表示原先的9個(gè)變量,而用y1、y2表示新的變量,那么原先9個(gè)變量與第一、第二主成分y1、y2的關(guān)系為:X1= 0.965y1+0.081y2X2= 0.908y1+0.337y2X3= 0.90

13、7y1+0.405y2X4=-0.830y1+0.494y2X5= 0.703y1-0.520y2X6= -0.693y1+0.620y2X7= 0.496y1-0.791y2X8= 0.538y1+0.767y2X9= -0.552y1+0.702y2相關(guān)系數(shù)(絕對(duì)值)越大,主成分對(duì)該變量的代表性也越大。由表6(2)可知旋轉(zhuǎn)后的因子載荷矩陣,利用正交因子模型得出結(jié)果。從上表可見(jiàn),每個(gè)因子只有少數(shù)幾個(gè)指標(biāo)因子載荷較大,因此根據(jù)上述進(jìn)行分類(lèi),將9個(gè)指標(biāo)的因子載荷分成兩類(lèi),列于下表: 公共因子高載荷指標(biāo)x1GDPF1x4固定資產(chǎn)投資x9工業(yè)總產(chǎn)值x8職工平均工資F2x6居民消費(fèi)價(jià)格指數(shù)8.旋轉(zhuǎn)后的

14、因子載荷圖,直觀顯示主成分對(duì)原始9變量的解釋情況.圖中橫軸表示第一個(gè)主成分與原始變量間的相關(guān)系數(shù);縱軸表示第二個(gè)主成分與原始變量之間的相關(guān)系數(shù);每一個(gè)變量對(duì)應(yīng)的主成分載荷就對(duì)應(yīng)坐標(biāo)系中的一個(gè)點(diǎn),比如,GDP變量對(duì)應(yīng)的點(diǎn)是(0.973,0.200)。9.由表 8 因子得分系數(shù)矩陣,可寫(xiě)出因子得分函數(shù):F1=0.227GDP+0.241年末總?cè)丝?0.171財(cái)政收入+0.232固定資產(chǎn)投資+0.007居民消費(fèi)水平+0.014居民消費(fèi)價(jià)格指數(shù)+0.054商品零售價(jià)格指數(shù)-0.08職工平均工資+0.213工業(yè)總產(chǎn)值;F2=-0.01GDP-0.154年末總?cè)丝?0.088財(cái)政收入-0.044固定資產(chǎn)投資+0.227居民消費(fèi)水平-0.254居民消費(fèi)價(jià)格指數(shù)-0.261商品零售價(jià)格指數(shù)+0.279職工平均工資+0.009工業(yè)總產(chǎn)值。10.由表9因子協(xié)方差陣知,各因子不相關(guān)。2、 實(shí)驗(yàn)結(jié)果報(bào)告:由主成分得分系數(shù)矩陣知,我們通過(guò)主成分分析法,將9個(gè)評(píng)價(jià)指標(biāo)轉(zhuǎn)化為具有典型經(jīng)濟(jì)價(jià)值的2個(gè)綜合評(píng)價(jià)指標(biāo)。3、 實(shí)驗(yàn)總結(jié): 通過(guò)本次實(shí)驗(yàn),了解SPSS軟件的運(yùn)行管理

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論