因子分析在STATA中實(shí)現(xiàn)和案例_第1頁(yè)
因子分析在STATA中實(shí)現(xiàn)和案例_第2頁(yè)
因子分析在STATA中實(shí)現(xiàn)和案例_第3頁(yè)
因子分析在STATA中實(shí)現(xiàn)和案例_第4頁(yè)
因子分析在STATA中實(shí)現(xiàn)和案例_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、.wd.wd.wd.第13章 因子分析因子分析始于1904年Chars Spearman對(duì)學(xué)生成績(jī)的分析,在經(jīng)濟(jì)領(lǐng)域有著極為廣泛的用途。在多個(gè)變量的變化過(guò)程中,除了一些特定因素之外,還受到一些共同因素的影響。因此,每個(gè)變量可以拆分成兩局部,一是共同因素,二是特殊因素。這些共同因素稱為公因子,特殊因素稱為特殊因子。因子分析即是提出多個(gè)變量的公共影響因子的一種多元統(tǒng)計(jì)方法,它是主成分分析的推廣。因子分析主要解決兩類問(wèn)題:一是尋求 基本構(gòu)造,簡(jiǎn)化觀察系統(tǒng)。給定一組變量或觀察數(shù)據(jù),是否存在一個(gè)子集,特別是一個(gè)加權(quán)子集,來(lái)解釋整個(gè)問(wèn)題,即將為數(shù)眾多的變量減少為幾個(gè)新的因子,以再現(xiàn)它們之間的內(nèi)在聯(lián)系。二是

2、用于分類,將變量或樣本進(jìn)展分類,根據(jù)因子得分值,在因子軸所構(gòu)成的空間中進(jìn)展分類處理。p個(gè)變量X的因子模型表達(dá)式為:f稱為公因子,稱為因子載荷。X的相關(guān)系數(shù)矩陣分解為:對(duì)于未旋轉(zhuǎn)的因子,。稱為特殊度,即每個(gè)變量中不屬于共性的局部。13.1 因子估計(jì)Stata可以通過(guò)變量進(jìn)展因子分析,也可以通過(guò)矩陣進(jìn)展。命令為factor或factormat。webuse bg2,cleardescribefactor bg2cost1-bg2cost6factor bg2cost1-bg2cost6, factors(2)* pf 主因子方法,用復(fù)相關(guān)系數(shù)的平方作為因子載荷的估計(jì)量(默認(rèn)選項(xiàng))factor bg

3、2cost1-bg2cost6, factors(2) pcf* pcf 主成分因子,假定共同度1factor bg2cost1-bg2cost6, factors(2) ipf* ipf 迭代主因子,重復(fù)估計(jì)共同度f(wàn)actor bg2cost1-bg2cost6, factors(2) ml* ml 極大似然因子,假定變量至少3個(gè)服從多元正態(tài)分布,對(duì)偏相關(guān)矩陣的行列式進(jìn)展最優(yōu)化求解,等價(jià)于Rao的典型因子方法13.2 預(yù)測(cè)Stata可以通過(guò)predict預(yù)測(cè)變量得分、擬合值和殘差等。webuse bg2,clearfactor bg2cost1-bg2cost6predict f1 f2 *

4、 factor1 factor2因子分得分predict stdp residuals* 預(yù)測(cè)標(biāo)準(zhǔn)差和殘差13.3EstatEatat給出了幾個(gè)非常有用的工具,包括KMO、SMC等指標(biāo)。webuse bg2,clearfactor bg2cost1-bg2cost6estat antiestat kmoestat residualsestat smcestat summarize13.4 因子旋轉(zhuǎn)與作圖因子分析的旋轉(zhuǎn)方法以及碎石圖、得分圖、因子載荷圖與主成分分析的方法一樣,請(qǐng)參見(jiàn)主成分分析一章。webuse bg2,clearfactor bg2cost1-bg2cost6screeplot

5、/*碎石圖*/scoreplot /*得分圖*/loadingplot /*因子載荷圖*/rotate /*旋轉(zhuǎn)*/例:利用2009年的數(shù)據(jù)對(duì)中國(guó)社會(huì)開(kāi)展?fàn)顩r進(jìn)展綜合考察,原始數(shù)據(jù)如下表:省份人均GDP元新增固定資產(chǎn)億元城鎮(zhèn)居民人均年可支配收入元農(nóng)村居民家庭人均純收入元高等學(xué)校數(shù)所衛(wèi)生機(jī)構(gòu)數(shù)個(gè)areax1x2x3x4x5x6 北 京630292385.824724.8910661.92856497 天 津554731676.819422.537910.78552784 河 北232394734.213441.094795.4610515632 山 西203981772.613119.05409

6、7.24699431 內(nèi)蒙古322143309.314432.554656.18397162 遼 寧312595056.714392.695576.4810414627 吉 林235143279.912829.454932.74559659 黑龍江217272405.411581.284855.59787928 上 海731242523.226674.911440.26662822 江 蘇396227645.918679.527356.4714613357 浙 江422143434.822726.669257.939815290 安 徽144852849.512990.354202.49104

7、7837 福 建301231768.317961.456196.07814478 江 西147812962.512866.444697.19828229 山 東330836852.516305.415641.4312514973 河 南19593641413231.114454.249411683 湖 北198603053.413152.864656.3811810305 湖 南175212478.213821.164512.4611514455 廣 東375895529.219732.866399.7912515819 廣 西14966141914146.043690.346810427 海

8、 南17175230.212607.844389.97162220 重 慶180251381.914367.554126.21476265 四 川153782918.712633.384121.219020738 貴 州882490311758.762796.93455848 云 南12587155113250.223102.6599249 西 藏13861137.412481.513175.8261326 陜 西182462262.812857.893136.46888812 甘 肅12110575.210969.412723.793910534 青 海17389322.811640.433

9、061.2491582 寧 夏17892403.912931.533681.42151629 新 疆198931162.911432.13502.9376739程序:clear*定義變量的標(biāo)簽label var area 省份label var x1 人均GDP元label var x2 新增固定資產(chǎn)億元label var x3 城鎮(zhèn)居民人均年可支配收入元label var x4 農(nóng)村居民家庭人均純收入元label var x5 高等學(xué)校數(shù)所label var x6 衛(wèi)生機(jī)構(gòu)數(shù)個(gè) describefactor x1-x6screeplot /* 碎石圖特征值等于1處的水平線標(biāo)示保存主成分的分界

10、點(diǎn)*/*檢驗(yàn)estat kmo /*KMO檢驗(yàn),越高越好*/estat smc /*SMC檢驗(yàn),值越高越好*/rotate /*旋轉(zhuǎn)*/loadingplot , yline(0) xline(0)/*載荷圖 */*預(yù)測(cè)predict score fit residual q /*預(yù)測(cè)變量得分、擬合值和殘差以及殘差的平方和*/predict f1 f2label var f1 收入因子label var f2 投資、社會(huì)因子list area f1 f2summarize f1 f2correlate f1 f2scoreplot,xtitle(收入因子) ytitle(投資、社會(huì)因子) /m

11、label(area) yline(0) xline(0) /*得分圖*/分析:首先通過(guò)主因子分析(factor),得到主成分因子:Factor analysis/correlation Number of obs = 31 Method: principal factors Retained factors = 3 Rotation: (unrotated) Number of params = 15 - Factor | Eigenvalue Difference Proportion Cumulative -+- Factor1 | 3.28193 1.42544 0.6554 0.65

12、54 Factor2 | 1.85648 1.81677 0.3707 1.0261 Factor3 | 0.03971 0.06244 0.0079 1.0341 Factor4 | -0.02272 0.03972 -0.0045 1.0295 Factor5 | -0.06244 0.02293 -0.0125 1.0170 Factor6 | -0.08538 . -0.0170 1.0000 - LR test: independent vs. saturated: chi2(15) = 211.52 Probchi2 = 0.0000Factor loadings (pattern

13、 matrix) and unique variances - Variable | Factor1 Factor2 Factor3 | Uniqueness -+-+- x1_s | 0.8609 -0.4463 -0.1125 | 0.0469 x2_s | 0.6274 0.6026 -0.1061 | 0.2320 x3_s | 0.8800 -0.3931 0.0998 | 0.0611 x4_s | 0.9120 -0.3658 0.0365 | 0.0332 x5_s | 0.6508 0.6526 0.0349 | 0.1494 x6_s | 0.3427 0.7616 0.0

14、572 | 0.2993 -從上面的分析可以看出,只有兩個(gè)成分大于1大于的特征值,同時(shí)兩個(gè)成分解釋了全部六個(gè)變量組合的方差還多。不重要的第2 到6個(gè)主成分在隨后的分析中可以放心地省略去。運(yùn)行factor命令后,我們可以接著運(yùn)行screeplot命令畫(huà)出碎石圖。碎石圖中特征值等于1處的水平線標(biāo)示了保存主成分的常用分界點(diǎn),同時(shí)再次強(qiáng)調(diào)了本例中的成分3到成分6并不重要。碎石圖檢驗(yàn)的方法還是跟上一章的主成分分析一樣,由于我們都是選用實(shí)際的數(shù)據(jù)來(lái)進(jìn)展分析,所以在一般情況下,檢驗(yàn)都是通得過(guò)的,可以忽略,覺(jué)得有需要的再進(jìn)展檢驗(yàn)。旋轉(zhuǎn)會(huì)進(jìn)一步簡(jiǎn)化因子構(gòu)造。在提取因子之后,鍵入rotate命令進(jìn)展旋轉(zhuǎn)。Fact

15、or analysis/correlation Number of obs = 31 Method: principal factors Retained factors = 3 Rotation: orthogonal varimax (Kaiser off) Number of params = 15 - Factor | Variance Difference Proportion Cumulative -+- Factor1 | 2.90489 0.67214 0.5801 0.5801 Factor2 | 2.23276 2.19228 0.4459 1.0260 Factor3 |

16、 0.04047 . 0.0081 1.0341 - LR test: independent vs. saturated: chi2(15) = 211.52 Probchi2 = 0.0000Rotated factor loadings (pattern matrix) and unique variances - Variable | Factor1 Factor2 Factor3 | Uniqueness -+-+- x1 | 0.9659 0.0601 0.1284 | 0.0469 x2 | 0.2269 0.8399 0.1052 | 0.2320 x3 | 0.9585 0.

17、1143 -0.0844 | 0.0611 x4 | 0.9708 0.1546 -0.0211 | 0.0332 x5 | 0.2236 0.8940 -0.0362 | 0.1494 x6 | -0.0962 0.8291 -0.0635 | 0.2993 -Factor rotation matrix - | Factor1 Factor2 Factor3 -+- Factor1 | 0.8578 0.5138 0.0115 Factor2 | -0.5137 0.8579 -0.0135 Factor3 | 0.0168 -0.0056 -0.9998 -結(jié)合實(shí)際情況,我們通過(guò)上面的分

18、析整理出前兩個(gè)主因子的正交因子表。表:正交因子表 因 子指 標(biāo)FactorFactor12x10.96590.0601x20.22690.8399x30.95850.1143x40.97080.1546x50.22360.8940 x6-0.09620.8291根據(jù)上表將六個(gè)指標(biāo)按高載荷分成兩類,并結(jié)合專業(yè)知識(shí)對(duì)各因子命名,如下表:表:高載荷分類高載荷指標(biāo)因子命名1人均GDP城鎮(zhèn)居民人均年可支配收入農(nóng)村居民家庭人均純收入收入因子2高等學(xué)校數(shù)衛(wèi)生機(jī)構(gòu)數(shù)新增固定資產(chǎn)投資、社會(huì)因子接著進(jìn)展一個(gè)后續(xù)因子分析的制圖命令loadingplote有助于將其可視化。從圖中我們就可以直觀的看出在主因子1中x1、

19、x3、x4明顯取得較大值,而對(duì)于主因子2那么是x2、x5、x6取得較大的值。載荷圖因子分是通過(guò)將每個(gè)變量標(biāo)準(zhǔn)化為平均數(shù)等于0和方差等于1,然后以因子分系數(shù)進(jìn)展加權(quán)合計(jì)為每個(gè)因子構(gòu)成的線性組合?;谧罱膔otate或factor結(jié)果,predict會(huì)自動(dòng)進(jìn)展這些計(jì)算。通過(guò)命令predict f1 f2,我們得到了各個(gè)觀察變量的主因子1、主因子2的得分情況。. list area f1 f2 +-+ | area f1 f2 | |-| 1. | 北 京 2.561218 -.3716789 | 2. | 天 津 1.557873 -.9623399 | 3. | 河 北 -.3308641 1

20、.11135 | 4. | 山 西 -.4196471 -.1267554 | 5. | 內(nèi)蒙古 .0597282 -.493462 | |-| 6. | 遼 寧 .0589154 1.03599 | 7. | 吉 林 -.1869884 -.0693724 | 8. | 黑龍江 -.3388027 .0518705 | 9. | 上 海 3.102133 -.8749663 | 10. | 江 蘇 .7713872 1.864629 | |-| 11. | 浙 江 1.640963 .5580102 | 12. | 安 徽 -.5925296 .5026094 | 13. | 福 建 .53

21、76554 -.3128498 | 14. | 江 西 -.445243 .2467043 | 15. | 山 東 .1589503 1.588749 | |-| 16. | 河 南 -.4744598 1.084772 | 17. | 湖 北 -.4194019 .7986803 | 18. | 湖 南 -.4611212 .8609527 | 19. | 廣 東 .6425342 1.33433 | 20. | 廣 西 -.5491737 -.1288966 | |-| 21. | 海 南 -.2889173 -1.39015 | 22. | 重 慶 -.3183038 -.6323313

22、 | 23. | 四 川 -.652319 .9108785 | 24. | 貴 州 -.9411649 -.6618432 | 25. | 云 南 -.7608307 -.2586383 | |-| 26. | 西 藏 -.6072451 -1.569231 | 27. | 陜 西 -.7326311 .1913275 | 28. | 甘 肅 -.9497479 -.5987777 | 29. | 青 海 -.6269016 -1.50444 | 30. | 寧 夏 -.4114082 -1.422286 | |-| 31. | 新 疆 -.5836563 -.7628338 | +-+.

23、summarize f1 f2 Variable | Obs Mean Std. Dev. Min Max-+- f1 | 31 -4.09e-09 .988557 -.9497479 3.102133 f2 | 31 9.13e-09 .9464783 -1.569231 1.864629在這些因子分之間是存在著相關(guān),在默認(rèn)選項(xiàng)中,promax旋轉(zhuǎn)允許因子分之間存在相關(guān)。通過(guò)運(yùn)行命令correlate f1 f2可得。從運(yùn)行出來(lái)的結(jié)果看到,兩個(gè)因子分相關(guān)關(guān)系是很小的。. correlate f1 f2(obs=31) | f1 f2-+- f1 | 1.0000 f2 | 0.0158 1.

24、0000另一個(gè)后因子分析制圖命令,scoreplot可繪出這些觀測(cè)案例的因子分的散點(diǎn)圖。在本例的得分圖中,我們可以看到,上海、北京、浙江、天津這些城市的主因子1的得分相對(duì)于其他城市高,因?yàn)橹饕蜃?是收入因子,這些城市的收入在全國(guó)是排在前列的。而我們可以看到北京、上海的在主因子2即投資、社會(huì)因子的得分是較低,這是因?yàn)檫@兩個(gè)城市的經(jīng)濟(jì)總量相對(duì)較小。在江蘇、山東、廣東這些經(jīng)濟(jì)總量名列前茅的省份,它們的主因子2的得分也是相應(yīng)位于其他城市前面。得分圖練習(xí):將上一章的主成分分析的例子的數(shù)據(jù)進(jìn)展因子分析。省份GDP (億元居民消費(fèi)水平(元 固定資產(chǎn)投資(億元) 職工平均工資元貨物周轉(zhuǎn)量 (億噸公里) 居民消

25、費(fèi)價(jià)格指數(shù) (上年100) 商品零售價(jià)格指數(shù) (上年100) 工業(yè)總產(chǎn)值 (億元) areax1x2x3x4x5x6x7x8 北 京10488.03203463814.756328758.9105.1104.410413 天 津6354.38140003389.8417482703.4105.4105.112503 河 北16188.6165708866.6247565925.5106.2106.723031 山 西6938.7361873531.2258282562.2107.2107.210024 內(nèi)蒙古7761.881085475.4261143658.7105.7104.78740.2

26、 遼 寧13461.57962510019.1277297033.9104.6105.324769 吉 林6424.0675915038.9234861157.8105.1106.28406.9 黑龍江831070393656230461690.9105.6105.87624.5 上 海1369815656516029.8105.8105.325121 江 蘇30312.611101315300.6316674300.9105.4104.967799 浙 江21486.92138939323341464974.9105106.340832 安 徽8874.1763776747263635843.2106.2106.311162 福 建1082

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論