




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、catrunkweightlengthheadroom,comp(2)covariance第十二章主成分分析主成分分分析也稱作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降維的思想,在損失較少信息的前提下把多個(gè)指標(biāo)轉(zhuǎn)化為較少的綜合指標(biāo)。轉(zhuǎn)化生成的綜合指標(biāo)即稱為主成分,其中每個(gè)主成分都是原始變量的線性組合,且各個(gè)主成分互不相關(guān)。Stata對(duì)主成分分析的主要內(nèi)容包括:主成分估計(jì)、主成分分析的恰當(dāng)性(包括負(fù)偏協(xié)方差矩陣和負(fù)偏相關(guān)系數(shù)矩陣、KMO(Kaiser-Meyer-Olkin)抽樣充分性、復(fù)相關(guān)系數(shù)、共同度等指標(biāo)測(cè)度)、主成分的旋轉(zhuǎn)、預(yù)測(cè)、各種檢驗(yàn)、碎石圖、
2、得分圖、載荷圖等。y=ab+e,i=1,2,.,nj=1,2,.,pijijij主成分的模型表達(dá)式為:pC=VaV=工九vvi=1iiivv=0ija=diag(尢,尢,尢),尢XX12p12p其中,a稱為得分,b稱為載荷。主成分分析主要的分析方法是對(duì)相關(guān)系數(shù)矩陣(或協(xié)方差矩陣)進(jìn)行特征值分析。Stata中可以通過(guò)負(fù)偏相關(guān)系數(shù)矩陣、負(fù)相關(guān)系數(shù)平方和KMO值對(duì)主成分分析的恰當(dāng)性進(jìn)行分析。負(fù)偏相關(guān)系數(shù)矩陣即變量之間兩兩偏相關(guān)系數(shù)的負(fù)數(shù)。非對(duì)角線元素則為負(fù)的偏相關(guān)系數(shù)。如果變量之間存在較強(qiáng)的共性,則偏相關(guān)系數(shù)比較低。因此,如果矩陣中偏相關(guān)系數(shù)較高的個(gè)數(shù)比較多,說(shuō)明某一些變量與另外一些變量的相關(guān)性比較
3、低,主成分模型可能不適用。這時(shí),主成分分析不能得到很好的數(shù)據(jù)約化效果。Kaiser-Meyer-Olkin抽樣充分性測(cè)度也是用于測(cè)量變量之間相關(guān)關(guān)系的強(qiáng)弱的重要指標(biāo),是通過(guò)比較兩個(gè)變量的相關(guān)系數(shù)與偏相關(guān)系數(shù)得到的。KMO介于0于1之間。KMO越高,表明變量的共性越強(qiáng)。如果偏相關(guān)系數(shù)相對(duì)于相關(guān)系數(shù)比較高,則KMO比較低,主成分分析不能起到很好的數(shù)據(jù)約化效果。根據(jù)Kaiser(1974),般的判斷標(biāo)準(zhǔn)如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉強(qiáng)接受(mediocre);0.70-0.79,可以接受(mid
4、dling);0.80-0.89,比較好(meritorious);0.90-1.00,非常好(marvelous)。SMC即一個(gè)變量與其他所有變量的復(fù)相關(guān)系數(shù)的平方,也就是復(fù)回歸方程的可決系數(shù)。SMC比較高表明變量的線性關(guān)系越強(qiáng),共性越強(qiáng),主成分分析就越合適。成分載荷、KMO、SMC等指標(biāo)都可以通過(guò)extat命令進(jìn)行分析。多元方差分析是方差分析在多元中的擴(kuò)展,即模型含有多個(gè)響應(yīng)變量。本章介紹多元(協(xié))方差分析以及霍特林(Hotelling)均值向量T檢驗(yàn)。主成分估計(jì)Stata可以通過(guò)變量進(jìn)行主成分分析,也可以直接通過(guò)相關(guān)系數(shù)矩陣或協(xié)方差矩陣進(jìn)行。(1)sysuseauto,clearpcat
5、runkweightlengthheadroom(2)webusebg2,clearpcabg2cost*,vce(normal)Estatestat給出了幾個(gè)非常有用的工具,包括KMO、SMC等指標(biāo)。webusebg2,clearpcabg2cost*,vce(normal)estatantiestatkmoestatloadingsestatresidualsestatsmcestatsummarize預(yù)測(cè)Stata可以通過(guò)predict預(yù)測(cè)變量得分、擬合值和殘差等。webusebg2,clearpcabg2cost*,vce(normal)predictscorefitresidualq
6、(備注:q代表殘差的平方和)碎石圖碎石圖是判斷保留多少個(gè)主成分的重要方法。命令為screeplotwebusebg2,clearpcabg2cost*,vce(normal)screeplotseulavnegi2tnenopmocrofseroc得分圖、載荷圖得分圖即不同主成分得分的散點(diǎn)圖。命令為scoreplotwebusebg2,clearpcabg2cost*,vce(normal)scoreplotScorevariables(pea)載荷圖即不同主成分載荷的散點(diǎn)圖。命令為loadingplot。webusebg2,clearpcabg2cost*,vce(normal)loadin
7、gplot66Componentloadingsbg2cost12tnenopmo*bg2cost3*bg2cost2bg2cost5*bg2cost6*.bg2cost4-.4-.20.2Component1.4.6旋轉(zhuǎn)對(duì)載荷進(jìn)行旋轉(zhuǎn)的命令格式為rotatewebusebg2,clearpcabg2cost*,vce(normal)rotate例:對(duì)中國(guó)30個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況的八項(xiàng)指標(biāo)主成分分析,原始數(shù)據(jù)如下表:居民省份GDP消費(fèi)(億元)水平(元)TOC o 1-5 h zareax1x2北京10488.0320346天津6354.3814000河北16188.616570山西69
8、38.736187內(nèi)蒙古7761.88108遼寧13461.579625吉林6424.067591黑龍江83107039貨物周固定資職工平轉(zhuǎn)量產(chǎn)投資均工資轉(zhuǎn)量(億噸公(億元)(元)里)x3x4x53814.756328758.93389.8417482703.48866.6247565925.53531.2258282562.25475.4261143658.710019.1277297033.95038.9234861157.83656230461690.9居民消商品零費(fèi)價(jià)格售價(jià)格工業(yè)總指數(shù)指數(shù)產(chǎn)值(上年(上年(億元)100)100)x6x7x8105.1104.410413105.4105
9、.112503106.2106.723031107.2107.210024105.7104.78740.2104.6105.324769105.1106.28406.9105.6105.87624.5上海1369815656516029.8105.8105.325121江蘇30312.611101315300.6316674300.9105.4104.967799浙江21486.92138939323341464974.9105106.340832安徽8874.1763776747263635843.2106.2106.311162福建10823.1110361520
10、7.7257022396.2104.6105.715213江西6480.3357534745.4210002285.5106106.18499.6山東31072.06957315435.92640410107.8105.3104.962959河南18407.78587710490.6248165165.1107107.526028湖北11330.3874065647227392526.4106.3106.313455湖南11156.6471455534248702349.8106105.611553廣東35696.461439010868.7331104428.4105.610665425廣西
11、7171.5861033756.4256602079107.8107.66072海南1459.236550705.421864597.7106.9106.71103.1重慶5096.6698353979.6269851490.3105.61055755.9四川12506.2560727127.8250381578.7105.1105.314762貴州3333.444261864.524602805.3107.6107.23111.1云南5700.145533435.924030821.3105.7106.15144.6西藏395.913504309.94728035.5105.7103.948
12、.19陜西6851.3262904614.4259422027106.4106.97480.8甘肅3176.1148691712.8240171594.9108.2107.93667.5青海961.535830583.230983335.7110.1110.61103.1寧夏1098.517193828.930719703.6108.5108.51366.5新疆4203.4155422260246871273108.1108.54276.1數(shù)據(jù):來(lái)源于2009年中國(guó)統(tǒng)計(jì)年鑒程序:labelvararealabelvarx1labelvarx2labelvarx3labelvarx4labelv
13、arx5labelvarx6labelvarx7labelvarx8*定義變量的標(biāo)簽clear省份GDP(億元)居民消費(fèi)水平(元)固定資產(chǎn)投資(億元)職工平均工資(元)貨物周轉(zhuǎn)量(億噸公里)居民消費(fèi)價(jià)格指數(shù)(上年100)商品零售價(jià)格指數(shù)(上年100)工業(yè)總產(chǎn)值(億元)describepcax1-x8/*主成分估計(jì)*/estatkmo/*KM0檢驗(yàn),越高越好*/estatsmc/*SMC檢驗(yàn),值越高越好*/screeplot/*碎石圖(特征值等于1處的水平線標(biāo)示保留主成分的分界點(diǎn))*/predictscorefitresidualq/*預(yù)測(cè)變量得分、擬合值和殘差以及殘差的平方和*/predict
14、f1f2f3predictq1q2q3scoreplot,mlabel(area)yline(0)xline(0)/*得分圖1*/scoreplot,xtitle(經(jīng)濟(jì)社會(huì)總量)ytitle(人民生活水平)/mlabel(area)yline(0)xline(0)/*得分圖*/scatterf2f3,xtitle(人民生活水平)ytitle(物價(jià)水平)/mlabel(area)yline(0)xline(0)/*得分圖*/scoreplot,factors(3)mlabel(area)/*得分圖*/scoreplot,combinedfactors(3)mlabel(area)yline(0)
15、xline(0)/*得分圖*/loadingplot,yline(O)xline(O)/*載荷圖*/loadingplot,combinedfactors(3)yline(0)xline(O)/*載荷圖*/rotate/*旋轉(zhuǎn)*/分析:先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,接著進(jìn)行主成分分析,可以得到:表:R的特征值和特征向量主成分特征值方差貝獻(xiàn)率累計(jì)貝獻(xiàn)率14.254882.502580.531921.75229.5375380.750931.21475.7609160.90274.453839.2607010.95955.193137.1241410.98366.0689962.02734640.99
16、227.0416498.02119450.99748.0204553.1.0000從表中看到,前3個(gè)特征值累計(jì)貢獻(xiàn)率已達(dá)90.27%,說(shuō)明前3個(gè)主成分基本包含了全部指標(biāo)具有的信息,我們?nèi)∏?個(gè)特征值。通過(guò)對(duì)載荷矩陣進(jìn)行旋轉(zhuǎn)可得到,相應(yīng)的特征向量,見(jiàn)下表:第一、第二、第三特征值向量第一特征向量第二特征向量第三特征向量x1s0.42490.30640.1079x2s0.3217-0.44670.3101x3s0.40570.3855-0.0181x4s0.18560.61000.2536x5s0.3520-0.05100.3714x6s-0.34440.14270.5784x7s-0.31180.
17、27670.5769x8s0.42090.29380.1495因而前三個(gè)主成分為:第一主成分:F=0.4249xl+0.3217x2_s+0.4057x3_s+0.1856x4_s1+0.3520 x5_s-0.3444x6_s-0.3118x7_s+0.4209x8_s第二主成分:F=0.3064xl-0.4467x2_s+0.3855x3_s-0.6100 x4_s2-0.0510 x5_s+0.1427x6_s+0.2767x7_s+0.2938x8_s第三主成分:F=0.1079xl+0.3101x2_s-0.0181x3_s+0.2536x4_s3+0.3714x5_s-0.5784
18、x6_s+0.5769x7_s+0.1495x8_s在第一主成分的表達(dá)式中第一、第三、第八項(xiàng)指標(biāo)的系數(shù)較大,這三項(xiàng)指標(biāo)起主要作用,我們可以把第一主成分看成是由國(guó)內(nèi)生產(chǎn)總值、固定資產(chǎn)投資、工業(yè)總產(chǎn)值所刻劃的反映經(jīng)濟(jì)社會(huì)總量的綜合指標(biāo);在第二主成分中,第二、第三、第四項(xiàng)指標(biāo)的影響大,且第二、第四項(xiàng)的影響較大,因此可以把第二主成分看成是由居民消費(fèi)水平、職工平均工資表示的反映人民生活水平的綜合指標(biāo);在第三主成分中,第六、第七項(xiàng)指標(biāo)大于其余的指標(biāo),可看成是受居民消費(fèi)價(jià)格指數(shù)、商品零售價(jià)格指數(shù)的影響,反映物價(jià)水平的綜合指標(biāo)。在這次的主成分分析里面,我們可以進(jìn)行些檢驗(yàn)以驗(yàn)證我們分析的效果,通過(guò)KMO檢驗(yàn)和S
19、MC檢驗(yàn),得到了下面的檢驗(yàn)值:變量的KMO、SMC值表變量KMO值SMC值x1s0.74230.9656x2s0.53610.8366x3s0.77060.9276x4s0.47370.7647x5s0.67940.6515x6s0.54670.8837x7s0.54820.8627x8s0.76920.9591合計(jì)0.6447Kaiser-Meyer-Olkin抽樣充分性測(cè)度也是用于測(cè)量變量之間相關(guān)關(guān)系的強(qiáng)弱的重要指標(biāo),是通過(guò)比較兩個(gè)變量的相關(guān)系數(shù)與偏相關(guān)系數(shù)得到的。KMO介于0于1之間。KMO越高,表明變量的共性越強(qiáng)。如果偏相關(guān)系數(shù)相對(duì)于相關(guān)系數(shù)比較高,則KMO比較低,主成分分析不能起到很好的數(shù)據(jù)約化效果。根據(jù)Kaiser(1974),一般的判斷標(biāo)準(zhǔn)如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉強(qiáng)接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比較好(meritorious);0.90-1.00,非常好(marvelous)。SMC即一個(gè)變量與其他所有變量的復(fù)相關(guān)系數(shù)的平方,也就是復(fù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度體育賽事反擔(dān)保合同書(shū)
- 2025年度水利設(shè)施監(jiān)控安裝工程合同范本
- 2025年度設(shè)備搬遷與節(jié)能改造合同
- 《搭配中的學(xué)問(wèn)》(教學(xué)設(shè)計(jì))-2024-2025學(xué)年三年級(jí)上冊(cè)數(shù)學(xué)北師大版
- 2025至2030年卸糧機(jī)項(xiàng)目投資價(jià)值分析報(bào)告
- 2025至2030年半自動(dòng)繃網(wǎng)機(jī)項(xiàng)目投資價(jià)值分析報(bào)告
- 2025至2030年中國(guó)警用公務(wù)車數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年萬(wàn)用電表項(xiàng)目投資價(jià)值分析報(bào)告
- 16 海上日出(教學(xué)設(shè)計(jì))2023-2024學(xué)年統(tǒng)編版語(yǔ)文四年級(jí)下冊(cè)
- 2025年防護(hù)用品項(xiàng)目可行性研究報(bào)告
- 2024年青海省中考生物地理合卷試題(含答案解析)
- 2019譯林版高中英語(yǔ)全七冊(cè)單詞總表
- 蘇少版小學(xué)一年級(jí)下冊(cè)綜合實(shí)踐活動(dòng)單元備課
- 人教版三年級(jí)數(shù)學(xué)下冊(cè) (認(rèn)識(shí)東北、西北、東南、西南)位置與方向教育教學(xué)課件
- 精品污水處理廠工程重難點(diǎn)分析及應(yīng)對(duì)措施
- (完整版)泄洪渠施工方案
- 幼兒園廚房人員培訓(xùn)計(jì)劃
- 博士、博士后簡(jiǎn)歷模板
- 《房屋面積測(cè)算技術(shù)規(guī)程》DGJ32TJ131-2022
- 畢業(yè)設(shè)計(jì)-膽囊結(jié)石患者的護(hù)理計(jì)劃
- 倒排工期計(jì)劃表
評(píng)論
0/150
提交評(píng)論