主成分分析案例聚類分析案例_第1頁(yè)
主成分分析案例聚類分析案例_第2頁(yè)
主成分分析案例聚類分析案例_第3頁(yè)
主成分分析案例聚類分析案例_第4頁(yè)
主成分分析案例聚類分析案例_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主成分分析案例/聚類分析案例我國(guó)各地區(qū)行業(yè)結(jié)構(gòu)分析摘要:近年來(lái),我國(guó)各行各業(yè)得到了高速發(fā)展,許多新興行業(yè)也伴隨著人們的多樣化需求而日益成熟。文章利用主成分分析、聚類分析、典型相關(guān)分析和判別分析方法對(duì)我國(guó)各地區(qū)行業(yè)工資進(jìn)行分析,探討我國(guó)各區(qū)域之間行業(yè)結(jié)構(gòu)的差異,從而為各地政府根據(jù)地區(qū)間的行業(yè)結(jié)構(gòu)差異制定更加合理的引導(dǎo)性政策提供更加有效的決策依據(jù)。關(guān)鍵詞:行業(yè)結(jié)構(gòu)主成分分析聚類分析典型相關(guān)分析判別分析1?相關(guān)經(jīng)濟(jì)指標(biāo)及數(shù)據(jù)選取1.1相關(guān)經(jīng)濟(jì)指標(biāo)本文以2013年我國(guó)各地區(qū)城鎮(zhèn)私營(yíng)單位就業(yè)人員平均工資為標(biāo)準(zhǔn),選取了農(nóng)、林、牧、漁業(yè),制造業(yè),電力、熱力、燃?xì)饧八a(chǎn)和供應(yīng)業(yè),建筑業(yè),批發(fā)和零售業(yè),交通運(yùn)輸、倉(cāng)儲(chǔ)和郵政業(yè),住宿和餐飲業(yè),信息傳輸、軟件和信息技術(shù)服務(wù)業(yè),金融業(yè),房地產(chǎn)業(yè),租賃和商務(wù)服務(wù)業(yè),科學(xué)研究和技術(shù)服務(wù)業(yè),水利、環(huán)境和公共設(shè)施管理業(yè)、居民服務(wù)、修理和其他服務(wù)行業(yè),教育,衛(wèi)生和社會(huì)工作,文化、體育和娛樂業(yè)作為標(biāo)準(zhǔn),對(duì)我國(guó)各地區(qū)的行業(yè)結(jié)構(gòu)進(jìn)行分析。1.2數(shù)據(jù)選取本文數(shù)據(jù)來(lái)自2014年中國(guó)統(tǒng)計(jì)年鑒,由于西藏人煙稀少,缺少數(shù)據(jù),因此選取了30個(gè)省的部分?jǐn)?shù)據(jù)。表1-1分地區(qū)按行業(yè)分城鎮(zhèn)私營(yíng)單位就業(yè)人員平均工資(2013年)地區(qū)農(nóng)、林、制造業(yè)電力、執(zhí)力、建筑業(yè)批發(fā)和零售交通運(yùn)輸、住宿和餐飲信息傳輸、北京3253142809419394094240742342133451773626天津4125542765349683970440093480953887746580河北2419828983277602885225345301082478327827丨山西2106427348271992918525978224112057721177內(nèi)蒙古3124633368413163524229201404492989933239遼寧241Q429354256583383028330310192619730848吉林182812291519804243892517025836225302Q716黑龍江1899224899240632768723335227932276826667上海9979930443312313241327420366012811958420江蘇3250736188369863705134213376253214448032浙江2793233186281853911333766387603009646003

安徽2115931943269033502427437388712781021489福建3023435460299183920733192407932895146072江西25854269243127532085256522938822678301681山東3039434705398813539231817358333031137675河南1986923142237112710423086249192179822215湖北1774225696260302761123028233792369433526湖南2336327287320012993223271253212326435898廣東2570935646216703748840866410742940161935廣西2276229315278793075225026283952430026484海南1659327836204083333529126373892708629651重慶2796135398346413653932919347032761638615四川2512729652300993085029149293862606628671貴州1803427183435752670422260239132115535040云南2158024646264052760328732287182555225011陜西2248025582251932614024392253592341833454甘肅1931924212248732525626544254351865625994青海1836327676335022473027760252902429524681寧夏2417231638322933617828035301012854429269新疆3030832990339114100127373377462464631279主成分分析2.1構(gòu)造因子變量的前提主成分分析的目的是從眾多原有變量中提煉少數(shù)具有代表性的因自變量。因此,需要一個(gè)重要的前提,即原有變量之間具有較強(qiáng)的相關(guān)關(guān)系。為此,可計(jì)算原有變量的相關(guān)系數(shù)矩陣。原有變量的相關(guān)系數(shù)圖圖2-1原所有變量的相關(guān)系數(shù)圖由原有變量的相關(guān)系數(shù)圖可知,相關(guān)系數(shù)矩陣中絕大部分的相關(guān)系數(shù)取值較大,說明變量的相關(guān)性較強(qiáng),滿足進(jìn)行因子分析的前提。2.2.判斷主成分個(gè)數(shù)最常見的是基于特征值的方法,每個(gè)主成分都與相關(guān)系數(shù)矩陣的特征值關(guān)聯(lián),第一主成分與最大的特征值相關(guān)聯(lián),第二主成分與第二大的特征值相關(guān)聯(lián),依此類推。Kaiser-Harris準(zhǔn)則建議保留特征值大于1的主成分,特征值小于1的成分所解釋的方差比包含在單個(gè)變量中的方差更少。Cattell碎石檢驗(yàn)則繪制了特征值與主成分?jǐn)?shù)的圖形,這類圖形可以展示圖形彎曲狀況,在圖形變化最大處之上的主成分都保留。相關(guān)系數(shù)矩陣的前三個(gè)特征值的解釋能力如下:表2-1總的方差解釋能力序號(hào)特征值貢獻(xiàn)率%累計(jì)貝獻(xiàn)率%112.19727221.2477931.04685也可畫出基于主成分的碎石圖基于主成分的碎石圖factororcomponentnumberscauodEOOpues基于主成分的碎石圖factororcomponentnumberscauodEOOpues」-20且osanroA山圖2-1基于主成分的碎石圖由特征值、累計(jì)貢獻(xiàn)率和碎石圖三個(gè)方面可以判斷該例中需要三個(gè)主成分。2.3提取主成分在R中,principal()函數(shù)可根據(jù)原始數(shù)據(jù)矩陣或相關(guān)系數(shù)矩陣做主成分分析。>(pc<-prT門匚rpal(r=M,nfactors=M,rotate="none"))PrincipalcomponentsAnalysis匸all:principal(r=M,nfactors=3,rotate="none"}standard!zed1oadings(patternmatrix)baseduponcorrelationmatrixPCIPC2PC3h2u2com農(nóng).林.0.830.44-0.110.890.1121.6制.苣?業(yè)0.940.24-0.040.950.0501.1電力■熱力.0.470.590.570.900.1002.9崖.筑?業(yè)0.850.25-0.200.830.1741.3批發(fā)和零售業(yè)0.91-0.09-0.200.BB0.1211.1交通運(yùn)軸.0.810.15-0.420.850.1531.6住宿和翟飲業(yè)0.920.12-0.190.090.107:L.l信息傳輸.0.86-0.360.280.940.0641.6金融業(yè)0.69-0.060.490.710.2891.8房地產(chǎn)業(yè)0.840.120.030.730.2741.0租賃和商勢(shì)0.93-0.210.020.910.0B71.1科學(xué)研究0.83-0■斗10.020.860.1401.5水利■壞境0.87-0.11-0.210.810.1861.1居民朋勢(shì).0.820.180.000.710.2901.1教....肓0.92-0.130.120.870.1271.1衛(wèi)生和0.88-0.300.040.870.1.331.2文化.體■育0.91-0.130.150.870.1331.1PCIPC2PC3S51oadings12.191.241.04ProportTonvmr0.720.070.06Cjmulafivevar0.720.790.85ProporfionExplained0.840.090.07cjmulafivePropoirtion0.840.931.00Meanitemcomp!exity=1.4Testofthehypothesisthat3components萌電suff1cient.Therootmeansquaoftheresiduals(RMSR)1s0.04Fitbaseduponoffdiagonalvalues=1PCI,PC2,PC3三列分別為因子載荷矩陣,h2列為各變量的共同度,u2為特殊因子的方差。SSloadings行分別為第一、第二、第三個(gè)因子變量的方差貢獻(xiàn),下一行為三個(gè)因子變量的方差貢獻(xiàn)率,第三行為累計(jì)方差貢獻(xiàn)率,第四行為三個(gè)因子變量的方差貢獻(xiàn)占總方差貢獻(xiàn)的比例。由運(yùn)行結(jié)果可見,三個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到了85%,說明三個(gè)主成分的方差已經(jīng)占全部的總方差的85%,因此選三個(gè)主成分足夠。第一個(gè)主成分的方差貢獻(xiàn)占總方差貢獻(xiàn)的84%,說明第一個(gè)主成分很重要,然而,各個(gè)變量在第一個(gè)主成分上的因子載荷都很大,使得第一個(gè)主成分不能典型代表任何一個(gè)原有變量。因此需要進(jìn)行因子旋轉(zhuǎn)。因子旋轉(zhuǎn)的目的是使原有變量在盡可能少的因子變量上有比較大的載荷。在理想狀態(tài)下,原有變量在某個(gè)因子變量上的載荷趨于1,在其他因子上的載荷趨于0。這樣,因子變量就可以成為原有變量的典型代表,其實(shí)際含義就明確了,

命名也就很方便了。>Cpc2<-prT門(:rpal(r=M,nfacto,rotate="varTPrincipalcomponentsAnalysiscall:pr1ncipal(r=M,nfactors=3?rotate=,rvarimax"}standard!zed1oadings(patternmat「“玄)baseduponccirrelafionmat「“玄PCIPC3PC2h2u2com農(nóng).林"0.81□.230.420.890.1121.7制.毬業(yè)0.770.460.390.950.0502.2電力?熱力.0.220.100.920.900.1001.1崖.筑.業(yè)0.800.340.250.830.1741.6批發(fā)和零售業(yè)0.710.610.050.880.1212.0交通運(yùn)輸.0.87□.31□.010.850.1531.B住宿和輟飲業(yè)0.800.47□.200.89□.1071.8信息傳輸.0.280.900.220.940.0641.3金融業(yè)0.150.650.510.710.2892.0房地產(chǎn)業(yè)0.610.490.340.730.2742.5租賃和商務(wù)0.540.770.150.910.0871.9科學(xué)硏究0.39□.84010.86□.1401.4水利.壞境0.680.590.030.810.1862.0居民月艮務(wù)■■0.640.430.340.710.2902.4埶....育0.510.740.260.870.1272.1衛(wèi)生和0.450.810.090.870.1331.6文化?體育0.48□.75□.290.870.1332.□PCIPCSPC2ss1oadings6.316.142.01Proporfionvar0.370.360.12cumulafivevar0.370.730.85ProporfionExplained0.440.420.14cumdlafiveProporfion0.4斗0.861.□□Mean■itemcomp!exity=1.8Testofthehypothesisthat3componentsaresufficient.Therootmeansquareoftheresiduals(RMSR)is0.04Fitbaseduponoffdiagonalvalues=1因子旋轉(zhuǎn)后各個(gè)變量在三個(gè)主成分因子上的因子載荷出現(xiàn)兩極分化,有利于后續(xù)分析。2.4主成分展示FactorAnalysis交通運(yùn)輸電力一熱力一農(nóng)一林建筑業(yè)&制一誥屮扌比發(fā)和零售業(yè)水剎一環(huán)境居民服務(wù)PC3信息傳輸科學(xué)硏究湘賃丁可商務(wù)PC2交倩?體育教…育件宿和餐飲9.8交通運(yùn)輸電力一熱力一農(nóng)一林建筑業(yè)&制一誥屮扌比發(fā)和零售業(yè)水剎一環(huán)境居民服務(wù)PC3信息傳輸科學(xué)硏究湘賃丁可商務(wù)PC2交倩?體育教…育件宿和餐飲9.80.8-圖2-2主成分結(jié)果由輸出結(jié)果顯示,第一個(gè)主因子主要由交通運(yùn)輸業(yè),農(nóng)林漁牧,建筑業(yè),住宿和餐飲業(yè),制造業(yè),批發(fā)零售業(yè),水利環(huán)境,居民服務(wù),房地產(chǎn)業(yè)這九個(gè)指標(biāo)決定,第一主因子是均為我國(guó)的基礎(chǔ)行業(yè),保證了人民的基礎(chǔ)生活,命名為基礎(chǔ)行業(yè)。第三個(gè)主因子由信息傳輸,科研研究,衛(wèi)生和醫(yī)療,租賃和商務(wù),文化和體育,教育,金融業(yè)決定,這些行業(yè)都是隨著科學(xué)技術(shù)高速發(fā)展和人民生活水平提高才逐漸發(fā)展起來(lái)的,這些行業(yè)需要較高的科學(xué)技術(shù),因此命名為高新行業(yè)。第二個(gè)主因子由電力、熱力、燃?xì)饧八a(chǎn)和供應(yīng)業(yè)決定,命名為能源行業(yè)。2.5因子得分因子得分可以看作各個(gè)變量值的加權(quán)平均,權(quán)數(shù)的大小表示原有變量對(duì)因子變量的重要程度。本例中采用回歸法估計(jì)因子值系數(shù)并計(jì)算因子得分。

1北京1北京2天津3河北4山西5內(nèi)蒙古6遼寧7吉林8黑龍江9上海10江蘇11浙江12安徽13福建14江西15山東16河南17湖北18湖南19廣東20廣西21海南22重慶23四川24貴25云南26陜西27甘肅28青海29寧夏30新疆PC1PC3PC2[1,10.18276148B.1B0220B41.72359494[2,12.770885240.067051950.36487482-0.10321812-0.60979140-0.21243170[4,]-0.72128344-1.085951350.32887377⑸]1.05076131-1.129814671.390003810.17651849-0.20580703-0.53627368-1.160330500.46131231-1.21865006[/]-1.02251008-0.58749250-0.40627B72⑼]-1.025171692.24374371-0.38966543L10,]1.152282440.429921780.70096989L11,]0.238792871.215741610.07084281[12,]0.846&6466-0.78034521-0.95528064X]1.130964900.26529967-0.12642BB6L14,]-0.24471757-0.506597840.39951871E15,]0.97338071-0.428407501.18438642[圮]-0.57760894-0.70175748-0.93096723L17,]-1.24470636-0.020028380.11947B77E18,]-0.72469974-0.130185190.36303847L19,]0.743121122.04467603-1.9607.3541E20,]-0.03808330-0.76641660-0.23502060[21,]0.54208033-0.086&5007-1.84733833[結(jié)]0.421595970.4513092B0.92807649[2九]0.03787814-0.152351870.075B2171[如]-2.23250534-0.050606152.67073525[25,]-0.24587907-0.220128B5-0.94482249[如]-0.766420390.03066178-0.40208890[2人]-0.90856673-0.62967782-0.89731201[込]-0.76531867-0.43357746-0.11184499[29」0.46627841-0.625S31440.13540173[込]1.04705388-1.188319640.72002147>pcfs用線性回歸法計(jì)算各地區(qū)的因子得分,因子一得分最高的城市天津,說明天津的基礎(chǔ)行業(yè)發(fā)展水平高于我國(guó)其他地區(qū),而得分最低的是貴州。第三個(gè)主因子得分最高的是北京,為3.13,遠(yuǎn)遠(yuǎn)高于我國(guó)其他地區(qū),說明北京的高新產(chǎn)業(yè)相當(dāng)發(fā)達(dá),而得分最低的是新疆,由此可知新疆的高新產(chǎn)業(yè)發(fā)展程度在我國(guó)最低,可能原因是新疆是我國(guó)的邊疆,且人煙稀少,主要以農(nóng)業(yè)等基礎(chǔ)行業(yè)為主。第二個(gè)主因子得分最高的是貴州,為2.67,遠(yuǎn)高于我國(guó)其他地區(qū),說明貴州大力發(fā)展了電力、熱力、燃?xì)饧八a(chǎn)和供應(yīng)。聚類分析3.1判斷聚類個(gè)數(shù)層次聚類又稱為系統(tǒng)聚類,通過實(shí)驗(yàn)可知,由離差平方和法所得到的譜系聚類圖的分類最清晰,因此在此我們只展示采用離差平方和法的計(jì)算結(jié)果。

ClusterDendrogramDISMhclust(*,"ward.D")圖3-1快速聚類圖由樹形圖我們可知聚類數(shù)目為4為進(jìn)一步確定聚類數(shù)目,可繪制碎石圖。距離測(cè)度圖3-2層次聚類碎石圖隨著聚類數(shù)目的不斷減少,最小類間距不斷增大。當(dāng)聚類數(shù)目達(dá)到4類之后,最小類間距離的變化幅度很大,說明類間的差異較大,不應(yīng)再繼續(xù)合并。所以,根據(jù)碎石圖粗略判斷聚成4類較為合適。3.2K-Means聚類結(jié)果分析K-Means聚類也稱快速聚類,屬于覆蓋型數(shù)值分割聚類算法。由它得到的聚

類結(jié)果,每個(gè)樣本點(diǎn)都唯一屬于一個(gè)類,聚類變量為數(shù)值型變量,并采用分割原

理進(jìn)行聚類。由上述分層聚類分析可知,聚類數(shù)目為四。

運(yùn)算程序得到各類的城市數(shù)目及聚類中心如下:表3-1聚類中心類(數(shù)目)基礎(chǔ)產(chǎn)業(yè)高新產(chǎn)業(yè)能源產(chǎn)業(yè)1(4個(gè))0.034875942.1589542-0.13899082(17個(gè))-0.40707066-0.37794026-0.43600463(8個(gè))1.12665036-0.269848820.66216324(1個(gè))-2.23250534-0.050606152.6707353將各類聚類變量的類中心的變化圖表示如下:各類聚類變量均值的變化折線圖圖3-3聚類變量均值折線圖由此我們可以看出,第一類地區(qū)的高新行業(yè)迅速,遠(yuǎn)遠(yuǎn)高于基礎(chǔ)行業(yè)和能源行業(yè);第二類地區(qū)三種行業(yè)均衡發(fā)展;第三類地區(qū)高新產(chǎn)業(yè)并不發(fā)達(dá),而基礎(chǔ)行業(yè)和能源行業(yè)比較發(fā)達(dá);第四類地區(qū)主要依靠能源行業(yè)進(jìn)行發(fā)展,基礎(chǔ)行業(yè)尤其低下。各類包含的具體城市如下:

C'馬i糞C'馬i糞雋二笑+=二二++聚類的類成員AAAAAAAAA倏貴親1040{卜#:貝更椅貝翹傲IS祺征崇征從ISlff出三云lEiaiK更IOKISS

餐H<s:m雙加血常T貝妄范軀貝屠課疑貴更刪目欷舊遂俎艦{1■'焉圖3-4聚類的類成員圖表3-2各類地區(qū)類別(數(shù)目)地區(qū)第一類(4)北京、上海、浙江、廣東第二類(17)河北、山西、遼寧、吉林、黑龍江、安徽、江西、河南、湖北、湖南、廣西、海南、四川、云南、陜西、甘肅、青海第三類(8)天津、山東、江蘇、福建、重慶、內(nèi)蒙古、寧夏、新疆第四類(1)貴州由聚類結(jié)果可知,北京、上海、浙江、廣東由于聚集了我國(guó)大量高新人才,從事高科技研究和金融商務(wù),使得這四個(gè)城市的高新行業(yè)占主導(dǎo)地位,且發(fā)展水平遠(yuǎn)遠(yuǎn)高于我國(guó)其他城市。第三類城市中部分臨海,部分地域廣闊,資源豐富,它們依據(jù)地理優(yōu)勢(shì)大力發(fā)展了交通運(yùn)輸及農(nóng)林漁牧等基礎(chǔ)行業(yè)和能源行業(yè)。貴州是我國(guó)的能源大省,水、電、煤多種能源兼?zhèn)?,猶以水力和煤最為突出,水火互濟(jì)。?!扒姈|送”是南方電網(wǎng)中“西電東送”的主力。因此貴州的能源行業(yè)自然十分火熱。而第二類城市大多處于我國(guó)內(nèi)陸,既沒有資源優(yōu)勢(shì),又沒有人才優(yōu)勢(shì),因此三種行業(yè)獲得了均衡發(fā)展。其他分析方法在分析過程中我們?cè)诿恳环N分析角度中采用了不同的分析方法,其主要過程如下。4.1主成分分析

通過主成分分析方法,前三個(gè)特征值對(duì)應(yīng)的特征向量如下:>Cu<-as-matrix(R$vectors[,1:3]))[,U[,2]E.3][13]-0.23699BB-0.39235331-0.1109671B9[2,1-0.270236S-0.21685298-0.041384567⑶]-0.1350444-0.534036880.560695158[4,]-0.2441100-0.22151428-0.194776639-0.26004170.07851607-0.200446594⑹]-0.2305709-0.13165031-0.414674072[八]-0.2625922-0.11107509-0.189168193[8,]-0.24541130.319599590.270820116-0.19627810.054952840.479154190[10,1-0.2412407-0.112141990.033560343[11,1-0.26696490.188609070.017363823[12,1-0.23803380.370052720.019773680[13,]-0.24937400.09636970-0.206355645[14,]-0.2356541-0.16332376-0.002635263[15a]-0.262816B0.118488900.115248400[16,]-0.25175720.273478490.044071156ri7,i-0.26032610.11786279O.1522283O5由上面的結(jié)果我們可以看到,第一主成分幾乎包含所有變量,第三個(gè)變量既可以包含在第二個(gè)主成分中,又可以包含在第三個(gè)主成分中,因此主成分分析并不利于分析。在本文中采用基于主成分的因子分析,并進(jìn)行因子旋轉(zhuǎn)。4.2快速聚類在分類過程中我們還采用了最短距離法、中間距離法、最長(zhǎng)距離法離差平方和法聚類,分析結(jié)果如下:ClusterDendrogramDISMhclust(*,"ward.D")圖4-1離差平方和法聚類離差平方和法聚類與K-means聚類結(jié)果對(duì)比:

離差平方和法和大體相似,只有浙江和寧夏的分類結(jié)果不同,離差平方和法聚類將浙江分在了第三類,基礎(chǔ)行業(yè)和能源行業(yè)發(fā)展優(yōu)于高新行業(yè),將寧夏分在了第二類,三種行業(yè)均衡發(fā)展。而K-means聚類方法將浙江分到第一類中,高新行業(yè)發(fā)展優(yōu)于基礎(chǔ)行業(yè)和能源行業(yè),將寧夏分到第三類。地區(qū)基礎(chǔ)行業(yè)咼新行業(yè)能源行業(yè)浙江分子得分0.238792871.215741610.07084281寧夏分子得分0.4427841-0.625831440.135401由浙江和寧夏在三個(gè)主因子上的得分可以看出,浙江在高新行業(yè)上的得分高于基礎(chǔ)行業(yè)和能源行業(yè),應(yīng)分到第一類。寧夏在基礎(chǔ)行業(yè)和能源行業(yè)的分子得分高于高新行業(yè),應(yīng)分到第三類。所以K-means聚類結(jié)果比較合理,本文采用K-means聚類結(jié)果。最短距離法、中間距離法、最長(zhǎng)距離法聚類將大部分地區(qū)聚為一類,而將少量幾個(gè)地區(qū)劃成三類,使每類中只包含一兩個(gè)地區(qū),聚類效果不好。三種聚類結(jié)果如下:-2.0---2.0--0.5-0.0-ClusterDendrogramDISMhclust(*,"single")圖4-2最短距離法聚類

ClusterDendrogramTDISMhclustClusterDendrogramTDISMhclust(*,"median")圖4-3中間距離法聚類圖4-4最長(zhǎng)距離法聚類典型相關(guān)分析典型相關(guān)分析是研究?jī)蓚€(gè)隨機(jī)向量相關(guān)程度的一個(gè)重要方法,其核心思想是通過線性變換將向量間的相關(guān)結(jié)構(gòu)轉(zhuǎn)化成最簡(jiǎn)單的形式。在這里我們研究基礎(chǔ)行業(yè)和高新行業(yè)之間的典型相關(guān)性。5.1典型相關(guān)計(jì)算利用R語(yǔ)言中的“cancor()”函數(shù)可以完成典型相關(guān)分析,其部分結(jié)果如下:表5-1典型相關(guān)變量的相關(guān)系數(shù)序號(hào)1234567相關(guān)系數(shù)0.944590.833510.730210.684910.507320.365820.019535.2典型相關(guān)系數(shù)的顯著性檢驗(yàn)做相關(guān)分析的目的是利用降維的方法來(lái)處理數(shù)據(jù),因此首先需要作典型相關(guān)系數(shù)的顯著性檢驗(yàn)來(lái)判斷選擇多少對(duì)典型變量。若認(rèn)為典型相關(guān)系數(shù)宀則就不必考慮第K對(duì)典型變量。通過R語(yǔ)言程序計(jì)算,結(jié)果表明只需一對(duì)典型變量。5.3典型相關(guān)結(jié)果分析用XI,X2,X3,X4,X5,X6,X7,X8,X9,X10,XII,X12,X13,X14,X15,X16,X17分別代表數(shù)據(jù)標(biāo)準(zhǔn)化后的農(nóng)、林、牧、漁業(yè),制造業(yè),電力、熱力、燃?xì)饧八a(chǎn)和供應(yīng)業(yè),建筑業(yè),批發(fā)和零售業(yè),交通運(yùn)輸、倉(cāng)儲(chǔ)和郵政業(yè),住宿和餐飲業(yè),信息傳輸、軟件和信息技術(shù)服務(wù)業(yè),金融業(yè),房地產(chǎn)業(yè),租賃和商務(wù)服務(wù)業(yè),科學(xué)研究和技術(shù)服務(wù)業(yè),水利、環(huán)境和公共設(shè)施管理業(yè),居民服務(wù)、修理和其他服務(wù)行業(yè),教育,衛(wèi)生和社會(huì)工作,文化、體育和娛樂業(yè)。由于只有第一典型相關(guān)變量是顯著的,所以只考慮第一組典型相關(guān)變量:U=0.102X+0.088X-0.055X+0.013X-0.037X+0.034X-0.077X+0.117X,1245671013-0.005X14V=-0.146X+0.007X+0.141X+0.009XO+0.179X-0.030X+0.010Xln891112151617從表達(dá)式中我們可以看出基礎(chǔ)行業(yè)的第一典型變量U1主要代表了農(nóng)、林、牧、漁業(yè)X1和水利、環(huán)境和公共設(shè)施管理業(yè)X13的發(fā)展,這兩個(gè)行業(yè)的系數(shù)最高,且呈現(xiàn)正相關(guān)關(guān)系,說明農(nóng)、林、牧、漁業(yè)和水利、環(huán)境和公共設(shè)施管理業(yè)會(huì)促進(jìn)基礎(chǔ)行業(yè)的發(fā)展。高新行業(yè)的第一典型變量V2主要代表了教育行業(yè)X15的發(fā)展程度,同時(shí)與信息傳輸、軟件和信息技術(shù)服務(wù)業(yè)X8有較高的負(fù)相關(guān),與租賃和商務(wù)服務(wù)業(yè)X11有較高的正相關(guān),說明教育行業(yè)和信息傳輸、軟件和信息技術(shù)服務(wù)業(yè)會(huì)促進(jìn)高新行業(yè)的發(fā)展,而租賃和商務(wù)服務(wù)業(yè)會(huì)阻礙高新行業(yè)的發(fā)展。同時(shí)第一典型相關(guān)系數(shù)達(dá)到0.94,因此基礎(chǔ)行業(yè)的發(fā)展與高新行業(yè)的發(fā)展有較高的相關(guān)關(guān)系,尤其是基礎(chǔ)行業(yè)中的農(nóng)、林、牧、漁業(yè)和水利、環(huán)境和公共設(shè)施管理業(yè)的發(fā)展可大大促進(jìn)高新行業(yè)的發(fā)展,而高新行業(yè)中的教育行業(yè)和信息傳輸、軟件和信息技術(shù)服務(wù)業(yè)的發(fā)展反過來(lái)也會(huì)促進(jìn)基礎(chǔ)行業(yè)的發(fā)展。判別分析判別分析是用于判斷樣品所屬類型的一種統(tǒng)計(jì)方法。判別分析的目的是對(duì)一直歸類的數(shù)據(jù)建立由數(shù)值指標(biāo)構(gòu)成的歸類規(guī)則,然后把這樣的規(guī)則應(yīng)用到未知?dú)w類的樣品去歸類。最常用的判別準(zhǔn)則有距離判別、費(fèi)希爾判別、貝葉斯判別。在這里我們根據(jù)聚類分析中歸類結(jié)果取第二類和第三類地區(qū)共25個(gè)樣本作為訓(xùn)練樣本,取基礎(chǔ)行業(yè)和高新行業(yè)的分子得分作為變量建立分類標(biāo)準(zhǔn),并將訓(xùn)練樣本代回,計(jì)算錯(cuò)判率,評(píng)價(jià)判別效果。6.1距離判別距離判別的基本思想是:計(jì)算新樣本x到各個(gè)總體的距離,距離哪個(gè)總體距離最近就認(rèn)為它來(lái)自該總體,通常采用的距離是馬氏距離。當(dāng)兩個(gè)總體的協(xié)方差陣相等時(shí),采用線性判別函數(shù);當(dāng)兩個(gè)總體的協(xié)方差陣不相等時(shí),采用二次函數(shù)判別函數(shù)。并且只有當(dāng)兩個(gè)總體的均值存在顯著差異是,進(jìn)行距離判別分析才有意義。則兩類城市的各自的樣本的均值分別為:表6-1兩類城市變量均值類基礎(chǔ)行業(yè)咼新行業(yè)2類-0.4070707-0.37794033類1.1266504-0.2698488可以兩個(gè)總體的均值有顯著性差異,可以進(jìn)行距離判別分析。表6-2距離判別的結(jié)果2:2類城市3:3類城市預(yù)測(cè)組個(gè)體數(shù)總數(shù)23協(xié)方差陣相等2152173088協(xié)方差陣不等2152173088由表6-2可知:在假設(shè)各個(gè)總體的協(xié)方差陣相等時(shí),采用距離判別有2個(gè)樣本被誤判,這來(lái)兩個(gè)樣本本屬于2類城市而被誤判為3類城市,正確率為92%,誤判率為8%,正確率較高。假設(shè)各個(gè)總體的協(xié)方差陣不相等時(shí)的距離判別結(jié)果與協(xié)方差陣相等時(shí)相同。6.2費(fèi)希爾線性判別費(fèi)希爾判別的思想是將k組p維數(shù)據(jù)分別投影到某個(gè)固定方向上,使得各個(gè)組的數(shù)據(jù)的投影盡可能地分離,然后基于線性投影給出判別函數(shù)。費(fèi)希爾判別不要求假設(shè)k個(gè)總體的分布,而且不僅可以用于k個(gè)總體的協(xié)方差陣全相等的情形,也適用于當(dāng)k個(gè)總體的協(xié)方差陣不全相等的情形。表6-3費(fèi)希爾線性判別結(jié)果2:2類城市3:3類城市預(yù)測(cè)組個(gè)體數(shù)總數(shù)232152173178由表6-3的判別結(jié)果可知:有三個(gè)樣本被誤判,其中兩個(gè)樣本本為2類,卻被誤判給3類,一個(gè)樣本本為3類,卻被誤判給了2類。正確率為88%,誤判率為12%。6.3貝葉斯判別貝葉斯判別是假定對(duì)研究對(duì)象已有一定的認(rèn)識(shí),這種認(rèn)識(shí)常用先驗(yàn)概率來(lái)描述,當(dāng)取得樣本后,就可以用樣本來(lái)修正已有的先驗(yàn)概率分布,得出后驗(yàn)概率分布,再通過后驗(yàn)概率分布進(jìn)行各種統(tǒng)計(jì)推斷。這里我們采用的先驗(yàn)概率分別為17/25、8/25,再將訓(xùn)練樣本代回,得到的判斷結(jié)果如下:表6-4貝葉斯判別分析結(jié)果2:2類城市3:3類城市預(yù)測(cè)組個(gè)體數(shù)總數(shù)23協(xié)方差陣相等2134173088協(xié)方差陣不等2152173088由表6-4的結(jié)果可知:當(dāng)假設(shè)協(xié)方差陣相等時(shí),有四個(gè)原本屬于2類的城市被誤判給了3類,正確率為84%,誤判率為16%;當(dāng)假設(shè)協(xié)方差不相等時(shí),有兩個(gè)本屬于2類的城市被誤判給了3類,正確率為92%,誤判率為8%。6.4三種判別分析方法比較表6-5三種判別方法的效率距離判別費(fèi)希爾判別貝葉斯判別協(xié)方差陣相等協(xié)方差陣不等協(xié)方差陣相等協(xié)方差陣不等正確率92%92%88%84%92%誤判率8%8%12%16%8%由三種方法的正確率可知,當(dāng)假設(shè)兩個(gè)總體的協(xié)方差陣相等時(shí),貝葉斯判別方法的正確率最低,為84%,距離判別的正確率最高,為92%;當(dāng)假設(shè)兩個(gè)總體的協(xié)方差陣不等時(shí),距離判別和貝葉斯判別有相同的正確率,為92%,費(fèi)希爾判別方法的正確率最低,為88%。由于貝葉斯判別方法考慮了誤判的損失,因此在本例中,當(dāng)假設(shè)協(xié)方差陣不等時(shí),貝葉斯判別方法效果最佳。因此可用新樣本進(jìn)行分類預(yù)測(cè)。參考文獻(xiàn)⑴吳密霞.林春玲.多元統(tǒng)計(jì)分析[M].北京:科學(xué)出版社.2014.薛毅,陳立萍.R統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社.2007.薛薇.基于R的統(tǒng)計(jì)分析與數(shù)據(jù)挖掘[M].北京:中國(guó)人民大學(xué)出版社.2014附錄:#導(dǎo)入數(shù)據(jù)rm(list=ls())setwd("C:\\Users\\Administrator\\Desktop\\數(shù)據(jù)")job1<-read.csv("4-16分地區(qū)按行業(yè)分城鎮(zhèn)私營(yíng)單位就業(yè)人員平均工資(2013年)-副本.csv",header=TRUE)job<-scale(job1[,2:18])M<-cor(job)##相關(guān)系數(shù)圖##library("corrgram")corrgram(M,lower.panel=panel.shade,upper.panel=panel.pie,txt.panel=panel.txt,main="原有變量的相關(guān)系數(shù)圖")##基于主成分的因子分析####確定主成分個(gè)數(shù)##R<-eigen(M)R$valueslibrary("psych")scree(rx=M,factor=TRUE,main="基于主成分的碎石圖")##主成分分析(非旋轉(zhuǎn))##(pc<-principal(r=M,nfactors=3,rotate="none"))##主成分分析(旋轉(zhuǎn))##library("GPArotation")(pc2<-principal(r=M,nfactors=3,rotate="varimax"))#因子載荷圖##par(mfrow=c(1,2))factor.plot(pc,lable=rownames(pc$loadings))factor.plot(pc2,lable=rownames(pc2$loadings))##計(jì)算因子得分##pc3<-principal(r=M,nfactors=3,totate="varimax",scores=TRUE,method="regression")pc3$weightpcfs<-as.matrix(job)%*%pc3$weightpcfs##聚類分析##DISM<-dist(pcfs,method="euclidean")clur<-hclust(d=DISM,method="ward.D2")clur<-hclust(d=DISM,method="single")clur<-hclust(d=DISM,method="median")clur<-hclust(d=DISM,method="complete")par(mfrow=c(l,l))plot(clur,labels=jobl[,l])re<-rect.hclust(clur,k=4)box()##判斷聚類個(gè)數(shù)##plot(clur$height,29:1,type="b",cex=0.7,xlab="距離測(cè)度”,ylab="聚類數(shù)目")##聚類成員##job$memb<-cutree(clur,k=4)table(job$memb)plot(job$memb,pch=job$memb,ylab="類別編號(hào)",xlab="省市",main="聚類的類成員",axes=FALSE)par(las=2)axis(1,at=1:30,labels=job1[,1],cex.axis=0.8)axis(2,at=1:4,labels=1:4,cex.axis=0.8)box()##k-means聚類##set.seed(12345)clur2<-kmeans(pcfs,centers=4,nstart=4)clur2$sizeclur2$centersjob$k<-clur2$cluster##聚類圖##plot(job$k,pch=job$k,ylab="類別編號(hào)",xlab="省市",main="聚類的類成員",axes=FALSE)par(las=2)axis(1,at=1:30,labels=job1[,1],cex.axis=0.8)axis(2,at=1:4,labels=1:4,cex.axis=0.8)box()legend("topleft",c("第一類",”第二類",:第三類",”第四類”),pch=1:4,cex=0.5)##類中心折線圖##plot(clur2$center[1,],type="l",ylim=c(-3,3),xlab="聚類變量”,ylab="組均值”,main="各類聚類變量均值的變化折線圖”,axes=FALSE)axis(1,at=1:3,labels=c("基礎(chǔ)行業(yè)","高新行業(yè)","能源行業(yè)"),cex.axis=0.8)par(las=2)box()lines(1:3,clur2$center[2,],lty=2,col=2)lines(1:3,clur2$center[3,],lty=3,col=3)lines(1:3,clur2$center[4,],lty=4,col=4)legend("topleft",c("第一類",”第二類",”第三類",”第四類"),lty=1:4,col=1:4,cex=0.5)##k均值聚類結(jié)果評(píng)價(jià)##clur2$betweenss/clur2$totss*100##主成分分析####確定主成分個(gè)數(shù)##R<-eigen(M)R$valuesplot(R$values,type="b",ylab="特征值",xlab="特征值編號(hào)")(cR<-cumsum(R$values)/sum(R$values))##主成分分析##(U<-as.matrix(R$vectors[,1:3]))##典型相關(guān)分析==========================================================ca<-cancor(job[,c(1,2,4,5,6,7,10,13,14)],job[,c(8,9,11,12,15,16,17)])caU<-as.matrix(job[,c(1,2,4,5,6,7,10,13,14)])%*%ca$xcoefV<-as.matrix(job[,c(8,9,11,12,15,16,17)])%*%ca$ycoefUVpar(mfrow=c(1,2),mar=c(4,4,2,2))plot(U[,1],V[,1],xlab="U1",ylab="V1")#相關(guān)變量得分散點(diǎn)圖#相關(guān)系數(shù)檢驗(yàn)corcoef.test<-function(r,n,p,q,alpha=0.1){m<-length(r);Q<-rep(0,m);lambda<-1for(kinm:1){lambda<-lambda*(1-r[k]A2);Q[k]<--log(lambda)}s<-0;i<-mfor(kin1:m){Q[k]<-(n-k+1-1/2*(p+q+3)+s)*Q[k]chi<-1-pchisq(Q[k],(p-k+1)*(q-k+1))if(chi>alpha){i<-k-1;break}s<-s+1/r[k]A2}i}corcoef.test(ca$cor,n=30,p=10,q=7)#判別分析#組織數(shù)據(jù)job2<-cbind(pcfs[,1:2],job$k)pan<-subset(job2,job2[,3]==2ljob2[,3]==3)pan<-as.data.frame(pan)T2<-subset(pan,pan[,3]==2)T3<-subset(pan,pan[,3]==3)(colMeans(T2[,l:2]))(colMeans(T3[,l:2]))#Fisher判別library("MASS")(result<-lda(V3?PC1+P

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論