聚類分析與判別分析實(shí)驗(yàn)報(bào)告范例(共12頁)_第1頁
聚類分析與判別分析實(shí)驗(yàn)報(bào)告范例(共12頁)_第2頁
聚類分析與判別分析實(shí)驗(yàn)報(bào)告范例(共12頁)_第3頁
聚類分析與判別分析實(shí)驗(yàn)報(bào)告范例(共12頁)_第4頁
聚類分析與判別分析實(shí)驗(yàn)報(bào)告范例(共12頁)_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上 上海電力學(xué)院應(yīng)用多元統(tǒng)計(jì)分析判別分析與聚類分析學(xué)院: 姓名:  學(xué)號(hào): 2016年4月 我國(guó)部分城市經(jīng)濟(jì)發(fā)展水平的聚類分析和判別分析摘要:本文基于中國(guó)統(tǒng)計(jì)年鑒(2012年版)統(tǒng)計(jì)數(shù)據(jù),尋找評(píng)價(jià)城市經(jīng)濟(jì)發(fā)展水平的指標(biāo),包括第二三產(chǎn)業(yè)發(fā)展水平、固定投資額、社會(huì)消費(fèi)零售總額和進(jìn)出口貿(mào)易交流五個(gè)指標(biāo),利用統(tǒng)計(jì)軟件SPSS綜合考慮各指標(biāo),對(duì)所選城市進(jìn)行K-Means 聚類分析,利用Fisher 線性判別待判城市類型,進(jìn)一步驗(yàn)證所建模型的有效性。關(guān)鍵字:聚類分析,判別分析,SPSS ,城市經(jīng)濟(jì)發(fā)展水平1,引言經(jīng)過改革開放后三十多年的長(zhǎng)足進(jìn)展,中國(guó)城市化已步入中期階段,

2、步伐加快,質(zhì)量顯著提高。同時(shí),中國(guó)城市化又處于周期轉(zhuǎn)折點(diǎn)上,上一周期行將結(jié)束,下一周期將要開始。2011年中國(guó)城市化率首次突破50,意味著中國(guó)城鎮(zhèn)人口首次超過農(nóng)村人口,中國(guó)城市化進(jìn)入關(guān)鍵發(fā)展階段,這必將引起深刻的社會(huì)變革。根據(jù)2011年4月公布的第六次人口普查數(shù)據(jù),2010年中國(guó)居住城鎮(zhèn)的人口接近6.6億人,城鎮(zhèn)化率達(dá)到49.68%,全國(guó)已有近一半的人口居住在城鎮(zhèn),這意味著中國(guó)將進(jìn)入城鎮(zhèn)時(shí)代。在過去30多年中,中國(guó)的城市化發(fā)展取得了很大成績(jī)。然而,總體上中國(guó)的城市化道路是城市化滯后于工業(yè)化的非均衡道路;是土地城市化快于人口城市化的非規(guī)整道路;是以抑制農(nóng)村、農(nóng)業(yè)、農(nóng)民的經(jīng)濟(jì)利益來支持城市發(fā)展,導(dǎo)

3、致不能兼顧效率和公平的非協(xié)調(diào)道路;是片面追求城市發(fā)展的數(shù)量和規(guī)模,而以生態(tài)環(huán)境損失為代價(jià)的非持續(xù)道路;是以生產(chǎn)要素的高投入,而不是投入少、產(chǎn)值高、依靠科技拉動(dòng)經(jīng)濟(jì)增長(zhǎng)的非集約道路。傳統(tǒng)的城市化存在著諸多弊端,中國(guó)未來的城市化必須走出一條具有自身特色的新型城市化道路。具體而言,中國(guó)城市經(jīng)濟(jì)發(fā)展水平受限于地理、環(huán)境、資源以及國(guó)家政策等因素的影響,我國(guó)不同區(qū)域的城市化進(jìn)程尚存在很大差異。2012年中國(guó)城市發(fā)展報(bào)告中指出,從區(qū)域角度看,目前沿海一帶城市發(fā)展起步早,與國(guó)際貿(mào)易交流往來頻率高,經(jīng)濟(jì)發(fā)展水平較高,西部地區(qū)受到國(guó)家政策的大力扶持,表現(xiàn)出了強(qiáng)勁的增長(zhǎng)勢(shì)頭,西部主要城市經(jīng)濟(jì)發(fā)展水平僅次于沿海發(fā)達(dá)地

4、區(qū),而中部地區(qū)城市發(fā)展的水平已經(jīng)落到了最后。顯然,通過研究不同城市的經(jīng)濟(jì)發(fā)展?fàn)顩r和經(jīng)濟(jì)類型,指出其發(fā)展差異所在,可以為政府在出臺(tái)相關(guān)政策來平衡區(qū)域經(jīng)濟(jì)發(fā)展,縮小不同地區(qū)人民生活水平的差異提供一定的指導(dǎo)意見,也為我們深刻理解國(guó)家相關(guān)政策提供了扎實(shí)的基礎(chǔ)。 2,相關(guān)統(tǒng)計(jì)基礎(chǔ)理論2.1,聚類分析聚類分析指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過程。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,聚類分析是通過簡(jiǎn)化數(shù)據(jù)的一種方法。傳統(tǒng)的統(tǒng)計(jì)聚類分析方法包括法、加入法、動(dòng)態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-、k-中心點(diǎn)等的聚類分析工具已被加入到

5、許多著名的統(tǒng)計(jì)分析中,如、等。本文使用統(tǒng)計(jì)軟件對(duì)所收集的數(shù)據(jù)進(jìn)行快速聚類,其特點(diǎn)是:在確定類別數(shù)量基礎(chǔ)上,先給定一個(gè)粗糙的初始分類,然后按照某種原則進(jìn)行反復(fù)修改,直至分類較為合理。在選定類中心作為凝聚點(diǎn)的基礎(chǔ)上進(jìn)行分類和修正的方法有很多,本文使用的是K-Means 算法。K-Means 算法接受輸入量k ;然后將n個(gè)數(shù)據(jù)對(duì)象劃分為 k個(gè)聚類以便使得所獲得的聚類滿足:同一聚類中的對(duì)象相似度較高;而不同聚類中的對(duì)象相似度較小。聚類相似度是利用各聚類中對(duì)象的均值所獲得一個(gè)“中心對(duì)象”(引力中心)來進(jìn)行計(jì)算的。K-Means 算法的工作過程說明如下:首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇 k 個(gè)對(duì)象作為初始聚類中

6、心;而對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對(duì)象的均值);不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù)。 一般而言,k個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。2.2,判別分析判別分析是市場(chǎng)研究的重要分析技術(shù),也是多變量分析技術(shù)。它可以就一定數(shù)量的個(gè)體的一個(gè)分類變量和相應(yīng)的其它多元變量的已知信息,確定分類變量與其它多元變量之間的數(shù)量關(guān)系,建立判別函數(shù),并利用判別函數(shù)構(gòu)建Biplot二元判別圖(概念圖)。同時(shí),

7、利用這一數(shù)量關(guān)系對(duì)其他已知多元變量的信息、但未知分組的子類型的個(gè)體進(jìn)行判別分組。判別分析屬于監(jiān)督類分析方法,例如:市場(chǎng)細(xì)分研究中,常涉及判別個(gè)體所屬類型的問題,也常涉及不同品牌在一組產(chǎn)品屬性之間的消費(fèi)者偏好和認(rèn)知概念,判別分析可以很好地對(duì)這種差異進(jìn)行鑒別。并在低維度空間表現(xiàn)這種差異。判別分析主要有距離判別、貝葉斯(Bayes)判別、費(fèi)舍爾(Fisher)判別等幾種常用方法。距離判別的基本原理是:首先對(duì)樣本到總體G之間的距離進(jìn)行合理規(guī)定,然后依照“就近”原則判定樣本的歸屬,常用馬氏距離(Mahalanobis)規(guī)定為:式中為p元總體G的協(xié)方差陣,x是取自G的樣品,則該式即為樣品x到總體G的馬氏距

8、離。貝葉斯判別既考慮了先驗(yàn)分布產(chǎn)生的影響,也考慮到誤判損失產(chǎn)生的影響,是衡量一個(gè)判別優(yōu)劣的比較合理的準(zhǔn)則。費(fèi)舍爾判別的基本思想與主成分分析十分相似,當(dāng)總體是高維向量時(shí),先把其綜合成一個(gè)一維變量,然后在對(duì)一維變量進(jìn)行距離判別,費(fèi)舍爾判別實(shí)際上是一種降維處理,降維壓縮后,樣品y到各個(gè)總體的距離可以用歐式距離度量,即:由此導(dǎo)出Fisher判別規(guī)則為:, 則本文及使用Fisher判別建立線性判別函數(shù)進(jìn)行距離判別。3,模型建立3.1 設(shè)置變量本文綜合考慮了評(píng)價(jià)城市發(fā)展指數(shù)衡量因素,選取衡量一個(gè)城市經(jīng)濟(jì)發(fā)展水平的主要因素,城市化進(jìn)程總是伴隨著工業(yè)化發(fā)展,發(fā)達(dá)的服務(wù)業(yè)水平是衡量現(xiàn)代新興城市的主要指標(biāo),此外,

9、綜合考慮了固定資產(chǎn)投資總額與社會(huì)消費(fèi)品零售總額以及貨物進(jìn)出口總額作為類別分析的主要經(jīng)濟(jì)指標(biāo):X1:城市第二產(chǎn)業(yè)產(chǎn)值(億元)X2:城市第三產(chǎn)業(yè)產(chǎn)值(億元)X3:城市固定資產(chǎn)投資總額(億元)X4:城市社會(huì)消費(fèi)品零售總額(億元)X5:貨物進(jìn)出口總額(億元)從區(qū)域發(fā)展角度從上面5個(gè)經(jīng)濟(jì)指標(biāo)將城市經(jīng)濟(jì)發(fā)展水平劃分為三大類:G1:發(fā)達(dá)城市G2:中度發(fā)達(dá)城市G3:欠發(fā)達(dá)城市3.2 數(shù)據(jù)收集和整理本文所有數(shù)據(jù)來源于中國(guó)統(tǒng)計(jì)年鑒(2012),選取2011年度36個(gè)城市主要經(jīng)濟(jì)發(fā)展水平做模型建立及分析。其中前32個(gè)城市相關(guān)經(jīng)濟(jì)指標(biāo)水平作為初始樣本用于劃分類別,建立類別總體G;最后四個(gè)城市(杭州、南寧、昆明、銀川)

10、及其相關(guān)經(jīng)濟(jì)發(fā)展水平用作待判樣品,利用判別函數(shù)進(jìn)行判別分析。所有相關(guān)數(shù)據(jù)經(jīng)過量綱統(tǒng)一規(guī)則化處理見表1所示。表 1 我國(guó)部分城市相關(guān)經(jīng)濟(jì)發(fā)展水平(2011年)序號(hào)城市第二產(chǎn)業(yè)(億元)第三產(chǎn)業(yè)(億元)固定資產(chǎn)投資總額(億元)社會(huì)消費(fèi)品零售總額(億元)貨物進(jìn)出口總額(億元)1 北 京 3752.512363.25851.52016900.324623374.98842 天 津 5928.35219.27483.69733395.066203.46423 石 家 莊 2031.91635.83026.97781662.9864850.11124 太 原 949.21097.11024.1444973.

11、2937513.63065 呼和浩特 790.01277.81031.6781890.0478121.47366 沈 陽 3026.92609.84577.0942426.8655637.2157 大 連 3204.22550.74580.05851924.7943630.58748 長(zhǎng) 春 2092.71620.22356.61891515.85371040.93229 哈 爾 濱 1647.22147.83011.9712070.4129307.054810 上 海 7927.911142.95064.26246814.826246.15111 南 京 2760.83220.43757.2

12、5172697.09973440.635812 寧 波 3349.52454.52385.50722018.86175891.209213 合 肥 2002.21426.23376.96521111.11881207.71914 福 州 1711.21700.12720.28271947.81022083.485615 廈 門 1297.11217.51128.0872800.27794210.000216 南 昌 1579.3974.72022.3297928.3438473.022617 濟(jì) 南 1829.02339.51934.33892114.2868624.12318 青 島 315

13、0.73158.53502.53822302.37034329.130219 鄭 州 2874.21974.03002.51987.1147959.735420 武 漢 3254.03309.54255.16213031.78851367.374821 長(zhǎng) 沙 3151.72224.33510.24252201.6112449.360422 廣 州 4577.07641.93412.252436970.2623 深 圳 5343.36155.72136.38823520.873624845.98224 海 口 177.9487.7395.0408387.1804236.175625 重 慶 5

14、543.03623.87579.44543487.8071753.071626 成 都 3143.83383.44944.01572861.28352274.379827 貴 陽 586.8733.71600.5898584.3292392.979628 拉 薩75.2137.2220.5031102.594878.445229 西 安 1697.21993.93352.121965.9774754.7430 蘭 州 656.5663.5950.5758639.7231112.765831 西 寧 411.3332.0528.0052271.287348.937832 烏魯木齊 759.190

15、8.9427.6221695.0278541.790433 杭 州 3323.83458.53100.02182548.35993838.30834 南 寧 829.61076.31950.86281073.1541150.625235 昆 明 1161.21214.62275.52861271.7298721.322436 銀 川 525.2414.4720.5627274.470572.64,數(shù)據(jù)結(jié)果及分析4.1 聚類分析4.1.1 聚類分析過程采用統(tǒng)計(jì)軟件SPSS可以快速方便的將樣本分類,“K-均值聚類”將樣本分為設(shè)定好的三類,分類結(jié)果如下:(1)K-均值聚類初始聚類中心初始聚類中心聚類

16、123第二產(chǎn)業(yè)(億元)7928592875第三產(chǎn)業(yè)(億元)111435219137固定資產(chǎn)投資總額(億元)5064.17483.1220.0社會(huì)消費(fèi)品零售總額(億元)6814.80003395.0600102.5948貨物進(jìn)出口總額(億元)26246.06203.078.0(2)樣本聚類 聚類成員案例號(hào)城市聚類距離案例號(hào)城市聚類距離1 北 京13937.77217 濟(jì) 南31347.1542 天 津24379.85018 青 島21710.0433 石 家 莊31259.02619 鄭 州31969.2614 太 原31214.06320 武 漢22771.8345 呼和浩特31414.697

17、21 長(zhǎng) 沙32607.5836 沈 陽33452.67422 廣 州25518.2357 大 連21842.87323 深 圳14887.3768 長(zhǎng) 春3837.81124 海 口32474.7509 哈 爾 濱31584.29125 重 慶24072.60110 上 海13214.67326 成 都21942.91011 南 京21681.20527 貴 陽31402.62012 寧 波23455.97928 拉 薩32918.19013 合 肥31536.88129 西 安31652.62514 福 州31682.56330 蘭 州31767.33415 廈 門33577.16931

18、西 寧32433.50316 南 昌3617.36732 烏魯木齊31898.368(3)最終聚類中心最終聚類中心聚類123第二產(chǎn)業(yè)(億元)567538791467第三產(chǎn)業(yè)(億元)988738401375固定資產(chǎn)投資總額(億元)4350.84655.02009.0社會(huì)消費(fèi)品零售總額(億元)5745.33272995.78501263.8072貨物進(jìn)出口總額(億元)24822.03984.0782.0最終聚類中心間的距離聚類123121946.79726337.272221946.7975669.843326337.2725669.843(4)聚類方差分析方差分析聚類誤差FSig.均方df均方d

19、f第二產(chǎn)業(yè)(億元).7352.4792927.855.000第三產(chǎn)業(yè)(億元).0132.4072955.463.000固定資產(chǎn)投資總額(億元).6732.3762911.271.000社會(huì)消費(fèi)品零售總額(億元).0502.5312934.322.000貨物進(jìn)出口總額(億元).3832.99229407.912.000F 檢驗(yàn)應(yīng)僅用于描述性目的,因?yàn)檫x中的聚類將被用來最大化不同聚類中的案例間的差別。觀測(cè)到的顯著性水平并未據(jù)此進(jìn)行更正,因此無法將其解釋為是對(duì)聚類均值相等這一假設(shè)的檢驗(yàn)。4.1.2 聚類結(jié)果分析從上述聚類分析過程可知,樣本完全有效,32個(gè)個(gè)體被分成三大類:G1(發(fā)達(dá)城市):北京,上海

20、,深圳。G2(中度發(fā)達(dá)城市):天津,大連,南京,寧波,青島,武漢,廣州,重慶,程度。G3(欠發(fā)達(dá)城市):石家莊,太原,呼和浩特,沈陽,長(zhǎng)春,哈爾濱,合肥,福州,廈門,南昌,濟(jì)南,鄭州,長(zhǎng)沙,???,貴陽,拉薩,西安,蘭州,西寧,烏魯木齊。從城市分類結(jié)果可知,北上深作為國(guó)際化城市發(fā)展代表,其經(jīng)濟(jì)發(fā)展水平遠(yuǎn)超其他沿海城市及內(nèi)陸城市;沿海開放城市以及內(nèi)陸主要樞紐城市的發(fā)展水平高于其他城市;中部地區(qū)級(jí)西部城市發(fā)展水平受限于地理、資源和資本等因素,經(jīng)濟(jì)發(fā)展表現(xiàn)不強(qiáng)勁。從最后的方差分析中可知,分類檢驗(yàn)水平顯著,分類結(jié)果值得借鑒。4.2 判別分析4.2.1 判別結(jié)果及分析一般來講,利用判別分析首先要明確變量測(cè)

21、量尺度及變量的類型和關(guān)系;因變量(dependent variable): 分組變量定性數(shù)據(jù)(個(gè)體、產(chǎn)品/品牌、特征,定類變量)。自變量 (independent variable):判別變量定量數(shù)據(jù)(屬性的評(píng)價(jià)得分,數(shù)量型變量)。(1)判別圖圖 1 典則判別函數(shù)從圖中很明顯,看到三個(gè)組中心也就是經(jīng)濟(jì)發(fā)展水平,以及圍繞著組中心的樣本,說明直觀上分組判別式完全可以接受的。(2)典型判別式函數(shù)摘要特征值函數(shù)特征值方差的 %累積 %正則相關(guān)性137.790a98.098.0.9872.765a2.0100.0.658a. 分析中使用了前 2 個(gè)典型判別式函數(shù)。Wilks 的 Lambda函數(shù)檢驗(yàn)Wi

22、lks 的 Lambda卡方dfSig.1 到 2.015114.10610.0002.56715.3364.004標(biāo)準(zhǔn)化的典型判別式函數(shù)系數(shù)函數(shù)12第二產(chǎn)業(yè)(億元)-.974.940第三產(chǎn)業(yè)(億元)-1.198.773固定資產(chǎn)投資總額(億元).752.211社會(huì)消費(fèi)品零售總額(億元)1.190-.675貨物進(jìn)出口總額(億元)1.409-.314結(jié)構(gòu)矩陣函數(shù)12貨物進(jìn)出口總額(億元).863*.090第二產(chǎn)業(yè)(億元).184.920*固定資產(chǎn)投資總額(億元).076.857*社會(huì)消費(fèi)品零售總額(億元).231.675*第三產(chǎn)業(yè)(億元).308.567*判別變量和標(biāo)準(zhǔn)化典型判別式函數(shù)之間的匯聚組

23、間相關(guān)性 按函數(shù)內(nèi)相關(guān)性的絕對(duì)大小排序的變量。*. 每個(gè)變量和任意判別式函數(shù)間最大的絕對(duì)相關(guān)性從表中我們看到,因?yàn)榉纸M變量是三類,所以我們得到兩個(gè)判別函數(shù),其中第一判別函數(shù)解釋了數(shù)據(jù)的98%,第二判別函數(shù)解釋了2%;兩個(gè)判別函數(shù)解釋了100%;當(dāng)然,兩個(gè)判別函數(shù)直接具有顯著的差異和判別力。(3)分類統(tǒng)計(jì)量組的先驗(yàn)概率類別先驗(yàn)用于分析的案例未加權(quán)的已加權(quán)的1.33333.0002.33399.0003.3332020.000合計(jì)1.0003232.000分類函數(shù)系數(shù)類別123第二產(chǎn)業(yè)(億元)-.019-.001-.001第三產(chǎn)業(yè)(億元)-.021-.004-.003固定資產(chǎn)投資總額(億元).01

24、1.002.001社會(huì)消費(fèi)品零售總額(億元).030.006.004貨物進(jìn)出口總額(億元).022.003.001(常量)-231.519-12.269-2.727Fisher 的線性判別式函數(shù)Fisher線性判別函數(shù),我們主要用來構(gòu)建判別方程,理論上說:如果我們知道某個(gè)城市在5經(jīng)濟(jì)指標(biāo)的發(fā)展水平值,我們就可以估計(jì)出該城市應(yīng)該是哪種類型的。4.2.2 判別檢驗(yàn)判別變量是數(shù)量型測(cè)量尺度變量,分析樣本個(gè)數(shù)至少比判別變量多兩個(gè),我們?yōu)榱说玫脚袆e函數(shù),經(jīng)常需要把樣本隨機(jī)分成訓(xùn)練樣本和檢驗(yàn)樣本等工作,如本文最后四個(gè)(序號(hào)33-36)個(gè)體就可作為檢驗(yàn)樣本,也成待判樣本。由上表可知Fisher判別方程:判別規(guī)則:, 則判別結(jié)果:1 杭 州21583.3912 南 寧3842.7743 昆 明3401.5674 銀 川32095.787直觀上,杭州作

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論