北航數(shù)理統(tǒng)計(jì)大作業(yè) 聚類分析_第1頁
北航數(shù)理統(tǒng)計(jì)大作業(yè) 聚類分析_第2頁
北航數(shù)理統(tǒng)計(jì)大作業(yè) 聚類分析_第3頁
北航數(shù)理統(tǒng)計(jì)大作業(yè) 聚類分析_第4頁
北航數(shù)理統(tǒng)計(jì)大作業(yè) 聚類分析_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

應(yīng)用數(shù)理統(tǒng)計(jì)作業(yè)——聚類分析與判別分析-13-應(yīng)用數(shù)理統(tǒng)計(jì)聚類分析與判別分析(第二次作業(yè))學(xué)院:姓名:學(xué)號:2015年12月

目錄我國部分城市經(jīng)濟(jì)發(fā)展水平的聚類分析和判別分析 4摘要: 41. 引言 42. 相關(guān)統(tǒng)計(jì)基礎(chǔ)理論 42.1聚類分析 42.2判別分析 53. 模型建立 63.1設(shè)置變量 63.2數(shù)據(jù)收集和整理 64. 數(shù)據(jù)結(jié)果及分析 84.1聚類分析 84.2判別分析 105. 結(jié)論 14參考文獻(xiàn) 15

我國部分城市經(jīng)濟(jì)發(fā)展水平的聚類分析和判別分析摘要:本文基于《中國統(tǒng)計(jì)年鑒》(2014年版)統(tǒng)計(jì)數(shù)據(jù),統(tǒng)計(jì)全國各省市居民消費(fèi)情況,包括各地區(qū)農(nóng)村居民人均純收入、農(nóng)村居民人均現(xiàn)金消費(fèi)、城鎮(zhèn)居民人均可支配收入、城鎮(zhèn)居民人均現(xiàn)金消費(fèi)情況共4個(gè)指標(biāo),利用統(tǒng)計(jì)軟件SPSS綜合考慮各指標(biāo),對所選地區(qū)進(jìn)行K-Means聚類分析,利用Fisher線性判別待判地區(qū)類型,進(jìn)一步驗(yàn)證所建模型的有效性。關(guān)鍵字:聚類分析,判別分析,SPSS,各省市居民消費(fèi)引言改革開放以來,我國經(jīng)濟(jì)飛速發(fā)展,居民生活水平不斷提高,隨之,居民的消費(fèi)也逐漸增加,對于各地區(qū)的居民收入和消費(fèi)的分析,一定程度上能夠體現(xiàn)該地區(qū)的經(jīng)濟(jì)狀況,有助于相關(guān)政策的制定。相關(guān)統(tǒng)計(jì)基礎(chǔ)理論2.1聚類分析聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個(gè)類的分析過程。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,聚類分析是通過數(shù)據(jù)建模簡化數(shù)據(jù)的一種方法。傳統(tǒng)的統(tǒng)計(jì)聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動(dòng)態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-均值、k-中心點(diǎn)等算法的聚類分析工具已被加入到許多著名的統(tǒng)計(jì)分析軟件包中,如SPSS、SAS等。本文使用統(tǒng)計(jì)軟件SPSS對所收集的數(shù)據(jù)進(jìn)行快速聚類,其特點(diǎn)是:在確定類別數(shù)量基礎(chǔ)上,先給定一個(gè)粗糙的初始分類,然后按照某種原則進(jìn)行反復(fù)修改,直至分類較為合理。在選定類中心作為凝聚點(diǎn)的基礎(chǔ)上進(jìn)行分類和修正的方法有很多,本文使用的是K-Means算法。K-Means算法接受輸入量k;然后將n個(gè)數(shù)據(jù)對象劃分為k個(gè)聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個(gè)“中心對象”(引力中心)來進(jìn)行計(jì)算的。K-Means算法的工作過程說明如下:首先從n個(gè)數(shù)據(jù)對象任意選擇k個(gè)對象作為初始聚類中心;而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測度函數(shù)。一般而言,k個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。2.2判別分析判別分析是市場研究的重要分析技術(shù),也是多變量分析技術(shù)。它可以就一定數(shù)量的個(gè)體的一個(gè)分類變量和相應(yīng)的其它多元變量的已知信息,確定分類變量與其它多元變量之間的數(shù)量關(guān)系,建立判別函數(shù),并利用判別函數(shù)構(gòu)建Biplot二元判別圖(概念圖)。同時(shí),利用這一數(shù)量關(guān)系對其他已知多元變量的信息、但未知分組的子類型的個(gè)體進(jìn)行判別分組。判別分析屬于監(jiān)督類分析方法,例如:市場細(xì)分研究中,常涉及判別個(gè)體所屬類型的問題,也常涉及不同品牌在一組產(chǎn)品屬性之間的消費(fèi)者偏好和認(rèn)知概念,判別分析可以很好地對這種差異進(jìn)行鑒別。并在低維度空間表現(xiàn)這種差異。判別分析主要有距離判別、貝葉斯(Bayes)判別、費(fèi)舍爾(Fisher)判別等幾種常用方法。距離判別的基本原理是:首先對樣本到總體G之間的距離進(jìn)行合理規(guī)定,然后依照“就近”原則判定樣本的歸屬,常用馬氏距離(Mahalanobis)規(guī)定為:式中為p元總體G的協(xié)方差陣,x是取自G的樣品,則該式即為樣品x到總體G的馬氏距離。貝葉斯判別既考慮了先驗(yàn)分布產(chǎn)生的影響,也考慮到誤判損失產(chǎn)生的影響,是衡量一個(gè)判別優(yōu)劣的比較合理的準(zhǔn)則。費(fèi)舍爾判別的基本思想與主成分分析十分相似,當(dāng)總體是高維向量時(shí),先把其綜合成一個(gè)一維變量,然后在對一維變量進(jìn)行距離判別,費(fèi)舍爾判別實(shí)際上是一種降維處理,降維壓縮后,樣品y到各個(gè)總體的距離可以用歐式距離度量,即:由此導(dǎo)出Fisher判別規(guī)則為:,則本文及使用Fisher判別建立線性判別函數(shù)進(jìn)行距離判別。模型建立3.1設(shè)置變量本文綜合考慮了評價(jià)各地區(qū)居民的收入支出情況,選取能夠反映一個(gè)?。ㄊ校┦罩顩r的主要因素,包括各地區(qū)農(nóng)村居民人均純收入、各地區(qū)農(nóng)村居民人均現(xiàn)金消費(fèi)、各地區(qū)城鎮(zhèn)居民人均可支配收入、各地區(qū)城鎮(zhèn)居民人均現(xiàn)金消費(fèi),共4項(xiàng)因素:X1:各地區(qū)農(nóng)村居民人均純收入 X2:各地區(qū)農(nóng)村居民人均現(xiàn)金消費(fèi)X3:各地區(qū)城鎮(zhèn)居民人均可支配收入X4:各地區(qū)城鎮(zhèn)居民人均現(xiàn)金消費(fèi)3.2數(shù)據(jù)收集和整理本文所有數(shù)據(jù)來源于《中國統(tǒng)計(jì)年鑒(2014)》,選取2013年度31個(gè)省市居民收支狀況數(shù)據(jù)進(jìn)行模型建立及分析,初始數(shù)據(jù)見表1所示。其中浙江、廣東、重慶未參與聚類分析和判別分析,而是作為了判別分析驗(yàn)證數(shù)據(jù)。表1各地區(qū)居民收支狀況編號地區(qū)農(nóng)村居民人均純收入/元農(nóng)村居民人均現(xiàn)金消費(fèi)/元城鎮(zhèn)居民人均可支配收入/元城鎮(zhèn)居民人均現(xiàn)金消費(fèi)/元1北京18337.513470.240321.026274.892天津15841.010088.632293.621711.863河北9101.95969.622580.313640.584山西7153.55463.222455.613166.195內(nèi)蒙古8595.76763.325496.719249.066遼寧10522.76864.925578.218029.657吉林9621.26827.622274.615932.318黑龍江9634.16542.119597.014161.719上海19595.013872.943851.428155.0010江蘇13597.89486.932537.520371.4811浙江16106.011541.137850.823257.1912安徽8097.95344.923114.216285.1713福建11184.27552.530816.420092.7214江西8781.54910.121872.713850.5115山東10619.97184.228264.117112.2416河南8475.35353.022398.014821.9817湖北8867.05531.122906.415749.5018湖南8372.15854.223414.015887.1119廣東11669.37881.533090.024133.2620廣西6790.94547.023305.415417.6221海南8342.65090.722928.915593.0422重慶8332.05057.825216.117813.8623四川7895.35406.122367.616343.4524貴州5434.03888.320667.113702.8725云南6141.33953.023235.515156.1526西藏6578.22661.520023.412231.8627陜西6502.65420.722858.416679.6928甘肅5107.84393.718964.814020.7229青海6196.45506.619498.513539.5030寧夏6931.05942.121833.315321.1031新疆7296.55519.919873.815206.16數(shù)據(jù)結(jié)果及分析4.1聚類分析4.1.1聚類分析過程采用統(tǒng)計(jì)軟件SPSS可以快速方便的將樣本分類,“K-均值聚類”將樣本分為設(shè)定好的三類,分類結(jié)果如下:(1)K-均值聚類初始聚類中心表1初始聚類中心聚類123農(nóng)村居民人均純收入5107.8019595.0015841.00農(nóng)村居民人均現(xiàn)金消費(fèi)4393.7013872.9010088.60城鎮(zhèn)居民人均可支配收入18964.8043851.4032293.60城鎮(zhèn)居民人均現(xiàn)金消費(fèi)14020.7228155.0021711.86(2)樣本聚類表3聚類成員案例號地區(qū)聚類距離1北京22106.0632上海22106.0633天津34094.7144內(nèi)蒙古15520.4525遼寧15465.7436江蘇32044.4307福建31948.5048山東34631.4639河北12185.57810山西12126.01311吉林12503.62912黑龍江13538.32313安徽11508.76514江西11763.94815河南1849.61416湖北11478.08017湖南11656.69418廣西11720.47519海南11096.90720四川11193.36921貴州13445.53622云南12392.05523西藏14670.97224陜西12074.79325甘肅14400.22126青海13484.40327寧夏11064.07228新疆12324.098(3)最終聚類中心表4最終聚類中心聚類123農(nóng)村居民人均純收入7747.2518966.2512810.73農(nóng)村居民人均現(xiàn)金消費(fèi)5352.4413671.558578.05城鎮(zhèn)居民人均可支配收入22147.4742086.2030977.90城鎮(zhèn)居民人均現(xiàn)金消費(fèi)15181.1827214.9519822.08表5最終聚類中心間的距離聚類123127155.81011642.926227155.81015552.591311642.92615552.591(4)聚類方差分析表6聚類方差分析聚類誤差FSig.均方df均方df農(nóng)村居民人均純收入1.446E822458629.3842558.812.000農(nóng)村居民人均現(xiàn)金消費(fèi)74433749.03021132487.9062565.726.000城鎮(zhèn)居民人均可支配收入4.525E823345462.88325135.265.000城鎮(zhèn)居民人均現(xiàn)金消費(fèi)1.554E822738553.2752556.758.000F檢驗(yàn)應(yīng)僅用于描述性目的,因?yàn)檫x中的聚類將被用來最大化不同聚類中的案例間的差別。觀測到的顯著性水平并未據(jù)此進(jìn)行更正,因此無法將其解釋為是對聚類均值相等這一假設(shè)的檢驗(yàn)。4.1.2聚類結(jié)果分析在本文中把31個(gè)省市分為了3個(gè)組,從上述聚類分析過程可知,樣本完全有效,這三類分別為:G1:遼寧、廣西、貴州、青海、新疆、安徽、江西、四川、甘肅、河北、山西、內(nèi)蒙古、吉林、黑龍江、河南、湖北、湖南、云南、陜西、寧夏G2:北京、上海G3:天津、江蘇、山東、福建從分類結(jié)果可知,G2類北京、上海是經(jīng)濟(jì)比較發(fā)達(dá)的地方,城鎮(zhèn)居民與農(nóng)村居民收入都最高,相應(yīng)的,其農(nóng)村居民和城鎮(zhèn)居民的消費(fèi)也最高;接下來的G3包括天津、江蘇、山東、福建,居民收入也較高,居民消費(fèi)水平也較高;剩余的省市被歸為了G2組。G1的北京、上海兩大經(jīng)濟(jì)中心,經(jīng)濟(jì)發(fā)達(dá)遠(yuǎn)超其他地區(qū),G2組都是沿海省份,這說明現(xiàn)在我國經(jīng)濟(jì)發(fā)展不平衡,沿海地區(qū)經(jīng)濟(jì)比較發(fā)達(dá),內(nèi)地經(jīng)濟(jì)發(fā)展落后。從最后的方差分析中可知,分類檢驗(yàn)水平顯著,分類結(jié)果值得借鑒。4.2判別分析4.2.1判別結(jié)果及分析一般來講,利用判別分析首先要明確變量測量尺度及變量的類型和關(guān)系;因變量(dependentvariable):分組變量——定性數(shù)據(jù)(個(gè)體、產(chǎn)品/品牌、特征,定類變量)。自變量(independentvariable):判別變量——定量數(shù)據(jù)(屬性的評價(jià)得分,數(shù)量型變量)。本文中,自變量就是各地區(qū)農(nóng)村居民人均純收入、各地區(qū)農(nóng)村居民人均現(xiàn)金消費(fèi)、各地區(qū)城鎮(zhèn)居民人均可支配收入、各地區(qū)城鎮(zhèn)居民人均現(xiàn)金消費(fèi)4項(xiàng)。判別圖從圖中明顯可以看出,看到三個(gè)組分別圍繞各自中心分布,說明直觀上分組判別是完全可以接受的。典型判別式函數(shù)摘要表7特征值函數(shù)特征值方差的%累積%正則相關(guān)性113.497a99.499.4.9652.078a.6100.0.269a.分析中使用了前2個(gè)典型判別式函數(shù)。表8Wilks的Lambda函數(shù)檢驗(yàn)Wilks的Lambda卡方dfSig.1到2.06464.6088.0002.9271.7703.621表9標(biāo)準(zhǔn)化的典型判別式函數(shù)系數(shù)函數(shù)12農(nóng)村居民人均純收入-.307-.963農(nóng)村居民人均現(xiàn)金消費(fèi).6951.045城鎮(zhèn)居民人均可支配收入1.317-.610城鎮(zhèn)居民人均現(xiàn)金消費(fèi)-.745.800表10結(jié)構(gòu)矩陣函數(shù)12城鎮(zhèn)居民人均可支配收入.895*-.009農(nóng)村居民人均現(xiàn)金消費(fèi).623*.506農(nóng)村居民人均純收入.590*-.078城鎮(zhèn)居民人均現(xiàn)金消費(fèi).579*.489判別變量和標(biāo)準(zhǔn)化典型判別式函數(shù)之間的匯聚組間相關(guān)性按函數(shù)內(nèi)相關(guān)性的絕對大小排序的變量。*.每個(gè)變量和任意判別式函數(shù)間最大的絕對相關(guān)性表11組質(zhì)心處的函數(shù)案例的類別號函數(shù)121-1.639.059210.540.51433.746-.581在組均值處評估的非標(biāo)準(zhǔn)化典型判別式函數(shù)從表7到表11中我們看到,因?yàn)榉纸M變量是三類,所以我們得到兩個(gè)判別函數(shù),其中第一判別函數(shù)解釋了數(shù)據(jù)的99.4%,第二判別函數(shù)解釋了0.6%;兩個(gè)判別函數(shù)解釋了100%;當(dāng)然,兩個(gè)判別函數(shù)直接具有顯著的差異和判別力。(3)分類統(tǒng)計(jì)量表12組的先驗(yàn)概率案例的類別號先驗(yàn)用于分析的案例未加權(quán)的已加權(quán)的1.3332222.0002.33322.0003.33344.000合計(jì)1.0002828.000表13分類函數(shù)系數(shù)案例的類別號123農(nóng)村居民人均純收入-.003-.005-.003農(nóng)村居民人均現(xiàn)金消費(fèi).002.010.005城鎮(zhèn)居民人均可支配收入.008.017.012城鎮(zhèn)居民人均現(xiàn)金消費(fèi)-.001-.006-.004(常量)-77.582-287.181-151.747Fisher的線性判別式函數(shù)表14組統(tǒng)計(jì)量案例的類別號均值標(biāo)準(zhǔn)差有效的N(列表狀態(tài))未加權(quán)的已加權(quán)的1農(nóng)村居民人均純收入7747.25001438.049772222.000農(nóng)村居民人均現(xiàn)金消費(fèi)5352.43641026.523812222.000城鎮(zhèn)居民人均可支配收入22147.47271770.801522222.000城鎮(zhèn)居民人均現(xiàn)金消費(fèi)15181.17861624.321652222.0002農(nóng)村居民人均純收入18966.2500889.1867822.000農(nóng)村居民人均現(xiàn)金消費(fèi)13671.5500284.7519022.000城鎮(zhèn)居民人均可支配收入42086.20002496.3697822.000城鎮(zhèn)居民人均現(xiàn)金消費(fèi)27214.94501329.4385322.0003農(nóng)村居民人均純收入12810.72502397.7316644.000農(nóng)村居民人均現(xiàn)金消費(fèi)8578.05001426.2234844.000城鎮(zhèn)居民人均可支配收入30977.90001962.4993744.000城鎮(zhèn)居民人均現(xiàn)金消費(fèi)19822.07501939.8958444.000合計(jì)農(nóng)村居民人均純收入9271.96073603.804452828.000農(nóng)村居民人均現(xiàn)金消費(fèi)6407.46072561.681272828.000城鎮(zhèn)居民人均可支配收入24833.15716051.283382828.000城鎮(zhèn)居民人均現(xiàn)金消費(fèi)16703.71863748.239062828.000我們用Fisher線性判別函數(shù)用來構(gòu)建判別方程,也就是說,理論上,如果我們知道某個(gè)城市在這4項(xiàng)居民收支狀況,就可以依據(jù)該函數(shù)判斷該城市屬于哪一組城市類型。4.2.2判別檢驗(yàn)判別變量是數(shù)量型測量尺度變量,分析樣本個(gè)數(shù)至少比判別變量多兩個(gè),我們?yōu)榱说玫脚袆e函數(shù),經(jīng)常需要把樣本隨機(jī)分成訓(xùn)練樣本和檢驗(yàn)樣本等工作,如本文最后四個(gè)(序號33-36)個(gè)體就可作為檢驗(yàn)樣本,也成待判樣本。由上表可知Fisher判別方程:G判別規(guī)則:,則判別結(jié)果:地區(qū)農(nóng)村居民人均純收入農(nóng)村居民人均現(xiàn)金消費(fèi)城鎮(zhèn)居民人均可支配收入城鎮(zhèn)居民人均現(xiàn)金消費(fèi)G1G2G3分組浙江1610611541.137850.823257.19176.7314251.6205218.8213G2廣東11669.37881.53309024133.26143.7598151.0179153.1996G3重慶83325057.825216.117813.8691.4525443.5275479.88376G1因此浙江與北京上海同屬經(jīng)濟(jì)發(fā)達(dá)的G2組,廣東與天津、江蘇、山東、福建同屬經(jīng)濟(jì)較發(fā)達(dá)的G3組,而重慶屬于經(jīng)濟(jì)欠發(fā)達(dá)的G3組。與31個(gè)地區(qū)共同做分類后得到的結(jié)果一直,因此該分類是合理的。表1531個(gè)省市聚類成員案例號地區(qū)聚類距離1北京1795.5932天津23897.9553河北32234.4104山西32227.9455內(nèi)蒙古35354.9186遼寧35313.7697吉林32456.9298黑龍江33660.5919上海14304.86710江蘇21876.33611浙江14537.36512安徽31333.92913福建21852.41514江西31859.36915山東25293.48716河南3855.53117湖北31353.31418湖南31502.62019廣東23986.80320廣西31629.91821海南3946.11822重慶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論