K-均值聚類法實(shí)例解析_第1頁
K-均值聚類法實(shí)例解析_第2頁
K-均值聚類法實(shí)例解析_第3頁
K-均值聚類法實(shí)例解析_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、例:為了更深入了解我國(guó)環(huán)境的污染程度狀況,現(xiàn)利用2009年數(shù)據(jù)對(duì)全國(guó)31個(gè)省、自治區(qū)、直轄市進(jìn)行聚類分析。解:現(xiàn)在要分析我國(guó)各個(gè)地區(qū)的環(huán)境污染程度,案例中選擇了各地區(qū)“工業(yè)廢氣排放總量”“工業(yè)廢水排放總量”和“二氧化硫排放總量”三個(gè)指標(biāo)來反映不同污染程度的環(huán)境狀況,同時(shí)選擇了北京等省市的數(shù)據(jù)加以研究。這個(gè)問題屬于典型的多元分析問題,需要利用多個(gè)指標(biāo)來分析各省市之間環(huán)境污染程度的差異。因此,可以考慮利用快速聚類分析來研究各省市之間的差異性,具體操作步驟如下。1)打隨書光盤中的數(shù)據(jù)文件9-2.sav,選擇菜單欄中的【Analyze(分析)一【Classify(分類)】一【K-MeansCluste

2、r(K均值聚類)】命令,彈出【K-MeansClusterAnalysis(K均值聚類分析)】對(duì)話框。2)在左側(cè)的候選變量列表框中將X1、X2和X3變量設(shè)定為聚類分析變量,將其添加至Variables(變量)】列表框中;同時(shí)選擇Y作為標(biāo)識(shí)變量,將其移入【LabelCasesby(個(gè)案標(biāo)記依據(jù))】列表框中。3) 在【NumberofClusters(聚類數(shù))】文本框中輸入數(shù)值“3”,表示將樣品利用聚類分析分為三類,如下圖所示。4) 單擊【Save(保存)】按鈕,彈出【K-MeansClusterAnalysis:Save(K均值聚類分析:保存)】對(duì)話框;勾選Clustermembership)(

3、聚類新成員)】和【Distancefromclustercenter(與聚類中心的距離)】復(fù)選框,表示輸出樣品的聚類類別及距離,其他選項(xiàng)保持系統(tǒng)默認(rèn)設(shè)置,如下圖所示,單擊【Continue(繼續(xù))按鈕返回主對(duì)話框。K-BeansCluster;S.磋gustemembershipiDistancefromclustercenterlaricoMinue|CanceljHelp5) 單擊【Options(選項(xiàng))】按鈕,彈出【K-MeansClusterAnalysis:Options(K均值聚類分析:選項(xiàng)】對(duì)話框;勾選【Statistics(統(tǒng)計(jì)量)】選項(xiàng)組中的復(fù)選框,其他選項(xiàng)保持系統(tǒng)默認(rèn)設(shè)置,

4、如下圖所示,單擊【Continue(繼續(xù))按鈕返回主對(duì)話框,單擊【OK(確定)】按鈕完成操作。庭KTeanwClusterAnal-Statistics1VInitialclustercentersANOVAtablelsirii-iirn-iimrBimrsinrsinrsinrini-sinninnimrBinrsinrsinrsinrini-sinninriiI4ClusterinformationforeachcasgL,rL,rL,rl,rL«rL«rl,rL,rL,rL,rL,rl,rL«rl,rL,rL,rL,rTIMissingValuesExcl

5、udecaseslistwiseExcludecasespairwiseContinueC日IHelp實(shí)例結(jié)果及分析(1)快速聚類分析的初始中心SPSS軟件首先給出了進(jìn)行快速聚類分析的初始中心數(shù)據(jù)。由于這里是要求將樣品分為三類,因此軟件給出了三個(gè)中心位置。但是,這些中心位置可能在后續(xù)的迭代計(jì)算中出現(xiàn)調(diào)整。Cluster123工業(yè)廢氣排放總量152218627432工業(yè)廢水排放總量942140325256160二氧4t硫排放總量0.2135.5107.4(2)迭代歷史表下表顯示了快速聚類分析的迭代過程。可以看到,第一次迭代的變化值最大,其后隨之減少。最后第三次迭代時(shí),聚類中心就不再變化了。這說明

6、,本次快速聚類的迭代過程速度很快。IteranonChangeinClusterCenters1.J3I129063.87515957.00526705.18774706.4013783.4S2222OS69230.0000.0000.000(3)聚類分析結(jié)果列表通過快速聚類分析的最終結(jié)果列表可以看到整個(gè)樣品被分為以下三大類。第一類:北京、天津、山西、內(nèi)蒙古等20個(gè)地區(qū)。這些地區(qū)工業(yè)廢水、廢氣及二氧化硫的排放總量相對(duì)最低。第二類:河北、福建、河南、湖北、湖南、廣西和四川。它們的污染程度在所有省份中位居中等水平。第三類:江蘇、浙江、山東和廣東。這些地區(qū)的工業(yè)廢水、廢氣及二氧化硫排放總量是最高的,

7、因此環(huán)境污染也最為嚴(yán)重。表中最后一列顯示了樣品和所屬類別中心的聚類,此表中的最后兩列分別作為新變量保存于當(dāng)前的工作文件中。(4)最終聚類分析中心表如下表所示列出了最終聚類分析中心??梢钥吹?,最后的中心位置較初始中心位置發(fā)生了較大的變化。Cluster123I工業(yè)廢氣排放總量99211907926025工業(yè)廢水排放總量33219121194207780二氧化硫排放總量56.093.0110.9(5)最終聚類中心位置之間的距離如下表所示為快速聚類分析最終確定的各類中心位置的距離表。從結(jié)果來看,第一類和第三類之間的距離最大,而第二類和第三類之間的距離最短,這些結(jié)果和實(shí)際情況是相符合的。Cluster

8、12318s449975175301.923288449.975S6864.2293175301.92386S64229(6)方差分析表如下表所示為方差分析表,顯示了各個(gè)指標(biāo)在不同類的均值比較情況。各數(shù)據(jù)項(xiàng)的含義依次是:組間均方、組間自由度、組內(nèi)均方、組內(nèi)自由度??梢钥吹?,各個(gè)指標(biāo)在不同類之間的差異是非常明顯的,這進(jìn)一步驗(yàn)證了聚類分析結(jié)果的有效性。ClusterEnorFSig.MeanSquareMeanSquare工業(yè)廢氣排放總量5.45RE8S6415059.434286.3160.005工業(yè)廢水排放總量6.018E107金6317ES28952700.000二氧化硫排放總量7125.1107心15102472S4,71S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論