版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心1多元統(tǒng)計(jì)分析何曉群中國人民大學(xué)出版社第三章聚類分析§3.1聚類分析的思想§3.2相似性度量§3.3類和類的特征§3.4系統(tǒng)聚類法§3.5模糊聚類分析§3.6K-均值聚類和有序樣本聚類§3.7計(jì)算步驟與上機(jī)實(shí)現(xiàn)§3.8社會(huì)經(jīng)濟(jì)案例研究2023/3/132中國人民大學(xué)六西格瑪質(zhì)量管理研究中心2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心3§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束本書以SPSS15.0軟件來說明前面講述的幾種聚類法的實(shí)現(xiàn)過程。具體步驟如下:*分析所需要研究的問題,確定聚類分析所需要的多元變量;*選擇對(duì)樣品聚類還是對(duì)指標(biāo)聚類;*選擇合適的聚類方法;*選擇所需的輸出結(jié)果。我們將實(shí)現(xiàn)過程用邏輯框圖表示為圖3.8。
2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心4§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心5§3.7計(jì)算步驟與上機(jī)實(shí)踐
§
3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束3.7.1系統(tǒng)聚類法用SPSS軟件自帶的數(shù)據(jù)文件World95.sav來做一個(gè)實(shí)例分析。為了研究亞洲國家的經(jīng)濟(jì)發(fā)展水平和文化教育水平,以便于對(duì)亞洲國家進(jìn)行分類研究,這里我們進(jìn)行聚類分析(在World95.sav數(shù)據(jù)中篩選出亞洲國家,使用Data→SelectCases→Ifconditionissatisfied中選入region=3)。詳細(xì)步驟如下:(1)打開數(shù)據(jù)。使用菜單中File→Open命令,然后選中要分析的數(shù)據(jù)World95.sav。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心10§3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束(2)在菜單中的選項(xiàng)中選擇Analyze→Classify命令,Classify命令下有兩個(gè)聚類分析命令,一是K-meanscluster(K--均值聚類),二是Hierarchicalcluster(系統(tǒng)聚類法)。這里我們選擇系統(tǒng)聚類法。(3)在系統(tǒng)聚類法中,我們看到Cluster下有兩個(gè)選項(xiàng),Cases(樣品聚類或Q型聚類)和Variables(變量聚類或R型聚類)。這里我們選擇對(duì)樣品進(jìn)行聚類。(4)Display下面有兩個(gè)選項(xiàng),分別是Statistics(統(tǒng)計(jì)量)、Plots(輸出圖形),我們可以選擇所需要輸出的統(tǒng)計(jì)量和圖形。
2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心12§3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束(5)在系統(tǒng)聚類法中底下有四個(gè)按紐,分別是Statistics、Plots、Method、Save。(a)在Statistics中,有Agglomerationschedule(每一階段聚類的結(jié)果),Proximitymatrix(樣品間的相似性矩陣)。由Clustermembership可以指定聚類的個(gè)數(shù),none選項(xiàng)不指定聚類個(gè)數(shù),Singlesolution指定一個(gè)確定類的個(gè)數(shù),Rangeofsolution指定類的個(gè)數(shù)的范圍(如從分3類到分5類)。(b)在Plots中,有Dendrogram(譜系聚類圖,也稱樹狀聚類圖)、Icicle(冰柱圖)、Orientation指冰柱圖的方向(Horizontal水平方向、Vertical垂直方向)。(c)在Method中,Cluster可以選擇聚類方法,Measure中可以選擇計(jì)算的距離。(d)在Save中,可以選擇保存聚類結(jié)果。選好每個(gè)選項(xiàng)后,點(diǎn)“OK”就可以執(zhí)行了。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心17§3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束在這個(gè)數(shù)據(jù)文件中,我們選擇的變量(Variables(s))有Urban(城市人口比例),Lifeexpf(女性平均壽命)、Lifeexpm(男性平均壽命)、Literacy(有讀寫能力的人所占比例)、Gdp_cap(人均國內(nèi)生產(chǎn)總值),以Country(國家或地區(qū))來標(biāo)識(shí)(LabelCases)本例中的17個(gè)亞洲國家或地區(qū),并以其他5個(gè)變量進(jìn)行Q型聚類分析,即對(duì)國家進(jìn)行聚類。這里我們將原始變量標(biāo)準(zhǔn)化(在Method選項(xiàng)下TransformValues的Standardize空白框內(nèi),選擇ZScores),在Statistics選項(xiàng)中選擇AgglomerationSchedule,聚類方法選擇組內(nèi)聯(lián)結(jié)法(Within-grouplinkage),計(jì)算距離選擇平方歐氏距離,輸出冰柱圖和樹狀聚類圖。得到的結(jié)果如下:2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心20§3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束輸出結(jié)果中,表3.7表示接近度矩陣,是反映樣品之間相似性或者相異性的矩陣。本例中由于計(jì)算距離使用的是平方歐氏距離,所以樣品間距離越大,樣品越相異,如果我們計(jì)算距離選擇Pearson相關(guān)系數(shù),則接近度矩陣是相似性矩陣。由表中矩陣可以看出,Bangladesh(孟加拉國)與Cambodia(柬埔寨)的距離是最小的,因此它們最先聚為一類。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心21接近度矩陣目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心22聚類冰柱圖目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心23§3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束圖3.12是冰柱圖,也是反映樣品聚類情況的圖,如果按照設(shè)定的類數(shù),在那類數(shù)的行上從左到右就可以找到各類所包含的樣品。比如我們希望分為三類,最左邊的類數(shù)應(yīng)選3,每個(gè)樣品右邊都有一列X,如果某個(gè)樣品右邊的X個(gè)數(shù)少于3,那么它和前面多于3個(gè)X的樣品聚為一類,如此下去,直到找到全部三類為止。例如,HongKong右邊的列只有兩個(gè)X,那么它就與Japan和Singapore聚為一類了,而China右邊的列只有一個(gè)X,那么從Taiwan到China又被聚為一類,后面樣品聚為另一類。
表3-8組內(nèi)連接法聚合表2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心25§3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束表3.8是反映每一階段聚類的結(jié)果,Coefficients表示聚合系數(shù),第2列和第3列表示聚合的類,比如第一階段時(shí)(Stage=1)第2個(gè)樣品——Bangladesh(孟加拉國)與第3個(gè)樣品——Cambodia(柬埔寨)聚為一類,注意這時(shí)有16類(17-1=16)。因此某階段的分類數(shù)等于總的樣品數(shù)減去這個(gè)階段的序號(hào)。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心26聚合系數(shù)曲線目錄上頁下頁返回結(jié)束將表3-8的聚合系數(shù)利用Excel作出聚合系數(shù)隨分類數(shù)變化曲線,如圖3-13.
2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心27§3.7.1系統(tǒng)聚類法目錄上頁下頁返回結(jié)束圖3.13是聚合系數(shù)隨分類數(shù)變化的曲線。由圖可以看出,當(dāng)分類數(shù)為3或4時(shí), 曲線變得比較平緩,這個(gè)分類數(shù)也符合我們分類的目的。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心28系統(tǒng)樹狀圖目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心29圖3.14樹狀聚類圖,目錄上頁下頁返回結(jié)束圖3.14是樹狀聚類圖,從圖中可以由分類個(gè)數(shù)得到分類情況。如果我們選擇分類數(shù)為3,就從距離為10的地方往下切,得到分類結(jié)果如下。{1:孟加拉國、柬埔寨、阿富汗、印度、巴基斯坦};{2:香港、新加坡、日本};{3:泰國、越南、中國、印度尼西亞、馬來西亞、菲律賓、韓國、臺(tái)灣和朝鮮}。我們可以從經(jīng)濟(jì)發(fā)展水平和文化教育水平來理解所作的分類。第2類應(yīng)該是亞洲國家中經(jīng)濟(jì)發(fā)達(dá)程度最高的國家或地區(qū),第1類的經(jīng)濟(jì)水平和文教水平都比較低,第3類國家的經(jīng)濟(jì)水平和文教水平居中。
2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心30§3.7.2快速聚類法目錄上頁下頁返回結(jié)束同樣我們使用上面的數(shù)據(jù)文件World95.sav,從中篩選出亞洲國家,試圖將亞洲國家按經(jīng)濟(jì)和文教水平分為3類??梢允褂每焖倬垲惙▽?duì)樣品進(jìn)行聚類。我們使用的變量有Country(國家或地區(qū))、Urban(城市人口比例),Lifeexpf(女性平均壽命)、Lifeexpm(男性平均壽命)、Literacy(有讀寫能力的人所占比例)、Gdp_cap(人均國內(nèi)生產(chǎn)總值),以Country來標(biāo)識(shí)本例中的17個(gè)亞洲國家或地區(qū),并以其他5個(gè)變量進(jìn)行Q型聚類分析,即對(duì)國家進(jìn)行聚類。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心31§3.7.2快速聚類法目錄上頁下頁返回結(jié)束在SPSS軟件中選擇Analyze→Classify→K-MeansCluster。進(jìn)入K-均值聚類對(duì)話框以后,將上面5個(gè)變量選入Variable,將Country用于標(biāo)識(shí)(Labelcasesby)。將分類數(shù)(Numberofclusters)定為3。我們可以在Option選項(xiàng)中選擇Initialclustercenter(最初分類重心),ANOVA(方差分析表),Clusterinformationforeachcase(每個(gè)樣品的分類信息)。得到如下分類結(jié)果:§3.7.2快速聚類法2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心33§3.7計(jì)算步驟與上機(jī)實(shí)踐目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心34§3.7.2快速聚類法目錄上頁下頁返回結(jié)束輸出結(jié)果中表3.9表示最初各類的重心,也就是種子點(diǎn)。表3.10是樣品的分類情況。這里我們看到快速聚類法將亞洲國家或地區(qū)分為這樣3類。{1:阿富汗、孟加拉國、柬埔寨、中國、印度、印度尼西亞、馬來西亞、朝鮮、巴基斯坦、泰國、越南}。{2:香港、日本、新加坡}。{3:韓國、臺(tái)灣}。我們也可以對(duì)分類結(jié)果做分析。第1類國家或地區(qū)經(jīng)濟(jì)和文教衛(wèi)生水平較低。第2類國家或地區(qū)是亞洲國家或地區(qū)中的佼佼者,其經(jīng)濟(jì)發(fā)達(dá)程度和文教衛(wèi)生水平都是很高的。第3類國家或地區(qū)處于兩者中間。這個(gè)結(jié)果可以結(jié)合表3.13(最后各類的重心)來分析,我們看到第2類的人均GDP比另外兩組要高?!?.7.2快速聚類法2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心36§3.7.2快速聚類法目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心37§3.7.2快速聚類法目錄上頁下頁返回結(jié)束表3.12是方差分析表,但是應(yīng)當(dāng)注意值只能作為描述所用,而不能根據(jù)該值判斷各類均值是否有顯著差異。通過方差分析表我們可以看出,有4個(gè)變量對(duì)分類貢獻(xiàn)顯著。
2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心38§3.7.3計(jì)算步驟與上機(jī)實(shí)踐
模糊聚類法目錄上頁下頁返回結(jié)束繼續(xù)使用上面的例子,希望將亞洲國家或地區(qū)分成3類進(jìn)行分析研究。這里我們使用S-Plus2000軟件。(略)2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心39§3.8社會(huì)經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心40§3.8社會(huì)經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束例3.5城鎮(zhèn)居民消費(fèi)水平通常用表3.15中的八項(xiàng)指標(biāo)來描述,八項(xiàng)指標(biāo)間存在一定的線性相關(guān)。為研究城鎮(zhèn)居民的消費(fèi)結(jié)構(gòu),需將相關(guān)性強(qiáng)的指標(biāo)歸并到一起,這實(shí)際就是對(duì)指標(biāo)聚類。原始數(shù)據(jù)列于表3.15。將原始數(shù)據(jù)錄入SPSS,并依次點(diǎn)擊“Analyze”→“Correlate”→“Bivariate”,打開BivariateCorrelations對(duì)話框,把八個(gè)變量選入Variables欄中,單擊“OK”,得到這八個(gè)指標(biāo)對(duì)應(yīng)的相關(guān)系數(shù),列于表3.16。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心45§3.8社會(huì)經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束§3.8社會(huì)經(jīng)濟(jì)案例研究表3.16中最大的相關(guān)系數(shù)為r4,8=0.837,將G4和G8并成一新類G9,然后計(jì)算G9與各類的相關(guān)系數(shù),再找最大的相關(guān)系數(shù),每次縮小一類得圖3-17。我們可以看出全國城鎮(zhèn)居民得消費(fèi)結(jié)構(gòu)大致可以分為三個(gè)方面,一類是各種副食、日用品及交通通信、文化教育和住房等支出,這是在消費(fèi)結(jié)構(gòu)中起主導(dǎo)作用的方面;其次是居民購買煙、酒、飲料及著裝支出;糧食和水電燃料是兩項(xiàng)很重要的消費(fèi)指標(biāo),但目前在城鎮(zhèn)居民的消費(fèi)中占的比例較小,可將它們歸并為同一類。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心47§3.8社會(huì)經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束§3.8社會(huì)經(jīng)濟(jì)案例研究上面介紹的幾種系統(tǒng)聚類方法,并類的原則和步驟基本一致,所不同的是類與類的距離有不同的定義。其實(shí)可以把這幾種方法統(tǒng)一起來,有利于在計(jì)算機(jī)上靈活地選擇更有意義的譜系圖。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心49§3.8社會(huì)經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束對(duì)例3.5,采用歐氏距離分別用類平均法、最短距離法、最長距離法把31個(gè)省市分類。類平均法聚類在SPSS中的操作為:點(diǎn)選“Analyze”→“Classify”→“HierarchicalCluster”,打開HierarchicalClusterAnalysis對(duì)話框,將八個(gè)聚類指標(biāo)選入Variables欄中,將表示地區(qū)的變量選入LabelCasesBy欄中,按“Plots”按鈕,在彈出的窗口中選中Dendrogram(譜系圖)選項(xiàng),按“Continue”返回主對(duì)話框,在按“Method”按鈕,在ClusterMethod下拉菜單中選擇Between-groupslinkage(組間連接法,即類平均法)選項(xiàng),返回主對(duì)話框后按“OK”即可得到聚類結(jié)果。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心50§3.8社會(huì)經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束最短距離法和最長距離法操作步驟與類平均法一樣,只不過要在ClusterMethod下拉菜單中分別選擇NearestNeighbor和FurthestNeighbor選項(xiàng)。圖3.18、圖3.19、圖3.20分別顯示了三種方法的分類結(jié)果。為便于對(duì)照,將三種方法分類的結(jié)果綜合列于表3.18。直觀看出,類平均法分為三類:{1,9,11,19}為第一類,{13,2,22,10}為第二類,其他為第三類;最短距離法分為兩類,{1,9,11,19}為一類,其余的省市歸為一大類;最長距離法也分為三類:{1,9,11,19}為第一類,{10,22,2,13,26}為第二類,其余的省市為第三類。很顯然,這三種方法的分類效果是有差異的。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心51§3.8社會(huì)經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束那么究竟采用哪一種分類為好呢?一種方法是根據(jù)分類問題本身的知識(shí)來決定取舍。另一種方法是將幾種方法的共性取出來,有爭議的樣品根據(jù)其實(shí)際情況再劃分。綜合考慮這兩點(diǎn),筆者認(rèn)為從全國各省、市、區(qū)的消費(fèi)情況來看,分為三類較為合適。由分類結(jié)果可以看出,類平均法和最長距離法的分類結(jié)果基本上一致,只是在西藏應(yīng)該劃入第二類還是第三類上存在差異,從表3.15的實(shí)際情來看,西藏的經(jīng)濟(jì)發(fā)展和消費(fèi)水平與始終處在第二類的福建、天津、重慶和江蘇有較大差距,因此劃入第三類較為合適,即這個(gè)聚類分析用類平均法較為合適。2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心52§3.8類平均法樹狀圖目錄上頁下頁返回結(jié)束§3.8最短距離法樹狀圖2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心54§3.8最長距離法樹狀圖目錄上頁下頁返回結(jié)束2023/3/13中國人民大學(xué)六西格瑪質(zhì)量管理研究中心56§3.8社會(huì)經(jīng)濟(jì)案例研究目錄上頁下頁返回結(jié)束例3.6我們?nèi)砸?005年31個(gè)省、市、自治區(qū)的城鎮(zhèn)居民月平均消費(fèi)支出數(shù)據(jù)為例,在SPSS中利用K-均值法對(duì)31個(gè)省、市、自治區(qū)的城鎮(zhèn)居民消費(fèi)水平進(jìn)行聚類分析。在SPSS中依次點(diǎn)擊“
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 關(guān)于開學(xué)典禮演講稿匯編10篇
- 不一樣的春節(jié)演講稿10篇
- 肯德基寒假實(shí)習(xí)報(bào)告4篇
- 酒店服務(wù)員辭職報(bào)告集錦(15篇)
- 西游記讀后感(匯編15篇)
- 春節(jié)小學(xué)作文集錦15篇
- 全球視角看珠寶產(chǎn)業(yè)
- 漢字的古詩4句
- 光伏租賃合同(2篇)
- 樓面傾斜處理方案
- 新SAT閱讀電子講義
- 《基業(yè)長青》讀書心得總結(jié)
- 團(tuán)體建筑施工人員意外傷害保險(xiǎn)條款(2012版)
- 合規(guī)性評(píng)價(jià)報(bào)告(2022年)
- 大連市小升初手冊(cè)
- 《自然辯證法》課后習(xí)題答案自然辯證法課后題答案
- 燃?xì)夤こ瘫O(jiān)理實(shí)施細(xì)則(通用版)
- E車E拍行車記錄儀說明書 - 圖文-
- 人才梯隊(duì)-繼任計(jì)劃-建設(shè)方案(珍貴)
- 《健身氣功》(選修)教學(xué)大綱
- 王家?guī)r隧道工程地質(zhì)勘察報(bào)告(總結(jié))
評(píng)論
0/150
提交評(píng)論