第九章聚類(lèi)分析_第1頁(yè)
第九章聚類(lèi)分析_第2頁(yè)
第九章聚類(lèi)分析_第3頁(yè)
第九章聚類(lèi)分析_第4頁(yè)
第九章聚類(lèi)分析_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第九章第九章spss聚類(lèi)分析聚類(lèi)分析本章內(nèi)容9.1 聚類(lèi)分析的一般問(wèn)題聚類(lèi)分析的一般問(wèn)題9.2 層次聚類(lèi)層次聚類(lèi)9.3 k-means聚類(lèi)聚類(lèi)9.1 聚類(lèi)分析的一般問(wèn)題9.1.1 聚類(lèi)分析的意義聚類(lèi)分析的意義 聚類(lèi)分析是統(tǒng)計(jì)學(xué)中研究聚類(lèi)分析是統(tǒng)計(jì)學(xué)中研究“物以類(lèi)聚物以類(lèi)聚”問(wèn)題的多元統(tǒng)計(jì)問(wèn)題的多元統(tǒng)計(jì)分析方法。分析方法。 聚類(lèi)分析是一種建立分類(lèi)的多元統(tǒng)計(jì)分析方法,它能聚類(lèi)分析是一種建立分類(lèi)的多元統(tǒng)計(jì)分析方法,它能夠?qū)⒁慌鷺颖荆ɑ蜃兞浚?shù)據(jù)根據(jù)其諸多特征,按照在性質(zhì)夠?qū)⒁慌鷺颖荆ɑ蜃兞浚?shù)據(jù)根據(jù)其諸多特征,按照在性質(zhì)上的親疏程度(各變量取值上的總體差異程度)在沒(méi)有先驗(yàn)上的親疏程度(各變量取值上的

2、總體差異程度)在沒(méi)有先驗(yàn)知識(shí)(沒(méi)有事先指定的分類(lèi)標(biāo)準(zhǔn))的情況下進(jìn)行自動(dòng)分類(lèi),知識(shí)(沒(méi)有事先指定的分類(lèi)標(biāo)準(zhǔn))的情況下進(jìn)行自動(dòng)分類(lèi),產(chǎn)生多個(gè)分類(lèi)結(jié)果。類(lèi)內(nèi)部的個(gè)體在特征上具有相似性,不產(chǎn)生多個(gè)分類(lèi)結(jié)果。類(lèi)內(nèi)部的個(gè)體在特征上具有相似性,不同類(lèi)間個(gè)體特征的差異性較大。同類(lèi)間個(gè)體特征的差異性較大。 例如,學(xué)校里有些同學(xué)經(jīng)常在一起,關(guān)系比較例如,學(xué)校里有些同學(xué)經(jīng)常在一起,關(guān)系比較密切,而他們與另一些同學(xué)卻很少來(lái)往,關(guān)系比較密切,而他們與另一些同學(xué)卻很少來(lái)往,關(guān)系比較疏遠(yuǎn)。究其原因可能會(huì)發(fā)現(xiàn),經(jīng)常在一起的同學(xué)的疏遠(yuǎn)。究其原因可能會(huì)發(fā)現(xiàn),經(jīng)常在一起的同學(xué)的家庭情況、性格、學(xué)習(xí)成績(jī)、課余愛(ài)好等方面有許家庭情況、

3、性格、學(xué)習(xí)成績(jī)、課余愛(ài)好等方面有許多共同之處,而關(guān)系比較疏遠(yuǎn)的同學(xué)在這些方面有多共同之處,而關(guān)系比較疏遠(yuǎn)的同學(xué)在這些方面有較大的差異性。為了研究家庭情況、性格、學(xué)習(xí)成較大的差異性。為了研究家庭情況、性格、學(xué)習(xí)成績(jī)、課余愛(ài)好等是否會(huì)成為劃分學(xué)生小群體的主要績(jī)、課余愛(ài)好等是否會(huì)成為劃分學(xué)生小群體的主要決定因素,可以從有關(guān)這些方面的數(shù)據(jù)入手,進(jìn)行決定因素,可以從有關(guān)這些方面的數(shù)據(jù)入手,進(jìn)行客觀分組,然后比較所得的分組是否與實(shí)際相吻合??陀^分組,然后比較所得的分組是否與實(shí)際相吻合。對(duì)學(xué)生的客觀分組就可采用聚類(lèi)分析方法。對(duì)學(xué)生的客觀分組就可采用聚類(lèi)分析方法。聚類(lèi)分析中,個(gè)體之間的聚類(lèi)分析中,個(gè)體之間的“

4、親疏程度親疏程度”是極為重要的是極為重要的,它將直接影響最終的聚類(lèi)結(jié)果。對(duì),它將直接影響最終的聚類(lèi)結(jié)果。對(duì)“親疏親疏”程度的程度的測(cè)度一般有兩個(gè)角度:第一,個(gè)體間的相似程度;測(cè)度一般有兩個(gè)角度:第一,個(gè)體間的相似程度;第二,個(gè)體間的差異程度。衡量個(gè)體間的相似程度第二,個(gè)體間的差異程度。衡量個(gè)體間的相似程度通常可采用簡(jiǎn)單相關(guān)系數(shù)等,個(gè)體間的差異程度通通??刹捎煤?jiǎn)單相關(guān)系數(shù)等,個(gè)體間的差異程度通常通過(guò)某種距離來(lái)測(cè)度。常通過(guò)某種距離來(lái)測(cè)度。為定義個(gè)體間的距離應(yīng)先將每個(gè)樣本數(shù)據(jù)看成為定義個(gè)體間的距離應(yīng)先將每個(gè)樣本數(shù)據(jù)看成k維維空間的一個(gè)點(diǎn),通常,點(diǎn)與點(diǎn)之間的距離越小,意空間的一個(gè)點(diǎn),通常,點(diǎn)與點(diǎn)之間的

5、距離越小,意味著他們?cè)轿吨麄冊(cè)健坝H密親密”,越有可能聚成一類(lèi),點(diǎn)與點(diǎn)之,越有可能聚成一類(lèi),點(diǎn)與點(diǎn)之間的距離越大,意味著他們?cè)介g的距離越大,意味著他們?cè)健笆柽h(yuǎn)疏遠(yuǎn)”,越有可能分,越有可能分別屬于不同的類(lèi)。別屬于不同的類(lèi)。9.1.2 聚類(lèi)分析中聚類(lèi)分析中“親疏程度親疏程度”的度量方法的度量方法例:下表是同一批客戶對(duì)經(jīng)常光顧的五座商場(chǎng)在購(gòu)物環(huán)境和例:下表是同一批客戶對(duì)經(jīng)常光顧的五座商場(chǎng)在購(gòu)物環(huán)境和服務(wù)質(zhì)量?jī)煞矫娴钠骄梅?,現(xiàn)希望根據(jù)這批數(shù)據(jù)將五座商服務(wù)質(zhì)量?jī)煞矫娴钠骄梅?,現(xiàn)希望根據(jù)這批數(shù)據(jù)將五座商場(chǎng)分類(lèi)。場(chǎng)分類(lèi)。7.1.2 聚類(lèi)分析中“親疏程度”的度量方法歐式距離(歐式距離(euclidean

6、distance)平方歐式距離(平方歐式距離(squared euclidean distance )切比雪夫(切比雪夫(chebychev)距離)距離block距離距離k222iii 1(xy)(73 66)(68 64)iimax xymax(73 66,68 64)kiii 1xy73666864 1、定距型變量個(gè)體間距離的計(jì)算方式、定距型變量個(gè)體間距離的計(jì)算方式 2、計(jì)數(shù)變量個(gè)體間距離的計(jì)算方式、計(jì)數(shù)變量個(gè)體間距離的計(jì)算方式卡方(卡方(chi-square measure)距離)距離phi方(方(phi-square measure)距離)距離 3、二值(、二值(binary)變量個(gè)體

7、間距離的計(jì)算方式)變量個(gè)體間距離的計(jì)算方式簡(jiǎn)單匹配系數(shù)(簡(jiǎn)單匹配系數(shù)(simple matching)雅科比系數(shù)(雅科比系數(shù)(jaccard)注:聚類(lèi)分析的幾點(diǎn)說(shuō)明注:聚類(lèi)分析的幾點(diǎn)說(shuō)明所選擇的變量應(yīng)符合聚類(lèi)的要求:所選變量應(yīng)能夠從不同的側(cè)面反映所選擇的變量應(yīng)符合聚類(lèi)的要求:所選變量應(yīng)能夠從不同的側(cè)面反映我們研究的目的;我們研究的目的;各變量的變量值不應(yīng)有數(shù)量級(jí)上的差異(對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理):各變量的變量值不應(yīng)有數(shù)量級(jí)上的差異(對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理):聚類(lèi)分析是以各種距離來(lái)度量個(gè)體間的聚類(lèi)分析是以各種距離來(lái)度量個(gè)體間的“親疏親疏”程度的,從上述各種距程度的,從上述各種距離的定義看,數(shù)量級(jí)將對(duì)

8、距離產(chǎn)生較大的影響,并影響最終的聚類(lèi)結(jié)離的定義看,數(shù)量級(jí)將對(duì)距離產(chǎn)生較大的影響,并影響最終的聚類(lèi)結(jié)果。果。各變量間不應(yīng)有較強(qiáng)的線性相關(guān)關(guān)系各變量間不應(yīng)有較強(qiáng)的線性相關(guān)關(guān)系9.2 層次聚類(lèi)9.2.1 層次聚類(lèi)的兩種類(lèi)型和兩種方式層次聚類(lèi)的兩種類(lèi)型和兩種方式 層次聚類(lèi)又稱系統(tǒng)聚類(lèi),簡(jiǎn)單地講是指聚類(lèi)過(guò)程是按層次聚類(lèi)又稱系統(tǒng)聚類(lèi),簡(jiǎn)單地講是指聚類(lèi)過(guò)程是按照一定層次進(jìn)行的。層次聚類(lèi)有兩種類(lèi)型,分別是照一定層次進(jìn)行的。層次聚類(lèi)有兩種類(lèi)型,分別是q型聚類(lèi)型聚類(lèi)和和r型聚類(lèi);層次聚類(lèi)的聚類(lèi)方式又有兩種,分別是凝聚方型聚類(lèi);層次聚類(lèi)的聚類(lèi)方式又有兩種,分別是凝聚方式聚類(lèi)和分解方式聚類(lèi)。式聚類(lèi)和分解方式聚類(lèi)。q型

9、聚類(lèi)型聚類(lèi):對(duì)樣本樣本進(jìn)行聚類(lèi),使具有相似特征的樣本聚集在一起,差異性大的樣本分離開(kāi)來(lái)。r型聚類(lèi)型聚類(lèi):對(duì)變量變量進(jìn)行聚類(lèi),使具有相似性的變量聚集在一起,差異性大的變量分離開(kāi)來(lái),可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實(shí)現(xiàn)減少變量個(gè)數(shù),達(dá)到變量降維的目的。凝聚方式聚類(lèi)凝聚方式聚類(lèi):其過(guò)程是,首先,每個(gè)個(gè)體自成一類(lèi);然后,按照某種方法度量所有個(gè)體間的親疏程度,并將其中最“親密親密”的個(gè)體聚成一小類(lèi),形成n-1個(gè)類(lèi);接下來(lái),再次度量剩余個(gè)體和小類(lèi)間的親疏程度,并將當(dāng)前最親密的個(gè)體或小類(lèi)再聚到一類(lèi);重復(fù)上述過(guò)程,直到所有個(gè)體聚成一個(gè)大類(lèi)為止??梢?jiàn),這種聚類(lèi)方式對(duì)n個(gè)個(gè)體通過(guò)n-1步可凝聚

10、成一大類(lèi)。分解方式聚類(lèi)分解方式聚類(lèi):其過(guò)程是,首先,所有個(gè)體都屬一大類(lèi);然后,按照某種方法度量所有個(gè)體間的親疏程度,將大類(lèi)中彼此間最“疏遠(yuǎn)疏遠(yuǎn)”的個(gè)體分離出去,形成兩類(lèi);接下來(lái),再次度量類(lèi)中剩余個(gè)體間的親疏程度,并將最疏遠(yuǎn)的個(gè)體再分離出去;重復(fù)上述過(guò)程,不斷進(jìn)行類(lèi)分解,直到所有個(gè)體自成一類(lèi)為止??梢?jiàn),這種聚類(lèi)方式對(duì)包含n個(gè)個(gè)體的大類(lèi)通過(guò)n-1步可分解成n個(gè)個(gè)體。9.2.2 個(gè)體與小類(lèi)、小類(lèi)與小類(lèi)間個(gè)體與小類(lèi)、小類(lèi)與小類(lèi)間“親疏程度親疏程度”的度的度量方法量方法 spss中提供了多種度量個(gè)體與小類(lèi)、小類(lèi)與中提供了多種度量個(gè)體與小類(lèi)、小類(lèi)與小類(lèi)間小類(lèi)間“親疏程度親疏程度”的方法。與個(gè)體間的方法。與

11、個(gè)體間“親疏程度親疏程度”的的測(cè)度方法類(lèi)似,應(yīng)首先定義個(gè)體與小類(lèi)、小類(lèi)與小測(cè)度方法類(lèi)似,應(yīng)首先定義個(gè)體與小類(lèi)、小類(lèi)與小類(lèi)的距離。距離小的關(guān)系親密,距離大的關(guān)系疏遠(yuǎn)。類(lèi)的距離。距離小的關(guān)系親密,距離大的關(guān)系疏遠(yuǎn)。這里的距離是在個(gè)體間距離的基礎(chǔ)上定義的,常見(jiàn)這里的距離是在個(gè)體間距離的基礎(chǔ)上定義的,常見(jiàn)的距離有:的距離有:最近鄰居(最近鄰居(nearest neighbor)距離:個(gè)體與小類(lèi)中每)距離:個(gè)體與小類(lèi)中每個(gè)個(gè)體距離的最小值。個(gè)個(gè)體距離的最小值。最遠(yuǎn)鄰居(最遠(yuǎn)鄰居(furthest neighbor )距離:個(gè)體與小類(lèi)中)距離:個(gè)體與小類(lèi)中每個(gè)個(gè)體距離的最大值。每個(gè)個(gè)體距離的最大值。組間平

12、均鏈鎖(組間平均鏈鎖(between-groups linkage)距離:個(gè))距離:個(gè)體與小類(lèi)中每個(gè)個(gè)體距離的平均值。體與小類(lèi)中每個(gè)個(gè)體距離的平均值。組內(nèi)平均鏈鎖(組內(nèi)平均鏈鎖(within-groups linkage)距離:個(gè)體)距離:個(gè)體與小類(lèi)中每個(gè)個(gè)體距離以及小類(lèi)內(nèi)各個(gè)體間距離的平均值。與小類(lèi)中每個(gè)個(gè)體距離以及小類(lèi)內(nèi)各個(gè)體間距離的平均值。重心(重心(centroid clustering)距離:個(gè)體與小類(lèi)的重心)距離:個(gè)體與小類(lèi)的重心點(diǎn)的距離。重心點(diǎn)通常是由小類(lèi)中所有樣本在各變量上的均點(diǎn)的距離。重心點(diǎn)通常是由小類(lèi)中所有樣本在各變量上的均值所確定的點(diǎn)。值所確定的點(diǎn)。離差平方和法(離差平方

13、和法(wards method):聚類(lèi)過(guò)程中使小類(lèi)):聚類(lèi)過(guò)程中使小類(lèi)內(nèi)離差平方和增加最小的兩小類(lèi)應(yīng)首先合并為一類(lèi)。內(nèi)離差平方和增加最小的兩小類(lèi)應(yīng)首先合并為一類(lèi)。五座商場(chǎng)兩兩個(gè)體歐氏距離的矩陣proximity matrix五座商場(chǎng)兩兩個(gè)體歐氏距離的矩陣proximity matrix.0008.06217.80426.90730.4148.062.00025.45634.65538.21017.80425.456.0009.22012.80626.90734.6559.220.0003.60630.41438.21012.8063.606.000case1:a商廈2:b商廈3:c商廈4:d商

14、廈5:e商廈1:a商廈2:b商廈3:c商廈4:d商廈5:e商廈 euclidean distancethis is a dissimilarity matrix9.2.3 層次聚類(lèi)的基本操作層次聚類(lèi)的基本操作 1、選擇菜單、選擇菜單analyzeclassifyhierarchical cluster,出現(xiàn)窗口:,出現(xiàn)窗口: 2、把參與層次聚類(lèi)分析的變量選到、把參與層次聚類(lèi)分析的變量選到variable(s)框中??蛑?。 3、把一個(gè)字符型變量作為標(biāo)記變量選到、把一個(gè)字符型變量作為標(biāo)記變量選到label cases by框中,它將大大增強(qiáng)聚類(lèi)分析結(jié)果的可讀框中,它將大大增強(qiáng)聚類(lèi)分析結(jié)果的可讀性。

15、性。 4、在、在cluster框中選擇聚類(lèi)類(lèi)型。其中框中選擇聚類(lèi)類(lèi)型。其中cases表示進(jìn)表示進(jìn)行行q型聚類(lèi)(默認(rèn)類(lèi)型);(默認(rèn)類(lèi)型);variables表示進(jìn)行表示進(jìn)行r型聚類(lèi)。 5、在、在display框中選擇輸出內(nèi)容。其中框中選擇輸出內(nèi)容。其中statistics表表示輸出聚類(lèi)分析的相關(guān)統(tǒng)計(jì)量;示輸出聚類(lèi)分析的相關(guān)統(tǒng)計(jì)量;plot表示輸出聚類(lèi)表示輸出聚類(lèi)分析的相關(guān)圖形。分析的相關(guān)圖形。 6、單擊、單擊method按鈕指定距離的計(jì)算方法。按鈕指定距離的計(jì)算方法。 measure框中給出的是不同變量類(lèi)型下的個(gè)體框中給出的是不同變量類(lèi)型下的個(gè)體距離的計(jì)算方法。其中距離的計(jì)算方法。其中inter

16、val框中的方法適用于框中的方法適用于連續(xù)型定距變量;連續(xù)型定距變量;counts框中的方法適用于品質(zhì)框中的方法適用于品質(zhì)型變量;型變量;binary框中的方法適用于二值變量??蛑械姆椒ㄟm用于二值變量。cluster method框中給出的是計(jì)算個(gè)體與小類(lèi)、框中給出的是計(jì)算個(gè)體與小類(lèi)、小類(lèi)與小類(lèi)間距離的方法。小類(lèi)與小類(lèi)間距離的方法。7、如果參與聚類(lèi)分析的變量存在數(shù)量級(jí)上的差異,、如果參與聚類(lèi)分析的變量存在數(shù)量級(jí)上的差異,應(yīng)在應(yīng)在transform values框中的框中的standardize選項(xiàng)選項(xiàng)中選擇消除數(shù)量級(jí)差的方法。并指定處理是針對(duì)變中選擇消除數(shù)量級(jí)差的方法。并指定處理是針對(duì)變量的還

17、是針對(duì)樣本的。量的還是針對(duì)樣本的。by variable表示針對(duì)變量,表示針對(duì)變量,適于適于 q 型聚類(lèi)分析;型聚類(lèi)分析;by case 表示針對(duì)樣本,適表示針對(duì)樣本,適于于r型聚類(lèi)分析。型聚類(lèi)分析。 8、單擊、單擊statistics按鈕指定輸出哪些統(tǒng)計(jì)量按鈕指定輸出哪些統(tǒng)計(jì)量 agglomeration schedule表示輸出聚類(lèi)分析表示輸出聚類(lèi)分析的的凝聚狀態(tài)表;proximity matrix表示輸出個(gè)體間表示輸出個(gè)體間的的距離矩陣;cluster membership框中,框中,none表示不輸出樣本所屬類(lèi),表示不輸出樣本所屬類(lèi),single solution表示指表示指定輸出當(dāng)分

18、成定輸出當(dāng)分成n類(lèi)時(shí)各樣本所屬類(lèi),是類(lèi)時(shí)各樣本所屬類(lèi),是單一解單一解。range of solution表示指定輸出當(dāng)分成表示指定輸出當(dāng)分成m至至n類(lèi)類(lèi)(m小于等于小于等于n)時(shí)各樣本所屬類(lèi),是)時(shí)各樣本所屬類(lèi),是多個(gè)解多個(gè)解。層次聚類(lèi)中的凝聚狀態(tài)表agglomeration schedule層次聚類(lèi)中的凝聚狀態(tài)表agglomeration schedule453.606003128.0620043411.0130141328.908230stage1234cluster 1cluster 2cluster combinedcoefficients cluster 1cluster 2stag

19、e cluster firstappearsnext stage 上表中,第一列表示聚類(lèi)分析的第幾步;第二、三列表示本步聚類(lèi)中哪兩個(gè)樣本或小類(lèi)聚成一類(lèi);第四列式個(gè)體距離或小類(lèi)距離;第五、六列表示本步聚類(lèi)中參與聚類(lèi)的是個(gè)體還是小類(lèi),0表示樣本,非0表示由第n步聚類(lèi)生成的小類(lèi)參與本步聚類(lèi);第七列表示本步聚類(lèi)的結(jié)果將在以下第幾步中用到。層次聚類(lèi)中的類(lèi)成員cluster membership層次聚類(lèi)中的類(lèi)成員cluster membership1111223232case1:a商廈2:b商廈3:c商廈4:d商廈5:e商廈3 clusters 2 clusters 9、單擊、單擊plot按鈕指定輸出哪種

20、聚類(lèi)分析圖。按鈕指定輸出哪種聚類(lèi)分析圖。 dendrogram選項(xiàng)表示輸出聚類(lèi)分析選項(xiàng)表示輸出聚類(lèi)分析樹(shù)形圖;在;在icicle框中指定輸出框中指定輸出冰掛圖,其中,其中,all clusters表示輸出聚類(lèi)分表示輸出聚類(lèi)分析每個(gè)階段的冰掛圖,析每個(gè)階段的冰掛圖,specified range of clusters表示表示只輸出某個(gè)階段的冰掛圖,輸入從第幾步開(kāi)始,到第幾步結(jié)只輸出某個(gè)階段的冰掛圖,輸入從第幾步開(kāi)始,到第幾步結(jié)束,中間間隔幾步;在束,中間間隔幾步;在orientation框中指定如何顯示冰掛框中指定如何顯示冰掛圖,其中,圖,其中,vertical表示縱向顯示,表示縱向顯示,ho

21、rizontal表示橫向水表示橫向水平顯示。平顯示。 樹(shù)形圖以躺倒樹(shù)的形式展現(xiàn)了聚類(lèi)分析中的每一次類(lèi)樹(shù)形圖以躺倒樹(shù)的形式展現(xiàn)了聚類(lèi)分析中的每一次類(lèi)合并的情況。合并的情況。spss自動(dòng)將各類(lèi)間的距離映射到自動(dòng)將各類(lèi)間的距離映射到025之間,之間,并將凝聚過(guò)程近似地表示在圖上。并將凝聚過(guò)程近似地表示在圖上。層次聚類(lèi)的冰掛圖 vertical icicle層次聚類(lèi)的冰掛圖 vertical iciclexxxxxxxxxxxxxx xxxxxx x xxxxxx x x xnumber of clusters12345:e商廈 4:d商廈 3:c商廈 2:b商廈 1:a商廈case 10、單擊、單擊

22、save按鈕可以將聚類(lèi)分析的結(jié)果以變量的按鈕可以將聚類(lèi)分析的結(jié)果以變量的形式保存到數(shù)據(jù)編輯窗口中。生成的變量名為形式保存到數(shù)據(jù)編輯窗口中。生成的變量名為clun_m(如(如clu2_1),其中),其中n表示類(lèi)數(shù)(如表示類(lèi)數(shù)(如2),),m表示是第表示是第m次分析(如次分析(如1)。)。 由于不同的距離計(jì)算方法會(huì)產(chǎn)生不同的聚類(lèi)分由于不同的距離計(jì)算方法會(huì)產(chǎn)生不同的聚類(lèi)分析結(jié)果,即使聚成析結(jié)果,即使聚成n類(lèi),同一樣本的類(lèi)歸屬也會(huì)因類(lèi),同一樣本的類(lèi)歸屬也會(huì)因計(jì)算方法的不同而不同。因此實(shí)際分析中應(yīng)反復(fù)嘗計(jì)算方法的不同而不同。因此實(shí)際分析中應(yīng)反復(fù)嘗試以最終得到符合實(shí)際的合理解,并保存于試以最終得到符合實(shí)際

23、的合理解,并保存于spss變量中。變量中。9.2.4 層次聚類(lèi)的應(yīng)用舉例層次聚類(lèi)的應(yīng)用舉例 1、利用、利用31個(gè)省市自治區(qū)小康和現(xiàn)代化指數(shù)數(shù)據(jù)進(jìn)個(gè)省市自治區(qū)小康和現(xiàn)代化指數(shù)數(shù)據(jù)進(jìn)行層次聚類(lèi)分析。行層次聚類(lèi)分析。 利用利用spss層次聚類(lèi)層次聚類(lèi)q型聚類(lèi)對(duì)型聚類(lèi)對(duì)31個(gè)省市自治個(gè)省市自治區(qū)進(jìn)行分類(lèi)分析。其中個(gè)體距離采用平方歐式距離,區(qū)進(jìn)行分類(lèi)分析。其中個(gè)體距離采用平方歐式距離,類(lèi)間距離采用平均組間鏈鎖距離,由于數(shù)據(jù)不存在類(lèi)間距離采用平均組間鏈鎖距離,由于數(shù)據(jù)不存在數(shù)量級(jí)上的差異,因此無(wú)需進(jìn)行進(jìn)行標(biāo)準(zhǔn)化處理。數(shù)量級(jí)上的差異,因此無(wú)需進(jìn)行進(jìn)行標(biāo)準(zhǔn)化處理。2、利用裁判打分?jǐn)?shù)據(jù)進(jìn)行聚類(lèi)分析。、利用裁判打

24、分?jǐn)?shù)據(jù)進(jìn)行聚類(lèi)分析。 9.3 k-means聚類(lèi)9.3.1 k-means聚類(lèi)分析的核心步驟聚類(lèi)分析的核心步驟 k-means聚類(lèi)也稱快速聚類(lèi),仍將數(shù)據(jù)看成聚類(lèi)也稱快速聚類(lèi),仍將數(shù)據(jù)看成k維空間維空間上的點(diǎn),仍以距離作為測(cè)度個(gè)體上的點(diǎn),仍以距離作為測(cè)度個(gè)體“親疏程度親疏程度”的指標(biāo),并通過(guò)的指標(biāo),并通過(guò)犧牲多個(gè)解為代價(jià)換得高的執(zhí)行效率,其核心步驟是:犧牲多個(gè)解為代價(jià)換得高的執(zhí)行效率,其核心步驟是:第一,指定聚類(lèi)數(shù)目第一,指定聚類(lèi)數(shù)目k第二,確定第二,確定k個(gè)初始類(lèi)中心個(gè)初始類(lèi)中心 spss中初始類(lèi)中心的指定方式有兩種:一是用戶指定中初始類(lèi)中心的指定方式有兩種:一是用戶指定方式;二是系統(tǒng)指定方式

25、。方式;二是系統(tǒng)指定方式。 第三,根據(jù)距離最近原則進(jìn)行分類(lèi)第三,根據(jù)距離最近原則進(jìn)行分類(lèi) 依次計(jì)算每個(gè)樣本數(shù)據(jù)點(diǎn)到依次計(jì)算每個(gè)樣本數(shù)據(jù)點(diǎn)到k個(gè)類(lèi)中心點(diǎn)的歐式距離,個(gè)類(lèi)中心點(diǎn)的歐式距離,并按距并按距k個(gè)類(lèi)中心點(diǎn)距離最短的原則將所有樣本分成個(gè)類(lèi)中心點(diǎn)距離最短的原則將所有樣本分成k類(lèi)。類(lèi)。第四,重新確定第四,重新確定k個(gè)類(lèi)中心個(gè)類(lèi)中心 中心點(diǎn)的確定原則是,依次計(jì)算各類(lèi)中中心點(diǎn)的確定原則是,依次計(jì)算各類(lèi)中k個(gè)變量的均值個(gè)變量的均值,并以均值點(diǎn)作為,并以均值點(diǎn)作為k個(gè)類(lèi)的中心點(diǎn)。個(gè)類(lèi)的中心點(diǎn)。第五,判斷是否已滿足中止聚類(lèi)分析的條件第五,判斷是否已滿足中止聚類(lèi)分析的條件 條件有兩個(gè):一是迭代次數(shù)(條件有兩

26、個(gè):一是迭代次數(shù)(spss默認(rèn)為默認(rèn)為10);二);二是類(lèi)中心點(diǎn)偏移程度,即新確定的類(lèi)中心點(diǎn)距上個(gè)類(lèi)中心點(diǎn)是類(lèi)中心點(diǎn)偏移程度,即新確定的類(lèi)中心點(diǎn)距上個(gè)類(lèi)中心點(diǎn)的最大偏移量小于指定的量(的最大偏移量小于指定的量(spss默認(rèn)為默認(rèn)為0.02)時(shí)中止聚)時(shí)中止聚類(lèi)。類(lèi)。 9.3.2 k-means聚類(lèi)分析的操作步驟聚類(lèi)分析的操作步驟1.選擇選項(xiàng)選擇選項(xiàng)analyzeclassifyk-means cluster,打開(kāi)主窗口。,打開(kāi)主窗口。2.選定參與選定參與k-means聚類(lèi)的變量放入聚類(lèi)的變量放入variables框框中。中。3.選擇一個(gè)字符型變量作為標(biāo)記變量放入選擇一個(gè)字符型變量作為標(biāo)記變量放

27、入label cases框中,增加分析結(jié)果的可讀性??蛑?,增加分析結(jié)果的可讀性。4.在在number of clusters框中輸入聚類(lèi)數(shù)目,該框中輸入聚類(lèi)數(shù)目,該數(shù)應(yīng)小于樣本數(shù)。數(shù)應(yīng)小于樣本數(shù)。5.如果用戶自行指定初始類(lèi)中心點(diǎn),則單擊如果用戶自行指定初始類(lèi)中心點(diǎn),則單擊centers按鈕,并在按鈕,并在read initial from框后給出存放初始框后給出存放初始類(lèi)中心的類(lèi)中心的spss數(shù)據(jù)文件名;否則本步可略去。數(shù)據(jù)文件名;否則本步可略去。6.在在method框中指定聚類(lèi)過(guò)程是否調(diào)整類(lèi)中心點(diǎn)。其中,框中指定聚類(lèi)過(guò)程是否調(diào)整類(lèi)中心點(diǎn)。其中,iterate and classify表示在聚類(lèi)分析的每一步都重新確定表示在聚類(lèi)分析的每一步都重新確定類(lèi)中心點(diǎn)(類(lèi)中心點(diǎn)(spss默認(rèn));默認(rèn));classify only表示聚類(lèi)分析過(guò)程表示聚類(lèi)分析過(guò)程中類(lèi)中心點(diǎn)始終為初始類(lèi)中心點(diǎn),此時(shí)僅進(jìn)行一次迭代。中類(lèi)中心點(diǎn)始終為初始類(lèi)中心點(diǎn),此時(shí)僅進(jìn)行一次迭代。7.單擊單擊iterate按鈕確定中止聚類(lèi)的條件。在按鈕確定中止聚類(lèi)的條件。在maximum iterations框后輸入最大迭代次數(shù),在框后輸入最大迭代次數(shù),在convergence criterion框后輸入類(lèi)中心的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論