版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、7 聚類分析與判別分析 7.1 聚類分析7.2 判別分析7.1 聚類分析7.1.1 基本原理和方法7.1.2 系統(tǒng)聚類法7.1.3 系統(tǒng)聚類的SPSS應(yīng)用7.1.4 K均值聚類法7.1.5 K均值聚類法的SPSS應(yīng)用7.1.1 基本原理和方法聚類分析:采用定量數(shù)學(xué)方法,根據(jù)一批樣品的多個(gè)觀測指標(biāo),具體找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量,以這些統(tǒng)計(jì)量為劃分類型的依據(jù)分類的基本思想:把一些相似程度較大的樣品(或指標(biāo))聚合為一類,關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到把所有的樣品(或指標(biāo))聚合完畢例:對(duì)7種產(chǎn)品的銷售情況進(jìn)行檢驗(yàn)。共有兩個(gè)指標(biāo),銷售額和銷
2、售量,其數(shù)值分別如下表所示。選擇合適的統(tǒng)計(jì)方法對(duì)這些產(chǎn)品進(jìn)行分類。 現(xiàn)在如果將這七個(gè)產(chǎn)品按照銷售量和銷售額的大小把他們分成兩類。很容易得出,產(chǎn)品1,2,3應(yīng)該是一類的,產(chǎn)品4,5,6,7應(yīng)該是一類的。如果將他們分成三類,則仍很易得出產(chǎn)品1,2,3還是一類的,產(chǎn)品4,5,6是一類的,產(chǎn)品7是自成一類的??梢妼?duì)產(chǎn)品的分類事先是沒有給定標(biāo)準(zhǔn)的,完全從給出的樣本數(shù)據(jù)出發(fā)進(jìn)行分類。產(chǎn)品1和2,3在一類是因?yàn)樵阡N售量和銷售額上的接近,與產(chǎn)品4,5,6,7不在一類,則是因?yàn)樵阡N售量和銷售額上比較大的差距。聚類分析的作用正是在于此,主要用于辨識(shí)具有相似性的事物,并根據(jù)彼此不同的特性加以“聚類”,即自動(dòng)分類,使
3、同一類的事物具有高度的相似性,不同類的事物有較大的差異性。它是把事物按其相似程度進(jìn)行分類,在分類過程中,人們無需自己先定義一個(gè)分類標(biāo)準(zhǔn),聚類分析能夠從現(xiàn)有的樣本數(shù)據(jù)出發(fā),按它們的親疏程度分成若干類。 聚類分析例如:有p個(gè)指標(biāo)(變量),n個(gè)對(duì)象,依據(jù)這n個(gè)對(duì)象在p個(gè)指標(biāo)下的數(shù)據(jù),對(duì)這n個(gè)對(duì)象進(jìn)行聚類。設(shè)數(shù)據(jù)為:每一個(gè)對(duì)象是p維空間中的一個(gè)點(diǎn)聚類問題,就是在p維空間中,對(duì)這n個(gè)點(diǎn)的聚類問題使用聚類分析的注意的問題變量(指標(biāo))不能太多,否則,難以判斷聚類結(jié)果的實(shí)際意義指標(biāo)間有一定的相關(guān)關(guān)系(不必高度相關(guān)),可以對(duì)所觀察的一群個(gè)體分類,從而可以對(duì)個(gè)體進(jìn)行進(jìn)一步的研究變量(指標(biāo))過多,則可對(duì)指標(biāo)分類,把
4、有相近含義的指標(biāo)聚到一起,把整個(gè)指標(biāo)群分為若干類聚類分析的分類樣本聚類/Q型聚類:對(duì)觀測量(Case)進(jìn)行聚類,不同的目的選用不同的指標(biāo)作為分類的依據(jù)變量聚類/R型聚類:能夠找出彼此獨(dú)立且有代表性的自變量,而又不丟失大部分信息,主要是對(duì)研究對(duì)象的觀測變量進(jìn)行聚類,使得具有共同特征的變量作為一類聚類分析的步驟 選擇描述事物對(duì)象的變量(指標(biāo)) 形成數(shù)據(jù)文件,建立樣品資料矩陣 確定數(shù)據(jù)是否需要標(biāo)準(zhǔn)化 確定表示對(duì)象距離或相似程度的統(tǒng)計(jì)量 計(jì)算對(duì)象間的距離(rij)和相似關(guān)系矩陣R(rij) 選擇類與類之間的距離定義 聚類 分類度量樣本之間相似程度的統(tǒng)計(jì)量 距離:將一個(gè)樣品看作P維空間的一個(gè)點(diǎn),并在空間
5、用某種度量測量點(diǎn)與點(diǎn)之間的距離,距離越近的點(diǎn)歸為一類,距離較遠(yuǎn)的點(diǎn)歸為不同的類以dij表示第i個(gè)樣本與第j個(gè)樣本間的距離,需要滿足以下四個(gè)條件dij0,對(duì)一切i和j成立dij0,當(dāng)且僅當(dāng)ij成立dijdji0,對(duì)一切i和j成立dijdikdkj,對(duì)于一切i和j成立相似系數(shù):變量或樣品的關(guān)系越密切,其性質(zhì)就越接近,它們的相似系數(shù)的絕對(duì)值越接近1;反之,它們的相似系數(shù)的絕對(duì)值越接近于零,即樣品的關(guān)系越疏遠(yuǎn)樣品之間相似系數(shù)大的樣品歸為一類,樣品之間相似系數(shù)小的樣品歸為不同的類,即兩點(diǎn)相似系數(shù)越接近1,就相當(dāng)于距離越短,即相似的為一類,不相似的屬于不同類常用距離的分類由于距離的類型不同,其定義式也稍有
6、差異,下面介紹聚類分析中對(duì)連續(xù)型變量常用的幾種距離及其定義式。 (1)歐氏距離(Euclidean Distance):兩樣本之間的距離是兩個(gè)樣本在每個(gè)變量上的相應(yīng)值之差的平方和的平方根。 EUCLID(m個(gè)變量) (2)歐氏距離平方(Squared Euclidean Distance ):兩樣本之間的距離是兩個(gè)樣本在每個(gè)變量上的相應(yīng)值之差的平方和。 (3)切比雪夫距離: (Chebychev)兩樣本 之間的距離是兩個(gè)樣本在每個(gè)變量上的相應(yīng)值之差的絕對(duì)值的最大值。(4)馬氏距離 (Block):也稱廣義歐氏距離,是兩個(gè)樣本在每個(gè)變量上的相應(yīng)值之差的絕對(duì)值的總和。 (5)明可斯基距離(Mink
7、owski): 兩樣本 之間的距離是兩個(gè)樣本在每個(gè)變量上的相應(yīng)值之差的絕對(duì)值的p次方的總和再求p次方根 (6)自定義距離(Customized): 兩樣本x,y 之間的距離是兩個(gè)樣本在每個(gè)變量上的相應(yīng)值之差的絕對(duì)值的p次方的總和再求q次方根。 如果p=2,q=2是歐氏距離,p=2,q=1是歐式距離平方,p=1,q=1是馬氏距離 。 相似系數(shù)相似系數(shù)的計(jì)算 (1)夾角余弦夾角余弦時(shí)從向量集合的角度所定義的一種測量變量之間親疏程度的相似系數(shù)。它是受相似形的啟發(fā)而來的,在形狀相似而長度不是主要矛盾時(shí)用夾角余弦能反映出指標(biāo)之間的關(guān)系。設(shè)在n維空間的向量: 定義夾角余弦為: 相似系數(shù)(2)相關(guān)系數(shù)相關(guān)系
8、數(shù)常用rij表示,這是大家較為熟悉的統(tǒng)計(jì)量之一。為了和其它相似系數(shù)的符號(hào)統(tǒng)一,這里將它記做cij(2)。設(shè) 和 是第i和第j個(gè)樣品的觀測值,則二者之間的相似測度為: 類間距離計(jì)算方法根據(jù)系統(tǒng)分類法,第一步將 n個(gè)樣品看作n個(gè)類,然后合并距離最近的兩類為一個(gè)種類。如何計(jì)算類與類的距離呢?用D(p,q)表示類p和類q之間的距離,常用的類間距離有以下幾種: 類間距離計(jì)算方法1. 最短距離連接法(Nearest neighbor)用兩類中所有樣本對(duì)的距離的最小值作為兩類的距離,合并距離最近或相關(guān)系數(shù)最大的兩類。 x21x12x22x11類間距離計(jì)算方法2. 最長距離連接法(Furthest neigh
9、bor)用兩類中所有樣本對(duì)的距離的最大值作為兩類的距離,合并距離最近或相關(guān)系數(shù)最大的兩類。 x22x12x21x11類間距離計(jì)算方法3. 類間平均距離連接法(Between-groups linkage ): 將兩個(gè)類所有的樣本對(duì)(樣本對(duì)的兩個(gè)成員分屬于不同的類)的平均距離作為兩類的距離,合并距離最近或相關(guān)系數(shù)最大的兩類。此方法利用了兩個(gè)類中所有的樣本信息。 4231 類間距離計(jì)算方法4. 類內(nèi)平均距離連接法(Within-groups linkage )與類間平均距離連接法類似,但此時(shí)的平均距離是指對(duì)兩個(gè)類中所有樣本的距離求平均值包括兩個(gè)類之間的樣本對(duì)以及兩個(gè)類內(nèi)的樣本對(duì)。 4231 類間距
10、離計(jì)算方法5. 重心聚類法(Centroid clustering):將兩類重心 和 間的距離作為兩類的距離,合并距離最近或相關(guān)系數(shù)最大的兩類。 每個(gè)類的重心是該類中所有樣本在各個(gè)變量上的均值所在的點(diǎn)。 類間距離計(jì)算方法6. 離差平方和法(sum of squares method)該方法是在聚類過程中,將使得類內(nèi)各樣本的歐氏距離總平方和增加最小的兩類合并成一類。利用離差平方和法分類的效果較好,但它要求樣本之間的距離必須是歐式距離。7. 中位數(shù)法(median method)此方法是將兩類的中位數(shù)間的距離作為兩類之間的距離,優(yōu)點(diǎn)是比較穩(wěn)健。類間距離計(jì)算方法如何選擇適當(dāng)?shù)姆椒ň垲?,需要依照?shí)際問
11、題的背景,也需要經(jīng)驗(yàn)。從數(shù)理統(tǒng)計(jì)角度看,重心法和中位數(shù)法距離法不具有單調(diào)性,隨機(jī)模擬的結(jié)果表明,最長距離法不具有最優(yōu)化性。很多實(shí)際工作者采用最短距離法進(jìn)行聚類。 聚類分析的類型聚合法:每個(gè)樣本自成一類計(jì)算各類之間相似程度統(tǒng)計(jì)量,把最相似的兩類合并成一類重復(fù)上步,直到所有樣本歸為一類分解法:所有樣本歸為一類分為兩類重復(fù)上步,一直到每個(gè)樣本歸為一類或不能再細(xì)分為止調(diào)優(yōu)法:開始人為將樣本初始分類判斷該分類是否最優(yōu),如果不是則進(jìn)行修改重復(fù)上述步驟,直到分類達(dá)到最優(yōu)為止7.1.2 系統(tǒng)聚類法系統(tǒng)聚類法基本思想將所有樣品看成一個(gè)類選擇性質(zhì)最接近(距離最?。┑膬深惡喜橐粋€(gè)新類計(jì)算新類與其他類的距離,將距離
12、最近的兩類合并,這樣直至所有的樣品合并為一類系統(tǒng)聚類方法分類(待續(xù))(1)最短距離法距離最近的樣品歸入一類計(jì)算新類和單個(gè)樣品間的距離作為單個(gè)樣品和類中的樣品間的最小距離,尚未合并的樣品間的距離并未改變在每一步,兩類之間的距離是它們兩個(gè)最近點(diǎn)間的距離(2)最長距離法按兩個(gè)最遠(yuǎn)成員間的距離進(jìn)行類的歸并最長距離法與最短距離法相比,類與類之間的距離定義和計(jì)算新類與其他類的距離所用的公式不同(3)重心法兩類之間的距離為兩類重心間的距離,對(duì)樣品聚類的重心就是該類的均值缺陷是較后合并的類比較前合并的類更不相似(4)類平均法(Median clustering)兩類之間的距離是以各自的中數(shù)加以度量的,這使兩個(gè)
13、正被合并的類,在均值計(jì)算中被賦予相等的權(quán)力,而不管每一類中的樣品數(shù)系統(tǒng)聚類方法分類(續(xù))(5)類間平均連接法按各個(gè)團(tuán)體中成員間的平均距離連類,兩個(gè)類間的距離為所有樣品偶對(duì)間的平均距離(6)類內(nèi)平均連接法按各個(gè)團(tuán)體中成員間的平均距離連類,且使產(chǎn)生類的所有樣品之平均距離盡可能小,是取產(chǎn)生類的所有可能樣品偶對(duì)間的平均距離(7)離差平方和法如果分類正確,同類樣品的離差平方和應(yīng)當(dāng)較小,類與類的離差平方和應(yīng)當(dāng)較大。具體做法是先將n個(gè)樣品看成一類每次縮小一類,每縮小一類離差平方和就要增大,選擇使S增加最小的兩類合并直到所有的樣品歸為一類為止計(jì)算每一類所有變量的均值對(duì)每一個(gè)樣品計(jì)算到類均值的距離平方,對(duì)所有樣
14、品求這些距離之和合并的兩類是使類內(nèi)距離總平方和增加最少的類7.1.3 系統(tǒng)聚類的SPSS應(yīng)用例7.1 有關(guān)研究機(jī)構(gòu)通過2008年我國部分省市的土地利用情況(單位:萬公頃)進(jìn)行分析,試圖依據(jù)給出的數(shù)據(jù)對(duì)土地利用結(jié)構(gòu)進(jìn)行分類地區(qū)園地牧草地居民點(diǎn)及工礦交通用地水利設(shè)施北 京12.00.227.93.32.6天 津3.5028.12.26.5河 北70.579.9154.512.012.9山 西29.565.877.36.33.3內(nèi)蒙古7.36560.9123.916.09.3遼 寧59.634.9115.99.214.8吉 林11.5104.484.26.715.6黑龍江6.0220.8116.11
15、1.921.2上 海2.1023.02.10.2江 蘇31.60.1161.013.119.3浙 江66.1081.79.513.8安 徽33.92.8133.410.122.7福 建62.90.350.77.96.1江 西27.80.467.57.520.5山 東100.73.4209.316.325.5(數(shù)據(jù)來源:中國統(tǒng)計(jì)年鑒 2009中國統(tǒng)計(jì)出版社)操作及其說明Analyze Classify Hierarchical Cluster Hierarchical Cluster AnalysisHierarchical Cluster Analysis從左側(cè)選入?yún)⑴c聚類分析的變量 選入標(biāo)簽
16、變量選擇聚類類型對(duì)觀測量(樣本)進(jìn)行聚類,對(duì)應(yīng)于樣本聚類對(duì)變量(指標(biāo))進(jìn)行聚類,對(duì)應(yīng)于變量聚類選擇輸出結(jié)果統(tǒng)計(jì)分析統(tǒng)計(jì)圖表Hierarchical Cluster Analysis:StatisticsStatistics Hierarchical Cluster Analysis:Statistics聚集狀態(tài)表各項(xiàng)間的距離矩陣類成員欄不顯示類成員表,為系統(tǒng)默認(rèn)值要求列出聚為一定類數(shù)的各觀測量所屬的類某個(gè)范圍中每步各觀測量所屬的類Hierarchical Cluster Analysis: MethodAgglomeration schedule continue Method Hierarc
17、hical Cluster Analysis:MethodCluster Method選擇的聚類方法Between-groups linkage(組間連接):合并兩類的結(jié)果使所有的兩兩項(xiàng)對(duì)之間的平均距離最小,項(xiàng)對(duì)的兩個(gè)成員分別屬于不同的類,該方法中使用各對(duì)之間的距離Within-groups linkage(組內(nèi)連接):若當(dāng)兩類合并為一類后,合并后的類中的所有項(xiàng)之間的平均距離最小,兩類間的距離即是合并后的類中所有可能的觀測量對(duì)之間的距離平方Nearest neighbor(最近鄰法):該方法首先合并最近的或最相似的兩項(xiàng),用兩類間最近點(diǎn)間的距離代表兩類間的距離Furthest neighbor:
18、最遠(yuǎn)鄰法/完全連接,用兩類之間最遠(yuǎn)點(diǎn)的距離代表兩類之間的距離Centroid clustering(重心法):應(yīng)與歐氏距離平方法一起使用,像計(jì)算所有各項(xiàng)均值之間短距離那樣計(jì)算兩類之間的距離,該距離隨聚類的進(jìn)行不斷減小Median clustering(中間距離法):應(yīng)與歐氏平方距離一起使用Wards method:離差平方和法,應(yīng)與歐氏平方距離一起使用距離的測度方法選擇(待續(xù))在Measure欄中選擇距離計(jì)算方法Interval:應(yīng)用于等間隔測度的變量。單擊矩形框右側(cè)的下箭頭展開下拉,選擇連續(xù)變量距離測度的方法Eucidean distance:歐式距離,即兩樣本間距離為其對(duì)應(yīng)指標(biāo)值之差的平方
19、和的平方根Squrared Eucidean distance:歐式距離平方,即兩樣本間距離為其對(duì)應(yīng)指標(biāo)值之差的平方和;Cosine:變量矢量的余弦,這是模型相似性的度量Pearson Correalation:相關(guān)系數(shù)距離Chebychev:切比雪夫距離,即兩樣本間的距離為兩樣本對(duì)應(yīng)指標(biāo)值之差的絕對(duì)值中的最大值Block:City-Block或Manhattan距離,即兩樣本間的距離為兩樣本對(duì)應(yīng)指標(biāo)值之差的絕對(duì)值和Minkowski:兩樣本間的距離是一個(gè)絕對(duì)冪的度量,即兩樣本對(duì)應(yīng)指標(biāo)值之差的絕對(duì)值的p次冪之和的p次根,p由用戶指定Customized:距離是一個(gè)絕對(duì)冪的度量,即兩樣本對(duì)應(yīng)指標(biāo)
20、值之差的絕對(duì)值的p次冪之和的r次根,p與r由用戶指定距離的測度方法選擇(續(xù))Counts:應(yīng)用于計(jì)數(shù)變量。單擊其右側(cè)的向下箭頭,展開兩種選擇不相似性測度的方法:Chi-Square measure:卡方測度,用卡方值測度不相似性。該測度是根據(jù)兩個(gè)集的頻數(shù)相等的卡方檢驗(yàn),測度產(chǎn)生的值是卡方值的平方根,這是系統(tǒng)默認(rèn)的Phi-Square measure:兩組頻數(shù)之間的2 測度,試圖考慮減少樣本量對(duì)實(shí)際度值的實(shí)際預(yù)測頻率減少的影響B(tài)inary:應(yīng)用于二值變量。單擊Binary右側(cè)的向下箭頭展開下拉來選擇距離或不相似性測度的方法,首先應(yīng)明確對(duì)二值變量,系統(tǒng)默認(rèn)用1表示某特性出現(xiàn),用0表示某特性不出現(xiàn)確
21、定標(biāo)準(zhǔn)化的方法Transform Values:確定標(biāo)準(zhǔn)化的方法。單擊standardize右側(cè)向下箭頭選擇標(biāo)準(zhǔn)化的方法:None:不進(jìn)行標(biāo)準(zhǔn)化,是系統(tǒng)默認(rèn)值Z scores:把數(shù)值標(biāo)準(zhǔn)化到Z分?jǐn)?shù)。標(biāo)準(zhǔn)化后變量均值為0,標(biāo)準(zhǔn)差為1,系統(tǒng)將每個(gè)值減去被標(biāo)準(zhǔn)化的變量或觀測量的均值,再處以其標(biāo)準(zhǔn)差,如果標(biāo)準(zhǔn)差為0,則將所有值置為0Range -1 to 1:將數(shù)值標(biāo)準(zhǔn)化到1到1范圍內(nèi)Maxinum mannitude:把數(shù)值標(biāo)準(zhǔn)化到最大值1。該方法是把標(biāo)準(zhǔn)化的變量或觀測量的值用最大值去除,如果最大值為0,則用最小值的絕對(duì)值處再加1Range 0 to 1:將數(shù)值標(biāo)準(zhǔn)化到0到1范圍內(nèi)Mean of 1
22、:把數(shù)值標(biāo)準(zhǔn)化到一個(gè)均值的范圍內(nèi)Standard deviation of 1:把數(shù)值標(biāo)準(zhǔn)化到單位標(biāo)準(zhǔn)差測度的轉(zhuǎn)換方法選擇Transfrom Measure:測度的轉(zhuǎn)換方法選擇Absolute Values:把距離取絕對(duì)值,當(dāng)數(shù)值符號(hào)表示相關(guān)方向,且只對(duì)負(fù)相關(guān)關(guān)系感興趣時(shí)才采用此方法進(jìn)行交換Change Sign:把相似性值變?yōu)椴幌嗨菩灾祷蛳喾?,用求反的方法使距離順序顛倒Rescale to 01:通過首先減去最小值,然后處以范圍的方法使距離標(biāo)準(zhǔn)化Hierarchical Cluster Analysis:PlotsBetween-groups linkage squared Euclidea
23、n distance(其他為默認(rèn)設(shè)置) “Conitnue” Plots Hierarchical Cluster Analysis:Plots輸出樹形圖 冰柱圖 查看聚類的全過程 指定顯示的聚類范圍 不生成冰柱 確定顯示方向縱向顯示 水平顯示 Hierarchical Cluster Analysis:Save New VariablesDendrogram(樹形圖(其他設(shè)置采用系統(tǒng)默認(rèn)值 Continue按鈕主對(duì)話框 Save Hierarchical Cluster Analysis:Save New Variables 不建立新變量 單一結(jié)果 范圍內(nèi)的結(jié)果 樣本處理表 Case Pro
24、cessing Summarya,bCasesValidMissingTotalNPercentNPercentNPercent15100.00.015100.0a. Squared Euclidean Distance used b. Average Linkage (Between Groups)Single solution 設(shè)置為3 Continue 主對(duì)話框 “OK” 生成聚類結(jié)果聚類過程表 Agglomeration ScheduleStageCluster CombinedCoefficientsStage Cluster First AppearsNext StageClust
25、er 1Cluster 2Cluster 1Cluster 212967.670002212109.00501831012794.900007411131033.180005511141719.6804086472013.020001176103062.44003981114446.49125119366479.9070710103159737.8659012111410213.6808612121316417.371111013131846321.4741201414154.258E71300聚類步驟類間的距離樣本號(hào)聚類步序號(hào)下一步步序號(hào)冰柱圖Vertical IcicleNumber of
26、 clustersCase5內(nèi)蒙古8黑龍江15山東 12安徽 10江蘇 6遼寧 3河北 7吉林 4山西 14江西 13福建 11浙江 9上海 2天津 1北京 1XXXXXXXXXXXXXXXXXXXXXXXXXXXXX2XXXXXXXXXXXXXXXXXXXXXXXXXXXX3XXXXXXXXXXXXXXXXXXXXXXXXXXX4XXXXXXXXXXXXXXXXXXXXXXXXXX5XXXXXXXXXXXXXXXXXXXXXXXXX6XXXXXXXXXXXXXXXXXXXXXXXX7XXXXXXXXXXXXXXXXXXXXXXX8XXXXXXXXXXXXXXXXXXXXXX9XXXXXXXX
27、XXXXXXXXXXXXX10XXXXXXXXXXXXXXXXXXXX11XXXXXXXXXXXXXXXXXXX12XXXXXXXXXXXXXXXXXX13XXXXXXXXXXXXXXXXX14XXXXXXXXXXXXXXXX聚類的樹形圖系統(tǒng)聚類法在數(shù)據(jù)編輯窗口的輸出7.1.4 K均值聚類法K均值聚類法(快速聚類法/逐步聚類法):需要用戶指定類別數(shù)先把被聚對(duì)象進(jìn)行初始分類,然后逐步調(diào)整,得到最終分類其特點(diǎn)是處理速度快占用計(jì)算機(jī)內(nèi)存少快速樣本聚類適用于大樣本的聚類分析它能快速地把各觀測量分到各類中去1. 快速聚類分析概述快速聚類也稱動(dòng)態(tài)聚類,其方法簡單、占用內(nèi)存少,適合大樣本的聚類分析處理。快速
28、聚類的實(shí)質(zhì)其實(shí)是分步聚類法,也就是先選定一批初始類中心點(diǎn),然后讓變量或樣本向最近的類中心點(diǎn)靠攏,這樣凝聚成類,形成初步的分類。然后會(huì)對(duì)類中心點(diǎn)的選點(diǎn)進(jìn)行調(diào)整,一直調(diào)整到比較合理為止。一般快速聚類都要經(jīng)過多次迭代才能形成比較理想的結(jié)果。 快速聚類分析具體分析步驟在SPSS中快速聚類由 K-Means Cluster過程實(shí)現(xiàn),使用K均值分類法對(duì)樣本進(jìn)行聚類,K是用戶指定的聚類數(shù)目。具體分析步驟如下:(1)認(rèn)真選擇所研究問題所需的分析變量(2)按照用戶指定的希望聚類的數(shù)目(設(shè)聚為類,2K樣本數(shù)),依據(jù)某種原則(或人為指定)確定K個(gè)類的初始類中心點(diǎn)。初始類中心點(diǎn)可以通過兩種方法指定:一種是用戶自行指定
29、組數(shù)據(jù)作為個(gè)類的初始類中心點(diǎn),后面會(huì)介紹這種方法。另一種是 SPSS系統(tǒng)自動(dòng)指定,系統(tǒng)會(huì)根據(jù)樣本數(shù)據(jù)的具體情況選擇有K個(gè)代表性的樣本數(shù)據(jù)作為個(gè)類的初始類中心點(diǎn)。 快速聚類分析 (3)計(jì)算所有樣本數(shù)據(jù)點(diǎn)到K個(gè)類中心點(diǎn)的歐氏距離,按照就近原則,把所有樣本分派到各中心點(diǎn)所在的類中,形成一個(gè)分類方案,完成一次迭代,并計(jì)算出各類中變量的均值。(4)使用計(jì)算出的K個(gè)均值點(diǎn)作為個(gè)類的新的類中心點(diǎn)。(5)重復(fù)(3)和(4),直至達(dá)到指定的迭代次數(shù)或達(dá)到迭代收斂標(biāo)準(zhǔn)。 (6)輸出聚類結(jié)果。7.1.5 K均值聚類法的SPSS應(yīng)用Analyze Classify K-Means Cluster K-Means Cl
30、uster AnalysisK-Means Cluster Analysis從左側(cè)選入?yún)⑴c聚類分析的變量 選入標(biāo)簽變量 僅按初始類別中心點(diǎn)分類 聚類方法欄 指定初始類別中心點(diǎn),然后按K-Means算法做迭代分類 類中心數(shù)據(jù)的輸入與輸出設(shè)置 使用指定數(shù)據(jù)文件中的觀測量作為初始類中心 把聚類結(jié)果中的各類中心數(shù)據(jù)保存早指定的文件中 K-Means Cluster Analysis:IterateIterate and classify “Iterate” K-Means Cluster Analysis:Iterate限定K-Means算法的迭代次數(shù) 限定K-Means算法的收斂條件 限定在每個(gè)觀測
31、量被分配到一類后,即刻計(jì)算新的類中心 K-Means Cluster Analysis:Save New VariablesSave K-Means Cluster Analysis: Save New VariablesK-Means Cluster Analysis:Options初始類中心 選擇要求計(jì)算和輸出的統(tǒng)計(jì)量方差分析表 每個(gè)觀測量的分類信息 選擇處理帶有缺失值觀測量的方法 將出現(xiàn)在Variables變量表中變量帶有缺失值的觀測量從分析中剔除當(dāng)一個(gè)觀測量的全部聚類變量值均缺失時(shí),將其剔除,否則,分配到最近的一類中去Cluster membership Continue主對(duì)話框 “Options” K-Means Cluster Analysis:Options初始類中心表(Initial Cluster Center)初始類中心表(Initial Cluster Center)Cluster1234園地7.302.10100.706.00牧草地6560.90.003.40220.80居民工礦123.9023.00209.30116.10交通用地16.002.1016.3011.90水利設(shè)施9.30.2025.5021.20Initial cluster centers ANOVA table Cluster information for eac
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度鏟車租賃市場推廣合作合同3篇
- 2025年度食品安全管理體系認(rèn)證合同要求3篇
- 2024版融資租賃合同書模板
- 2025年度廚師職業(yè)保險(xiǎn)與福利保障服務(wù)合同3篇
- 二零二五版承臺(tái)施工節(jié)能減排合同2篇
- 二零二五版代收款與房地產(chǎn)銷售合同3篇
- 2025版綠化工程設(shè)計(jì)變更與施工管理合同4篇
- 二零二五年度網(wǎng)絡(luò)安全培訓(xùn)合同及技能提升方案3篇
- 2025版房地產(chǎn)租賃合同附家具及裝修改造條款3篇
- 二零二五版電商企業(yè)9%股權(quán)轉(zhuǎn)讓及增值服務(wù)合同3篇
- GB/T 16895.3-2024低壓電氣裝置第5-54部分:電氣設(shè)備的選擇和安裝接地配置和保護(hù)導(dǎo)體
- 2025湖北襄陽市12345政府熱線話務(wù)員招聘5人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 計(jì)劃合同部部長述職報(bào)告范文
- 2025年河北省職業(yè)院校技能大賽智能節(jié)水系統(tǒng)設(shè)計(jì)與安裝(高職組)考試題庫(含答案)
- 人教版高一地理必修一期末試卷
- 2024年下半年鄂州市城市發(fā)展投資控股集團(tuán)限公司社會(huì)招聘【27人】易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- GB/T 29498-2024木門窗通用技術(shù)要求
- 《職業(yè)院校與本科高校對(duì)口貫通分段培養(yǎng)協(xié)議書》
- GJB9001C質(zhì)量管理體系要求-培訓(xùn)專題培訓(xùn)課件
- 人教版(2024)英語七年級(jí)上冊單詞表
- 二手車車主寄售協(xié)議書范文范本
評(píng)論
0/150
提交評(píng)論