




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2021/1/25,1,第6章 聚類分析,6.1 聚類分析的基本思想和原理,6.2 相似性的量度,6.3 系統(tǒng)聚類,6.4 K均值聚類分析,6.4 K均值聚類分析,6.5 聚類分析中注意的事項(xiàng),2021/1/25,2,例 對(duì)10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X、Y和Z分別表示數(shù)學(xué)推理能力、空間想象能力和語(yǔ)言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對(duì)應(yīng)聘者進(jìn)行分類,問(wèn)題是如何來(lái)選擇樣品間相似性指標(biāo)? 如何將相似的類連接起來(lái),2021/1/25,3,2021/1/25,4,2021/1/25,5,聚類分析的研究目的 把相似的東西歸成類,根據(jù)相似的程度將研究目標(biāo)進(jìn)行分類 聚類分析的研究對(duì)象 Q型聚類-
2、對(duì)樣本進(jìn)行分類 R型聚類-對(duì)變量進(jìn)行分類 聚類分析研究的主要內(nèi)容 如何度量事物之間的相似性?(距離和相關(guān)系數(shù)) 怎樣構(gòu)造聚類方法以達(dá)到分類的目的,聚類分析,6.1聚類分析的基本思想和原理,聚類分析,6.1聚類分析的基本思想和原理,聚類分析,6.1聚類分析的基本思想和原理,2021/1/25,6,6.2相似性的度量,距離、相似系數(shù)、夾角余旋都可用于相似性的度量 距離:將每一個(gè)樣品看作p 維空間的一個(gè)點(diǎn),并用某種度量 測(cè)量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的 點(diǎn)應(yīng)屬于不同的類。 相似系數(shù)、夾角余旋:測(cè)度變量之間的親疏程度,2021/1/25,7,n個(gè)樣本看成p維空間中的n個(gè)點(diǎn),則兩個(gè)樣
3、本間相似程度就可用p維空間中的兩點(diǎn)距離公式來(lái)度量,一 樣本相似性的度量距離,6.2相似性的度量,一 樣本相似性的度量距離,6.2相似性的度量,2021/1/25,8,1明考夫斯基Minkowski距離(明氏距離,一 樣本相似性的度量距離,6.2相似性的度量,一 樣本相似性的度量距離,6.2相似性的度量,q=1時(shí) 絕對(duì)距離,q=2時(shí) 歐氏Euclidean距離,q=時(shí) 切比雪夫距離,2021/1/25,9,歐氏距離,切比雪夫距離,2021/1/25,10,明考夫斯基距離有以下兩個(gè)缺點(diǎn),明氏距離的數(shù)值與指標(biāo)的量綱有關(guān)。當(dāng)各變量的測(cè)量值相差懸殊時(shí),常發(fā)生“大數(shù)吃小數(shù)”的現(xiàn)象,為消除量綱的影響,通常先
4、將每個(gè)變量進(jìn)行標(biāo)準(zhǔn)化。 明氏距離的定義沒(méi)有考慮各個(gè)變量之間相關(guān)性的影響,2021/1/25,11,標(biāo)準(zhǔn)化的歐氏距離,設(shè)原始數(shù)據(jù)為,2021/1/25,12,2馬氏距離(廣義歐氏距離)印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(Mahalanobis)所定義的一種距離 設(shè)Xi與Xj是來(lái)自均值向量為 ,協(xié)方差為 (0)的總體G中的p維樣品,則兩個(gè)樣品間的馬氏距離為,馬氏距離適用于衡量來(lái)自正態(tài)總體的樣本點(diǎn)之間接近程度的距離; 優(yōu)點(diǎn):既排除了各指標(biāo)間的相關(guān)性,又消除了各指標(biāo)的量綱,一 樣本相似性的度量距離,6.2相似性的度量,分別為第i個(gè)變量和第j個(gè)變量的均值(列均值,2021/1/25,13,3蘭氏距離 適用于一
5、切Xij0的情況,克服各個(gè)指標(biāo)之間量綱的影響。但它也沒(méi)有考慮指標(biāo)之間的相關(guān)性,一 樣本相似性的度量距離,6.2相似性的度量,2021/1/25,14,1、夾角余弦 顯然,cos ij 1,若夾角余弦越大,則夾角越小,則兩個(gè)變量越相似,若將第i個(gè)變量的n個(gè)觀測(cè)值(x1i,x2i,xni)T和第j個(gè)變量的n個(gè)觀測(cè)值(x1j,x2j,xnj)T看成n維空間中的兩個(gè)向量,則正好是這兩個(gè)向量的夾角余弦,一 變量間的相似性度量夾角余弦和相關(guān)系數(shù),6.2相似性的度量,二 變量間的相似性度量夾角余弦和相關(guān)系數(shù),6.2相似性的度量,2021/1/25,15,2相關(guān)系數(shù)(pearson correlation皮爾
6、遜相關(guān)系數(shù)) 相關(guān)系數(shù)經(jīng)常用來(lái)度量變量間的相似性。變量Xi與Xj的相關(guān)系數(shù)定義為 rij 1,兩個(gè)變量相似系數(shù)的絕對(duì)值越接近于1,說(shuō)明這兩個(gè)變量的關(guān)系越密切,性質(zhì)越接近。 相似系數(shù)絕對(duì)值大的變量歸為一類,相似系數(shù)絕對(duì)值小的變量歸屬于不同的類。 相關(guān)系數(shù)實(shí)際上是對(duì)數(shù)據(jù)做中心化處理后的夾角余弦,一 變量間的相似性度量夾角余弦和相關(guān)系數(shù),6.2相似性的度量,二 變量間的相似性度量夾角余弦和相關(guān)系數(shù),6.2相似性的度量,二 變量間的相似性度量夾角余弦和相關(guān)系數(shù),6.2相似性的度量,2021/1/25,16,無(wú)論是夾角余弦還是相關(guān)系數(shù),它們的絕對(duì)值都小于1,統(tǒng)記為cij。 當(dāng)cij = 1時(shí),變量Xi與
7、Xj完全相似; 當(dāng)cij近似于1時(shí),變量Xi與Xj非常密切; 當(dāng)cij = 0時(shí),變量Xi與Xj完全不一樣; 當(dāng)cij近似于0時(shí),變量Xi與Xj差別很大。 為計(jì)算方便,記dij = 1 cij 或記 dij2 = 1 cij2 用表示變量間的距離遠(yuǎn)近,小則與先聚成一類,這比較符合人們的一般思維習(xí)慣,2021/1/25,17,描述對(duì)象的指標(biāo)往往具有不同的單位(量綱),其數(shù)值的變異范圍可能差別很大,這就會(huì)對(duì)分類結(jié)果產(chǎn)生影響。在進(jìn)行聚類分析之前,先要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,數(shù)據(jù)預(yù)處理,三 數(shù)據(jù)預(yù)處理,6.2相似性的度量,三 數(shù)據(jù)預(yù)處理,6.2相似性的度量,2021/1/25,18,總和標(biāo)準(zhǔn)化,這種標(biāo)準(zhǔn)
8、化方法所得到的新數(shù)據(jù)滿足,三 數(shù)據(jù)預(yù)處理,6.2相似性的度量,2021/1/25,19,標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,其中,這種標(biāo)準(zhǔn)化方法所得到的新數(shù)據(jù)滿足,三 數(shù)據(jù)預(yù)處理,6.2相似性的度量,2021/1/25,20,極大值標(biāo)準(zhǔn)化,經(jīng)過(guò)這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各屬性的極大值為1,其余各數(shù)值小于1,極差的標(biāo)準(zhǔn)化,經(jīng)過(guò)這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各屬性的極大值為1,極小值為0,其余的數(shù)值均在0與1之間,三 數(shù)據(jù)預(yù)處理,6.2相似性的度量,2021/1/25,21,一般說(shuō)來(lái),同一批數(shù)據(jù)采用不同的相似指標(biāo),會(huì)得到不同的分類結(jié)果。因?yàn)椴煌南嗨浦笜?biāo)凝聚了不同意義上的相似程度。 選擇相似測(cè)度指標(biāo)時(shí),應(yīng)注意遵循的基本原則主要
9、有: (1)所選擇的相似指標(biāo)在實(shí)際應(yīng)用中應(yīng)有明確的意義。如在經(jīng)濟(jì)變量分析中,常用相關(guān)系數(shù)表示經(jīng)濟(jì)變量之間的相似程度,四 距離和相似系數(shù)選擇的原則,6.2相似性的度量,2021/1/25,22,2)相似指標(biāo)的選擇要綜合考慮已對(duì)樣本觀測(cè)數(shù)據(jù)實(shí)施了的變換方法和將要采用的聚類分析方法。 在標(biāo)準(zhǔn)化變換之下,夾角余弦實(shí)際上就是相關(guān)系數(shù); 若在進(jìn)行聚類分析之前已經(jīng)對(duì)變量的相關(guān)性作了處理,則通常就可采用歐氏距離 所選擇的相似指標(biāo),須和選用的聚類分析方法一致。如聚類方法若選用離差平方和法,則距離只能選用歐氏距離。 (3)適當(dāng)?shù)乜紤]計(jì)算工作量的大小。 如對(duì)大樣本的聚類問(wèn)題,應(yīng)選擇k均值聚類。 聚類分析時(shí)到底選擇哪
10、一種分類統(tǒng)計(jì)量,有時(shí)并無(wú)最優(yōu)或唯一選擇,通常也可嘗試性地多選擇幾個(gè)不同的度量值進(jìn)行聚類,通過(guò)比較分析確定,2021/1/25,23,一 系統(tǒng)聚類的基本思想,二 系統(tǒng)聚類的基本步驟,三 類間距離距離與系統(tǒng)聚類法,6.3 系統(tǒng)聚類,四 在SPSS中利用系統(tǒng)聚類法進(jìn)行聚類分析,2021/1/25,24,1.計(jì)算n個(gè)樣本兩兩間的距離 ,記作D= 。 2.構(gòu)造n個(gè)類,每個(gè)類只包含一個(gè)樣品。 3.合并距離最近的兩類為一新類。 4.計(jì)算新類與各當(dāng)前類的距離。 5.重復(fù)步驟3、4,合并距離最近的兩類為新類,直到所有的類并為一類為止。 6.畫聚類譜系圖。 7.決定類的個(gè)數(shù)和類,二系統(tǒng)聚類法的基本步驟,6.3系統(tǒng)
11、聚類法,2021/1/25,25,先將n個(gè)樣本各自看成一類,然后規(guī)定樣本之間的“距離”和類與類之間的距離。選擇距離最近的兩類合并成一個(gè)新類,計(jì)算新類和其它類(各當(dāng)前類)的距離,再將距離最近的兩類合并。這樣,每次合并減少類數(shù),直至所有的樣品都?xì)w成一類為止。 總是先把離得最近的兩個(gè)類進(jìn)行合并 合并越晚的類,距離越遠(yuǎn) 事先并不會(huì)指定最后要分成多少類,而是把所有可能的分類都列出,再視具體情況選擇一個(gè)合適的分類結(jié)果,一系統(tǒng)聚類法的基本思想,6.3系統(tǒng)聚類法,一系統(tǒng)聚類法的基本思想,6.3系統(tǒng)聚類法,2021/1/25,26,初始分類,若 與 距離最小,合并為一類,no,輸出分類結(jié)果,類與類之間距離定義的
12、不同導(dǎo)致不同的系統(tǒng)聚類方法,系統(tǒng)聚類法的聚類步驟流程圖,6.3系統(tǒng)聚類法,2021/1/25,27,類間距離定義的不同產(chǎn)生了不同的系統(tǒng)聚類法。 常用的類間距離定義有8種之多,與之相應(yīng)的系統(tǒng)聚類法也有8種,分別為最短距離法、最長(zhǎng)距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和離差平方和法。 以下用dij表示樣品Xi與Xj之間距離,用Dij表示類Gi與Gj之間的距離,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,28,1最短距離法 (1)計(jì)算樣本的兩兩距離,得一距離陣記為D(0) (2)找出距離最小元素,設(shè)為Dpq,則將Gp
13、和Gq合并成一個(gè)新類,記為Gr,即Gr = Gp,Gq。 (3)計(jì)算新類與其它類的距離。 (4)重復(fù)(2)、(3)兩步,直到所有元素歸為一類,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,29,1、最短距離法,設(shè)類p與 q合并成一個(gè)新類,記為r,則r與任一類k的距離是,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,30,例:設(shè)有六個(gè)樣本,每個(gè)只測(cè)量一個(gè)指標(biāo),分別是1,2,5、7,9,10,樣本采用絕對(duì)值距離,計(jì)算樣本間的距離陣D(0) ,試用最短距離法將它們分類,2021/1/25,31,2)于是將G1和G2合并成G7,G5和G6合并成G8,形成新的距離矩陣
14、,2021/1/25,32,3)D34D482,G3、G4、G8合并成一個(gè)新類G9,2021/1/25,33,4)最后將G7和G9合并成G10,這時(shí)所有的六個(gè)樣品聚為一類,其過(guò)程終止,最短距離聚類法的過(guò)程,2021/1/25,34,例:設(shè)抽取5個(gè)樣本,每個(gè)樣本觀察2個(gè)指標(biāo) , x1:您每月大約喝多少瓶啤酒, x2:您對(duì)“飲酒是人生的快樂(lè)”這句話的看法如何?觀察數(shù)據(jù)如下,對(duì)這5個(gè)樣本分類,2021/1/25,35,2. 合并距離最小的兩類為新類,按順序定為第類,2021/1/25,36,3、計(jì)算新類與各當(dāng)前類的距離,得距離矩陣如下,2021/1/25,37,為最小,,4、重復(fù)步驟2、3,合并距離
15、最近的兩類為新類,直到所有的類并為一類為止,2021/1/25,38,6、按聚類的過(guò)程畫聚類譜系圖,4,5,并類距離,3,1,2,7、決定類的個(gè)數(shù)與類,觀察此圖,我們可以把5個(gè)樣本分為3類,2021/1/25,39,2021/1/25,40,2 最長(zhǎng)距離法,設(shè)類p與 q合并成一個(gè)新類,記為r,則r與任一類k 的距離是,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,41,2. 合并距離最小的兩類為新類,按順序定為第類,2021/1/25,42,3、計(jì)算新類與各當(dāng)前類的距離,得距離矩陣如下,2021/1/25,43,為最小,,4、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有
16、的類并為一類為止,2021/1/25,44,3. 中間距離法 類Gp與Gq類合并為類Gr,則任意的類Gk和Gr的距離公式為,特別當(dāng) = 14,它表示取中間點(diǎn)算距離,公式為,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,45,2. 合并距離最小的兩類為新類,按順序定為第類,2021/1/25,46,3、計(jì)算新類與各當(dāng)前類的距離,得距離矩陣如下,2021/1/25,47,為最小,,4、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有的類并為一類為止,2021/1/25,48,6、按聚類的過(guò)程畫聚類譜系圖,4,5,并類距離,3,1,2,7、決定類的個(gè)數(shù)與類,觀察此圖,我們可以把5
17、個(gè)樣品分為3類,2021/1/25,49,4. 重心法 類間距離為兩類重心(各類樣品的均值)的距離,它與新類k的距離是,經(jīng)推導(dǎo)可以得到如下遞推公式,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,50,2. 合并距離最小的兩類為新類,按順序定為第類,2021/1/25,51,3、計(jì)算新類與各當(dāng)前類的距離,得距離矩陣如下,2021/1/25,52,為最小,,4、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有的類并為一類為止,2021/1/25,53,6、按聚類的過(guò)程畫聚類譜系圖,4,5,并類距離,3,1,2,7、決定類的個(gè)數(shù)與類,觀察此圖,我們可以把5個(gè)樣本分為3類,2021
18、/1/25,54,5、類平均法(Average,類間距離平方:兩類元素兩兩之間距離平方的平均數(shù),三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,55,r類的樣品個(gè)數(shù)為,2021/1/25,56,2. 合并距離最小的兩類為新類,按順序定為第類,2021/1/25,57,3、計(jì)算新類與各當(dāng)前類的距離,得距離矩陣如下,2021/1/25,58,為最小,,4、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有的類并為一類為止,2021/1/25,59,6、按聚類的過(guò)程畫聚類譜系圖,4,5,并類距離,3,1,2,7、決定類的個(gè)數(shù)與類,觀察此圖,我們可以把5個(gè)樣品分為3類,2021/1/2
19、5,60,6、可變類平均法,類平均法中沒(méi)有反映出Gp和Gq之間的距離Dpq的影響, 因此將類平均法進(jìn)一步推廣,如果將Gp和Gq合并為新類Gr, 類Gk與新并類Gr的距離公式為: 其中是可變的且 1,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,61,7、可變法,如果將中間法的前兩項(xiàng)的系數(shù)也依賴于 ,那么, 如果將和合并為新類 ,類 與新并類 的距離公式: 其中 是可變的,且 。顯然在可變類平均法中取 ,即為可變法??勺冾惼骄ㄅc可變法的分 類效果與的選擇關(guān)系很大,在實(shí)際應(yīng)用中 常取負(fù)值,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,62,8、離差平方和法(W
20、ard法,反映樣本之間的差異程度,設(shè)變量X的n個(gè)樣品觀察值為,n個(gè)樣本的離差平方和為,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,63,設(shè)類p和q分別含有np、nq個(gè)樣品,合成類r,新類 k與任一類 r 的距離,2021/1/25,64,2. 合并距離最小的兩類為新類,按順序定為第類,2021/1/25,65,3、計(jì)算新類與各當(dāng)前類的距離,得距離矩陣如下,2021/1/25,66,為最小,,4、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有的類并為一類為止,2021/1/25,67,6、按聚類的過(guò)程畫聚類譜系圖,4,5,并類距離,3,1,2,7、決定類的個(gè)數(shù)與類,觀察此
21、圖,我們可以把5個(gè)樣品分為3類,2021/1/25,68,最短距離法,最長(zhǎng)距離法,中間距離法,重心法,類平均法,離差平方和法,2021/1/25,69,我國(guó)各地區(qū)2003年三次產(chǎn)業(yè)產(chǎn)值如表5.17所示,試根據(jù)三次產(chǎn)業(yè)產(chǎn)值利用K均值法對(duì)我國(guó)31個(gè)省、自治區(qū)和直轄市進(jìn)行聚類分析,三 在SPSS中利用K均值法進(jìn)行聚類分析,三 在SPSS中利用K均值法進(jìn)行聚類分析,6.3 系統(tǒng)聚類,四 在SPSS中利用系統(tǒng)聚類法進(jìn)行聚類分析,2021/1/25,70,一)操作步驟 1. 分析分類系統(tǒng)聚類,將變量移入變量框中。在分群欄中選擇個(gè)案單選按鈕,即對(duì)樣品進(jìn)行聚類(若選擇變量,則對(duì)變量進(jìn)行聚類)。在輸出欄中選擇統(tǒng)
22、計(jì)和圖復(fù)選框,這樣在結(jié)果輸出窗口中可以同時(shí)得到聚類結(jié)果統(tǒng)計(jì)量和統(tǒng)計(jì)圖,四系統(tǒng)聚類法SPSS操作步驟,6.3系統(tǒng)聚類法,2021/1/25,71,2. 點(diǎn)擊統(tǒng)計(jì)按鈕,設(shè)置在結(jié)果輸出窗口中給出的聚類分析統(tǒng)計(jì)量。這里我們選擇系統(tǒng)默認(rèn)值,點(diǎn)擊繼續(xù)按鈕,返回主界面。 3. 點(diǎn)擊繪制按鈕,設(shè)置結(jié)果輸出窗口中給出的聚類分析統(tǒng)計(jì)圖。選中樹狀圖復(fù)選框和冰柱欄中的無(wú)單選按鈕,即只給出聚類樹形圖,而不給出冰柱圖。單擊繼續(xù)按鈕,返回主界面,2021/1/25,72,4. 點(diǎn)擊方法按鈕,設(shè)置系統(tǒng)聚類的方法選項(xiàng)。聚類方法下拉列表用于指定聚類的方法,包括組間連接法、組內(nèi)連接法、最近距離法、最遠(yuǎn)距離法等;度量標(biāo)準(zhǔn)欄用于選擇對(duì)
23、距離和相似性的測(cè)度方法;剩下的轉(zhuǎn)換值和轉(zhuǎn)換度量用于選擇對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的方法。這里我們?nèi)匀痪赜孟到y(tǒng)默認(rèn)選項(xiàng)。單擊繼續(xù)按鈕,返回主界面,2021/1/25,73,5. 點(diǎn)擊保存按鈕,指定保存在數(shù)據(jù)文件中的用于表明聚類結(jié)果的新變量。無(wú)表示不保存任何新變量;單一方案表示生成一個(gè)分類變量,在其后的矩形框中輸入要分成的類數(shù);方案范圍表示生成多個(gè)分類變量。這里我們選擇方案范圍,并在后面的兩個(gè)矩形框中分別輸入2和4,即生成三個(gè)新的分類變量,分別表明將樣品分為2類、3類和4類時(shí)的聚類結(jié)果。點(diǎn)擊繼續(xù),返回主界面,6. 點(diǎn)擊確定按鈕,運(yùn)行系統(tǒng)聚類過(guò)程,2021/1/25,74,二)結(jié)果解釋 1 系統(tǒng)聚類法樹
24、形圖,2021/1/25,75,2. 由于我們已經(jīng)在保存子對(duì)話框中設(shè)置了在數(shù)據(jù)文件中生成新的分類變量,所以,在數(shù)據(jù)編輯窗口中,我們可以看到生成的三個(gè)表示分類結(jié)果的新變量。變量名為clu4_1、clu3_1和clu2-1的三個(gè)分類變量分別表明了把樣品分成4類、3類和2類的分類情況,生成三個(gè)新的分類變量,2021/1/25,76,第1步:確定要分的類別數(shù)目K 需要研究者自己確定 在實(shí)際應(yīng)用中,往往需要研究者根據(jù)實(shí)際問(wèn)題反復(fù)嘗試,得到不同的分類并進(jìn)行比較,得出最后要分的類別數(shù)量 第2步:確定K個(gè)類別的初始聚類中心(凝聚點(diǎn)) 要求在用于聚類的全部樣本中,選擇K個(gè)樣本作為K個(gè)類別的初始聚類中心 與確定類
25、別數(shù)目一樣,原始聚類中心的確定也需要研究者根據(jù)實(shí)際問(wèn)題和經(jīng)驗(yàn)來(lái)綜合考慮 使用SPSS進(jìn)行聚類時(shí),也可以由系統(tǒng)自動(dòng)指定初始聚類中心,一 k均值聚類步驟,6.4 k均值聚類分析(快速聚類,動(dòng)態(tài)聚類,2021/1/25,77,第3步:根據(jù)確定的K個(gè)初始聚類中心,依次計(jì)算每個(gè)樣本到K個(gè)聚類中心的歐氏距離,根據(jù)距離最近的原則將所有的樣本分到事先確定的K個(gè)類別中 第4步:根據(jù)所分成的K個(gè)類別,計(jì)算出各類別中每個(gè)變量的均值,并以均值點(diǎn)作為新的K個(gè)類別中心。根據(jù)新的中心位置,重新計(jì)算每個(gè)樣本到新中心的距離,并重新進(jìn)行分類 第5步:重復(fù)第4步,直到滿足終止聚類條件為止 迭代次數(shù)達(dá)到研究者事先指定的最大迭代次數(shù)或
26、者新確 定的聚類中心點(diǎn)與上一次迭代形成的中心點(diǎn)的最大偏移量小于指定的量(SPSS隱含的是0.02,一 k均值聚類步驟,6.4 k均值聚類分析(快速聚類,動(dòng)態(tài)聚類,2021/1/25,78,b) 任取兩個(gè)凝聚點(diǎn),a)空間的群點(diǎn),二 凝聚點(diǎn)的選擇,6.4 k均值聚類分析,二 凝聚點(diǎn)的選擇,6.4 k均值聚類分析,2021/1/25,79,e) 第二次分類,優(yōu)點(diǎn):計(jì)算量小,方法簡(jiǎn)便,可以根據(jù)經(jīng)驗(yàn),先作主觀分類。 缺點(diǎn):結(jié)果受選擇凝聚點(diǎn)好壞的影響,分類結(jié)果不穩(wěn)定,2021/1/25,80,凝聚點(diǎn)就是一批有代表性的點(diǎn),是欲形成類的中心。凝聚點(diǎn)的選擇直接決定初始分類,對(duì)分類結(jié)果也有很大的影響,由于凝聚點(diǎn)
27、的不同選擇,其最終分類結(jié)果也將出現(xiàn)不同。故選擇時(shí)要慎重通 常選擇凝聚點(diǎn)的方法有: (1) 人為選擇,當(dāng)人們對(duì)所欲分類的問(wèn)題有一定了解時(shí),根據(jù)經(jīng)驗(yàn),預(yù)先確定分類個(gè)數(shù)和初始分類,并從每一類中選擇一個(gè)有代表性的樣品作為凝聚點(diǎn)。 (2) 重心法將數(shù)據(jù)人為地分為幾類,計(jì)算每一類的重心,將重心作為凝聚點(diǎn),二 凝聚點(diǎn)的選擇,6.4 k均值聚類分析,2021/1/25,81,3) 密度法 以某個(gè)正數(shù)d為半徑,以每個(gè)樣品為球心,落在這個(gè)球內(nèi)的樣品數(shù)(不包括作為球心的樣品)稱為這個(gè)樣品的密度。計(jì)算所有樣品點(diǎn)的密度后,首先選擇密度最大的樣品為第一凝聚點(diǎn)。然后選出密度次大的樣品點(diǎn),若它與第一個(gè)凝 聚點(diǎn)的距離大于2d
28、,則將其作為第二個(gè)凝聚點(diǎn);否則舍去這點(diǎn)。這樣,按密度由大到小依次考查,直至全部樣品考查完畢為止此方法中,d要給得合適,太大了使凝聚點(diǎn)個(gè)數(shù)太 少,太小了使凝聚點(diǎn)個(gè)數(shù)太多,二 凝聚點(diǎn)的選擇,6.4 k均值聚類分析,4)人為地選擇一正數(shù)d,首先以所有樣品的均值作為第一凝聚點(diǎn)。然后依次考察每個(gè)樣品,若某樣品與已選定的凝聚點(diǎn)的距 離均大于d,該樣品作為新的凝聚點(diǎn),否則考察下一個(gè)樣品,二 凝聚點(diǎn)的選擇,6.4 k均值聚類分析,2021/1/25,82,例1:某商店5位售貨員的銷售量和教育程度如下表,對(duì)這5位售貨員分類,2021/1/25,83,選擇凝聚點(diǎn),1,為最大??蛇x擇2和5作為凝聚點(diǎn),計(jì)算各樣品之間
29、歐式距離,得到如下的距離矩陣,初始 分類 為,2021/1/25,84,計(jì)算G1和G2的重心:G1的重心(1,1.5), G2的重心(7.33,1.67,3.修改分類,分別計(jì)算5個(gè)點(diǎn)到兩個(gè)組重心的歐式距離, 再按最小距離原則重新聚類,修改前后所分的類相同, 故可停止修改,2021/1/25,85,例2:A、B、C、D四個(gè)樣品,兩個(gè)變量,將四個(gè)樣品聚成兩類 第一步:按要求取K=2,隨意分成兩類,比如(A、B)和(C、D),計(jì)算這兩個(gè)聚類的中心坐標(biāo),2021/1/25,86,第二步:計(jì)算某個(gè)樣品到各類中心的歐氏平方距離,然后將該樣品分配給最近的一類。 由于A到(A、B)的距離小于到(C、D)的距離
30、,因此A不用重新分配。計(jì)算B到兩類的平方距離: B到(A、B)的距離大于到(C、D)的距離,因此B要分配給(C、D)類,得到新的聚類是(A)和(B、C、D)。更新中心坐標(biāo),2021/1/25,87,第三步:再次檢查每個(gè)樣品,以決定是否需要重新分類。計(jì)算各樣品到各中心的距離平方,得結(jié)果見表。 到現(xiàn)在為止,每個(gè)樣品都已經(jīng)分配給距離中心最近的類,因此聚類過(guò)程到此結(jié)束。最終得到K=2的聚類結(jié)果是A獨(dú)自成一類,B、C、D聚成一類,2021/1/25,88,我國(guó)各地區(qū)2003年三次產(chǎn)業(yè)產(chǎn)值如表5.17所示,試根據(jù)三次產(chǎn)業(yè)產(chǎn)值利用K均值法對(duì)我國(guó)31個(gè)省、自治區(qū)和直轄市進(jìn)行聚類分析,三 在SPSS中利用K均值
31、法進(jìn)行聚類分析,6.4 k均值聚類分析,三 在SPSS中利用K均值法進(jìn)行聚類分析,6.4 k均值聚類分析,2021/1/25,89,數(shù)據(jù)檢查 若原始變量取值差異較大,應(yīng)先將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,避免變量值差異過(guò)大對(duì)分類結(jié)果的影響 可以先觀察3項(xiàng)指標(biāo)的有關(guān)描述統(tǒng)計(jì)量,分析】【描述統(tǒng)計(jì)】 【描述】 將需要標(biāo)準(zhǔn)化的變量選入【變量】 【選項(xiàng)】 【均值等】 【繼續(xù)】 【確定,2021/1/25,90,數(shù)據(jù)標(biāo)準(zhǔn)化,分析】【描述統(tǒng)計(jì)】 【描述】 將需要標(biāo)準(zhǔn)化的變量選入【變量】 勾選復(fù)選框【標(biāo)準(zhǔn)化得分另存為變量】 【確定,2021/1/25,91,一)操作步驟 1. 分析分類k均值聚類,并將標(biāo)準(zhǔn)化后的變量移入變
32、量框中,將標(biāo)志變量地區(qū)移入個(gè)案標(biāo)記依據(jù)框中。 在方法框中選擇迭代與分類,即使用K-均值算法不斷計(jì)算新的類中心,并替換舊的類中心(若選擇僅分類,則根據(jù)初始類中心進(jìn)行聚類,在聚類過(guò)程中不改變類中心)。 在聚類數(shù)后面的矩形框中輸入想要把樣品聚成的類數(shù),這里我們輸入3,即將31個(gè)地區(qū)分為3類。至于聚類中心按鈕,則用于設(shè)置迭代的初始類中心。如果不手工設(shè)置,則系統(tǒng)會(huì)自動(dòng)設(shè)置初始類中心,這里我們不作設(shè)置,三 在SPSS中利用K均值法進(jìn)行聚類分析,6.4 k均值聚類分析,2021/1/25,92,2. 點(diǎn)擊迭代按鈕,對(duì)迭代參數(shù)進(jìn)行設(shè)置。最大迭代次數(shù)用于設(shè)定K-均值算法迭代的最大次數(shù),收斂性標(biāo)準(zhǔn)用于設(shè)定算法的收
33、斂判據(jù),其值應(yīng)該介于0和1之間。例如判據(jù)設(shè)置為0.02,則當(dāng)一次完整的迭代不能使任何一個(gè)類中心距離的變動(dòng)與原始類中心距離的比小于2%時(shí),迭代停止。設(shè)置完這兩個(gè)參數(shù)之后,只要在迭代的過(guò)程中滿足了其中一個(gè)的參數(shù),則迭代過(guò)程就停止。這里我們選擇系統(tǒng)默認(rèn)的標(biāo)準(zhǔn)。單擊Continue,返回主界面。使用運(yùn)行均值當(dāng)每一個(gè)樣品被分配到一類時(shí)立即重新計(jì)算新的類中心,否則所有樣品重新分配后才重新計(jì)算新的類中心,2021/1/25,93,3. 點(diǎn)擊保存按鈕,設(shè)置保存在數(shù)據(jù)文件中的表明聚類結(jié)果的新變量。聚類成員用于建立一個(gè)代表聚類結(jié)果的變量,默認(rèn)變量名為qcl_1;與聚類中心的距離建立一個(gè)新變量,代表各觀測(cè)量與其所屬
34、類中心的歐氏距離。我們將兩個(gè)復(fù)選框都選中,單擊繼續(xù)按鈕返回,2021/1/25,94,4. 點(diǎn)擊選項(xiàng)按鈕,指定要計(jì)算的統(tǒng)計(jì)量。選中初始聚類中心和每個(gè)個(gè)案的聚類信息復(fù)選框。這樣,在輸出窗口中將給出聚類的初始類中心和每個(gè)觀測(cè)量的分類信息,包括分配到哪一類和該觀測(cè)量距所屬類中心的距離。單擊繼續(xù)返回。 5. 點(diǎn)擊OK按鈕,運(yùn)行K均值聚類分析程序,2021/1/25,95,二)主要運(yùn)行結(jié)果解釋 1. 初始聚類中心 2. 迭代歷史記錄:本次聚類過(guò)程共經(jīng)歷了三次迭代。由于我們?cè)诘訉?duì)話框中使用系統(tǒng)默認(rèn)的選項(xiàng)(最大迭代次數(shù)為10和收斂判據(jù)為0),所以在第三次迭代后,類中心的變化為0,從而迭代停止,該表列出每一類別的初始聚類中心,本例的這些中心是由SPSS自動(dòng)生成的,它實(shí)際上就是數(shù)據(jù)集中的某一條記錄。聚類中心的選擇原則是中心點(diǎn)距離其他點(diǎn)盡可能遠(yuǎn),2021/1/25,96,二)主要運(yùn)行結(jié)果解釋 1. 初始聚類中心 2. 迭代歷史記錄:本次聚類過(guò)程共經(jīng)歷了三次
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國(guó)小電珠數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)定量吸管數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)雙金屬?gòu)?fù)合軋片式翅片管數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)仙桃花茶數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)中空滌綸纖維數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)不銹鋼家具車數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)PVC拉力健身球數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025年中國(guó)青柳蛤市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國(guó)銅頭紫竹龍鳳笛市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國(guó)金龍石市場(chǎng)調(diào)查研究報(bào)告
- EIM Book 1 Unit 7 Learning languages單元知識(shí)要點(diǎn)
- 呼吸系統(tǒng)疾病與麻醉(薛張剛)
- WOMAC骨性關(guān)節(jié)炎指數(shù)評(píng)分表
- 年處理量48萬(wàn)噸重整裝置芳烴精餾的工藝設(shè)計(jì)-二甲苯塔
- CRPS電源設(shè)計(jì)向?qū)?CRPS Design Guide r-2017
- 16防沖工題庫(kù)題庫(kù)(238道)
- SH/T 1627.1-1996工業(yè)用乙腈
- GB/T 5534-2008動(dòng)植物油脂皂化值的測(cè)定
- GB/T 3452.2-2007液壓氣動(dòng)用O形橡膠密封圈第2部分:外觀質(zhì)量檢驗(yàn)規(guī)范
- GB/T 30797-2014食品用洗滌劑試驗(yàn)方法總砷的測(cè)定
- GB/T 20057-2012滾動(dòng)軸承圓柱滾子軸承平擋圈和套圈無(wú)擋邊端倒角尺寸
評(píng)論
0/150
提交評(píng)論