聚類分析課程_第1頁
聚類分析課程_第2頁
聚類分析課程_第3頁
聚類分析課程_第4頁
聚類分析課程_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第9章 聚類分析9.1 引言俗話說:“物以聚類,人以群分”,在現(xiàn)實世界中存在著大量的分類問題。例如,生物可以分成動物和植物,動物又可分為脊椎動物和無脊椎動物等;人按年齡可分為少年、青年、中年、老年,對少年的身體形態(tài)、身體素質(zhì)及生理功能的各項指標進行測試,據(jù)此對少年又可進行分類;在環(huán)境科學中,我們可以對按大氣污染的輕重分成幾類區(qū)域;在經(jīng)濟學中,根據(jù)人均國民收入、人均工農(nóng)業(yè)產(chǎn)值和人均消費水平等多項指標對世界上所有國家的經(jīng)濟發(fā)展狀況進行分類;在產(chǎn)品質(zhì)量管理中,要根據(jù)各產(chǎn)品的某些重要指標可以將其分為一等品,二等品等。研究事物分類問題的基本方法有兩種:一是判別分析,二是聚類分析。若已知總體的類別數(shù)目及各

2、類的特征,要對類別未知的個體正確地歸屬其中某一類,這時需要用判別分析法。若事先對總體到底有幾種類型無從知曉,則要想知道觀測到的個體的具體的分類情況,這時就需要用聚類分析法。聚類分析的基本思想:首先定義能度量樣品(或變量)間相似程度(親疏關(guān)系)的統(tǒng)計量,在此基礎(chǔ)上求出各樣品(或變量)間相似程度的度量值;然后按相似程度的大小,把樣品(或變量)逐一歸類,關(guān)系密切的聚集到一個小的分類單位,關(guān)系疏遠的聚合到一個大的分類單位,直到所有的樣品(或變量)都聚合完畢,把不同的類型一一劃分出來,形成一個由小到大的分類系統(tǒng);最后根據(jù)整個分類系統(tǒng)畫出一副分群圖,稱之為親疏關(guān)系譜系圖。聚類分析給人們提供了豐富多彩的分類

3、方法,大致可歸為:系統(tǒng)聚類法:首先,將個樣品看成類,然后將性質(zhì)最接近的兩類合并成一個新類,得到類,合并后重新計算新類與其它類的距離與相近性測度。這一過程一直繼續(xù)直到所有對象歸為一類為止,并且類的過程可用一張譜系聚類圖描述。動態(tài)聚類法(調(diào)優(yōu)法):首先對個對象初步分類,然后根據(jù)分類的損失函數(shù)盡可能小的原則進行調(diào)整,直到分類合理為止。有序樣品聚類法(最優(yōu)分割法):開始將所有樣品看成一類,然后根據(jù)某種最優(yōu)準則將它們分割為二類、三類,一直分割到所需的K類為止。這種方法適用于有序樣品的分類問題,故稱為有序樣品聚類法模糊聚類法:該方法多用于定性變量的分類利用模糊集理論來處理分類問題,它對經(jīng)濟領(lǐng)域中具有模糊特

4、征的兩態(tài)數(shù)據(jù)和多態(tài)數(shù)據(jù)具有明顯的分類效果圖論聚類法:利用圖論中最小支撐樹的概念來處理分類問題,創(chuàng)造了獨具風格的方法聚類預(yù)報法:利用聚類方法處理預(yù)報問題,在多元統(tǒng)計分析中,可用來作預(yù)報的方法很多,如回歸分析或判別分析但對一些異常數(shù)據(jù),如氣象中的災(zāi)害性天氣的預(yù)報,使用回歸分析或判別分析處理的效果都不好,而聚類預(yù)報彌補了這一不足,這是一個值得重視的方法。本書主要介紹聚類分析不僅可以對樣品進行分類,也可以對變量進行分類。對樣品的分類稱為Q型聚類分析,對變量進行分類稱為R型聚類分析。聚類分析的歷史還很短,它的方法很粗糙,理論上還不完善,但由于能解決許多實際問題,所以很受人們重視,同回歸分析、判別分析一起

5、被稱為多元分析的三大實用分析方法。9.2 聚類統(tǒng)計量在對樣品(或變量)進行分類時,樣品(或變量)之間的相似性是如何度量的呢?這一節(jié)中,我們介紹三種相似性度量距離、匹配系數(shù)和相似系數(shù)。距離和匹配系數(shù)常用來度量樣品之間的相似性,相似系數(shù)常用來變量之間的相似性。樣品之間的距離和相似系數(shù)有著各種不同的定義,而這些定義與變量的類型有著非常密切的關(guān)系。通常變量按取值的不同可以分為:1.定量變量:變量用連續(xù)的量來表示,例如長度、重量、速度、人口等,又稱為間隔尺度變量。2.定性變量:并不是數(shù)量上有變化,而只是性質(zhì)上有差異。定性變量還可以再分為:有序尺度變量:變量不是用明確的數(shù)量表示,而是用等級表示,例如某產(chǎn)品

6、分為一等品、二等品、三等品等,文化程度分為文盲、小學、中學、大學等。名義尺度變量:變量用一些類表示,這些類之間既無等級關(guān)系,也無數(shù)量關(guān)系,例如性別分為男、女,職業(yè)分為工人、教師、干部、農(nóng)民等。下面我們主要討論具有定量變量的樣品聚類分析,描述樣品間的親疏程度最常用的是距離。9.2.1距離1. 數(shù)據(jù)矩陣設(shè)為第個樣品的第個指標,數(shù)據(jù)矩陣如下表 表9.1 數(shù)據(jù)矩陣 變量樣品 12n 在上表中,每個樣品有個變量,故每個樣品都可以看成是中的一個點,個樣品就是中的個點。在中需定義某種距離,第個樣品與第個樣品之間的距離記為,在聚類過程中,相距較近的點傾向于歸為一類,相距較遠的點應(yīng)歸屬不同的類。所定義的距離一般

7、應(yīng)滿足如下四個條件:,對一切;且當且僅當 ,對一切;,對一切2定量變量的常用的距離對于定量變量,常用的距離有以下幾種:閔科夫斯基(Minkowski)距離這里為某一自然數(shù)。閔科夫斯基距離有以下三種特殊形式:1) 當時,稱為絕對值距離,常被形象地稱為“城市街區(qū)”距離;2) 當時,稱為歐氏距離,這是聚類分析中最常用的距離;3)當時,,稱為切比雪夫距離。在實際中用得很多,但是有一些缺點,一方面距離的大小與各指標的觀測單位有關(guān),另一方面它沒有考慮指標間的相關(guān)性。當各指標的測量值相差懸殊時,應(yīng)先對數(shù)據(jù)標準化,然后用標準化后的數(shù)據(jù)計算距離;最常用的標準化處理是:令 其中為第個變量的樣本均值,為第個變量的樣

8、本方差。蘭氏(Lance和Williams)距離 當( )時,第個樣品與第個樣品間的蘭氏距離為 這個距離與各變量的單位無關(guān),但沒有考慮指標間的相關(guān)性。馬氏距離(Mahalanobis)距離第個樣品與第個樣品間的馬氏距離為其中,為樣品協(xié)方差矩陣。使用馬氏距離的好處是考慮到了各變量之間的相關(guān)性,并且與各變量的單位無關(guān);但馬氏距離有一個很大的缺陷,就是難確定。由于聚類是一個動態(tài)過程,故隨聚類過程而變化,那么同樣的兩個樣品之間的距離可能也會隨之而變化,這不符和聚類的基本要求。因此,在實際聚類分析中,馬氏距離不是理想的距離。斜交空間距離 第個樣品與第個樣品間的斜交空間距離定義為其中是變量與變量間的相關(guān)系

9、數(shù)。當個變量互不相關(guān)時,即斜交空間距離退化為歐氏距離(除相差一個常數(shù)倍外)。以上幾種距離的定義均要求樣品的變量是定量變量,如果使用的是定性變量,則有相應(yīng)的定義距離的方法。3定性變量的距離下例只是對名義尺度變量的一種距離定義。 例9.1.1 某高校舉辦一個培訓班,從學員的資料中得到這樣6個變量:性別()取值為男和女;外語語種()取值為英、日和俄;專業(yè)()取值為統(tǒng)計、會計和金融;職業(yè)()取值為教師和非教師;居住處()取值為校內(nèi)和校外;學歷()取值為本科和本科以下?,F(xiàn)有兩名學員: (男,英,統(tǒng)計,非教師,校外,本科) (女,英,金融,教師,校外,本科以下)這兩名學員的第二個變量都取值“英”,稱為配合

10、的,第一個變量一個取值為“男”,另一個取值為“女”,稱為不配合的。一般地,若記配合的變量數(shù)為,不配合的變量數(shù)為,則它們之間的距離可定義為按此定義本例中與之間的距離為。當樣品的變量為定性變量時,通常采用匹配系數(shù)作為聚類統(tǒng)計量。9.2.2匹配系數(shù) 定義9.2.1 第個樣品與第個樣品的匹配系數(shù)定義為 ,其中顯然匹配系數(shù)越大,說明兩樣品越相似。例9.2.1 對購買家具的顧客作聚類分析。有以下三個變量: :喜歡的式樣,老式記為1,新式記為2; :喜歡的圖案,素式記為1,格子式記為2,花式記為3; :喜歡的顏色,藍色記為1,黃色記為2,紅色記為3,綠色記為4。 下面列出 表9.2 四位顧客(樣品)的觀測值

11、 變量樣品 1 2 3 4 1 3 11 2 22 3 32 2 3解 各樣品為名義尺度變量,其取值僅代表不同狀況、類別,無大小次序關(guān)系,故采用匹配系數(shù)作為聚類統(tǒng)計量,由定義得 ,注:對,為非負整數(shù); 越大,表明樣品越相似;按由大到小,可將樣品逐步聚類。上述匹配系數(shù)的計算沒有考慮到各個變量取值個數(shù)的多寡而一視同仁。在上例中,式樣 只取兩個值1和2,圖案取三個值(1,2,3),顏色取四個值(1,2,3,4). 故 即 這樣,的大小主要由控制,而與的作用不適當?shù)乇幌魅趿?。為了解決這一問題,引進對指標加權(quán)的匹配系數(shù):其中是指標的權(quán)數(shù),等于可能取值的個數(shù)。 對上例,求得各加權(quán)匹配系數(shù)為:,.聚類分析方

12、法不僅用來對樣品進行分類,而且可用來對變量進行分類。在對變量進行分類時,常常采用相似系數(shù)來度量變量之間的相似性。9.2.3相似系數(shù)設(shè)表示與的相似系數(shù),它一般應(yīng)滿足如下三個條件: ,對一切; ,當且僅當存在常數(shù)和,使得;,對一切.最常用的相似系數(shù)有以下兩種:1. 夾角余弦變量與的夾角余弦定義為它是中變量的觀測向量與變量的觀測向量之間夾角的余弦函數(shù),即.2. 相關(guān)系數(shù)變量與的相關(guān)系數(shù)為其中,注:實際上是將數(shù)據(jù)標準化后的交角余弦。變量之間的這種相似性度量,在一些應(yīng)用中要看相似系數(shù)的大小,而在另一些應(yīng)用中要看相似系數(shù)絕對值的大小。相似系數(shù)(或其絕對值)越大,認為變量之間相似程度就越高;反之,則越低。聚

13、類時,比較相似的變量傾向于歸為一類,不太相似的變量歸屬不同的類。變量之間常借助于相似系數(shù)來定義距離,如令一般來說,同一批數(shù)據(jù)采用不同的相似性度量,會得到不同的分析結(jié)果。在進行聚類分析時,應(yīng)根據(jù)實際情況選取合適的相似性度量,如在經(jīng)濟變量分析中,常用相關(guān)系數(shù)來描述變量間的相似程度。9.3系統(tǒng)聚類法9.3.1系統(tǒng)聚類的基本思想方法系統(tǒng)聚類是將N個樣本分成若干個類的方法:系統(tǒng)聚類的基本思想是:先將N個樣本各自看成一類,然后規(guī)定類與類之間的距離,選擇距離最小的一對合并成一個新類,計算新類與其他類的距離,再將距離最近的兩類合并,這樣每次減少一類,直至所有的樣本成為一類為止。記n為觀測個數(shù),r為變量個數(shù),為

14、第I次觀測值(一般為向量)。為第k類,中的觀測個數(shù),為觀測x,y之間的距離,為第k類與第l類之間的距離,是樣本的均值向量,是總樣本均值。類與類之間的距離有許多定義法:(1) 類平均法(Average Linkage Method)為觀測樣本的歐氏距離,類平均法有兩種定義一種定義方法是把類與類之間的距離定義為所有樣品對之間的平均距離,即定義和之間的距離為其中和分別為類和的樣品個數(shù)。當某類與合并成一個新類,計算與任一類的距離,其遞推公式為另一種定義方法是定義類與類之間的平方距離為樣品對之間平方距離的平均值,即在上面的遞推公式中,沒有被反映出來,為此可可將該公式進一步推廣為其中,稱這種系統(tǒng)聚類法為可

15、變類平均法。用METHOD=FLE指示SAS執(zhí)行(2) 重心法(Centrovid method)重心法類與類之間的距離定義為它們的重心之間的歐氏距離設(shè)和的重心分別為和,則與之間的平方距離為這種系統(tǒng)聚類法稱為重心法,它的遞推公式為重心法在處理異常值方面比其他系統(tǒng)聚類法更穩(wěn)健,但是在別的方面一般不如類平均法或離差平方和法的效果好。由METHOD=CEN指標SAS執(zhí)行(3) 最短距離法(Single)即類與類之間的距離為兩類最近樣品間的距離。組合公式為;由METHOD=SIN指示SAS執(zhí)行最短距離法步驟如下:規(guī)定樣品之間的距離,計算個樣品的距離矩陣,它是一個對稱矩陣。選擇中的最小元素,設(shè)為,則將與

16、合并成一個新類,記為,即;在中劃去與所對應(yīng)的兩行與兩列。加入由新類與剩下的未聚合的各類之間的距離所組成的一行和一列,計算新類與任一類之間距離的遞推公式為其余行列上的距離值不變,這樣就得到了新的距離矩陣,記作。對重復(fù)上述對的兩步得,如此下去直至所有元素合并成一類為止。如果某一步中的最小元素不止一個,則稱此現(xiàn)象為結(jié),對應(yīng)這些最小元素的類可以任選一對合并或同時合并。(4) 最長距離法(Compelete Linkage Method)定義 即類與類之間的距離為兩類最遠樣品間的距離.由METHOD=COM指示SAS執(zhí)行。 最長距離法與最短距離法的步驟類似,當某類與合并成一個新類,與任一類的距離為(5)

17、 中間距離法(Median)最短距離法與最長距離法均取極端值,而對有些問題,比如要反映工資、收入、生活水平、價格等總體水平,取其中間值更能反映實際。當某類與合并成一個新類,計算與任一類的距離,其遞推公式為其中常取,這時正好是以、為邊的三角形中邊上的中線.中間距離法(6) 密度估計法(Density Linkage Method)密度估計法包括兩步:第一步定義一種新的距離,第二步基于采用最短距離法。由METHOD=DEN指示SAS執(zhí)行。的估計有:1)k最近鄰估計法令為點x到第k個最近觀測的距離??紤]以x為中心,以為半徑的閉球,在點x的密度估計為球內(nèi)的觀測數(shù)除以球的體積,新的距離定義為:2) 均勻

18、核估計法考慮在一個中心在x,半徑為r的球,在點x上的密度的估計值為球內(nèi)觀測值除以體積所得的比值,新的距離定義為:3) Wong混合法Wong混合法使用基于k最近鄰初始聚類分析的密度估計。對于初始類,可以從輸入數(shù)據(jù)集中得到,分別是類均值或類均值之間的距離。和被認為是最近鄰的,如果,對于其他初始類,新的距離定義為:(7) EML(Maximum Likelihood Method)定義兩類之間的距離為:有時可修正為(8) 可變類平均法(Flexible-Beta Method)(9) McQuitty 相似分析法(10) 兩階段密度估計法(Two-Stage Density Method)(11)

19、 Ward 最小方差或 Ward離差平方和法組合公式為:離差平方和法定義類中各樣品到類重心的平方歐氏距離之和稱為(類內(nèi))離差平方和法設(shè)類和合并成新類,則、和的離差平方和法分別是它們反映了各自類內(nèi)樣品的分散程度如果和這兩類相距較近,則合并后所增加的離差平方和法應(yīng)較??;否則,應(yīng)較大.所以我們定義和之間的平方距離這種系統(tǒng)聚類法稱為離差平方和法或ard方法.離差平方和法類間距離與兩類的樣品數(shù)有較大關(guān)系,兩個大的類傾向于有較大的距離,因而不易合并,這往往符合我們對聚類的實際要求離差平方和法在許多場合下優(yōu)于重心法,是比較好的一種系統(tǒng)聚類法,但它對異常值很敏感由METHOD=WARD指示SAS執(zhí)行932 例

20、9.3.1 為研究遼寧、浙江、河南、甘肅、青海五省份1991年城鎮(zhèn)居民生活消費的分布規(guī)律,需要用調(diào)查資料對這五個省分類,變量名稱及原始數(shù)據(jù)如下表所示: 表9.3 1991年遼寧等5省城鎮(zhèn)居民月均消費數(shù)據(jù)(單位:元/人) 變量省份 遼寧浙江河南甘肅青海7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.297.68 50.37 11.35 13.30 19.25 14.59 2.75 14.879.42 27.93 8.20 8.14 16.17 9.42 1.55 9.769.16 27.98 9.01 9.32 15.99 9.10 1.82 11.3510.

21、06 28.64 10.52 10.05 16.18 8.39 1.96 10.81其中,:人均糧食支出, :人均衣著支出, :人均副食支出, :人均日用品支出, :人均煙、酒、茶支出, :人均燃料支出, :人均其它副食支出, :人均非商品支出.試分別用最短距離、最長距離、類平均法將它們分類.解 將每個省份看成一個樣品,并以1,2,3,4,5分別表示遼寧、浙江、河南、甘肅、青海五個省,計算兩組間的歐氏距離,如:等等,從而得距離矩陣如下(由于對稱,只寫出對角線及下三角部分并在行和列位置上標出相應(yīng)的類): 1 2 3 4 5對此例,采用最短距離法的聚類過程如下:首先,將五各省各看成一類,即令,.

22、從中看到,其中最小的元素為,故將和在水平2.20上合并成一個新類,然后計算與、之間的最短距離.在中劃去3和4所對應(yīng)的行和列,并加上新類3,4到其它各類之間的距離所組成的一行和一列,得到3,4 1 2 5從可知,到的距離2.21最小,因此在水平2.21上將和 合并得到一新類,再計算與、之間的距離,可得在中劃去和所在的行和列,加上的相應(yīng)行列得到為3,4,5 1 2中最短距離為, 故在距離水平11.67上合并與得新類。 至此我們僅有兩類和,其間距離為從而得為 3,4,5 1,2最后在距離水平12.80上將和合為一個包含所有5個省份的大類由此可見,將這5各省分為兩類比較合適,即河南、甘肅、青海為一類,

23、遼寧和浙江為一類若想要類中的各個體更接近,可分為三類,即河南、甘肅、青海為一類,遼寧和浙江各自為一類對此例,采用最長距離法的聚類過程如下:1)先將3、4在距離水平2.20上合并得新類3,4;2)求3,4與其余各類的最長距離更新后的距離矩陣為 3,4 1 2 53)從知,最小,在此距離水平上,將類3,4與5合并得新類3,4,5. 3,4,5到其它兩類1和2的距離為更新距離矩陣后,得為 3,4,5 1 24)由知,在距離水平11.67上合并1、2 為一新類,且更新后的距離矩陣 3,4,51,25)最后將1,2與3,4,5在距離水平24.63上合并為一個大類1,2,3,4,5.對此例,采用類平均法的

24、聚類過程如下:1)在距離2.20上合并3、4得新類3,4;2)計算3,4到其它類的類平均距離此時,由此可得從而更新后的距離矩陣為 3,4 1 2 5 3)由知,在距離水平2.86上應(yīng)合并5與3,4為一新類3,4,5,且從而得更新后的距離矩陣為 3,4,5 1 24)從可知,在距離水平11.67上合并1、2為新類,且從而得更新后的距離為 3,4,51,2最后在距離水平18.66上合并3,4,5與1,2成一個大類9.3.3系統(tǒng)聚類的SAS程序系統(tǒng)聚類可用CLUSTER過程實施,用前述十一種方法對數(shù)據(jù)集中的觀測進行系統(tǒng)聚類,其輸入數(shù)據(jù)可以是數(shù)值型的坐標值,也可以是距離值。其語法為PROC CLUST

25、ER METHOD= name options; VAR variable-list; ID variable; COPY variable-list; FREQ variable; RMSSTD variable;BY variable-list;(1)METHOD | M= name 給出聚類的方法,有下列選項可以選擇,對應(yīng)上述各種距離的定義方法 AVERAGE CENTROID COMPLETE DENSITY EML FLEXIBLE MCQUITTY MEDIAN SINGLE TWOSTAGE WARD還可用TREE 過程畫譜系圖,PRC TREE CLUSTER過程主要包括以下幾

26、個語句:PROC CLUSTER語句、VAR語句、ID語句。PROC CLUSTER語句一般形式是:PROC CLUSTER選擇項1選擇項2。PROC CLUSTER語句中的選擇項可以是以下幾種:1)數(shù)據(jù)集選項DATA一,用以指明過程分析的數(shù)據(jù)集;2)OUTTREE=命名一個輸出數(shù)據(jù)集,該數(shù)據(jù)集供TREE過程用來畫譜系圖3)聚類方法選項METHOD=可以是前面的十一種方法中的任一種VAR語句一般形式是:VAR變量1 變量2;VAR語句用來列出聚類分析中所使用的變量ID語句一般形式是:ID變量;ID語句用的變量用以區(qū)分聚類過程打印輸出和OUTTREE數(shù)據(jù)集中的觀測TREE過程只有一條語句: PR

27、OC TREE DATA=數(shù)據(jù)集;它根據(jù)數(shù)據(jù)集華譜系圖。proc tree data=tree1;COPY語句一般形式是:COPY變量。COPY語句用來把列出的變量從輸入數(shù)據(jù)集復(fù)制到OUTTREE數(shù)據(jù)集中。 例9.3.2 對于北京地區(qū)1 9 5 11 9 6 1年11年的冬季1 2月、1月和2月三個月的氣溫(數(shù)據(jù)見)進行聚類分析。共采用五種聚類方法:類平均法、重心法、密度估計法、最小距離法和Ward法。(1)類平均法可采用以下SAS程序 data temperat;input year Dec Jan Feb;cards;1951 1.0 -2.7 -4.31952 -5.3 -5.9 -3.

28、51953 -2.0 -3.4 -0.81954 -5.7 -4.7 -1.11955 -0.9 -3.8 -3.11956 -5.7 -5.3 -5.91957 -2.1 -5.0 -1.61958 0.6 -4.3 -0.21959 -1.7 -5.7 2.01960 -3.6 -3.6 1.31961 -3.0 -3.1 -0.8;proc cluster data=temperat method=average outtree=qin;var Dec Jan Feb;id year;run;proc tree data=qin;run;該程序第一步建立名為temperat的數(shù)據(jù)集,此數(shù)

29、據(jù)集包括1 9 51-1 9 6 1年的資料。緊接著的proc cluster語句調(diào)用cluster過程用來對數(shù)據(jù)集temperat進行聚類,method=average表示采用類平均法,outtree=tree1指示電腦將聚類結(jié)果存入tree1數(shù)據(jù)集。語句var Dec Jan Feb表明對Dec,Jan,F(xiàn)eb三個月的平均溫度進行聚類分析。id year;表明用年區(qū)分聚類的觀測類平均法的輸出如下 Average Linkage Cluster Analysis Eigenvalues of the Covariance Matrix Eigenvalue Difference Propor

30、tion Cumulative 1 6.72019 1.90639 0.544682 0.54468 2 4.81380 4.00998 0.390167 0.93485 3 0.80382 . 0.065151 1.00000 Root-Mean-Square Total-Sample Standard Deviation = 2.027956 Root-Mean-Square Distance Between Observations = 4.967458 Number Frequency Normalized of of New RMS Clusters -Clusters Joined

31、- Cluster Distance Tie 10 1953 1961 2 0.210174 9 CL10 1957 3 0.409358 8 1951 1955 2 0.503678 7 1952 1956 2 0.504482 6 CL9 1960 4 0.577050 5 1958 1959 2 0.699969 4 CL6 1954 5 0.712379 3 CL4 CL5 7 0.834187 2 CL8 CL3 9 1.046039 1 CL2 CL7 11 1.254241上表(表頭Cluster History)給出了用類平均法聚類的結(jié)過程,每行指出新聚類的年份各行為:1)分成

32、十類 53 61成一類,其余各自成一類 2)分成九類 53 61 57成一類,其余各自成一類 3)分成八類 53 61 57,51 55各為一類,其余各自成一類 4)分成七類 53 61 57,51 55,52 56各為一類,其余各自成一類 5)分成六類 53 61 57 60,51 55,52 56各為一類,其余各自成一類 6)分成五類 53 57 60 61,51 55,52 56,58 59,54 7)分成四類 53 54 57 60 61,51 55,52 56,58 59 8)分成三類53 54 57 58 59 60 61,51 55,52 569)分成二類51 53 54 55

33、57 58 59 60 61,52 56分成四類的結(jié)果很有意義,我們看到若用類平均法分成四類為53 54 57 60 61,51 55,52 56,58 59第一類都是在1 2月、1月溫度較低,在2月份轉(zhuǎn)暖第二類是1 9 5 1年和1 9 5 5年,都是1 2月份暖而1月、2月變冷型第三類1 9 5 2年和1 9 5 6年,1 2月、1月、2月相對都較冷,平均氣溫變化不大第四類1 9 5 8年1 9 5 9年則1月份平均氣溫最低而1 2月、2月相對高(2) 使用重心法,可采用程序proc cluster data=temperat method=centroid;var Dec Jan Feb

34、;id year;run;得到的輸出是 Centroid Hierarchical Cluster Analysis Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative 1 6.72019 1.90639 0.544682 0.54468 2 4.81380 4.00998 0.390167 0.93485 3 0.80382 . 0.065151 1.00000 Root-Mean-Square Total-Sample Standard Deviation = 2.027956 R

35、oot-Mean-Square Distance Between Observations = 4.967458 Number Frequency Normalized of of New Centroid Clusters -Clusters Joined- Cluster Distance Tie 10 1953 1961 2 0.210174 9 CL10 1957 3 0.395640 8 1951 1955 2 0.503678 7 1952 1956 2 0.504482 6 CL9 1960 4 0.539296 5 CL6 1954 5 0.649108 4 1958 1959

36、 2 0.699969 3 CL5 CL4 7 0.661098 2 CL8 CL3 9 0.899558 1 CL2 CL7 11 1.087754上表(表頭Cluster History)給出了用類平均法聚類的過程,每行指出新聚類的年份各行為:1)分成十類 53 61成一類,其余各自成一類 、2)分成九類 53 61 57成一類,其余各自成一類3)分成八類 53 61 57,51 55各為一類,其余各自成一類4)分成七類 53 61 57,51 55,52 56各為一類,其余各自成一類5)分成六類 53 61 57 60,51 55,52 56各為一類,其余各自成一類6)分成五類53 61

37、 57 60 54,51 55,52 56各為一類,其余各自成一類7)分成四類53 61 57 60 54,51 55,52 56,58,59各為一類8)分成三類53 61 57 60 54 58 59,51 55,52 56 各為一類,9)分成二類53 61 57 60 54 58 59 51 55,52 56 各為一類10)分成一類:所有年份為一類使用密度法可用程序proc cluster data=temperat method=density k=3;var Dec Jan Feb;id year;run;得到的輸出是 Density Linkage Cluster Analysis

38、Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative 1 6.72019 1.90639 0.544682 0.54468 2 4.81380 4.00998 0.390167 0.93485 3 0.80382 . 0.065151 1.00000 K = 3 Root-Mean-Square Total-Sample Standard Deviation = 2.027956 Normalized Maximum Density Number Frequency Normalized

39、 in Each Cluster of of New FusionClusters -Clusters Joined- Cluster Density Lesser Greater Tie 10 1953 1961 2 67.6663 51.1331 100.0000 9 CL10 1957 3 67.1343 50.5280 100.0000 8 CL9 1960 4 47.3132 30.9871 100.0000 7 CL8 1955 5 42.5310 36.7194 100.0000 6 CL7 1958 6 31.8196 18.9199 100.0000 5 CL6 1954 7 27.0097 18.3518 100.0000 4 CL5 1952 8 22.4193 28.8032 100.0000 3 CL4 1959 9 18.9815 13.6810 100.0000 2 CL3 1951 10 11.2800 6.6635 100.0000 1 CL2 1956 11 8.6379 5.0808 100.0000 One modal cluster has been formed. 上表(表頭Cluster History)給出了用類平均法聚類的結(jié)過程,每行指出新聚類的年份 各行為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論