聚類分析及實現(xiàn)_第1頁
聚類分析及實現(xiàn)_第2頁
聚類分析及實現(xiàn)_第3頁
聚類分析及實現(xiàn)_第4頁
聚類分析及實現(xiàn)_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

聚類分析及實現(xiàn)第一頁,共六十五頁,編輯于2023年,星期五統(tǒng)計方法(聚類分析):聚類分析—所研究的樣本或者變量之間存在程度不同的相似性,要求設法找出一些能夠度量它們之間相似程度的統(tǒng)計量作為分類的依據(jù),再利用這些量將樣本或者變量進行分類系統(tǒng)聚類分析—將n個樣本或者n個指標看成n類,一類包括一個樣本或者指標,然后將性質最接近的兩類合并成為一個新類,依此類推。最終可以按照需要來決定分多少類,每類有多少樣本(指標)第二頁,共六十五頁,編輯于2023年,星期五統(tǒng)計方法(系統(tǒng)聚類分析步驟):系統(tǒng)聚類方法步驟:計算n個樣本兩兩之間的距離構成n個類,每類只包含一個樣品合并距離最近的兩類為一個新類計算新類與當前各類的距離(新類與當前類的距離等于當前類與組合類中包含的類的距離最小值),若類的個數(shù)等于1,轉5,否則轉3畫聚類圖決定類的個數(shù)和類。第三頁,共六十五頁,編輯于2023年,星期五系統(tǒng)聚類分析:主要介紹系統(tǒng)聚類分析方法。系統(tǒng)聚類法是聚類分析中應用最為廣泛的一種方法,它的基本原理是:首先將一定數(shù)量的樣品或指標各自看成一類,然后根據(jù)樣品(或指標)的親疏程度,將親疏程度最高的兩類進行合并。然后考慮合并后的類與其他類之間的親疏程度,再進行合并。重復這一過程,直至將所有的樣品(或指標)合并為一類。

第四頁,共六十五頁,編輯于2023年,星期五系統(tǒng)聚類分析用到的函數(shù):函數(shù)功能pdist計算觀測量兩兩之間的距離

squareform將距離矩陣從上三角形式轉換為方形形式,或從方形形式轉換為上三角形式

linkage創(chuàng)建系統(tǒng)聚類樹

dendrogram輸出冰柱圖

cophenet計算Cophenetic相關系數(shù)

cluster根據(jù)linkage函數(shù)的輸出創(chuàng)建分類

clusterdata根據(jù)數(shù)據(jù)創(chuàng)建分類

inconsistent計算聚類樹的不連續(xù)系數(shù)

第五頁,共六十五頁,編輯于2023年,星期五聚類分析研究對樣品或指標進行分類的一種多元統(tǒng)計方法,是依據(jù)研究對象的個體的特征進行分類的方法。聚類分析把分類對象按一定規(guī)則分成若干類,這些類非事先給定的,而是根據(jù)數(shù)據(jù)特征確定的。在同一類中這些對象在某種意義上趨向于彼此相似,而在不同類中趨向于不相似。職能是建立一種能按照樣品或變量的相似程度進行分類的方法。第六頁,共六十五頁,編輯于2023年,星期五第七頁,共六十五頁,編輯于2023年,星期五聚類分析有兩種:一種是對樣品的分類,稱為Q型,另一種是對變量(指標)的分類,稱為R型。R型聚類分析的主要作用:⒈不但可以了解個別變量之間的親疏程度,而且可以了解各個變量組合之間的親疏程度。⒉根據(jù)變量的分類結果以及它們之間的關系,可以選擇主要變量進行Q型聚類分析或回歸分析。(R2為選擇標準)Q型聚類分析的主要作用:⒈可以綜合利用多個變量的信息對樣本進行分析。⒉分類結果直觀,聚類譜系圖清楚地表現(xiàn)數(shù)值分類結果。⒊聚類分析所得到的結果比傳統(tǒng)分類方法更細致、全面、合理。在課堂上主要討論Q型聚類分析,Q型聚類常用的統(tǒng)計量是距離.第八頁,共六十五頁,編輯于2023年,星期五4.1樣品(變量)間相近性度量4.1.1聚類分析的基本思想在生產實際中經常遇到給產品等級進行分類的問題,如一等品、二等品等,在生物學中,要根據(jù)生物的特征進行分類;在考古時要對古生物化石進行科學分類;在球類比賽中經常要對各球隊進行分組如何確定種子隊,這些問題就是聚類分析問題。隨著科學技術的發(fā)展,我們利用已知數(shù)據(jù)首先提取數(shù)據(jù)特征,然后借助計算機依據(jù)這些特征進行分類,聚類的依據(jù)在于各類別之間的接近程度如何計量,通常采取距離與相似系數(shù)進行衡量。第九頁,共六十五頁,編輯于2023年,星期五設有n個樣品的p元觀測數(shù)據(jù)組成一個數(shù)據(jù)矩陣其中每一行表示一個樣品,每一列表示一個指標,xij表示第i個樣品關于第j項指標的觀測值,聚類分析的基本思想就是在樣品之間定義距離,在指標之間定義相似系數(shù),樣品之間距離表明樣品之間的相似度,指標之間的相似系數(shù)刻畫指標之間的相似度。將樣品(或變量)按相似度的大小逐一歸類,關系密切的聚集到較小的一類,關系疏遠的聚集到較大的一類,聚類分析通常有:譜系聚類、快速聚類,我們主要介紹譜系聚類的方法與MATLAB實現(xiàn)第十頁,共六十五頁,編輯于2023年,星期五4.1.2樣品間的相似度量—距離一.常用距離的定義設有n個樣品的p元觀測數(shù)據(jù):這時,每個樣品可看成p元空間的一個點,每兩個點之間的距離記為滿足條件:第十一頁,共六十五頁,編輯于2023年,星期五1.歐氏距離pdist(x)2.絕對距離pdist(x,’cityblock’)3.明氏距離pdist(x,’minkowski’,r)4.切氏距離max(abs(xi-xj))5.方差加權距離將原數(shù)據(jù)標準化以后的歐氏距離6.馬氏距離pdist(x,’mahal’)第十二頁,共六十五頁,編輯于2023年,星期五7.蘭氏距離8.杰氏距離(Jffreys&Matusita)第十三頁,共六十五頁,編輯于2023年,星期五例1.為了研究遼寧、浙江、河南、甘肅、青海5省1991年城鎮(zhèn)居民生活消費規(guī)律,需要利用調查資料對五個省進行分類,指標變量共8個,意義如下:x1:人均糧食支出,x2:人均副食支出;x3:人均煙酒茶支出,x4:人均其他副食支出,x5:人均衣著商品支出,x6:人均日用品支出,x7:人均燃料支出,x8人均非商品支出X1X2X3X4X5X6X7X8遼寧7.939.778.4912.9419.2711.052.0413.29浙江7.6850.3711.3513.319.2514.592.7514.87河南9.4227.938.28.1416.179.421.559.76甘肅9.1627.989.019.3215.999.11.8211.35青海10.0628.6410.5210.0516.188.391.9610.81表11991年五省城鎮(zhèn)居民生活月均消費(元/人)第十四頁,共六十五頁,編輯于2023年,星期五計算各省之間的歐氏、絕對、明氏距離解:a=[7.9 39.77 8.49 12.94 19.27 11.05 2.04 13.297.68 50.37 11.35 13.3 19.25 14.59 2.75 14.879.42 27.93 8.2 8.14 16.17 9.42 1.55 9.769.16 27.98 9.01 9.32 15.99 9.1 1.82 11.3510.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81];d1=pdist(a);%此時計算出各行之間的歐氏距離,為了得到書中的距離矩陣,我們鍵入命令:D=squareform(d1),%注意此時d1必須是一個行向量,結果是實對稱矩陣若想得到書中的三角陣,則有命令:S=tril(squareform(d1))第十五頁,共六十五頁,編輯于2023年,星期五S=0000011.6726000013.805424.635300013.127824.05912.20330012.798323.53893.50372.21590d2=pdist(a,'cityblock');S2=tril(squareform(d2))S2=0000019.89000027.247.0500024.5843.394.660026.5242.318.085.380d3=pdist(a,'minkowski',3);S3=tril(squareform(d3))第十六頁,共六十五頁,編輯于2023年,星期五序號國家1990199520001澳大利亞1249.391273.611282.682巴西821.6859.85919.733加拿大1641.011591.541608.324中國1330.451382.681462.085法國1546.551501.771525.956德國1656.521630.521570.697印度861.30862.51945.118意大利1321.771232.31243.519日本1873.681949.891851.2010俄羅斯1475.161315.87129711南非794.25787.48782.3812英國1486.751441.711465.1213美國2824.292659.642740.12例2.13個國家1990,1995,2000可持續(xù)發(fā)展能力如下:分成4類采用不同的距離,得到結果如下第十七頁,共六十五頁,編輯于2023年,星期五類別歐氏距離(最短距離)1日本2澳大利亞、加拿大、英、德、意、中、俄、法3巴西、印度、南非4美國類別歐氏距離(ward距離)1澳大利亞、中、意、俄2加拿大、英、德、法、日本3巴西、印度、南非4美國第十八頁,共六十五頁,編輯于2023年,星期五類別馬氏距離(ward距離)1日本2澳大利亞、加拿大、英、德、意、南非、俄、法3巴西、印度、中4美國第十九頁,共六十五頁,編輯于2023年,星期五4.1.3變量間的相似度量——相似系數(shù)當對p個指標變量進行聚類時,用相似系數(shù)來衡量變量之間的相似程度(關聯(lián)度),若用表示變量之間的相似系數(shù),則應滿足:相似系數(shù)中最常用的是相關系數(shù)與夾角余弦。第二十頁,共六十五頁,編輯于2023年,星期五①夾角余弦兩變量的夾角余弦定義為:

第二十一頁,共六十五頁,編輯于2023年,星期五②相關系數(shù)兩變量的相關系數(shù)定義為:

第二十二頁,共六十五頁,編輯于2023年,星期五例3.計算例1中各指標之間的相關系數(shù)與夾角余弦解:a=[7.9 39.77 8.49 12.94 19.27 11.05 2.0413.297.68 50.37 11.35 13.3 19.25 14.59 2.75 14.879.42 27.93 8.2 8.14 16.17 9.42 1.559.769.16 27.98 9.01 9.32 15.99 9.1 1.82 11.3510.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81];R=corrcoef(a);%指標之間的相關系數(shù)a1=normc(a);%將a的各列化為單位向量J=a1’*a1%計算a中各列之間的夾角余弦J=1.00000.94100.98470.96130.98240.95460.96200.96950.94101.00000.97820.99390.98530.99770.99470.99350.98470.97821.00000.98590.99110.98400.99310.99090.96130.99390.98591.00000.99440.99190.99470.99810.98240.98530.99110.99441.00000.99010.99010.99680.95460.99770.98400.99190.99011.00000.99520.99530.96200.99470.99310.99470.99010.99521.00000.99680.96950.99350.99090.99810.99680.99530.99681.0000第二十三頁,共六十五頁,編輯于2023年,星期五4.2譜系聚類法譜系聚類法是目前應用較為廣泛的一種聚類法。譜系聚類是根據(jù)生物分類學的思想對研究對象進行分類的方法。在生物分類學中,分類的單位是:門、綱、目、科、屬、種。其中種是分類的基本單位,分類單位越小,它所包含的生物就越少,生物之間的共同特征就越多。利用這種思想,譜系聚類首先將各樣品自成一類,然后把最相似(距離最近或相似系數(shù)最大)的樣品聚為小類,再將已聚合的小類按各類之間的相似性(用類間距離度量)進行再聚合,隨著相似性的減弱,最后將一切子類都聚為一大類,從而得到一個按相似性大小聚結起來的一個譜系圖。第二十四頁,共六十五頁,編輯于2023年,星期五聚類分析的基本思想是認為我們所研究的樣本或指標(變量)之間存在著程度不同的相似性(親疏關系)。于是根據(jù)一批樣本的多個觀測指標,具體找出一些彼此之間相似程度較大的樣本(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣本(或指標)又聚合為另一類,關系密切的聚合到一個小的分類單位,關系疏遠的聚合到一個大的分類單位,直到把所有樣本(或指標)都聚合完畢,把不同的類型一一劃分出來,形成一個由小到大的分類系統(tǒng)。最后把整個分類系統(tǒng)畫成一張譜系圖,用它把所有樣本(或指標)間的親疏關系表示出來。這種方法是最常用的、最基本的一種,稱為系統(tǒng)聚類分析。第二十五頁,共六十五頁,編輯于2023年,星期五4.2.1類間距離前面,我們介紹了兩個向量之間的距離,下面我們介紹兩個類別之間的距離:設dij表示兩個樣品xi,xj之間的距離,Gp,Gq分別表示兩個類別,各自含有np,nq個樣品.(1)最短距離即用兩類中樣品之間的距離最短者作為兩類間距離(2)最長距離即用兩類中樣品之間的距離最長者作為兩類間距離第二十六頁,共六十五頁,編輯于2023年,星期五最短距離(NearestNeighbor)x21?x12?x22?x11?最長距離(FurthestNeighbor

)???x11?x21????第二十七頁,共六十五頁,編輯于2023年,星期五重心距離????????第二十八頁,共六十五頁,編輯于2023年,星期五最長距離最短距離ABCDEF第二十九頁,共六十五頁,編輯于2023年,星期五中間距離第三十頁,共六十五頁,編輯于2023年,星期五(3)類平均距離即用兩類中所有兩兩樣品之間距離的平均作為兩類間距離(4)重心距離其中分別是Gp,Gq的重心,這是用兩類的重心之間的歐氏距離作為兩類間的距離。(5)離差平方和距離(ward)顯然,離差平方和距離與重心距離的平方成正比。第三十一頁,共六十五頁,編輯于2023年,星期五4.2.2類間距離的遞推公式設有兩類Gp,Gq合并成新的一類Gr,包含了nr=np+nq個樣品,如何計算Gr與其他類別Gk之間的距離,這就需要建立類間距離的遞推公式。(1)最短距離(2)最長距離(3)類平均距離(4)重心距離第三十二頁,共六十五頁,編輯于2023年,星期五證明:將代入(1)(1)

將上式中加上再減去與,合并同類項得第三十三頁,共六十五頁,編輯于2023年,星期五上式第二行合并同類項,得(5)離差平方和距離第三十四頁,共六十五頁,編輯于2023年,星期五1.選擇樣本間距離的定義及類間距離的定義;2.計算n個樣本兩兩之間的距離,得到距離矩陣

3.構造個類,每類只含有一個樣本;4.合并符合類間距離定義要求的兩類為一個新類;5.計算新類與當前各類的距離。若類的個數(shù)為1,則轉到步驟6,否則回到步驟4;6.畫出聚類圖;

7.決定類的個數(shù)和類。4.2.3譜系聚類法的步驟

譜系聚類的步驟如下:第三十五頁,共六十五頁,編輯于2023年,星期五系統(tǒng)聚類分析的方法系統(tǒng)聚類法的聚類原則決定于樣品間的距離以及類間距離的定義,類間距離的不同定義就產生了不同的系統(tǒng)聚類分析方法。以下用dij表示樣品X(i)和X(j)之間的距離,當樣品間的親疏關系采用相似系數(shù)Cij時,令;以下用D(p,q)表示類Gp和Gq之間的距離。第三十六頁,共六十五頁,編輯于2023年,星期五(1)n個樣品開始作為n個類,計算兩兩之間的距離或相似系數(shù),得到實對稱矩陣(2)從D0的非主對角線上找最?。ň嚯x)或最大元素(相似系數(shù)),設該元素是Dpq,則將Gp,Gq合并成一個新類Gr=(Gp,Gq),在D0中去掉Gp,Gq所在的兩行、兩列,并加上新類與其余各類之間的距離(或相似系數(shù)),得到n-1階矩陣D1。第三十七頁,共六十五頁,編輯于2023年,星期五(3)從D1出發(fā)重復步驟(2)的做法得到D2,再由D2出發(fā)重復上述步驟,直到所有樣品聚為一個大類為止。(4)在合并過程中要記下合并樣品的編號及兩類合并時的水平,并繪制聚類譜系圖。例4.

從例1算得的樣品間的歐氏距離矩陣出發(fā),用下列方法進行譜系聚類。(1)最短距離,(2)最長距離解:我們用1,2,3,4,5分別表示遼寧、浙江、河南、甘肅和青海,將距離矩陣記為D0第三十八頁,共六十五頁,編輯于2023年,星期五(1)最短距離法:將各省看成一類,即Gi={i}i=1,…,5,從D0可以看出各類中距離最短的是d43=2.20,因此將G3,G4在2.20水平上合成一個新類G6={3,4},計算G6和G1,G2,G5之間的最短距離

,得第三十九頁,共六十五頁,編輯于2023年,星期五將計算結果作為第一列,從D0中去掉第3、4行與3、4列,剩余元素作為其余各列得到D1從D1可以看出G6與G5的距離最小,因此在2.21的水平上將G6與G5合成一類G7,即G7={3,4,5}計算G7與G1,G2之間的最短距離,得第四十頁,共六十五頁,編輯于2023年,星期五將計算結果作為第一列,從D1中劃掉{3,4}與{5}所在的行與列,剩余元素作為其他列得從D2可以看出G1,G2最接近,在11.67的水平上合并成一類G8,至此只剩下G7,G8兩類,他們之間的距離為:12.8,故在此水平上將合成一類,包含了全部的五個省份。最后,我們作出譜系聚類圖:

第四十一頁,共六十五頁,編輯于2023年,星期五圖1最短距離聚類圖最長距離聚類方法,同學練習第四十二頁,共六十五頁,編輯于2023年,星期五例為了研究遼寧等5省1991年城鎮(zhèn)居民生活消費情況的分布規(guī)律,根據(jù)調查資料做類型分類,用最短距離做類間分類。數(shù)據(jù)如下:x1x2x3x4x5x6x7x8遼寧17.9039.778.4912.9419.2711.052.0413.29浙江27.6850.3711.3513.3019.2514.592.7514.87河南39.4227.938.208.1416.179.421.559.76甘肅49.1627.989.019.3215.999.101.8211.35青海510.0628.6410.5210.0516.188.391.9610.81第四十三頁,共六十五頁,編輯于2023年,星期五將每一個省區(qū)視為一個樣品,先計算5個省區(qū)之間的歐式距離,用D0表示距離矩陣(對稱陣,故給出下三角陣)因此將3.4合并為一類,為類6,替代了3、4兩類類6與剩余的1、2、5之間的距離分別為:

d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21第四十四頁,共六十五頁,編輯于2023年,星期五得到新矩陣合并類6和類5,得到新類7類7與剩余的1、2之間的距離分別為:

d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54第四十五頁,共六十五頁,編輯于2023年,星期五得到新矩陣合并類1和類2,得到新類8此時,我們有兩個不同的類:類7和類8。它們的最近距離d(7,8)

=min(d71,d72)=min(12.80,23.54)=12.80第四十六頁,共六十五頁,編輯于2023年,星期五得到矩陣最后合并為一個大類。這就是按最短距離定義類間距離的系統(tǒng)聚類方法。最長距離法類似!第四十七頁,共六十五頁,編輯于2023年,星期五4.2.4譜系聚類的MATLAB實現(xiàn):(1)輸入數(shù)據(jù)矩陣,注意行與列的實際意義;(2)計算各樣品之間的距離(行?列?)歐氏距離:d=pdist(A)%注意計算A中各行之間的距離;絕對距離:d=pdist(A,'cityblock');明氏距離:d=pdist(A,'minkowski',r);%r要填上具體的實數(shù);方差加權距離:d=pdist(A,'seuclid');馬氏距離:d=pdist(A,'mahal');第四十八頁,共六十五頁,編輯于2023年,星期五注意:以上命令輸出的結果是一個行向量,如果要得到距離矩陣,可以用命令:

D=squareform(d),若得到三角陣,可以用命令:D=tril(squareform(d1))(3)

選擇不同的類間距離進行聚類最短距離:z1=linkage(d)%此處及以下的d都是(2)中算出的距離行向量最長距離:z2=linkage(d,'complete')中間距離:z3=linkage(d,'centroid')重心距離:z4=linkage(d,'average')離差平方和:z5=linkage(d,'ward')第四十九頁,共六十五頁,編輯于2023年,星期五注意:此時輸出的結果是一個n-1行3列的矩陣,每一行表示在某水平上合并為一類的序號;(4)作出譜系聚類圖H=dendrogram(z,d)%注意若樣本少于30,可以省去d,否則必須填寫.(5)根據(jù)分類數(shù)目,輸出聚類結果T=cluster(z,k)%注意k是分類數(shù)目,z是(3)中的結果Find(T==k0)%找出屬于第k0類的樣品編號第五十頁,共六十五頁,編輯于2023年,星期五例5.將例1利用MATLAB軟件進行聚類解:b=[7.9 39.77 8.49 12.94 19.27 11.05 2.04 13.297.68 50.37 11.35 13.3 19.25 14.59 2.75 14.879.42 27.93 8.2 8.14 16.17 9.42 1.55 9.769.16 27.98 9.01 9.32 15.99 9.1 1.82 11.3510.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81];歐氏距離:d1=pdist(b);%b中每行之間距離%五種類間距離聚類z1=linkage(d1);z2=linkage(d1,'complete');z3=linkage(d1,'average');z4=linkage(d1,'centroid');z5=linkage(d1,'ward');第五十一頁,共六十五頁,編輯于2023年,星期五其中z1輸出結果為:z1=3.00004.00002.20336.00005.00002.21591.00002.000011.67268.00007.000012.7983

%在2.2033的水平,G3,G4合成一類為G6%在2.2159的水平,G6,G5合成一類為G7%在11.6726的水平,G1,G2合成一類為G8%在12.7983的水平,G7,G8合成一類第五十二頁,共六十五頁,編輯于2023年,星期五作譜系聚類圖:H=dendrogram(z1)%輸出分類結果T=cluster(z1,3)T12333

圖2.最短距離聚類圖結果表明:若分為三類,則遼寧是一類,浙江是一類,河南、青海和甘肅是另一類。第五十三頁,共六十五頁,編輯于2023年,星期五以上是樣品之間是歐氏距離,類間距離是最短距離聚類的結果,實際上,對樣品之間的每一種距離,可以由五種不同的類間距離進行聚類。那么哪一種最好呢?為此我們可以計算復合相關系數(shù),若該系數(shù)越接近于1則該聚類越理想。在MATLAB中計算復合相關系數(shù)的命令如下:R=cophenet(z,d)其中,z是用某種類間距離linkage后的結果,d是樣品之間的某種距離,

想了解利用歐氏距離聚類,那種類間距離最好,可以計算五個復合相關系數(shù):

第五十四頁,共六十五頁,編輯于2023年,星期五R=[cophenet(z1,d1),cophenet(z2,d1),cophenet(z3,d1),cophenet(z4,d1),cophenet(z5,d1)]結果為:0.84130.85710.86230.86220.8532

由于0.8623最大,故認為若樣品之間采用歐氏距離,則類間距離以中間距離最好,如果我們要找到最理想的分類方法,可以對每一種樣品之間的距離,都計算上述的復合相關系數(shù),這樣就可以找到最理想的樣品距離與對應的類間距離。第五十五頁,共六十五頁,編輯于2023年,星期五a=[28,18,11,21,26,20,16,14,24,2229,23,22,23,29,23,22,23, 29,2728,18,16,22,26 ,22,22,24, 24,24];對a的各列進行聚類,如何計算復合相關系數(shù)d=[pdist(a');pdist(a','mahal');pdist(a','cityblock');pdist(a','seuclid');pdist(a','minkowski',0.4)];fori=1:5d1=linkage(d(i,:));r1(i)=cophenet(d1,d(i,:));endfori=1:5d2=linkage(d(i,:),'complete');r2(i)=cophenet(d2,d(i,:));end第五十六頁,共六十五頁,編輯于2023年,星期五fori=1:5d3=linkage(d(i,:),'average');r3(i)=cophenet(d3,d(i,:));endfori=1:5d4=linkage(d(i,:),'centroid');r4(i)=cophenet(d4,d(i,:));endfori=1:5d5=linkage(d(i,:),'ward');r5(i)=cophenet(d5,d(i,:));endr=[r1;r2;r3;r4;r5];第五十七頁,共六十五頁,編輯于2023年,星期五4.3快速聚類法快速聚類法又稱為動態(tài)聚類法,該方法首先將樣品進行粗糙分類,然后依據(jù)樣品間的距離按一定規(guī)則進行調整,直至不能調整為止.該方法適用于樣品數(shù)量較大的數(shù)據(jù)集的聚類分析,但是需要事先給定聚類數(shù)目,此數(shù)目對最終聚類結果有很大影響,實際應用時要選擇多個數(shù)目進行分類,然后找出合理的分類結果.4.3.1快速聚類的步驟1.選擇聚點聚點是一批有代表性的樣品,他的選擇決定了初始分類,并對最終分類有很大影響,選擇聚點之前要先確定聚類數(shù)k.第五十八頁,共六十五頁,編輯于2023年,星期五通常,有以下確定聚點的方法:①經驗確定:對樣品非常熟悉,根據(jù)經驗確定k個樣品作為聚點.(比如確定種子隊)②將n個樣品隨機地分為k類,然后以每一類的均值向量作為聚點.③最小最大原則:若n個樣品分為k類,先選擇所有樣品中距離最大的兩個樣品xi1,xi2為兩個初始聚點,即d(xi1,xi2)=max(dij),然后選擇第3個聚點xi3,使得該點到上述兩點距離最小是所有其它點到上述兩點距離最小中最大者,即min{d(xi3,xir),r=1,2}=max{min[d(xj,xr),r=1,2]}④按照同樣的原則選取xi4,依次下去,直至選出k個聚點xi1,xi2,…,xik第五十九頁,共六十五頁,編輯于2023年,星期五序號國家1990199520001澳大利亞1249.391273.611282.682巴西821.6859.85919.733加拿大1641.011591.541608.324中國1330.451382.681462.085法國1546.551501.771525.956德國1656.521630.521570.697印度861.30862.51945.118意大利1321.771232.31243.519日本1873.681949.891851.2010俄羅斯1475.161315.87129711南非794.25787.48782.3812英國1486.751441.711465.1213美國2824.292659.642740.12前例2中,分成4類用不同方法確定聚點①人為確定:澳大利亞、中國、英國、美國第六十頁,共六十五頁,編輯于2023年,星期五②首先按照亞非洲、美洲、歐洲、大洋洲分為四類,以每一類的均值向量作為聚點.③最小最大準則(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論