課件第7節(jié)m數(shù)據(jù)處理聚類分析及應(yīng)用_第1頁
課件第7節(jié)m數(shù)據(jù)處理聚類分析及應(yīng)用_第2頁
課件第7節(jié)m數(shù)據(jù)處理聚類分析及應(yīng)用_第3頁
課件第7節(jié)m數(shù)據(jù)處理聚類分析及應(yīng)用_第4頁
課件第7節(jié)m數(shù)據(jù)處理聚類分析及應(yīng)用_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、聚類分析人類認(rèn)識世界往往首先將被認(rèn)識的對象進(jìn)行分類,聚類分析是研究分類問題的多元數(shù)據(jù)分析方法,是數(shù)值分類學(xué)中的一支。多元數(shù)據(jù)形成數(shù)據(jù)矩陣,見下表 1。在數(shù)據(jù)矩陣中,共有 n 個樣品 x1,x2,xn(列向),p 個指標(biāo)(行向)。聚類分析有兩種類型:按樣品聚類或按變量(指標(biāo))聚類。表 1數(shù)據(jù)矩陣聚類分析的基本思想是在樣品之間定義距離,在變量之間定義相似系數(shù),距離或相似系數(shù)代表樣品或變量之間的相似程度。按相似程度的大小,將樣品(或變量)逐一歸類,關(guān)系密切的類聚到一個小的分類,然后逐步擴(kuò)大,使得關(guān)系疏遠(yuǎn)的聚合到一個大的分類,直到所有的樣品(或變量)都完畢,形成一個表示親疏關(guān)系的譜系圖,依次按照某些要

2、求對樣品(或變量)進(jìn)行分類。一、分類統(tǒng)計(jì)量距離與相似系數(shù)1樣品間的相似性度量距離用樣品點(diǎn)之間的距離來衡量各樣品之間的相似性程度(或靠近程樣品指標(biāo)j , . , xnx1 x2Mxpj1.xn1j 2.xn 2MMLMLMjp.xnp度)。設(shè)d ( xi , x j ) 是樣品 xi , x j 之間的距離,一般要求它滿足下列條件:1) d ( xi , x j ) ³ 0 , 且 d2) d ( xi , x j ) = d ( x j , xi ) ;3) d ( xi , x j ) £ d ( xi , xk ) + d ( xk , x j ) .= x j ;i在

3、聚類分析中,有些距離不滿足 3),我們在廣義的角度上仍稱它為距離。1.1距離1é2 ù 2pik - x jk ) údë k =1û1.2絕對距離pik - x jk |dk =11.3Minkowski 距離1ém ù mpik - x jk ) údë k =1û1.4Chebyshev 距離ik - x jk |d (1.5方差距離1é( x - x )2 ù 2p) = êåikjkúd ( x , xijs2êë

4、k =1úûknx = 1 å 1 n - 1nå其中, s =- x )2 .2x( xikkikkni =1i =11.6馬氏距離1i - x j ) S ( xi - x j )ùûT-12其中 S 是由樣品, . , xn 算得的協(xié)方差矩陣:j1nn1nåi =1x =S =n - 1i - x)Tx,ii =1樣品聚類通常稱為Q 型聚類,其出發(fā)點(diǎn)是距離矩陣。2變量間的相似性度量相似系數(shù)當(dāng)對p 個指標(biāo)變量進(jìn)行聚類時,用相似系數(shù)來衡量變量之間的相似程度(或關(guān)聯(lián)程度)。一般地,若 cab 表示變量xa , xb 之間的相

5、似系數(shù),應(yīng)滿足:1) | cab |£ 1 且 caa = 1 ;2)= ±1 Û xa = cxb (c ¹ 0) ;cab3)= cba .cabcab 的絕對值越接近于 1,說明變量 xa , xb 的關(guān)聯(lián)越大。相似系數(shù)中最常用的是相關(guān)系數(shù)與夾角余弦。2.1相關(guān)系數(shù)變量xa , xb 之間的相關(guān)系數(shù)定義為:nå(i=1- xb )ibsabr=,abs snnaa bb- x)2ibbi=1i=1事實(shí)上, rab 是變量xa , xb 的觀測值Tnb )(a )與(之間的相關(guān)系數(shù)。2.2夾角余弦變量 x , x 的觀測值)T ,其夾角余(

6、a )與(abnb弦定義為:nå xia xib=i=1cabnnåå22xxiaibi=1i=1變量聚類通常稱為 R 型聚類。在 R 型聚類中,相似系數(shù)矩陣 C 是出發(fā)點(diǎn),相似系數(shù)矩陣可以是相關(guān)矩陣,也可以是夾角余弦矩陣。二、譜系聚類法這里所介紹的是樣品的譜系聚類法。1類間距離定義為簡單起見,以i,j 分別表示樣品 xi , x j ,以 dij 簡記i,j 之間的距離d ( xi , x j ) 。Gp,Gq 分別表示兩個類,設(shè)它們分別含有 np,nq 個樣品。若類Gp 中有樣品np ,則其均值np1å xii =1xp = np稱為類 Gp 的重心

7、。類 Gp 與 Gq 之間的距離記為定義方式。Dpq,有多種多樣1.1最短距離= miniÎGp , jÎGqDpqdij1.2最長距離= maxiÎGp , jÎGqDpqdij1.3類平均距離= 1 å å dDpqijn n iÎGp jÎGqp q1.4重心距離= d ( xp , xq )Dpq1.5離差平方和距離np nq=- x )D2pqpqn + npq2類間距離的遞推公式按照譜系聚類法的思想,先將樣品聚小類,再逐步擴(kuò)大為大類。設(shè)類 Gr 由類Gp、Gq 合并所得,則Gr 包含nr=np+nq 個

8、樣品。問題:由 Gp,Gq 與其它類 Gk(kp,q)的距離計(jì)算 Gr 與 Gk(kp,q)的距離,即建立類間距離的遞推公式。2.1最短距離= minDpk , Dqk Drk2.2最長距離= maxDpk , Dqk Drk2.3類平均距離= np+ nqDDDrkpkqknnrr2.4重心距離= np+ nq- np × nqD2D2D2D2rkpkqkpqnnnnrrrr2.5離差平方和距離= np + nk+ nq + nknkD2D2D2-D2rkn + npkn + nqkn + npqrkrkrk3譜系聚類法的步驟譜系聚類法的步驟如下:Step1n 個樣品開始時作為 n

9、個類,計(jì)算兩兩之間的距離,一個對稱距離矩陣:éd1n ù0d120M.êdúd= ê2n ú21Dêúúû(0)MMêdd.0ë n1n2此時,Dpq=dpq;Step2選擇 D(0)中的非對角線上的最小元素,設(shè)這個最小元素是Dpq。此時,Gp=xp,Gq=xq。將Gp,Gq 合并成一個新類Gr=Gp,Gq。在 D(0)中消去Gp 和Gq 所對應(yīng)的行與列,并加入有新類Gr 與剩下的其它未聚合的類間的距離所組成的一行和一列,得到一個新的距離矩陣D(1),它是n-1 階方陣;St

10、ep3從 D(1)出發(fā)重復(fù) Step2 的作法得 D(2),再由D(2)出發(fā)重復(fù)上述步驟,直到n 個樣品聚為 1 個大類為止;注意:在合并過程中要記下合并樣品的編號及兩類合并時的水平(即距離)并繪制聚類譜系圖。4. 譜系聚類法的統(tǒng)計(jì)量用譜系聚類法聚類時,聚多少類合適,這是一個實(shí)際的問題。一個較好的聚類應(yīng)該在類內(nèi)各樣品盡可能相似的前提下,使得類的個數(shù)盡可能少。這里需要考慮譜系距離用到的統(tǒng)計(jì)量,利用它們,可以在一定程度上判別聚多少類為合適。4.1 R2 統(tǒng)計(jì)量設(shè)譜系得第 G 層共有G 個類,定義nGT = åi =1PG = å Skk =1i - x) ,nSk = 

11、9;iÎGk其中, xk 為 Gk 的重心,Sk 越iii =1小,說明 Gk 中各樣品越相似。定義R2統(tǒng)計(jì)量如下:R2 = 1 - P/ TGR2 總是隨著分類數(shù)目的減少而減小,可以從 R2 值的變化看 n 個樣品分成幾類最合適。比如,分為 5 類以前各類的 R2 減小較緩慢;假定分為 5 類時,R2=0.85,而下一次合并,即分為 4 類時 R2 減小較快, 如 R2=0.35,則認(rèn)為分為 5 類較合適。4.2半偏相關(guān)統(tǒng)計(jì)量這一統(tǒng)計(jì)量與離差平方和距離有關(guān)。設(shè)類 Gp,Gq 的離差平方和分別是Sp = å (i - xp ), Sq = å (i - xq ),

12、 iÎG piÎGq將 Gp,Gq 合并成 Gr 后的離差平方和為Sr = åiÎGri - xr ) ,合并后的離差平方和增量為= np + nqn + n2W= S - S - Spqrpqpqnnrr定義半偏相關(guān)統(tǒng)計(jì)量為:SPRSQ = Wpq / TSPRSQ 是R2 值與該步 R2 值的差值,當(dāng) SPRSQ 值越大時,說明上一次合并效果越好。4.3偽F 統(tǒng)計(jì)量偽F 統(tǒng)計(jì)量 PSF 是PSF = (T - PG ) /(G - 1)PG /(n - G)PSF 值越大表示這些觀測可顯著地分為 G 個類。4.4偽統(tǒng)計(jì)量t2設(shè)Sp,Sq,Wpq 的含

13、義如前所述,定義偽統(tǒng)計(jì)量為t2WpqPST 2 =( Sp + Sq ) /(np + nq - 2)PST2 大,說明合并Gp,Gq 為Gr 后,使得離差平方和的增量Wpq 相對于原Gp,Gq 的類內(nèi)離差平方和大。這表明合并的兩個類 Gp,Gq 是很的,也就是上一次聚類效果較好。三、快速聚類法參見:,. 數(shù)據(jù)分析(P228-241).北京:科學(xué)聚類分析課堂例題。為了研究世界各國森林、草原的分布規(guī)律,共抽取了 21 個的數(shù)據(jù),每個4 項(xiàng)指標(biāo),原始數(shù)據(jù)見下表 1。使用該原始數(shù)據(jù)對國別進(jìn)行聚類分析。表 1 抽樣數(shù)據(jù)表國別森林面積(萬公頃)森林覆蓋率(%)林木蓄積量(億立方米)草原面積(萬公頃)中國

14、1197812.593.531908美國2844630.4202.023754250167.224.858德國102828.414.0599英國2108.61.51147法國145826.716.01288意大利63521.13.65143261332.7192.82385澳大利亞1070013.910.545190前9200041.1841.537370捷克45835.88.9168波蘭86827.811.4405匈牙利16117.42.5129南斯拉夫92936.311.4640亞63426.711.3447亞38534.72.5200674820.529.01200218084.033.

15、71200尼日利亞149016.10.82090墨西哥485024.632.67450巴西5750067.6238.015900解提供了兩種方法進(jìn)行聚類分析。答一種是利用 clusterdata 函數(shù)對樣本數(shù)據(jù)進(jìn)行一次聚類,其缺點(diǎn)為可供用戶選擇的面較窄,不能更改距離的計(jì)算方法;另一種是分步聚類:(1)找到數(shù)據(jù)集合中變量兩兩之間的相似性和非相似性,用 pdist 函數(shù)計(jì)算變量之間的距離;(2)用 linkage 函數(shù)定義變量之間的連接;(3)用 cophenetic 函數(shù)評價(jià)聚類信息;(4)用cluster 函數(shù)創(chuàng)建聚類。11.1中相關(guān)函數(shù)介紹pdist 函數(shù)調(diào)用格式:Y=pdist(X, me

16、tric)說明:用 metric指定的方法計(jì)算 X 數(shù)據(jù)矩陣中對象之間的距離。X:一個 m×n 的矩陣,它是由m 個對象組成的數(shù)據(jù)集, 每個對象的大小為n。Metric 取值如下:euclidean:距離;距離(默認(rèn));seuclidean:標(biāo)準(zhǔn)化mahalanobis:馬氏距離;cityblock:距離;minkowski:明可夫correlation: jaccard:距離;cosine:hamming: chebychev:Chebychev 距離。squareform 函數(shù)調(diào)用格式:Z=squareform(Y,.)1.2說明:強(qiáng)制將距離矩陣從上三角形式轉(zhuǎn)化為方陣形式,或從方

17、陣形式轉(zhuǎn)化為上三角形式。1.3linkage 函數(shù)調(diào)用格式:Z=linkage(Y, method)說明:用method參數(shù)指定的算法計(jì)算系統(tǒng)聚類樹。Y:pdist 函數(shù)返回的距離向量;method:可取值如下:single:最短距離法(默認(rèn));離法;complete:最長距average:未均法;平均距離法;weighted:平centroid: 質(zhì)心距離法;距離法;median:質(zhì)心ward:內(nèi)平方距離法(最小方差算法)返回:Z個包含聚類樹信息的(m-1)×3 的矩陣。1.4dendrogram 函數(shù)調(diào)用格式:H,T,=dendrogram(Z,p,)說明:生成只有頂部p 個節(jié)點(diǎn)

18、的冰柱圖(譜系圖)。1.5cophenet 函數(shù)調(diào)用格式:c=cophenet(Z,Y)說明:利用 pdist 函數(shù)生成的Y 和 linkage 函數(shù)生成的Z 計(jì)算cophenet 相關(guān)系數(shù)。cluster 函數(shù)調(diào)用格式:T=cluster(Z,)說明:根據(jù)linkage 函數(shù)的輸出Z 創(chuàng)建分類。clusterdata 函數(shù)調(diào)用格式:T=clusterdata(X,) 說明:根據(jù)數(shù)據(jù)創(chuàng)建分類。T=clusterdata(X,cutoff)與下面的一組命令等價(jià): Y=pdist(X,euclid); Z=linkage(Y,single); T=cluster(Z,cutoff);程序一次聚類法X=11978 12.5 93.5 31908;57500 67.6 238.0 15900;T=clusterdata(X,0.9)%上一條命令與下面三條等價(jià)1.61.72.2.1Y=pdist(X,euclid);Z=linkage(Y,single);T=cluster(Z,cutoff);4x 1043.532.521.510.507201928 2110譜系圖分類結(jié)果:2.2分步聚類Step1尋找變量之間的相似性用pdist 函數(shù)計(jì)算相似矩陣,有多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論