統(tǒng)計方法6聚類分析_第1頁
統(tǒng)計方法6聚類分析_第2頁
統(tǒng)計方法6聚類分析_第3頁
統(tǒng)計方法6聚類分析_第4頁
統(tǒng)計方法6聚類分析_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、* *統(tǒng)計方法6聚類分析第一節(jié)基本概念1 .分類問題直觀解釋:聚類分析就是用某種準則將靠近的點集歸為一類對樣本(觀測值)進行聚類,也可以對指標(變量)進行聚類。2 .距離樣品之間的距離設(shè)p維空間內(nèi)的點 X (X,X2,Xp)及Y (yi,y2,yp)定義兩點之間的距離(1)歐氏距離p221/2dxy ( (Xi y。) i 1(2)馬氏距離dXy x y (x y)其中是數(shù)據(jù)矩陣的協(xié)方差陣。馬氏距離的優(yōu)點是考慮了空間內(nèi)的概率分布,在正態(tài)總體的情況下,有比較好的效果。距離的定義比較靈活,只要滿足條件都可以作為聚類時的距離。變量之間的距離變量之間的距離要考慮到變量之間的相互關(guān)系。常用的距離如夾角余

2、弦,相關(guān)系數(shù)等類和類之間的距離在聚類過程中,要涉及到類和類之間的合并,因此也要考慮類間的距離。如類間最短距離設(shè)dij是樣本i和樣本j之間的距離,Dpq是類Gp和類Gq之間的距離 定義類間的最短距離為 d = min dij pq= i p,j q ij類似的可以定義類間的最長距離,平均品巨離 等。第二節(jié)系統(tǒng)聚類法系統(tǒng)聚類方法是非常容易在計算機上實現(xiàn)的一種聚類方法,其聚類步驟為:1)將空間各點各自視為一類,計算每類間的距離矩陣,將距離最小者歸為一類。2)對與新的類重新計算 類與類間的距離矩陣,再將距離最小者歸為一類。3)這一過程一直進行下去,直到所有的點歸為一類為止。例8.2.1 :設(shè)抽六個樣,

3、每個樣本只有一個變量,即: 1,2,5, 7, 9, 10。定義距離為:兩點的絕對值。試用最小距離法對它們進行系統(tǒng)聚類。1)計算得距離矩陣G1G2D(0),為 G3G4G5G6G1G2G3G4G5G601043065208742098531 02) D(0)的最小距離時是1 ,對應(yīng)元素D12=D56=1 ,則將G1 , G2 并成 G7; G5 ; G6 并成 G8。3)計算G7, G8與其他類道距離,得 D (1)G7G3G4G8G70G330G4520G874204)的D (1)的最小距離是2,把G3,G4,G8合并為類G9 ,5)把G7和G9合并為G10 ,聚類距離為3。此時已將全部樣本

4、合并為一類,聚類結(jié)束??梢园凑站垲惖木嚯x,通過譜系圖把聚類的過程表示出來。G1=1 jG2=2 G7G1051 方G知騫 G9G6=10 G811111234最后,選擇合適的閾值,確定聚類的個數(shù)。如取閾值為 2.5,則分為2類,G7和G9第三節(jié)動態(tài)聚類法(k均值法)k-均值法是一種劃分方法。函數(shù) kmeans把數(shù)據(jù)劃分為k個互不相交的類,然后對每個 觀測返回類的標號。對于大量的數(shù)據(jù)k-均值法比系統(tǒng)聚類法更合適。Kmeans 把數(shù)據(jù)集中的每一個數(shù)據(jù)視為占有空間中某個位置的對象。k-均值法尋找劃分使得每一類內(nèi)部的數(shù)據(jù)足夠近而類之間的數(shù)據(jù)足夠遠。函數(shù)提供了 5種距離的測量。步驟Stepl :選擇k個

5、樣品作為初始凝聚點,或者將樣品分為k個初始類,然后將其重心(均值)作為初始凝聚點Step2 :將每個樣品歸入離其凝聚點最近的類(通常采用歐氏距離)。Step3 :重新計算每個類的重心(均值);Step4 :重復(fù)Step2 ,直到各類重心不再變化,類不再變化為止。動態(tài)聚類的結(jié)果嚴重依賴初始凝聚點的選取。經(jīng)驗表明,聚類過程的絕大多數(shù)重要變化均發(fā)生在第一次再分類中。第四節(jié)MATLAB統(tǒng)計工具箱中的聚類分析A系統(tǒng)聚類法1 .點點距離的計算命令 pdistY = pdist(X)Y = pdist(X,metric)Y = pdist(X,distfun)Y = pdist(X,minkowski,p)

6、這里:X:為數(shù)據(jù)矩陣metric :各種距離方法euclidean :歐幾里得距離Euclidean distance (default)seuclidean :標準歐幾里得距離.mahalanobis :馬氏品巨離cityblock :絕對值距離minkowski :明可夫斯基距離cosine : cosine角度距離(對變量聚類)(correlation :相關(guān)系數(shù)距離.(對變量聚類)hamming : Hamming 距離(符號變量求距離)jaccard : Jaccard系數(shù)距離(符號變量求距離)chebychev :切比雪夫距離2 .類類距離的計算命令linkage ,基本語法為;Z

7、 = linkage(Y)Z = linkage(Y,method)這里:Y:為pdist輸出的結(jié)果,即點點的距離矩陣。method :為計算類類間距離的方法。它們有:single:最短距離法(系統(tǒng)內(nèi)定)complete :最長距離法。average :平均距離法。weighted :加權(quán)平均距離法。centroid :中心距離法。median :加權(quán)重心法。3 ) 聚類命令cluster ,語法為:T = cluster(Z,cutoff,c)T = cluster(Z,maxclust,n)這里:Z:為linkage 輸出的層次數(shù)據(jù)。cutoff :按某個值進行切割,值c取(0, 1)之間

8、的值。maxclust :按最大聚類數(shù)聚類,n為指定的聚類數(shù)。4 )作聚類圖命令dendrogram ,其語法為:H = dendrogram(Z)H = dendrogram(Z,p)H,T = dendrogram()H,T,perm = dendrogram()=dendrogram(,colorthreshold,t)=dendrogram(,orientation,orient)=dendrogram(,labels, S)這里:Z:為linkage 輸出的層次數(shù)據(jù)。p :原始結(jié)點個數(shù)的設(shè)置,p=0顯示全部點。系統(tǒng)內(nèi)定顯示 30個點。colorthreshold顏色設(shè)置,其值 t0

9、。o orientation :聚類圖的位置,內(nèi)定是從上到下??蛇x值為:top :從上到下(default)bottom :從下到上left :從左到右right :從右到左labels :標號例16個地區(qū)(北京,天津,河北,山西,內(nèi)蒙古,遼寧,吉林,黑龍江,上海,江蘇,浙江,安徽,福建,江西,山東,河南)農(nóng)民支出情況調(diào)查,指標為食品,衣著,燃料,住房,生活用品,文化生活服務(wù) x=190.33 43.77 9.73 60.54 49.01 9.04;135.2 36.4 10.47 44.16 36.49 3.94;95.21 22.839.3 22.44 22.81 2.8;104.78 2

10、5.11 6.4 9.89 18.17 3.25;128.41 27.63 8.94 12.58 23.993.27;145.68 32.83 17.79 27.29 39.09 3.47;159.37 33.38 18.37 11.81 25.29 5.22;116.2229.57 13.24 13.76 21.75 6.04;221.1138.64 12.53 115.65 50.82 5.89;144.98 29.1211.67 42.6 27.3 5.74;169.92 32.75 12.72 47.12 34.35 5;153.1123.09 15.62 23.5418.18 6.3

11、9;144.9221.2616.96 19.52 21.75 6.73;140.5421.5 17.64 19.19 15.974.94;115.84 30.26 12.2 33.61 33.77 3.85;101.18 23.26 8.46 20.2 20.5 4.3;zx=zscore(x);y=pdist(zx);z=linkage(y,average) z =12.000013.00000.66563.000016.00000.99314.000018.00001.071114.000017.00001.203210.000011.00001.26705.000019.00001.27

12、562.000015.00001.283321.000023.00001.70886.00007.00001.82458.000020.00001.879924.000025.00002.330226.000027.00002.647622.000028.00002.96641.00009.00003.178829.000030.00005.2728s=北京,天津,河北,山西,內(nèi)蒙古,遼寧,吉林,黑龍江,上海,江蘇,浙江,安徽,福建,江西,山東,河南dendrogram(z,orientation,right,labels,s) * *上海 北京內(nèi)蒙古 山西 河南 河北 吉林 遼寧 浙江 江蘇

13、山東 天津黑龍江 江西福建 安徽5T=cluster(z,5)T =42333221* *2211123find(T=1) ans =8121314find(T=2) ans =267101115 find(T=3)* *ans =34516find(T=4) ans =1find(T=5) ans =9或者:T = clusterdata(zx,distance,euclid,linkage,average,maxclust,5) T =4233335* *152211123它與前面的cluster(z,5)相等B K均值法函數(shù)kmeans把數(shù)據(jù)劃分為k個互不相交的類,然后對每個觀測返回類的

14、標號。Kmeans把數(shù)據(jù)集中的每一個數(shù)據(jù)視為占有空間中某個位置的對象。K-均值法尋找劃分使得每一類內(nèi)部的數(shù)據(jù)足夠近而類之間的數(shù)據(jù)足夠遠。函數(shù)提供了 5種距離的測量。IDX = kmeans(X,k)將n個點分為k類,返回的idx為每個點的類標號。IDX,C = kmeans(X,k)返回的c為每個類的中心。IDX,C,sumd = kmeans(X,k)Sumd返回類內(nèi)的距離。IDX,C,sumd,D = kmeans(X,k)* *一d 返回的D是一個矩陣,里邊的元素j是第i個元素到第j類的距離。=kmeans(,param1,val1,param2,val2,)paraml為參數(shù)名,val

15、l為參數(shù)值。這些參數(shù)用來控制迭代算法。繼續(xù)上例,采用 K均值法分類的結(jié)果為:IDX = kmeans(x,4)% 分為 4 類IDX =134423321333* *3324分類的結(jié)果為:IDX = kmeans(x,5) % 分為 5 類IDX =1522355345155* *532分類的結(jié)果為:輪廓圖可以利用輪廓圖作為評價分類結(jié)果的一種標準。Silhouette函數(shù)可以用來根據(jù)cluster,clusterdata,kmeans的聚類結(jié)果繪制輪廓圖。從圖上可以看每個點的分類是否合理。輪廓圖上第i點的輪廓值定義為,、 min(b)a .,S =-,i1.nmaxa,min( b)其中,a是

16、第i個點與同類其它點的平均距離。b是向量,其元素表示第i個點與不同類的類內(nèi)各點的平均距離。S(i)的取值范圍卜1 , 1,此值越大,說明該點的分類越合理。特別當 s(i)1 )和初始隸屬度矩陣U (0) o通常的做法是取0, 1上的均勻分布隨機數(shù)來確定初始隸屬度矩陣。令1=1表示第一步迭代。(2)通過下式計算第l步的聚類中心:n(1)mxkVi1丁,i 1,2,c/ l 1(Uik)k 1修正隸屬度矩陣U(l),計算目標函數(shù)值 J。其中(l) ik1,2,C;k1,2,., n(4)對于迭彳t算法,給定隸屬度終止容限0 (或目標函數(shù)終止容限j0,或給定最大迭代步長)。當maxUikl) uk1

17、) u (或當11, J(l) J(l1) i,或大于最大步長),停止迭代,否則1=1+1,返回(2)。經(jīng)迭代可以求得最終的隸屬度矩陣U和聚類中心 V,使目標函數(shù)達最小。根據(jù)最終的隸屬度矩陣U中元素的取值來確定最終所有樣品的歸屬,當 ujk maxuik時,把Xk歸于第j11 i c類。模糊邏輯工具箱中模糊C聚類的函數(shù):fcmcenter,U,obj_fcn = fcm(data,c1uster_n)center,U,obj_fcn =fcm(data,cluster_n,options)說明:cluster_n是類的個數(shù)。Options中的第一個參數(shù)是隸屬度的哥指數(shù),默認為2;第二個參數(shù)是最

18、大迭代次數(shù),默認值為100 ,第三個參數(shù)是目標函數(shù)的終止容限,默認值為10 5。第四個參數(shù)用來控制是否顯示中間迭代過程。取值為0,則不顯示。輸出參數(shù)center是cluster_n 個類的類中心坐標矩陣(cluster_n X p)。U是隸屬度矩陣 (clusterx n ),口卜表示其元素第k個樣品屬于第i類的隸屬度。根據(jù)U中每列元素的取值判定元素的歸屬。obj_fcn是目標函數(shù)值向量,其第i個元素表示第i步迭代的目標函數(shù)值,它包含的元素總個數(shù)就是實際迭代的總步數(shù)。繼續(xù)前面的例子x=190.33 43.77 9.73 60.54 49.01 9.04;135.2 36.4 10.47 44.

19、16 36.49 3.94;95.21 22.839.3 22.44 22.81 2.8;104.78 25.11 6.4 9.89 18.17 3.25;128.41 27.63 8.94 12.58 23.993.27;145.68 32.83 17.79 27.29 39.09 3.47;159.37 33.38 18.37 11.81 25.29 5.22;116.2229.57 13.24 13.76 21.75 6.04;221.1138.64 12.53 115.65 50.82 5.89;144.98 29.1211.67 42.6 27.3 5.74;169.92 32.75 12.72 47.12 34.35 5;153.1123.09 15.62 23.5418.18 6.39;144.9221.26 16.96 19.52 21.75 6.73;140.5421.5 17.64 19.19

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論