


版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、* *統(tǒng)計(jì)方法6 聚類分析第一節(jié)基本概念1 分類問題直觀解釋:聚類分析就是用某種準(zhǔn)則將靠近的點(diǎn)集歸為一類對(duì)樣本(觀測(cè)值)進(jìn)行聚類,也可以對(duì)指標(biāo)(變量 )進(jìn)行聚類。2 距離樣品之間的距離設(shè) p 維空間內(nèi)的點(diǎn)X( x1 , x2 ,., xp ) 及 Y( y1 , y2 ,.y p )定義兩點(diǎn)之間的距離(1 )歐氏距離p2dxy 2( ( xi yi ) )1 / 2i 1( 2 )馬氏距離d xy2xy( xy)其中是數(shù)據(jù)矩陣的協(xié)方差陣。馬氏距離的優(yōu)點(diǎn)是考慮了空間內(nèi)的概率分布,在正態(tài)總體的情況下,有比較好的效果。* *距離的定義比較靈活,只要滿足條件都可以作為聚類時(shí)的距離。變量之間的距離變量之
2、間的距離要考慮到變量之間的相互關(guān)系。常用的距離如夾角余弦,相關(guān)系數(shù)等類和類之間的距離在聚類過程中,要涉及到類和類之間的合并,因此也要考慮類間的距離。如 類間最短距離設(shè) dij 是樣本 i 和樣本 j 之間的距離,D pq 是類 G p 和類 G q 之間的距離定義類間的最短距離為Dpq=imin dijp, j q類似的可以定義類間的最長(zhǎng)距離,平均距離 等。第二節(jié)系統(tǒng)聚類法* *系統(tǒng)聚類方法是非常容易在計(jì)算機(jī)上實(shí)現(xiàn)的一種聚類方法,其聚類步驟為:1 )將空間各點(diǎn)各自視為一類,計(jì)算每類間的距離矩陣,將距離最小者歸為一類。2 )對(duì)與新的類重新計(jì)算 類與類間 的距離矩陣,再將距離最小者歸為一類。3 )
3、這一過程一直進(jìn)行下去,直到所有的點(diǎn)歸為一類為止。例 8.2.1 :設(shè)抽六個(gè)樣,每個(gè)樣本只有一個(gè)變量,即:1, 2,5,7,9,10。定義距離為:兩點(diǎn)的絕對(duì)值。試用最小距離法對(duì)它們進(jìn)行系統(tǒng)聚類。G1G2 G3G4 G5G6G10G2101 )計(jì)算得距離矩陣D(0) ,為 G3430G46520G587420G69853102 ) D(0) 的最小距離時(shí)是1 ,對(duì)應(yīng)元素D12=D56=1,則將G1,G2 并成 G7;G5 ;G6 并成 G8。3 )計(jì)算 G7 , G8 與其他類道距離,得D ( 1)G7 G3 G4G8G70G330G4520G874204) 的 D (1)的最小距離是 2,把 G
4、3 , G4 , G8 合并為類 G9 ,5) 把 G7 和 G9 合并為 G10 ,聚類距離為 3 。此時(shí)已將全部樣本合并為一類,聚類結(jié)束。可以按照聚類的距離,通過譜系圖把聚類的過程表示出來。* *最后,選擇合適的閾值,確定聚類的個(gè)數(shù)。如取閾值為2.5 ,則分為2 類, G7 和 G9第三節(jié)動(dòng)態(tài)聚類法( k 均值法)k- 均值法是一種劃分方法。函數(shù)kmeans把數(shù)據(jù)劃分為k個(gè)互不相交的類,然后對(duì)每個(gè)觀測(cè)返回類的標(biāo)號(hào)。對(duì)于大量的數(shù)據(jù)k- 均值法比系統(tǒng)聚類法更合適。Kmeans把數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)視為占有空間中某個(gè)位置的對(duì)象。K- 均值法尋找劃分使得每一類內(nèi)部的數(shù)據(jù)足夠近而類之間的數(shù)據(jù)足夠遠(yuǎn)。
5、函數(shù)提供了5 種距離的測(cè)量。步驟Step1 :選擇 k 個(gè)樣品作為初始凝聚點(diǎn),或者將樣品分為k 個(gè)初始類,然后將其重心(均值)作為初始凝聚點(diǎn)Step2 :將每個(gè)樣品歸入離其凝聚點(diǎn)最近的類(通常采用歐氏距離)。Step3 :重新計(jì)算每個(gè)類的重心(均值);Step4 :重復(fù) Step2 ,直到各類重心不再變化,類不再變化為止。動(dòng)態(tài)聚類的結(jié)果嚴(yán)重依賴初始凝聚點(diǎn)的選取。經(jīng)驗(yàn)表明, 聚類過程的絕大多數(shù)重要變化* *均發(fā)生在第一次再分類中。第四節(jié) MATLAB統(tǒng)計(jì)工具箱中的聚類分析A 系統(tǒng)聚類法1. 點(diǎn)點(diǎn)距離的計(jì)算命令 pdist Y = pdist(X)Y = pdist(X,'metric
6、39;) Y = pdist(X,distfun)Y = pdist(X,'minkowski',p)這里:X:為數(shù)據(jù)矩陣metric :各種距離方法euclidean:歐幾里得距離Euclidean distance (default)seuclidean :標(biāo)準(zhǔn)歐幾里得距離 .mahalanobis :馬氏 距離 cityblock :絕對(duì)值距離minkowski :明可夫斯基距離cosine : cosine 角度距離(對(duì)變量聚類)correlation:相關(guān)系數(shù)距離.(對(duì)變量聚類)* *hamming : Hamming 距離(符號(hào)變量求距離)jaccard : Jac
7、card 系數(shù)距離(符號(hào)變量求距離) chebychev :切比雪夫距離2. 類類距離的計(jì)算命令 linkage ,基本語法為;Z = linkage(Y)Z = linkage(Y,'method')這里:Y:為 pdist輸出的結(jié)果,即點(diǎn)點(diǎn)的距離矩陣。method :為計(jì)算類類間距離的方法。它們有: single': 最短距離法 (系統(tǒng)內(nèi)定 )complete :最長(zhǎng)距離法。 average :平均距離法。weighted :加權(quán)平均距離法。 centroid :中心距離法。median :加權(quán)重心法。3) 聚類命令 cluster ,語法為:T = cluster
8、(Z,'cutoff',c)T = cluster(Z,'maxclust',n)這里:Z:為 linkage輸出的層次數(shù)據(jù)。cutoff :按某個(gè)值進(jìn)行切割,值c 取( 0 , 1 )之間的值。maxclust:按最大聚類數(shù)聚類,n 為指定的聚類數(shù)。* *4) 作聚類圖命令 dendrogram ,其語法為:H = dendrogram(Z)H = dendrogram(Z,p)H,T = dendrogram(.)H,T,perm = dendrogram(.). =dendrogram(.,'colorthreshold',t). = de
9、ndrogram(.,'orientation','orient'). = dendrogram(.,'labels', S)這里:Z:為 linkage輸出的層次數(shù)據(jù)。p :原始結(jié)點(diǎn)個(gè)數(shù)的設(shè)置,p=0顯示全部點(diǎn)。系統(tǒng)內(nèi)定顯示30 個(gè)點(diǎn)。colorthreshold :顏色設(shè)置,其值 t>0 。orientation :聚類圖的位置,內(nèi)定是從上到下。可選值為:top :從上到下 (default)bottom :從下到上 left :從左到右right :從右到左 labels :標(biāo)號(hào)例 16 個(gè)地區(qū) (' 北京 ',
10、9; 天津 ',' 河北 ',' 山西 ',' 內(nèi)蒙古 ',' 遼寧 ',' 吉林 ',' 黑龍江 ',' 上海 ',' 江蘇 ',' 浙江 ','安徽 ',' 福建 ',' 江西 ',' 山東 ',' 河南 )農(nóng)民支出情況調(diào)查,指標(biāo)為食品 ,衣著 ,燃料 ,住房 ,生活用品 ,文化生活服務(wù) .* *x=190.33 43.77 9.73 60.54 49.01 9.04;
11、135.2 36.4 10.47 44.16 36.49 3.94;95.21 22.839.3 22.44 22.81 2.8;104.78 25.11 6.49.89 18.173.25;128.41 27.63 8.94 12.58 23.993.27;145.68 32.8317.79 27.29 39.093.47;159.37 33.38 18.37 11.81 25.295.22;116.2229.5713.2413.7621.756.04;221.1138.6412.53115.6550.825.89;144.9829.1211.6742.627.35.74;169.9232.
12、7512.7247.1234.355;153.1123.0915.6223.5418.186.39;144.9221.2616.9619.5221.756.73;140.5421.517.6419.1915.974.94;115.84 30.2612.2 33.61 33.77 3.85;101.1823.26 8.46 20.220.5 4.3;zx=zscore(x);y=pdist(zx);z=linkage(y,'average')z =12.000013.00000.66563.000016.00000.99314.000018.00001.071114.000017
13、.00001.203210.000011.00001.26705.000019.00001.2756* *2.000015.00001.283321.000023.00001.70886.00007.00001.82458.000020.00001.879924.000025.00002.330226.000027.00002.647622.000028.00002.96641.00009.00003.178829.000030.00005.2728s=' 北京 ',' 天津 ',' 河北 ',' 山西 ',' 內(nèi)蒙古 &
14、#39;,' 遼寧 ',' 吉林 ',' 黑龍江 ',' 上海 ',' 江蘇 ',' 浙江 ',' 安徽 ',' 福建',' 江西 ',' 山東 ',' 河南 'dendrogram(z,'orientation','right','labels',s)* *上海北京內(nèi)蒙古山西河南河北吉林遼寧浙江江蘇山東天津黑龍江江西福建安徽0.511.522.533.544.555.5T
15、=cluster(z,5)T =423332215* *2211123find(T=1)ans =8121314find(T=2)ans =267101115find(T=3)* *ans =34516find(T=4)ans =1find(T=5)ans =9或者:T = clusterdata(zx,'distance','euclid','linkage','average','maxclust',5)T =4233322* *152211123它與前面的cluster(z,5)相等B K 均值法函數(shù) kme
16、ans把數(shù)據(jù)劃分為k 個(gè)互不相交的類,然后對(duì)每個(gè)觀測(cè)返回類的標(biāo)號(hào)。Kmeans把數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)視為占有空間中某個(gè)位置的對(duì)象。K- 均值法尋找劃分使得每一類內(nèi)部的數(shù)據(jù)足夠近而類之間的數(shù)據(jù)足夠遠(yuǎn)。函數(shù)提供了5 種距離的測(cè)量。IDX = kmeans(X,k)將 n 個(gè)點(diǎn)分為k 類,返回的idx 為每個(gè)點(diǎn)的類標(biāo)號(hào)。IDX,C = kmeans(X,k)返回的 c 為每個(gè)類的中心。IDX,C,sumd = kmeans(X,k)Sumd返回類內(nèi)的距離。IDX,C,sumd,D = kmeans(X,k)* *返回的 D 是一個(gè)矩陣,里邊的元素dij 是第 i 個(gè)元素到第 j 類的距離。. = k
17、means(.,param1,val1,param2,val2,.)param1 為參數(shù)名, val1 為參數(shù)值。這些參數(shù)用來控制迭代算法。繼續(xù)上例,采用K 均值法分類的結(jié)果為:IDX = kmeans(x,4)%分為 4 類IDX =134423321333* *3324分類的結(jié)果為:IDX = kmeans(x,5) %分為 5 類IDX =1522355345155* *532分類的結(jié)果為:輪廓圖可以利用輪廓圖作為評(píng)價(jià)分類結(jié)果的一種標(biāo)準(zhǔn)。Silhouette函數(shù)可以用來根據(jù)cluster,clusterdata,kmeans的聚類結(jié)果繪制輪廓圖。從圖上可以看每個(gè)點(diǎn)的分類是否合理。輪廓圖上
18、第i 點(diǎn)的輪廓值定義為min( b)aS( i) =,i1.nmax a, min( b)其中, a 是第 i 個(gè)點(diǎn)與同類其它點(diǎn)的平均距離。b 是向量,其元素表示第i 個(gè)點(diǎn)與不同類的類內(nèi)各點(diǎn)的平均距離。S(i) 的取值范圍 -1 ,1 ,此值越大,說明該點(diǎn)的分類越合理。特別當(dāng)s(i)<0是說明該點(diǎn)分類不合理。silhouette(X,clust)s = silhouette(X,clust) %此命令只返回輪廓值,不畫輪廓圖s,h = silhouette(X,clust). = silhouette(X,clust,metric). = silhouette(X,clust,distf
19、un,p1,p2,.)上例分為 4 類的情況* *s,h = silhouette(x,IDX)s =0.76230.39660.80800.81710.17710.70200.69550.72931.00000.65640.29270.76080.67570.50990.45820.8398* *上例分為 5 類的情況s,h = silhouette(x,IDX)s =0.76230.05550.80370.65830.48170.47470.5376* *0.05401.00000.49600.29270.62680.45060.19710.19930.8479比較兩圖 ,此例使用k 均值
20、法分四類要更合適第五節(jié)模糊聚類聚類分析是一種無監(jiān)督的學(xué)習(xí)方法。很多的分類問題中,分類對(duì)象往往沒有明確的界限。* *用傳統(tǒng)的聚類方法,把樣本點(diǎn)嚴(yán)格的分到某個(gè)類中,可能存在一定的不合理性。借助于模糊數(shù)學(xué)的思想,可以有模糊聚類的方法。使用模糊聚類將n 個(gè)樣品劃分為c 類,記 V(v1, v2 ,.vc ) 為 c 個(gè)類的聚類中心。 在模糊聚類中每個(gè)樣品不是嚴(yán)格的劃分到某一類,而是按照一定的隸屬度屬于某一類。c設(shè) uik 表示第 k 個(gè)樣品屬于第i 類的隸屬度,取值0 , 1 ,且uik 1。i 1ncuikm dik2定義目標(biāo)函數(shù) J (U ,V )k 1i 1其中 U 為隸屬度矩陣, dikxkv
21、i所以該目標(biāo)函數(shù)表示各類中樣品到聚類中心的加權(quán)的距離平方和。模糊 C 均值聚類法的準(zhǔn)則是求U ,V 使 J( U, V )得到最小值。具體步驟:( 1 )確定類的個(gè)數(shù) c,冪指數(shù) m (>1 )和初始隸屬度矩陣 U (0) 。通常的做法是取 0 ,1 上的均勻分布隨機(jī)數(shù)來確定初始隸屬度矩陣。令l=1 表示第一步迭代。( 2 )通過下式計(jì)算第 l 步的聚類中心:n(uik (l 1) )m xk( l )k 1m , i 1,2,., cvin(uik l1 )k 1(3) 修正隸屬度矩陣 U (l ) ,計(jì)算目標(biāo)函數(shù)值 J( l ) 。其中uik(l )1 cl2,i 1,2,.C ;
22、k1,2,., n(dik)m1lj 1d jk(4) 對(duì)于迭代算法,給定隸屬度終止容限u0 (或目標(biāo)函數(shù)終止容限j0 ,或給定最大迭代* *步長(zhǎng) )。當(dāng) max uik(l )uik(l 1) u (或當(dāng) l>1, J (l )J (l 1)l ,或大于最大步長(zhǎng)) ,停止迭代,否則 l=l+1, 返回( 2 )。經(jīng)迭代可以求得最終的隸屬度矩陣U 和聚類中心 V ,使目標(biāo)函數(shù)達(dá)最小。根據(jù)最終的隸屬度矩陣 U 中元素的取值來確定最終所有樣品的歸屬,當(dāng)u jkmaxuik 時(shí),把 xk 歸于第 j1 i c類。模糊邏輯工具箱中模糊C 聚類的函數(shù):fcmcenter,U,obj_fcn = f
23、cm(data,cluster_n)center,U,obj_fcn =fcm(data,cluster_n,options)說明:cluster_n是類的個(gè)數(shù)。Options中的第一個(gè)參數(shù)是隸屬度的冪指數(shù),默認(rèn)為2 ;第二個(gè)參數(shù)是最大迭代次數(shù),默認(rèn)值為100 ,第三個(gè)參數(shù)是目標(biāo)函數(shù)的終止容限,默認(rèn)值為10 5 。第四個(gè)參數(shù)用來控制是否顯示中間迭代過程。取值為0 ,則不顯示。輸出參數(shù)center是cluster_n個(gè)類的類中心坐標(biāo)矩陣(cluster_nX p )。 U是隸屬度矩陣(cluster_n x n), uik 表示其元素第k 個(gè)樣品屬于第i 類的隸屬度。 根據(jù)U 中每列元素的取值判
24、定元素的歸屬。obj_fcn是目標(biāo)函數(shù)值向量,其第i 個(gè)元素表示第i 步迭代的目標(biāo)函數(shù)值,它包含的元素總個(gè)數(shù)就是實(shí)際迭代的總步數(shù)。繼續(xù)前面的例子x=190.33 43.77 9.73 60.54 49.01 9.04;135.2 36.4 10.47 44.16 36.49 3.94;95.21 22.839.3 22.44 22.81 2.8;104.78 25.11 6.4 9.89 18.17 3.25;128.41 27.63 8.94 12.58 23.993.27;145.68 32.83 17.79 27.29 39.09 3.47;159.37 33.38 18.37 11.81 25.29 5.22;116.2229.5713.2413.7621.756.04;221.1138.6412.53115.6550.8
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中考物理二輪復(fù)習(xí):電與磁 信息 能源 尖子生測(cè)試卷(含答案解析)
- 第五單元 第1章 第1節(jié) 腔腸動(dòng)物和扁形動(dòng)物(新教學(xué)設(shè)計(jì))2023-2024學(xué)年八年級(jí)上冊(cè)生物(人教版)
- 借款房屋轉(zhuǎn)讓合同范例
- 產(chǎn)品采購(gòu)合同范例加工商
- 主體裝修合同范本
- 互聯(lián)網(wǎng)醫(yī)療行業(yè)月度個(gè)人工作計(jì)劃
- 農(nóng)村安裝光伏合同范例
- 眼科相關(guān)治療
- 班級(jí)工作計(jì)劃執(zhí)行效率總結(jié)
- 學(xué)校學(xué)期校園文明創(chuàng)建計(jì)劃
- 組織行為學(xué)測(cè)試試題庫(kù)與答案
- 2024年北京海淀區(qū)初一(上)期中語文試題(含答案)
- 初二美術(shù)教學(xué)課件模板
- 裝配式疊合板安裝施工方案
- 2024年江蘇常州機(jī)電職業(yè)技術(shù)學(xué)院招聘44人歷年高頻難、易錯(cuò)點(diǎn)500題模擬試題附帶答案詳解
- 2024-2030年中國(guó)干黃花菜市場(chǎng)營(yíng)銷策略與未來發(fā)展方向建議研究報(bào)告版
- 人音版音樂五年級(jí)下冊(cè)《歡樂的村寨》單元作業(yè)設(shè)計(jì)
- 煙草專賣法知識(shí)考試題庫(kù)500題(含答案)
- 旅游政策法規(guī)教案
- 《動(dòng)物王國(guó)開大會(huì)》預(yù)學(xué)單
- 鋼結(jié)構(gòu)安全交底
評(píng)論
0/150
提交評(píng)論