版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、統(tǒng)計方法6 聚類分析第一節(jié) 基本概念 1分類問題直觀解釋:聚類分析就是用某種準(zhǔn)則將靠近的點集歸為一類對樣本(觀測值)進(jìn)行聚類,也可以對指標(biāo)(變量)進(jìn)行聚類。2 距離樣品之間的距離設(shè)p維空間內(nèi)的點及定義兩點之間的距離(1)歐氏距離(2)馬氏距離其中是數(shù)據(jù)矩陣的協(xié)方差陣。馬氏距離的優(yōu)點是考慮了空間內(nèi)的概率分布,在正態(tài)總體的情況下,有比較好的效果。距離的定義比較靈活,只要滿足條件都可以作為聚類時的距離。變量之間的距離變量之間的距離要考慮到變量之間的相互關(guān)系。常用的距離如夾角余弦,相關(guān)系數(shù)等類和類之間的距離在聚類過程中,要涉及到類和類之間的合并,因此也要考慮類間的距離。如 類間最短距離設(shè)是樣本i和樣本
2、j之間的距離,是類和類之間的距離 定義類間的最短距離為 =類似的可以定義類間的最長距離,平均距離等。 第二節(jié) 系統(tǒng)聚類法系統(tǒng)聚類方法是非常容易在計算機上實現(xiàn)的一種聚類方法,其聚類步驟為:1)將空間各點各自視為一類,計算每類間的距離矩陣,將距離最小者歸為一類。2)對與新的類重新計算類與類間的距離矩陣,再將距離最小者歸為一類。3)這一過程一直進(jìn)行下去,直到所有的點歸為一類為止。n 例 :設(shè)抽六個樣,每個樣本只有一個變量,即:1,2,5,7,9,10。定義距離為:兩點的絕對值。試用最小距離法對它們進(jìn)行系統(tǒng)聚類。1) 計算得距離矩陣D(0),為2) D(0)的最小距離時是1,對應(yīng)元素D12=D56=1
3、,則將 G1,G2并成G7;G5;G6并成G8。3)計算G7,G8與其他類道距離,得D(1)4)的D(1)的最小距離是2,把合并為類,5)把G7和G9合并為G10,聚類距離為3。此時已將全部樣本合并為一類,聚類結(jié)束。可以按照聚類的距離,通過譜系圖把聚類的過程表示出來。最后,選擇合適的閾值,確定聚類的個數(shù)。如取閾值為2.5,則分為2類,G7和G9 第三節(jié) 動態(tài)聚類法(k均值法)k-均值法是一種劃分方法。函數(shù)kmeans把數(shù)據(jù)劃分為k個互不相交的類,然后對每個觀測返回類的標(biāo)號。對于大量的數(shù)據(jù)k-均值法比系統(tǒng)聚類法更合適。Kmeans把數(shù)據(jù)集中的每一個數(shù)據(jù)視為占有空間中某個位置的對象。K-均值法尋找
4、劃分使得每一類內(nèi)部的數(shù)據(jù)足夠近而類之間的數(shù)據(jù)足夠遠(yuǎn) 。函數(shù)提供了5種距離的測量。步驟 Step1:選擇k 個樣品作為初始凝聚點,或者將樣品分為k 個初始類,然后將其重心(均值)作為初始凝聚點Step2:將每個樣品歸入離其凝聚點最近的類(通常采用歐氏距離)。Step3:重新計算每個類的重心(均值);Step4:重復(fù)Step2,直到各類重心不再變化,類不再變化為止。動態(tài)聚類的結(jié)果嚴(yán)重依賴初始凝聚點的選取。經(jīng)驗表明,聚類過程的絕大多數(shù)重要變化均發(fā)生在第一次再分類中。 第四節(jié)MATLAB統(tǒng)計工具箱中的聚類分析A系統(tǒng)聚類法1. 點點距離的計算命令pdistY = pdist(X)Y = pdist(X,
5、'metric')Y = pdist(X,distfun)Y = pdist(X,'minkowski',p)這里:X:為數(shù)據(jù)矩陣metric:各種距離方法euclidean:歐幾里得距離Euclidean distance (default)seuclidean:標(biāo)準(zhǔn)歐幾里得距離.mahalanobis:馬氏 距離cityblock:絕對值距離minkowski:明可夫斯基距離cosine:cosine角度距離(對變量聚類)correlation:相關(guān)系數(shù)距離.(對變量聚類)hamming:Hamming 距離(符號變量求距離)jaccard: Jaccard
6、 系數(shù)距離(符號變量求距離)chebychev:切比雪夫距離2. 類類距離的計算命令linkage,基本語法為;Z = linkage(Y) Z = linkage(Y,'method') 這里:Y:為pdist輸出的結(jié)果,即點點的距離矩陣。method:為計算類類間距離的方法。它們有:single': 最短距離法 (系統(tǒng)內(nèi)定)complete:最長距離法。average:平均距離法。weighted:加權(quán)平均距離法。centroid:中心距離法。median:加權(quán)重心法。3) 聚類命令cluster,語法為:T = cluster(Z,'cutoff'
7、,c)T = cluster(Z,'maxclust',n)這里:Z:為linkage輸出的層次數(shù)據(jù)。cutoff:按某個值進(jìn)行切割,值c?。?,1)之間的值。maxclust:按最大聚類數(shù)聚類,n為指定的聚類數(shù)。4) 作聚類圖命令dendrogram,其語法為:H = dendrogram(Z) H = dendrogram(Z,p)H,T = dendrogram(.)H,T,perm = dendrogram(.). = dendrogram(.,'colorthreshold',t). = dendrogram(.,'orientation
8、9;,'orient'). = dendrogram(.,'labels', S)這里:Z:為linkage輸出的層次數(shù)據(jù)。p:原始結(jié)點個數(shù)的設(shè)置,p=0顯示全部點。系統(tǒng)內(nèi)定顯示30個點。colorthreshold:顏色設(shè)置,其值t>0。orientation:聚類圖的位置,內(nèi)定是從上到下??蛇x值為:top : 從上到下 (default)bottom:從下到上left:從左到右right:從右到左labels:標(biāo)號例 16個地區(qū)('北京','天津','河北','山西','內(nèi)蒙古
9、39;,'遼寧','吉林','黑龍江','上海','江蘇','浙江','安徽','福建','江西','山東','河南)農(nóng)民支出情況調(diào)查,指標(biāo)為食品,衣著,燃料,住房,生活用品,文化生活服務(wù).x=190.33 43.77 9.73 60.54 49.01 9.04;135.2 36.4 10.47 44.16 36.49 3.94;95.21 22.83 9.3 22.44 22.81 2.8;104.78 25.11 6.4 9
10、.89 18.17 3.25;128.41 27.63 8.94 12.58 23.99 3.27;145.68 32.83 17.79 27.29 39.09 3.47;159.37 33.38 18.37 11.81 25.29 5.22;116.22 29.57 13.24 13.76 21.75 6.04;221.11 38.64 12.53 115.65 50.82 5.89;144.98 29.12 11.67 42.6 27.3 5.74;169.92 32.75 12.72 47.12 34.35 5;153.11 23.09 15.62 23.54 18.18 6.39;14
11、4.92 21.26 16.96 19.52 21.75 6.73;140.54 21.5 17.64 19.19 15.97 4.94;115.84 30.26 12.2 33.61 33.77 3.85;101.18 23.26 8.46 20.2 20.5 4.3;zx=zscore(x);y=pdist(zx);z=linkage(y,'average')z = 12.0000 13.0000 0.6656 3.0000 16.0000 0.9931 4.0000 18.0000 1.0711 14.0000 17.0000 1.2032 10.0000 11.0000
12、 1.2670 5.0000 19.0000 1.2756 2.0000 15.0000 1.2833 21.0000 23.0000 1.7088 6.0000 7.0000 1.8245 8.0000 20.0000 1.8799 24.0000 25.0000 2.3302 26.0000 27.0000 2.6476 22.0000 28.0000 2.9664 1.0000 9.0000 3.1788 29.0000 30.0000 5.2728s='北京','天津','河北','山西','內(nèi)蒙古',
13、39;遼寧','吉林','黑龍江','上海','江蘇','浙江','安徽','福建','江西','山東','河南'dendrogram(z,'orientation','right','labels',s)T=cluster(z,5)T = 4 2 3 3 3 2 2 1 5 2 2 1 1 1 2 3find(T=1)ans = 8 12 1314find(T=2)ans = 2
14、 6 7 10 1115find(T=3)ans = 3 4 516find(T=4)ans = 1find(T=5)ans = 9或者:T = clusterdata(zx,'distance','euclid','linkage','average','maxclust',5)T = 4 2 3 3 3 2 2 1 5 2 2 1 1 1 2 3它與前面的cluster(z,5)相等B K均值法函數(shù)kmeans把數(shù)據(jù)劃分為k個互不相交的類,然后對每個觀測返回類的標(biāo)號。Kmeans把數(shù)據(jù)集中的每一個數(shù)據(jù)視為占有空
15、間中某個位置的對象。K-均值法尋找劃分使得每一類內(nèi)部的數(shù)據(jù)足夠近而類之間的數(shù)據(jù)足夠遠(yuǎn) 。函數(shù)提供了5種距離的測量。IDX = kmeans(X,k)將n個點分為k類,返回的idx為每個點的類標(biāo)號。IDX,C = kmeans(X,k)返回的c為每個類的中心。IDX,C,sumd = kmeans(X,k)Sumd返回類內(nèi)的距離。IDX,C,sumd,D = kmeans(X,k)返回的D是一個矩陣,里邊的元素是第i個元素到第j類的距離。. = kmeans(.,param1,val1,param2,val2,.)param1為參數(shù)名,val1為參數(shù)值。這些參數(shù)用來控制迭代算法。繼續(xù)上例,采用K
16、均值法分類的結(jié)果為:IDX = kmeans(x,4)%分為4類IDX = 1 3 4 4 2 3 3 2 1 3 3 3 3 3 2 4分類的結(jié)果為:IDX = kmeans(x,5) %分為5類IDX = 1 5 2 2 3 5 5 3 4 5 1 5 5 5 3 2分類的結(jié)果為:輪廓圖可以利用輪廓圖作為評價分類結(jié)果的一種標(biāo)準(zhǔn)。Silhouette函數(shù)可以用來根據(jù)cluster,clusterdata,kmeans的聚類結(jié)果繪制輪廓圖。從圖上可以看每個點的分類是否合理。輪廓圖上第i點的輪廓值定義為S(i)=其中,a是第i個點與同類其它點的平均距離。b 是向量,其元素表示第i個點與不同類的類
17、內(nèi)各點的平均距離。S(i)的取值范圍-1,1,此值越大,說明該點的分類越合理。特別當(dāng)s(i)<0是說明該點分類不合理。silhouette(X,clust)s = silhouette(X,clust) %此命令只返回輪廓值,不畫輪廓圖s,h = silhouette(X,clust) . = silhouette(X,clust,metric). = silhouette(X,clust,distfun,p1,p2,.)上例分為4類的情況s,h = silhouette(x,IDX)s = 0.7623 0.3966 0.8080 0.8171 0.1771 0.7020 0.6955
18、 0.7293 1.0000 0.6564 0.2927 0.7608 0.6757 0.5099 0.4582 0.8398上例分為5類的情況s,h = silhouette(x,IDX)s = 0.7623 0.0555 0.8037 0.6583 0.4817 0.4747 0.5376 0.0540 1.0000 0.4960 0.2927 0.6268 0.4506 0.1971 0.1993 0.8479比較兩圖,此例使用k均值法分四類要更合適 第五節(jié) 模糊聚類 聚類分析是一種無監(jiān)督的學(xué)習(xí)方法。很多的分類問題中,分類對象往往沒有明確的界限。用傳統(tǒng)的聚類方法,把樣本點嚴(yán)格的分到某個類
19、中,可能存在一定的不合理性。借助于模糊數(shù)學(xué)的思想,可以有模糊聚類的方法。 使用模糊聚類將n個樣品劃分為c類,記為c個類的聚類中心。在模糊聚類中每個樣品不是嚴(yán)格的劃分到某一類,而是按照一定的隸屬度屬于某一類。 設(shè)表示第k個樣品屬于第i類的隸屬度,取值0,1,且。定義目標(biāo)函數(shù) 其中U為隸屬度矩陣,所以該目標(biāo)函數(shù)表示各類中樣品到聚類中心的加權(quán)的距離平方和。模糊C均值聚類法的準(zhǔn)則是求U,V使J(U,V)得到最小值。具體步驟:(1)確定類的個數(shù)c,冪指數(shù)m(>1)和初始隸屬度矩陣。通常的做法是取0,1上的均勻分布隨機數(shù)來確定初始隸屬度矩陣。令l=1表示第一步迭代。(2)通過下式計算第l步的聚類中心
20、:(3)修正隸屬度矩陣,計算目標(biāo)函數(shù)值。其中(4)對于迭代算法,給定隸屬度終止容限(或目標(biāo)函數(shù)終止容限,或給定最大迭代步長)。當(dāng)(或當(dāng)l>1, ,或大于最大步長),停止迭代,否則l=l+1,返回(2)。經(jīng)迭代可以求得最終的隸屬度矩陣U和聚類中心V,使目標(biāo)函數(shù)達(dá)最小。根據(jù)最終的隸屬度矩陣U中元素的取值來確定最終所有樣品的歸屬,當(dāng)時,把歸于第j類。模糊邏輯工具箱中模糊C聚類的函數(shù):fcm center,U,obj_fcn = fcm(data,cluster_n)center,U,obj_fcn =fcm(data,cluster_n,options)說明:cluster_n是類的個數(shù)。Op
21、tions中的第一個參數(shù)是隸屬度的冪指數(shù),默認(rèn)為2;第二個參數(shù)是最大迭代次數(shù),默認(rèn)值為100,第三個參數(shù)是目標(biāo)函數(shù)的終止容限,默認(rèn)值為。第四個參數(shù)用來控制是否顯示中間迭代過程。取值為0,則不顯示。輸出參數(shù)center是cluster_n個類的類中心坐標(biāo)矩陣(cluster_n X p)。U是隸屬度矩陣(cluster_n x n),表示其元素第k個樣品屬于第i類的隸屬度。根據(jù)U中每列元素的取值判定元素的歸屬。obj_fcn是目標(biāo)函數(shù)值向量,其第i個元素表示第i步迭代的目標(biāo)函數(shù)值,它包含的元素總個數(shù)就是實際迭代的總步數(shù)。繼續(xù)前面的例子x=190.33 43.77 9.73 60.54 49.01
22、 9.04;135.2 36.4 10.47 44.16 36.49 3.94;95.21 22.83 9.3 22.44 22.81 2.8;104.78 25.11 6.4 9.89 18.17 3.25;128.41 27.63 8.94 12.58 23.99 3.27;145.68 32.83 17.79 27.29 39.09 3.47;159.37 33.38 18.37 11.81 25.29 5.22;116.22 29.57 13.24 13.76 21.75 6.04;221.11 38.64 12.53 115.65 50.82 5.89;144.98 29.12 11.67 42.6 27.3 5.74;169.92 32.75 12.72 47.12 34.35 5;153.11 23.09 15.62 23.54 18.18 6.39;144.92 21.26 16.96 19.52 21.75 6.7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度智慧城市建設(shè)投資框架協(xié)議
- 二零二五年度家庭保姆服務(wù)合同模板-@-1
- 消防員簽五年合同范本(2篇)
- 活動策劃與推廣合同(2篇)
- 2025版農(nóng)民工遠(yuǎn)程勞務(wù)輸出管理服務(wù)合同3篇
- 2025年度環(huán)保型鎳礦資源供應(yīng)合作協(xié)議2篇
- 二零二五年度獵頭人才輸送質(zhì)量保證協(xié)議2篇
- 二零二五年度綠色環(huán)保配司汽車租賃服務(wù)協(xié)議范本3篇
- 2025至2030年中國耐高溫毛氈?jǐn)?shù)據(jù)監(jiān)測研究報告
- 2024-2025學(xué)年新教材高中數(shù)學(xué) 第4章 概率與統(tǒng)計 4.3 統(tǒng)計模型 4.3.1 第2課時 相關(guān)系數(shù)與非線性回歸說課稿 新人教B版選擇性必修第二冊
- 2025-2030年中國電動高爾夫球車市場運行狀況及未來發(fā)展趨勢分析報告
- 河南省濮陽市2024-2025學(xué)年高一上學(xué)期1月期末考試語文試題(含答案)
- 長沙市2025屆中考生物押題試卷含解析
- 2024年08月北京中信銀行北京分行社會招考(826)筆試歷年參考題庫附帶答案詳解
- 2024年芽苗菜市場調(diào)查報告
- 蘇教版二年級數(shù)學(xué)下冊全冊教學(xué)設(shè)計
- 職業(yè)技術(shù)學(xué)院教學(xué)質(zhì)量監(jiān)控與評估處2025年教學(xué)質(zhì)量監(jiān)控督導(dǎo)工作計劃
- 金字塔原理與結(jié)構(gòu)化思維考核試題及答案
- 廣東省梅州市2023-2024學(xué)年七年級上學(xué)期期末數(shù)學(xué)試題
- 《革蘭陽性球菌》課件
- 基礎(chǔ)護理學(xué)導(dǎo)尿操作
評論
0/150
提交評論