版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、Matlab提供了兩種方法進行聚類分析。一種是利用 clusterdata函數(shù)對樣本數(shù)據(jù)進行一次聚類,其缺點為可供用戶選擇的面較窄,不能更改距離的計算方法;另一種是分步聚類:(1)找到數(shù)據(jù)集合中變量兩兩之間的相似性和非相似性,用pdist函數(shù)計算變量之間的距離;(2)用 linkage函數(shù)定義變量之間的連接;(3)用 cophenetic函數(shù)評價聚類信息;(4)用cluster函數(shù)創(chuàng)建聚類。1Matlab中相關函數(shù)介紹1.1 pdist函數(shù)調(diào)用格式:Y=pdist(X,metric)說明:用 metric指定的方法計算 X 數(shù)據(jù)矩陣中對象之間的距離。X:一個mn的矩陣,它是由m個對象組成的數(shù)據(jù)
2、集,每個對象的大小為n。metric取值如下:euclidean:歐氏距離(默認);seuclidean:標準化歐氏距離;mahalanobis:馬氏距離;cityblock:布洛克距離;minkowski:明可夫斯基距離;cosine:correlation: hamming:jaccard: chebychev:Chebychev距離。1.2 squareform函數(shù) 調(diào)用格式:Z=squareform(Y,.) 說明: 強制將距離矩陣從上三角形式轉化為方陣形式,或從方陣形式轉化為上三角形式。1.3 linkage函數(shù)調(diào)用格式:Z=linkage(Y,method)說 明:用method參
3、數(shù)指定的算法計算系統(tǒng)聚類樹。 Y:pdist函數(shù)返回的距離向量; method:可取值如下: single:最短距離法(默認); complete:最長距離法;average:未加權平均距離法; weighted: 加權平均法;centroid:質(zhì)心距離法; median:加權質(zhì)心距離法;ward:內(nèi)平方距離法(最小方差算法)返回:Z為一個包含聚類樹信息的(m-1)3的矩陣。1.4 dendrogram函數(shù)調(diào)用格式:H,T,=dendrogram(Z,p,)說明:生成只有頂部p個節(jié)點的冰柱圖(譜系圖)。1.5 cophenet函數(shù)調(diào)用格式:c=cophenetic(Z,Y)說明:利用pdist
4、函數(shù)生成的Y和linkage函數(shù)生成的Z計算cophenet相關系數(shù)。1.6 cluster 函數(shù)調(diào)用格式:T=cluster(Z,)說明:根據(jù)linkage函數(shù)的輸出Z 創(chuàng)建分類。1.7 clusterdata函數(shù)調(diào)用格式:T=clusterdata(X,)說明:根據(jù)數(shù)據(jù)創(chuàng)建分類。T=clusterdata(X,cutoff)與下面的一組命令等價:Y=pdist(X,euclid);Z=linkage(Y,single);T=cluster(Z,cutoff);2. Matlab程序2.1 一次聚類法X=11978 12.5 93.5 31908;57500 67.6 238.0 15900
5、;T=clusterdata(X,0.9)2.2 分步聚類Step1 尋找變量之間的相似性用pdist函數(shù)計算相似矩陣,有多種方法可以計算距離,進行計算之前最好先將數(shù)據(jù)用zscore函數(shù)進行標準化。X2=zscore(X); %標準化數(shù)據(jù)Y2=pdist(X2); %計算距離Step2 定義變量之間的連接Z2=linkage(Y2);Step3 評價聚類信息 C2=cophenet(Z2,Y2); /0.94698Step4 創(chuàng)建聚類,并作出譜系圖 T=cluster(Z2,6); H=dendrogram(Z2);分類結果:加拿大,中國,美國,澳大利亞,日本,印尼,巴西,前蘇聯(lián)用MATLAB
6、做聚類分析內(nèi)容 展示如何使用MATLAB進行聚類分析 生成隨機二維分布圖形,三個中心 K均值聚類 分層聚類 重新調(diào)用K均值法 將分類的結果展示出來 運用高斯混合分布模型進行聚類分析 通過AIC準則尋找最優(yōu)的分類數(shù) 展示如何使用MATLAB進行聚類分析分別運用分層聚類、K均值聚類以及高斯混合模型來進行分析,然后比較三者的結果生成隨機二維分布圖形,三個中心% 使用高斯分布(正態(tài)分布)% 隨機生成3個中心以及標準差s = rng(5,v5normal);mu = round(rand(3,2)-0.5)*19)+1;sigma = round(rand(3,2)*40)/10+1;X = mvnrn
7、d(mu(1,:),sigma(1,:),200); . mvnrnd(mu(2,:),sigma(2,:),300); . mvnrnd(mu(3,:),sigma(3,:),400);% 作圖P1 = figure;clf;scatter(X(:,1),X(:,2),10,ro);title(研究樣本散點分布圖) K均值聚類% 距離用傳統(tǒng)歐式距離,分成兩類cidx2,cmeans2,sumd2,D2 = kmeans(X,2,dist,sqEuclidean);P2 = figure;clf;silh2,h2 = silhouette(X,cidx2,sqeuclidean);從輪廓圖上面
8、看,第二類結果比較好,但是第一類有部分數(shù)據(jù)表現(xiàn)不佳。有相當部分的點落在0.8以下。分層聚類eucD = pdist(X,euclidean);clustTreeEuc = linkage(eucD,average);cophenet(clustTreeEuc,eucD);P3 = figure;clf;h,nodes = dendrogram(clustTreeEuc,20);set(gca,TickDir,out,TickLength,.002 0,XTickLabel,);可以選擇dendrogram顯示的結點數(shù)目,這里選擇20 。結果顯示可能可以分成三類重新調(diào)用K均值法改為分成三類cid
9、x3,cmeans3,sumd3,D3 = kmeans(X,3,dist,sqEuclidean);P4 = figure;clf;silh3,h3 = silhouette(X,cidx3,sqeuclidean);圖上看,比前面的結果略有改善。 將分類的結果展示出來P5 = figure;clfptsymb = bo,ro,go,mo,c+;MarkFace = 0 0 1,.8 0 0,0 .5 0;hold onfor i =1:3 clust = find(cidx3 = i); plot(X(clust,1),X(clust,2),ptsymbi,MarkerSize,3,Mar
10、kerFace,MarkFacei,MarkerEdgeColor,black); plot(cmeans3(i,1),cmeans3(i,2),ptsymbi,MarkerSize,10,MarkerFace,MarkFacei);endhold off運用高斯混合分布模型進行聚類分析分別用分布圖、熱能圖和概率圖展示結果 等高線% 等高線options = statset(Display,off);gm = gmdistribution.fit(X,3,Options,options);P6 = figure;clfscatter(X(:,1),X(:,2),10,ro);hold onez
11、contour(x,y) pdf(gm,x,y),-15 15,-15 10);hold offP7 = figure;clfscatter(X(:,1),X(:,2),10,ro);hold onezsurf(x,y) pdf(gm,x,y),-15 15,-15 10);hold offview(33,24)熱能圖cluster1 = (cidx3 = 1);cluster3 = (cidx3 = 2);% 通過觀察,K均值方法的第二類是gm的第三類cluster2 = (cidx3 = 3);% 計算分類概率P = posterior(gm,X);P8 = figure;clfplot3
12、(X(cluster1,1),X(cluster1,2),P(cluster1,1),r.)grid on;hold onplot3(X(cluster2,1),X(cluster2,2),P(cluster2,2),bo)plot3(X(cluster3,1),X(cluster3,2),P(cluster3,3),g*)legend(第 1 類,第 2 類,第 3 類,Location,NW)clrmap = jet(80); colormap(clrmap(9:72,:)ylabel(colorbar,Component 1 Posterior Probability)view(-45,
13、20);% 第三類點部分概率值較低,可能需要其他數(shù)據(jù)來進行分析。% 概率圖P9 = figure;clf,order = sort(P(:,1);plot(1:size(X,1),P(order,1),r-,1:size(X,1),P(order,2),b-,1:size(X,1),P(order,3),y-);legend(Cluster 1 Score Cluster 2 Score Cluster 3 Score,location,NW);ylabel(Cluster Membership Score);xlabel(Point Ranking); 通過AIC準則尋找最優(yōu)的分類數(shù)高斯混合模型法的最大好處是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《延安大學研究生》課件
- 幼兒園周四營養(yǎng)食譜
- 《爆管應急處理預案》課件
- 《汽車回收再生服務》課件
- 教育行業(yè)前臺服務總結
- 醫(yī)療行業(yè)前臺工作體會
- 財務工作成長心得
- 康復閱讀護士的工作總結
- 客戶信用評估總結
- 《淺談酒店市場營銷》課件
- 文創(chuàng)產(chǎn)品可行性報告
- 江蘇省徐州市2023-2024學年八年級上學期期末抽測道德與法治試題
- 8.1《荷花淀》同步練習()
- 浙江省杭州市2023-2024學年四年級上學期科學高頻易錯期末考前卷(教科版)
- 汽車產(chǎn)量統(tǒng)計研究報告
- 甲烷事故應急預案
- 醫(yī)藥倉儲部人員崗位職責及工作內(nèi)容培訓課件
- 三明醫(yī)改調(diào)研社會實踐報告
- 人員密集場所安全常識
- 泵設備故障預警與診斷技術
- 臺球廳打架應急預案
評論
0/150
提交評論