版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
聚類分析
楊威
西安建筑科技大學(xué)聚類分析的案例分析教程“人以類聚,物以群分”。對事物進(jìn)行分類,是人們認(rèn)識事物的出發(fā)點,也是人們認(rèn)識世界的一種重要方法。因此,分類學(xué)已成為人們認(rèn)識世界的一門基礎(chǔ)學(xué)科。
聚類分析又稱群分析,它是研究(樣品或指標(biāo))分類問題的一種多元統(tǒng)計方法,所謂類,通俗地說,就是指相似元素的集合。
本次主要介紹譜系聚類、K均值聚類、模糊C均值聚類和模糊減法聚類及其MATLAB實現(xiàn).聚類分析的案例分析教程1距離聚類
1.1聚類的思想在社會經(jīng)濟(jì)領(lǐng)域中存在著大量分類問題,比如對我國30個省市自治區(qū)獨立核算工業(yè)企業(yè)經(jīng)濟(jì)效益進(jìn)行分析,一般不是逐個省市自治區(qū)去分析,而較好地做法是選取能反映企業(yè)經(jīng)濟(jì)效益的代表性指標(biāo),如:百元固定資產(chǎn)實現(xiàn)利稅、資金利稅率、產(chǎn)值利稅率、百元銷售收入實現(xiàn)利潤、全員勞動生產(chǎn)率等等,根據(jù)這些指標(biāo)對30個省市自治區(qū)進(jìn)行分類,然后根據(jù)分類結(jié)果對企業(yè)經(jīng)濟(jì)效益進(jìn)行綜合評價,就易于得出科學(xué)的分析。聚類分析的案例分析教程由于要考察的物價指數(shù)很多,通常先對這些物價指數(shù)進(jìn)行分類。總之,需要分類的問題很多,因此聚類分析這個有用的數(shù)學(xué)工具越來越受到人們的重視,它在許多領(lǐng)域中都得到了廣泛的應(yīng)用。聚類問題的一般提法是:設(shè)有個樣品的元觀測數(shù)據(jù)組成一個數(shù)據(jù)矩陣聚類分析的案例分析教程其中每一行表示一個樣品,每一列表示一個指標(biāo),表示第個樣品關(guān)于第項指標(biāo)的觀測值,要根據(jù)觀測值矩陣X對樣品或指標(biāo)進(jìn)行分類。分類的思想:在樣品之間定義距離,在指標(biāo)之間定義相似系數(shù).樣品距離表明樣品之間的相似度,指標(biāo)之間的相似系數(shù)刻畫指標(biāo)之間的相似度.
聚類分析的基本思想:將樣品(或變量)按相似度的大小逐一歸類,關(guān)系密切的聚集到較小的一類,關(guān)系疏遠(yuǎn)的聚集到較大的一類,直到所有的樣品(或變量)都聚集完畢。聚類分析的案例分析教程向量的距離
設(shè)有n個樣品的p元觀測數(shù)據(jù)這時,每個樣品可看成n元空間的一個點,也即一個維向量,兩個向量之間的距離記為,滿足如下條件:(1)(非負(fù)性)且當(dāng)且僅當(dāng)(2)(對稱性)(3)(三角不等式)在聚類分析中最常用的是歐氏距離。聚類分析的案例分析教程1.歐氏(Euclidean)距離2.絕對距離3.明可夫斯基(Minkowski)距離4.切貝雪夫(Chebyshev)距離其中m(m>0)為常數(shù)。
聚類分析的案例分析教程5.方差加權(quán)(seuclidean)距離6.馬氏(mahalanobis)距離其中為樣品的協(xié)方差矩陣.其中
聚類分析的案例分析教程在MATLAB中,計算距離的命令是pdist.調(diào)用格式Y(jié)=pdist(X,distance)輸入的X是一個矩陣,行為個體,列為指標(biāo),distance是距離的類型。若缺省distance,則輸出的Y是一個行向量,向量的長度為(N-1)*N/2,其中N是樣本的容量,Y的元素分別為個體(1,2),(1,3),...,(1,N),(2,3),...(2,N),.....(N-1,N)之間的歐氏距離。可選項distance有:‘euclidean’歐氏距離;‘cityblock’絕對距離;‘minkowski’明氏距離(m=2);‘chebychev’切氏距離;‘seuclidean’方差加權(quán)距離;‘mahalanobis’馬氏距離;‘jaccard’Jaccard相關(guān)系數(shù)。聚類分析的案例分析教程省(市)工薪收入(元/人)經(jīng)營凈收入(元/人)財產(chǎn)性收入(元/人)轉(zhuǎn)移性收入(元/人)北京18738.96778.36452.757707.87上海21791.111399.14369.126199.77安徽9302.38959.43293.923603.72陜西8354.63638.7665.332610.61新疆9422.22938.15141.751976.49表省(區(qū)、市)城鎮(zhèn)居民人均家庭收入例1.12008年我國5省、區(qū)、市城鎮(zhèn)居民人均年家庭收入如下表為了研究上述5個省、區(qū)、市的城鎮(zhèn)居民收入差異,需要利用統(tǒng)計資料對其進(jìn)行分類,指標(biāo)變量有4個,計算各省、區(qū)、市之間的前6種距離聚類分析的案例分析教程解:x=[18738.96778.36452.757707.8721791.111399.14369.126199.779302.38959.43293.923603.728354.63638.7665.332610.619422.22938.15141.751976.49];d1=pdist(x);%或者命令d1=pdist(x,'euclidean')此時計算出各行之間的歐氏距離,為了得到距離矩陣,鍵入命令:
D=squareform(d1);%注意此時d1必須是一個行向量,結(jié)果為實對稱矩陣聚類分析的案例分析教程D=1.0e+004*00.34621.02931.15751.09440.346201.27631.39321.30801.02931.276300.14280.16391.15751.39320.142800.12801.09441.30800.16390.12800矩陣D中的第3行第2列為12763,表示上海與山西的歐氏距離為12763,其余類推.聚類分析的案例分析教程若想得到下三角陣,則有命令:S=tril(squareform(d1))S=1.0e+004*000000.346200001.02931.27630001.15751.39320.1428001.09441.30800.16390.12800若想得到上三角矩陣,可用命令S=triu(squareform(d1))聚類分析的案例分析教程歐氏距離與量綱有關(guān),因此,有時需要對數(shù)據(jù)進(jìn)行預(yù)處理,如標(biāo)準(zhǔn)化等,在Matlab中的命令是:zscore(x).
輸入x表示N行p列的原始觀測矩陣,行為個體,列為指標(biāo)。輸出Z為x的標(biāo)準(zhǔn)化矩陣,即Z=(x-ones(N,1)*mean(x))./(ones(N,1)*std(x)),其中mean(x)為行向量,表示各個指標(biāo)的均值估計,std(x)表示指標(biāo)的標(biāo)準(zhǔn)差估計。./表示對應(yīng)元素相除,ones(N,1)表示元素全為1的行向量,向量的長度為N。
Z=(x-ones(5,1)*mean(x))./(ones(5,1)*std(x))聚類分析的案例分析教程d3=pdist(x,'minkowski',3);%計算明氏距離,d3為1行10列的行向量d4=pdist(x,'chebychev')
%計算切氏距離.d5=pdist(x,'seuclidean')
%計算方差加權(quán)距離.d6=pdist(x,'mahalanobis')%計算馬氏距離d2=pdist(x,'cityblock');
%計算絕對距離D2=squareform(d2)D2=1.0e+004*00.52651.38811.60091.55190.526501.56001.80901.72811.38811.560000.24900.19211.60091.80900.249000.20781.55191.72810.19210.20780聚類分析的案例分析教程
聚類分析方法不僅可以對樣品進(jìn)行分類,而且可以對變量進(jìn)行分類,在對變量進(jìn)行分類時,常常采用相似系數(shù)來度量變量之間的相似性。對個指標(biāo)變量進(jìn)行聚類時,用相似系數(shù)來衡量變量之間的相似程度(關(guān)聯(lián)度),若用表示變量之間的相似系數(shù),則應(yīng)滿足:(1)且
(2)當(dāng)且僅當(dāng)
(3)聚類分析的案例分析教程相似系數(shù)中最常用的是相關(guān)系數(shù)與夾角余弦.例1.2.
計算例1.1中各指標(biāo)之間的相關(guān)系數(shù)與夾角余弦解:x=[…];%與例6.1.1數(shù)據(jù)相同R=corrcoef(x);%指標(biāo)之間的相關(guān)系數(shù)R=[1.00000.61830.81380.89310.61831.00000.42870.29270.81380.42871.00000.92350.89310.29270.92351.0000]其中x表示第i行元素,y表示第j行元素。聚類分析的案例分析教程x1=normc(x);%將x的各列化為單位向量J=x1'*x1
%計算夾角余弦J=1.00000.95360.96090.97970.95361.00000.90260.89900.96090.90261.00000.98330.97970.89900.98331.0000聚類分析的案例分析教程3類間距離與遞推公式前面,我們介紹了兩個向量之間的距離,下面我們介紹兩個類別之間的距離:設(shè)表示兩個樣品之間的距離,分別表示兩個類別,各自含有(1)最短距離即用兩類中樣品之間的距離最短者作為兩類間距離.個樣品.聚類分析的案例分析教程(2)最長距離即用兩類中樣品之間的距離最長者作為兩類間距離.(3)類平均距離即用兩類中所有兩兩樣品之間距離的平均作為兩類間距離.聚類分析的案例分析教程(4)重心距離其中分別是兩類重心之間的歐氏距離作為類間距離.一組數(shù)據(jù)的平均數(shù)即為這組數(shù)據(jù)的重心。的重心,這是用聚類分析的案例分析教程(5)離差平方和距離(ward)顯然,離差平方和距離與重心距離的平方成正比.設(shè)有兩類合并成新的一類,包含了個樣品,如何計算與其他類別之間的距離,這就需要建立類間距離的遞推公式.聚類分析的案例分析教程(1)最短距離(2)最長距離(3)類平均距離聚類分析的案例分析教程(4)重心距離(5)離差平方和距離
聚類分析的案例分析教程2譜系聚類與K均值聚類譜系聚類法是目前應(yīng)用較為廣泛的一種聚類法.譜系聚類是根據(jù)生物分類學(xué)的思想對研究對象進(jìn)行分類的方法.在生物分類學(xué)中,分類的單位是:門、綱、目、科、屬、種,其中種是分類的基本單位,分類單位越小,它所包含的生物就越少,生物之間的共同特征就越多.利用這種思想,譜系聚類首先將各樣品自成一類,然后把最相似(距離最近或相似系數(shù)最大)的樣品聚為小類,再將已聚合的小類按各類之間的相似性(用類間距離度量)進(jìn)行再聚合,隨著相似性的減弱,最后將一切子類都聚為一大類,從而得到一個按相似性大小聚結(jié)起來的一個譜系圖.2.1譜系聚類聚類分析的案例分析教程1譜系聚類的步驟(1)
個樣品開始作為個類,
距離或相似系數(shù),得到實對稱矩陣
計算兩兩之間的(2)從
的非主對角線上找最小元素(距離)或最大元素(相似系數(shù)),設(shè)該元素是
則將
聚類分析的案例分析教程合并成一個新類
在
中去掉
所在的兩行、兩列,并加上新類
之間的距離或相似系數(shù),得到
與其余各類階矩陣
(3)從出發(fā)重復(fù)步驟(2)的做法得到,再由出發(fā)重復(fù)上述步驟,直到兩個樣品聚為一個大類為止.
(4)在合并過程中要記下合并樣品的編號及兩類合并時的水平,并繪制聚類譜系圖.聚類分析的案例分析教程例2.1從例1.1算得的樣品間的歐氏距離矩陣出發(fā),用下列方法進(jìn)行譜系聚類.(1)最短距離,(2)最長距離.解:我們用1,2,3,4,5分別表示北京,上海,安徽,陜西和新疆,將歐氏距離矩陣除以,記為聚類分析的案例分析教程(1)最短距離法:將各個樣品看成一類,即,從可以看出各類中距離最短的是,因此將在水平上合成一個,計算與之間的最短距離,得新類聚類分析的案例分析教程將計算結(jié)果作為第一列,從,剩余元素作為其余各列得到,中去掉第4、5行與4、5列聚類分析的案例分析教程從可以看到與的距離最小,因此在的水平上將與合成一類,即,計算與之間的最短距離,得將計算結(jié)果作為第一列,從中劃掉與所在的行與列,剩余元素作為其他列得聚類分析的案例分析教程從可以看出最接近,在的水平上合并成一類,至此只剩下兩類他們之間的距離為:故在此水平上將合成一類,包含了全部的五個樣品.聚類分析的案例分析教程2譜系聚類的MATLAB實現(xiàn)為了方便快捷地實現(xiàn)大樣本的聚類分析,我們將利用MATLAB軟件實現(xiàn)譜系聚類的方法.(1)譜系聚類命令linkage。調(diào)用格式:Z=linkage(Y,method)輸入Y是一個距離矩陣,例如Y是由pdist命令生成的歐氏距離向量。Method是一個可選項,如最長距離,最短距離等。
'single'----最短距離(缺省狀態(tài))
'complete'----最長距離
'average'----類平均距離
'weighted'----加權(quán)平均距離
'centroid'----重心距離
'ward'----離差平方和距離聚類分析的案例分析教程輸出Z是一個矩陣(N-1行,3列),Z的第一列和第二列均為正整數(shù),第3列表示聚類的水平,每一行表示在相同的聚類水平上將個體合并成新的一類,每生成一個新的類,其編號將在現(xiàn)有基礎(chǔ)上增加1。(2)作譜系聚類圖命令dendrogram,其調(diào)用格式
H=dendrogram(z,N)輸入Z是一個(N-1)行3列的矩陣,由linkage命令生成,N是樣本容量。輸出產(chǎn)生一個樹譜系聚類圖,每兩類通過線段連接,高度表示類間的距離。
此命令作出m個樣本的圖形,缺省時默認(rèn)為30。聚類分析的案例分析教程(3)輸出聚類結(jié)果命令cluster,調(diào)用格式
T=cluster(z,k)輸入Z是一個(N-1)行3列的矩陣,由linkage命令生成,N是樣本容量。k是分類數(shù)目.輸出T是一個列向量(N行1列),每一個元素均為正整數(shù),且最大的數(shù)字不超過k,第i行的數(shù)字l表示第i個個體屬于第l類。如果遇到大樣本數(shù)據(jù),為了便于得到每一類樣本的編號,可以利用如下命令:
find(T==l)%找出屬于第l類的樣品編號聚類分析的案例分析教程例2.2利用MATLAB軟件對例6.1.1中的5個省、區(qū)、市進(jìn)行聚類解:
x=[18738.96778.36452.757707.8721791.111399.14369.126199.779302.38959.43293.923603.728354.63638.7665.332610.619422.22938.15141.751976.49];d=pdist(x);%歐氏距離聚類分析的案例分析教程類間距離為最短距離,Matlab中的命令:z1=linkage(d),輸出結(jié)果為:z1=1.0e+004*0.00040.00050.1280%在1280的水平,G4,G5合成一類為G60.00030.00060.1428%在1428的水平,G6,G3合成一類為G70.00010.00020.3462%在3462的水平,G1,G2合成一類為G80.00070.00081.0293%在10293的水平,G7,G8合成一類聚類分析的案例分析教程譜系聚類圖:H=dendrogram(z1)圖5.1最短距離聚類圖聚類分析的案例分析教程(2)當(dāng)類間距離為最長距離時,Matlab中的命令:z2=linkage(d,'complete'),輸出結(jié)果為:z2=1.0e+004*0.00040.00050.1280%在1280的水平,G4,G5合成一類為G6
0.00030.00060.1639%在1639的水平,G6,G3合成一類為G70.00010.00020.3462
%在3462的水平,G1,G2合成一類為G80.00070.00081.3932%在13932的水平,G7,G8合成一類聚類分析的案例分析教程圖5.2最長距離聚類圖譜系聚類圖:H1=dendrogram(z2)聚類分析的案例分析教程(3)當(dāng)類間距離為類平均距離時,Matlab中的命令:z3=linkage(d,'average'),輸出結(jié)果為z3=
1.0e+004*0.00040.00050.1280
%在1280的水平,G4,G5合成一類為G6
0.00030.00060.1533
%在1533的水平,G6,G3合成一類為G7
0.00010.00020.3462
%在3462的水平,G1,G2合成一類為G8
0.00070.00081.2098
%在12098的水平,G7,G8合成一類聚類分析的案例分析教程圖5.3類平均距離聚類圖聚類分析的案例分析教程若我們不知道實際的觀測數(shù)據(jù),但已經(jīng)知道樣品之間的距離,那么如何在MATLAB中實現(xiàn)相應(yīng)的聚類?例2.3歐州各國語言有許多相似之處,有的十分相近,以E,N,Da,Du,G,Fr,S,I,P,H,Fi分別表示英語、挪威語、丹麥語、荷蘭語、德語、法語、西班牙語、意大利語、波蘭語、匈牙利語和荷蘭語等11種語言.人們以任兩種語言對1-10這十個數(shù)字拼寫中第一個字母不相同的個數(shù)定義兩種語言間的‘距離’.這種距離是廣義距離.例如,英語和挪威語只有數(shù)字1和8的第一個字母不同,故這兩種語言間的距離定義為2.這樣得到11種語言間的距離矩陣如下:聚類分析的案例分析教程聚類分析的案例分析教程解:d=[227666679915466678965655689599910897778992151091310941091098];%按列輸入距離矩陣(只輸入下三角陣中的非零元素)z4=linkage(d,'centroid');
%重心距離
H2=dendrogram(z4)%譜系圖
z5=linkage(d,
'ward');
%離差平方和距離
figure(2)H3=dendrogram(z5)%譜系圖圖6.4重心距離的譜系聚類圖圖6.5離差平方和距離的譜系聚類圖聚類分析的案例分析教程例
2.4RAFisher在1936年發(fā)表的Iris數(shù)據(jù)中,研究某植物的萼片長、寬及花瓣長、寬.x1:萼片長,x2:萼片寬,x3:花瓣長,x4:花瓣寬.Iris數(shù)據(jù)保存在MATLAB軟件系統(tǒng)的文件fisheriris.mat中,用meas命名了取自三個總類G1,G2和G3,每一類取50個樣本。試?yán)米V系聚類對Iris數(shù)據(jù)進(jìn)行聚類.解:從MATLAB系統(tǒng)中導(dǎo)入樣本數(shù)據(jù)的命令loadfisheriris。程序如下。loadfisheriris%導(dǎo)入萼片的相關(guān)數(shù)據(jù),d=pdist(meas)
%計算歐氏距離z1=linkage(d)%類間為最短距離T=cluster(z1,3)
%分為3類g1=find(T==1)
%第一類里的樣品編號g2=find(T==2)
%第二類里的樣品編號g3=find(T==3)
%第三類里的樣品編號聚類分析的案例分析教程loadfisheririssubplot(2,3,1)plot(meas(1:50,1),meas(1:50,2),'*',meas(51:100,1),...,meas(51:100,2),'g*',meas(101:150,1),meas(101:150,2),...,'ro'),title('x1-x2')subplot(2,3,2)plot(meas(1:50,1),meas(1:50,3),'*',meas(51:100,1),...,meas(51:100,3),'g*',meas(101:150,1),meas(101:150,3),...,'ro'),title('x1-x3')subplot(2,3,3)plot(meas(1:50,1),meas(1:50,4),'*',meas(51:100,1),...,meas(51:100,4),'g*',meas(101:150,1),meas(101:150,4),...,'ro'),title('x1-x4')subplot(2,3,4)
聚類分析的案例分析教程plot(meas(1:50,2),meas(1:50,3),'*',meas(51:100,2),...,meas(51:100,3),'g*',meas(101:150,2),meas(101:150,3),'ro'),...,title('x2-x3')subplot(2,3,5)plot(meas(1:50,2),meas(1:50,4),'*',meas(51:100,2),...,meas(51:100,4),'g*',meas(101:150,2),meas(101:150,4),'ro'),...,title('x2-x4')subplot(2,3,6)plot(meas(1:50,3),meas(1:50,4),'*',meas(51:100,3),...,meas(51:100,4),'g*',meas(101:150,3),meas(101:150,4),'ro'),...,title('x3-x4')聚類分析的案例分析教程結(jié)果顯示第一類里只有兩個樣品,說明聚類效果不理想,為了提高聚類效果的優(yōu)良性,我們將運用K均值聚類和模糊C均值聚類對其進(jìn)行再討論.圖6.6
Iris數(shù)據(jù)的散點圖(兩個指標(biāo))同理可作兩兩指標(biāo)經(jīng)聚類分類后的數(shù)據(jù)散點圖。從圖形6.6也可看出
聚類效果不理想。聚類分析的案例分析教程2.2K-均值聚類譜系聚類法是先將每個樣品看成一類,通過比較距離的大小逐步擴(kuò)充類,因此,對于給定的數(shù)據(jù),譜系聚類一定能夠?qū)悠泛喜橐活悾诸惖慕Y(jié)果唯一,但是譜系聚類有一個缺點,樣品一旦被分到某一類中就不能改變,且當(dāng)樣本容量較大時,計算量也相應(yīng)地變大.克服此缺點的一個方法就是K均值聚類法,又稱快速聚類法或動態(tài)聚類法.在運用K均值聚類法之前,要根據(jù)實際問題先確定分類數(shù)k,在每一類中選擇有代表性的樣品,這樣的樣品稱為聚點.選擇聚點的方法通常有最小最大原則.聚類分析的案例分析教程若將個樣品分成k類,則先選擇所有樣品中距離為前兩個聚點,即選擇,使得最遠(yuǎn)的兩個樣品然后選擇第3個聚點,使得與前兩個聚點的較小距離中的距離最小者等于所有其余的與最大的,即然后按相同的原則選取,重復(fù)前面的步驟,直至確定k個聚點聚類分析的案例分析教程K均值聚類的步驟樣品之間的距離采用歐氏距離.設(shè)第k個初始聚點的集合是:記聚類分析的案例分析教程于是,將樣品分成不相交的k類,得到一個初始分類(2)從出發(fā),計算新的聚點集合,計算其中是類中的樣品數(shù),得到一個新的集合聚類分析的案例分析教程從開始再進(jìn)行分類,將樣品作新的分類,記得到一個新的分類依次重復(fù)計算下去.聚類分析的案例分析教程(3)重復(fù)上述步驟次得其中是類的重心.
不一定是樣品.當(dāng)逐漸增大時,分類趨于穩(wěn)定.同時可以近似地看作的重心,
聚類分析的案例分析教程即,此時結(jié)束計算.實際計算時,若對某一個m,與相同,則結(jié)束計算.聚類分析的案例分析教程MATLAB軟件中實現(xiàn)K-均值聚類的命令是kmeans,其調(diào)用格式
IDX=kmeans((X,K)功能是將原始數(shù)據(jù)矩陣X聚成K類,使得樣本到類重心距離和最小,使用歐氏平方距離。其中輸入X為原始觀測數(shù)據(jù),行為個體,列為指標(biāo)。輸出IDX為N行1列的列向量,包含每個樣品屬于哪一類的信息,類似于Cluster的輸出結(jié)果。聚類分析的案例分析教程例2.5從12不同地區(qū)測得了某樹種的平均發(fā)芽率與發(fā)芽勢表212個地區(qū)某樹種發(fā)芽情況地區(qū)1234567891011120.7070.6000.6930.7170.6880.5330.8770.5130.8150.6330.7400.7770.3850.4330.5050.3430.6050.3800.7130.3530.6750.4650.5800.723,數(shù)據(jù)如下采用歐氏距離,將這12個地區(qū)以樹種發(fā)芽情況按k均值聚類法聚為2類.聚類分析的案例分析教程解:利用Matlab軟件中的命令:kmeans,可以實現(xiàn)k均值聚類y=[.707.6.693.717.688.533.877.513.815.633.74.777;.385.433.505.343.605.38.713.353.675.465.58.723];x=y';%矩陣x的行為個體,列為指標(biāo)[a,b]=kmeans(x,2)
%分為2類,輸出:a為聚類的結(jié)果,b為聚類重心,每一行表示一個類的重心a=[222212121211]’b=0.77940.65920.62800.4091聚類分析的案例分析教程x1=x(find(a==1),:)%提取第1類里的樣品x2=x(find(a==2),:)%提取第2類里的樣品x1=0.68800.60500.87700.71300.81500.67500.74000.58000.77700.7230聚類分析的案例分析教程x2=0.70700.38500.60000.43300.69300.50500.71700.34300.53300.38000.51300.35300.63300.4650sd1=std(x1),sd2=std(x2)
%分別計算第1類和第2類的標(biāo)準(zhǔn)差sd1=0.07190.0641sd2=0.08310.0603plot(x(a==1,1),x(a==1,2),'r.',x(a==2,1),x(a==2,2),'b.')%作出聚類的散點圖聚類分析的案例分析教程圖6.7分類結(jié)果的散點圖聚類分析的案例分析教程例2.6(續(xù)例6.2.2)利用K均值聚類對5個省、區(qū)、市進(jìn)行聚類分析.解:x=[…]
%輸入數(shù)據(jù),行為個體,列為指標(biāo)[a,b]=kmeans(x,3)
%分為3類a=[1
1
233]’b=1.0e+004*2.02650.10890.04110.69540.93020.09590.02940.36040.88880.07880.01040.2294說明北京和上海為一類,安徽為一類,陜西和新疆為一類.聚類分析的案例分析教程例2.7(續(xù)例6.2.4)利用K均值聚類法對Fisher的Iris
數(shù)據(jù)分為3類.解:loadfisheriris[ab]=kmeans(meas,3)聚類分析的案例分析教程a=1111111111…1111111111…1111111111…1111111111…1111111111…3323333333…3333333333…3333333233…3333333333…3333333333…2322223222…2223322223…2323223322…2223222232…2232223223聚類分析的案例分析教程b=5.00603.42801.46200.24606.85003.07375.74212.07115.90162.74844.39351.4339n1=length(find(a==1))%第1類的樣品數(shù)n2=length(find(a==2))%第2類的樣品數(shù)n3=length(find(a==3))%第3類的樣品數(shù)n1=62,n2=38,n3=50由此可見,K均值聚類的效果比譜系聚類效果好,但與實際的分類情況相比,K均值聚類的結(jié)果依然不甚理想.聚類分析的案例分析教程模糊均值聚類本小節(jié)我們將簡述兩種常用的模糊聚類方法:模糊C均值聚類和模糊減法聚類.模糊聚類是用模糊理論對重要數(shù)據(jù)分析和建模的方法,建立了樣本類屬的不確定性描述,能比較客觀地反映現(xiàn)實世界,它已經(jīng)有效地應(yīng)用在大規(guī)模數(shù)據(jù)分析、數(shù)據(jù)挖掘、矢量量化、圖像分割、模式識別等領(lǐng)域,具有重要的理論與實際應(yīng)用價值,隨著應(yīng)用的深入發(fā)展,模糊聚類算法的研究不斷豐富。模糊c-均值聚類算法fuzzyc-meansalgorithm(FCMA)或稱(FCM)。模糊C-均值(FCM)算法通過優(yōu)化目標(biāo)函數(shù)得到每個樣本點對所有類中心的隸屬度,從而決定樣本點的類屬以達(dá)到自動對樣本數(shù)據(jù)進(jìn)行分類的目的。
聚類分析的案例分析教程設(shè)為樣品集,為樣本容量.將分成類等價于將集合表示成且設(shè)是第個樣品屬于第個中心的隸屬度,則聚類分析的案例分析教程是一個的矩陣,稱為隸屬度矩陣或特征矩陣,其中每一列的元素只有一個1,其余全部為0.硬劃分的一個延拓是將隸屬度矩陣定義為:此時的聚類方法稱為模糊C均值聚類.聚類分析的案例分析教程模糊C均值聚類通過求解如下的優(yōu)化問題:其中是聚類中心,是加權(quán)指
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房地產(chǎn)轉(zhuǎn)讓合同模板7篇
- 銷售業(yè)務(wù)員年終總結(jié)5篇
- 領(lǐng)導(dǎo)三八婦女節(jié)講話5篇
- 高考百日誓師大會口號
- iDNA揭秘生命源代碼-益基首頁
- 山林地承包合同最簡單三個步驟
- 領(lǐng)導(dǎo)婚禮上致辭范文10篇
- 小學(xué)老師年度教學(xué)計劃5篇范文
- 互聯(lián)網(wǎng)企業(yè)股權(quán)激勵計劃
- 軟件開發(fā)班組實名管理辦法
- 初中語文人教七年級上冊要拿我當(dāng)一挺機(jī)關(guān)槍使用
- 北京頌歌原版五線譜鋼琴譜正譜樂譜
- 病史采集和臨床檢查方法
- PSUR模板僅供參考
- 火力發(fā)電企業(yè)作業(yè)活動風(fēng)險分級管控清單(參考)
- 民法典合同編之保證合同實務(wù)解讀PPT
- 全國第四輪學(xué)科評估PPT幻燈片課件(PPT 24頁)
- 大氣污染控制工程課程設(shè)計-某廠酸洗硫酸煙霧治理設(shè)施設(shè)計
- 名牌包包網(wǎng)紅主播電商直播帶貨話術(shù)腳本
- 高考語文作文素材人物速遞——蘇炳添課件18張
- 蛋雞養(yǎng)殖場管理制度管理辦法
評論
0/150
提交評論