版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
聚類分析
“人以類聚,物以群分”。對事物進行分類,是人們認識事物的出發(fā)點,也是人們認識世界的一種重要方法。因此,分類學已成為人們認識世界的一門基礎(chǔ)學科。
聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種多元統(tǒng)計方法,所謂類,通俗地說,就是指相似元素的集合。
本次主要介紹譜系聚類、K均值聚類、模糊C均值聚類和模糊減法聚類及其MATLAB實現(xiàn).1距離聚類
1.1聚類的思想在社會經(jīng)濟領(lǐng)域中存在著大量分類問題,比如對我國30個省市自治區(qū)獨立核算工業(yè)企業(yè)經(jīng)濟效益進行分析,一般不是逐個省市自治區(qū)去分析,而較好地做法是選取能反映企業(yè)經(jīng)濟效益的代表性指標,如:百元固定資產(chǎn)實現(xiàn)利稅、資金利稅率、產(chǎn)值利稅率、百元銷售收入實現(xiàn)利潤、全員勞動生產(chǎn)率等等,根據(jù)這些指標對30個省市自治區(qū)進行分類,然后根據(jù)分類結(jié)果對企業(yè)經(jīng)濟效益進行綜合評價,就易于得出科學的分析。由于要考察的物價指數(shù)很多,通常先對這些物價指數(shù)進行分類??傊枰诸惖膯栴}很多,因此聚類分析這個有用的數(shù)學工具越來越受到人們的重視,它在許多領(lǐng)域中都得到了廣泛的應(yīng)用。聚類問題的一般提法是:設(shè)有個樣品的元觀測數(shù)據(jù)組成一個數(shù)據(jù)矩陣其中每一行表示一個樣品,每一列表示一個指標,表示第個樣品最新第項指標的觀測值,要根據(jù)觀測值矩陣X對樣品或指標進行分類。分類的思想:在樣品之間定義距離,在指標之間定義相似系數(shù).樣品距離表明樣品之間的相似度,指標之間的相似系數(shù)刻畫指標之間的相似度.
聚類分析的基本思想:將樣品(或變量)按相似度的大小逐一歸類,關(guān)系密切的聚集到較小的一類,關(guān)系疏遠的聚集到較大的一類,直到所有的樣品(或變量)都聚集完畢。向量的距離
設(shè)有n個樣品的p元觀測數(shù)據(jù)這時,每個樣品可看成n元空間的一個點,也即一個維向量,兩個向量之間的距離記為,滿足如下條件:(1)(非負性)且當且僅當(2)(對稱性)(3)(三角不等式)在聚類分析中最常用的是歐氏距離。1.歐氏(Euclidean)距離2.絕對距離3.明可夫斯基(Minkowski)距離4.切貝雪夫(Chebyshev)距離其中m(m>0)為常數(shù)。
5.方差加權(quán)(seuclidean)距離6.馬氏(mahalanobis)距離其中為樣品的協(xié)方差矩陣.其中
在MATLAB中,計算距離的命令是pdist.調(diào)用格式Y(jié)=pdist(X,distance)輸入的X是一個矩陣,行為個體,列為指標,distance是距離的類型。若缺省distance,則輸出的Y是一個行向量,向量的長度為(N-1)*N/2,其中N是樣本的容量,Y的元素分別為個體(1,2),(1,3),...,(1,N),(2,3),...(2,N),.....(N-1,N)之間的歐氏距離??蛇x項distance有:‘euclidean’歐氏距離;‘cityblock’絕對距離;‘minkowski’明氏距離(m=2);‘chebychev’切氏距離;‘seuclidean’方差加權(quán)距離;‘mahalanobis’馬氏距離;‘jaccard’Jaccard相關(guān)系數(shù)。?。ㄊ校┕ば绞杖?元/人)經(jīng)營凈收入(元/人)財產(chǎn)性收入(元/人)轉(zhuǎn)移性收入(元/人)北京18738.96778.36452.757707.87上海21791.111399.14369.126199.77安徽9302.38959.43293.923603.72陜西8354.63638.7665.332610.61新疆9422.22938.15141.751976.49表省(區(qū)、市)城鎮(zhèn)居民人均家庭收入例1.12021年我國5省、區(qū)、市城鎮(zhèn)居民人均年家庭收入如下表為了研究上述5個省、區(qū)、市的城鎮(zhèn)居民收入差異,需要利用統(tǒng)計資料對其進行分類,指標變量有4個,計算各省、區(qū)、市之間的前6種距離9、人的價值,在招收誘惑的一瞬間被決定。2023/2/32023/2/3Friday,February3,202310、低頭要有勇氣,抬頭要有低氣。2023/2/32023/2/32023/2/32/3/20234:39:03PM11、人總是珍惜為得到。2023/2/32023/2/32023/2/3Feb-2303-Feb-2312、人亂于心,不寬余請。2023/2/32023/2/32023/2/3Friday,February3,202313、生氣是拿別人做錯的事來懲罰自己。2023/2/32023/2/32023/2/32023/2/32/3/202314、抱最大的希望,作最大的努力。03二月20232023/2/32023/2/32023/2/315、一個人炫耀什么,說明他內(nèi)心缺少什么。。二月232023/2/32023/2/32023/2/32/3/202316、業(yè)余生活要有意義,不要越軌。2023/2/32023/2/303February202317、一個人即使已登上頂峰,也仍要自強不息。2023/2/32023/2/32023/2/32023/2/3解:x=[18738.96778.36452.757707.8721791.111399.14369.126199.779302.38959.43293.923603.728354.63638.7665.332610.619422.22938.15141.751976.49];d1=pdist(x);%或者命令d1=pdist(x,'euclidean')此時計算出各行之間的歐氏距離,為了得到距離矩陣,鍵入命令:
D=squareform(d1);%注意此時d1必須是一個行向量,結(jié)果為實對稱矩陣9、人的價值,在招收誘惑的一瞬間被決定。2023/2/32023/2/3Friday,February3,202310、低頭要有勇氣,抬頭要有低氣。2023/2/32023/2/32023/2/32/3/20234:39:03PM11、人總是珍惜為得到。2023/2/32023/2/32023/2/3Feb-2303-Feb-2312、人亂于心,不寬余請。2023/2/32023/2/32023/2/3Friday,February3,202313、生氣是拿別人做錯的事來懲罰自己。2023/2/32023/2/32023/2/32023/2/32/3/202314、抱最大的希望,作最大的努力。03二月20232023/2/32023/2/32023/2/315、一個人炫耀什么,說明他內(nèi)心缺少什么。。二月232023/2/32023/2/32023/2/32/3/202316、業(yè)余生活要有意義,不要越軌。2023/2/32023/2/303February202317、一個人即使已登上頂峰,也仍要自強不息。2023/2/32023/2/32023/2/32023/2/3D=1.0e+004*00.34621.02931.15751.09440.346201.27631.39321.30801.02931.276300.14280.16391.15751.39320.142800.12801.09441.30800.16390.12800矩陣D中的第3行第2列為12763,表示上海與山西的歐氏距離為12763,其余類推.若想得到下三角陣,則有命令:S=tril(squareform(d1))S=1.0e+004*000000.346200001.02931.27630001.15751.39320.1428001.09441.30800.16390.12800若想得到上三角矩陣,可用命令S=triu(squareform(d1))歐氏距離與量綱有關(guān),因此,有時需要對數(shù)據(jù)進行預(yù)處理,如標準化等,在Matlab中的命令是:zscore(x).
輸入x表示N行p列的原始觀測矩陣,行為個體,列為指標。輸出Z為x的標準化矩陣,即Z=(x-ones(N,1)*mean(x))./(ones(N,1)*std(x)),其中mean(x)為行向量,表示各個指標的均值估計,std(x)表示指標的標準差估計。./表示對應(yīng)元素相除,ones(N,1)表示元素全為1的行向量,向量的長度為N。
Z=(x-ones(5,1)*mean(x))./(ones(5,1)*std(x))d3=pdist(x,'minkowski',3);%計算明氏距離,d3為1行10列的行向量d4=pdist(x,'chebychev')
%計算切氏距離.d5=pdist(x,'seuclidean')
%計算方差加權(quán)距離.d6=pdist(x,'mahalanobis')%計算馬氏距離d2=pdist(x,'cityblock');
%計算絕對距離D2=squareform(d2)D2=1.0e+004*00.52651.38811.60091.55190.526501.56001.80901.72811.38811.560000.24900.19211.60091.80900.249000.20781.55191.72810.19210.20780
聚類分析方法不僅可以對樣品進行分類,而且可以對變量進行分類,在對變量進行分類時,常常采用相似系數(shù)來度量變量之間的相似性。對個指標變量進行聚類時,用相似系數(shù)來衡量變量之間的相似程度(關(guān)聯(lián)度),若用表示變量之間的相似系數(shù),則應(yīng)滿足:(1)且
(2)當且僅當
(3)相似系數(shù)中最常用的是相關(guān)系數(shù)與夾角余弦.例1.2.
計算例1.1中各指標之間的相關(guān)系數(shù)與夾角余弦解:x=[…];%與例6.1.1數(shù)據(jù)相同R=corrcoef(x);%指標之間的相關(guān)系數(shù)R=[1.00000.61830.81380.89310.61831.00000.42870.29270.81380.42871.00000.92350.89310.29270.92351.0000]其中x表示第i行元素,y表示第j行元素。x1=normc(x);%將x的各列化為單位向量J=x1'*x1
%計算夾角余弦J=1.00000.95360.96090.97970.95361.00000.90260.89900.96090.90261.00000.98330.97970.89900.98331.00003類間距離與遞推公式前面,我們介紹了兩個向量之間的距離,下面我們介紹兩個類別之間的距離:設(shè)表示兩個樣品之間的距離,分別表示兩個類別,各自含有(1)最短距離即用兩類中樣品之間的距離最短者作為兩類間距離.個樣品.(2)最長距離即用兩類中樣品之間的距離最長者作為兩類間距離.(3)類平均距離即用兩類中所有兩兩樣品之間距離的平均作為兩類間距離.(4)重心距離其中分別是兩類重心之間的歐氏距離作為類間距離.一組數(shù)據(jù)的平均數(shù)即為這組數(shù)據(jù)的重心。的重心,這是用(5)離差平方和距離(ward)顯然,離差平方和距離與重心距離的平方成正比.設(shè)有兩類合并成新的一類,包含了個樣品,如何計算與其他類別之間的距離,這就需要建立類間距離的遞推公式.(1)最短距離(2)最長距離(3)類平均距離(4)重心距離(5)離差平方和距離
2譜系聚類與K均值聚類譜系聚類法是目前應(yīng)用較為廣泛的一種聚類法.譜系聚類是根據(jù)生物分類學的思想對研究對象進行分類的方法.在生物分類學中,分類的單位是:門、綱、目、科、屬、種,其中種是分類的基本單位,分類單位越小,它所包含的生物就越少,生物之間的共同特征就越多.利用這種思想,譜系聚類首先將各樣品自成一類,然后把最相似(距離最近或相似系數(shù)最大)的樣品聚為小類,再將已聚合的小類按各類之間的相似性(用類間距離度量)進行再聚合,隨著相似性的減弱,最后將一切子類都聚為一大類,從而得到一個按相似性大小聚結(jié)起來的一個譜系圖.2.1譜系聚類1譜系聚類的步驟(1)
個樣品開始作為個類,
距離或相似系數(shù),得到實對稱矩陣
計算兩兩之間的(2)從
的非主對角線上找最小元素(距離)或最大元素(相似系數(shù)),設(shè)該元素是
則將
合并成一個新類
在
中去掉
所在的兩行、兩列,并加上新類
之間的距離或相似系數(shù),得到
與其余各類階矩陣
(3)從出發(fā)重復步驟(2)的做法得到,再由出發(fā)重復上述步驟,直到兩個樣品聚為一個大類為止.
(4)在合并過程中要記下合并樣品的編號及兩類合并時的水平,并繪制聚類譜系圖.例2.1從例1.1算得的樣品間的歐氏距離矩陣出發(fā),用下列方法進行譜系聚類.(1)最短距離,(2)最長距離.解:我們用1,2,3,4,5分別表示北京,上海,安徽,陜西和新疆,將歐氏距離矩陣除以,記為(1)最短距離法:將各個樣品看成一類,即,從可以看出各類中距離最短的是,因此將在水平上合成一個,計算與之間的最短距離,得新類將計算結(jié)果作為第一列,從,剩余元素作為其余各列得到,中去掉第4、5行與4、5列從可以看到與的距離最小,因此在的水平上將與合成一類,即,計算與之間的最短距離,得將計算結(jié)果作為第一列,從中劃掉與所在的行與列,剩余元素作為其他列得從可以看出最接近,在的水平上合并成一類,至此只剩下兩類他們之間的距離為:故在此水平上將合成一類,包含了全部的五個樣品.2譜系聚類的MATLAB實現(xiàn)為了方便快捷地實現(xiàn)大樣本的聚類分析,我們將利用MATLAB軟件實現(xiàn)譜系聚類的方法.(1)譜系聚類命令linkage。調(diào)用格式:Z=linkage(Y,method)輸入Y是一個距離矩陣,例如Y是由pdist命令生成的歐氏距離向量。Method是一個可選項,如最長距離,最短距離等。
'single'----最短距離(缺省狀態(tài))
'complete'----最長距離
'average'----類平均距離
'weighted'----加權(quán)平均距離
'centroid'----重心距離
'ward'----離差平方和距離輸出Z是一個矩陣(N-1行,3列),Z的第一列和第二列均為正整數(shù),第3列表示聚類的水平,每一行表示在相同的聚類水平上將個體合并成新的一類,每生成一個新的類,其編號將在現(xiàn)有基礎(chǔ)上增加1。(2)作譜系聚類圖命令dendrogram,其調(diào)用格式
H=dendrogram(z,N)輸入Z是一個(N-1)行3列的矩陣,由linkage命令生成,N是樣本容量。輸出產(chǎn)生一個樹譜系聚類圖,每兩類通過線段連接,高度表示類間的距離。
此命令作出m個樣本的圖形,缺省時默認為30。(3)輸出聚類結(jié)果命令cluster,調(diào)用格式
T=cluster(z,k)輸入Z是一個(N-1)行3列的矩陣,由linkage命令生成,N是樣本容量。k是分類數(shù)目.輸出T是一個列向量(N行1列),每一個元素均為正整數(shù),且最大的數(shù)字不超過k,第i行的數(shù)字l表示第i個個體屬于第l類。如果遇到大樣本數(shù)據(jù),為了便于得到每一類樣本的編號,可以利用如下命令:
find(T==l)%找出屬于第l類的樣品編號例2.2利用MATLAB軟件對例6.1.1中的5個省、區(qū)、市進行聚類解:
x=[18738.96778.36452.757707.8721791.111399.14369.126199.779302.38959.43293.923603.728354.63638.7665.332610.619422.22938.15141.751976.49];d=pdist(x);%歐氏距離類間距離為最短距離,Matlab中的命令:z1=linkage(d),輸出結(jié)果為:z1=1.0e+004*0.00040.00050.1280%在1280的水平,G4,G5合成一類為G60.00030.00060.1428%在1428的水平,G6,G3合成一類為G70.00010.00020.3462%在3462的水平,G1,G2合成一類為G80.00070.00081.0293%在10293的水平,G7,G8合成一類譜系聚類圖:H=dendrogram(z1)圖5.1最短距離聚類圖(2)當類間距離為最長距離時,Matlab中的命令:z2=linkage(d,'complete'),輸出結(jié)果為:z2=1.0e+004*0.00040.00050.1280%在1280的水平,G4,G5合成一類為G6
0.00030.00060.1639%在1639的水平,G6,G3合成一類為G70.00010.00020.3462
%在3462的水平,G1,G2合成一類為G80.00070.00081.3932%在13932的水平,G7,G8合成一類圖5.2最長距離聚類圖譜系聚類圖:H1=dendrogram(z2)(3)當類間距離為類平均距離時,Matlab中的命令:z3=linkage(d,'average'),輸出結(jié)果為z3=
1.0e+004*0.00040.00050.1280
%在1280的水平,G4,G5合成一類為G6
0.00030.00060.1533
%在1533的水平,G6,G3合成一類為G7
0.00010.00020.3462
%在3462的水平,G1,G2合成一類為G8
0.00070.00081.2098
%在12098的水平,G7,G8合成一類圖5.3類平均距離聚類圖若我們不知道實際的觀測數(shù)據(jù),但已經(jīng)知道樣品之間的距離,那么如何在MATLAB中實現(xiàn)相應(yīng)的聚類?例2.3歐州各國語言有許多相似之處,有的十分相近,以E,N,Da,Du,G,Fr,S,I,P,H,Fi分別表示英語、挪威語、丹麥語、荷蘭語、德語、法語、西班牙語、意大利語、波蘭語、匈牙利語和荷蘭語等11種語言.人們以任兩種語言對1-10這十個數(shù)字拼寫中第一個字母不相同的個數(shù)定義兩種語言間的‘距離’.這種距離是廣義距離.例如,英語和挪威語只有數(shù)字1和8的第一個字母不同,故這兩種語言間的距離定義為2.這樣得到11種語言間的距離矩陣如下:解:d=[227666679915466678965655689599910897778992151091310941091098];%按列輸入距離矩陣(只輸入下三角陣中的非零元素)z4=linkage(d,'centroid');
%重心距離
H2=dendrogram(z4)%譜系圖
z5=linkage(d,
'ward');
%離差平方和距離
figure(2)H3=dendrogram(z5)%譜系圖圖6.4重心距離的譜系聚類圖圖6.5離差平方和距離的譜系聚類圖例
2.4RAFisher在1936年發(fā)表的Iris數(shù)據(jù)中,研究某植物的萼片長、寬及花瓣長、寬.x1:萼片長,x2:萼片寬,x3:花瓣長,x4:花瓣寬.Iris數(shù)據(jù)保存在MATLAB軟件系統(tǒng)的文件fisheriris.mat中,用meas命名了取自三個總類G1,G2和G3,每一類取50個樣本。試利用譜系聚類對Iris數(shù)據(jù)進行聚類.解:從MATLAB系統(tǒng)中導入樣本數(shù)據(jù)的命令loadfisheriris。程序如下。loadfisheriris%導入萼片的相關(guān)數(shù)據(jù),d=pdist(meas)
%計算歐氏距離z1=linkage(d)%類間為最短距離T=cluster(z1,3)
%分為3類g1=find(T==1)
%第一類里的樣品編號g2=find(T==2)
%第二類里的樣品編號g3=find(T==3)
%第三類里的樣品編號loadfisheririssubplot(2,3,1)plot(meas(1:50,1),meas(1:50,2),'*',meas(51:100,1),...,meas(51:100,2),'g*',meas(101:150,1),meas(101:150,2),...,'ro'),title('x1-x2')subplot(2,3,2)plot(meas(1:50,1),meas(1:50,3),'*',meas(51:100,1),...,meas(51:100,3),'g*',meas(101:150,1),meas(101:150,3),...,'ro'),title('x1-x3')subplot(2,3,3)plot(meas(1:50,1),meas(1:50,4),'*',meas(51:100,1),...,meas(51:100,4),'g*',meas(101:150,1),meas(101:150,4),...,'ro'),title('x1-x4')subplot(2,3,4)
plot(meas(1:50,2),meas(1:50,3),'*',meas(51:100,2),...,meas(51:100,3),'g*',meas(101:150,2),meas(101:150,3),'ro'),...,title('x2-x3')subplot(2,3,5)plot(meas(1:50,2),meas(1:50,4),'*',meas(51:100,2),...,meas(51:100,4),'g*',meas(101:150,2),meas(101:150,4),'ro'),...,title('x2-x4')subplot(2,3,6)plot(meas(1:50,3),meas(1:50,4),'*',meas(51:100,3),...,meas(51:100,4),'g*',meas(101:150,3),meas(101:150,4),'ro'),...,title('x3-x4')結(jié)果顯示第一類里只有兩個樣品,說明聚類效果不理想,為了提高聚類效果的優(yōu)良性,我們將運用K均值聚類和模糊C均值聚類對其進行再討論.圖6.6
Iris數(shù)據(jù)的散點圖(兩個指標)同理可作兩兩指標經(jīng)聚類分類后的數(shù)據(jù)散點圖。從圖形6.6也可看出
聚類效果不理想。2.2K-均值聚類譜系聚類法是先將每個樣品看成一類,通過比較距離的大小逐步擴充類,因此,對于給定的數(shù)據(jù),譜系聚類一定能夠?qū)悠泛喜橐活?,分類的結(jié)果唯一,但是譜系聚類有一個缺點,樣品一旦被分到某一類中就不能改變,且當樣本容量較大時,計算量也相應(yīng)地變大.克服此缺點的一個方法就是K均值聚類法,又稱快速聚類法或動態(tài)聚類法.在運用K均值聚類法之前,要根據(jù)實際問題先確定分類數(shù)k,在每一類中選擇有代表性的樣品,這樣的樣品稱為聚點.選擇聚點的方法通常有最小最大原則.若將個樣品分成k類,則先選擇所有樣品中距離為前兩個聚點,即選擇,使得最遠的兩個樣品然后選擇第3個聚點,使得與前兩個聚點的較小距離中的距離最小者等于所有其余的與最大的,即然后按相同的原則選取,重復前面的步驟,直至確定k個聚點K均值聚類的步驟樣品之間的距離采用歐氏距離.設(shè)第k個初始聚點的集合是:記于是,將樣品分成不相交的k類,得到一個初始分類(2)從出發(fā),計算新的聚點集合,計算其中是類中的樣品數(shù),得到一個新的集合從開始再進行分類,將樣品作新的分類,記得到一個新的分類依次重復計算下去.(3)重復上述步驟次得其中是類的重心.
不一定是樣品.當逐漸增大時,分類趨于穩(wěn)定.同時可以近似地看作的重心,
即,此時結(jié)束計算.實際計算時,若對某一個m,與相同,則結(jié)束計算.MATLAB軟件中實現(xiàn)K-均值聚類的命令是kmeans,其調(diào)用格式
IDX=kmeans((X,K)功能是將原始數(shù)據(jù)矩陣X聚成K類,使得樣本到類重心距離和最小,使用歐氏平方距離。其中輸入X為原始觀測數(shù)據(jù),行為個體,列為指標。輸出IDX為N行1列的列向量,包含每個樣品屬于哪一類的信息,類似于Cluster的輸出結(jié)果。例2.5從12不同地區(qū)測得了某樹種的平均發(fā)芽率與發(fā)芽勢表212個地區(qū)某樹種發(fā)芽情況地區(qū)1234567891011120.7070.6000.6930.7170.6880.5330.8770.5130.8150.6330.7400.7770.3850.4330.5050.3430.6050.3800.7130.3530.6750.4650.5800.723,數(shù)據(jù)如下采用歐氏距離,將這12個地區(qū)以樹種發(fā)芽情況按k均值聚類法聚為2類.解:利用Matlab軟件中的命令:kmeans,可以實現(xiàn)k均值聚類y=[.707.6.693.717.688.533.877.513.815.633.74.777;.385.433.505.343.605.38.713.353.675.465.58.723];x=y';%矩陣x的行為個體,列為指標[a,b]=kmeans(x,2)
%分為2類,輸出:a為聚類的結(jié)果,b為聚類重心,每一行表示一個類的重心a=[222212121211]’b=0.77940.65920.62800.4091x1=x(find(a==1),:)%提取第1類里的樣品x2=x(find(a==2),:)%提取第2類里的樣品x1=0.68800.60500.87700.71300.81500.67500.74000.58000.77700.7230x2=0.70700.38500.60000.43300.69300.50500.71700.34300.53300.38000.51300.35300.63300.4650sd1=std(x1),sd2=std(x2)
%分別計算第1類和第2類的標準差sd1=0.07190.0641sd2=0.08310.0603plot(x(a==1,1),x(a==1,2),'r.',x(a==2,1),x(a==2,2),'b.')%作出聚類的散點圖圖6.7分類結(jié)果的散點圖例2.6(續(xù)例6.2.2)利用K均值聚類對5個省、區(qū)、市進行聚類分析.解:x=[…]
%輸入數(shù)據(jù),行為個體,列為指標[a,b]=kmeans(x,3)
%分為3類a=[1
1
233]’b=1.0e+004*2.02650.10890.04110.69540.93020.09590.02940.36040.88880.07880.01040.2294說明北京和上海為一類,安徽為一類,陜西和新疆為一類.例2.7(續(xù)例6.2.4)利用K均值聚類法對Fisher的Iris
數(shù)據(jù)分為3類.解:loadfisheriris[ab]=kmeans(meas,3)a=1111111111…1111111111…1111111111…1111111111…1111111111…3323333333…3333333333…3333333233…3333333333…3333333333…2322223222…2223322223…2323223322…2223222232…2232223223b=5.00603.42801.46200.24606.85003.07375.74212.07115.90162.74844.39351.4339n1=length(find(a==1))%第1類的樣品數(shù)n2=length(find(a==2))%第2類的樣品數(shù)n3=length(find(a==3))%第3類的樣品數(shù)n1=62,n2=38,n3=50由此可見,K均值聚類的效果比譜系聚類效果好,但與實際的分類情況相比,K均值聚類的結(jié)果依然不甚理想.模糊均值聚類本小節(jié)我們將簡述兩種常用的模糊聚類方法:模糊C均值聚類和模糊減法聚類.模糊聚類是用模糊理論對重要數(shù)據(jù)分析和建模的方法,建立了樣本類屬的不確定性描述,能比較客觀地反映現(xiàn)實世界,它已經(jīng)有效地應(yīng)用在大規(guī)模數(shù)據(jù)分析、數(shù)據(jù)挖掘、矢量量化、圖像分割、模式識別等領(lǐng)域,具有重要的理論與實際應(yīng)用價值,隨著應(yīng)用的深入發(fā)展,模糊聚類算法的研究不斷豐富。模糊c-均值聚類算法fuzzyc-meansalgorithm(FCMA)或稱(FCM)。模糊C-均值(FCM)算法通過優(yōu)化目標函數(shù)得到每個樣本點對所有類中心的隸屬度,從而決定樣本點的類屬以達到自動對樣本數(shù)據(jù)進行分類的目的。
設(shè)為樣品集,為樣本容量.將分成類等價于將集合表示成且設(shè)是第個樣品屬于第個中心的隸屬度,則是一個的矩陣,稱為隸屬度矩陣或特征矩陣,其中每一列的元素只有一個1,其余全部為0.硬劃分的一個延拓是將隸屬度矩陣定義為:此時的聚類方法稱為模糊C均值聚類.模糊C均值聚類通過求解如下的優(yōu)化問題:其中是聚類中心,是加權(quán)指數(shù),的取值能夠影響聚類的效果.聚類中心和隸屬度矩陣通過求解如下的方程:
上述求解過程是一個不斷重復的過程,直到達到控制誤差范圍之內(nèi).具體的求解步驟如下:(1)預(yù)先給定分類數(shù)(如何選擇合適的分類數(shù)將在聚類的,初始化隸屬度矩陣使得(2)計算聚類中心有效性詳細討論)和加權(quán)指數(shù)(3)計算新的隸屬度矩陣;(4)若小于預(yù)先給定的正數(shù),則聚類過程結(jié)束,否則,轉(zhuǎn)到步驟(2).MATLAB軟件里實現(xiàn)模糊C均值聚類的命令是fcm,其調(diào)用格式
[center,U,obj_fcn]=fcm(data,n_cluster)輸入data為原始觀測數(shù)據(jù),行為個體,列為指標,n_cluster為預(yù)先給定的聚類數(shù)。輸出center是一個n_cl
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 資金管理與優(yōu)化實踐總結(jié)
- 廣西河池市環(huán)江縣2022-2023學年六年級上學期英語期末試卷
- 《演講中的自我介紹》課件
- 2025年山西省、陜西省、寧夏、青海省八省聯(lián)考高考地理模擬試卷
- 2023年廣西壯族自治區(qū)柳州市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2024年山西省朔州市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 《全身麻醉》課件
- 機電部的口號和目標
- 遼寧省本溪市(2024年-2025年小學六年級語文)統(tǒng)編版綜合練習((上下)學期)試卷及答案
- 《慢阻肺健康大課堂》課件
- 廣西壯族自治區(qū)欽州市浦北縣2022-2023學年七年級上學期期末英語試題
- 動力學全套課件
- 廣東省深圳市2022-2023學年六年級上學期語文期末試卷(含答案)6
- 2022-2023學年北京市海淀區(qū)高一(上)期末生物試卷(附答案詳解)
- 河南省出版物經(jīng)營許可證申請登記表
- 細集料篩分試驗檢測記錄表模板
- (完整word版)聘書模板紅色
- 廣西柳州市名校2024屆數(shù)學高一上期末統(tǒng)考試題含解析
- 高考浙江卷:2023年6月《政治》考試真題與參考答案
- 第三章海洋民俗生活與海洋信仰
- 神經(jīng)網(wǎng)絡(luò)-BP算法-課件
評論
0/150
提交評論