模糊聚類分析方法_第1頁
模糊聚類分析方法_第2頁
模糊聚類分析方法_第3頁
模糊聚類分析方法_第4頁
模糊聚類分析方法_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第二節(jié)模糊聚類分析方法在科學(xué)技術(shù)、經(jīng)濟(jì)管理中常常要按一定的標(biāo)準(zhǔn) (相似程度或親疏關(guān)系)進(jìn)行 分類。例如,根據(jù)生物的某些性狀可對生物分類, 根據(jù)土壤的性質(zhì)可對土壤分類 等。對所研究的事物按一定標(biāo)準(zhǔn)進(jìn)行分類的數(shù)學(xué)方法稱為聚類分析,它是多元統(tǒng)計(jì)“物以類聚”的一種分類方法。由于科學(xué)技術(shù)、經(jīng)濟(jì)管理中的分類界限往往不 分明,因此采用模糊聚類方法通常比較符合實(shí)際。一、模糊聚類分析的一般步驟1、第一步:數(shù)據(jù)標(biāo)準(zhǔn)化9(1)數(shù)據(jù)矩陣設(shè)論域U =Xi,X2,|l,Xn為被分類對象,每個對象又有m個指標(biāo)表示其性狀,Xi= xi1,Xi2,川,Xm于是,得到原始數(shù)據(jù)矩陣為Xi 1X2 1Xn2 IHX m 1X m2b

2、I-Xnm其中Xnm表示第n個分類對象的第m個指標(biāo)的原始數(shù)據(jù)(2)數(shù)據(jù)標(biāo)準(zhǔn)化在實(shí)際問題中,不同的數(shù)據(jù)一般有不同的量綱,為了使不同的量綱也能進(jìn)行 比較,通常需要對數(shù)據(jù)做適當(dāng)?shù)淖儞Q。但是,即使這樣,得到的數(shù)據(jù)也不一定在 區(qū)間0,1上。因此,這里說的數(shù)據(jù)標(biāo)準(zhǔn)化,就是要根據(jù)模糊矩陣的要求,將數(shù)據(jù) 壓縮到區(qū)間0,1上。通常有以下幾種變換: 平移標(biāo)準(zhǔn)差變換XiTk一人 M2m其中1xkn二 xi,仁()2。經(jīng)過變換后,每個變量的均值為0,標(biāo)準(zhǔn)差為1,且消除了量綱的影響。但是,再用得到的xk還不一定在區(qū)間0,1上。 平移極差變換Xikxk-mAni k顯然有0乞xik乞1,而且也消除了量綱的影響 對數(shù)變換x

3、k - lg xik (i = 1 , 2il n ,后 HI, 2 m取對數(shù)以縮小變量間的數(shù)量級。2、第二步:標(biāo)定(建立模糊相似矩陣)設(shè)論域U =為公2,川,人 , Xi =為1必2,川,心,依照傳統(tǒng)聚類方法確定相似系數(shù),建立模糊相似矩陣,xi與Xj的相似程度用=R(Xj,Xj)。確定 =R(Xj,Xj)的方法主要借用傳統(tǒng)聚類的相似系數(shù)法、距離法以及其他方法。具體用什么方法, 可根據(jù)問題的性質(zhì),選取下列公式之一計(jì)算。(1)相似系數(shù)法 夾角余弦法Om瓦 XkQxjk 最大最小法(XikXjk)rij、(XikXjk)k 算術(shù)平均最小法 幾何平均最小法rij2 Xk Xjk )kJ7 (XikX

4、jk)k 4rijV、Xik Xjk k 4 以上3種方法中要求Xij0,否則也要做適當(dāng)變換。 數(shù)量積法1,rijX|kXjk ,M心J其中m =mj xk -1Lx j k。) 相關(guān)系數(shù)法其中mm kd2 那Xk - Xjk)rJ Tn 指數(shù)相似系數(shù)法其中1 n _Sk(Xk -入)2,n i=而_i nXkXik k =(1,2,HI,m)。n i =i(2)距離法Sk 直接距離法斤 j J 一 cd( x x)其中c為適當(dāng)選取的參數(shù),使得0_r _1, d(x,Xj)表示他們之間的距離。經(jīng)常用的距離有海明距離m d( X , X 卜瓦 | Xk x。k歐幾里得距離戶2d( x , X 卜

5、 (Xk Xj k) k 二切比雪夫距離md( X, X kxl Xk x 倒數(shù)距離法1, i =j ,q 二 M,i _ j,d(X,Xj)其中M為適當(dāng)選取的參數(shù),使得0乞乞1。 指數(shù)距離法jexpTd X Xj。)3、第三步:聚類(求動態(tài)聚類圖)(1)基于模糊等價矩陣聚類方法 傳遞閉包法根據(jù)標(biāo)定所得的模糊矩陣R還要將其改造稱模糊等價矩陣 R*。用二次方法求R的傳遞閉包,即t(R) = R*。再讓由大變小,就可形成動態(tài)聚類圖。 布爾矩陣法10布爾矩陣法的理論依據(jù)是下面的定理:定理2.2.1設(shè)R是U二xi,X2,HI,Xn上的一個相似的布爾矩陣,則 R具有傳遞性(當(dāng)R是等價布爾矩陣時) 二 矩

6、陣R在任一排列下的矩陣都沒有形如1 T1宀心U的特殊子矩陣。J 0八0 b J 1八1 1丿布爾矩陣法的具體步驟如下: 求模糊相似矩陣的,-截矩陣R . 若R按定理2.2.1判定為等價的,則由R可得U在水平上的分類, 若R判定為不等價,則R在某一排列下有上述形式的特殊子矩陣,此時只要將fijfij其中特殊子矩陣的0 律改成1直到不再產(chǎn)生上述形式的子矩陣即可。如此得到 的R*為等價矩陣。因此,由R*可得,水平上的分類Ah(2)直接聚類法所謂直接聚類法,是指在建立模糊相似矩陣之后,不去求傳遞閉包t(R),也 不用布爾矩陣法,而是直接從模糊相似矩陣出發(fā)求得聚類圖。其步驟如下: 取、胡(最大值),對每

7、個洛作相似類xJr,且x】R=Xj ir =1,即將滿足rj =1的Xi與Xj放在一類,構(gòu)成相似類。相似類與等價類的不同之處是, 不同的相似類可能有公共元素,即可出現(xiàn)為r= Xi Xk,DR 二Xj ,Xk,Xj= 一.此時只要將有公共元素的相似類合并,即可得=1水平上的等價分類。 取2為次大值,從 R中直接找出相似度為 2的元素對(Xi,Xj)(即 ij 7:;2),將對應(yīng)于 =1的等價分類中Xi所在的類與Xj所在的類合并,將所有的 這些情況合并后,即得到對應(yīng)于 2的等價分類。 取3為第三大值,從R中直接找出相似度為3的元素對(Xi,Xj)(即5 =婦),將對應(yīng)于打的等價分類中Xi所在的類與

8、為所在的類合并,將所有的這 些情況合并后,即得到對應(yīng)于 3的等價分類。 以此類推,直到合并到u成為一類為止。、最佳閾值的確定在模糊聚類分析中對于各個不同的 0,1,可得到不同的分類,許多實(shí)際問題需要選擇某個閾值,確定樣本的一個具體分類,這就提出了如何確定閾值的問題。一般有以下兩個方法: 按實(shí)際需要,在動態(tài)聚類圖中,調(diào)整的值以得到適當(dāng)?shù)姆诸?,而不?要事先準(zhǔn)確地估計(jì)好樣本應(yīng)分成幾類。 當(dāng)然,也可由具有豐富經(jīng)驗(yàn)的專家結(jié)合專 業(yè)知識確定閾值 從而得出在水平上的等價分類 用F統(tǒng)計(jì)量確定最佳值。11設(shè)論域U =Xi,X2,lil,Xn為樣本空間(樣本總數(shù)為n),而每個樣本兇有m個特征:人=i,X2,川,

9、Xm,(i =1,2,|l,n)。于是得到原始數(shù)據(jù)矩陣,如下表所示,樣本指標(biāo)12kmXX11X12IIIX1kIIIX1mt*X21X224IIIX2kIIIX2mtXt*Xi1Xi2IIIXik*9IIItXimXiXn1Xn2HI XnkIIItX 八nmX(X1X2IIIXkIIIXm)1 n其中 XkXik(k =1,2,111, m),n yx稱為總體樣本的中心向量設(shè)對應(yīng)于值的分類數(shù)為r,第j類的樣本數(shù)為nj,第j類的樣本記為:x1(j),x2j),Hi,xnj),第j類的聚類中心為向量x二僅,x;2j)jii,xmj),其中xj)為第k個特征的平均值,即1 nj xkji XikJ

10、( , (k=1,2川|,m), n j y作F統(tǒng)計(jì)量rnj |x(J) -x|,f(r 1)1F = r ;J,SS I* _X|,(n r)J 4 i J其中|x(J) x(XkJ( -Xk) 2為x(J)與x間的距離,x(J) -X為第J類中第i個樣本x(J)與其中心X(J)間的距 離。稱為F統(tǒng)計(jì)量,它是遵從自由度為r -1 , n-r的F分布。它的分子表征類 與類之間的距離,分母表征類內(nèi)樣本間的距離。因此,F(xiàn)值越大,說明類與類之 間的距離越大;類與類間的差異越大,分類就越好?;谀:垲惙治龅亩鄬傩詻Q策方法的實(shí)際應(yīng)用聚類分析是將事物根據(jù)一定的特征,并按某種特定要求或規(guī)律分類的方法。 由

11、于聚類分析的對象必定是尚未分類的群體,而且現(xiàn)實(shí)的分類問題往往帶有模糊 性,對帶有模糊特征的事物進(jìn)行聚類分析, 分類過程中不是僅僅考慮事物之間有 無關(guān)系,而是考慮事物之間關(guān)系的深淺程度,顯然用模糊數(shù)學(xué)的方法處理更為自然,因此稱為模糊聚類分析。第一節(jié)雨量站問題、問題的提出某地區(qū)設(shè)置有11個雨量站,其分布圖見圖1,10年來各雨量站所測得的年 降雨量列入表1中?,F(xiàn)因經(jīng)費(fèi)問題,希望撤銷幾個雨量站,問撤銷那些雨量站, 而不會太多的減少降雨信息?表1各雨量站10年間測得的降雨量年序號X2X3X4X5X6X7X8XgX10X1112763241594132922583113031752433202251287

12、349344310454285451402307470319243329056347950222122032041123242462322432812673102733152853273525291311502388330410352267603290292646615822417816420350232024027835072583274324013613813014134021994218453365357452384420482228360316252915827141030828341020117943034218510324406235520442520358343251282371

13、二、問題的分析應(yīng)該撤銷那些雨量站,涉及雨量站的分布,地形,地貌,人員,設(shè)備等眾多因素。我們僅考慮盡可能地減少降雨信息問題。一個自然的想法是就10年來各雨量站所獲得的降雨信息之間的相似性,對全部雨量站進(jìn)行分類,撤去“同類”(所獲降雨信息十分相似)的雨量站中“多余”的站。問題求解假設(shè)為使問題簡化,特作如下假設(shè) 每個觀測站具有同等規(guī)模及儀器設(shè)備; 每個觀測站的經(jīng)費(fèi)開支均等;具有相同的被裁可能性。分析:對上述撤銷觀測站的問題用基于模糊等價矩陣的模糊聚類方法進(jìn)行分 析,原始數(shù)據(jù)如上。三、問題的解決求解步驟:1、數(shù)據(jù)的收集原始數(shù)據(jù)如表1所示。2、建立模糊相似矩陣?yán)孟嚓P(guān)系數(shù)法,構(gòu)造模糊相似關(guān)系矩陣,其中n

14、 |(Xik -Xi) |(Xjk -Xj) |rj =2 n 2 t (Xik Xi)2 (Xjk -Xj)22k ik A1 10其中 Xi = Xik , i = 1, 2,11 o10k仝_1 nXj = Xjk , j = 1, 2,11 on心取i =2, j =1,代入公式得21=0.839,由于運(yùn)算量巨大用 C語言編程計(jì)算出 其余數(shù)值,得模糊相似關(guān)系矩陣(r:)111,具體程序如下#i nclude#in cludedouble r1111;double x11;void mai n() int i,j,k; double fen zi=0,fe nm u1=0,fe nm u

15、2=0,fe nmu=0;int year1011=276,324,159,413,292 ,258,311,303,175,243,320,251 ,287,349,344,310,454,285,451,402,307,470,192 ,433,290,563,479,502,221,220,320,411,232,246 ,232,243,281,267,310,273,315,285,327,352,291,311,502,388 ,330,410,352,267,603,290,292,466 ,158,224,178,164,203,502,320,240,278,350,258,

16、327,432 ,401,361,381,301,413,402,199,421,453,365,357 ,452,384,420,482,228,360,316,252,158 ,271,410,308,283,410,201,179,430,342,185,324,406,235,520 ,442,520,358,343,251,282,371;for(i=0;i11;i+) for(k=0;k10;k+) xi=xi+yearki;xi=xi/10;for(i=0;i11;i+)for(j=0;j11;j+)for(k=0;k10;k+) fen zi=fe nzi+fabs(yeark

17、i-xi)*(yearkj-xj);fenm u1=fe nm u1+(yearki-xi)*(yearki-xi);fenm u2=fe nm u2+(yearkj-xj)*(yearkj-xj); fenm u=sqrt(fe nm u1)*sqrt(fe nm u2);rij=fe nzi/fe nmu;fenm u=fe nm u1=fe nm u2=fe nzi=0;for(i=0;i11;i+)for(j=0;j11;j+)pri ntf(%6.3f,rij);prin tf(n);getchar();得到模糊相似矩陣R1.000 0.839 0.528 0.844 0.828 0

18、.702 0.995 0.671 0.431 0.573 0.7120.839 1.000 0.542 0.996 0.989 0.899 0.855 0.510 0.475 0.617 0.5720.528 0.542 1.000 0.562 0.585 0.697 0.571 0.551 0.962 0.642 0.5680.844 0.996 0.562 1.000 0.992 0.908 0.861 0.542 0.499 0.639 0.6070.828 0.989 0.585 0.992 1.000 0.922 0.843 0.526 0.512 0.686 0.5840.702

19、0.899 0.697 0.908 0.922 1.000 0.726 0.455 0.667 0.596 0.5110.995 0.855 0.571 0.861 0.843 0.726 1.000 0.676 0.489 0.587 0.7190.671 0.510 0.551 0.542 0.526 0.455 0.676 1.000 0.467 0.678 0.9940.431 0.475 0.962 0.499 0.512 0.667 0.489 0.467 1.000 0.487 0.4850.573 0.617 0.642 0.639 0.686 0.596 0.587 0.67

20、8 0.487 1.000 0.6880.712 0.572 0.568 0.607 0.584 0.511 0.719 0.994 0.485 0.688 1.000R4 : R4 即對這個模糊相似矩陣用平方法作傳遞閉包運(yùn)算,求R2t(R) = R4 = R*。3、聚類注:R是對稱矩陣,故只寫出它的下三角矩陣1.0000.86110.6970.69710.8610.9960.69710.8610.9960.6970.99210.8610.9950.6970.9220.92210.9940.8610.6970.8610.8610.86110.7190.7190.6970.7190.7190.7

21、190.71910.6970.6970.9620.6970.6970.6970.6970.67610.6880.6880.6880.6880.6880.6880.6880.6880.6970.7190.7190.6970.7190.7190.7190.7190.6880.69710.688 1取 = 0.996,則1尺).996 x2,x4, x5在置信水平為0.996的閾值下相似度為1,故X2,&必同屬一類,所以此時可以將觀測站分為9 類 X2,x,Xs,X1, X3, X6, X7, X8, X9, X10 ,X11降低置信水平對不同的,作同樣分析,得到:=0.995 時,可分為 8 類,

22、即X2,X4,X5,X6,X1,X3,X7,x$,X9, X1o, X11。 =0.994 時,可分為 7 類X2,X4,X5,X6,X1,X7,X3,X8,X9, X10 , X11 。=0.962 時,可分為 6 類X2,X4,X5,X6,X1,X7, X3,X9 ,X8, X10 ,X11=0.719 時,可分為 5 類X2,X4,Xs,X6,X1,X7 , X3,X9,X8,Xn,X10。4 -56 -1 =0.996九=0.995 =0.994= 0.9621110= 0.719第二節(jié)成績評價問題一、問題的提出某高中高二有7個班級,學(xué)生成績的好與差,沒有明確的評定界限,并且班 級間成

23、績好壞的表現(xiàn)具有一定的模糊不確定性。二、問題的分析解決上述問題可運(yùn)用模糊聚類分析方法。 現(xiàn)以7個班級某次其中考試的四門主課成績?yōu)橐罁?jù),對7個班級成績好壞的相關(guān)程度分類。設(shè)7個班級組成一個分類集合:X =(人公2,川公7)分別代表1班到7班。每 個班級成績均是四門基礎(chǔ)課(語文、數(shù)學(xué)、英語、綜合)作為四項(xiàng)統(tǒng)計(jì)指標(biāo),即有Xj二Xi1,Xi2,Xi3,Xi4這里Xj表示為第i個班級的第j門基礎(chǔ)課指標(biāo) (i =1,2J|I,7; j =1,2j|,4)。這四項(xiàng)成績指標(biāo)為:語文平均成績 Xi1,數(shù)學(xué)平均成 績Xi2,英語平均成績Xi3,綜合平均成績Xi4。各班級成績指標(biāo)值見表1。表1 7個班4門基礎(chǔ)課的成

24、績指標(biāo)班級1班2班3班4班5班6班7班62.03624878.5272J274J873.9566.8359.47637072.3873.2867+0768.3276.0468,1761.0475J777.686727470,0976.8772.4568J774.6570.7770.43687373.18三、問題的解決1、數(shù)據(jù)標(biāo)準(zhǔn)化12采用極差變換Xjx廠Xmin ,( 1)Xmax 一 Xmin式中Xj是第i i個班級第j門基礎(chǔ)課平均成績的原始數(shù)據(jù),Xmax和Xmin分別為不同 班級的同一門基礎(chǔ)課平均成績的最大值和最小值。Xj為第i個班級第j門基礎(chǔ)課平均成績指標(biāo)的標(biāo)準(zhǔn)化數(shù)值。當(dāng) Xj二Xmin

25、時,X = 0,當(dāng) 為=Xmax時,X =1表2平均成績指標(biāo)值的標(biāo)準(zhǔn)化數(shù)值兀班級班2班3班4班5班6班7班00.027310.61190.7368072290,291100.25530.77910.83850.45870.534110.428500,849210.39660.54390,95130.6605010.40120.34880.08640.77312、用最大最小法建立相似矩陣計(jì)算模糊相似矩陣R,根據(jù)標(biāo)準(zhǔn)化數(shù)值建立各班級之間四門基礎(chǔ)課成績指標(biāo)的相似關(guān)系矩陣,采用最大最小法來計(jì)算rij :m瓦(Xk AXjk) kJrj =遲(XkV Xjk) kJ其中r0,1,(i =1,2,|,7j

26、二1,2,3, 4)是表示第i個班級與第j個班級在四門基礎(chǔ)課成績指標(biāo)上的相似程度的量。取i = 2, j = 1 ,2i=0,其余運(yùn)算量可以通過MATLAB編程運(yùn)算,程序如下:13clc clear allmea np=00.0273 10.61190.73680.72290.2911;00.25530.77910.83850.45870.53411;0.428500.849210.39660.54390.9513;0.66050 10.40120.34880.08640.7731;% 平均成績指標(biāo)值的標(biāo)準(zhǔn)化數(shù)值Ca=0;0;0;0;%初始化比較的數(shù)據(jù) Cb=0;0;0;0;%初始化比較的數(shù)據(jù)

27、 mina=0;%初始化比較的數(shù)據(jù) maxa=0;%初始化比較的數(shù)據(jù) for i=1:7for j=1:7for m=1:4Ca=mea np(m,i);Cb=mea np(m,j);min a(1,m)=mi n(Ca,Cb);%計(jì)算任意兩橫的最小值 maxa(1,m)=max(Ca,Cb);%計(jì)算任意兩橫的最大值 endR(i,j)=sum(mina)/sum(maxa);% 計(jì)算 rij,即相似程度的量end endR %顯示相似矩陣- 100.210.330.300.270.36010.150.140.080.100.090.210.1510.770.520.600.42得相似矩陣:R

28、 =0.330.140.7710.530.610.430.300.080.520.5310.690.680.270.100.600.610.6910.730.360.090.420.430.680.731 一3、改造相似關(guān)系為等價關(guān)系進(jìn)行聚類分析R進(jìn)行矩陣R滿足自反性和對稱性,但不具有傳遞性,為求等價矩陣,要對 改造,只需求其傳遞閉包。由平方法可得-10.150.360.360.360.360.360.1510.150.150.150.150.150.360.1510.770.600.610.600.360.150.7710.610.610.610.360.150.600.6110.690.690.360.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論