模糊聚類分析的理論、方法與應用研究_第1頁
模糊聚類分析的理論、方法與應用研究_第2頁
模糊聚類分析的理論、方法與應用研究_第3頁
模糊聚類分析的理論、方法與應用研究_第4頁
模糊聚類分析的理論、方法與應用研究_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

模糊聚類分析的理論、方法與應用研究摘要:在科學技術、經濟管理中常常要按一定的標準進行分類。對所研究的事物按一定標準進行分類的數(shù)學方法稱為聚類分析,它是多元統(tǒng)計“物以類聚”的一種分類方法。由于科學技術、經濟管理中的分類界限往往不分明,因此采用模糊聚類方法通常比較符合實際。本文旨在運用模糊聚類分析的方法,貫徹其理論,對具體的例子進行分析和研究。關鍵詞:聚類分析,模糊,應用,方法。前言:聚類就是把具有相似性質的事物區(qū)分開加以分類。聚類分析就是用數(shù)學方法研究和處理給定對象的分類,“人以群分,物以類聚”,聚類問題是一個古老的問題,是伴隨著人類產生和發(fā)展不斷深化的一個問題。人類要認識世界就必須要區(qū)分不同的事物并認識事物間的,聚類就是把具有相似性質的事物區(qū)分開加以分類。經典分類學往往是從單因素或有限的幾個因素出發(fā),憑經驗和專業(yè)對事物分類。這種分類具有非此即彼的特性,同一事物歸屬且僅歸屬所劃定類別中的一類,這種分類的類別界限是清晰的。隨著著人們認識的深入,發(fā)現(xiàn)這種分類越來越不適用于具有模糊性的分類間題,如把人按身高分為“高個子的人’,“矮個子的人”,“不高不矮的人”。如何判別特定的一個人的類別便產生了經典分類學解決不了的困難。模糊數(shù)學的產生為上述軟分類提供了數(shù)學基礎,由此產生了模糊聚類分析。我們把應用普通數(shù)學方法進行分類的聚類方法稱為普通聚類分析,而把應用模糊數(shù)學方法進行分析的聚類分析稱為模糊聚類分析。隨著模糊數(shù)學傳人我國,模糊聚類分析也傳人了我國。其應用領域已包括了天氣預報、氣象分析、模式識別、生物、醫(yī)學、化學等諸多領域。聚類分析和模糊聚類分析聚類分析是將事物根據(jù)一定的特征,并按某種特定要求或規(guī)律分類的方法。由于聚類分析的對象必定是尚未分類的群體,而且現(xiàn)實的分類問題往往帶有模糊性,對帶有模糊特征的事物進行聚類分析,分類過程中不是僅僅考慮事物之間有無關系,而是考慮事物之間關系的深淺程度,顯然用模糊數(shù)學的方法處理更為自然,因此稱為模糊聚類分析。模糊聚類分析的一般步驟1、第一步:數(shù)據(jù)標準化(1)數(shù)據(jù)矩陣設論域為被分類對象,每個對象又有個指標表示其性狀,即,于是,得到原始數(shù)據(jù)矩陣為。其中表示第個分類對象的第個指標的原始數(shù)據(jù)。(2)數(shù)據(jù)標準化在實際問題中,不同的數(shù)據(jù)一般有不同的量綱,為了使不同的量綱也能進行比較,通常需要對數(shù)據(jù)做適當?shù)淖儞Q。但是,即使這樣,得到的數(shù)據(jù)也不一定在區(qū)間上。因此,這里說的數(shù)據(jù)標準化,就是要根據(jù)模糊矩陣的要求,將數(shù)據(jù)壓縮到區(qū)間上。通常有以下幾種變換:①平移·標準差變換其中,。經過變換后,每個變量的均值為0,標準差為1,且消除了量綱的影響。但是,再用得到的還不一定在區(qū)間上。②平移·極差變換,顯然有,而且也消除了量綱的影響。③對數(shù)變換取對數(shù)以縮小變量間的數(shù)量級。2、第二步:標定(建立模糊相似矩陣)設論域,,依照傳統(tǒng)聚類方法確定相似系數(shù),建立模糊相似矩陣,與的相似程度。確定的方法主要借用傳統(tǒng)聚類的相似系數(shù)法、距離法以及其他方法。具體用什么方法,可根據(jù)問題的性質,選取下列公式之一計算。(1)相似系數(shù)法①夾角余弦法。②最大最小法。③算術平均最小法。④幾何平均最小法。以上3種方法中要求,否則也要做適當變換。⑤數(shù)量積法,其中。⑥相關系數(shù)法,其中,。⑦指數(shù)相似系數(shù)法,其中,而。(2)距離法①直接距離法,其中為適當選取的參數(shù),使得,表示他們之間的距離。經常用的距離有●海明距離?!駳W幾里得距離?!袂斜妊┓蚓嚯x。②倒數(shù)距離法。其中為適當選取的參數(shù),使得。③指數(shù)距離法。3、第三步:聚類(求動態(tài)聚類圖)(1)基于模糊等價矩陣聚類方法①傳遞閉包法根據(jù)標定所得的模糊矩陣還要將其改造稱模糊等價矩陣。用二次方法求的傳遞閉包,即=。再讓由大變小,就可形成動態(tài)聚類圖。②布爾矩陣法[10]布爾矩陣法的理論依據(jù)是下面的定理:定理2.2.1設是上的一個相似的布爾矩陣,則具有傳遞性(當是等價布爾矩陣時)矩陣在任一排列下的矩陣都沒有形如的特殊子矩陣。布爾矩陣法的具體步驟如下:①求模糊相似矩陣的截矩陣.②若按定理2.2.1判定為等價的,則由可得在水平上的分類,若判定為不等價,則在某一排列下有上述形式的特殊子矩陣,此時只要將其中特殊子矩陣的0一律改成1直到不再產生上述形式的子矩陣即可。如此得到的為等價矩陣。因此,由可得水平上的分類(2)直接聚類法所謂直接聚類法,是指在建立模糊相似矩陣之后,不去求傳遞閉包,也不用布爾矩陣法,而是直接從模糊相似矩陣出發(fā)求得聚類圖。其步驟如下:①?。ㄗ畲笾担瑢γ總€作相似類,且=,即將滿足的與放在一類,構成相似類。相似類與等價類的不同之處是,不同的相似類可能有公共元素,即可出現(xiàn),,.此時只要將有公共元素的相似類合并,即可得水平上的等價分類。②取為次大值,從中直接找出相似度為的元素對(即),將對應于的等價分類中所在的類與所在的類合并,將所有的這些情況合并后,即得到對應于的等價分類。③取為第三大值,從中直接找出相似度為的元素對(即),將對應于的等價分類中所在的類與所在的類合并,將所有的這些情況合并后,即得到對應于的等價分類。④以此類推,直到合并到成為一類為止。二、最佳閾值的確定在模糊聚類分析中對于各個不同的,可得到不同的分類,許多實際問題需要選擇某個閾值,確定樣本的一個具體分類,這就提出了如何確定閾值的問題。一般有以下兩個方法:=1\*GB3①按實際需要,在動態(tài)聚類圖中,調整的值以得到適當?shù)姆诸悾恍枰孪葴蚀_地估計好樣本應分成幾類。當然,也可由具有豐富經驗的專家結合專業(yè)知識確定閾值,從而得出在水平上的等價分類=2\*GB3②用F統(tǒng)計量確定最佳值。[11]設論域為樣本空間(樣本總數(shù)為),而每個樣本有個特征:,。于是得到原始數(shù)據(jù)矩陣,如下表所示,其中,稱為總體樣本的中心向量。樣本指標12km設對應于值的分類數(shù)為,第類的樣本數(shù)為,第類的樣本記為:,第類的聚類中心為向量,其中為第個特征的平均值,即,,作統(tǒng)計量,其中為與間的距離,為第類中第個樣本與其中心間的距離。稱為統(tǒng)計量,它是遵從自由度為,的分布。它的分子表征類與類之間的距離,分母表征類內樣本間的距離。因此,值越大,說明類與類之間的距離越大;類與類間的差異越大,分類就越好。三、基于模糊聚類分析的實際應用成績評價問題一、問題的提出某高中高二有7個班級,學生成績的好與差,沒有明確的評定界限,并且班級間成績好壞的表現(xiàn)具有一定的模糊不確定性。二、問題的分析解決上述問題可運用模糊聚類分析方法?,F(xiàn)以7個班級某次其中考試的四門主課成績?yōu)橐罁?jù),對7個班級成績好壞的相關程度分類。設7個班級組成一個分類集合:分別代表1班到7班。每個班級成績均是四門基礎課(語文、數(shù)學、英語、綜合)作為四項統(tǒng)計指標,即有這里表示為第個班級的第門基礎課指標。這四項成績指標為:語文平均成績,數(shù)學平均成績,英語平均成績,綜合平均成績。各班級成績指標值見表1。表17個班4門基礎課的成績指標三、問題的解決1、數(shù)據(jù)標準化采用極差變換,(1)式中是第i個班級第門基礎課平均成績的原始數(shù)據(jù),和分別為不同班級的同一門基礎課平均成績的最大值和最小值。為第個班級第門基礎課平均成績指標的標準化數(shù)值。當時,,當時,。表2平均成績指標值的標準化數(shù)值2、用最大最小法建立相似矩陣計算模糊相似矩陣R,根據(jù)標準化數(shù)值建立各班級之間四門基礎課成績指標的相似關系矩陣,采用最大最小法來計算:其中是表示第個班級與第個班級在四門基礎課成績指標上的相似程度的量。取,=0,其余運算量可以通過MATLAB編程運算。得相似矩陣:3、改造相似關系為等價關系進行聚類分析矩陣滿足自反性和對稱性,但不具有傳遞性,為求等價矩陣,要對進行改造,只需求其傳遞閉包。由平方法可得最后可得到。故傳遞閉包為,它就是模糊等價矩陣。用其可對7個班級進行聚類分析。令由1降至0,寫出,按分類元素和歸同一類的條件是取=1,則有U可分7類,,,,,,。降低置信水平,對不同的作同樣分析,得到取=0.77,U可分6類,,,,,。取=0.73,U可分5類,,,,。取=0.69,U可分4類,,,。取=0.61,U可分3類,,。取=0.36,U可分2類,。取=0.15,U可分1類。按不同的置信水平對7個班級進行模糊聚類,將會得到不同的分類結果雨量站問題一、問題的提出某地區(qū)設置有11個雨量站,其分布圖見圖1,10年來各雨量站所測得的年降雨量列入表1中?,F(xiàn)因經費問題,希望撤銷幾個雨量站,問撤銷那些雨量站,而不會太多的減少降雨信息?圖1雨量站分布圖表1各雨量站10年間測得的降雨量年序號12763241594132922583113031752433202251287349344310454285451402307470319243329056347950222122032041123242462322432812673102733152853273525291311502388330410352267603290292646615822417816420350232024027835072583274324013613813014134021994218453365357452384420482228360316252915827141030828341020117943034218510324406235520442520358343251282371二、問題的分析應該撤銷那些雨量站,涉及雨量站的分布,地形,地貌,人員,設備等眾多因素。我們僅考慮盡可能地減少降雨信息問題。一個自然的想法是就10年來各雨量站所獲得的降雨信息之間的相似性,對全部雨量站進行分類,撤去“同類”(所獲降雨信息十分相似)的雨量站中“多余”的站。問題求解假設為使問題簡化,特作如下假設①每個觀測站具有同等規(guī)模及儀器設備;②每個觀測站的經費開支均等;具有相同的被裁可能性。分析:對上述撤銷觀測站的問題用基于模糊等價矩陣的模糊聚類方法進行分析,原始數(shù)據(jù)如上。三、問題的解決求解步驟:1、數(shù)據(jù)的收集原始數(shù)據(jù)如表1所示。2、建立模糊相似矩陣利用相關系數(shù)法,構造模糊相似關系矩陣,其中=其中=,=1,2,…,11。=,=1,2,…,11。取,代入公式得=0.839,得到模糊相似矩陣1.0000.8390.5280.8440.8280.7020.9950.6710.4310.5730.7120.8391.0000.5420.9960.9890.8990.8550.5100.4750.6170.5720.5280.5421.0000.5620.5850.6970.5710.5510.9620.6420.5680.8440.9960.5621.0000.9920.9080.8610.5420.4990.6390.6070.8280.9890.5850.9921.0000.9220.8430.5260.5120.6860.5840.7020.8990.6970.9080.9221.0000.7260.4550.6670.5960.5110.9950.8550.5710.8610.8430.7261.0000.6760.4890.5870.7190.6710.5100.5510.5420.5260.4550.6761.0000.4670.6780.9940.4310.4750.9620.4990.5120.6670.4890.4671.0000.4870.4850.5730.6170.6420.6390.6860.5960.5870.6780.4871.0000.6880.7120.5720.5680.6070.5840.5110.7190.9940.4850.6881.000對這個模糊相似矩陣用平方法作傳遞閉包運算,求即。3、聚類注:是對稱矩陣,故只寫出它的下三角矩陣?。?.996,則在置信水平為0.996的閾值下相似度為1,故同屬一類,所以此時可以將觀測站分為9類{,},{},{},{},{},{},{},{},{}。降低置信水平,對不同的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論