




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
模糊C均值聚類算法及實現(xiàn)摘要:模糊聚類是一種重要數(shù)據(jù)分析和建模的無監(jiān)督方法。本文對模糊聚類進行了概述,從理論和實驗方面研究了模糊c均值聚類算法,并對該算法的優(yōu)點及存在的問題進行了分析。該算法設計簡單,應用范圍廣,但仍存在容易陷入局部極值點等問題,還需要進一步研究。關鍵詞:模糊c均值算法;模糊聚類;聚類分析Fuzzyc-MeansClusteringAlgorithmandImplementationAbstract:Fuzzyclusteringisapowerfulunsupervisedmethodfortheanalysisofdataandconstructionofmodels.Thispaperpresentsanoverviewoffuzzyclusteringanddosomestudyoffuzzyc-meansclusteringalgorithmintermsoftheoryandexperiment.Thisalgorithmissimpleindesign,canbewidelyused,buttherearestillsomeproblemsinit,andtherefore,itisnecessarytobestudiedfurther.Keywords:fuzzyc-Meanalgorithm;fuzzyclustering;clusteringanalysis1引言20世紀90年代以來,隨著信息技術和數(shù)據(jù)庫技術的迅猛發(fā)展,人們可以非常方便地獲取和存儲大量的數(shù)據(jù)。但是,面對大規(guī)模的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)分析工具只能進行一些表層的處理,比如查詢、統(tǒng)計等,而不能獲得數(shù)據(jù)之間的內(nèi)在關系和隱含的信息。為了擺脫“數(shù)據(jù)豐富,知識貧乏”的困境,人們迫切需要一種能夠智能地、自動地把數(shù)據(jù)轉(zhuǎn)換成有用信息和知識的技術和工具,這種對強有力數(shù)據(jù)分析工具的迫切需求使得數(shù)據(jù)挖掘技術應運而生。將物理或抽象對象的集合分組成由類似的對象組成的多個類的過程稱為聚類。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其它簇中的對象相異。聚類是一種重要的數(shù)據(jù)分析技術,搜索并且識別一個有限的種類集合或簇集合,進而描述數(shù)據(jù)。聚類分析作為統(tǒng)計學的一個分支,己經(jīng)被廣泛研究了許多年。而且,聚類分析也已經(jīng)廣泛地應用到諸多領域中,包括數(shù)據(jù)分析、模式識別、圖像處理以及市場研究[1]。通過聚類,人們能夠識別密集的和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分布模式,以及數(shù)據(jù)屬性之間的有趣的相互關系。在商務上,聚類能幫助市場分析人員從客戶基本信息庫中發(fā)現(xiàn)不同的客戶群,并且用購買模式來刻畫不同的客戶群的特征。在生物學上,聚類能用于推導植物和動物的分類,對基因進行分類,獲得對種群中固有結構的認識。聚類在地球觀測數(shù)據(jù)庫中相似地區(qū)的確定,汽車保險單持有者的分組,及根據(jù)房屋的類型、價值和地理位置對一個城市中房屋的分組上也可以發(fā)揮作用。聚類也能用于對Web上的文檔進行分類,以發(fā)現(xiàn)信息?;趯哟蔚木垲愃惴ㄎ墨I中最早出現(xiàn)的Single-Linkage層次聚類算法是1957年在Lloyd的文章中最早出現(xiàn)的,之后MacQueen獨立提出了經(jīng)典的模糊C均值聚類算法,F(xiàn)CM算法中模糊劃分的概念最早起源于Ruspini的文章中,但關于FCM的算法的詳細的分析與改進則是由Dunn和Bezdek完成的。聚類分析是多元統(tǒng)計分析的一種,也是非監(jiān)督模式識別的一個重要分支,在模式分類、圖像處理和模糊規(guī)則處理等眾多領域中獲得最廣泛的應用。它把一個沒有類別標記的樣本集按某種準則劃分為若干個子集(類),使相似的樣本盡可能的歸為一類,而將不相似的樣本盡量劃分到不同的類中。硬聚類把每個待辨識的對象嚴格地劃分到某類中,具有非此即彼的性質(zhì),模糊聚類由于能夠描述樣本類屬的中介性,能夠客觀地反映現(xiàn)實世界,已逐漸成為聚類分析的主流[2-3]。在眾多的模糊聚類算法中,模糊c均值聚類算法(FCM)應用最為廣泛。它按照某種判別準則,將數(shù)據(jù)的聚類轉(zhuǎn)化為一個非線性優(yōu)化問題,并通過迭代來進行求解,目前已成為非監(jiān)督模式識別的一個重要分支。數(shù)據(jù)挖掘中的聚類分析主要集中在針對海量數(shù)據(jù)的有一效和實用的聚類方法研究,聚類方法的可伸縮性,高維聚類分析,分類屬性數(shù)據(jù)聚類和具有混合屬性數(shù)據(jù)的聚類,非距離模糊聚類等。因此,數(shù)據(jù)挖掘?qū)垲惙治鲇衅涮厥獾囊?可伸縮性,能夠處理不同類型屬性,強抗噪性,高維性,對輸入順序不敏感性,可解釋性和可用性等。本文正是在此背景下對數(shù)據(jù)挖掘中的聚類分析進行論述,并著重研究了FCM算法。2模糊聚類算法2.1模糊聚類算法概述模糊聚類算法是一種基于函數(shù)最優(yōu)方法的聚類算法,使用微積分計算技術求設被分類的對象的集合為:X={x1,x2,…,xN},其中每一個對象xk有n個特性指標,設為xk=(x1k,x2k,…,xnk)T,如果要把X分成c類,則它的每一個分類結果都對應一個c×N階的Boolean矩陣Mfc={|uik∈[0,1],i,k;=1,k;0<,i}在此空間上,模糊c均值算法如下:Repeatforl=1,2……Step1:computethecluseterprototypes(means):Step2:competethedistance:Step3:Updatethepartitionmatrix:ForIfforalli=1,2,…,cOtherwise=0if>0,and∈[0,1]withUntil<3.2實驗采用著名的iris數(shù)據(jù)集對算法進行測試實現(xiàn),其中樣本總數(shù)m=150,樣本屬性數(shù)n=4,設定的劃分內(nèi)別k=3。運算次數(shù)為10次的輸出結果:能對數(shù)組實現(xiàn)分類,但是分類正確率不是很理想。3.3FCM算法優(yōu)缺點通過實驗和算法的研究學習,不難發(fā)現(xiàn)FCM算法的優(yōu)缺點[5-8]:首先,模糊c均值泛函Jm仍是傳統(tǒng)的硬c均值泛函J1的自然推廣。J1是一個應用很廣泛的聚類準則,對其在理論上的研究已經(jīng)相當?shù)耐晟?,這就為Jm的研究提供了良好的條件。其次,從數(shù)學上看,Jm與Rs的希爾伯特空間結構(正交投影和均方逼近理論)有密切的關聯(lián),因此Jm比其他泛函有更深厚的數(shù)學基礎。最后,F(xiàn)CM聚類算法不僅在許多鄰域獲得了非常成功的應用,而且以該算法為基礎,又提出基于其他原型的模糊聚類算法,形成了一大批FCM類型的算法,比如模糊c線(FCL),模糊c面(FCP),模糊c殼(FCS)等聚類算法,分別實現(xiàn)了對呈線狀、超平面狀和“薄殼”狀結構模式子集(或聚類)的檢測。4結語模糊c均值算法因設計簡單,解決問題范圍廣,易于應用計算機實現(xiàn)等特點受到了越來越多人的關注,并應用于各個領域。但是,自身仍存在的諸多問題,例如強烈依賴初始化數(shù)據(jù)的好壞和容易陷入局部鞍點等,仍然需要進一步的研究。參考文獻:[1]AKJain,MNMurty,PJFlynn.DataClustering:AReview,ACMComputingSurveys[J],1999,31(3):264-323.[2]SpraginsJ.Learningwithoutateacher[J].IEEETransactionsofInformationTheory,2005,23(6):223-230.[3]BabuskR.FUZZYANDNEURALCONTROL[M].Netherlands:DelftUniversityofTechnology,2001.[4]TheodoridisS.PatternRecongnition[M].SecondEdition.USA:ElsevierScinece,2003.[5]高新波.FCM聚類算法中模糊加權指數(shù)m的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度共有產(chǎn)權商品房買賣合同樣本下載4篇
- 2025房產(chǎn)抵押擔保貸款風險防范合同范本
- 2024-2025學年甘肅省蘭州市第五十一中學高一上學期期末考試化學試卷
- 怎樣養(yǎng)蠶(教學設計)-2023-2024學年科學四年級下冊人教鄂教版
- 2024-2025學年北京市北京一零一中學高一上學期統(tǒng)練二化學試卷
- 臍橙清洗包裝合同范本
- 淺談小學體育教學的三個目標
- 高校項目可行性論證報告
- 2025年度電子產(chǎn)品全球市場代理合作協(xié)議
- 2025年倉儲貨物倉單質(zhì)押擔保服務合同范本6篇
- 人教版(新)九年級下冊化學全冊教案教學設計及教學反思
- 2025年浙江省國土空間規(guī)劃研究院招聘歷年高頻重點提升(共500題)附帶答案詳解
- 2025年安徽省安慶市公安警務輔助人員招聘190人歷年高頻重點提升(共500題)附帶答案詳解
- 7.1力教學課件-2024-2025學年初中物理人教版八年級下冊
- 小學生勤儉節(jié)約課件
- 化工行業(yè)生產(chǎn)過程安全管理升級策略方案
- 慢性胰腺炎病教學查房
- 電解質(zhì)溶液的圖像分析(原卷版)-2025年高考化學一輪復習講義(新教材新高考)
- 2025年中考歷史一輪復習知識清單:隋唐時期
- 【生物】蒸騰作用- 2024-2025學年七年級上冊生物(北師大版2024)
- 《井巷掘進作業(yè)》課件
評論
0/150
提交評論