一種基于模糊數(shù)學思想的K均值算法_第1頁
一種基于模糊數(shù)學思想的K均值算法_第2頁
一種基于模糊數(shù)學思想的K均值算法_第3頁
一種基于模糊數(shù)學思想的K均值算法_第4頁
一種基于模糊數(shù)學思想的K均值算法_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

一種基于模糊數(shù)學思想的K均值算法摘要:隨著云計算、移動計算等互聯(lián)網(wǎng)技術的快速發(fā)展,海量數(shù)據(jù)分析已成為企業(yè)戰(zhàn)略決策、營銷推廣的基礎,海量數(shù)據(jù)挖掘愈顯重要。傳統(tǒng)的K均值算法作為一種硬聚類算法存在諸多問題,例如數(shù)據(jù)劃分武斷、準確率較低等。引K關系對數(shù)據(jù)進行了有效的聚類分析,以提高數(shù)據(jù)挖掘的準確度。關鍵詞:模糊數(shù)學;K均值;硬聚類;隸屬度DOIDOI:10.11907/rjdk.161041中圖分類號:TP312A(引言Web影像視頻等海量數(shù)據(jù)大量涌現(xiàn),在豐富人們生活的同時,也給檢索帶來了巨大的工作量。采用自動化、智能化、模式化的聚類分析方法,已經(jīng)成為海量數(shù)據(jù)應用研究的熱點。K均值作為一種聚類算法,其思想和應用執(zhí)行過程較為方便,一直以來受到互聯(lián)網(wǎng)企業(yè)青睞,在入侵檢測、圖像處理、視頻聚類、文本數(shù)據(jù)挖掘、電子商務推薦、遙感信息識別、軟件聚類等領域得到了廣泛應用,取得了較好的效果[1-3]對K均值算法研究的深入,算法得到了極大的改進。王敞等[4]分析了K均值聚類算法存在中心設置容易陷入局部最優(yōu)化等問題,提出了一種基于遺傳算法的K均值聚類算法,能夠有效結合遺傳算法尋找全局最優(yōu)。在自適應交叉K均值操作,克服了傳統(tǒng)K均值算法的局[5]分析了聚類算法強化學習過程中,連續(xù)狀態(tài)空間對自適應劃分方K分別給出了離散動作和連續(xù)動作下強化學習方法的執(zhí)行步驟,實驗結果顯示,該方法可以自動調整劃分的精確度、優(yōu)[6]K均值多關系數(shù)據(jù)聚類算法,該算法在K均值算法的基礎上,改進了類簇的選擇方法和數(shù)據(jù)對象之間的相似性度量方法,將其應用于K[7]K均值算法存在的缺點,提出了一種改進的粒子群優(yōu)化的K均值混合聚類算法。該算法引入小概率隨機變異操作,以便能夠增強種群的多樣性,提高混合聚類算法的全局搜索能力;根K均值算法操作的時機,增強局部精[8]k均值聚類算法易受隨機初始聚類中心和離群點的影響,導致出現(xiàn)一致性和無法收斂的問題,提出了一種改進的粗K均值聚K基于其它數(shù)據(jù)對象和中心之間的距離判定數(shù)據(jù)歸屬類簇,提[9]分析了K均值算法隨機指定不同的聚類個數(shù)而導致聚類錯誤率較高的問題,集合層次劃分算法,提出了一種改進的層次K均值聚類算法,能夠自底向上聚類分析,形成一棵樹型結構,并且在樹形結構上自動選擇聚類。實驗結果表明,該聚類提高了數(shù)據(jù)分析的準確度。趙冬玲等[10]K均K均值聚類算法,改進了算法中計算密度閾值的函數(shù),可以有效降低算法的低凝聚度,提高數(shù)據(jù)聚類分析效率。傳統(tǒng)聚類算法對初始化的聚類中心比較敏感,并且隨著初始化聚類中心的不同,具有不同的聚類結果,因此需要根據(jù)經(jīng)驗設置聚類中心,很容易陷入局部最優(yōu)化。另外,傳統(tǒng)的K簇,降低了算法的準確度。為了解決上述問題,本文引入模K背景理論(10)K際的數(shù)據(jù)集劃分過程中使用。KKbN個數(shù)據(jù)對象的數(shù)據(jù)集。算法輸出:K個簇。K個簇,并(0;③基于步驟②的隸屬度函數(shù),計算各個簇的中心值i,計算簇中心采用公式遍歷數(shù)據(jù)集中每個數(shù)據(jù)對象,當隸屬度不再發(fā)生變化時,算法終止;否則返回步驟②。實驗與結果分析實驗數(shù)據(jù)與環(huán)境Matlab20122.10GHz4GWin7。Lang20-NGBoW工具對數(shù)據(jù)集進行預處理,從中選擇4500篇文檔,將這些9500篇,具體如下:數(shù)據(jù)集Binary_1Binary_2Binary_3分別包2talk.politics.mideasttalk.politics.misc,250Multi5_1、Multi5_2、Multi5_35comp.graphics、rec.motorcycle、rec.sport.baseball、sci.space和talk.politics.mideast,每個類別包含100篇文檔;數(shù)據(jù)集Multi10_1、Multi10_2、Multi10_3分別包含10個文檔類別,分別是sci.electronics、comp.sys.mac.hardware、rec.sport.hockeyalt.atheismtalk.politics.guns、rec.autos、sci.crypt、sci.med和sci.space,每個類別包含50篇文檔。 4結語K均值算法屬于硬劃分,并且算法的初始中心節(jié)點需要人為指定,容易降低算法的執(zhí)行效率及準確度。本文基K據(jù)對象按照隸屬度劃分到真實的類別中,提升了算法的準確度。未來工作的方向主要是:①改進模糊聚類隸屬度函數(shù),以便能更有效地提高算法準確度;②基于遺傳算法、粒子群算法、模擬退火算法等,改進K均值初始中心的設置,提高初始設置的準確度,進一步改進算法劃分效果。參考文獻:[1].K均值聚類的入侵檢測算法.計算機科學,0,(6[2].基于K均值聚類的醫(yī)學圖像分割算法.計算機工程,1,7(5[3]楊宏宇,常媛.K均值多重主成分分析的S檢測方法.通信學報,4,5(5:.K.計算機科學,3,(.k-均值聚類算法的強化學習方法.計算機研究與發(fā)展,6(:661-666..K均值多關系數(shù)據(jù)聚類算法.軟件學報,89(1[7].一種改進的粒子群和K均值混合聚類算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論