數(shù)據(jù)聚類實(shí)驗(yàn)報(bào)告_第1頁
數(shù)據(jù)聚類實(shí)驗(yàn)報(bào)告_第2頁
數(shù)據(jù)聚類實(shí)驗(yàn)報(bào)告_第3頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、實(shí)驗(yàn)題目:數(shù)據(jù)聚類實(shí)驗(yàn)1實(shí)驗(yàn)?zāi)康?1) 了解常用聚類算法及其優(yōu)缺點(diǎn);(2) 掌握k-means聚類算法對(duì)數(shù)據(jù)進(jìn)行聚類分析的基本原理和劃分方法。(3) 利用k-means聚類算法對(duì)"ch7 iris.txt”數(shù)據(jù)集進(jìn)行聚類實(shí)驗(yàn)。(4) 熟悉使用matlab進(jìn)行算法的實(shí)現(xiàn)。2實(shí)驗(yàn)步驟2.1算法原理聚類就是按照某個(gè)特定標(biāo)準(zhǔn)(如距離準(zhǔn)則)把一個(gè)數(shù)據(jù)集分割成不同的類或簇,使得同一個(gè)簇內(nèi)的數(shù)據(jù)對(duì)象的相似性盡可能大,同時(shí)不在同一個(gè)簇中的數(shù)據(jù)對(duì)象的差異性也盡可能地大。即聚類后同一類的數(shù)據(jù)盡可能聚集到一起,不同數(shù)據(jù)盡量分離。k-means是劃分方法中較經(jīng)典的聚類算法之一。由于該算法的效率高,所以在對(duì)大

2、規(guī)模 數(shù)據(jù)進(jìn)行聚類時(shí)被廣泛應(yīng)用。目前,許多算法均圍繞著該算法進(jìn)行擴(kuò)展和改進(jìn)。k-means 算法以k為參數(shù),把n個(gè)對(duì)象分成k個(gè)簇,使簇內(nèi)具有較高的相似度,而簇間的相似度較低。k-means算法的處理過程如下:首先,隨機(jī)地選擇k個(gè)對(duì)象,每個(gè)對(duì)象初始地代表了一個(gè)簇的平均值或中心;對(duì)剩余的每個(gè)對(duì)象,根據(jù)其與各簇中心的距離,將它賦給最近的簇;然后重新計(jì)算每個(gè)簇的平均值。這個(gè)過程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。k 2通常,采用平方誤差準(zhǔn)則,其定義如下:epm,這里E是數(shù)據(jù)集中所有對(duì)象的平方誤差的總和,i 1 p Cip是空間中的點(diǎn), mi是簇Ci的平均值。該目標(biāo)函數(shù)使生成的簇盡可能緊湊獨(dú)立,使用的距離度量是

3、歐幾里得距離,當(dāng)然也可以用其他距離度量。本實(shí)驗(yàn)便采用k-means聚類方法對(duì)樣本數(shù)據(jù)對(duì)象進(jìn)行聚類。該方法易實(shí)現(xiàn),對(duì)不存在極大值的數(shù)據(jù)有很好的聚類效果,并且對(duì)大數(shù)據(jù)集有很好的伸縮性。2.2算法流程本實(shí)驗(yàn)采用的是k-means聚類算法,類中心的選擇基于簇中對(duì)象的平均值。 (1 )獲取用戶的類中心數(shù)目 k和具有n個(gè)對(duì)象的數(shù)據(jù)集;(2) 任意選取k個(gè)對(duì)象作為初始的簇中心;(3 )根據(jù)簇中對(duì)象的平均值,將每個(gè)對(duì)象重新賦給最類似的簇;(4 )更新簇的平均值,即類中心,重新計(jì)算每個(gè)簇中對(duì)象的平均值;(5) 如果新的平均值發(fā)生改變,轉(zhuǎn)至(2)步;(6) 新的平均值不在發(fā)生改變,算法聚類結(jié)束。2.2算法流程圖圖

4、1 k-means算法流程圖k-means算法流程圖,如圖1所示。k-means算法中的k,由用戶輸入,最終得到的類別數(shù)即為用戶輸入的數(shù)目。聚類過程中,涉及到初始類中心的選擇。在程序中,對(duì)于類中心,是選擇前k個(gè)作為初始類中心, 對(duì)于數(shù)據(jù)的組織,前 k個(gè)數(shù)據(jù)有較大差別,可以提高程 序的運(yùn)行效率和分類結(jié)果的準(zhǔn)確率。3實(shí)驗(yàn)結(jié)果分析在實(shí)驗(yàn)中,利用k-means聚類算法對(duì)"ch7 iris.txt”數(shù)據(jù)集進(jìn)行聚類實(shí)驗(yàn)。當(dāng)k=3時(shí),k-means算法聚類效果如圖 2所示:圖2 k=3時(shí)聚類效果當(dāng)k=4時(shí),k-means算法聚類效果如圖 3所示:Figure 1fdit View Insert I

5、ools Qzktop 翌indrw HJelp JlJ J"J 叮 R 二電陽 X凰| 圖3 k=4時(shí)聚類效果K- means聚類算法的收斂性和初值的選取有關(guān)。初始的聚類中心的不同,對(duì)聚類 結(jié)果沒有很大的影響,而對(duì)迭代次數(shù)有顯著的影響。數(shù)據(jù)的輸入順序不同,同樣影響迭代 次數(shù),而對(duì)聚類結(jié)果沒有太大的影響。4實(shí)驗(yàn)結(jié)論K- means聚類算法對(duì)于類別數(shù)的選擇k值有較高的要求,如果類別數(shù)較少,則不能區(qū)分?jǐn)?shù)據(jù)。K-means聚類算法找出平均誤差最小的k個(gè)劃分。當(dāng)結(jié)果簇是密集的,而簇與簇之間的區(qū)別明顯時(shí),它的效果較好。該算法只有在簇的平均值被定義的情況下才能使用。對(duì)于初始類中心的選擇,特別重要

6、。對(duì)于分類的準(zhǔn)確度和距離影響明顯。而且該算法對(duì)孤立點(diǎn)是敏感的。所以如果數(shù)據(jù)集中存在有極大值的對(duì)象,應(yīng)該消除這種敏感性。5實(shí)驗(yàn)心得體會(huì)1初始值可的選取K- means聚類算法 對(duì)于類別數(shù)目的選擇,需要使用該算法的人員對(duì)于數(shù)據(jù)分類有一定 的了解,并且可以根據(jù)觀察部分原始抽樣數(shù)據(jù),得出該樣本數(shù)據(jù)的大致類別數(shù)目,否則,應(yīng)用該方法的聚類可能會(huì)出現(xiàn)較大的錯(cuò)誤率。2、初始類中心的選取初始類中心的選擇對(duì)聚類的準(zhǔn)確度有較大的影響。在初始類中心的選擇時(shí), 最好選擇兩兩距離較大,且能代表不同數(shù)據(jù)樣本類別的點(diǎn)作為初始的類中心點(diǎn)。參考文獻(xiàn)1 數(shù)據(jù)挖掘:概念與技術(shù)/ (加)韓家煒,(加)坎伯(Kamber,M.)著;范明

7、等譯.-北京: 機(jī)械工業(yè)出版社,2001.8 .2 效琴,戴汝源數(shù)據(jù)挖掘中聚類分析的技術(shù)方法J 微計(jì)算機(jī)信息,2003, 19(1).3 賀玲,吳玲達(dá),蔡益朝.數(shù)據(jù)挖掘中的聚類算法綜述J.計(jì)算機(jī)應(yīng)用研究,2007 ,24(1):10-13.4 孫吉貴,劉杰,趙連宇聚類算法研究J.軟件學(xué)報(bào),2008, 19(1) : 48-61 . 馮曉蒲,張鐵峰四種聚類方法之比較J.微型機(jī)與應(yīng)用,2010, 16 .附錄(源代碼)Matlab%K-mea ns算法主程序k=3;x= 0.224 0.624 0.067 0.0430.7490.5020.6270.5410.5570.5410.8471.0000

8、.1100.5020.0510.0430.7220.4590.6630.5840.7760.4160.8310.8310.1960.6670.0670.0430.6120.3330.6120.5840.6120.4160.8120.8750.0550.5840.0670.0820.5570.5410.6270.6240.1650.2080.5920.6670.0270.3760.0670.0430.6390.3760.6120.4980.6670.2080.8120.7100.3060.7100.0860.0430.1960.0000.4240.3760.6120.5020.6940.7920

9、.1370.4160.0670.0000.4710.0820.5100.3760.6940.4160.7610.8310.4160.8310.0350.0430.3610.3760.4390.4980.4160.3330.6940.9570.3060.7920.0510.1250.3610.4160.5920.5840.6120.4160.7610.7100.3880.7490.1180.0820.5290.0820.5920.5840.9450.2511.0000.9180.3060.5840.1180.0430.4430.5020.6430.4590.7220.5020.7960.9180

10、.0820.6670.0000.0430.5570.2080.6630.5840.9450.3330.9650.7920.1370.5840.1530.0430.5840.3760.5610.4980.6670.5410.7960.8310.1960.5840.1020.1250.6940.3330.6430.5410.5290.3330.6430.7100.2510.5840.0670.0430.4710.3760.5920.5840.5840.3330.7800.8310.1370.4590.1020.0430.3330.1690.4750.4160.8630.3330.8630.7490

11、.2510.8750.0860.0000.4160.2900.4900.4590.5840.3330.7800.8750.1650.4590.0860.0430.3060.4160.5920.5840.4980.2510.7800.5410.3330.6240.0510.0430.6670.4590.6270.5840.5570.5840.7800.9570.0270.4160.0510.0430.3610.4160.5250.4980.4710.4160.6430.7100.1960.6240.0510.0820.3330.2510.5760.4590.6670.4590.7800.9570

12、.0270.5020.0510.0430.4160.2510.5100.4590.4160.2900.6940.7490.2240.7490.1530.1250.3610.2900.5410.4980.6670.5410.7961.0000.2240.7490.1020.0430.3880.3760.5410.4980.5570.2080.6780.7490.2780.7100.0860.0430.2240.2080.3370.4160.5290.5840.7450.9180.165 0.416 0.067 0.0430.5840.5020.5920.5840.4160.2900.6940.7

13、490.0820.4590.0860.0430.3330.1250.5100.4980.5570.3760.7800.7100.3060.7920.1180.1250.3880.3330.5920.4980.9180.4160.9490.8310.1960.5840.0860.0430.1650.1690.3880.3760.8350.3760.8980.7100.1650.4590.0860.0000.2510.2900.4900.5410.8040.6670.8631.0000.1370.5840.1020.0430.4430.4160.5410.5840.5840.2900.7290.7

14、490.0000.4160.0160.0000.4980.3760.6270.5410.3880.2080.6780.7920.3881.0000.0860.1250.6670.4590.5760.5410.5840.5020.7290.9180.2240.6240.0670.0820.4160.2900.5250.3760.9450.7490.9650.8750.2240.7490.0860.0820.3610.2080.4900.4160.4710.0820.6780.5840.2240.7100.0860.1250.4980.3330.5100.4980.3610.3330.6630.7

15、920.2240.5410.1180.1650.4980.3330.6270.4590.5570.2900.6630.7100.1960.4160.1020.0430.6390.4160.5760.5410.8040.5020.8470.7100.2510.6240.0860.0430.6670.4160.6780.6670.4980.4160.5100.7100.1100.5020.1020.0430.3880.2510.4240.3760.8040.4160.8120.6240.3060.5840.0860.1250.3330.1690.4590.3761.0000.7490.9140.7

16、920.3330.9180.0670.0430.4710.2900.6940.6240.5570.3330.6940.5840.1960.5020.0350.0430.4710.5840.5920.6240.9450.4160.8630.9180.1650.6670.0670.0000.5570.1250.5760.4980.5840.4590.7610.7100.2240.5840.0860.0430.3330.2080.5100.4980.7220.4590.7450.8310.0550.1250.0510.0820.4980.4160.6120.5410.7220.4590.6940.9

17、180.1960.6240.1020.2080.1960.1250.3880.3760.6940.5020.8310.9180.1370.4160.0670.0820.388 0.416 0.541 0.4590.667 0.416 0.714 0.9180.082 0.502 0.067 0.0430.529 0.376 0.561 0.4980.612 0.416 0.714 0.7920.196 0.541 0.067 0.0430.388 0.333 0.525 0.4980.443 0.416 0.694 0.710 ;n,d = size(x);bn=round(n/k*ra nd

18、);n c=x(b n,:);x(2*b n,:);x(3*b n,:);%第個(gè)隨機(jī)數(shù)在前1/K的范圍內(nèi)嘲始聚類中心%n c=x(b n,:);x(2*b n,:);x(3*b n,:);x(4*b n,:);% 4 cid ,n r,ce nters = kmea ns(x,k ,nc) for i=1:150類%調(diào)用kmeans函數(shù)if cid(i)=1,plot(x(i,1),x(i,2).'r*'%顯示第一類hold onelseif cid(i)=2,plot(x(i,1),x(i,2),hold on'b*'%顯示第二類elseif cid(i)=3

19、,plot(x(i,1),x(i,2).'g*'%顯示第三類hold on%else%if cid(i)=4,%plot(x(i,1),x(i,2),'k*') %hold on顯示第四類%endendendendendstrt='紅色*為第一類;藍(lán)色text(-4,-3.6,strt);*為第二類;綠色*為第三類;黑色*為第四類;%kmea ns.n主類fun cti oncid ,n r,ce nters = kmea ns(x,k ,nc)n,d = size(x);%設(shè)置cid為分類結(jié)果顯示矩陣cid = zeros(1, n); oldcid = on es(1, n);nr = zeros(1,k);maxg n= 100;iter = 1;while iter < maxgn% 十算每個(gè)數(shù)據(jù)到聚類中心的距離for i = 1:ndist = sum(repmat(x(i,:),k,1)-nc).A2,2);m,ind = min(dist);%將當(dāng)前聚類結(jié)果存入cid中cid(i) = ind;endfor i = 1:k%找到每一類的所有數(shù)據(jù),計(jì)算他們的平均值,作為下次計(jì)算的聚類中心ind = fin d(cid=i);n c(i,:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論