基于劃分方法的聚類分析_第1頁
基于劃分方法的聚類分析_第2頁
基于劃分方法的聚類分析_第3頁
基于劃分方法的聚類分析_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上南京信息工程大學(xué) 濱江學(xué)院 實驗(實習(xí))報告實驗(實習(xí))名稱 基于劃分方法的聚類分析 實驗(實習(xí))日期 2011.6.10 指導(dǎo)教師 閆雷鳴 專業(yè) 軟工(動畫) 年級 2008 班次 (1)班 姓名 王圓媛 學(xué)號 得分 一、 實驗?zāi)康模?)學(xué)習(xí)聚類分析的基本概念、各種數(shù)據(jù)類型、聚類方法的分類。(2)學(xué)會典型的劃分方法K均值和K中心點算法的基本原理、特點、優(yōu)缺點。(3)應(yīng)用Weka軟件,學(xué)會導(dǎo)入數(shù)據(jù)文件,并對數(shù)據(jù)文件進(jìn)行預(yù)處理。(4)學(xué)會并應(yīng)用劃分方法中K均值和K中心點算法對數(shù)據(jù)集進(jìn)行聚類分析。二、實驗準(zhǔn)備:Bank-data三、實驗要求:用劃分方法中K均值和K中心點算

2、法對數(shù)據(jù)集進(jìn)行聚類分析四、實驗內(nèi)容:4.1相關(guān)知識聚類分析中的“類”(cluster)和前面分類的“類”(class)是不同的,對cluster更加準(zhǔn)確的翻譯應(yīng)該是“簇”。聚類的任務(wù)是把所有的實例分配到若干的簇,使得同一個簇的實例聚集在一個簇中心的周圍,它們之間距離的比較近;而不同簇實例之間的距離比較遠(yuǎn)。對于由數(shù)值型屬性刻畫的實例來說,這個距離通常指歐氏距離。聚類分析中使用最常見的K均值(K-means)算法。K均值聚類方法的步驟如下。 (1)K均值算法首先隨機(jī)的指定K個簇中心。(2)將每個實例分配到距它最近的簇中心,得到K個簇;(3)計分別計算各簇中所有實例的均值,把它們作為各簇新的簇中心。

3、重復(fù)(2)和(3),直到K個簇中心的位置都固定,簇的分配也固定。上述K均值算法只能處理數(shù)值型的屬性,遇到分類型的屬性時要把它變?yōu)槿舾蓚€取值0和1的屬性。WEKA將自動實施這個分類型到數(shù)值型的變換,而且Weka會自動對數(shù)值型的數(shù)據(jù)作標(biāo)準(zhǔn)化。Weka中列出了很多聚類算法。對于EM實現(xiàn),用戶可指定需要產(chǎn)生多少聚類,否則所用的算法可通過交叉驗證來決定,在這種情況下,折的數(shù)量固定為10(除非訓(xùn)練實例小于10個)。用戶可指定循環(huán)次數(shù)的最大值,并且為正常的密度計算設(shè)定可允許的最小標(biāo)準(zhǔn)差。SimpleKMeans使用k均值來聚類數(shù)據(jù);聚類的數(shù)量通過一個參數(shù)設(shè)定。Cobweb實現(xiàn)了用于名詞屬性的Cobweb算法

4、和用于數(shù)值性屬性的Classit算法。FarthestFirst實現(xiàn)Hochbaum和Shmoys遠(yuǎn)端優(yōu)先遍歷算法。MakeDensityBaseCluster是一個元聚類器,它包裝一個聚類算法,使其返回一個概率分布和密度。它為每個聚類擬合一個離散分布,或一個對稱的正態(tài)分布。4.2實驗操作(1)在開始程序(或者桌面圖標(biāo))中找到WEKA3.6.2,單擊即可啟動WEKA,啟動WEKA時會發(fā)現(xiàn)首先出現(xiàn)的一個命令提示符。接著將出現(xiàn)如下Weka GUI Chooser界面。(2)選擇GUI Chooser中的探索者(Explorer)用戶界面。點擊預(yù)處理(Preprocess)功能按鈕的,Open fi

5、le,選擇其中的“bank-data”數(shù)據(jù)作關(guān)聯(lián)規(guī)則的分析。打開“bank-data.csv”,可以看到“Current relation”、“Attributes”“Selected attribute”三個區(qū)域。(3)對于原始數(shù)據(jù)“bank-data.csv”的預(yù)處,刪去屬性“id”,保存為ARFF格式后,修改屬性“children”為分類型。這樣得到的數(shù)據(jù)文件為“bank.arff”,含600條實例。(4)用“Explorer”打開剛才得到的“bank.arff”,并切換到“Cluster”選項卡。點擊“Choose” 在隨后打開的層級式菜單中的選擇“SimpleKMeans”,這是WE

6、KA中實現(xiàn)K均值的算法。點擊旁邊的文本框,修改“numClusters”為6,說明我們希望把這600條實例聚成6類,即K=6。下面的“seed”參數(shù)是要設(shè)置一個隨機(jī)種子,依此產(chǎn)生一個隨機(jī)數(shù),用來得到K均值算法中第一次給出的K個簇中心的位置,先設(shè)定為10。(7)選中“Cluster Mode”的“Use training set”,點擊“Start”按鈕,觀察右邊“Clusterer output”給出的聚類結(jié)果。也可以在左下角“Result list”中這次產(chǎn)生的結(jié)果上點右鍵,“View in separate window”在新窗口中瀏覽結(jié)果。(8)實驗結(jié)果:結(jié)果中有這么一行字樣: With

7、in cluster sum of squared errors: 1604.23這是評價聚類好壞的標(biāo)準(zhǔn),數(shù)值越小說明同一簇實例之間的距離越小。 “seed”參數(shù)的變化,導(dǎo)致得到的這個數(shù)值也發(fā)生變化。通過多嘗試變化seed值,并取使得數(shù)值最小的seed值。 接下來“Cluster centroids:”之后列出了各個簇中心的位置。對于數(shù)值型的屬性,簇中心就是它的均值(Mean);分類型的就是它的眾數(shù)(Mode), 也就是說這個屬性上取值為眾數(shù)值的實例最多。對于數(shù)值型的屬性,還給出了它在各個簇里的標(biāo)準(zhǔn)差(Std Devs)。 最后的“Clustered Instances”是各個簇中實例的數(shù)目及

8、百分比。為了觀察可視化的聚類結(jié)果,在左下方“Result list”列出的結(jié)果上右擊,點“Visualize cluster assignments”。彈出的窗口給出了各實例的散點圖。最上方的兩個框是選擇橫坐標(biāo)和縱坐標(biāo),第二行的“color”是散點圖著色的依據(jù),默認(rèn)是根據(jù)不同的簇“Cluster”給實例標(biāo)上不同的顏色??梢栽谶@里點“Save”把聚類結(jié)果保存成ARFF文件。在這個新的ARFF文件中,“instance_number”屬性表示某實例的編號,“Cluster”屬性表示聚類算法給出的該實例所在的簇。4.3擴(kuò)展學(xué)習(xí)(1)選擇其他數(shù)據(jù)集來對其進(jìn)行k-means聚類分析,并對其聚類結(jié)果進(jìn)行分析研究。(2)通過對其參數(shù)的修正完善加深理解k-means聚類分析算法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論