基于劃分方法的聚類分析

上傳人：o*** IP屬地：貴州上傳時間：2022-03-16 格式：DOC 頁數(shù)：4 大小：204KB 積分：20 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上南京信息工程大學(xué) 濱江學(xué)院實驗（實習(xí)）報告實驗（實習(xí)）名稱基于劃分方法的聚類分析實驗（實習(xí)）日期 2011.6.10 指導(dǎo)教師閆雷鳴專業(yè) 軟工（動畫）年級 2008 班次（1）班姓名王圓媛學(xué)號得分一、實驗?zāi)康模?）學(xué)習(xí)聚類分析的基本概念、各種數(shù)據(jù)類型、聚類方法的分類。（2）學(xué)會典型的劃分方法K均值和K中心點算法的基本原理、特點、優(yōu)缺點。（3）應(yīng)用Weka軟件，學(xué)會導(dǎo)入數(shù)據(jù)文件，并對數(shù)據(jù)文件進(jìn)行預(yù)處理。（4）學(xué)會并應(yīng)用劃分方法中K均值和K中心點算法對數(shù)據(jù)集進(jìn)行聚類分析。二、實驗準(zhǔn)備：Bank-data三、實驗要求：用劃分方法中K均值和K中心點算

2、法對數(shù)據(jù)集進(jìn)行聚類分析四、實驗內(nèi)容：4.1相關(guān)知識聚類分析中的“類”（cluster）和前面分類的“類”（class）是不同的，對cluster更加準(zhǔn)確的翻譯應(yīng)該是“簇”。聚類的任務(wù)是把所有的實例分配到若干的簇，使得同一個簇的實例聚集在一個簇中心的周圍，它們之間距離的比較近；而不同簇實例之間的距離比較遠(yuǎn)。對于由數(shù)值型屬性刻畫的實例來說，這個距離通常指歐氏距離。聚類分析中使用最常見的K均值（K-means）算法。K均值聚類方法的步驟如下。（1）K均值算法首先隨機(jī)的指定K個簇中心。（2）將每個實例分配到距它最近的簇中心，得到K個簇；（3）計分別計算各簇中所有實例的均值，把它們作為各簇新的簇中心。

3、重復(fù)（2）和（3），直到K個簇中心的位置都固定，簇的分配也固定。上述K均值算法只能處理數(shù)值型的屬性，遇到分類型的屬性時要把它變?yōu)槿舾蓚€取值0和1的屬性。WEKA將自動實施這個分類型到數(shù)值型的變換，而且Weka會自動對數(shù)值型的數(shù)據(jù)作標(biāo)準(zhǔn)化。Weka中列出了很多聚類算法。對于EM實現(xiàn)，用戶可指定需要產(chǎn)生多少聚類，否則所用的算法可通過交叉驗證來決定，在這種情況下，折的數(shù)量固定為10（除非訓(xùn)練實例小于10個）。用戶可指定循環(huán)次數(shù)的最大值，并且為正常的密度計算設(shè)定可允許的最小標(biāo)準(zhǔn)差。SimpleKMeans使用k均值來聚類數(shù)據(jù)；聚類的數(shù)量通過一個參數(shù)設(shè)定。Cobweb實現(xiàn)了用于名詞屬性的Cobweb算法

4、和用于數(shù)值性屬性的Classit算法。FarthestFirst實現(xiàn)Hochbaum和Shmoys遠(yuǎn)端優(yōu)先遍歷算法。MakeDensityBaseCluster是一個元聚類器，它包裝一個聚類算法，使其返回一個概率分布和密度。它為每個聚類擬合一個離散分布，或一個對稱的正態(tài)分布。4.2實驗操作（1）在開始程序（或者桌面圖標(biāo)）中找到WEKA3.6.2，單擊即可啟動WEKA，啟動WEKA時會發(fā)現(xiàn)首先出現(xiàn)的一個命令提示符。接著將出現(xiàn)如下Weka GUI Chooser界面。（2）選擇GUI Chooser中的探索者（Explorer）用戶界面。點擊預(yù)處理（Preprocess）功能按鈕的，Open fi

5、le，選擇其中的“bank-data”數(shù)據(jù)作關(guān)聯(lián)規(guī)則的分析。打開“bank-data.csv”，可以看到“Current relation”、“Attributes”“Selected attribute”三個區(qū)域。（3）對于原始數(shù)據(jù)“bank-data.csv”的預(yù)處，刪去屬性“id”，保存為ARFF格式后，修改屬性“children”為分類型。這樣得到的數(shù)據(jù)文件為“bank.arff”，含600條實例。（4）用“Explorer”打開剛才得到的“bank.arff”，并切換到“Cluster”選項卡。點擊“Choose” 在隨后打開的層級式菜單中的選擇“SimpleKMeans”，這是WE

6、KA中實現(xiàn)K均值的算法。點擊旁邊的文本框，修改“numClusters”為6，說明我們希望把這600條實例聚成6類，即K=6。下面的“seed”參數(shù)是要設(shè)置一個隨機(jī)種子，依此產(chǎn)生一個隨機(jī)數(shù)，用來得到K均值算法中第一次給出的K個簇中心的位置，先設(shè)定為10。（7）選中“Cluster Mode”的“Use training set”，點擊“Start”按鈕，觀察右邊“Clusterer output”給出的聚類結(jié)果。也可以在左下角“Result list”中這次產(chǎn)生的結(jié)果上點右鍵，“View in separate window”在新窗口中瀏覽結(jié)果。（8）實驗結(jié)果：結(jié)果中有這么一行字樣： With

7、in cluster sum of squared errors: 1604.23這是評價聚類好壞的標(biāo)準(zhǔn)，數(shù)值越小說明同一簇實例之間的距離越小。 “seed”參數(shù)的變化，導(dǎo)致得到的這個數(shù)值也發(fā)生變化。通過多嘗試變化seed值，并取使得數(shù)值最小的seed值。接下來“Cluster centroids:”之后列出了各個簇中心的位置。對于數(shù)值型的屬性，簇中心就是它的均值（Mean）；分類型的就是它的眾數(shù)（Mode），也就是說這個屬性上取值為眾數(shù)值的實例最多。對于數(shù)值型的屬性，還給出了它在各個簇里的標(biāo)準(zhǔn)差（Std Devs）。最后的“Clustered Instances”是各個簇中實例的數(shù)目及

8、百分比。為了觀察可視化的聚類結(jié)果，在左下方“Result list”列出的結(jié)果上右擊，點“Visualize cluster assignments”。彈出的窗口給出了各實例的散點圖。最上方的兩個框是選擇橫坐標(biāo)和縱坐標(biāo)，第二行的“color”是散點圖著色的依據(jù)，默認(rèn)是根據(jù)不同的簇“Cluster”給實例標(biāo)上不同的顏色?？梢栽谶@里點“Save”把聚類結(jié)果保存成ARFF文件。在這個新的ARFF文件中，“instance_number”屬性表示某實例的編號，“Cluster”屬性表示聚類算法給出的該實例所在的簇。4.3擴(kuò)展學(xué)習(xí)（1）選擇其他數(shù)據(jù)集來對其進(jìn)行k-means聚類分析，并對其聚類結(jié)果進(jìn)行分析研究。（2）通過對其參數(shù)的修正完善加深理解k-means聚類分析算法

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于劃分方法的聚類分析

文檔簡介

溫馨提示

最新文檔

評論

基于劃分方法的聚類分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔