數(shù)據(jù)挖掘方法聚類分析

上傳人：卓*** IP屬地：廣東上傳時間：2023-02-25 格式：PPT 頁數(shù)：61 大小：2.93MB 積分：18 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩56頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘方法聚類分析第一頁，共六十一頁，2022年，8月28日

“物以類聚,人以群分”，科學(xué)研究在揭示對象特點(diǎn)及其相互作用的過程中,不惜花費(fèi)時間和精力進(jìn)行對象分類，以揭示其中相同和不相同的特征。第二頁，共六十一頁，2022年，8月28日

聚類分析（ClusterAnalysis）是研究“物以類聚”的一種多元統(tǒng)計(jì)方法。國內(nèi)有人稱它為群分析、點(diǎn)群分析、簇群分析、集群分析等。第三頁，共六十一頁，2022年，8月28日在解剖學(xué)研究中，希望能依據(jù)骨骼的形狀、大小等特征將人類從猿到人分為幾個不同的階段；在臨床診治中，希望能根據(jù)耳朵的特征，把正常耳朵劃分為幾個類別，為臨床修復(fù)耳缺損時提供參考；在衛(wèi)生管理學(xué)中，希望能根據(jù)醫(yī)院的診治水平、工作效率等眾多指標(biāo)將醫(yī)院分成幾個類別；在營養(yǎng)學(xué)研究中，如何能根據(jù)各種運(yùn)動的耗糖量和耗能量將十幾種運(yùn)動按耗糖量和耗能量進(jìn)行分類，使?fàn)I養(yǎng)學(xué)家既能對運(yùn)動員適當(dāng)?shù)难a(bǔ)充能量，又不增加體重。在醫(yī)學(xué)研究中的聚類需求舉例：第四頁，共六十一頁，2022年，8月28日聚類分析的方向：聚類分析(clusteranalysis)是將樣本個體或指標(biāo)變量按其具有的特性進(jìn)行分類的一種統(tǒng)計(jì)分析方法。對樣本進(jìn)行聚類，稱為樣本(Q型)聚類分析。其目的是將分類不明確的樣本按性質(zhì)相似程度分成若干組，從而發(fā)現(xiàn)同類樣本的共性和不同類樣本間的差異。對指標(biāo)進(jìn)行聚類，稱為指標(biāo)（R型）聚類分析。其目的是將分類不明確的指標(biāo)按性質(zhì)相似程度分成若干組，從而在盡量不損失信息的條件下，用一組少量的指標(biāo)來代替原來的多個指標(biāo)（主成分分析？因子分析？）。第五頁，共六十一頁，2022年，8月28日在醫(yī)生醫(yī)療質(zhì)量研究中，有n個醫(yī)生參加醫(yī)療質(zhì)量評比，每一個醫(yī)生有k個醫(yī)療質(zhì)量指標(biāo)被記錄。利用聚類分析可以將n個醫(yī)生按其醫(yī)療質(zhì)量的優(yōu)劣分成幾類，或者把k個醫(yī)療質(zhì)量指標(biāo)按反映的問題側(cè)重點(diǎn)不同分成幾類。在冠心病研究中，觀察n個病人的k個觀察指標(biāo)，并利用聚類分析方法分析這n個病人各自屬于哪一類別，相似的病人可以采取相似的治療措施；同時也能將k個指標(biāo)分類，找出說明病人病情不同方面的指標(biāo)類，幫助醫(yī)生更好地全面了解病人病情。例如：第六頁，共六十一頁，2022年，8月28日聚類分析不同于因素分析：因素分析是根據(jù)所有變量間的相關(guān)關(guān)系提取公共因子；聚類分析是先將最相似的兩個變量聚為一小類，再去與最相似的變量或小類合并，如此分層依次進(jìn)行；聚類分析也不同于判別分析：判別分析是要先知道各種類，然后判斷某個案是否屬于某一類。第七頁，共六十一頁，2022年，8月28日聚類分析（聚類）：把總體中性質(zhì)相近的歸為一類，把性質(zhì)不相近的歸為其他類。判別分析（分類）：已知總體分類，判別樣本屬于總體中的哪一類。第八頁，共六十一頁，2022年，8月28日問題:如何刻畫樣本/特征變量間的親疏關(guān)系或相似程度？第九頁，共六十一頁，2022年，8月28日聚類分析的基本原理聚類分析是一種數(shù)值分類方法（即完全是根據(jù)數(shù)據(jù)關(guān)系）。要進(jìn)行聚類分析就要首先建立一個由某些事物屬性構(gòu)成的指標(biāo)體系，或者說是一個變量組合。入選的每個指標(biāo)必須能刻畫事物屬性的某個側(cè)面，所有指標(biāo)組合起來形成一個完備的指標(biāo)體系，它們互相配合可以共同刻畫事物的特征。所謂完備的指標(biāo)體系，是說入選的指標(biāo)是充分的，其它任何新增變量對辨別事物差異無顯著性貢獻(xiàn)。如果所選指標(biāo)不完備，則導(dǎo)致分類偏差。

簡單地說，聚類分析的結(jié)果取決于變量的選擇和變量值獲取的兩個方面。變量選擇越準(zhǔn)確、測量越可靠，得到的分類結(jié)果越是能描述事物各類間的本質(zhì)區(qū)別。第十頁，共六十一頁，2022年，8月28日聚類分析完全是根據(jù)數(shù)據(jù)情況來進(jìn)行的。就一個由n個樣本、k個特征變量組成的數(shù)據(jù)文件來說，當(dāng)對樣本進(jìn)行聚類分析時，相當(dāng)于對k維坐標(biāo)系中的n個點(diǎn)進(jìn)行分組，所依據(jù)的是它們的距離；當(dāng)對變量進(jìn)行聚類分析時，相當(dāng)于對n維坐標(biāo)系中的k個點(diǎn)進(jìn)行分組，所依據(jù)的也是點(diǎn)距。所以距離或相似性程度是聚類分析的基礎(chǔ)。點(diǎn)距如何計(jì)算呢？拿連續(xù)測量的變量來說，可以用歐氏距離平方計(jì)算：即各變量差值的平方和。第十一頁，共六十一頁，2022年，8月28日1.聚類分析的前期準(zhǔn)備工作聚類分析是以完備的數(shù)據(jù)文件為基礎(chǔ)的，這一數(shù)據(jù)文件除觀測變量比較完備之外，一般還要求各個觀測變量的量綱一致，即各變量取值的數(shù)量級一致，否則各變量在描述客觀事物某方面特征差異性的作用有被夸大或縮小的可能。所以，聚類分析前要檢查各變量的量綱是否一致，不一致則需進(jìn)行轉(zhuǎn)換，如將各變量均作標(biāo)準(zhǔn)化轉(zhuǎn)換就可保證量綱一致。2.各數(shù)據(jù)挖掘工具中聚類分析的主要方法第十二頁，共六十一頁，2022年，8月28日聚類分析的基本思想是認(rèn)為我們所研究的樣本或指標(biāo)（變量）之間存在著程度不同的相似性（親疏關(guān)系）。于是根據(jù)一批樣本的多個觀測指標(biāo)，具體找出一些彼此之間相似程度較大的樣本（或指標(biāo)）聚合為一類，把另外一些彼此之間相似程度較大的樣本（或指標(biāo)）又聚合為另一類，關(guān)系密切的聚合到一個小的分類單位，關(guān)系疏遠(yuǎn)的聚合到一個大的分類單位，直到把所有樣本（或指標(biāo)）都聚合完畢，把不同的類型一一劃分出來，形成一個由小到大的分類系統(tǒng)。最后把整個分類系統(tǒng)畫成一張譜系圖，用它把所有樣本（或指標(biāo)）間的親疏關(guān)系表示出來。這種方法是最常用的、最基本的一種，稱為系統(tǒng)聚類分析。第十三頁，共六十一頁，2022年，8月28日聚類分析的統(tǒng)計(jì)量數(shù)據(jù)從幾何學(xué)角度看，上面表中的每一行或每一列都表示了空間中的一個點(diǎn)或一個向量。第十四頁，共六十一頁，2022年，8月28日1、描述兩個樣本之間的相似程度:

距離令Xi=(xi1…xit…xik)是第i個樣本觀察值，Xj=(xj1…xjt…xjk)是第j個樣本觀察值，那么，樣本Xi和Xj之間的歐氏距離是：* 距離越小，說明兩個樣本的性質(zhì)越相似。* 它的取值大小受量綱影響，不穩(wěn)定。因此，一般使用標(biāo)準(zhǔn)化的距離公式。第十五頁，共六十一頁，2022年，8月28日令Xs=(x1s…xis…xns)是第s個指標(biāo)變量，Xt=(x1t…xit…xnt)是第t個指標(biāo)變量，那么，指標(biāo)變量Xs和Xt之間的相關(guān)系數(shù)是：2、描述兩個指標(biāo)變量之間的相似程度：相似系數(shù)* 相關(guān)系數(shù)越大，說明兩個指標(biāo)變量的性質(zhì)越相似。* 這是一個無量綱統(tǒng)計(jì)量。第十六頁，共六十一頁，2022年，8月28日令類A和類B中各有a和b個樣本，D(i,j)為類A中第i個樣本與類B中第j個樣本之間的距離；假設(shè)D(A,B)為類A和類B之間的距離，那么，常用的幾種類間距離定義的方法是：3、度量類與類之間的距離：類間距離1）最短距離法，類間距離等于兩類中距離最小的一對樣本之間的距離，即，D(A,B)=min{D(i,j)}。2）最長距離法，類間距離等于兩類中距離最大的一對樣本之間的距離，即，D(A,B)=max{D(i,j)}。第十七頁，共六十一頁，2022年，8月28日3）重心距離法，類間距離等于兩類的重心之間的距離，即，D(A,B)=d(Xa,Xb)，其中Xa和Xb分別是類A和類B的重心，即類內(nèi)所有樣本的均值坐標(biāo)。4）平均距離法，類間距離等于兩類中所有樣本對之間距離的平均值，即，D(A,B)={sumD(i,j)}/(ab)。5）中間距離法，類間距離等于兩類中所有樣本對之間距離的中間值，即，D(A,B)=median{D(i,j)}。*類間距離越小，說明兩個類內(nèi)的樣品性質(zhì)越相似。第十八頁，共六十一頁，2022年，8月28日*4、度量類與類之間的相似系數(shù)：類間相似系數(shù) 令類A和類B中各有a和b個指標(biāo)變量，Za和Zb分別是由類A和類B中所有指標(biāo)變量的線性組合構(gòu)成的新變量（稱為類成分），例如：

Za=a1X1+a2X2Zb=b1X3+b2X4+b3X5

且它們的組合系數(shù)使得這兩個新變量具有最大的方差，則稱Za和Zb之間的相關(guān)系數(shù)為類A和類B之間的相關(guān)系數(shù)。說明：類間相似系數(shù)越大，說明兩個類內(nèi)的指標(biāo)變量性質(zhì)越相似。第十九頁，共六十一頁，2022年，8月28日舉例

第二十頁，共六十一頁，2022年，8月28日第二十一頁，共六十一頁，2022年，8月28日第二十二頁，共六十一頁，2022年，8月28日距離(distance)或稱相似度(similarity)兩點(diǎn)之間的距離：歐氏距離(Euclideandistance)歐氏距離的平方(squaredEuclideandistance)曼哈頓距離(Manhattandistance;City-Block)A1A2A3第二十三頁，共六十一頁，2022年，8月28日關(guān)于曼哈頓距離

曼哈頓距離——兩點(diǎn)在南北方向上的距離加上在東西方上的距離，即D（I，J）=|XI-XJ|+|YI-YJ|。對于一個具有正南正北、正東正西方向規(guī)則布局的城鎮(zhèn)街道，從一點(diǎn)到達(dá)另一點(diǎn)的距離正是在南北方向上旅行的距離加上在東西方向上旅行的距離因此曼哈頓距離又稱為出租車距離。第二十四頁，共六十一頁，2022年，8月28日類間距離:單一連接法(singlelinkage)：又稱最短距離法。完全連接法(completelinkage)：又稱最長距離法。平均連接法(averagelinkage)重心法(centroidmethod)第二十五頁，共六十一頁，2022年，8月28日ABC第二十六頁，共六十一頁，2022年，8月28日算法聚類分析算法，不需要事先知道資料該分成幾個已知的類型，而可以依照資料間彼此的相關(guān)程度來完成分類分群的目的。此法可概分為：分割算法(PartitioningAlgorithms)，層次算法(HierarchicalAlgorithms)，密度型算法(Density-BasedAlgorithms)第二十七頁，共六十一頁，2022年，8月28日分割算法數(shù)據(jù)由使用者指定分割成K個集群群組。每一個分割(partition)代表一個集群(cluster)，集群是以最佳化分割標(biāo)準(zhǔn)(partitioningcriterion)為目標(biāo)，分割標(biāo)準(zhǔn)的目標(biāo)函數(shù)又稱為相似函數(shù)(similarityfunction)。因此，同一集群的數(shù)據(jù)對象具有相類似的屬性。分割算法中最常見的是k-平均方法（K-means）k-中心點(diǎn)方法（K-medoid）兩種方法都是屬于啟發(fā)式(heuristic)第二十八頁，共六十一頁，2022年，8月28日K-means算法：集群內(nèi)資料平均值為集群的中心K-means集群算法，因?yàn)槠浜唵我子诹私馐褂玫奶匦?，對于球體形狀(spherical-shaped)、中小型數(shù)據(jù)庫的數(shù)據(jù)挖掘有不錯的成效，可算是一種常被使用的集群算法。1967年由學(xué)者J.B.MacQueen所提出，也是最早的組群化計(jì)算技術(shù)。第二十九頁，共六十一頁，2022年，8月28日TheK-MeansClusteringMethod

Example012345678910012345678910012345678910012345678910K=2ArbitrarilychooseKobjectasinitialclustercenterAssigneachobjectstomostsimilarcenterUpdatetheclustermeansUpdatetheclustermeansreassignreassign第三十頁，共六十一頁，2022年，8月28日k-平均算法step1.任意選擇k個對象作為初始的類的中心step2.repeatstep3.根據(jù)類中文檔的平均值,將每個文檔

(重新)賦給最相近的類step4.更新類的平均值，step5.until不再發(fā)生變化,即沒有對象進(jìn)行被重新分配時過程結(jié)束。

第三十一頁，共六十一頁，2022年，8月28日K-Means特點(diǎn)該算法試圖找出使平方誤差值最小的k個劃分。當(dāng)結(jié)果簇是密集的，而簇與簇之間區(qū)分明顯時，它的效果較好。算法復(fù)雜度O（nkt），其中

t是迭代次數(shù)。因此其可擴(kuò)展性較好，對大數(shù)據(jù)集處理有較高的效率。算法常以局部最優(yōu)結(jié)束。全局最優(yōu)要窮舉所有可能的劃分。缺點(diǎn)：不適合發(fā)現(xiàn)非凸面狀的簇。不適合大小差別較大的簇。對于噪聲和孤立點(diǎn)是敏感的，由于少量的該類數(shù)據(jù)對平均值產(chǎn)生較大的]影響。第三十二頁，共六十一頁，2022年，8月28日有多種變形形式k-平均方法有多種變形形式，不同改進(jìn)在于：初始k個平均值的選擇相異度的計(jì)算計(jì)算類平均值產(chǎn)生較好聚類結(jié)果的一個有趣策略：首先用層次聚類方法決定結(jié)果簇的個數(shù)，并找到初始的聚類然后用迭代重定位來改進(jìn)聚類結(jié)果。第三十三頁，共六十一頁，2022年，8月28日K-medoid算法K-medoid算法：集群內(nèi)最接近叢集中心者為集群中心。基本上和K-means類似，不同在于K-means是以集群內(nèi)各對象的平均值為集群的中心點(diǎn)，而K-medoid是以集群內(nèi)最接近中心位置的對象為集群的中心點(diǎn)，每一回合都只針對扣除作為集群中心對象外的所有剩余對象，重新尋找最近似的集群中心。第三十四頁，共六十一頁，2022年，8月28日與K-means算法只有在步驟三計(jì)算各個集群中心點(diǎn)的方式略有不同。將步驟三改為隨意由目前不是當(dāng)作集群中心的資料中，選取一欲取代某一集群中心的對象，如果因?yàn)榧褐行母淖儯瑢?dǎo)致對象重新分配后的結(jié)果較好(目標(biāo)函數(shù)值較為理想)，則該隨意所選取的對象即取代原先的集群中心，成為新的集群中心第三十五頁，共六十一頁，2022年，8月28日K-medoids

算法第三十六頁，共六十一頁，2022年，8月28日兩種方法有一共同的缺點(diǎn)，就是事先得表示K值為何。K-means對于處理分群數(shù)據(jù)有明確集中某些地方的情形，有相當(dāng)不錯的成效，而噪聲或者獨(dú)立特行數(shù)據(jù)的處理，

K-medoid要比K-means來得好。K-means有一個比較大的限制是只適合于數(shù)值數(shù)據(jù)。但從另一個角度而言，

K-medoid相對于K-means而言計(jì)算較為復(fù)雜煩瑣。第三十七頁，共六十一頁，2022年，8月28日層次算法此法主要是將數(shù)據(jù)對象以樹狀的層次關(guān)系來看待。依層次建構(gòu)的方式，一般分成兩種來進(jìn)行：凝聚法(Agglomerative)分散法(Divisive)第三十八頁，共六十一頁，2022年，8月28日凝聚法(Agglomerative)首先將各個單一對象先獨(dú)自當(dāng)成一個叢集，然后再依相似度慢慢地將叢集合并，直到停止條件到達(dá)或者只剩一個叢集為止，此種由小量數(shù)據(jù)慢慢聚集而成的方式，又稱為底端向上法(bottomupapproach)。第三十九頁，共六十一頁，2022年，8月28日凝聚法(Agglomerative)12345第四十頁，共六十一頁，2022年，8月28日分散法(Divisive)此法首先將所有對象全部當(dāng)成一個叢集，然后再依相似度慢慢地叢集分裂，直到停止條件到達(dá)或者每個叢集只剩單一對象為止，此種由全部數(shù)據(jù)逐步分成多個叢集的方式，又稱為頂端向下法(topdownapproach)。第四十一頁，共六十一頁，2022年，8月28日密度型算法以數(shù)據(jù)的密度作為同一集群評估的依據(jù)。起始時，每個數(shù)據(jù)代表一個集群，接著對于每個集群內(nèi)的數(shù)據(jù)點(diǎn)，根據(jù)鄰近區(qū)域半徑及臨界值(threshold)，找出其半徑所含鄰近區(qū)域內(nèi)的數(shù)據(jù)點(diǎn)。如果數(shù)據(jù)點(diǎn)大于臨界值，將這些鄰近區(qū)域內(nèi)的點(diǎn)全部歸為同一集群，以此慢慢地合并擴(kuò)大集群的范圍。如果臨界值達(dá)不到，則考慮放大鄰近區(qū)域的半徑。第四十二頁，共六十一頁，2022年，8月28日密度型算法此法不受限于數(shù)值資料的問題，可適合于任意形狀數(shù)據(jù)分布的集群問題，也可以過濾掉噪聲，較適合于大型數(shù)據(jù)庫及較復(fù)雜的集群問題。算法時間的復(fù)雜度取決于基本單位的數(shù)目多寡，正常狀況下，其時間復(fù)雜度可在有限的時間內(nèi)完成。第四十三頁，共六十一頁，2022年，8月28日密度型算法缺點(diǎn)是鄰近區(qū)域范圍、及門坎值大小的設(shè)定；此兩參數(shù)的設(shè)定直接關(guān)系此算法的效果。第四十四頁，共六十一頁，2022年，8月28日通常為了得到比較合理的分類，首先必須采用適當(dāng)?shù)闹笜?biāo)來定量地描述研究對象之間的同構(gòu)型。常用的指標(biāo)為〝距離〞。第四十五頁，共六十一頁，2022年，8月28日使用weka進(jìn)行聚類分析第四十六頁，共六十一頁，2022年，8月28日1.選擇聚類器（Clusterer）

點(diǎn)擊列在窗口頂部的Clusterer欄中的

聚類算法，將彈出一個用來選擇新聚類算法的GenericObjectEditor對話框。

第四十七頁，共六十一頁，2022年，8月28日2.聚類模式

ClusterMode一欄用來決定依據(jù)什么來聚類以及如何評價(jià)聚類的結(jié)果。前三個選項(xiàng)和分類的情形是一樣的：Usetrainingset、Suppliedtestset和Percentagesplit

——區(qū)別在于現(xiàn)在的數(shù)據(jù)是要聚集到某個類中，而不是預(yù)測為某個指定的類別。第四個模式，Classestoclustersevaluation，是要比較所得到的聚類與在數(shù)據(jù)中預(yù)先給出的類別吻合得怎樣。和Classify面板一樣，下方下拉框是用來選擇作為類別的屬性的。在Clustermode之外，有一個Storeclustersforvisualization的勾選框，該框決定了在訓(xùn)練完算法后可否對數(shù)據(jù)進(jìn)行可視化。對于非常大的數(shù)據(jù)集，內(nèi)存可能成為瓶頸時，不勾選這一欄應(yīng)該會有所幫助。

第四十八頁，共六十一頁，2022年，8月28日3.忽略屬性

在對一個數(shù)據(jù)集聚類時，經(jīng)常遇到某些屬性應(yīng)該被忽略的情況。Ignoreattributes可

以彈出一個小窗口，選擇哪些是需要忽略的屬性。點(diǎn)擊窗口中單個屬性將使它高亮顯示，

按住SHIFT鍵可以連續(xù)的選擇一串屬性，按住CTRL鍵可以決定各個屬性被選與否。點(diǎn)

擊Cancel按鈕取消所作的選擇。點(diǎn)擊Select按鈕決定接受所作的選擇。下一次聚類

算法運(yùn)行時，被選的屬性將被忽略。

第四十九頁，共六十一頁，2022年，8月28日4.學(xué)習(xí)聚類Cluster面板就像Classify面板那樣，有一個Start/Stop按鈕，一個結(jié)果文本的區(qū)

域和一個結(jié)果列表。它們的用法都和分類時的一樣。右鍵點(diǎn)擊結(jié)果列表中的一個條目將彈出一個相似的菜單，只是它僅顯示兩個可視化選項(xiàng)：Visualizeclusterassignments和Visualizetree。后者在它不可用時會變灰。

第五十頁，共六十一頁，2022年，8月28日現(xiàn)在我們對前面的“bankdata”作聚類分析，使用最常見的K均值（K-means）算法。下面我們簡單描述一下K均值聚類的步驟。

K均值算法首先隨機(jī)的指定K個簇中心。然后：1)將每個樣本分配到距它最近的簇中心，得到K個簇；2)計(jì)分別計(jì)算各簇中所有樣本的均值，把它們作為各簇新的簇中心。重復(fù)1)和2)，直到K個簇中心的位置都固定，簇的分配也固定。

第五十一頁，共六十一頁，2022年，8月28日第五十二頁，共六十一頁，2022年，8月28日第五十三頁，共六十一頁，2022年，8月28日第五十四頁，共六十一頁，2022年，8月28日第五十五頁，共六十一頁，2022年，8月28日上述K均值算法只能處理數(shù)值型的屬性，遇到分類型的屬性時要把它變?yōu)槿舾蓚€取值0和1的屬性。WEKA將自動實(shí)施這個分類型到數(shù)值型的變換，而且WEKA會自動對數(shù)值型的數(shù)據(jù)作標(biāo)準(zhǔn)化。因此，對于原始數(shù)據(jù)“bank-data.csv”，我們所做的預(yù)處理只是刪去屬性“id”，保存為ARFF格式后，修改屬性“children”為分類型。這樣得到的數(shù)據(jù)文件為“bank.arff”，含300條實(shí)例。

用“Explorer”打開剛才得到的“bank.arff”，并切換到“Cluster”。點(diǎn)“Choose”按鈕選擇“SimpleKMeans”，這是WEKA中實(shí)現(xiàn)K均值的算法。點(diǎn)擊旁邊的文本框，修改“numClusters”為6，說明我們希望把這300條實(shí)例聚成6類，即K=6。下面的“seed”參數(shù)是要設(shè)置一個隨機(jī)種子，依此產(chǎn)生一個隨機(jī)數(shù)，用來得到K均值算法中第一次給出的K個簇中心的位置。我們不妨?xí)簳r讓它就為10。

選中“ClusterMode”的“Usetrainingset”，點(diǎn)擊“Start”按鈕，觀察右邊“Clustereroutput”給出的聚類結(jié)果。也可以在左下角“Resultlist”中這次產(chǎn)生的結(jié)果上點(diǎn)右鍵，“Viewinseparatewindow”在新窗口中瀏覽結(jié)果。

第五十六頁，共六十一頁，2022年，8月28日結(jié)果解釋

首先我們注意到結(jié)果中有這么一行：

Withinclustersumofsquarederrors:xxxxxxxxx

這是評價(jià)聚類好壞的標(biāo)準(zhǔn)，數(shù)值越小說明同一簇實(shí)例之間的距離越小。也許你得到的數(shù)值會不一樣；實(shí)際上如果把“seed”參數(shù)改一下，得到的這個數(shù)值就可能會不一樣。我們應(yīng)該多嘗試幾個seed，并采納這個數(shù)值最小的那個結(jié)果。

接下來“Clustercentroids:”之后列出了各個簇中心的位置。對于數(shù)值型的屬性，簇中心就是它的均值（Mean）；分類型的就是它的眾數(shù)（Mode），也就是說這個屬性上取值為眾數(shù)值的實(shí)例最多。對于數(shù)值型的屬性，還給出了它在各個簇里的標(biāo)準(zhǔn)差（StdDevs）（需要設(shè)置參數(shù)為“true”）。

最后的“ClusteredInstances”是各個簇中實(shí)例的數(shù)目及百分比。

為了觀察可視化的聚類結(jié)果，我們在左下方“Resultlist”列出的結(jié)果上右擊，點(diǎn)“Visualizeclusterassignments”。彈出的窗口給出了各實(shí)例的散點(diǎn)圖。最上方的兩個框是選擇橫坐標(biāo)和縱坐標(biāo)，第二行的“color”是散點(diǎn)圖著色的依據(jù)，默認(rèn)是根據(jù)不同的簇“Cluster”給實(shí)例標(biāo)上不同的顏色。

可以在這里點(diǎn)“Save”把聚類結(jié)果保存成ARFF文件。在這個新的ARFF文件中，“instance_number”屬性表示某實(shí)例的編號，“Cluster”屬性表示聚類算法給出的該實(shí)例所在的簇。

第五十七頁，共六十一頁，2022年，8月28日可視化

WEKA的可視化頁面可以對當(dāng)前的關(guān)系作二維散點(diǎn)圖式的可視化瀏覽。

1.散點(diǎn)圖矩陣

選擇了Visualize面板后，會為所有的屬性給出一個散點(diǎn)圖矩陣，它們會根據(jù)所選的class屬性來著色。在這里可以改變每個二維散點(diǎn)圖的大小，改變各點(diǎn)的大小，以及隨機(jī)地抖動（jitter）數(shù)據(jù)（使得被隱藏的點(diǎn)顯示出來）。也可以改變用來著色的屬性，可以只選擇一組屬性的子集放在散點(diǎn)圖矩陣中，還可以取出數(shù)據(jù)的一個子樣本。注意這些改變只有在點(diǎn)擊了Update了按鈕之后才會生效。

第五十八頁，共六十一頁，2022年，8月28日2.選擇單獨(dú)的二維散點(diǎn)圖

在散點(diǎn)圖矩陣的一個元素上點(diǎn)擊后，會彈出一個單獨(dú)的窗口對所選的散點(diǎn)圖進(jìn)行可視。（前面我們描述了如何在單獨(dú)的窗口中對某個特定的結(jié)果進(jìn)行可視化——例如分類誤差——這里用了相同的可視化控件。）數(shù)據(jù)點(diǎn)散布在窗口的主要區(qū)域里。上方是兩個下拉框

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘方法聚類分析

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)挖掘方法聚類分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔