數(shù)據(jù)挖掘方法聚類分析_第1頁
數(shù)據(jù)挖掘方法聚類分析_第2頁
數(shù)據(jù)挖掘方法聚類分析_第3頁
數(shù)據(jù)挖掘方法聚類分析_第4頁
數(shù)據(jù)挖掘方法聚類分析_第5頁
已閱讀5頁,還剩56頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘方法聚類分析第一頁,共六十一頁,2022年,8月28日

“物以類聚,人以群分”,科學(xué)研究在揭示對(duì)象特點(diǎn)及其相互作用的過程中,不惜花費(fèi)時(shí)間和精力進(jìn)行對(duì)象分類,以揭示其中相同和不相同的特征。第二頁,共六十一頁,2022年,8月28日

聚類分析(ClusterAnalysis)是研究“物以類聚”的一種多元統(tǒng)計(jì)方法。國(guó)內(nèi)有人稱它為群分析、點(diǎn)群分析、簇群分析、集群分析等。第三頁,共六十一頁,2022年,8月28日在解剖學(xué)研究中,希望能依據(jù)骨骼的形狀、大小等特征將人類從猿到人分為幾個(gè)不同的階段;在臨床診治中,希望能根據(jù)耳朵的特征,把正常耳朵劃分為幾個(gè)類別,為臨床修復(fù)耳缺損時(shí)提供參考;在衛(wèi)生管理學(xué)中,希望能根據(jù)醫(yī)院的診治水平、工作效率等眾多指標(biāo)將醫(yī)院分成幾個(gè)類別;在營(yíng)養(yǎng)學(xué)研究中,如何能根據(jù)各種運(yùn)動(dòng)的耗糖量和耗能量將十幾種運(yùn)動(dòng)按耗糖量和耗能量進(jìn)行分類,使?fàn)I養(yǎng)學(xué)家既能對(duì)運(yùn)動(dòng)員適當(dāng)?shù)难a(bǔ)充能量,又不增加體重。在醫(yī)學(xué)研究中的聚類需求舉例:第四頁,共六十一頁,2022年,8月28日聚類分析的方向:聚類分析(clusteranalysis)是將樣本個(gè)體或指標(biāo)變量按其具有的特性進(jìn)行分類的一種統(tǒng)計(jì)分析方法。對(duì)樣本進(jìn)行聚類,稱為樣本(Q型)聚類分析。其目的是將分類不明確的樣本按性質(zhì)相似程度分成若干組,從而發(fā)現(xiàn)同類樣本的共性和不同類樣本間的差異。對(duì)指標(biāo)進(jìn)行聚類,稱為指標(biāo)(R型)聚類分析。其目的是將分類不明確的指標(biāo)按性質(zhì)相似程度分成若干組,從而在盡量不損失信息的條件下,用一組少量的指標(biāo)來代替原來的多個(gè)指標(biāo)(主成分分析?因子分析?)。第五頁,共六十一頁,2022年,8月28日在醫(yī)生醫(yī)療質(zhì)量研究中,有n個(gè)醫(yī)生參加醫(yī)療質(zhì)量評(píng)比,每一個(gè)醫(yī)生有k個(gè)醫(yī)療質(zhì)量指標(biāo)被記錄。利用聚類分析可以將n個(gè)醫(yī)生按其醫(yī)療質(zhì)量的優(yōu)劣分成幾類,或者把k個(gè)醫(yī)療質(zhì)量指標(biāo)按反映的問題側(cè)重點(diǎn)不同分成幾類。在冠心病研究中,觀察n個(gè)病人的k個(gè)觀察指標(biāo),并利用聚類分析方法分析這n個(gè)病人各自屬于哪一類別,相似的病人可以采取相似的治療措施;同時(shí)也能將k個(gè)指標(biāo)分類,找出說明病人病情不同方面的指標(biāo)類,幫助醫(yī)生更好地全面了解病人病情。例如:第六頁,共六十一頁,2022年,8月28日聚類分析不同于因素分析:因素分析是根據(jù)所有變量間的相關(guān)關(guān)系提取公共因子;聚類分析是先將最相似的兩個(gè)變量聚為一小類,再去與最相似的變量或小類合并,如此分層依次進(jìn)行;聚類分析也不同于判別分析:判別分析是要先知道各種類,然后判斷某個(gè)案是否屬于某一類。第七頁,共六十一頁,2022年,8月28日聚類分析(聚類):把總體中性質(zhì)相近的歸為一類,把性質(zhì)不相近的歸為其他類。判別分析(分類):已知總體分類,判別樣本屬于總體中的哪一類。第八頁,共六十一頁,2022年,8月28日問題:如何刻畫樣本/特征變量間的親疏關(guān)系或相似程度?第九頁,共六十一頁,2022年,8月28日聚類分析的基本原理聚類分析是一種數(shù)值分類方法(即完全是根據(jù)數(shù)據(jù)關(guān)系)。要進(jìn)行聚類分析就要首先建立一個(gè)由某些事物屬性構(gòu)成的指標(biāo)體系,或者說是一個(gè)變量組合。入選的每個(gè)指標(biāo)必須能刻畫事物屬性的某個(gè)側(cè)面,所有指標(biāo)組合起來形成一個(gè)完備的指標(biāo)體系,它們互相配合可以共同刻畫事物的特征。所謂完備的指標(biāo)體系,是說入選的指標(biāo)是充分的,其它任何新增變量對(duì)辨別事物差異無顯著性貢獻(xiàn)。如果所選指標(biāo)不完備,則導(dǎo)致分類偏差。

簡(jiǎn)單地說,聚類分析的結(jié)果取決于變量的選擇和變量值獲取的兩個(gè)方面。變量選擇越準(zhǔn)確、測(cè)量越可靠,得到的分類結(jié)果越是能描述事物各類間的本質(zhì)區(qū)別。第十頁,共六十一頁,2022年,8月28日聚類分析完全是根據(jù)數(shù)據(jù)情況來進(jìn)行的。就一個(gè)由n個(gè)樣本、k個(gè)特征變量組成的數(shù)據(jù)文件來說,當(dāng)對(duì)樣本進(jìn)行聚類分析時(shí),相當(dāng)于對(duì)k維坐標(biāo)系中的n個(gè)點(diǎn)進(jìn)行分組,所依據(jù)的是它們的距離;當(dāng)對(duì)變量進(jìn)行聚類分析時(shí),相當(dāng)于對(duì)n維坐標(biāo)系中的k個(gè)點(diǎn)進(jìn)行分組,所依據(jù)的也是點(diǎn)距。所以距離或相似性程度是聚類分析的基礎(chǔ)。點(diǎn)距如何計(jì)算呢?拿連續(xù)測(cè)量的變量來說,可以用歐氏距離平方計(jì)算:即各變量差值的平方和。第十一頁,共六十一頁,2022年,8月28日1.聚類分析的前期準(zhǔn)備工作聚類分析是以完備的數(shù)據(jù)文件為基礎(chǔ)的,這一數(shù)據(jù)文件除觀測(cè)變量比較完備之外,一般還要求各個(gè)觀測(cè)變量的量綱一致,即各變量取值的數(shù)量級(jí)一致,否則各變量在描述客觀事物某方面特征差異性的作用有被夸大或縮小的可能。所以,聚類分析前要檢查各變量的量綱是否一致,不一致則需進(jìn)行轉(zhuǎn)換,如將各變量均作標(biāo)準(zhǔn)化轉(zhuǎn)換就可保證量綱一致。2.各數(shù)據(jù)挖掘工具中聚類分析的主要方法第十二頁,共六十一頁,2022年,8月28日聚類分析的基本思想是認(rèn)為我們所研究的樣本或指標(biāo)(變量)之間存在著程度不同的相似性(親疏關(guān)系)。于是根據(jù)一批樣本的多個(gè)觀測(cè)指標(biāo),具體找出一些彼此之間相似程度較大的樣本(或指標(biāo))聚合為一類,把另外一些彼此之間相似程度較大的樣本(或指標(biāo))又聚合為另一類,關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到把所有樣本(或指標(biāo))都聚合完畢,把不同的類型一一劃分出來,形成一個(gè)由小到大的分類系統(tǒng)。最后把整個(gè)分類系統(tǒng)畫成一張譜系圖,用它把所有樣本(或指標(biāo))間的親疏關(guān)系表示出來。這種方法是最常用的、最基本的一種,稱為系統(tǒng)聚類分析。第十三頁,共六十一頁,2022年,8月28日聚類分析的統(tǒng)計(jì)量數(shù)據(jù)從幾何學(xué)角度看,上面表中的每一行或每一列都表示了空間中的一個(gè)點(diǎn)或一個(gè)向量。第十四頁,共六十一頁,2022年,8月28日1、描述兩個(gè)樣本之間的相似程度:

距離 令Xi=(xi1…xit…xik)是第i個(gè)樣本觀察值,Xj=(xj1…xjt…xjk)是第j個(gè)樣本觀察值,那么,樣本Xi和Xj之間的歐氏距離是:* 距離越小,說明兩個(gè)樣本的性質(zhì)越相似。* 它的取值大小受量綱影響,不穩(wěn)定。因此,一般使用標(biāo)準(zhǔn)化的距離公式。第十五頁,共六十一頁,2022年,8月28日令Xs=(x1s…xis…xns)是第s個(gè)指標(biāo)變量,Xt=(x1t…xit…xnt)是第t個(gè)指標(biāo)變量,那么,指標(biāo)變量Xs和Xt之間的相關(guān)系數(shù)是:2、描述兩個(gè)指標(biāo)變量之間的相似程度:相似系數(shù)* 相關(guān)系數(shù)越大,說明兩個(gè)指標(biāo)變量的性質(zhì)越相似。* 這是一個(gè)無量綱統(tǒng)計(jì)量。第十六頁,共六十一頁,2022年,8月28日 令類A和類B中各有a和b個(gè)樣本,D(i,j)為類A中第i個(gè)樣本與類B中第j個(gè)樣本之間的距離;假設(shè)D(A,B)為類A和類B之間的距離,那么,常用的幾種類間距離定義的方法是:3、度量類與類之間的距離:類間距離1)最短距離法,類間距離等于兩類中距離最小的一對(duì)樣本之間的距離,即,D(A,B)=min{D(i,j)}。2)最長(zhǎng)距離法,類間距離等于兩類中距離最大的一對(duì)樣本之間的距離,即,D(A,B)=max{D(i,j)}。第十七頁,共六十一頁,2022年,8月28日3)重心距離法,類間距離等于兩類的重心之間的距離,即,D(A,B)=d(Xa,Xb),其中Xa和Xb分別是類A和類B的重心,即類內(nèi)所有樣本的均值坐標(biāo)。4)平均距離法,類間距離等于兩類中所有樣本對(duì)之間距離的平均值,即,D(A,B)={sumD(i,j)}/(ab)。5)中間距離法,類間距離等于兩類中所有樣本對(duì)之間距離的中間值,即,D(A,B)=median{D(i,j)}。*類間距離越小,說明兩個(gè)類內(nèi)的樣品性質(zhì)越相似。第十八頁,共六十一頁,2022年,8月28日*4、度量類與類之間的相似系數(shù):類間相似系數(shù) 令類A和類B中各有a和b個(gè)指標(biāo)變量,Za和Zb分別是由類A和類B中所有指標(biāo)變量的線性組合構(gòu)成的新變量(稱為類成分),例如:

Za=a1X1+a2X2Zb=b1X3+b2X4+b3X5

且它們的組合系數(shù)使得這兩個(gè)新變量具有最大的方差,則稱Za和Zb之間的相關(guān)系數(shù)為類A和類B之間的相關(guān)系數(shù)。說明:類間相似系數(shù)越大,說明兩個(gè)類內(nèi)的指標(biāo)變量性質(zhì)越相似。第十九頁,共六十一頁,2022年,8月28日舉例

第二十頁,共六十一頁,2022年,8月28日第二十一頁,共六十一頁,2022年,8月28日第二十二頁,共六十一頁,2022年,8月28日距離(distance)或稱相似度(similarity)兩點(diǎn)之間的距離:歐氏距離(Euclideandistance)歐氏距離的平方(squaredEuclideandistance)曼哈頓距離(Manhattandistance;City-Block)A1A2A3第二十三頁,共六十一頁,2022年,8月28日關(guān)于曼哈頓距離

曼哈頓距離——兩點(diǎn)在南北方向上的距離加上在東西方上的距離,即D(I,J)=|XI-XJ|+|YI-YJ|。對(duì)于一個(gè)具有正南正北、正東正西方向規(guī)則布局的城鎮(zhèn)街道,從一點(diǎn)到達(dá)另一點(diǎn)的距離正是在南北方向上旅行的距離加上在東西方向上旅行的距離因此曼哈頓距離又稱為出租車距離。第二十四頁,共六十一頁,2022年,8月28日類間距離:單一連接法(singlelinkage):又稱最短距離法。完全連接法(completelinkage):又稱最長(zhǎng)距離法。平均連接法(averagelinkage)重心法(centroidmethod)第二十五頁,共六十一頁,2022年,8月28日ABC第二十六頁,共六十一頁,2022年,8月28日算法聚類分析算法,不需要事先知道資料該分成幾個(gè)已知的類型,而可以依照資料間彼此的相關(guān)程度來完成分類分群的目的。此法可概分為:分割算法(PartitioningAlgorithms),層次算法(HierarchicalAlgorithms),密度型算法(Density-BasedAlgorithms)第二十七頁,共六十一頁,2022年,8月28日分割算法數(shù)據(jù)由使用者指定分割成K個(gè)集群群組。每一個(gè)分割(partition)代表一個(gè)集群(cluster),集群是以最佳化分割標(biāo)準(zhǔn)(partitioningcriterion)為目標(biāo),分割標(biāo)準(zhǔn)的目標(biāo)函數(shù)又稱為相似函數(shù)(similarityfunction)。因此,同一集群的數(shù)據(jù)對(duì)象具有相類似的屬性。分割算法中最常見的是k-平均方法(K-means)k-中心點(diǎn)方法(K-medoid)兩種方法都是屬于啟發(fā)式(heuristic)第二十八頁,共六十一頁,2022年,8月28日K-means算法:集群內(nèi)資料平均值為集群的中心K-means集群算法,因?yàn)槠浜?jiǎn)單易于了解使用的特性,對(duì)于球體形狀(spherical-shaped)、中小型數(shù)據(jù)庫的數(shù)據(jù)挖掘有不錯(cuò)的成效,可算是一種常被使用的集群算法。1967年由學(xué)者J.B.MacQueen所提出,也是最早的組群化計(jì)算技術(shù)。第二十九頁,共六十一頁,2022年,8月28日TheK-MeansClusteringMethod

Example012345678910012345678910012345678910012345678910K=2ArbitrarilychooseKobjectasinitialclustercenterAssigneachobjectstomostsimilarcenterUpdatetheclustermeansUpdatetheclustermeansreassignreassign第三十頁,共六十一頁,2022年,8月28日k-平均算法step1.任意選擇k個(gè)對(duì)象作為初始的類的中心step2.repeatstep3.根據(jù)類中文檔的平均值,將每個(gè)文檔

(重新)賦給最相近的類step4.更新類的平均值,step5.until不再發(fā)生變化,即沒有對(duì)象進(jìn)行被重新分配時(shí)過程結(jié)束。

第三十一頁,共六十一頁,2022年,8月28日K-Means特點(diǎn)該算法試圖找出使平方誤差值最小的k個(gè)劃分。當(dāng)結(jié)果簇是密集的,而簇與簇之間區(qū)分明顯時(shí),它的效果較好。算法復(fù)雜度O(nkt),其中

t是迭代次數(shù)。因此其可擴(kuò)展性較好,對(duì)大數(shù)據(jù)集處理有較高的效率。算法常以局部最優(yōu)結(jié)束。全局最優(yōu)要窮舉所有可能的劃分。缺點(diǎn):不適合發(fā)現(xiàn)非凸面狀的簇。不適合大小差別較大的簇。對(duì)于噪聲和孤立點(diǎn)是敏感的,由于少量的該類數(shù)據(jù)對(duì)平均值產(chǎn)生較大的]影響。第三十二頁,共六十一頁,2022年,8月28日有多種變形形式k-平均方法有多種變形形式,不同改進(jìn)在于:初始k個(gè)平均值的選擇相異度的計(jì)算計(jì)算類平均值產(chǎn)生較好聚類結(jié)果的一個(gè)有趣策略:首先用層次聚類方法決定結(jié)果簇的個(gè)數(shù),并找到初始的聚類然后用迭代重定位來改進(jìn)聚類結(jié)果。第三十三頁,共六十一頁,2022年,8月28日K-medoid算法K-medoid算法:集群內(nèi)最接近叢集中心者為集群中心?;旧虾蚄-means類似,不同在于K-means是以集群內(nèi)各對(duì)象的平均值為集群的中心點(diǎn),而K-medoid是以集群內(nèi)最接近中心位置的對(duì)象為集群的中心點(diǎn),每一回合都只針對(duì)扣除作為集群中心對(duì)象外的所有剩余對(duì)象,重新尋找最近似的集群中心。第三十四頁,共六十一頁,2022年,8月28日與K-means算法只有在步驟三計(jì)算各個(gè)集群中心點(diǎn)的方式略有不同。將步驟三改為隨意由目前不是當(dāng)作集群中心的資料中,選取一欲取代某一集群中心的對(duì)象,如果因?yàn)榧褐行母淖?,?dǎo)致對(duì)象重新分配后的結(jié)果較好(目標(biāo)函數(shù)值較為理想),則該隨意所選取的對(duì)象即取代原先的集群中心,成為新的集群中心第三十五頁,共六十一頁,2022年,8月28日K-medoids

算法第三十六頁,共六十一頁,2022年,8月28日兩種方法有一共同的缺點(diǎn),就是事先得表示K值為何。K-means對(duì)于處理分群數(shù)據(jù)有明確集中某些地方的情形,有相當(dāng)不錯(cuò)的成效,而噪聲或者獨(dú)立特行數(shù)據(jù)的處理,

K-medoid要比K-means來得好。K-means有一個(gè)比較大的限制是只適合于數(shù)值數(shù)據(jù)。但從另一個(gè)角度而言,

K-medoid相對(duì)于K-means而言計(jì)算較為復(fù)雜煩瑣。第三十七頁,共六十一頁,2022年,8月28日層次算法此法主要是將數(shù)據(jù)對(duì)象以樹狀的層次關(guān)系來看待。依層次建構(gòu)的方式,一般分成兩種來進(jìn)行:凝聚法(Agglomerative)分散法(Divisive)第三十八頁,共六十一頁,2022年,8月28日凝聚法(Agglomerative)首先將各個(gè)單一對(duì)象先獨(dú)自當(dāng)成一個(gè)叢集,然后再依相似度慢慢地將叢集合并,直到停止條件到達(dá)或者只剩一個(gè)叢集為止,此種由小量數(shù)據(jù)慢慢聚集而成的方式,又稱為底端向上法(bottomupapproach)。第三十九頁,共六十一頁,2022年,8月28日凝聚法(Agglomerative)12345第四十頁,共六十一頁,2022年,8月28日分散法(Divisive)此法首先將所有對(duì)象全部當(dāng)成一個(gè)叢集,然后再依相似度慢慢地叢集分裂,直到停止條件到達(dá)或者每個(gè)叢集只剩單一對(duì)象為止,此種由全部數(shù)據(jù)逐步分成多個(gè)叢集的方式,又稱為頂端向下法(topdownapproach)。第四十一頁,共六十一頁,2022年,8月28日密度型算法以數(shù)據(jù)的密度作為同一集群評(píng)估的依據(jù)。起始時(shí),每個(gè)數(shù)據(jù)代表一個(gè)集群,接著對(duì)于每個(gè)集群內(nèi)的數(shù)據(jù)點(diǎn),根據(jù)鄰近區(qū)域半徑及臨界值(threshold),找出其半徑所含鄰近區(qū)域內(nèi)的數(shù)據(jù)點(diǎn)。如果數(shù)據(jù)點(diǎn)大于臨界值,將這些鄰近區(qū)域內(nèi)的點(diǎn)全部歸為同一集群,以此慢慢地合并擴(kuò)大集群的范圍。如果臨界值達(dá)不到,則考慮放大鄰近區(qū)域的半徑。第四十二頁,共六十一頁,2022年,8月28日密度型算法此法不受限于數(shù)值資料的問題,可適合于任意形狀數(shù)據(jù)分布的集群?jiǎn)栴},也可以過濾掉噪聲,較適合于大型數(shù)據(jù)庫及較復(fù)雜的集群?jiǎn)栴}。算法時(shí)間的復(fù)雜度取決于基本單位的數(shù)目多寡,正常狀況下,其時(shí)間復(fù)雜度可在有限的時(shí)間內(nèi)完成。第四十三頁,共六十一頁,2022年,8月28日密度型算法缺點(diǎn)是鄰近區(qū)域范圍、及門坎值大小的設(shè)定;此兩參數(shù)的設(shè)定直接關(guān)系此算法的效果。第四十四頁,共六十一頁,2022年,8月28日通常為了得到比較合理的分類,首先必須采用適當(dāng)?shù)闹笜?biāo)來定量地描述研究對(duì)象之間的同構(gòu)型。常用的指標(biāo)為〝距離〞。第四十五頁,共六十一頁,2022年,8月28日使用weka進(jìn)行聚類分析第四十六頁,共六十一頁,2022年,8月28日1.選擇聚類器(Clusterer)

點(diǎn)擊列在窗口頂部的Clusterer欄中的

聚類算法,將彈出一個(gè)用來選擇新聚類算法的GenericObjectEditor對(duì)話框。

第四十七頁,共六十一頁,2022年,8月28日2.聚類模式

ClusterMode一欄用來決定依據(jù)什么來聚類以及如何評(píng)價(jià)聚類的結(jié)果。前三個(gè)選項(xiàng)和分類的情形是一樣的:Usetrainingset、Suppliedtestset和Percentagesplit

——區(qū)別在于現(xiàn)在的數(shù)據(jù)是要聚集到某個(gè)類中,而不是預(yù)測(cè)為某個(gè)指定的類別。第四個(gè)模式,Classestoclustersevaluation,是要比較所得到的聚類與在數(shù)據(jù)中預(yù)先給出的類別吻合得怎樣。和Classify面板一樣,下方下拉框是用來選擇作為類別的屬性的。在Clustermode之外,有一個(gè)Storeclustersforvisualization的勾選框,該框決定了在訓(xùn)練完算法后可否對(duì)數(shù)據(jù)進(jìn)行可視化。對(duì)于非常大的數(shù)據(jù)集,內(nèi)存可能成為瓶頸時(shí),不勾選這一欄應(yīng)該會(huì)有所幫助。

第四十八頁,共六十一頁,2022年,8月28日3.忽略屬性

在對(duì)一個(gè)數(shù)據(jù)集聚類時(shí),經(jīng)常遇到某些屬性應(yīng)該被忽略的情況。Ignoreattributes可

以彈出一個(gè)小窗口,選擇哪些是需要忽略的屬性。點(diǎn)擊窗口中單個(gè)屬性將使它高亮顯示,

按住SHIFT鍵可以連續(xù)的選擇一串屬性,按住CTRL鍵可以決定各個(gè)屬性被選與否。點(diǎn)

擊Cancel按鈕取消所作的選擇。點(diǎn)擊Select按鈕決定接受所作的選擇。下一次聚類

算法運(yùn)行時(shí),被選的屬性將被忽略。

第四十九頁,共六十一頁,2022年,8月28日4.學(xué)習(xí)聚類Cluster面板就像Classify面板那樣,有一個(gè)Start/Stop按鈕,一個(gè)結(jié)果文本的區(qū)

域和一個(gè)結(jié)果列表。它們的用法都和分類時(shí)的一樣。右鍵點(diǎn)擊結(jié)果列表中的一個(gè)條目將彈出一個(gè)相似的菜單,只是它僅顯示兩個(gè)可視化選項(xiàng):Visualizeclusterassignments和Visualizetree。后者在它不可用時(shí)會(huì)變灰。

第五十頁,共六十一頁,2022年,8月28日現(xiàn)在我們對(duì)前面的“bankdata”作聚類分析,使用最常見的K均值(K-means)算法。下面我們簡(jiǎn)單描述一下K均值聚類的步驟。

K均值算法首先隨機(jī)的指定K個(gè)簇中心。然后:1)將每個(gè)樣本分配到距它最近的簇中心,得到K個(gè)簇;2)計(jì)分別計(jì)算各簇中所有樣本的均值,把它們作為各簇新的簇中心。重復(fù)1)和2),直到K個(gè)簇中心的位置都固定,簇的分配也固定。

第五十一頁,共六十一頁,2022年,8月28日第五十二頁,共六十一頁,2022年,8月28日第五十三頁,共六十一頁,2022年,8月28日第五十四頁,共六十一頁,2022年,8月28日第五十五頁,共六十一頁,2022年,8月28日上述K均值算法只能處理數(shù)值型的屬性,遇到分類型的屬性時(shí)要把它變?yōu)槿舾蓚€(gè)取值0和1的屬性。WEKA將自動(dòng)實(shí)施這個(gè)分類型到數(shù)值型的變換,而且WEKA會(huì)自動(dòng)對(duì)數(shù)值型的數(shù)據(jù)作標(biāo)準(zhǔn)化。因此,對(duì)于原始數(shù)據(jù)“bank-data.csv”,我們所做的預(yù)處理只是刪去屬性“id”,保存為ARFF格式后,修改屬性“children”為分類型。這樣得到的數(shù)據(jù)文件為“bank.arff”,含300條實(shí)例。

用“Explorer”打開剛才得到的“bank.arff”,并切換到“Cluster”。點(diǎn)“Choose”按鈕選擇“SimpleKMeans”,這是WEKA中實(shí)現(xiàn)K均值的算法。點(diǎn)擊旁邊的文本框,修改“numClusters”為6,說明我們希望把這300條實(shí)例聚成6類,即K=6。下面的“seed”參數(shù)是要設(shè)置一個(gè)隨機(jī)種子,依此產(chǎn)生一個(gè)隨機(jī)數(shù),用來得到K均值算法中第一次給出的K個(gè)簇中心的位置。我們不妨?xí)簳r(shí)讓它就為10。

選中“ClusterMode”的“Usetrainingset”,點(diǎn)擊“Start”按鈕,觀察右邊“Clustereroutput”給出的聚類結(jié)果。也可以在左下角“Resultlist”中這次產(chǎn)生的結(jié)果上點(diǎn)右鍵,“Viewinseparatewindow”在新窗口中瀏覽結(jié)果。

第五十六頁,共六十一頁,2022年,8月28日結(jié)果解釋

首先我們注意到結(jié)果中有這么一行:

Withinclustersumofsquarederrors:xxxxxxxxx

這是評(píng)價(jià)聚類好壞的標(biāo)準(zhǔn),數(shù)值越小說明同一簇實(shí)例之間的距離越小。也許你得到的數(shù)值會(huì)不一樣;實(shí)際上如果把“seed”參數(shù)改一下,得到的這個(gè)數(shù)值就可能會(huì)不一樣。我們應(yīng)該多嘗試幾個(gè)seed,并采納這個(gè)數(shù)值最小的那個(gè)結(jié)果。

接下來“Clustercentroids:”之后列出了各個(gè)簇中心的位置。對(duì)于數(shù)值型的屬性,簇中心就是它的均值(Mean);分類型的就是它的眾數(shù)(Mode),也就是說這個(gè)屬性上取值為眾數(shù)值的實(shí)例最多。對(duì)于數(shù)值型的屬性,還給出了它在各個(gè)簇里的標(biāo)準(zhǔn)差(StdDevs)(需要設(shè)置參數(shù)為“true”)。

最后的“ClusteredInstances”是各個(gè)簇中實(shí)例的數(shù)目及百分比。

為了觀察可視化的聚類結(jié)果,我們?cè)谧笙路健癛esultlist”列出的結(jié)果上右擊,點(diǎn)“Visualizeclusterassignments”。彈出的窗口給出了各實(shí)例的散點(diǎn)圖。最上方的兩個(gè)框是選擇橫坐標(biāo)和縱坐標(biāo),第二行的“color”是散點(diǎn)圖著色的依據(jù),默認(rèn)是根據(jù)不同的簇“Cluster”給實(shí)例標(biāo)上不同的顏色。

可以在這里點(diǎn)“Save”把聚類結(jié)果保存成ARFF文件。在這個(gè)新的ARFF文件中,“instance_number”屬性表示某實(shí)例的編號(hào),“Cluster”屬性表示聚類算法給出的該實(shí)例所在的簇。

第五十七頁,共六十一頁,2022年,8月28日可視化

WEKA的可視化頁面可以對(duì)當(dāng)前的關(guān)系作二維散點(diǎn)圖式的可視化瀏覽。

1.散點(diǎn)圖矩陣

選擇了Visualize面板后,會(huì)為所有的屬性給出一個(gè)散點(diǎn)圖矩陣,它們會(huì)根據(jù)所選的class屬性來著色。在這里可以改變每個(gè)二維散點(diǎn)圖的大小,改變各點(diǎn)的大小,以及隨機(jī)地抖動(dòng)(jitter)數(shù)據(jù)(使得被隱藏的點(diǎn)顯示出來)。也可以改變用來著色的屬性,可以只選擇一組屬性的子集放在散點(diǎn)圖矩陣中,還可以取出數(shù)據(jù)的一個(gè)子樣本。注意這些改變只有在點(diǎn)擊了Update了按鈕之后才會(huì)生效。

第五十八頁,共六十一頁,2022年,8月28日2.選擇單獨(dú)的二維散點(diǎn)圖

在散點(diǎn)圖矩陣的一個(gè)元素上點(diǎn)擊后,會(huì)彈出一個(gè)單獨(dú)的窗口對(duì)所選的散點(diǎn)圖進(jìn)行可視。(前面我們描述了如何在單獨(dú)的窗口中對(duì)某個(gè)特定的結(jié)果進(jìn)行可視化——例如分類誤差——這里用了相同的可視化控件。)數(shù)據(jù)點(diǎn)散布在窗口的主要區(qū)域里。上方是兩個(gè)下拉框

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論