各種聚類算法介紹及對(duì)比9頁(yè)

上傳人：h*** IP屬地：貴州上傳時(shí)間：2021-11-08 格式：DOCX 頁(yè)數(shù)：9 大小：216.22KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩4頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、一、層次聚類1、層次聚類的原理及分類1）層次法（Hierarchical methods）先計(jì)算樣本之間的距離。每次將距離最近的點(diǎn)合并到同一個(gè)類。然后，再計(jì)算類與類之間的距離，將距離最近的類合并為一個(gè)大類。不停的合并，直到合成了一個(gè)類。其中類與類的距離的計(jì)算方法有：最短距離法，最長(zhǎng)距離法，中間距離法，類平均法等。比如最短距離法，將類與類的距離定義為類與類之間樣本的最短距離。層次聚類算法根據(jù)層次分解的順序分為：自下底向上和自上向下，即凝聚的層次聚類算法和分裂的層次聚類算法（agglomerative和divisive），也可以理解為自下而上法（bottom-up）和自上而下法（top-down）

2、。自下而上法就是一開(kāi)始每個(gè)個(gè)體（object）都是一個(gè)類，然后根據(jù)linkage尋找同類，最后形成一個(gè)“類”。自上而下法就是反過(guò)來(lái)，一開(kāi)始所有個(gè)體都屬于一個(gè)“類”，然后根據(jù)linkage排除異己，最后每個(gè)個(gè)體都成為一個(gè)“類”。這兩種路方法沒(méi)有孰優(yōu)孰劣之分，只是在實(shí)際應(yīng)用的時(shí)候要根據(jù)數(shù)據(jù)特點(diǎn)以及你想要的“類”的個(gè)數(shù)，來(lái)考慮是自上而下更快還是自下而上更快。至于根據(jù)Linkage判斷“類”的方法就是最短距離法、最長(zhǎng)距離法、中間距離法、類平均法等等（其中類平均法往往被認(rèn)為是最常用也最好用的方法，一方面因?yàn)槠淞己玫膯握{(diào)性，另一方面因?yàn)槠淇臻g擴(kuò)張/濃縮的程度適中）。為彌補(bǔ)分解與合并的不足，層次合并經(jīng)常要與

3、其它聚類方法相結(jié)合，如循環(huán)定位。 2）Hierarchical methods中比較新的算法有BIRCH（Balanced Iterative Reducing and Clustering Using Hierarchies利用層次方法的平衡迭代規(guī)約和聚類）主要是在數(shù)據(jù)量很大的時(shí)候使用，而且數(shù)據(jù)類型是numerical。首先利用樹(shù)的結(jié)構(gòu)對(duì)對(duì)象集進(jìn)行劃分，然后再利用其它聚類方法對(duì)這些聚類進(jìn)行優(yōu)化；ROCK（A Hierarchical Clustering Algorithm for Categorical Attributes）主要用在categorical的數(shù)據(jù)類型上；Chame

4、leon（A Hierarchical Clustering Algorithm Using Dynamic Modeling）里用到的linkage是kNN（k-nearest-neighbor）算法，并以此構(gòu)建一個(gè)graph，Chameleon的聚類效果被認(rèn)為非常強(qiáng)大，比BIRCH好用，但運(yùn)算復(fù)雜度很高，O(n2)。2、層次聚類的流程凝聚型層次聚類的策略是先將每個(gè)對(duì)象作為一個(gè)簇，然后合并這些原子簇為越來(lái)越大的簇，直到所有對(duì)象都在一個(gè)簇中，或者某個(gè)終結(jié)條件被滿足。絕大多數(shù)層次聚類屬于凝聚型層次聚類，它們只是在簇間相似度的定義上有所不同。這里給出采用最小距離的凝聚層次聚類算法流程：(1) 將

5、每個(gè)對(duì)象看作一類，計(jì)算兩兩之間的最小距離；(2) 將距離最小的兩個(gè)類合并成一個(gè)新類；(3) 重新計(jì)算新類與所有類之間的距離；(4) 重復(fù)(2)、(3)，直到所有類最后合并成一類。聚類的效果如下圖，黑色是噪音點(diǎn)：另外我們可以看出凝聚的層次聚類并沒(méi)有類似基本K均值的全局目標(biāo)函數(shù)，沒(méi)有局部極小問(wèn)題或是很難選擇初始點(diǎn)的問(wèn)題。合并的操作往往是最終的，一旦合并兩個(gè)簇之后就不會(huì)撤銷。當(dāng)然其計(jì)算存儲(chǔ)的代價(jià)是昂貴的。3、層次聚類的優(yōu)缺點(diǎn)優(yōu)點(diǎn)：1，距離和規(guī)則的相似度容易定義，限制少；2，不需要預(yù)先制定聚類數(shù)；3，可以發(fā)現(xiàn)類的層次關(guān)系；4，可以聚類成其它形狀缺點(diǎn)：1，計(jì)算復(fù)雜度太高；2，奇異值也能產(chǎn)生

6、很大影響；3，算法很可能聚類成鏈狀 r語(yǔ)言中使用hclust(d, method = "complete", members=NULL) ：進(jìn)行層次聚類。d為距離矩陣；method表示類的合并方法，single最短距離法，complete最長(zhǎng)距離法，median中間距離法，mcquitty 相似法，average 類平均法，centroid重心法，ward離差平方和法；members為NULL或d長(zhǎng)度的矢量。二、劃分聚類法k-means基于劃分的方法（Partition-based methods）：其原理簡(jiǎn)單來(lái)說(shuō)就是，想象你有一堆散點(diǎn)需要聚類

7、，想要的聚類效果就是“類內(nèi)的點(diǎn)都足夠近，類間的點(diǎn)都足夠遠(yuǎn)”。首先你要確定這堆散點(diǎn)最后聚成幾類，然后挑選幾個(gè)點(diǎn)作為初始中心點(diǎn)，再然后依據(jù)預(yù)先定好的啟發(fā)式算法（heuristic algorithms）給數(shù)據(jù)點(diǎn)做迭代重置（iterative relocation），直到最后到達(dá)“類內(nèi)的點(diǎn)都足夠近，類間的點(diǎn)都足夠遠(yuǎn)”的目標(biāo)效果。Partition-based methods聚類多適用于中等體量的數(shù)據(jù)集，但我們也不知道“中等”到底有多“中”，所以不妨理解成，數(shù)據(jù)集越大，越有可能陷入局部最小。1、Kmeans算法的原理k-means算法以k為參數(shù)，把n個(gè)對(duì)象分成k個(gè)簇，使簇內(nèi)具有較高的相似度，而簇間的相

8、似度較低。k-means算法的處理過(guò)程如下：首先，隨機(jī)地選擇k個(gè)對(duì)象，每個(gè)對(duì)象初始地代表了一個(gè)簇的平均值或中心，即選擇K個(gè)初始質(zhì)心;對(duì)剩余的每個(gè)對(duì)象，根據(jù)其與各簇中心的距離，將它賦給最近的簇;然后重新計(jì)算每個(gè)簇的平均值。這個(gè)過(guò)程不斷重復(fù)，直到準(zhǔn)則函數(shù)收斂，直到質(zhì)心不發(fā)生明顯的變化。通常，采用平方誤差準(zhǔn)則，誤差的平方和SSE作為全局的目標(biāo)函數(shù)，即最小化每個(gè)點(diǎn)到最近質(zhì)心的歐幾里得距離的平方和。此時(shí)，簇的質(zhì)心就是該簇內(nèi)所有數(shù)據(jù)點(diǎn)的平均值。選擇K個(gè)點(diǎn)作為初始質(zhì)心 repeat 將每個(gè)點(diǎn)指派到最近的質(zhì)心，形成K

9、個(gè)簇重新計(jì)算每個(gè)簇的質(zhì)心 until 簇不發(fā)生變化或達(dá)到最大迭代次數(shù) 時(shí)間復(fù)雜度：O(tKmn)，其中，t為迭代次數(shù)，K為簇的數(shù)目，m為記錄數(shù)，n為維數(shù)空間復(fù)雜度：O(m+K)n)，其中，K為簇的數(shù)目，m為記錄數(shù)，n為維數(shù)K-Means 算法的詳細(xì)過(guò)程從上圖中，我們可以看到，A, B, C, D, E 是五個(gè)在圖中點(diǎn)。而灰色的點(diǎn)是我們的種子點(diǎn)，也就是我們用來(lái)找點(diǎn)群的點(diǎn)。有兩個(gè)種子點(diǎn)，所以K=2。然后，K-Means的算法如下：隨機(jī)在圖中取K（這里K=2）個(gè)種子點(diǎn)。然后對(duì)

10、圖中的所有點(diǎn)求到這K個(gè)種子點(diǎn)的距離，假如點(diǎn)Pi離種子點(diǎn)Si最近，那么Pi屬于Si點(diǎn)群。（我們可以看到A,B屬于上面的種子點(diǎn)，C,D,E屬于下面中部的種子點(diǎn)）接下來(lái)，我們要移動(dòng)種子點(diǎn)到屬于他的“點(diǎn)群”的中心。（見(jiàn)圖上的第三步）然后重復(fù)第2）和第3）步，直到，種子點(diǎn)沒(méi)有移動(dòng)（我們可以看到圖中的第四步上面的種子點(diǎn)聚合了A,B,C，下面的種子點(diǎn)聚合了D，E）。聚類的效果如下圖，折線是歷次循環(huán)時(shí)3個(gè)簇的質(zhì)心的更新軌跡，黑點(diǎn)是初始質(zhì)心：我們查看基本K均值算法實(shí)現(xiàn)步驟及上面的聚類效果可以發(fā)現(xiàn)，該聚類算法將所有數(shù)據(jù)點(diǎn)都進(jìn)行了指派，不識(shí)別噪音點(diǎn)。另外選擇適當(dāng)?shù)某踉囐|(zhì)心是基本K均值過(guò)程的關(guān)鍵。2、k

11、均值的優(yōu)缺點(diǎn)及分類優(yōu)點(diǎn)：1，簡(jiǎn)單，易于理解和實(shí)現(xiàn)；2，時(shí)間復(fù)雜度低缺點(diǎn)：1）kmeans要手工輸入類數(shù)目，對(duì)初始值的設(shè)置很敏感；所以有了k-means+、intelligent k-means、genetic k-means；2）k-means對(duì)噪聲和離群值非常敏感，所以有了k-medoids和k-medians；3）k-means只用于numerical類型數(shù)據(jù)，不適用于categorical類型數(shù)據(jù)，所以k-modes；4）k-means不能解決非凸（non-convex）數(shù)據(jù)，所以有了kernel k-means。5）k-means主要發(fā)現(xiàn)圓形或者球形簇，不能識(shí)別非球形的簇。3、k-me

12、ans與DBSCAN的區(qū)別k-means聚類算法的初始點(diǎn)選擇不穩(wěn)定，是隨機(jī)選取的，這就引起聚類結(jié)果的不穩(wěn)定。k-means屬于動(dòng)態(tài)聚類，往往聚出來(lái)的類有點(diǎn)圓形或者橢圓形。kmeans對(duì)于圓形區(qū)域聚類效果較好，dbscan基于密度，對(duì)于集中區(qū)域效果較好。對(duì)于不規(guī)則形狀，kmeans完全無(wú)法用，dbscan可以起到很好的效果。4、k-means注意問(wèn)題1）K如何確定 kmenas算法首先選擇K個(gè)初始質(zhì)心，其中K是用戶指定的參數(shù)，即所期望的簇的個(gè)數(shù)。這樣做的前提是我們已經(jīng)知道數(shù)據(jù)集中包含多少個(gè)簇，但很多情況下，我們并不知道數(shù)據(jù)的分布情況，實(shí)際上聚

13、類就是我們發(fā)現(xiàn)數(shù)據(jù)分布的一種手段。如何有效的確定K值，這里大致提供幾種方法：與層次聚類結(jié)合2 經(jīng)常會(huì)產(chǎn)生較好的聚類結(jié)果的一個(gè)有趣策略是，首先采用層次凝聚算法決定結(jié)果粗的數(shù)目，并找到一個(gè)初始聚類，然后用迭代重定位來(lái)改進(jìn)該聚類。穩(wěn)定性方法3 穩(wěn)定性方法對(duì)一個(gè)數(shù)據(jù)集進(jìn)行2次重采樣產(chǎn)生2個(gè)數(shù)據(jù)子集，再用相同的聚類算法對(duì)2個(gè)數(shù)據(jù)子集進(jìn)行聚類，產(chǎn)生2個(gè)具有k個(gè)聚類的聚類結(jié)果，計(jì)算2個(gè)聚類結(jié)果的相似度的分布情況。2個(gè)聚類結(jié)果具有高的相似度說(shuō)明k個(gè)聚類反映了穩(wěn)定的聚類結(jié)構(gòu)，其相似度可以用來(lái)估

14、計(jì)聚類個(gè)數(shù)。采用次方法試探多個(gè)k，找到合適的k值。系統(tǒng)演化方法3 系統(tǒng)演化方法將一個(gè)數(shù)據(jù)集視為偽熱力學(xué)系統(tǒng)，當(dāng)數(shù)據(jù)集被劃分為K個(gè)聚類時(shí)稱系統(tǒng)處于狀態(tài)K。系統(tǒng)由初始狀態(tài)K=1出發(fā)，經(jīng)過(guò)分裂過(guò)程和合并過(guò)程，系統(tǒng)將演化到它的穩(wěn)定平衡狀態(tài)Ki，所對(duì)應(yīng)的聚類結(jié)構(gòu)決定了最優(yōu)類數(shù)Ki。系統(tǒng)演化方法能提供關(guān)于所有聚類之間的相對(duì)邊界距離或可分程度，適用于明顯分離的聚類結(jié)構(gòu)和輕微重疊的聚類結(jié)構(gòu)。使用canopy算法進(jìn)行初始劃分4 基于Canopy Method的聚類算法將聚類過(guò)程分

15、為兩個(gè)階段 Stage1、聚類最耗費(fèi)計(jì)算的地方是計(jì)算對(duì)象相似性的時(shí)候，Canopy Method在第一階段選擇簡(jiǎn)單、計(jì)算代價(jià)較低的方法計(jì)算對(duì)象相似性，將相似的對(duì)象放在一個(gè)子集中，這個(gè)子集被叫做Canopy ，通過(guò)一系列計(jì)算得到若干Canopy，Canopy之間可以是重疊的，但不會(huì)存在某個(gè)對(duì)象不屬于任何Canopy的情況，可以把這一階段看做數(shù)據(jù)預(yù)處理； Stage2、在各個(gè)Canopy 內(nèi)使用傳統(tǒng)的聚類方法(如K-means)，不屬于同一Canopy 的對(duì)象之間不

16、進(jìn)行相似性計(jì)算。從這個(gè)方法起碼可以看出兩點(diǎn)好處：首先，Canopy 不要太大且Canopy 之間重疊的不要太多的話會(huì)大大減少后續(xù)需要計(jì)算相似性的對(duì)象的個(gè)數(shù)；其次，類似于K-means這樣的聚類方法是需要人為指出K的值的，通過(guò)Stage1得到的Canopy 個(gè)數(shù)完全可以作為這個(gè)K值，一定程度上減少了選擇K的盲目性。其他方法如貝葉斯信息準(zhǔn)則方法（BIC）可參看文獻(xiàn)5。2）初始質(zhì)心的選取選擇適當(dāng)?shù)某跏假|(zhì)心是基本kmeans算法的關(guān)鍵步驟。常見(jiàn)的方法是隨機(jī)的選取初始

17、質(zhì)心，但是這樣簇的質(zhì)量常常很差。處理選取初始質(zhì)心問(wèn)題的一種常用技術(shù)是：多次運(yùn)行，每次使用一組不同的隨機(jī)初始質(zhì)心，然后選取具有最小SSE（誤差的平方和）的簇集。這種策略簡(jiǎn)單，但是效果可能不好，這取決于數(shù)據(jù)集和尋找的簇的個(gè)數(shù)。第二種有效的方法是，取一個(gè)樣本，并使用層次聚類技術(shù)對(duì)它聚類。從層次聚類中提取K個(gè)簇，并用這些簇的質(zhì)心作為初始質(zhì)心。該方法通常很有效，但僅對(duì)下列情況有效：（1）樣本相對(duì)較小，例如數(shù)百到數(shù)千（層次聚類開(kāi)銷較大）；（2）K相對(duì)于樣本大小較小 &#

18、160;第三種選擇初始質(zhì)心的方法，隨機(jī)地選擇第一個(gè)點(diǎn)，或取所有點(diǎn)的質(zhì)心作為第一個(gè)點(diǎn)。然后，對(duì)于每個(gè)后繼初始質(zhì)心，選擇離已經(jīng)選取過(guò)的初始質(zhì)心最遠(yuǎn)的點(diǎn)。使用這種方法，確保了選擇的初始質(zhì)心不僅是隨機(jī)的，而且是散開(kāi)的。但是，這種方法可能選中離群點(diǎn)。此外，求離當(dāng)前初始質(zhì)心集最遠(yuǎn)的點(diǎn)開(kāi)銷也非常大。為了克服這個(gè)問(wèn)題，通常該方法用于點(diǎn)樣本。由于離群點(diǎn)很少（多了就不是離群點(diǎn)了），它們多半不會(huì)在隨機(jī)樣本中出現(xiàn)。計(jì)算量也大幅減少。第四種方法就是上面提到的canopy算法。3）距離的度量

19、60; 常用的距離度量方法包括：歐幾里得距離和余弦相似度。兩者都是評(píng)定個(gè)體間差異的大小的。歐幾里得距離度量會(huì)受指標(biāo)不同單位刻度的影響，所以一般需要先進(jìn)行標(biāo)準(zhǔn)化，同時(shí)距離越大，個(gè)體間差異越大；空間向量余弦?jiàn)A角的相似度度量不會(huì)受指標(biāo)刻度的影響，余弦值落于區(qū)間-1,1，值越大，差異越小。但是針對(duì)具體應(yīng)用，什么情況下使用歐氏距離，什么情況下使用余弦相似度？從幾何意義上來(lái)說(shuō)，n維向量空間的一條線段作為底邊和原點(diǎn)組成的三角形，其頂角大小是不確定的。也就是說(shuō)對(duì)于兩條空間向量，即使兩點(diǎn)距離一定，他們的夾角余弦值也可以隨意變化。感性的認(rèn)識(shí)，當(dāng)

20、兩用戶評(píng)分趨勢(shì)一致時(shí)，但是評(píng)分值差距很大，余弦相似度傾向給出更優(yōu)解。舉個(gè)極端的例子，兩用戶只對(duì)兩件商品評(píng)分，向量分別為(3,3)和(5,5)，這兩位用戶的認(rèn)知其實(shí)是一樣的，但是歐式距離給出的解顯然沒(méi)有余弦值合理。4）質(zhì)心的計(jì)算對(duì)于距離度量不管是采用歐式距離還是采用余弦相似度，簇的質(zhì)心都是其均值，即向量各維取平均即可。5）算法停止條件一般是目標(biāo)函數(shù)達(dá)到最優(yōu)或者達(dá)到最大的迭代次數(shù)即可終止。對(duì)于不同的距離度量，目標(biāo)函數(shù)往往不同。當(dāng)采用歐式距離時(shí)，目標(biāo)函數(shù)一般為最小化

21、對(duì)象到其簇質(zhì)心的距離的平方和。當(dāng)采用余弦相似度時(shí)，目標(biāo)函數(shù)一般為最大化對(duì)象到其簇質(zhì)心的余弦相似度和。6）空聚類的處理如果所有的點(diǎn)在指派步驟都未分配到某個(gè)簇，就會(huì)得到空簇。如果這種情況發(fā)生，則需要某種策略來(lái)選擇一個(gè)替補(bǔ)質(zhì)心，否則的話，平方誤差將會(huì)偏大。一種方法是選擇一個(gè)距離當(dāng)前任何質(zhì)心最遠(yuǎn)的點(diǎn)。這將消除當(dāng)前對(duì)總平方誤差影響最大的點(diǎn)。另一種方法是從具有最大SSE的簇中選擇一個(gè)替補(bǔ)的質(zhì)心。這將分裂簇并降低聚類的總SSE。如果有多個(gè)空簇，則該過(guò)程重復(fù)多次

22、。另外，編程實(shí)現(xiàn)時(shí)，要注意空簇可能導(dǎo)致的程序bug。三、基于密度的聚類基于密度的方法（Density-based methods）：k-means解決不了不規(guī)則形狀的聚類。于是就有了Density-based methods來(lái)系統(tǒng)解決這個(gè)問(wèn)題。該方法同時(shí)也對(duì)噪聲數(shù)據(jù)的處理比較好?；诿芏染垲惖乃枷耄核悸肪褪嵌ㄒ粋€(gè)距離半徑，最少有多少個(gè)點(diǎn)，然后把可以到達(dá)的點(diǎn)都連起來(lái)，判定為同類。其原理簡(jiǎn)單說(shuō)畫(huà)圈兒，其中要定義兩個(gè)參數(shù)，一個(gè)是圈兒的最大半徑，一個(gè)是一個(gè)圈兒里最少應(yīng)容納幾個(gè)點(diǎn)。最后在一個(gè)圈里的，就是一個(gè)類。DBSCAN（Density-Based Spatial Clustering of Appl

23、ications with Noise）就是其中的典型，可惜參數(shù)設(shè)置也是個(gè)問(wèn)題，對(duì)這兩個(gè)參數(shù)的設(shè)置非常敏感。DBSCAN的擴(kuò)展叫OPTICS（Ordering Points To Identify Clustering Structure）通過(guò)優(yōu)先對(duì)高密度（high density）進(jìn)行搜索，然后根據(jù)高密度的特點(diǎn)設(shè)置參數(shù)，改善了DBSCAN的不足。1、DBSCAN的概念dbscan基于密度，對(duì)于集中區(qū)域效果較好，為了發(fā)現(xiàn)任意形狀的簇，這類方法將簇看做是數(shù)據(jù)空間中被低密度區(qū)域分割開(kāi)的稠密對(duì)象區(qū)域；一種基于高密度連通區(qū)域的基于密度的聚類方法，該算法將具有足夠高密度的區(qū)域劃分為簇，并在具有噪聲的空間

24、數(shù)據(jù)中發(fā)現(xiàn)任意形狀的簇。DBSCAN中的幾個(gè)定義：鄰域：給定對(duì)象半徑為內(nèi)的區(qū)域稱為該對(duì)象的鄰域；核心對(duì)象：如果給定對(duì)象領(lǐng)域內(nèi)的樣本點(diǎn)數(shù)大于等于MinPts，則稱該對(duì)象為核心對(duì)象；直接密度可達(dá)：對(duì)于樣本集合D，如果樣本點(diǎn)q在p的領(lǐng)域內(nèi)，并且p為核心對(duì)象，那么對(duì)象q從對(duì)象p直接密度可達(dá)。密度可達(dá)：對(duì)于樣本集合D，給定一串樣本點(diǎn)p1,p2.pn，p= p1,q= pn,假如對(duì)象pi從pi-1直接密度可達(dá)，那么對(duì)象q從對(duì)象p密度可達(dá)。注意：密度可達(dá)是單向的，密度可達(dá)即可容納同一類。密度相連：存在樣本集合D中的一點(diǎn)o，如果對(duì)象o到對(duì)象p和對(duì)象q都是密度可達(dá)的，那么p和q密度相聯(lián)。密度可達(dá)是直接密度可達(dá)的

25、傳遞閉包，并且這種關(guān)系是非對(duì)稱的。密度相連是對(duì)稱關(guān)系。DBSCAN目的是找到密度相連對(duì)象的最大集合。有了以上的概念接下來(lái)就是算法描述了：DBSCAN通過(guò)檢查數(shù)據(jù)庫(kù)中每點(diǎn)的r鄰域來(lái)搜索簇。如果點(diǎn)p的r鄰域包含的點(diǎn)多于MinPts個(gè)，則創(chuàng)建一個(gè)以p為核心對(duì)象的新簇。然后，DBSCAN迭代的聚集從這些核心對(duì)象直接密度可達(dá)的對(duì)象，這個(gè)過(guò)程可能涉及一些密度可達(dá)簇的合并。當(dāng)沒(méi)有新的點(diǎn)可以添加到任何簇時(shí)，該過(guò)程結(jié)束。例如：Eg: 假設(shè)半徑=3，MinPts=3，點(diǎn)p的E領(lǐng)域中有點(diǎn)m,p,p1,p2,o, 點(diǎn)m的E領(lǐng)域中有點(diǎn)m,q,p,m1,m2,點(diǎn)q的E領(lǐng)域中有點(diǎn)q,m,點(diǎn)o的E領(lǐng)域中有點(diǎn)o,p

26、,s,點(diǎn)s的E領(lǐng)域中有點(diǎn)o,s,s1.那么核心對(duì)象有p,m,o,s(q不是核心對(duì)象，因?yàn)樗鼘?duì)應(yīng)的E領(lǐng)域中點(diǎn)數(shù)量等于2，小于MinPts=3)；點(diǎn)m從點(diǎn)p直接密度可達(dá)，因?yàn)閙在p的E領(lǐng)域內(nèi)，并且p為核心對(duì)象；點(diǎn)q從點(diǎn)p密度可達(dá)，因?yàn)辄c(diǎn)q從點(diǎn)m直接密度可達(dá)，并且點(diǎn)m從點(diǎn)p直接密度可達(dá)；點(diǎn)q到點(diǎn)s密度相連，因?yàn)辄c(diǎn)q從點(diǎn)p密度可達(dá)，并且s從點(diǎn)p密度可達(dá)。2、簇的生成原理及過(guò)程1）DBSCAN聚類算法原理的基本要點(diǎn)：確定半徑eps的值DBSCAN算法需要選擇一種距離度量，對(duì)于待聚類的數(shù)據(jù)集中，任意兩個(gè)點(diǎn)之間的距離，反映了點(diǎn)之間的密度，說(shuō)明了點(diǎn)與點(diǎn)是否能夠聚到同一類中。由于DBSCAN算法對(duì)高維數(shù)據(jù)定義密

27、度很困難，所以對(duì)于二維空間中的點(diǎn)，可以使用歐幾里德距離來(lái)進(jìn)行度量。DBSCAN算法需要用戶輸入2個(gè)參數(shù)：一個(gè)參數(shù)是半徑（Eps），表示以給定點(diǎn)P為中心的圓形鄰域的范圍；另一個(gè)參數(shù)是以點(diǎn)P為中心的鄰域內(nèi)最少點(diǎn)的數(shù)量（MinPts）。如果滿足：以點(diǎn)P為中心、半徑為Eps的鄰域內(nèi)的點(diǎn)的個(gè)數(shù)不少于MinPts，則稱點(diǎn)P為核心點(diǎn)。DBSCAN聚類使用到一個(gè)k-距離的概念，k-距離是指：給定數(shù)據(jù)集P=p(i); i=0,1,n，對(duì)于任意點(diǎn)P(i)，計(jì)算點(diǎn)P(i)到集合D的子集S=p(1), p(2), , p(i-1), p(i+1), , p(n)中所有點(diǎn)之間的距離，距離按照從小到大的順序排序，假設(shè)排序

28、后的距離集合為D=d(1), d(2), , d(k-1), d(k), d(k+1), ,d(n)，則d(k)就被稱為k-距離。也就是說(shuō)，k-距離是點(diǎn)p(i)到所有點(diǎn)（除了p(i)點(diǎn)）之間距離第k近的距離。對(duì)待聚類集合中每個(gè)點(diǎn)p(i)都計(jì)算k-距離，最后得到所有點(diǎn)的k-距離集合E=e(1), e(2), , e(n)。根據(jù)經(jīng)驗(yàn)計(jì)算半徑Eps：根據(jù)得到的所有點(diǎn)的k-距離集合E，對(duì)集合E進(jìn)行升序排序后得到k-距離集合E，需要擬合一條排序后的E集合中k-距離的變化曲線圖，然后繪出曲線，通過(guò)觀察，將急劇發(fā)生變化的位置所對(duì)應(yīng)的k-距離的值，確定為半徑Eps的值。根據(jù)經(jīng)驗(yàn)計(jì)算最少點(diǎn)的數(shù)量MinPts：確

29、定MinPts的大小，實(shí)際上也是確定k-距離中k的值，DBSCAN算法取k=4，則MinPts=4。另外，如果覺(jué)得經(jīng)驗(yàn)值聚類的結(jié)果不滿意，可以適當(dāng)調(diào)整Eps和MinPts的值，經(jīng)過(guò)多次迭代計(jì)算對(duì)比，選擇最合適的參數(shù)值?？梢钥闯觯绻鸐inPts不變，Eps取得值過(guò)大，會(huì)導(dǎo)致大多數(shù)點(diǎn)都聚到同一個(gè)簇中，Eps過(guò)小，會(huì)導(dǎo)致一個(gè)簇的分裂；如果Eps不變，MinPts的值取得過(guò)大，會(huì)導(dǎo)致同一個(gè)簇中點(diǎn)被標(biāo)記為噪聲點(diǎn)，MinPts過(guò)小，會(huì)導(dǎo)致發(fā)現(xiàn)大量的核心點(diǎn)。我們需要知道的是，DBSCAN算法，需要輸入2個(gè)參數(shù)，這兩個(gè)參數(shù)的計(jì)算都來(lái)自經(jīng)驗(yàn)知識(shí)。半徑Eps的計(jì)算依賴于計(jì)算k-距離，DBSCAN取k=4，也就是設(shè)置MinPts=4，然后需要根據(jù)k-距離曲線，根據(jù)經(jīng)驗(yàn)觀察找到合適的半徑Eps的值。 2）連通核心點(diǎn)生成簇核心點(diǎn)能夠連通（有些書(shū)籍中稱為：“密度可達(dá)”），它們構(gòu)成的以Eps長(zhǎng)度為半徑的圓形鄰域相互連接或重疊，這些連通的核心點(diǎn)及其所處的鄰域內(nèi)的全部點(diǎn)構(gòu)成一個(gè)簇。假設(shè)MinPts=4，則連通的核心點(diǎn)示例，如下圖所示：計(jì)算連通的核心點(diǎn)的思路是，基于廣度遍歷與深度遍歷集合

人人文庫(kù)> 全部分類> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

各種聚類算法介紹及對(duì)比9頁(yè)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

各種聚類算法介紹及對(duì)比9頁(yè)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔