版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2.4 基于密度的聚類(lèi)算法w 基于密度的聚類(lèi)算法有:DBSCAN、GDBSCAN、OPTICS、DBCLASD等w 本節(jié)介紹基于密度聚類(lèi)的基本思路和基本概念,然后介紹DBSCANw 基于密度的算法聚類(lèi)時(shí)一般不需給定聚類(lèi)數(shù)k,聚類(lèi)的個(gè)數(shù)由算法的結(jié)果確定。w DBSCAN(Density Based Spatial Clustering of Applications with Noise)一、基本思路w 屬于一個(gè)聚類(lèi)的各點(diǎn)之間距離較小,密度較大。密度類(lèi)似于相似度。w 密度可以用一定范圍內(nèi)點(diǎn)數(shù)來(lái)表示。w 在一個(gè)點(diǎn)的一定距離范圍內(nèi)點(diǎn)很少,則可認(rèn)為該點(diǎn)是孤立點(diǎn)(類(lèi))。去除孤立點(diǎn)可以減少計(jì)算量,同時(shí)可以
2、提高聚類(lèi)精度。w 點(diǎn)的密度是一種關(guān)系,能傳遞。因此若某點(diǎn)是密度高的,與它鄰近的其它點(diǎn)可以繼續(xù)尋找它們的鄰近點(diǎn),看它們是否也是密度高的。二、幾個(gè)概念w 直接密度可達(dá)的n點(diǎn)q的Eps鄰域:n點(diǎn)p和q如果滿足如下條件:n則稱點(diǎn)p是從點(diǎn)q直接密度可達(dá)的,并且點(diǎn)q成為核。w 其中Eps和MinPts是需要提供給算法的參數(shù),分別表示點(diǎn)的鄰域半徑和該鄰域的最少點(diǎn)數(shù)。),(|)(EpsqpdistDpqNMinPtsqNqNp| )(| )2),() 1w 密度可達(dá)的n如果存在點(diǎn)的序列:n其中 是從 直接密度可達(dá)的,則稱點(diǎn)pi+1是從q關(guān)于Eps和MinPts密度可達(dá)的。w 密度相連的n如果存在點(diǎn)r,p,q,
3、p和q都是從點(diǎn)r關(guān)于Eps和MinPts密度可達(dá)的,則稱點(diǎn)p是從點(diǎn)q關(guān)于Eps和MinPts密度相連的w 基于密度的簇n令D表示數(shù)據(jù)集,D的一個(gè)非空集合C滿足下列條件l對(duì)任意點(diǎn)p和q,若 且q是從p關(guān)于Eps和MinPts密度可達(dá)的,則有l(wèi) p與q是關(guān)于Eps和MinPts密度相連的。n則稱C是基于密度的簇12,iq p pp1ipipCpCq:,Cqpw 噪聲點(diǎn)集n令 是數(shù)據(jù)集中關(guān)于不同參數(shù)Eps和MinPts的基于密度的簇,則點(diǎn)集n稱作噪聲點(diǎn)集w 令p為數(shù)據(jù)集D中的一個(gè)點(diǎn), ,則集合n是基于密度的簇w 令C是一個(gè)關(guān)于Eps和MinPts的簇,p為C中某個(gè)滿足 的點(diǎn),則C應(yīng)滿足下列條件kCC
4、C,21:|iCpiDpMinPtspN| )(|密度可達(dá)的和關(guān)于是從MinPtsEpspqDqCMinPtspN| )(|密度可達(dá)的和關(guān)于是從MinPtsEpspqDqC關(guān)于密度可達(dá)的圖示三、DBSCAN算法w 輸入 ,Eps和MinPtsw 隨機(jī)選擇一點(diǎn) ,檢索它的Eps鄰域,若該鄰域的點(diǎn)數(shù)不少于MinPts,則點(diǎn) 是第一個(gè)核,它的Eps鄰域內(nèi)的點(diǎn)都是關(guān)于 直接密度可達(dá)的。w 檢索所有從點(diǎn) 的密度可達(dá)點(diǎn),這就生成第一個(gè)基于密度的簇。w 訪問(wèn)數(shù)據(jù)集的下一個(gè)點(diǎn),并同樣形成另一個(gè)基于密度的簇。w 基于參數(shù)Eps和MinPts,若沒(méi)有新的點(diǎn)是從任何簇中的點(diǎn)密度可達(dá)的,則計(jì)算結(jié)束。D中剩下的點(diǎn)是噪聲
5、點(diǎn)集,予以刪除。,21nxxxDDxiixixixDBSCAN的特點(diǎn)w 基于密度也需要距離計(jì)算w 每個(gè)基于密度的簇就是一個(gè)聚類(lèi)w 可以識(shí)別孤立點(diǎn)類(lèi)w 計(jì)算時(shí)間復(fù)雜度為O(nlogn),因此效率較高w 它需要用戶給定控制參數(shù)Eps和MinPts,這兩個(gè)參數(shù)對(duì)聚類(lèi)質(zhì)量有較大影響,而用戶往往不能準(zhǔn)確設(shè)定這兩個(gè)參數(shù)w 高維數(shù)據(jù)集分布不均勻,難以給出一組全局的參數(shù)(Eps和MinPts)來(lái)刻畫(huà)內(nèi)在的聚類(lèi)結(jié)構(gòu)。例2-9 用DBSCAN對(duì)例2-2 實(shí)例聚類(lèi):Eps=0.6,MinPts=1實(shí)例x屬性1屬性2屬性311.15.20.322.03.50.831.55.00.442.24.00.952.14.20
6、.861.02.00.570.92.10.581.34.80.3例2.9中各點(diǎn)之間的距離矩陣049. 7082. 214. 0012. 144. 248. 2034. 134. 237. 225. 0030. 096. 204. 308. 132. 1056. 181. 183. 171. 055. 063. 1045. 011. 321. 35 . 173. 146. 099. 108765432187654321計(jì)算有關(guān)點(diǎn)的鄰域w 隨機(jī)選擇點(diǎn)x1,根據(jù)上述距離矩陣,可以給出Eps的鄰域?yàn)?,其點(diǎn)數(shù)=2MinPts,因此x1是核。w 再給出 的Eps鄰域,沒(méi)有增加新的點(diǎn),點(diǎn) 互相直接密度可達(dá)
7、的,它們成為一個(gè)基于密度的簇。w 再選擇x2,求它的Eps鄰域?yàn)閤4, x4的Eps鄰域?yàn)閤5, x5的鄰域沒(méi)有新點(diǎn),因此它們構(gòu)成基于密度的簇。,83xx83,xx831,xxx求基于密度的簇w 同樣可發(fā)現(xiàn)x6 ,x7構(gòu)成基于密度的簇。w 因此我們找到三個(gè)基于參數(shù)Eps=0.6和MinPts=1的簇w 如果設(shè)Eps=0.5,則x2將從第二簇中分離出來(lái),成為孤立點(diǎn)。該點(diǎn)可以刪除。,;,;,76542831xxxxxxxxOPTICS簡(jiǎn)介w OPTICS(Ordering Points to Identify the Clustering Structure)w OPTICS與DBSCAN在結(jié)果上是等價(jià)的,時(shí)間復(fù)雜度相同。w OPT
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Unit 2 My week Part A(教學(xué)設(shè)計(jì))-2024-2025學(xué)年人教PEP版英語(yǔ)五年級(jí)上冊(cè)
- 個(gè)人買(mǎi)賣(mài)標(biāo)準(zhǔn)合同(35篇)
- 實(shí)驗(yàn)活動(dòng)7:探究電流與電阻的關(guān)系2024-2025學(xué)年九年級(jí)上冊(cè)物理配套教學(xué)設(shè)計(jì)(人教版)
- 山東省臨淄區(qū)七年級(jí)政治下冊(cè) 第六單元 走進(jìn)法律 與法同行單元備課教案 魯人版五四制
- Unit 1 Signs (教學(xué)設(shè)計(jì))-2024-2025學(xué)年北師大版(三起)英語(yǔ)四年級(jí)上冊(cè)
- 2《祖父的園子》第二課時(shí)教學(xué)設(shè)計(jì)
- 四年級(jí)上冊(cè)綜合實(shí)踐活動(dòng)教學(xué)設(shè)計(jì)- 長(zhǎng)輩兒時(shí)的游戲|教科版
- 6《我們來(lái)做“熱氣球”》教學(xué)設(shè)計(jì)-2023-2024學(xué)年科學(xué)三年級(jí)上冊(cè)教科版
- 七年級(jí)生物上冊(cè) 第二單元 第一章 第1節(jié)練習(xí)使用顯微鏡教案 (新版)新人教版
- 平行線教案 浙教版
- 2023年國(guó)家電投內(nèi)蒙古公司招聘筆試題庫(kù)及答案解析
- GB/T 7736-2001鋼的低倍組織及缺陷超聲波檢驗(yàn)法
- 茶葉行業(yè)品牌加盟協(xié)議書(shū)
- 離心泵技術(shù)規(guī)格書(shū)
- 2022-2023學(xué)年度第一學(xué)期教科室工作總結(jié)
- 【講座】議題式教學(xué)的課堂架構(gòu)和設(shè)計(jì)(總)課件
- 2022年惠州市創(chuàng)新投資有限公司招聘筆試試題及答案解析
- 《信息技術(shù)》智慧職教考試復(fù)習(xí)題庫(kù)(含答案)
- 2023年大學(xué)生人文知識(shí)競(jìng)賽題庫(kù)及答案(完整版)
- 內(nèi)審檢查表-公司本部-人力資源部
- 學(xué)校培訓(xùn)流程圖
評(píng)論
0/150
提交評(píng)論