




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘考試題目聚類一 、填空題1、密度的基于中心的方法使得我們可以將點分類為: 、 、2、DBSCAN 算法在最壞的情況下,時間復(fù)雜度是 、空間復(fù)雜度是 3、DBSCAN 算法的優(yōu)點是 、 。4、DBSCAN 算法的缺點是處理 、 的數(shù)據(jù)效果不好。5、DBSCAN 算法的參數(shù)有: 、 。6、簇的有效性的非監(jiān)督度量常??梢苑譃閮深悾?、 ,它常采用的指標(biāo)為 。7、簇的有效性的監(jiān)督度量通常稱為 ,它度量簇標(biāo)號與外部提供的標(biāo)號的匹配程度主要借助 。8、在相似度矩陣評價的聚類中,如果有明顯分離的簇,則相似度矩陣應(yīng)當(dāng)粗略地是 。9、DBSCAN 算法的參數(shù)確定的基本方法是觀察 的特性。10、不引用附加
2、的信息,評估聚類分析結(jié)果對數(shù)據(jù)擬合情況屬于 技術(shù)。答案:1、核心點邊界點 噪聲點2、O(n2)O(n)3、耐噪聲能夠處理任意大小和形狀的簇4、高維數(shù)據(jù)變密度的5、EPS MinPts6、簇的凝聚性 簇的分離性 均方差 (SSE)7、外部指標(biāo)監(jiān)督指標(biāo)的熵8、塊對角的9、點到它的第 K 個最近鄰的距離( K- 距離)10、非監(jiān)督二、選擇題1、DBSCAN 算法的過程是( B )。 刪除噪聲點。 每組連通的核心點形成一個簇。 將所有點標(biāo)記為核心點、邊界點和噪聲點。 將每個邊界點指派到一個與之關(guān)聯(lián)的核心點的簇中。 為距離在 Eps 之內(nèi)的所有核心點之間賦予一條邊。A:B:C:D :2、 如果有 m 個
3、點, DBSCAN 在最壞的情況下的時間復(fù)雜度度為(C)。2A O(m)B O(mlogm)C O(m )D O(logm)3、在基本 DBSCAN 的參數(shù)選擇方法中,點到它的 K 個最近鄰的距離中的 K 選作為哪一個 參數(shù)( B)。A EpsB MinPtsC 質(zhì)心D 邊界4、當(dāng)采用K-距離的方法選擇 DBSCAN的Eps和MinPts參數(shù)時,如果設(shè)置的 K的值太大,則小簇(尺寸小于 K 的簇)可能會被標(biāo)記為( A)。A 噪聲B 核心簇C 邊界簇D 以上都不對5、如果處理以下形狀的數(shù)據(jù)時,適宜采用DBSCAN 的是( B)A 球形B SS 形C 橢球形D 方形D)6、DBSCAN 之所以難以
4、有效處理高維數(shù)據(jù),其主要原因是(A 數(shù)據(jù)的形狀太復(fù)雜 B 簇的大小未知C 噪聲點過多D 開銷過大7、簇評估能夠做到( D ) 確定數(shù)據(jù)集的聚類趨勢。 確定正確的簇個數(shù)。 比較兩個簇集,確定那個更好。 不引用附加信息,評估聚類分析結(jié)果對數(shù)據(jù)擬合情況A B C D 8、 如果不考慮外部信息,聚類結(jié)構(gòu)的有良性度量應(yīng)當(dāng)采用(A )。A 均方差B 方差C 中位數(shù)D 均值9、比較不同的聚類或簇時,通常采用相對的簇評估度量,相對的簇評估以()來評價不同的聚類或簇。A SSE 或熵 B 簇的大小C 簇的形狀D 簇的密度10、對于 DBSCAN ,參數(shù) Eps 固定,當(dāng) MinPts 取值較大時,會導(dǎo)致( B)
5、A 能很好的區(qū)分各類簇B 只有高密度的點的聚集區(qū)劃為簇,其余劃為噪聲C 低密度的點的聚集區(qū)劃為簇,其余的劃為噪聲D 無影響三、判斷題1、DBSCAN 的參數(shù) Eps 固定時, MinPts 的值越大越好。 (錯)2、 DBSCAN 會把所有點劃分到各自的簇中。(錯)3、在所有核心點的 Eps 半徑鄰域內(nèi)的點數(shù)都不少于 MinPts 閾值。(對)4、 SSE 在無監(jiān)督的簇評估中能起到很好的作用。(對)對)。5、 在通過相似度矩陣評估簇時,如果相似度矩陣是塊對角的, 說明具有明顯分離的簇6、 DBSCAN 能夠很好的區(qū)分原始數(shù)據(jù)的形狀,但受限于用戶指定的參數(shù)。(對)7、判斷簇的個數(shù)不屬于簇評估。
6、(錯)8、 在做聚類時,DBSCAN會刪掉它認(rèn)為是噪聲點的數(shù)據(jù)點。(對)9、DBSCAN的空間復(fù)雜度始終都是 0(m)。(對)10、 K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合并 有重疊的簇。(對)四、簡答題1、描述DBSCAN的算法過程。 將所有點標(biāo)記為核心點、邊界點和噪聲點。 刪除噪聲點。 為距離在Eps之內(nèi)的所有核心點之間賦予一條邊。 每組連通的核心點形成一個簇。 將每個邊界點指派到一個與之關(guān)聯(lián)的核心點的簇中。2、簡答DBSCAN的優(yōu)點與不足。答,優(yōu)點:DBSCAN是相對抗噪聲的,并且能夠處理任意形狀和大小的簇,缺點:當(dāng)簇的密度變化過大時,DBSCAN就很難敏感的發(fā)現(xiàn)數(shù)據(jù)集中的簇。同時,DBSCAN在處理高維數(shù)據(jù)時,會有很大的開銷。3、簡述DBSCAN算法的核心思想。DBSCAN算法的核心思想是一個簇中除了邊界點,每個點在給定的半徑Eps內(nèi)必須包含不少于PinPts個數(shù)據(jù)點,這樣的點稱為核心點。4、確定DBSCAN參數(shù)的基本的方法是什么。答:觀察點到它的 K個最近鄰的距離的特性。對于某個 K,計算所有點的 K距離,以遞增 的次序排序,繪制排序后的值。在圖中找到曲線拐點,拐點處的函數(shù)值為Eps半徑,K的值為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 項目工程造價培訓(xùn)課件
- 兒童多動癥的健康教育
- 部隊反邪教課件
- 高效節(jié)能電機項目經(jīng)濟效益和社會效益分析報告(范文)
- 2025年會計、審計及稅務(wù)服務(wù)項目發(fā)展計劃
- 新解讀《建筑信息模型(BIM)應(yīng)用標(biāo)準(zhǔn) DBJ-T 36-069-2021》解讀
- 2025年壬基酚聚氧乙烯醚項目建議書
- 細(xì)胞生物學(xué)總結(jié)
- 2025年霍爾汽車點火系統(tǒng)項目合作計劃書
- 2025年花畫工藝品合作協(xié)議書
- 教師進(jìn)企業(yè)實踐三方協(xié)議書
- 施工現(xiàn)場隱患圖片識別合集
- 山西省建設(shè)工程計價依據(jù)
- 煤礦在用安全設(shè)備檢測檢驗制度
- GB/T 24632.2-2009產(chǎn)品幾何技術(shù)規(guī)范(GPS)圓度第2部分:規(guī)范操作集
- GB/T 20428-2006巖石平板
- GB/T 11363-1989釬焊接頭強度試驗方法
- 內(nèi)調(diào)焦準(zhǔn)距式望遠(yuǎn)系統(tǒng)光學(xué)設(shè)計2022年
- 核磁共振的發(fā)展史課件
- 切紙機安全操作規(guī)程標(biāo)準(zhǔn)范本
- 國家開放大學(xué)2022秋法理學(xué)形考1-4參考答案
評論
0/150
提交評論