




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘考試題精編版數(shù)據(jù)挖掘考試題公司內(nèi)部編號:good-tmmt-mmut-uupty-uuyy-dtti-數(shù)據(jù)挖掘考試題一選擇題1. 當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以用法哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分別()a.分類b.聚類c.關(guān)聯(lián)分析d.主成分分析2. ( )將兩個簇的鄰近度定義為不同簇的全部點對鄰近度的平均值,它是一種凝聚層次聚類技術(shù)。a.min(單鏈)b.max(全鏈)c.組平均d.ward方法3.數(shù)據(jù)挖掘的經(jīng)典案例“啤酒與尿布試驗最主要是應(yīng)用了( )數(shù)據(jù)挖掘方法。a 分類b 預(yù)報 c關(guān)聯(lián)規(guī)章分析 d聚類4.關(guān)于k均值和dbscan的比擬,以下說法不正確的選項是( )a
2、.k均值丟棄被它識別為噪聲的對象,而dbscan一般聚類全部對象。b.k均值用法簇的基于原型的概念,dbscan用法基于密度的概念。c.k均值很難處理非球形的簇和不同大小的簇,dbscan可以處理不同大小和不同樣子的簇d.k均值可以發(fā)覺不是明顯分別的簇,即便簇有重疊也可以發(fā)覺,但是dbscan 會合并有重疊的簇5.以下關(guān)于wards method說法錯誤的選項是:( )a.對噪聲點和離群點敏感度比擬小b.擅特長理球狀的簇c.對于ward方法,兩個簇的鄰近度定義為兩個簇合并時導(dǎo)致的平方誤差d.當(dāng)兩個點之間的鄰近度取它們之間間隔 的平方時,ward方法與組平均特別相像6.以下關(guān)于層次聚類存在的問題
3、說法正確的選項是:( )a.具有全局優(yōu)化目的函數(shù)b.group average擅特長理球狀的簇c.可以處理不同大小簇的力量d.max對噪聲點和離群點很敏感7.以下關(guān)于凝聚層次聚類的說法中,說法錯誤的事:( )a.一旦兩個簇合并,該操作就不能撤銷b.算法的終止條件是僅剩下一個簇c.空間冗雜度為()2mod.具有全局優(yōu)化目的函數(shù)8.規(guī)章牛奶,尿布啤酒的支持度和置信度分別為:( )9.以下( )是屬于分裂層次聚類的方法。a.minb.maxc.group averaged.mst10.對下列圖數(shù)據(jù)進(jìn)展凝聚聚類操作,簇間相像度用法max計算,其次步是哪兩個簇合并:( )a.在3和l,2合并b.3和4,
4、5合并c.2,3和4,5合并d. 2,3和4,5形成簇和3合并二填空題:1.屬性包括的四種類型:、。2.是兩個簇的鄰近度定義為不同簇的全部點對鄰近度的平均值。3. 根本凝聚層次聚類算法空間冗雜度,時間冗雜度,假如某個簇到其他全部簇的間隔 存放在一個有序表或堆中,層次聚類所需要的時間冗雜度將為。4. 聚類中,定義簇間的相像度的方法有寫出四個:、。5. 層次聚類技術(shù)是其次類重要的聚類方法。兩種層次聚類的根本方法:、。6. 組平均是一種界于和之間的折中方法。7. 相像度矩陣可以用相識度表示還可以用表示。8. 全鏈在處理大小不同的簇時,可能使裂開,并且偏好。9. 單鏈技術(shù)擅長于處理,但對和很敏感。10
5、. 聚類分析可以看做是一種的分類。有監(jiān)視、無監(jiān)視三推斷題1.從點作為個體簇開頭,每一步合并兩個最接近的簇,這是一種分裂的層次聚類方法。2.數(shù)據(jù)挖掘的目的不在于數(shù)據(jù)采集策略,而在于對已經(jīng)存在的數(shù)據(jù)進(jìn)展形式的發(fā)掘。3.在聚類分析當(dāng)中,簇內(nèi)的相像性越大,簇間的差異越大,聚類的效果就越差。4.當(dāng)兩個點之間的鄰近度取它們之間間隔 的平方時,ward方法與組平均特別相像。5.dbscan是相對抗噪聲的,并且可以處理任意樣子和大小的簇。6.屬性的性質(zhì)不必與用來度量他的值的性質(zhì)一樣。7.全鏈對噪聲點和離群點很敏感。8.對于非對稱的屬性,只有非零值才是重要的。9.k均值可以很好的處理不同密度的數(shù)據(jù)。10.單鏈技
6、術(shù)擅特長理橢圓樣子的簇。四綜合題1. 何為層次聚類它用哪兩種圖表示2. 兩種層次聚類的根本方法兩種方法的定義3.分別寫出min、max和組平均的優(yōu)缺點?4.寫出根本凝聚層次聚類的算法?5.由下列圖已給出的間隔 矩陣,將max用于6個點樣本數(shù)據(jù)集,畫出層次聚類的樹狀圖?考試題+答案一選擇題1. 當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以用法哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分別(b)a.分類b.聚類c.關(guān)聯(lián)分析d.主成分分析2. c將兩個簇的鄰近度定義為不同簇的全部點對鄰近度的平均值,它是一種凝聚層次聚類技術(shù)。a.min(單鏈)b.max(全鏈)c.組平均d.ward方法3.數(shù)據(jù)挖掘的經(jīng)典案例“
7、啤酒與尿布試驗最主要是應(yīng)用了(c )數(shù)據(jù)挖掘方法。a 分類b 預(yù)報 c關(guān)聯(lián)規(guī)章分析 d聚類4.關(guān)于k均值和dbscan的比擬,以下說法不正確的選項是(a)a.k均值丟棄被它識別為噪聲的對象,而dbscan一般聚類全部對象。b.k均值用法簇的基于原型的概念,dbscan用法基于密度的概念。c.k均值很難處理非球形的簇和不同大小的簇,dbscan可以處理不同大小和不同樣子的簇d.k均值可以發(fā)覺不是明顯分別的簇,即便簇有重疊也可以發(fā)覺,但是dbscan 會合并有重疊的簇5.以下關(guān)于wards method說法錯誤的選項是:ca.對噪聲點和離群點敏感度比擬小b.擅特長理球狀的簇c.對于ward方法,兩
8、個簇的鄰近度定義為兩個簇合并時導(dǎo)致的平方誤差d.當(dāng)兩個點之間的鄰近度取它們之間間隔 的平方時,ward方法與組平均特別相像7.以下關(guān)于層次聚類存在的問題說法正確的選項是:ba具有全局優(yōu)化目的函數(shù)b.group average擅特長理球狀的簇c.可以處理不同大小簇的力量d.max對噪聲點和離群點很敏感7.以下關(guān)于凝聚層次聚類的說法中,說法錯誤的事:da.一旦兩個簇合并,該操作就不能撤銷b.算法的終止條件是僅剩下一個簇c.空間冗雜度為()2mod.具有全局優(yōu)化目的函數(shù)8.規(guī)章牛奶,尿布啤酒的支持度和置信度分別為:(c)9.以下( d)是屬于分裂層次聚類的方法。a.minb.maxc.group a
9、veraged.mst10.對下列圖數(shù)據(jù)進(jìn)展凝聚聚類操作,簇間相像度用法max計算,其次步是哪兩個簇合并:ba.在3和l,2合并b.3和4,5合并c.2,3和4,5合并d. 2,3和4,5形成簇和3合并二填空題:1.屬性包括的四種類型:標(biāo)稱、序數(shù)、區(qū)間、比率。2.組平均是兩個簇的鄰近度定義為不同簇的全部點對鄰近度的平均值。3. 根本凝聚層次聚類算法空間冗雜度()2mo,假如某個簇o,時間冗雜度()3m到其他全部簇的間隔 存放在一個有序表或堆中,層次聚類所需要的時間冗雜度2。將為()mo logm4. 聚類中,定義簇間的相像度的方法有寫出四個:min單鏈、max 全鏈、組平均、ward方法。5.
10、 層次聚類技術(shù)是其次類重要的聚類方法。兩種層次聚類的根本方法:凝聚層次聚類、分裂層次聚類。6.組平均是一種界于單鏈和全鏈之間的折中方法。7. 相像度矩陣可以用相識度表示還可以用間隔 表示。8. 全鏈在處理大小不同的簇時,可能使大的簇裂開,并且偏好球形。9. 單鏈技術(shù)擅長于處理非橢圓樣子的簇,但對噪聲點和離群點很敏感。10. 聚類分析可以看做是一種無監(jiān)視的分類。有監(jiān)視、無監(jiān)視三推斷題:1. 從點作為個體簇開頭,每一步合并兩個最接近的簇,這是一種分裂的層次聚類方法。×2. 數(shù)據(jù)挖掘的目的不在于數(shù)據(jù)采集策略,而在于對已經(jīng)存在的數(shù)據(jù)進(jìn)展形式的發(fā)掘。3. 在聚類分析當(dāng)中,簇內(nèi)的相像性越大,簇間
11、的差異越大,聚類的效果就越差。×4. 當(dāng)兩個點之間的鄰近度取它們之間間隔 的平方時,ward方法與組平均特別相像。5. dbscan是相對抗噪聲的,并且可以處理任意樣子和大小的簇。6. 屬性的性質(zhì)不必與用來度量他的值的性質(zhì)一樣。7. 全鏈對噪聲點和離群點很敏感。×8. 對于非對稱的屬性,只有非零值才是重要的。9. k均值可以很好的處理不同密度的數(shù)據(jù)。×10.單鏈技術(shù)擅特長理橢圓樣子的簇。×四綜合題1. 何為層次聚類它用哪兩種圖表示層次聚類為嵌套簇的聚集,組成一棵層次數(shù)。兩種主要圖的表示:樹狀圖和嵌套簇圖。2. 兩種層次聚類的根本方法兩種方法的定義凝聚層次
12、聚類和分裂層次聚類凝聚的:從點作為個體簇開頭,每一步合并兩個最接近的簇。分裂的:從包含全部點的某個簇開頭,每一步分裂一個簇,直到僅剩下單點簇。3.分別寫出min、max和組平均的優(yōu)缺點?4.寫出根本凝聚層次聚類的算法?算法步驟:(1)計算鄰近度矩陣(2)repeat(3)合并最鄰近的兩個簇(4)更新鄰近度矩陣,以反映新的簇與原來的簇之間的鄰近度(5)until 僅剩下一個簇5.由下列圖已給出的間隔 矩陣,將max用于6個點樣本數(shù)據(jù)集,畫出層次聚類的樹狀圖?這是告知你的計算過程,如今不要寫了。p3和p6最近所以36結(jié)合,p2和p5較近,所以25結(jié)合,如今是3,6、2,5、1和4,dist(3,6,4) = max(dist(3,4),dist(6,4)= max(0.15,0.22)=0.22dist(3,6,2,5) = max(dist(3,2),dist(6,2),dist(3,5),dist(6,5)=max(0.14,0.25,0.28,0.39)=0.39dist(3,6,1)=max(dist(3,1),dist(6,1)=max(0.22,0.23)=0.23所以3,6和4結(jié)合。如今還剩3,6,4、2,5和1dist(3,6,4,2,5)=max(dist(3,2),dist3,5,dist(6,2),dist(6,5),dist (4,2),dist
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 5.1 物體的質(zhì)量說課稿 2025年初中物理八年級上冊
- 2025年全自動流體包裝設(shè)備項目發(fā)展計劃
- 2025年黨員領(lǐng)導(dǎo)干部學(xué)法用法知識考試模擬試題及答案(共七套)
- 街道物業(yè)態(tài)發(fā)言材料
- 外國禮儀合作協(xié)議
- 1例尖吻蝮咬傷致腦梗死應(yīng)用阿替普酶溶栓的臨床效果分析
- 《深度學(xué)習(xí)項目案例開發(fā)》課件-任務(wù)五:使用遷移學(xué)習(xí)完成垃圾分類
- 2025年度北京市城市綠化養(yǎng)護(hù)項目勞動合同范本
- 危險品運輸司機(jī)合作協(xié)議
- 快遞物流高效配送調(diào)度策略
- 抗日戰(zhàn)爭中的英雄人物課件
- 電動汽車電機(jī)驅(qū)動控制系統(tǒng)設(shè)計
- 醫(yī)療器械公司員工入職培訓(xùn)
- 獸藥行業(yè)供銷模式分析
- 校園綠化養(yǎng)護(hù)投標(biāo)方案技術(shù)標(biāo)
- 小蘿卜頭的故事演講稿3分鐘三篇
- 卷揚機(jī)驗收表格
- 14天攻克KET詞匯表
- 張祖濤:新課改背景下思想政治教師的專業(yè)發(fā)展77課件
- 百萬機(jī)組PSS參數(shù)整定試驗方案
- 查泰萊夫人的情人
評論
0/150
提交評論