數(shù)據(jù)挖掘考試題_第1頁
數(shù)據(jù)挖掘考試題_第2頁
數(shù)據(jù)挖掘考試題_第3頁
數(shù)據(jù)挖掘考試題_第4頁
數(shù)據(jù)挖掘考試題_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘考試題一 選擇題1 O當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽得數(shù)據(jù)與帶其她標(biāo)簽得數(shù)據(jù)相分離?( )A.分類B、聚類C.關(guān)聯(lián)分析D。主成分分析2. ( )將兩個簇得鄰近度定義為不同簇得所有點對鄰近度得平均值,它就是一種凝聚層次聚類技術(shù)。D.Wa r d方法A。MIN(單鏈)B。MAX(全鏈)C、組平均3、數(shù)據(jù)挖掘得經(jīng)典案例“啤酒與尿布試驗”最主要就是應(yīng)用了( )數(shù)據(jù)挖掘方法、A 分類B 預(yù)測C 關(guān)聯(lián)規(guī)則分析D 聚類4。關(guān)于K均值與DB S CAN得比較,以下說法不正確得就是()A.K均值丟棄被它識別為噪聲得對象,而DBS C A N 一般聚類所有對象。B、K均值使用簇得基

2、于原型得概念,DBSC AN使用基于密度得概念。Co K均值很難處理非球形得簇與不同大小得簇,DBSCAN可以處理不同大小與不同形狀得簇D.K均值可以發(fā)現(xiàn)不就是明顯分離得簇,即便簇有重疊也可以發(fā)現(xiàn),但就是DBSCAN會合并有重疊得簇5、下列關(guān)于Ward's Method說法錯誤得就是:()A、對噪聲點與離群點敏感度比較小B 、擅長處理球狀得簇Co對于Ward方法,兩個簇得鄰近度定義為兩個簇合并時導(dǎo)致得平方誤差Do當(dāng)兩個點之間得鄰近度取它們之間距離得平方時,Wa r d方法與組平均非常相似6.下列關(guān)于層次聚類存在得問題說法正確得就是:()A. 具有全局優(yōu)化目標(biāo)函數(shù)B.Grou pA ve

3、rage擅長處理球狀得簇C.可以處理不同大小簇得能力D.Ma x對噪聲點與離群點很敏感7。下列關(guān)于凝聚層次聚類得說法中,說法錯誤得事:()Ao 一旦兩個簇合并,該操作就不能撤銷B 、算法得終止條件就是僅剩下一個簇C.空間復(fù)雜度為Do具有全局優(yōu)化目標(biāo)函數(shù)8。規(guī)則牛奶,尿布 一 啤酒得支持度與置信度分別為:()TID項集1面包,牛奶2回包,尿布,啤酒,雞蛋3牛奶尿布,啤酒,可樂4回包,牛奶,尿布,啤酒5回包,牛奶,尿布,可樂A。0。4,0.4 B。0.6 7,0、6 7 C。0。4,0、67 D、0。6 7,0、49、下列()就是屬于分裂層次聚類得方法。A.Min?名.Max? C、Group A

4、ver age ?D、MST10。對下圖數(shù)據(jù)進行凝聚聚類操作,簇間相似度使用MA X計算,第二步就是哪兩個簇合11I2I3I4I51.000,900.100 650200.901,000700,600,500.10070too0.400.300.650.600.401.000.800.200.500,300,801.00并:()11I2I3I4I5A、在 3與l,2 合并 B、3與4,5合并 C . 2,3與4, 5 合并D、2,3與 4 ,5形成簇與3合并二.填空題:1 .屬性包括得四種類型:、。2 . 就是兩個簇得鄰近度定義為不同簇得所有點對鄰近度得平均值、3、基本凝聚層次聚類算法空間復(fù)雜

5、度 ,時間復(fù)雜度,如果某個簇到其她所 有簇得距離存放在一個有序表或堆中,層次聚類所需要得時間復(fù)雜度將為 。4、 . 聚類中,定義簇間得相似度得方法有(寫出四個):、。5、 層次聚類技術(shù)就是第二類重要得聚類方法、兩種層次聚類得基本方 法:、6、 組平均就是一種界于 與 之間得折中方法。7、 相似度矩陣可以用相識度表布還可以用 表不。8 .全鏈在處理大小不同得簇時 ,可能使 破裂,并且偏好 。9 。 單鏈技術(shù)擅長于處理 ,但對 與 很敏感。10 、聚類分析可以瞧做就是一種 得分類、(有監(jiān)督、無監(jiān)督)三、判斷題1 .從點作為個體簇開始,每一步合并兩個最接近得簇,這就是一種分裂得層次聚類方法。()2

6、.數(shù)據(jù)挖掘得目標(biāo)不在于數(shù)據(jù)采集策略,而在于對已經(jīng)存在得數(shù)據(jù)進行模式得發(fā)掘。()3 .在聚類分析當(dāng)中,簇內(nèi)得相似性越大,簇間得差別越大,聚類得效果就越差、()4 .當(dāng)兩個點之間得鄰近度取它們之間距離得平方時,Ward方法與組平均非常相似。()5 . DBSCAN就是相對抗噪聲得,并且能夠處理任意形狀與大小得簇。()6 .屬性得性質(zhì)不必與用來度量她得值得性質(zhì)相同。()7 .全鏈對噪聲點與離群點很敏感。()8 .對于非對稱得屬性,只有非零值才就是重要得、()9 . K均值可以很好得處理不同密度得數(shù)據(jù)、()10 .單鏈技術(shù)擅長處理橢圓形狀得簇。()四。綜合題1 .何為層次聚類?它用哪兩種圖表示?2 。

7、 兩種層次聚類得基本方法?兩種方法得定義?3 .分別寫出Min、Max與組平均得優(yōu)缺點?4 .寫出基本凝聚層次聚類得算法 ?5 .由下圖已給出得距離矩陣,將Max用于6個點樣本數(shù)據(jù)集,畫出層次聚類得樹狀 圖?P1P2P3P4P5P6P10。000、2 40、2 20.3 70、3 40.23P20。2 40。000。1 40.200。130。25P30、2 20、140。000、1 50。2 80.1 1P40.370、200.150.0 00.290、22P50 .340、1 30.280、2 90。0 00。39P60。2 30。250、110、2 20、3 90、00考試題+答案一、選擇

8、題1 、當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時, 可以使用哪種技術(shù)促使帶同類標(biāo)簽得數(shù)據(jù)與帶其她標(biāo)簽得數(shù)據(jù)相分離?(B)Ao分類B.聚類 C、關(guān)聯(lián)分析D.主成分分析2。( C )將兩個簇得鄰近度定義為不同簇得所有點對鄰近度得平均值,它就是一種凝聚層次聚類技術(shù)。A、MIN(單鏈)B.MAX(全鏈)C.組平均D。Ward方法3、數(shù)據(jù)挖掘得經(jīng)典案例“啤酒與尿布試驗”最主要就是應(yīng)用了 (C)數(shù)據(jù)挖掘方法。A 分類B預(yù)測C關(guān)聯(lián)規(guī)則分析D聚類4 .關(guān)于K均值與DBSC A N得比較,以下說法不正確得就是 (A)A.K均值丟棄被它識別為噪聲得對象,而D BS C AN 一般聚類所有對象。B 、 K 均值使用簇得基于原型得概念

9、,DBSCAN 使用基于密度得概念。C、K均值很難處理非球形得簇與不同大小得簇,DB S CAN可以處理不同大小與不同形狀得簇D、K均值可以發(fā)現(xiàn)不就是明顯分離得簇,即便簇有重疊也可以發(fā)現(xiàn),但就是DBSCAN會合并有重疊得簇5、下列關(guān)于 Ward's Method說法錯誤得就是:(C)A、對噪聲點與離群點敏感度比較小B、擅長處理球狀得簇Co對于W ard方法,兩個簇得鄰近度定義為兩個簇合并時導(dǎo)致得平方誤差D。當(dāng)兩個點之間得鄰近度取它們之間距離得平方時,Ward方法與組平均非常相似7 .下列關(guān)于層次聚類存在得問題說法正確得就是:(B)A 具有全局優(yōu)化目標(biāo)函數(shù)8 .G r oup Avera

10、ge擅長處理球狀得簇Co可以處理不同大小簇得能力Do Max對噪聲點與離群點很敏感7。下列關(guān)于凝聚層次聚類得說法中,說法錯誤得事:(D)A、一旦兩個簇合并,該操作就不能撤銷B、算法得終止條件就是僅剩下一個簇C、空間復(fù)雜度為D.具有全局優(yōu)化目標(biāo)函數(shù)8、規(guī)則牛奶,尿布一 啤酒得支持度與置信度分別為:(C)T ID項集1面包,牛奶2面包尿布,啤酒雞蛋3t牛奶,尿布,啤酒,可樂j4回包,牛奶,尿布,啤酒5回包,牛奶,尿布,可樂Ao 0。4,0、4Bo 0.67,0。67 C、0、4,0。6 7D。0。6 7 ,0.49 .下列(D)就是屬于分裂層次聚類得方法。A。Mi n ? B。Ma x ? Co

11、Gro u p Average?D。 M ST11I2I3I4I51000,900,100.650.200,901,000.700.600.500,100,701.000.400.300.650.600.401000.800200.500.300.801.0010 .對下圖數(shù)據(jù)進行凝聚聚類操作,簇間相似度使用MAX計算,第二步就是哪兩個簇合并:(B)11I2I3I4I5A、在3與 1 ,2合并 B.3與4,5合并 C。 2,3與 4 ,5合并D、2, 3 與 4,5形成簇與 3 合并填空題:1。屬性包括得四種類型:標(biāo)粗、序數(shù)、區(qū)間、比率。2。組業(yè)L就是兩個簇得鄰近度定義為不同簇得所有點對鄰近度

12、得平均值。3 .基本凝聚層次聚類算法空間復(fù)雜度,時間復(fù)雜度,如果某個簇到其她所有簇得距離存放在 一個有序表或堆中,層次聚類所需要得時間復(fù)雜度將為。4。聚類中,定義簇間得相似度得方法有 (寫出四個):MIN(單鏈)、MAX(全鏈)、組平均、Ward 方法。5 。層次聚類技術(shù)就是第二類重要得聚類方法。兩種層次聚類得基本方法:凝聚層次聚類、分裂層次聚類、6 .組平均就是一種界于 單鏈 與全鏈 之間得折中方法。7 、 相似度矩陣可以用相識度表示還可以用 距離表示。8 .全鏈在處理大小不同得簇時 ,可能使大得簇破裂,并且偏好 球眩。9 、單鏈技術(shù)擅長于處理非橢圓形大得簇,但對噪聲點 與離群點 很敏感。1

13、 0。 聚類分析可以瞧做就是一種 無監(jiān)督得分類。(有監(jiān)督、無監(jiān)督)三。判斷題:1、 從點作為個體簇開始,每一步合并兩個最接近得簇,這就是一種分裂得層次聚類方法、(沖2、 數(shù)據(jù)挖掘得目標(biāo)不在于數(shù)據(jù)采集策略,而在于對已經(jīng)存在得數(shù)據(jù)進行模式得發(fā)掘。(J3。在聚類分析當(dāng)中,簇內(nèi)得相似性越大,簇間得差別越大,聚類得效果就越差、(X )4。當(dāng)兩個點之間得鄰近度取它們之間距離得平方時,Wa r d方法與組平均非常相似、(J5。 DBSCAN就是相對抗噪聲得,并且能夠處理任意形狀與大小得簇。(才6、屬性得性質(zhì)不必與用來度量她得值得性質(zhì)相同。(,)7、全鏈對噪聲點與離群點很敏感、(X )8。對于非對稱得屬性,只

14、有非零值才就是重要得、(,)9、 K均值可以很好得處理不同密度得數(shù)據(jù)。(X)10、單鏈技術(shù)擅長處理橢圓形狀得簇。(X )四.綜合題1、 何為層次聚類?它用哪兩種圖表示?層次聚類為嵌套簇得聚集,組成一棵層次數(shù)、兩種主要圖得表示:樹狀圖與嵌套簇圖。2、 兩種層次聚類得基本方法 ?兩種方法得定義?凝聚層次聚類與分裂層次聚類凝聚得:從點作為個體簇開始,每一步合并兩個最接近得簇。分裂得:從包含所有點得某個簇開始,每一步分裂一個簇,直到僅剩下單點簇、3、 分別寫出Min、Max與組平均得優(yōu)缺點 ?7E義方式優(yōu)點缺點M i n能處理非橢圓形狀對噪聲與離群點很敏感Max對噪聲點與離群點敏感度較小1 .當(dāng)處理簇

15、大小/、同時,較大得簇容易破裂2 .偏好處理球狀得簇組平均對噪聲點與離群點敏感度較小偏好處理球狀得簇4。寫出基本凝聚層次聚類得算法算法步驟:(1)計算鄰近度矩陣(2)Repeat(3) 合并最鄰近得兩個簇(4) 更新鄰近度矩陣,以反映新得簇與原來得簇之間得鄰近度(5)Unt i l僅剩下一個簇5。由下圖已給出得距離矩陣,將Max用于6個點樣本數(shù)據(jù)集,畫出層次聚類得樹 狀圖?P 1P2P3P4P5P6P10。000、240.220.370、340.2 3P20.240.000.140.200 o 130。 25P30O 2 20。140o 000. 1 50o 280o 11P40O 370O

16、2 00、1 50、0 00、290、2 2P50、340、130.280O 290、000、3 9P60O 230、250. 1 10O 220o 390 .0 0C0 1 :0節(jié)g斗0 I0.150 1 ons -這就是告訴您得計算過程,現(xiàn)在不要寫了、P3與P6最近所以36結(jié)合,P2與P5較近,所以25結(jié)合,現(xiàn)在就是3, 6 、2, 5 、 1與4,Dist(3,6 , 4 ) = max(dist(3, 4),dist (6,4 )= m a x(0、15,0.22 )=0、22Dist(3, 6 , 2,5 ) = max(dis t (3 ,2),dist( 6 ,2),dist(3,5),di s t( 6 , 5 )= max(0.14,0。2 5,0。28,0、39)=0、39Dist( 3,6 ,1尸max (d ist(3,1),dist(6, 1 )=max(0、2 2,0、23)= 0、23所以3,6與4結(jié)合?,F(xiàn)在還剩3,6,4、 2 ,5與1D 1 st( 3 ,6,4 , 2 ,5 )=max( d i st(3,2),dist 3,5 , d is t (6,2),d i st (6,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論