數(shù)據(jù)挖掘計算題參考答案_第1頁
數(shù)據(jù)挖掘計算題參考答案_第2頁
數(shù)據(jù)挖掘計算題參考答案_第3頁
數(shù)據(jù)挖掘計算題參考答案_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘計算題參考答案數(shù)據(jù)倉庫與數(shù)據(jù)挖掘復(fù)習(xí)題1. 假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下的8個點(用(x,y)代表位置)聚類為3個類:X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9),距離選擇歐幾里德距離。假設(shè)初始選擇X1(2,10)、X4(5,8)、X7(1,2)為每個聚類的中心,請用 K_means算法來計算:(1)在第一次循環(huán)執(zhí)行后的3個聚類中心;答:第一次迭代:中心點1:X1(2,10),2:X4(5,8),X7(1,2)X1X2X3X4X5X6X7X8102536+369+425+2516+361+644+129+

2、49+99+1604+91+1616+361+131+641+95316+364529058答案:在第一次循環(huán)執(zhí)行后的3個聚類中心:1:X1(2,10) 2:X3,X4,X5,X6,X8 (6,6)3:X2,X7 (1.5,3.5)(2)經(jīng)過兩次循環(huán)后,最后的3個族分別是什么?第二次迭代:dX1X2X3X4X5X6X7X8102536+369+425+2516+361+644+1232178524411+135+6.55+1.56.5+0.53.5+4.55.5+1.54.5+0.50.5+1.52.5+5.5答案:1:X1,X8 (3.5,9.5) 2:X3,X4,X5,X6 (6.5,5.

3、25) 3:X2,X7 (1.5,3.5)2. 數(shù)據(jù)庫有4個事務(wù)。設(shè)min_sup=60%,min_conf=80%。TIDdataTransactionT1006/6/2007K,A,D,BT2006/6/2007D,A,C,E,BT3006/7/2007C,A,B,ET4006/10/2007B,A,Da. 使用Apriori算法找出頻繁項集,并寫出具體過程。答:(a) Apriori算法: K 1 A 4 A,B 4 A,B,D 3 A 4 B 4 A,D 3 B 4 D 3 B,D 3D 3 C 2 E 2 頻繁項集為3項集A,B,D:3 b.列出所有的強(qiáng)關(guān)聯(lián)規(guī)則,使它們與下面的元規(guī)則

4、匹配,其中,X是代表顧客的變量,是表示項的變量(例如,“A”、“B”等): s,c答:所有頻繁子項集有A,B,D,A,B,A,D,B,D AB=D conf=3/4=75% AD=B conf=3/3=100% BD=A conf=3/3=100% 因此,滿足條件的強(qiáng)關(guān)聯(lián)規(guī)則有: AD=Bsupp=75%,conf=100% BD=Asupp=75%,conf=100% 1.給定如下的數(shù)據(jù)庫表:IDSkyAirTempHumidityWindWaterForecastEnjoysport1SunnyWarmNormalStrongWarmSameYes2SunnyWarmHighStrongW

5、armSameYes3RainyColdHighStrongWarmChangeNo4SunnyWarmHighStrongCoolChangeyes請計算屬性Sky的信息增益。答:C1 :Enjoysport=yes=3C2 :Enjoysport=no=1I(yes,no)=-3/4log2 3/4-1/4log2 1/4=0.811skyC1C2rainy01sunny30I(sky)=1/4I(0,1)+3/4I(3,0)=0Gain(sky)=0.811習(xí)題:1. 以汽車保險為例:假定訓(xùn)練數(shù)據(jù)庫具有兩個屬性:年齡和汽車類型。年齡序數(shù)屬性汽車類型分類屬性類L:低(風(fēng)險) ,H:高(風(fēng)險

6、)年齡汽車類型類21MarutiL21HyundaiH21MarutiH21MarutiL21HyundaiH使用ID3算法得到一個決策樹。2. 下面是一個超市某商品連續(xù)24個月的銷售數(shù)據(jù)(單位:百萬元):21,16,21, 19, 24, 27, 23, 22, 21, 20, 17, 16, 20, 23, 22, 18, 24, 26, 25, 20, 26, 23, 21, 15, 17。請使用等深、等寬和自定義區(qū)間的方法對數(shù)據(jù)進(jìn)行分箱,做出利用各種分箱方法得到的直方圖。3. 數(shù)據(jù)庫有4 個事務(wù)。設(shè)min_sup = 60%,min_conf = 80%。使用Apriori 算法找出所有的頻繁項集,并針對每個頻繁項集構(gòu)造強(qiáng)關(guān)聯(lián)規(guī)則,列出每個規(guī)則的支持度和置信度。答:(b) Apriori算法: K 1 A 4 A,B 4 A,B,D 3 A 4 B 4 A,D 3 B 4 D 3 B,D 3D 3 C 2 E 2 頻繁項集為3項集A,B,D:3 所有頻繁子項集有A,B,D,A,B,A,D,B,D AB=D conf=3/4=75% AD=B co

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論