數(shù)據(jù)挖掘習(xí)題及解答-完美版_第1頁
數(shù)據(jù)挖掘習(xí)題及解答-完美版_第2頁
數(shù)據(jù)挖掘習(xí)題及解答-完美版_第3頁
數(shù)據(jù)挖掘習(xí)題及解答-完美版_第4頁
數(shù)據(jù)挖掘習(xí)題及解答-完美版_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、Data Mining Take Home Exam顧客ID性別車型襯衣尺碼類11男家用P 小C02男運(yùn)動中C03男運(yùn)動中C04男運(yùn)動大C05男運(yùn)動加大C06男運(yùn)動加大C07女運(yùn)動小C08女運(yùn)動小C09女運(yùn)動中C010女豪華大C011男家用大C112男家用加大C113男家用中C114男豪華加大C115女豪華小C116女豪華小C117女豪華中C118女豪華中C119女豪華中C120女豪華大C1學(xué)號:xxxx姓名:xxx1. (20分)考慮下表的數(shù)據(jù)集(1)計算整個數(shù)據(jù)集的Gini指標(biāo)值。(2)計算屬性性別的Gini指標(biāo)值(3)計算使用多路劃分屬性車型的 Gini指標(biāo)值(4)計算使用多路劃分屬性襯

2、衣尺碼的 Gini指標(biāo)值(5)下面哪個屬性更好,性別、車型還是襯衣尺碼?為什么?Gini=1-(6/10)A2-(4/10)A2*1/2*2=0.48 車型家用運(yùn)動豪華c0181c1307Gini=1-(1/4)A2-(3/4)A2*4/20+1-(8/8)A2-(0/8)A2*8/20+1-(1/8)A2-(7/8)A2*8/20 =26/160=0.1625尺碼小中大加大c0332I?c12422Gini=1-(3/5)A2-(2/5)A2*5/20+1-(3/7)A2-(4/7)A2*7/20+1-(2/4)A2-(2/4)A2*4/20 *2=8/25+6/35=0.4914(5)比較

3、上面各屬性的Gini值大小可知,車型劃分Gini值0.1625最小,即使用車型 屬性更好。2. (20分)考慮下表中的購物籃事務(wù)數(shù)據(jù)集顧客ID事務(wù)ID購買項1001a,d,e10024a,b,c,e20012a,b,d,e20031a,c,d,e30015b,c,e30022b,d,e40029c,d40040a,b,c50033a,d,e50038a,b,e(1)將每個事務(wù)ID視為一個購物籃,計算項集e , b,d和b,d,e的支持度。(2)使用(1)的計算結(jié)果,計算關(guān)聯(lián)規(guī)則 b,d -e和e 一b,d的置信(3)將每個顧客ID作為一個購物籃,重復(fù)(1)。應(yīng)當(dāng)將每個項看作一個二元變量(如果一

4、個項在顧客的購買事務(wù)中至少出現(xiàn)一次,則為 1,否則,為0)。(4)使用(3)的計算結(jié)果,計算關(guān)聯(lián)規(guī)則b,d 一e劑e 一b,d的置信度。答:(1)由上表計數(shù)可得e的支持度為8/10=0.8;b, d的支持度為2/10=0.2;b,d,e的支書寺度為2/10=0.2。(2) cb,d -e=2/8=0.25;ce -b,d=8/2=4。(3)同理可得:e的支持度為4/5=0.8, b,d的支持度為5/5=1, b,d,e的支 持度為4/5=0.8。(4) cb,d e=5/4=1.25, ce 一b,d=4/5=0.8。3. (20分)以下是多元回歸分析的部分 R輸出結(jié)果 ls1=lm(yx1+

5、x2) anova(lsl)DfSum SqMean SqF valuePr(F)x1110021.210021.262.0380.0001007 *x214030.94030.924.9540.0015735 *Residuals71130.7161.5 ls2 anova(ls2)DfSum SqMean SqF valuePr(F)x213363.43363.420.8220.002595 *x1110688.710688.766.1708.193e-05 *Residuals 7 1130.7161.5(1)用F檢驗(yàn)來檢驗(yàn)以下假設(shè) (a = 0.05)Ho: 31 = 0 Ha: wo

6、 計算檢驗(yàn)統(tǒng)計量;是否拒絕零假設(shè),為什么?(2)用F檢驗(yàn)來檢驗(yàn)以下假設(shè) (& = 0.05)Ho:四=0Ha:色 W0計算檢驗(yàn)統(tǒng)計量;是否拒絕零假設(shè),為什么?(3)用F檢驗(yàn)來檢驗(yàn)以下假設(shè) (& = 0.05)Ho:=白=0Ha:向和白并不都等于零計算檢驗(yàn)統(tǒng)計量;是否拒絕零假設(shè),為什么?解:(1)根據(jù)第一個輸出結(jié)果 F=62.083F (2, 7) =4.74, pF(2,7)=4.74, pF=(2,7)=4.74,即拒絕原假 設(shè),得到的和瓦并不都等于0。4. ( 20 分)考慮下面1-20.00-0.5166-0.561-0.92811 -0.3770.83016 1.1381.08720

7、個觀測值:-1.249 -0.51025.000-0.0230.7140.3740.8380.874 -1.306-1.4892.5240.713( 1)用3*S 標(biāo)準(zhǔn)來檢測該數(shù)據(jù)中是否存在異常值。( 2)用1.5*IQR 標(biāo)準(zhǔn)來檢測該數(shù)據(jù)中是否存在異常值。要求提供均值、標(biāo)準(zhǔn)差、 IQR 值和所用的區(qū)間,以及你判斷的依據(jù)。解:數(shù)據(jù)放入R 運(yùn)行得 hhh=c(-20.00,-0.516,-1.249,-0.510,25.000,+ + -0.561,-0.928,-0.023,0.714,0.374,+ + -0.377,0.830,0.838,0.874,-1.306,+ + 1.138,1.

8、087,-1.489,2.524,0.713) mean(hhh)1 0.35665 sqrt(var(hhh)1 7.405346 jjj which(abs(jjj)=3)1 5 Q1=quantile(hhh,0.25) Q3=quantile(hhh,0.75) IQR=Q3-Q1 Q125%-0.65275 Q375%0.847 IQR75%1.49975 kk ll which(hhh which(hhhll)1 5( 1)由以上數(shù)據(jù)處理可得第五個數(shù)據(jù)25.00 為異常值。(2)由數(shù)據(jù)分析可以得出第一個-20.00和第五個 25.00均為異常值。5. 簡述題 ( 20 分) 。(

9、1) 在這門課中你學(xué)習(xí)了幾種聚類分析的算法?簡述這幾種算法的基本工作原理。答: ( 1) 學(xué)習(xí)了三種聚類分析算法, 分別為系統(tǒng)聚類分析、 K 均值分析和 DBSCAN分析。其中系統(tǒng)聚類又分為許多種計算規(guī)則,主要的有最短距離法、最長距離法、重心法、 離差平方和法及類平均法等, 其主要思想是在不同方法下把客觀認(rèn)為最相近的兩類合并為一類, 再次執(zhí)行并類步驟, 那么就可以把所有的觀測值都聚為一類, 對于想要知道分多少類的具體情況有很大的幫助, 可以依照樹狀聚類圖得到清晰的表示。K- 均值聚類原理是依一定觀測值的均值來確定聚類中心, 從而根據(jù)其他的觀測值和中心的距離來判斷歸為哪一類中。 該聚類方法事先需要確定要分的類別數(shù)據(jù), 計算量要小得多, 效率比層次聚類要高。 但對于想要知道其他幾類的分類情況就需要重新計算分析。DBSCAN 分析算法工作原理是對一組觀測值優(yōu)先聚合靠的最近的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論