數(shù)據(jù)挖掘的復(fù)習(xí)資料_第1頁(yè)
數(shù)據(jù)挖掘的復(fù)習(xí)資料_第2頁(yè)
數(shù)據(jù)挖掘的復(fù)習(xí)資料_第3頁(yè)
數(shù)據(jù)挖掘的復(fù)習(xí)資料_第4頁(yè)
數(shù)據(jù)挖掘的復(fù)習(xí)資料_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1覆蓋算法首先尋找一個(gè)規(guī)則If ? then recommendation = hardage = youngage = pre-presbyopicage = presbyopicspectacle prescription = myope spectacle prescription = hypermetrope astigmatism = no astigmatism = yestear production rate = reduced tear production rate = normal2/81/83/121/120/12 4/121/80/124/12選擇最大一個(gè)比例值4/1

2、2,即第7個(gè)和最后一個(gè)之間任意選一個(gè),建立規(guī)則:If astigmatism = yes then recommendation = hard2/41/41/4If astigmatism = yes and ? then recommendation = hardTable 48Pan ol rhe contact lens data lor which astignmtisn = yes.AgeSpectacle prescriptionAstigmatismTear production rateRecommended lensesyoungmyopeyesreducednoneyoun

3、gmyopeyesnormalhardyounghypermetropeyesreducednoneyounghypermetropeyesnormalhardpre-presbyopicmyopeyesreducednonepre-presbyopicmyopeyesnormalhardpre-presbyopichypermetropeyesreducednonepre-presbyopichypermetropeyesnormalnoneprestropicmyopeyesreducednonepresbyopicmyopeyesnormalhardpresbyopichypermetr

4、opeyesreducednonepresbvfopichypermetropeyesnormalnoneage = young age = pre-presbyopic age = presbyopic spectacle prescription = myope3/6spectacle prescription = hypermetrope 1/6 tear production rate = reduced0/6tear production rate = normal4/6If astigmatism = yes and tear production rate = normal th

5、en recommendation = hard一個(gè)選擇條件僅覆蓋2個(gè)正確的實(shí)例,另一個(gè)覆蓋了 3個(gè)。因此,在同等條件下,總是選 擇擁有更大覆蓋量的那個(gè)規(guī)則,所以最終的規(guī)則為: If astigmatism = yes and tear production rate = normal and spectacle prescription = myope then recommendation = hard 僅包含4個(gè)建議使用硬的隱形眼鏡情況中的3個(gè)。因此,從實(shí)例集中刪除這3個(gè)實(shí)例,并 且重新開(kāi)始尋找另一種形式的規(guī)則: If ? then recommendation = hard age=y

6、oung是作為第一個(gè)條件的最佳選擇第2個(gè)條件的最佳選擇是astigmatism = yes ,選擇的是1/3 (實(shí)際上還存在一個(gè)相同比例的 值)If age = young and astigmatism = yes and tear production rate = normalthen recommendation = hardIf astigmatism = yes and tear production rate = normaland spectacle prescription = myope then recommendation = hard現(xiàn)在所有的硬的隱形眼鏡的實(shí)例都已經(jīng)

7、覆蓋了。下一步是用相同的步驟生成軟的隱形眼鏡的規(guī)則。最后生成none類別的規(guī)則。2.平滑規(guī)則等深:每個(gè)箱中的數(shù)據(jù)個(gè)數(shù)相等等寬:每個(gè)箱的取值區(qū)間大小相等用戶自定義區(qū)間:自己分布數(shù)據(jù)區(qū)間例:假設(shè)數(shù)據(jù)集中客戶收入屬性income排序后的值(人民幣元):800, 1000, 1200, 1500, 1500, 1800, 2000, 2300, 2500, 2800,3000,3500,4000,4500,4800,5000,對(duì)此進(jìn)行分箱技術(shù),結(jié)果為:等深:設(shè)定箱子深度為4,分箱后箱 1: 800, 1000, 1200, 1500箱 2: 1500, 1800, 2000, 2300箱3: 2500

8、, 2800, 3000, 3500箱4: 4000, 4500, 4800, 5000等寬:設(shè)定箱子寬度為1000元人民幣,分箱后箱 1: 800, 1000, 1200, 1500, 1500, 1800箱 2: 2000, 2300, 2500, 2800, 3000箱3: 3500, 4000, 4500箱4: 4800, 5000用戶自定義:如果客戶收入劃分為1000元以下、10002000,20003000,30004000和4000元以上幾組,分箱后箱 1: 800,箱 2: 1000, 1200, 1500,1500,1800,2000箱3: 2300, 2500, 2800,

9、 3000箱4: 3500, 4000箱5: 4500, 4800, 5000平均值平滑將同一箱中的數(shù)據(jù)全部用該箱中數(shù)據(jù)的平均值替換。等寬:設(shè)定箱子寬度為1000元人民幣,分箱后箱 1: 800, 1000, 1200, 1500, 1500, 1800箱 2: 2000, 2300, 2500, 2800, 3000箱3: 3500, 4000, 4500箱4: 4800, 5000平滑后箱 1: 1300, 1300, 1300, 1300, 1300, 1300箱 2: 2520, 2520, 2520, 2520, 3520箱3: 4000, 4000, 4000箱4: 4900, 4

10、900(2)邊界平滑將同一箱中的數(shù)據(jù)分別用該箱中最近的邊界值替換。(對(duì)于箱子中的每一個(gè)數(shù)據(jù),觀察它和 箱子兩個(gè)邊界值的距離,用距離較小的那個(gè)邊界值替代該數(shù)據(jù))平滑后箱 1: 800, 800, 800, 1800, 1800, 1800箱 2: 2000, 2000, 2000, 3000, 3000箱3: 3500, 3500, 4500箱4: 4800, 5000(3)中值平滑將同一箱中的數(shù)據(jù)全部用該箱中數(shù)據(jù)的中值替換。(中值也稱中位數(shù),將一些數(shù)據(jù)排序之后, 如果這些數(shù)據(jù)是奇數(shù)個(gè),中值就是位于最中間位置的那一個(gè);如果是偶數(shù)個(gè),中值應(yīng)該是 中間兩個(gè)數(shù)的平均值)平滑后箱 1: 1350,135

11、0,1350,1350,1350,1350箱 2: 2500, 2500, 2500, 2500, 2500箱 3: 4000,4000,4000箱 4: 4900,49003關(guān)聯(lián)規(guī)則例9.J)假設(shè)事務(wù)集合T如表9.4所示,最小支持度閾值min_sup 20% 寫出搜索所有頻繁項(xiàng)集的過(guò)程。事務(wù)項(xiàng)ah-(4/3hf 614iif h* 和r5h,h16寥h fl4 b話h, &, h/9_h,房 表9. 4事務(wù)集合F因?yàn)?min_sup=2A m=9 n*min_sup =9*20%=1.8所以:支持計(jì)數(shù)大于等于1.8的項(xiàng)集是 頻繁項(xiàng)集.掃描一次事務(wù)集合,對(duì)T中的所有 項(xiàng)進(jìn)行支持計(jì)數(shù)計(jì)算,找出頻

12、繁1 項(xiàng)集集 合乙“如表95所示。對(duì)3中的所有可連接的頻繁1-項(xiàng) 疝行連接運(yùn)算,產(chǎn)生候選2-項(xiàng)集集合G,瀑卷標(biāo)所示。例9. 假設(shè)事務(wù)集合T如表9.4所示,最小支持度閾值min_sup20%寫出搜索所有頻繁項(xiàng)集的過(guò)程。事務(wù)項(xiàng)ah-(4/3hf 614iif h* 和r5h,h16寥h fl4 b話h, &, h/9_h,房 表9. 4事務(wù)集合F因?yàn)?min_sup=2A m=9 n*min_sup =9*20%=1.8所以:支持計(jì)數(shù)大于等于1.8的項(xiàng)集是 頻繁項(xiàng)集.掃描一次事務(wù)集合,對(duì)T中的所有 項(xiàng)進(jìn)行支持計(jì)數(shù)計(jì)算,找出頻繁1 項(xiàng)集集 合乙“如表95所示。對(duì)3中的所有可連接的頻繁1-項(xiàng) 疝行連接

13、運(yùn)算,產(chǎn)生候選2-項(xiàng)集集合G,瀑卷標(biāo)所示。項(xiàng)集支持度計(jì)數(shù)i16i27i35i42i52項(xiàng)集支持度計(jì)數(shù)i1,i24i1,i33i1,i52i2,i33i2,i42i2,i52項(xiàng)集支持度計(jì)數(shù)i1,i2,i52 TOC o 1-5 h z 們?nèi)?支持度為4,產(chǎn)生規(guī)則: 1號(hào) 1 n1confidence=4/6=67%iicOnfidence=4/7=57%i1,i5,支持度為2,產(chǎn)生規(guī)則:i5*confidence=2/6=33%i1i5confidence=2/2=100%nni2n,支持度為2,產(chǎn)生規(guī)則:y5在挖掘的過(guò)程中,支持度、可信度閾值定得越高,挖掘出的規(guī)則越少,相反閾值定得越低,挖掘出

14、的規(guī)則越多最小置信度值70%所以強(qiáng)關(guān)聯(lián)規(guī)則有:(大于70%的規(guī)則)4.預(yù)測(cè)兀線性回歸算法描述如下: 算法:一元線性回歸算法(S) 輸入:訓(xùn)練數(shù)據(jù)集S 輸出:一兒線性回歸方程 步驟:初始化&、Sy、S、&為零for S中的每個(gè)訓(xùn)練樣本(x,2.1) Sx=Sx+x計(jì)算支2.4)靜 nSSSnS“-(SS- S -破a-n計(jì)算1=12.2) Sy = Sy y計(jì)算巧23) S = S +打n計(jì)算耳乂1=1AEas圖10.9年薪數(shù)據(jù)的散點(diǎn)圖20例1?/假設(shè)年薪數(shù)據(jù)表如表10.7所示,大學(xué)畢業(yè)以后的“工作年數(shù)Yearn 冒性是描魄性,“年薪Salary屬性是預(yù)測(cè)屬性,建立回歸方程預(yù)測(cè)具有10年 工作經(jīng)

15、驗(yàn)的大學(xué)畢業(yè)生的年薪。表10.7年薪數(shù)據(jù)表工作年敷Ytar38913361121116年薪SaF單位:S1000)30576472364359902083繪制年薪數(shù)據(jù)的散點(diǎn)圖如圖10.9所示。從年薪數(shù)據(jù)的散點(diǎn)圖可以推測(cè),屬性性與預(yù)測(cè)屬性&7命以之間大致具有線 性相關(guān)關(guān)系,因此回歸方程的形式為SalaryYear) = a + ftx Year 10to因?yàn)閆 Yw = 91 Salaryi = 554爻性昭品知= 6311# = 1187f=l所以 10 x6311-91x554 八b = 5- = 3,50 x1187-9F. 554-3.5x91a 23.610即Salary關(guān)于Year的一元線性回歸方程為Salary - 23.6 + 3.5 x Year具有10年工作經(jīng)驗(yàn)的大學(xué)畢業(yè)生的年薪Salary = 23.64- 3.5 x 10

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論