數(shù)據(jù)挖掘概念與技術習題答案-第3章_第1頁
數(shù)據(jù)挖掘概念與技術習題答案-第3章_第2頁
數(shù)據(jù)挖掘概念與技術習題答案-第3章_第3頁
數(shù)據(jù)挖掘概念與技術習題答案-第3章_第4頁
數(shù)據(jù)挖掘概念與技術習題答案-第3章_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘概念與技術(原書第3版)第三章課后習題及解答習題數(shù)據(jù)質量可以從多方面評估,包括準確性、完整性和一致性問題。對于以上每個問題,討論數(shù)據(jù)質量的評估如何依賴于數(shù)據(jù)的應用目的,給出例子。提出數(shù)據(jù)質量的兩個其他尺度。答:數(shù)據(jù)的質量依賴于數(shù)據(jù)的應用。準確性和完整性:如對于顧客的地址信息數(shù)據(jù),有部分缺失或錯誤,對于市場分析部門,這部分數(shù)據(jù)有80%是可以用的,就是質量比較好的數(shù)據(jù),而對于需要一家家拜訪的銷售而言,有錯誤地址的數(shù)據(jù),質量就很差了。一致性:在不涉及多個數(shù)據(jù)庫的數(shù)據(jù)時,商品的編碼是否一致并不影響數(shù)據(jù)的質量,但涉及多個數(shù)據(jù)庫時,就會影響。數(shù)據(jù)質量的另外三個尺度是時效性,可解性釋,可信性。在現(xiàn)實世界的數(shù)據(jù)中,某些屬性上缺失值得到元組是比較常見的。討論處理這一問題的方法。答:對于有缺失值的元組,當前有6種處理的方法:(1)忽略元組:當缺少類標號時通常這么做(假定挖掘任務涉及分類)。除非元組有多個屬性缺少值,否則該方法不是很有效。當每個屬性缺失值的百分比變化很大時,它的性能特別差。采用忽略元組,你不能使用該元組的剩余屬性值。這些數(shù)據(jù)可能對手頭的任務是有利的。(2)人工填寫缺失值:一般來說,該方法很費時,并且當數(shù)據(jù)集很大、缺失值很多時,該方法可能行不通。(3)使用一個全局常量填充缺失值:將缺失的屬性值用同一個常量(如“unknown”或-)替換。如果缺失值都用“unknown”替換,則挖掘程序可能誤以為它們形成了一個有趣的概念,因為它們都具有相同的值——“unknown”。因此,盡管該方法簡單,但是并不十分可靠。(4)使用屬性的中心度量(如均值或中位數(shù))填充缺失值:第2章討論了中心趨勢度量,它們指示數(shù)據(jù)分布的“中間”值。對于正常的(對稱的)數(shù)據(jù)分布,可以使用均值,而傾斜分布的數(shù)據(jù)則應使用中位數(shù)。。(5)使用與給定元組屬同一類的所有樣本的屬性均值或中位數(shù)(6)使用最可能的值填充缺水值:可以用回歸、使用貝葉斯形式化方法的基于推理的工具或決策樹歸納確定。在習題中,屬性age包括如下值(以遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.(a)使用深度為3的箱,用箱均值光滑以上的數(shù)據(jù)。說明你的步驟,討論這種技術對給定數(shù)據(jù)的效果。答:首先將排好序的age數(shù)據(jù)劃分到大小為3的等頻的箱中,如下:13,15,16;16,19,20;20,21,22;22,25,25;25,25,30;33,33,35;35,35,35;36,40,45;46,52,70.其次用箱均值光滑數(shù)據(jù):13,15,16;16,19,20;20,21,22;22,25,25;25,25,30;33,33,35;35,35,35;36,40,45;46,52,70.,,;,,;21,21,21;24,24,24;,,;,,;35,35,35;,,;56,56,56箱均值光滑技術確實使給定的數(shù)據(jù)光滑了。(b)如何確定該數(shù)據(jù)中的離群點答:可以用聚類來檢測離群點。聚類將類似的值組織成群或“簇”,直觀的,落在簇之外的值被視為離群點。(c)還有什么其他方法來光滑數(shù)據(jù)答:還可以用回歸來光滑數(shù)據(jù)。討論數(shù)據(jù)集成需要考慮的問題。答:1.實體識別問題;2.冗余和相關分析;3.元組重復;4.數(shù)據(jù)值沖突的檢測與處理。如下規(guī)范化方法的值域是什么(a)最小-最大規(guī)范化(b)z分數(shù)規(guī)范化(c)z分數(shù)規(guī)范化,使用均值絕對偏差而不是標準差(d)小數(shù)定標規(guī)范化答:(a)最小-最大規(guī)范化:[指定的最小,最大值](-∞,+∞)(c)z分數(shù)規(guī)范化,使用均值標規(guī)范化:(-1,1)(b)z分數(shù)規(guī)范化:絕對偏差而不是標準差:(-∞,+∞)(d)小數(shù)定使用如下方法規(guī)范化如下數(shù)據(jù)組:200,300,400,600,1000(a)另min=0,max=1,最小-最大規(guī)范化(b)z分數(shù)規(guī)范化(c)z分數(shù)規(guī)范化,使用均值絕對偏差而不是標準差(d)小數(shù)定標規(guī)范化答:(a)另min=0,max=1,最小-最大規(guī)范化200變?yōu)?300變?yōu)椋?00-200)/(1000-200)*(1-0)+0=400變?yōu)椋?00-200)/(1000-200)*(1-0)+0=600變?yōu)椋?00-200)/(1000-200)*(1-0)+0=1000變?yōu)椋?000-200)/(1000-200)*(1-0)+0=1規(guī)范化后的數(shù)據(jù)組為:0,,,,1(b)z分數(shù)規(guī)范化求得數(shù)據(jù)組均值為500,標準差為200變?yōu)?00變?yōu)?00變?yōu)?00變?yōu)?000變?yōu)橐?guī)范化后的數(shù)據(jù)組為:,,,,(c)z分數(shù)規(guī)范化,使用均值絕對偏差而不是標準差求得數(shù)據(jù)組均值為500,均值絕對差為240200變?yōu)?00變?yōu)?00變?yōu)?00變?yōu)?000變?yōu)橐?guī)范化后的數(shù)據(jù)組為:,,,,(d)小數(shù)定標規(guī)范化,,,,使用習題中給出的age數(shù)據(jù),回答以下問題:(a)使用最小-最大規(guī)范化將age值35變換到[,]區(qū)間(b)使用z分數(shù)規(guī)范化變換age值35,其中age的標準差為歲(c)使用小數(shù)定標規(guī)范化變換age值35(d)指出對于給定的數(shù)據(jù),你愿意使用哪種方法。陳述你的理由。答:(a)(35-13)/(70-13)*(1-0)+0=(b)()/=(c)(d)對于給定的數(shù)據(jù),我愿意使用小數(shù)定標規(guī)范化,最簡單使用習題中給出的age和%fat數(shù)據(jù),回答如下問題:(a)基于z分數(shù)規(guī)范化,規(guī)范化這兩個屬性(b)計算相關系數(shù)(pearson矩陣系數(shù))。這兩個變量是正相關還是負相關計算他們的協(xié)方差。答:(a)原始數(shù)據(jù)如下:A222234445ge337791790%1fat7..8A555524467555668801ge%fat規(guī)范化后的數(shù)據(jù)如下:Age%A%fatgefat(b)相關系數(shù)(pearson矩陣系數(shù))r(age,%fat)=這兩個變量是正相關協(xié)方差cov(A,B)=假設12個銷售記錄價格已經(jīng)排序,如下所示:5,10,11,13,15,35,50,55,72,92,204,215使用如下方法使它們劃分成三個箱(a)等頻(等深)劃分(b)等寬劃分(c)聚類答:(a)箱1:5,10,11,13箱2:15,35,50,55箱3:72,92,204,215(b)箱1:5,10,11,13,15,35,50,55箱2:72,箱3:204,215(c)使用k-means聚類,聚為三類箱1:5,10,11,13,15,箱2:50,箱3:204,215923555,72,92使用流程圖概述如下屬性子集選擇過程:(a)逐步向前選擇(b)逐步向后刪除(c)結合逐步向前選擇和逐步向后刪除答:(a)逐步向前選擇(b)逐步向后刪除(c)結合逐步向前選擇和逐步向后刪除初始屬性集:初始屬性集:{A1,A2,A3,A4,A5,A6}{A1,A2,A3,A4,A5,A6}1、初始化規(guī)約集:1、初始屬性集:{A1,A2,A3,A4,A5,A6}{}{A1,A2,A3,A4,A5}1、初始化規(guī)約集:2、{A1}3、{A1,A2}4、{A1,A2,A3}>規(guī)約后的屬性集2、{A1,A2,A3,A4}3、{A1,A2,A3}>規(guī)約{}初始屬性集{A1,A2,A3,A4,A5,A6}2、后的屬性集{A1}U{A2,A3,A4,A5}3、{A1,A2}U{A3,A4}4、{A1,A2,A3}>規(guī)約后的屬性集使用習題中給出的age數(shù)據(jù)(a)畫一個寬度為10的等寬的直方圖(b)簡要描述如下每種抽樣技術的例子:SRSWOR,SRSWR,簇抽樣,分層抽樣。5的樣本以及層“young”、使用大小為“middle_aged”和“senior”答:(a)略。橫軸為(b)SRSWOR:單隨機抽樣,從age中抽回age中age,縱軸為頻次無放回簡取5個樣本,每次抽取一個,不放SRSWR:有放回簡單隨機抽樣,從age中抽取5個樣本,每次抽取一個,放回age中簇抽樣:用無放回簡單隨機抽樣將age數(shù)據(jù)分為分層抽樣:將age數(shù)據(jù)對年齡層進行分層,分為“young”、幾個不相交的簇?!癿iddle_aged”和“senior”,對每層數(shù)據(jù),分別隨機抽取2,2,1個[Ker92]是監(jiān)督的、自底向上的(即基于合并的)數(shù)據(jù)離散化方法。它依賴于卡方分析:具有最小卡方值的相鄰區(qū)間合并在一起,直到滿足確定的停止標準。(a)簡略描述ChiMerge如何工作(b)取鳶尾花數(shù)據(jù)集作為待離散化的數(shù)據(jù)集合,鳶尾花數(shù)據(jù)集可以從UCI機器學習數(shù)據(jù)庫得到。使用ChiMerge方法,對四個數(shù)值屬性分別進行離散化。(令停止條件為:max-interval=6)。你需要寫一個小程序,以避免麻煩的數(shù)值計算。提交你的簡要分析和檢驗結果:分裂點、最終的區(qū)間以及源程序文檔。答:對如下問題,使用偽代碼或你喜歡用的程序設計語言,給出一個算法:(a)對于標稱數(shù)據(jù),基于給定模式中屬性的不同值的個數(shù),自動產(chǎn)生概念分層(b)對于數(shù)值數(shù)據(jù),基于等寬劃分規(guī)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論