數(shù)據(jù)挖掘概念與技術(shù)(第三版)部分習(xí)題答案_第1頁
數(shù)據(jù)挖掘概念與技術(shù)(第三版)部分習(xí)題答案_第2頁
數(shù)據(jù)挖掘概念與技術(shù)(第三版)部分習(xí)題答案_第3頁
數(shù)據(jù)挖掘概念與技術(shù)(第三版)部分習(xí)題答案_第4頁
數(shù)據(jù)挖掘概念與技術(shù)(第三版)部分習(xí)題答案_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上1.4 數(shù)據(jù)倉庫和數(shù)據(jù)庫有何不同?有哪些相似之處?答:區(qū)別:數(shù)據(jù)倉庫是面向主題的,集成的,不易更改且隨時(shí)間變化的數(shù)據(jù)集合,用來支持管理人員的決策,數(shù)據(jù)庫由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成,是面向操作型的數(shù)據(jù)庫,是組成數(shù)據(jù)倉庫的源數(shù)據(jù)。它用表組織數(shù)據(jù),采用ER數(shù)據(jù)模型。相似:它們都為數(shù)據(jù)挖掘提供了源數(shù)據(jù),都是數(shù)據(jù)的組合。翻譯結(jié)果抱歉,系統(tǒng)響應(yīng)超時(shí),請稍后再試 支持中文、英文免費(fèi)在線翻譯 支持網(wǎng)頁翻譯,在輸入框輸入網(wǎng)頁地址即可 提供一鍵清空、復(fù)制功能、支持雙語對照查看,使您體驗(yàn)更加流暢1.3 定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、預(yù)測聚類

2、和演變分析。使用你熟悉的現(xiàn)實(shí)生活的數(shù)據(jù)庫,給出每種數(shù)據(jù)挖掘功能的例子。答:特征化是一個(gè)目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。例如,學(xué)生的特征可被提出,形成所有大學(xué)的計(jì)算機(jī)科學(xué)專業(yè)一年級學(xué)生的輪廓,這些特征包括作為一種高的年級平均成績(GPA:Grade point aversge)的信息,還有所修的課程的最大數(shù)量。 區(qū)分是將目標(biāo)類數(shù)據(jù)對象的一般特性與一個(gè)或多個(gè)對比類對象的一般特性進(jìn)行比較。例如,具有高GPA 的學(xué)生的一般特性可被用來與具有低GPA 的一般特性比較。最終的描述可能是學(xué)生的一個(gè)一般可比較的輪廓,就像具有高GPA 的學(xué)生的75%是四年級計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生,而具有低GPA 的學(xué)生的65%

3、不是。 關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如,一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:major(X, “computing science”) owns(X, “personal computer”)support=12%, confidence=98% 其中,X 是一個(gè)表示學(xué)生的變量。這個(gè)規(guī)則指出正在學(xué)習(xí)的學(xué)生,12%(支持度)主修計(jì)算機(jī)科學(xué)并且擁有一臺個(gè)人計(jì)算機(jī)。這個(gè)組一個(gè)學(xué)生擁有一臺個(gè)人電腦的概率是98%(置信度,或確定度)。 分類與預(yù)測不同,因?yàn)榍罢叩淖饔檬菢?gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型(或功能),而后者是建立一個(gè)模型去預(yù)測缺失的或

4、無效的、并且通常是數(shù)字的數(shù)據(jù)值。它們的相似性是他們都是預(yù)測的工具:分類被用作預(yù)測目標(biāo)數(shù)據(jù)的類的標(biāo)簽,而預(yù)測典型的應(yīng)用是預(yù)測缺失的數(shù)字型數(shù)據(jù)的值。 聚類分析的數(shù)據(jù)對象不考慮已知的類標(biāo)號。對象根據(jù)最大花蕾內(nèi)部的相似性、最小化類之間的相似性的原則進(jìn)行聚類或分組。形成的每一簇可以被看作一個(gè)對象類。聚類也便于分類法組織形式,將觀測組織成類分層結(jié)構(gòu),把類似的事件組織在一起。 數(shù)據(jù)演變分析描述和模型化隨時(shí)間變化的對象的規(guī)律或趨勢,盡管這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測,這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析2.3 假設(shè)給定的數(shù)據(jù)集的

5、值已經(jīng)分組為區(qū)間。區(qū)間和對應(yīng)的頻率如下。 年齡 頻率 15 200 515 450 1520 300 2050 1500 5080 700 80110 44 計(jì)算數(shù)據(jù)的近似中位數(shù)值。 解答: 先判定中位數(shù)區(qū)間:N=200+450+300+1500+700+44=3194;N/2=1597 200+450+300=95015972450=950+1500; 2050 對應(yīng)中位數(shù)區(qū)間。 median=32.97 歲。2.2 假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組的age 值(以遞增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35

6、,35,35,35,36,40,45,46,52,70。答:(a) 該數(shù)據(jù)的均值是什么?中位數(shù)是什么?均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27=29.96中位數(shù)應(yīng)是第14個(gè),即x14=25=Q2。(b) 該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等)。這個(gè)數(shù)集的眾數(shù)有兩個(gè):25 和35,發(fā)生在同樣最高的頻率處,因此是雙峰眾數(shù)。(c) 數(shù)據(jù)的中列數(shù)是什么?數(shù)據(jù)的中列數(shù)是最大數(shù)和最小數(shù)的均值。即:midrange=(70+13)/2=41.5。(d) 你能(粗

7、略地)找出數(shù)據(jù)的第一個(gè)四分位數(shù)(Q1)和第三個(gè)四分位數(shù)(Q3)嗎?數(shù)據(jù)集的第一個(gè)四分位數(shù)應(yīng)發(fā)生在25%處,即在(N+1)/4=(27+1)/4=7 處。所以:Q1=20。而第三個(gè)四分位數(shù)應(yīng)發(fā)生在75%處,即在3(N+1)/4=21 處。所以:Q3=35(e) 給出數(shù)據(jù)的五數(shù)概括。一個(gè)數(shù)據(jù)集的分布的5 數(shù)概括由最小值、第一個(gè)四分位數(shù)、中位數(shù)、第三個(gè)四分位數(shù)、和最大值構(gòu)成。它給出了分布形狀良好的匯總+并且這些數(shù)據(jù)是:13、20、25、35、70。(f) 畫出數(shù)據(jù)的盒圖。 (g) 分位數(shù)分位數(shù)圖與分位數(shù)圖的不同之處是什么?分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在一個(gè)單變量分布中獨(dú)立的變量的粗略百分比

8、。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨(dú)立變量測得的值(縱軸)相對于它們的分位數(shù)(橫軸)被描繪出來。但分位數(shù)分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù)。兩個(gè)坐標(biāo)軸顯示它們的測量值相應(yīng)分布的值域,且點(diǎn)按照兩種分布分位數(shù)值展示。一條線(y=x)可畫到圖中+以增加圖像的信息。落在該線以上的點(diǎn)表示在y 軸上顯示的值的分布比x 軸的相應(yīng)的等同分位數(shù)對應(yīng)的值的分布高。反之,對落在該線以下的點(diǎn)則低。2.4假設(shè)醫(yī)院檢測隨機(jī)選擇的18個(gè)成年人年齡和身體脂肪數(shù)據(jù),得到如下結(jié)果:(a)計(jì)算年齡和脂肪百分比的均值、中位數(shù)和標(biāo)準(zhǔn)差.年齡均值=(23+23+27+27+39+41+47

9、+49+50+ 52+54+54+56+57+58+58+60+61)/18=836/18=46.44, 中位數(shù)= (50+52)/2=51, 標(biāo)準(zhǔn)差=方差的平方根=開根號( 1/n(Xi)2-1/n(Xi)2)=開根號 1/182970.44=12.85.脂肪百分比均值=28.78, 中位數(shù)=30.7, 標(biāo)準(zhǔn)差= 8.99. (b)繪制年齡和脂肪百分比的盒圖(c)根據(jù)這兩個(gè)屬性,繪制散布圖,各q-q圖 q-q圖 散布圖(d)根據(jù)z-score 規(guī)范化來規(guī)范化這兩個(gè)屬性(P46)(e)計(jì)算相關(guān)系數(shù)(皮爾遜積矩系數(shù)). 這兩個(gè)變量是正相關(guān)還是負(fù)相關(guān)?ra,b=(ai-A)(bi-B)/NAB=(

10、(aibi)-NAB)/NAB=((aibi)-18*46.44*28.78)/18*12.85*8.99=0.82相關(guān)系數(shù)是0.82。變量呈正相關(guān)。3.3 使用習(xí)題2.4 給出的age 數(shù)據(jù)回答下列問題: (a) 使用分箱均值光滑對以上數(shù)據(jù)進(jìn)行光滑,箱的深度為3。解釋你的步驟。 評述對于給定的數(shù)據(jù),該技術(shù)的效果。 (b) 如何確定數(shù)據(jù)中的離群點(diǎn)? (c) 對于數(shù)據(jù)光滑,還有哪些其他方法? 解答: (a) 使用分箱均值光滑對以上數(shù)據(jù)進(jìn)行光滑,箱的深度為3。解釋你的步驟。評述對于給定的數(shù)據(jù),該技術(shù)的效果。 用箱深度為3 的分箱均值光滑對以上數(shù)據(jù)進(jìn)行光滑需要以下步驟: 步驟1:對數(shù)據(jù)排序。(因?yàn)閿?shù)

11、據(jù)已被排序,所以此時(shí)不需要該步驟。) 步驟2:將數(shù)據(jù)劃分到大小為3 的等頻箱中。 箱1:13,15,16 箱2:16,19,20 箱3:20,21,22 箱4:22,25,25 箱5:25,25,30 箱6:33,33,35 箱7:35,35,35 箱8:36,40,45 箱9:46,52,70 步驟3:計(jì)算每個(gè)等頻箱的算數(shù)均值。 步驟4:用各箱計(jì)算出的算數(shù)均值替換每箱中的每個(gè)值。 箱1:44/3,44/3,44/3 箱2:55/3,55/3,55/3 箱3:21,21,21 箱4:24,24,24 箱5: 80/3 ,80/3, 80/3 箱 6: 101/3,101/3, 101/3 箱7

12、:35,35,35 箱8:121/3,121/3,121/3 箱9:56,56,56 (b) 如何確定數(shù)據(jù)中的離群點(diǎn)? 聚類的方法可用來將相似的點(diǎn)分成組或“簇”,并檢測離群點(diǎn)。落到簇的集外的值可以被視為離群點(diǎn)。作為選擇,一種人機(jī)結(jié)合的檢測可被采用,而計(jì)算機(jī)用一種事先決定的數(shù)據(jù)分布來區(qū)分可能的離群點(diǎn)。這些可能的離群點(diǎn)能被用人工輕松的檢驗(yàn),而不必檢查整個(gè)數(shù)據(jù)集。 (c) 對于數(shù)據(jù)光滑,還有哪些其他方法? 其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法,如中位數(shù)光滑和箱邊界光滑。作為選擇,等寬箱可被用來執(zhí)行任何分箱方式,其中每個(gè)箱中的數(shù)據(jù)范圍均是常量。除了分箱方法外,可以使用回歸技術(shù)擬合成函數(shù)來光滑數(shù)

13、據(jù),如通過線性或多線性回歸。分類技術(shù)也能被用來對概念分層,這是通過將低級概念上卷到高級概念來光滑數(shù)據(jù)。3.5 如下規(guī)范化方法的值域是什么?答:(a) min-max 規(guī)范化。值域是new_min, new_max。(b) z-score 規(guī)范化。值域是(old_minmean)/,(old_maxmean)/,總的來說,對于所有可能的數(shù)據(jù)集的值域是(,+)。(c) 小數(shù)定標(biāo)規(guī)范化。值域是(1.0,1.0)。3.7 使用習(xí)題 2.4 給出的 age 數(shù)據(jù),回答以下問題:(a) 使用 min-max 規(guī)范化將 age 值 35 變換到0.0,1.0區(qū)間。(b) 使用 z-score 規(guī)范化變換 a

14、ge 值 35,其中 age 的標(biāo)準(zhǔn)差為 12.94 歲。(c) 使用小數(shù)定標(biāo)規(guī)范化變換 age 值 35。(d) 對于給定的數(shù)據(jù),你愿意使用哪種方法?陳述你的理由。解答:3.9 假設(shè) 12 個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每種方法將其劃分成三個(gè)箱。(a) 等頻(等深)劃分。(b) 等寬劃分。 (c) 聚類。 解答:(a) 等頻(等深)劃分。bin15,10,11,13bin115,35,50,55bin1 72,91,204,215(b) 等寬劃分。專心-專注-專業(yè)每個(gè)區(qū)間的寬度是:(215-5)/3=70bin

15、15,10,11,13,15,35,50,55,72bin191bin1204,215(c) 聚類。我們可以使用一種簡單的聚類技術(shù):用 2 個(gè)最大的間隙將數(shù)據(jù)分成 3 個(gè)箱。bin15,10,11,13,15bin135,50,55,72,91bin1204,2153.11 使用習(xí)題 2.4 給出的 age 數(shù)據(jù),(a) 畫出一個(gè)等寬為 10 的等寬直方圖;(b) 為如下每種抽樣技術(shù)勾畫例子:SRSWOR,SRSWR ,聚類抽樣,分層 抽樣。使用大小為 5 的樣本和層“青年”,“中年”和“老年”。解答:(a) 畫出一個(gè)等寬為 10 的等寬直方圖;87654321015 25 35 45 55

16、65(b) 為如下每種抽樣技術(shù)勾畫例子:SRSWOR,SRSWR ,聚類抽樣,分層 抽樣。使用大小為 5 的樣本和層“青年”,“中年”和“老年”。元組:T 113T 1022T 1935T 215T 1125T 2035T 316T 1225T 2135T 416T 1325T 2236T 519T 1425T 2340T 620T 1530T 2445T 720T 1633T 2546T 821T 1733T 2652T 922T 1835T 2770SRSWOR 和 SRSWR:不是同次的隨機(jī)抽樣結(jié)果可以不同,但前者因無放回所以不能有相同的元組。SRSWOR(n=5)SRSWR(n=5)T

17、 416T 720T 620T 720T 1022T 2035T1125T 2135T 2652T 2546聚類抽樣:設(shè)起始聚類共有 6 類,可抽其中的 m 類。Sample1Sample2Sample3Sample4Sample5Sample6T 113T620T 1125T 1633T 2135T 2652T 215T720T 1225T 1733T 2236T 2770T 316T821T 1325T 1835T 2340T 416T922T 1425T 1935T 2445T 519T 1022T 1530T 2035T 2546Sample2 Sample5T 620T2135T 7

18、20T2236T 821T2340T 922T2445T 1022T2546T113youngT 1022youngT 1935middle ageT215youngT 1125youngT 2035middle ageT316youngT 1225youngT 2135middle ageT416youngT 1325youngT 2236middle ageT519youngT 1425youngT 2340middle ageT620youngT 1530middle ageT 2445middle ageT720youngT 1633middle ageT 2546middle age

19、T821youngT 1733middle ageT 2652middle ageT922youngT 1835middle ageT 2770seniorT416youngT 1225youngT 1733middle ageT 2546middle ageT 2770Senio r4.3 假定數(shù)據(jù)倉庫包含三維:time,doctor和patient;和兩個(gè)度量:count和charge;其中,charge是醫(yī)生對病人一次診治的收費(fèi)。(a)列舉三種流行的數(shù)據(jù)倉庫建模模式答:三類模式一般用于建模數(shù)據(jù)倉庫架構(gòu)的星形模型,雪花模型和事實(shí)星座模型。(b)使用(a)列舉的模式之一,畫出上面的數(shù)據(jù)倉庫的

20、模式圖 數(shù)據(jù)倉庫的星形模型(C)由基本方體day,doctor,patient開始,為列出2004年每位醫(yī)生的收費(fèi)總數(shù),應(yīng)當(dāng)執(zhí)行哪些OLAP操作?沿課程(course)維從course_id“上卷”到department。l 沿時(shí)間(time)維從 day “上卷”到 year。l 取 time=2004,對維 time作“切片” 操作l 沿病人(patient)維從 個(gè)別病人 “上卷”到 全部病人。(d)為得到同樣結(jié)果,寫一個(gè)SQL查詢。假定數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫中,其模式為fee(day,month,year,doctor,hospital,patient,count,charge)。答:S

21、QL查詢語句如下:select doctor, SUM(charge) from feewhere year=2004group by doctor4.4 假定 BigUniversity 的數(shù)據(jù)倉庫包含如下 4 個(gè)維:student(student_name,area_id , major, status, university) , course(course_name, department) , semester(semester, year) 和 instructor(dept, rank);2 個(gè)度量:count 和 avg_grade。 在最低概念層, 度量 avg_grade

22、存放學(xué)生的實(shí)際 課程成績。在較高概念層, avg_grade 存放給定組合的平均成績。(a) 為該數(shù)據(jù)倉庫畫出雪花形模式圖。(b) 由 基 本 方 體 student, course, semester, instructor 開 始 , 為 列 出 BigUniversity 每個(gè)學(xué)生的 CS 課程的平均成績,應(yīng)當(dāng)使用哪些特殊 的 OLAP 操作。(c) 如果每維有 5 層(包括 all),如“studentmajorstatusuniversityall ”, 該立方體包含多少方體?解答:a) 為該數(shù)據(jù)倉庫畫出雪花形模式圖。雪花模式如圖所示。b) 由 基 本 方 體 student, co

23、urse, semester, instructor 開 始 , 為 列 出 BigUniversity 每個(gè)學(xué)生的 CS 課程的平均成績,應(yīng)當(dāng)使用哪些特殊的 OLAP 操作。這些特殊的聯(lián)機(jī)分析處理(OLAP )操作有:i.沿課程(course)維從 course_id “上卷”到 department。ii.沿學(xué)生(student)維從 student_id “上卷”到 university 。iii. 取 department= “CS ”和 university= “Big University ”,沿課程(course)維和學(xué)生(student)維切片。iv.沿學(xué)生(student)維

24、從 university 下鉆到 student_name。c) 如果每維有 5 層(包括 all),如“studentmajorstatusuniversity 1. 所以,買 hot dogs不是獨(dú)立于買humburgers。兩者存在正相關(guān)關(guān)系8.1 簡述決策樹分類的主要步驟。8.5 給定一個(gè)具有50個(gè)屬性(每個(gè)屬性包含100個(gè)不同值)的5GB的數(shù)據(jù)集,而你的臺式機(jī)有512M內(nèi)存。簡述對這種大型數(shù)據(jù)集構(gòu)造決策樹的一種有效算法。通過粗略地計(jì)算機(jī)主存的使用說明你的答案是正確的。這個(gè)問題我們將使用雨林算法。假設(shè)有C類標(biāo)簽。最需要的內(nèi)存將是avc-set為根的樹。計(jì)算avc-set的根節(jié)點(diǎn),我們掃描一次數(shù)據(jù)庫,構(gòu)建avc-list每50個(gè)屬性。每一個(gè)avc-list的尺寸是100C,avc-set的總大小是100C50,對于合理的C將很容易適應(yīng)512 MB內(nèi)存,計(jì)算其他avc-sets也是使用類似的方法,但他們將較小,因?yàn)楹苌賹傩钥捎?。在并行?jì)算時(shí),我們可以通過計(jì)算avc-set節(jié)點(diǎn)來減少同一水平上的掃描次數(shù),使用這種每節(jié)點(diǎn)小avc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論