數(shù)據(jù)挖掘概念與技術第三版部分習題答案匯總_第1頁
數(shù)據(jù)挖掘概念與技術第三版部分習題答案匯總_第2頁
數(shù)據(jù)挖掘概念與技術第三版部分習題答案匯總_第3頁
數(shù)據(jù)挖掘概念與技術第三版部分習題答案匯總_第4頁
數(shù)據(jù)挖掘概念與技術第三版部分習題答案匯總_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1.4數(shù)據(jù)倉庫和數(shù)據(jù)庫有何不一樣?有哪些相同之處?答:區(qū)分:數(shù)據(jù)倉庫是面向主題,集成,不易更改且隨時間改變數(shù)據(jù)集合,用來支持管理人員決議,數(shù)據(jù)庫由一組內(nèi)部相關數(shù)據(jù)和一組管理和存取數(shù)據(jù)軟件程序組成,是面向操作型數(shù)據(jù)庫,是組成數(shù)據(jù)倉庫源數(shù)據(jù)。它用表組織數(shù)據(jù),采取ER數(shù)據(jù)模型。相同:它們都為數(shù)據(jù)挖掘提供了源數(shù)據(jù),都是數(shù)據(jù)組合。1.3定義以下數(shù)據(jù)挖掘功效:特征化、區(qū)分、關聯(lián)和相關分析、預測聚類和演變分析。使用你熟悉現(xiàn)實生活數(shù)據(jù)庫,給出每種數(shù)據(jù)挖掘功效例子。答:特征化是一個目標類數(shù)據(jù)通常特征或特征匯總。比如,學生特征可被提出,形成全部大學計算機科學專業(yè)一年級學生輪廓,這些特征包含作為一個高年級平均成績(GPA:Gradepointaversge)信息,還有所修課程最大數(shù)量。區(qū)分是將目標類數(shù)據(jù)對象通常特征與一個或多個對比類對象通常特征進行比較。比如,具備高GPA學生通常特征可被用來與具備低GPA通常特征比較。最終描述可能是學生一個通??杀容^輪廓,就像具備高GPA學生75%是四年級計算機科學專業(yè)學生,而具備低GPA學生65%不是。關聯(lián)是指發(fā)覺關聯(lián)規(guī)則,這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集特征值條件。比如,一個數(shù)據(jù)挖掘系統(tǒng)可能發(fā)覺關聯(lián)規(guī)則為:major(X,“computingscience”)?owns(X,“personalcomputer”)[support=12%,confidence=98%]其中,X是一個表示學生變量。這個規(guī)則指出正在學習學生,12%(支持度)主修計算機科學而且擁有一臺個人計算機。這個組一個學生擁有一臺個人電腦概率是98%(置信度,或確定度)。分類與預測不一樣,因為前者作用是結構一系列能描述和區(qū)分數(shù)據(jù)類型或概念模型(或功效),而后者是建立一個模型去預測缺失或無效、而且通常是數(shù)字數(shù)據(jù)值。它們相同性是他們都是預測工具:分類被用作預測目標數(shù)據(jù)類標簽,而預測經(jīng)典應用是預測缺失數(shù)字型數(shù)據(jù)值。聚類分析數(shù)據(jù)對象不考慮已知類標號。對象依照最大花蕾內(nèi)部相同性、最小化類之間相同性標準進行聚類或分組。形成每一簇能夠被看作一個對象類。聚類也便于分類法組織形式,將觀察組織成類分層結構,把類似事件組織在一起。數(shù)據(jù)演變分析描述和模型化隨時間改變對象規(guī)律或趨勢,盡管這可能包含時間相關數(shù)據(jù)特征化、區(qū)分、關聯(lián)和相關分析、分類、或預測,這種分析明確特征包含時間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相同性數(shù)據(jù)分析2.3假設給定數(shù)據(jù)集值已經(jīng)分組為區(qū)間。區(qū)間和對應頻率以下。―――――――――――――――――――――――――――――――――――――年紀頻率―――――――――――――――――――――――――――――――――――――1~52005~1545015~2030020~50150050~8070080~11044―――――――――――――――――――――――――――――――――――――計算數(shù)據(jù)近似中位數(shù)值。解答:先判定中位數(shù)區(qū)間:N=200+450+300+1500+700+44=3194;N/2=1597∵200+450+300=950<1597<2450=950+1500;∴20~50對應中位數(shù)區(qū)間?!鄊edian=32.97歲。2.2假定用于分析數(shù)據(jù)包含屬性age。數(shù)據(jù)元組age值(以遞增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。答:(a)該數(shù)據(jù)均值是什么?中位數(shù)是什么?均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27=29.96中位數(shù)應是第14個,即x14=25=Q2。(b)該數(shù)據(jù)眾數(shù)是什么?討論數(shù)據(jù)峰(即雙峰、三峰等)。這個數(shù)集眾數(shù)有兩個:25和35,發(fā)生在一樣最高頻率處,所以是雙峰眾數(shù)。(c)數(shù)據(jù)中列數(shù)是什么?數(shù)據(jù)中列數(shù)是最大數(shù)和最小數(shù)均值。即:midrange=(70+13)/2=41.5。(d)你能(粗略地)找出數(shù)據(jù)第一個四分位數(shù)(Q1)和第三個四分位數(shù)(Q3)嗎?數(shù)據(jù)集第一個四分位數(shù)應發(fā)生在25%處,即在(N+1)/4=(27+1)/4=7處。所以:Q1=20。而第三個四分位數(shù)應發(fā)生在75%處,即在3×(N+1)/4=21處。所以:Q3=35(e)給出數(shù)據(jù)五數(shù)概括。一個數(shù)據(jù)集分布5數(shù)概括由最小值、第一個四分位數(shù)、中位數(shù)、第三個四分位數(shù)、和最大值組成。它給出了分布形狀良好匯總+而且這些數(shù)據(jù)是:13、20、25、35、70。(f)畫出數(shù)據(jù)盒圖。(g)分位數(shù)—分位數(shù)圖與分位數(shù)圖不一樣之處是什么?分位數(shù)圖是一個用來展示數(shù)據(jù)值低于或等于在一個單變量分布中獨立變量粗略百分比。這么,他能夠展示全部數(shù)分位數(shù)信息,而為獨立變量測得值(縱軸)相對于它們分位數(shù)(橫軸)被描繪出來。但分位數(shù)—分位數(shù)圖用縱軸表示一個單變量分布分位數(shù),用橫軸表示另一單變量分布分位數(shù)。兩個坐標軸顯示它們測量值對應分布值域,且點按照兩種分布分位數(shù)值展示。一條線(y=x)可畫到圖中+以增加圖像信息。落在該線以上點表示在y軸上顯示值分布比x軸對應等同分位數(shù)對應值分布高。反之,對落在該線以下點則低。2.4假設醫(yī)院檢測隨機選擇18個成年人年紀和身體脂肪數(shù)據(jù),得到以下結果:(a)計算年紀和脂肪百分比均值、中位數(shù)和標準差.年紀均值=(23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=836/18=46.44,中位數(shù)=(50+52)/2=51,標準差=方差平方根=開根號(1/n[∑(Xi)2-1/n(∑Xi)2])=開根號1/18[2970.44]=12.85.脂肪百分比均值=28.78,中位數(shù)=30.7,標準差=8.99.(b)繪制年紀和脂肪百分比盒圖(c)依照這兩個屬性,繪制散布圖,各q-q圖q-q圖散布圖(d)依照z-score規(guī)范化來規(guī)范化這兩個屬性(P46)(e)計算相關系數(shù)(皮爾遜積矩系數(shù)).這兩個變量是正相關還是負相關?ra,b=∑(ai-A)(bi-B)/NσAσB=(∑(aibi)-NAB)/NσAσB=(∑(aibi)-18*46.44*28.78)/18*12.85*8.99=0.82相關系數(shù)是0.82。變量呈正相關。3.3使用習題2.4給出age數(shù)據(jù)回答以下問題:(a)使用分箱均值光滑對以上數(shù)據(jù)進行光滑,箱深度為3。解釋你步驟。評述對于給定數(shù)據(jù),該技術效果。(b)怎樣確定數(shù)據(jù)中離群點?(c)對于數(shù)據(jù)光滑,還有哪些其余方法?解答:(a)使用分箱均值光滑對以上數(shù)據(jù)進行光滑,箱深度為3。解釋你步驟。評述對于給定數(shù)據(jù),該技術效果。用箱深度為3分箱均值光滑對以上數(shù)據(jù)進行光滑需要以下步驟:步驟1:對數(shù)據(jù)排序。(因為數(shù)據(jù)已被排序,所以此時不需要該步驟。)步驟2:將數(shù)據(jù)劃分到大小為3等頻箱中。箱1:13,15,16箱2:16,19,20箱3:20,21,22箱4:22,25,25箱5:25,25,30箱6:33,33,35箱7:35,35,35箱8:36,40,45箱9:46,52,70步驟3:計算每個等頻箱算數(shù)均值。步驟4:用各箱計算出算數(shù)均值替換每箱中每個值。箱1:44/3,44/3,44/3箱2:55/3,55/3,55/3箱3:21,21,21箱4:24,24,24箱5:80/3,80/3,80/3箱6:101/3,101/3,101/3箱7:35,35,35箱8:121/3,121/3,121/3箱9:56,56,56(b)怎樣確定數(shù)據(jù)中離群點?聚類方法可用來將相同點分成組或“簇”,并檢測離群點。落到簇集外值能夠被視為離群點。作為選擇,一個人機結合檢測可被采取,而計算機用一個事先決定數(shù)據(jù)分布來區(qū)分可能離群點。這些可能離群點能被用人工輕松檢驗,而無須檢驗整個數(shù)據(jù)集。(c)對于數(shù)據(jù)光滑,還有哪些其余方法?其它可用來數(shù)據(jù)光滑方法包含別分箱光滑方法,如中位數(shù)光滑和箱邊界光滑。作為選擇,等寬箱可被用來執(zhí)行任何分箱方式,其中每個箱中數(shù)據(jù)范圍均是常量。除了分箱方法外,能夠使用回歸技術擬合成函數(shù)來光滑數(shù)據(jù),如經(jīng)過線性或多線性回歸。分類技術也能被用來對概念分層,這是經(jīng)過將低級概念上卷到高級概念來光滑數(shù)據(jù)。3.5以下規(guī)范化方法值域是什么?答:(a)min-max規(guī)范化。值域是[new_min,new_max]。(b)z-score規(guī)范化。值域是[(old_min-mean)/σ,(old_max-mean)/σ],總來說,對于全部可能數(shù)據(jù)集值域是(-∞,+∞)。(c)小數(shù)定標規(guī)范化。值域是(-1.0,1.0)。3.7使用習題2.4給出ge數(shù)據(jù),回答以下問題:()使用mn-mx規(guī)范化將ge值35變換到[0.0,1.0區(qū)間。(b)使用-sore規(guī)范化變換ge值35,其中ge標準差為12.94歲。()使用小數(shù)定標規(guī)范化變換ge值35。(d)對于給定數(shù)據(jù),你愿意使用哪種方法?陳說你理由。解答:3.9假設12個銷售價格統(tǒng)計組已經(jīng)排序以下51011131535,50,55,72,92,204,215。使用以下每種方法將其劃分成三個箱。)等頻(等深)劃分。b)等寬劃分。)聚類。解答:)等頻(等深)劃分。bn15,10,1,13bn115,35,50,55bn172,91,204,215b)等寬劃分。每個區(qū)間寬度是:215-53=70bn15,10,1,13,15,35,50,55,72bn191bn1204,215)聚類。我們能夠使用一個簡單聚類技術:用2個最大間隙將數(shù)據(jù)分成3個箱。bn15,10,1,13,15bn135,50,55,72,91bn1204,2153.11使用習題2.4給出ge數(shù)據(jù),)畫出一個等寬為10等寬直方圖;b)為以下每種抽樣技術勾畫例子:SSOR,SSR,聚類抽樣,分層抽樣。使用大小為5樣本和層“青年“中年”和“老年。解答:)畫出一個等寬為10等寬直方圖;8765432105 5 5 5 5 5b)為以下每種抽樣技術勾畫例子:SSOR,SSR,聚類抽樣,分層抽樣。使用大小為5樣本和層“青年“中年”和“老年。元組:T113T1022T1935T215T1125T2035T316T1225T2135T416T1325T2236T519T1425T2340T620T1530T2445T720T1633T2546T821T1733T2652T922T1835T2770SSOR和SSR不是同次隨機抽樣結果能夠不一樣但前者因無放回所以不能有相同元組。SSORn=5)SSR=5)T416T720T620T720T1022T2035T1125T2135T2652T2546聚類抽樣:設起始聚類共有6類,可抽其中m類。Sp1Sp2Spe3Sp4Sp5Sp6T113T620T1125T1633T2135T2652T215T720T1225T1733T2236T2770T316T821T1325T1835T2340T416T922T1425T1935T2445T519T1022T1530T2035T2546Sp2 Sp5T620T2135T720T2236T821T2340T922T2445T1022T2546T113youngT1022youngT1935ddegeT215youngT1125youngT2035ddegeT316youngT1225youngT2135ddegeT416youngT1325youngT2236ddegeT519youngT1425youngT2340ddegeT620youngT1530ddeeT2445ddegeT720youngT1633ddeeT2546ddegeT821youngT1733ddeeT2652ddegeT922youngT1835ddeeT2770norT416youngT1225youngT1733ddeeT2546ddeeT2770Sor4.3假定數(shù)據(jù)倉庫包含三維:time,doctor和patient;和兩個度量:count和charge;其中,charge是醫(yī)生對病人一次診治收費。(a)列舉三種流行數(shù)據(jù)倉庫建模模式答:三類模式通慣用于建模數(shù)據(jù)倉庫架構星形模型,雪花模型和事實星座模型。(b)使用(a)列舉模式之一,畫出上面數(shù)據(jù)倉庫模式圖數(shù)據(jù)倉庫星形模型(C)由基本方體[day,doctor,patient]開始,為列出每位醫(yī)生收費總數(shù),應該執(zhí)行哪些OLAP操作?沿課程(course)維從course_id“上卷”到department。沿時間(time)維從day“上卷”到y(tǒng)ear。取time=,對維time作“切片”操作沿病人(patient)維從個別病人“上卷”到全部病人。(d)為得到一樣結果,寫一個SQL查詢。假定數(shù)據(jù)存放在關系數(shù)據(jù)庫中,其模式為fee(day,month,year,doctor,hospital,patient,count,charge)。答:SQL查詢語句以下:selectdoctor,SUM(charge)fromfeewhereyear=groupbydoctor4.4假定gUnvrty數(shù)據(jù)倉庫包含以下4個維udnttudn_ne,_d,o,tu,unvsy),ou(ou_ne,dpen),s(e,y)和ntuordpt,nk);2個度量:ont和vg_gde。在最低概念層,度量vg_gde存放學生實際課程成績。在較高概念層,vg_gde存放給定組合平均成績。)為該數(shù)據(jù)倉庫畫出雪花形模式圖。b)由基本方體tudn,or,t,nruor]開始,為列出gUnvety每個學生CS課程平均成績,應該使用哪些特殊OP操作。)假如每維有5層(包含al,如“udn<aor<tu<unvety<l,該立方體包含多少方體?解答:)為該數(shù)據(jù)倉庫畫出雪花形模式圖。雪花模式如圖所表示。b)由基本方體udnt,ou,s,ntuor]開始,為列出gUnvety每個學生CS課程平均成績應該使用哪些特殊OP操作。這些特殊聯(lián)機分析處理(OP)操作有:. 沿課程(oue)維從or_d“上卷”到dpent。. 沿學生(udnt)維從udnt_d“上卷”到nvety。. 取dpen=“CS”和nvety=“g(oue)維和學生(udnt)維切片。v. 沿學生(udnt)維從unvsy下鉆到udnt_ne。)假如每維有5(包含al“udn<aor<au<unvety<l,該立方體包含多少方體?這個立方體將包含54=625個方體。4.5假定數(shù)據(jù)倉庫包含4維:date,spectator,location,和game,和兩個度量:count和charge;其中,charge是觀眾在給定日期觀看節(jié)目標付費。觀眾能夠是學生、成年人或老年人,每類觀眾有不一樣收費標準。(a)畫出該數(shù)據(jù)倉庫星形模式圖。答:星形模式圖以下:b.由基本方體[date,spectator,location,game]開始,為列出學生觀眾在GM_Place總付費,應執(zhí)行OLAP操作:沿時間(date)維從date_id“上卷”到y(tǒng)ear。沿時間(game)維從game_id“上卷”到全部。沿時間(location)維從location_id“上卷”到location_name。沿時間(spectator)維從spectator_id“上卷”到status。以status="students",locationname="GMPlace"andyear=作轉軸操作4.6數(shù)據(jù)倉庫能夠用星形模式或雪花模式建模。簡略討論這兩種模式相同點和不一樣點,然后分析它們相對做優(yōu)、缺點。哪種模式更實用,給出你觀點并陳說你理由。答:星形模式或雪花模式相同點是它們包含一個事實表和一些維表。它們主要不一樣在于,雪花模式維表可能是規(guī)范化形式,方便降低了冗余,這種表易于維護并節(jié)約存放空間。然而,與巨大事實表相比,這種空間節(jié)約能夠忽略。另外,因為執(zhí)行查詢需要更多連接操作,雪花形結構可能降低瀏覽性能,這么,系統(tǒng)性能可能相正確受到影響。星型模式優(yōu)點是簡單、這使得它更有效,但它需要更多空間。所以,只要空間要求不是太大時,星形模式比雪花模式愈加好,因為通常效率比空間具備更高優(yōu)先級。在工業(yè)上,有時可能將數(shù)據(jù)從一個雪花模式非規(guī)范化為星型模式以加緊處理速度,另一個選擇是保持雪花模式維表,然后相同數(shù)據(jù)當前用戶折疊為星形。4.94.115.15.25.4假定基本方體有三維A,B,C,其單元數(shù)以下:|A|=1000000,|B|=100,|C|=1000.假定每維均等地分塊成10部分。(a)假定每維只有一層,畫出完整立方體格。答:完整立方體格以下列圖(b)假如每個立方體單元存放一個4字節(jié)度量,若立方體是稠密,所計算立方體有多大?答:所計算立方體大小以下:all:1A:1,000,000;B:100;C:1,000;小計:1,001,100AB:1,000,000*100=100,000,000;BC:100*1,000=100,000;AC:1,000,000*1,000=1,000,000,000;小計:1,100,100,000ABC:1,000,000*100*1,000=100,000,000,000總和:1+1,001,100+1,100,100,000+100,000,000,000=101,101,101,101*4=404,404,404,404字節(jié)(C)指出空間需求量最小立方體中塊計算次序,并計算2-D平面計算所需要內(nèi)存空間總量。答:次序計算,需要最少數(shù)量空間B-C-A.如圖所表示:計算二維平面需要總主內(nèi)存空間是:總空間=(100×1,000)+(1,000,000×10)+(100×10,000)=20,100,000單元*4字節(jié)/單元=80,400,000字節(jié)6.3Apriori算法使用子集支持性質先驗知識。(a)證實頻繁項集全部非空子集也必須是頻繁。答:設s是一個頻繁項集,min_sup是最小支持度閥值,任務相關數(shù)據(jù)D是數(shù)據(jù)庫事務集合,|D|是D有事務量,則有Support_count(s)=min_sup×|D|;再設s’是s非空子集,則任何包含項集s事務將一樣包含項集s’,即:support_count(s')supportcount(s)=min_sup×|D|.所以,s’也是一個頻繁項集。(b)證實項集s任意非空子集s’支持最少和s支持度一樣大。答:設任務相關數(shù)據(jù)D是數(shù)據(jù)庫事務集合,|D|是D事務量,由定義得:設s’是s非空子集,由定義得:由(a)可知:support(s’)support(s)由此證實,項集s任意非空子集s’支持最少和s支持度一樣大。(c)給定頻繁項集l和l子集s,證實規(guī)則置信度不可能大于答:設s是l子集,則設s’是s非空子集,則由(b)可知:support_count(s')supportcount(s),另外,confidence(s’)(l-s’))confidence(s)(l-s))所以,規(guī)則置信度不可能大于。6.6設數(shù)據(jù)庫有5個事務。設min_sup=60%,min_conf=80%(a)分別使用Apriori和FP增加算法找出全部頻繁項集。比較兩種挖掘過程效率。效率比較:Apriori需數(shù)次掃描數(shù)據(jù)庫而FP增加建立FP樹只需一次掃描。在Apriori算法中產(chǎn)生候選是昂貴(因為聯(lián)接),而FP增加不產(chǎn)生任何候選。(b)列舉全部與下面元規(guī)則匹配強關聯(lián)規(guī)則(給出支持度S和置信度C),其中,X是代表用戶變量,itemi是表示項變量(如:“A”、“B”等):答:k,oe[0.6,1]e,ok[0.6,1]6.8.數(shù)據(jù)庫有4個事務,設min_sup=60%,min_conf=80%(a)在item_category粒度(比如,itemi能夠是“Milk”),對于下面規(guī)則模板對最大k,列出頻繁k項集包含最大k頻繁k項集全部強關聯(lián)規(guī)則(包含它們支持度S和置信度c).(b)在粒度(比如:itemi能夠是“Sunset-Milk”)對于下面規(guī)則模板對最大k,列出頻繁k項集(但不輸出任何規(guī)則)。6.14下面相依表匯總了超級市場事務數(shù)據(jù)。其中,hotdogs表示包含熱狗事務,hotdogs表示不包含熱狗事務,hamburge

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論