數(shù)據(jù)挖掘概念與技術(shù)_課后題答案_第1頁
數(shù)據(jù)挖掘概念與技術(shù)_課后題答案_第2頁
數(shù)據(jù)挖掘概念與技術(shù)_課后題答案_第3頁
數(shù)據(jù)挖掘概念與技術(shù)_課后題答案_第4頁
數(shù)據(jù)挖掘概念與技術(shù)_課后題答案_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘一一概念概念與技術(shù)Data MiningConcepts andTechniques習(xí)題答案第1章引言1.1什么是數(shù)據(jù)挖掘?在你的回答中,針對以下問題:1.2 1.6定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、預(yù)測聚類和演變分析。使用你熟悉的現(xiàn)實生活的數(shù)據(jù)庫,給岀每種數(shù)據(jù) 挖掘功能的例子。解答:特征化是一個目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。例如,學(xué)生的特征 可被提岀,形成所有大學(xué)的計算機(jī)科學(xué)專業(yè)一年級學(xué)生的輪廓,這些特征包括作為一種高的年級平均成績(GPA: Grade point aversge)的信息,還有所修的課程的最大數(shù)量。區(qū)分是將目標(biāo)類數(shù)據(jù)對象的一般特性與一個或多個對

2、比類對象的一般特性進(jìn)行比較。例如,具有高GPA的學(xué)生的一般特性可被用來與具有 低GPA的一般特性比較。最終的描述可能是學(xué)生的一個一 般可比較的 輪廓,就像具有高 GPA的學(xué)生的75%是四年級計算機(jī)科 學(xué)專業(yè)的學(xué)生,而具有低GPA的學(xué)生的65%不是。關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如,一個數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:major(X, Computi ngscie nee” S own s(X,personalcomputer ” support=12%, confid en ce=98%其中,X是一個表示學(xué)生的變量。這個規(guī)則指出正在學(xué)習(xí)的學(xué)生,1

3、2%(支持度)主修計算機(jī)科學(xué)并且擁有一臺個人計算機(jī)。這個組一個學(xué)生擁有一臺個人電腦的概率是98% (置信度,或確定度)。分類與預(yù)測不同,因為前者的作用是構(gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型(或功能),而后者是建立一個模型去預(yù)測缺失的或無效 的、并且通常是數(shù)字的數(shù)據(jù)值。它們的相似性是他們都是預(yù)測的工具:分類被用作預(yù)測目標(biāo)數(shù)據(jù)的類的標(biāo)簽,而預(yù)測典型的應(yīng)用是預(yù)測缺失的數(shù)字型數(shù)據(jù)的值。聚類分析的數(shù)據(jù)對象不考慮已知的類標(biāo)號。對象根據(jù)最大花蕾內(nèi)部的相似性、最小化類之間的相似性的原則進(jìn)行聚類或分組。形成的每一簇可以被看作一個對象類。聚類也便于分類法組織形式,將觀測組織成類分層結(jié)構(gòu),把類似的事件組織在一

4、起。數(shù)據(jù)延邊分析描述和模型化隨時間變化的對象的規(guī)律或趨勢,盡管這可能包括時間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測,這種分析的明確特征包括時間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析1.3 1.9列舉并描述說明數(shù)據(jù)挖掘任務(wù)的五種原語。解答:用于指定數(shù)據(jù)挖掘任務(wù)的五種原語是:任務(wù)相關(guān)數(shù)據(jù):這種原語指明給定挖掘所處理的數(shù)據(jù)。它包括指明數(shù)據(jù)庫、數(shù)據(jù)庫表、或數(shù)據(jù)倉庫,其中包括包含關(guān)系數(shù)據(jù)、選擇關(guān)系數(shù)據(jù)的條件、用于探索的關(guān)系數(shù)據(jù)的屬性或維、關(guān)于修復(fù)的數(shù)據(jù)排序和分組。挖掘的數(shù)據(jù)類型:這種原語指明了所要執(zhí)行的特定數(shù)據(jù)挖掘功能,如特征化、區(qū)分、關(guān)聯(lián)、分類、聚類、或演化分析。同樣,

5、用戶的要求可能更特殊,并可能提供所發(fā)現(xiàn)的模式必須匹配的模版。這些模版或超模式 (也被稱為超規(guī)則)能被用來指導(dǎo)發(fā)現(xiàn)過程。背景知識:這種原語允許用戶指定已有的關(guān)于挖掘領(lǐng)域的知識。這樣的 知識能被用來指導(dǎo)知識發(fā)現(xiàn)過程,并且評估發(fā)現(xiàn)的模式。關(guān)于數(shù)據(jù)中關(guān) 系的概念分層和用戶信念是背景知識的形式。模式興趣度度量:這種原語允許用戶指定功能,用于從知識中分割不感 興趣的模式,并且被用來指導(dǎo)挖掘過程,也可評估發(fā)現(xiàn)的模式。這樣就 允許用戶限制在挖掘過程返回的不感興趣的模式的數(shù)量,因為一種數(shù)據(jù) 挖掘系統(tǒng)可能產(chǎn)生大量的模式。 興趣度測量能被指定為簡易性、 確定性 、 適用性、和新穎性的特征。發(fā)現(xiàn)模式的可視化:這種原語

6、述及發(fā)現(xiàn)的模式應(yīng)該被顯示出來。為了使 數(shù)據(jù)挖掘能有效地將知識傳給用戶,數(shù)據(jù)挖掘系統(tǒng)應(yīng)該能將發(fā)現(xiàn)的各種 形式的模式展示出來,正如規(guī)則、表格、餅或條形圖、決策樹、立方體 或其它視覺的表示。1.4 1.13 描述以下數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成方法的差別: 不 耦 合、松散耦合、 半緊耦合和緊密耦合。 你認(rèn)為哪種方法最流行, 為 什么?解答: 數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)的集成的層次的差別如下。不耦合:數(shù)據(jù)挖掘系統(tǒng)用像平面文件這樣的原始資料獲得被挖掘的原始 數(shù)據(jù)集,因為沒有數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)倉庫系統(tǒng)的任何功能被作為 處理過 程的一部分執(zhí)行。因此,這種構(gòu)架是一種糟糕的設(shè)計。松散耦合:數(shù)據(jù)挖掘

7、系統(tǒng)不與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成,除了使用被挖掘 的初始數(shù)據(jù)集的源數(shù)據(jù)和存儲挖掘結(jié)果。這樣,這種構(gòu)架能得到 數(shù)據(jù)庫 和數(shù)據(jù)倉庫提供的靈活、高效、和特征的優(yōu)點(diǎn)。但是,在大 量的數(shù)據(jù)集 中,由松散耦合得到高可測性和良好的性能是非常困難 的,因為許多這 種系統(tǒng)是基于內(nèi)存的。半緊密耦合:一些數(shù)據(jù)挖掘原語, 如聚合、分類、 或統(tǒng)計功能的預(yù)計算 ,可在數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)有效的執(zhí)行,以便數(shù)據(jù)挖掘系統(tǒng)在挖掘- 查詢 過程的應(yīng)用。另外,一些經(jīng)常用到的中間挖掘結(jié)果能被預(yù)計 算并存儲到 數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)中,從而增強(qiáng)了數(shù)據(jù)挖掘系統(tǒng)的 性能。緊密耦合:數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)被完全整合成數(shù)據(jù)挖掘系統(tǒng)的一部 份,并且因此提

8、供了優(yōu)化的數(shù)據(jù)查詢處理。這樣的話,數(shù)據(jù)挖掘子系統(tǒng) 被視為一個信息系統(tǒng)的功能組件。這是一中高度期望的結(jié) 構(gòu),因為它有 利于數(shù)據(jù)挖掘功能、高系統(tǒng)性能和集成信息處理環(huán)境 的有效實現(xiàn)。從以上提供的體系結(jié)構(gòu)的描述看,緊密耦合是最優(yōu)的,沒有值得顧慮的技術(shù)和執(zhí)行問題。但緊密耦合系統(tǒng)所需的大量技術(shù)基礎(chǔ)結(jié)構(gòu)仍然在發(fā)展變化, 其實現(xiàn) 并非易事。因此,目前最流行的體系結(jié)構(gòu)仍是半緊密耦合,因為它是 松散耦合和 緊密耦合的折中。1.5 1.14描述關(guān)于數(shù)據(jù)挖掘方法和用戶交互問題的三個數(shù)據(jù)挖掘挑戰(zhàn)。第2章數(shù)據(jù)預(yù)處理2.1 2.2假設(shè)給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間。區(qū)間和對應(yīng)的頻率如下。年齡頻率15200515450152

9、03002050150050807008011044計算數(shù)據(jù)的近似中位數(shù)值。解答:先判定中位數(shù)區(qū)間:N=200+450+300+1500+700+44=3194; N/2=1597/ 200+450+300=95015972450=950+1500; 2050對應(yīng)中位數(shù)區(qū)間。我們有:L1=20,N=3197, (Efreq) i=950, freqmedian=1500 , width =30,使用公式( 2.3):焉 N / 2 8(氓 freq )屠伏3197 / 2 伏 950 cemedian 二 L1width = 2030 = 32.97童 freq median 童(X 1500

10、 ce media n=32.97 歲。2.2 2.4假定用于分析的數(shù)據(jù)包含屬性ageo數(shù)據(jù)元組的age值(以遞增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70。(a) 該數(shù)據(jù)的均值是什么?中位數(shù)是什么?(b) 該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等)。(c) 數(shù)據(jù)的中列數(shù)是什么?(d) 你能(粗略地)找岀數(shù)據(jù)的第一個四分位數(shù)(Q1)和第三個四分位數(shù)(Q3)嗎?(e) 給岀數(shù)據(jù)的五數(shù)概括。(f) 畫岀數(shù)據(jù)的盒圖。(g) 分位數(shù)一分位數(shù)圖與分位

11、數(shù)圖的不同之處是什么?解答:(a) 該數(shù)據(jù)的均值是什么?中位數(shù)是什么?N均值是:x 1 . - X =809 / 27 =29.96上30 (公式 2.1 )。中位數(shù)應(yīng)是第 14nJ個,即 X14=25= Q2 o(b) 該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等)。這個數(shù)集的眾數(shù)有兩個:25和35,發(fā)生在同樣最高的頻率處,因此是雙峰眾數(shù)。(c) 數(shù)據(jù)的中列數(shù)是什么? 數(shù)據(jù)的中列數(shù)是最大術(shù)和最小是的均值。即: midrange =(70+13)/2=41.5 。(d) 你能(粗略地)找岀數(shù)據(jù)的第一個四分位數(shù)(Qi)和第三個四分位數(shù) (Q3)嗎?數(shù)據(jù)集的第一個四分位數(shù)應(yīng)發(fā)生在25%處,即在

12、 (N+1)/4=7 處。所以: Q 1 =20。而第三個四分位數(shù)應(yīng)發(fā)生在75%處,即在3X(N+1)/4=21處。所以:Q3=35(e) 給岀數(shù)據(jù)的五數(shù)概括。一個數(shù)據(jù)集的分布的 5 數(shù)概括由最小值、 第一個四分位數(shù)、 中位數(shù)、 第三個并且這些數(shù)據(jù)是: 13、分位數(shù)圖是一種用四分位數(shù)、 和最大值構(gòu)成。 它給岀了分布形狀良好的匯總,20、25、35、70。(f) 畫岀數(shù)據(jù)的盒略。(g) 分位數(shù)分位數(shù)圖與分位數(shù)圖的不同之處是什么? 來展示數(shù)據(jù)值低于或等于在一個單變量分布中獨(dú)立的變量的粗略百分比。 這樣, 他可以展示所有數(shù)的分位數(shù)信息, 而為獨(dú)立變量測得的 值(縱軸)相對于它們的分位數(shù)(橫軸)被描繪

13、岀來。但分位數(shù)分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù)。 兩個坐標(biāo)軸顯示它們的測量值相應(yīng)分布的值域,且點(diǎn)按照 兩種分布分位數(shù)值展示。一條線( y=x )可畫到圖中,以增加圖像的信息。落在 該線以上的點(diǎn)表示在 y 軸上顯示的值的分布比 x 軸的相應(yīng)的等同分位數(shù)對應(yīng)的值 的分布高。反之,對落在該線以下的點(diǎn)則低。2.3 2.7 使用習(xí)題 2.4 給岀的 age 數(shù)據(jù)回答下列問題:(a) 使用分箱均值光滑對以上數(shù)據(jù)進(jìn)行光滑,箱的深度為3。解釋你的步驟評述對于給定的數(shù)據(jù),該技術(shù)的效果。(b) 如何確定數(shù)據(jù)中的離群點(diǎn)?(c) 對于數(shù)據(jù)光滑,還有哪些其他方法?解答:(a)

14、使用分箱均值光滑對以上數(shù)據(jù)進(jìn)行光滑,箱的深度為3。解釋你的步驟評述對于給定的數(shù)據(jù),該技術(shù)的效果。用箱深度為 3 的分箱均值光滑對以上數(shù)據(jù)進(jìn)行光滑需要以下步驟:步驟 1:對數(shù)據(jù)排序。 (因為數(shù)據(jù)已被排序,所以此時不需要該步驟。)箱 3: 20, 21, 22箱 6: 33, 33, 35步驟 2:將數(shù)據(jù)劃分到大小為 3 的等頻箱中 箱 1: 13, 15, 16箱 2: 16 , 19, 20箱 4: 22, 25, 25箱 5: 25, 25, 30箱 7: 35, 35, 35箱 8: 36, 40, 45箱 9: 46, 52, 70步驟 3:計算每個等頻箱的算數(shù)均值。步驟 4:用各箱計算

15、岀的算數(shù)均值替換每箱中的每個值。箱 1: 44/3, 44/3 , 44/3 箱 2: 55/3 , 55/3, 55/3 箱 3: 21, 21, 21箱 4: 24, 24, 24箱 5: 80/3, 80/3, 80/3 箱 6: 101/3, 101/3 , 101/3箱 7: 35, 35, 35箱 8: 121/3, 121/3 , 121/3 箱 9: 56, 56, 56 (b) 如何確定數(shù)據(jù)中的離群點(diǎn)? 聚類的方法可用來將相似的點(diǎn)分成組或“簇” ,并 檢測離群點(diǎn)。落到簇的集外的值可以被視為離群點(diǎn)。 作為選擇,一種人機(jī)結(jié)合的檢測可被采用,而計算機(jī)用一種事先決定的數(shù)據(jù)分布來區(qū)分可

16、能的離群點(diǎn)這些可能的離群點(diǎn)能被用人工輕松的檢驗,而不必檢查整個數(shù)據(jù)集。光 均 線 到(C)對于數(shù)據(jù)光滑,還有哪些其他方法?其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法,如中位數(shù)光滑和箱邊界滑。作為選擇,等寬箱可被用來執(zhí)行任何分箱方式,其中每個箱中的數(shù)據(jù)范圍是常量。除了分箱方法外,可以使用回歸技術(shù)擬合成函數(shù)來光滑數(shù)據(jù),如通過性或多線性回歸。分類技術(shù)也能被用來對概念分層,這是通過將低級概念上卷高級概念來光滑數(shù)據(jù)。2.4 2.10如下規(guī)范化方法的值域是什么?(a) min-max 規(guī)范化。(b) z-score 規(guī)范化。(c) 小數(shù)定標(biāo)規(guī)范化。解答:(a) min-max規(guī)范化。值域是new_min

17、, new_max。(b) z-score規(guī)范化。值域是(old _min mean)/ r,(old_max mean)/ d,總的來說,對于所有可能 的數(shù)據(jù)集的值域是(a, +鄉(xiāng)。(c)小數(shù)定標(biāo)規(guī)范化。值域是(1.0, 1.0)。2.5 2.12使用習(xí)題2.4給岀的age數(shù)據(jù),回答以下問題:(a) 使用min-max規(guī)范化將 age值35變換到0.0, 1.0區(qū)間。(b) 使用z-score規(guī)范化變換 age值35,其中age的標(biāo)準(zhǔn)差為 12.94歲(c) 使用小數(shù)定標(biāo)規(guī)范化變換age值35。(d) 對于給定的數(shù)據(jù),你愿意使用哪種方法?陳述你的理由。解答:(a)使用min-max規(guī)范化將

18、age值35變換到0.0, 1.0區(qū)間。t min a=13, maxA=70, new_min a=0.0, new _maxA=1.0,而 v=35,, v 伏 min a j“、丄v =(new _ max new _ min a )十 new _ min amaxA - min a-=3513 1.0 亠 0.00.0 = 0.386070詢3(b)使用z-score規(guī)范化變換 age值35,其中age的標(biāo)準(zhǔn)差為 12.94歲A21619220212 2242527.30 2 33 435 36 40 45 46 52 702780927=29.963N_? ,A -A二亠=161.2

19、949,dA= 12.7002或 s2=167.4986 , s2 二Sa 二12.9421v=35V,35 丫 29.963t 0.3966 H 0.40012.7002(c)VsSa=35 亠29.9635 =0.3892 H 0.3912.942112.9421使用小數(shù)定標(biāo)規(guī)范化變換age值35。由于最大的絕對值為(d)對于給定的數(shù)據(jù),352 = 0.3510你愿意使用哪種方法?陳述你的理由。70,所以 j=2。V二丄10 j12.7002略。2.6 2.14假設(shè)12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每種方法將

20、其劃分成三個箱。(a) 等頻(等深)劃分。(b) 等寬劃分。(c) 聚類。解答:(a) 等頻(等深)劃分。bi n15,10,11,13bi n115,35,50,55(b) 等寬劃分。bin1 72,91,204,215每個區(qū)間的寬度是:(215-5)/3=70bi n15,10,11,13,15,35,50,55,72bi n191bi n1204,215(c) 聚類。我們可以使用一種簡單的聚類技術(shù):用2個最大的間隙將數(shù)據(jù)分成3個箱。bi n15,10,11,13,15bi n135,50,55,72,91bi n1204,2152.7 2.15使用習(xí)題2.4給岀的age數(shù)據(jù),(a) 畫岀

21、一個等寬為 10的等寬直方圖;(b) 為如下每種抽樣技術(shù)勾畫例子:SRSWOR,SRSWR,聚類抽樣,分層抽樣。使用大小為 5的樣本和層“青年”,“中年”和“老年”。解答:(a)畫岀一個等寬為 10的等寬直方圖;u0152535455565(b) 為如下每種抽樣技術(shù)勾畫例子:SRSWOR , SRSWR,聚類抽樣,分層 抽樣。使用大小為 5的樣本和層“青年”,“中年”和“老年”。元組:Ti13T1022T 1935T215T1125T 2035T316T1225T 2135T416T1325T2236T519T1425T 2340T620T1530T 2445T720T1633T2546T82

22、1733T2352T922T1835T 2770SRSWOR和SRSWR :不是同次的隨機(jī)抽樣結(jié)果可以不同,但前者因無放回所以不能有相同的元組。SRSWOR(n=5)SRSWR(n=5)T416T720T620T720T1022T2035T1125T2135T 2652T2546聚類抽樣:設(shè)起始聚類共有6類,可抽其中的 m類。Sample1Sample2Sample3Sample4Sample5Sample6T113T620T1125T1633T 2135T2652T215T720T1225T1733T2236T2770T316T821T1325T1835T 2340T416T922T1425

23、T1935T2445T519T1022T1530T 2035T2546Sample2 Sample5T620T 2135T720T 2236T821T 2340T922T 2445T io22T2546分層抽樣:按照年齡分層抽樣時,不同的隨機(jī)試驗結(jié)果不同Ti13youngT1022youngT1935middle ageT215youngT1125youngT 2035middle ageT316youngT1225youngT 2135middle ageT416youngT1325youngT 2236middle ageT519youngT1425youngT 2340middle ag

24、eT620youngT1530middle ageT 2445middle ageT720youngT1633middle ageT2546middle ageT821youngT1733middle ageT 2652middle ageT922youngT1835middle ageT2770seniorT416youngT 1225youngT1733middle ageT2546middle ageT 2770Se nior2.8 55555555555555555555555555第3章數(shù)據(jù)倉庫與OLAP技術(shù)概述3.1 3.4 假定 Big Un iversity 的數(shù)據(jù)倉庫包含如下

25、4 個維:stude nt(stude nt_n ame,area_id , major, status, university) , course(course_name, department) , semester(semester, year) 和 instructor(dept, rank); 2 個度量: count 和 avg_grade。 在最低概念層, 度量 avg_grade 存放學(xué)生的實際 課程成績。在較高概念層, avg_grade 存放給定組合的平均成績。(a) 為該數(shù)據(jù)倉庫畫出雪花形模式圖。(b) 由 基 本 方 體 student, course, semeste

26、r, instructor 開 始 , 為 列 出BigUniversity 每個學(xué)生的 CS 課程的平均成績,應(yīng)當(dāng)使用哪些特殊的OLAP 操作。(c) 如果每維有 5 層(包括 all ),如“ studentmajorstatusuniversityall ”, 該立方體包含多少方體?解答:a) 為該數(shù)據(jù)倉庫畫出雪花形模式圖。雪花模式如圖所示。b) 由 基 本 方 體 student, course, semester, instructor 開 始 , 為 列 出 BigUniversity 每個學(xué)生的 CS 課程的平均成績, 應(yīng)當(dāng)使用哪些特殊的 OLAP 操作。這些特殊的聯(lián)機(jī)分析處理(

27、 OLAP )操作有:i. 沿課程(course)維從 course_id 上卷”至U department。ii. 沿學(xué)生(student)維從 student_id 上卷”至U university。iii. 取 department= “ CS ” 和 university= “ Big University ”,沿課程(course)維和學(xué)生(student)維切片。iv. 沿學(xué)生(student)維從 university 下鉆至U student_name。c) 如果每維有 5 層(包括 all ),如“ studentmajorstatusuniversity1.25*mi n(

28、shelf)a nd 1.5*mi n(shelf)(b)用擴(kuò)充的SQL表示該查詢。select item, regi on, mon th, Min( shelf), SUM(R1)fromPurchase whereyear=2004cube by item,regi on, mon th: R1such that R1.shelf 昌.25*MIN(Shelf) and (R1.Shelf 1.5*MIN(Shelf) andR1.Price100(c) 這是一個分布式多特征立方體嗎?為什么?這不是一個分布多特征立方體,因為在such that 語句中采用了 w條 件。4.4 2008-

29、11-294.5 2008-11-29第五章5.1 Aprio ri算法使用子集支持度性質(zhì)的先驗知識。5.2 5.2.2節(jié)介紹了由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則的方法。提岀了一個更有效的方法。解釋它為什么比5.2.2節(jié)的方法更有效。(提示:考慮將習(xí)題 5.1(b)和習(xí)題5.1(c)的性質(zhì)結(jié)合到你的設(shè)計中。)5.3數(shù)據(jù)庫有5個事物。設(shè)min _sup=60%min_conf=80。TID購買的商品T100M, O, N, K, E,丫T200D, O, N, K, E,Y T300M, A, K, ET400M, U, C, K, YT500C, O, O, K, I, Eg) 分別使用 Aprio ri

30、和FP增長算法找岀所有的頻繁項集。比較兩種挖 掘過程的效率。h) 列舉所有與下面的的元規(guī)則匹配的強(qiáng)關(guān)聯(lián)規(guī)則(給岀支持度s和置 信度c),其中,X是代表顧客的變量,item是表示項的變量(如“A”、“ B” 等):x ctransaction, buys(X, item 1) A buys(X, item 2) buys(X, item 3) s, c 解答: 分別使用Aprio ri和FP增長算法找岀所有的頻繁項集。比較兩種挖掘過程的效率。Aprio ri算法:由于只有 5次購買事件,所以絕對支持度是 5和in_sup=3。丫 M3/1M01/:O30:MK3 jNME2 oo5=0IM3/FTMK3/FJMYr2 F:E400,03=03sQK3=03 sQOOK3 YOKE3/G =,丫3qOL, = *K5=0C2 = o0L2 =oe3oC3 = :D1 OdF EoO4“OEF3 cn:KE4 ;KEYQO30QY2oOA1oOY3COKY30*KE4 co:u1Fcoon,KY3 _2ooCO23/1133=25921/14

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論