數(shù)據(jù)挖掘概念與技術課后題答案匯總_第1頁
數(shù)據(jù)挖掘概念與技術課后題答案匯總_第2頁
數(shù)據(jù)挖掘概念與技術課后題答案匯總_第3頁
數(shù)據(jù)挖掘概念與技術課后題答案匯總_第4頁
數(shù)據(jù)挖掘概念與技術課后題答案匯總_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)挖掘概念概念與技術Data MiningConcepts and Techniques習題解答Jiawei HanMicheline Kamber著 范明孟曉峰 譯目錄第 1 章 引言1.1 什么是數(shù)據(jù)挖掘?在你的回答中,針對以下問題:1.2 1.6 定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關聯(lián)和相關分析、預測聚 類和演變分析。使用你熟悉的現(xiàn)實生活的數(shù)據(jù)庫,給出每種數(shù)據(jù)挖掘功 能的例子。解答: 特征化是一個目標類數(shù)據(jù)的一般特性或特性的匯總。例如,學生的特征 可被提出,形成所有大學的計算機科學專業(yè)一年級學生的輪廓,這些特 征包括作為一種高的年級平均成績(GPA:Grade point avers

2、ge) 的信息, 還有所修的課程的最大數(shù)量。 區(qū)分是將目標類數(shù)據(jù)對象的一般特性與一個或多個對比類對象的一般 特性進行比較。例如,具有高 GPA 的學生的一般特性可被用來與具有 低 GPA 的一般特性比較。最終的描述可能是學生的一個一般可比較的 輪廓,就像具有高 GPA 的學生的 75%是四年級計算機科學專業(yè)的學生, 而具有低 GPA 的學生的 65%不是。 關聯(lián)是指發(fā)現(xiàn)關聯(lián)規(guī)則,這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特 征 值的 條 件。 例 如, 一 個數(shù) 據(jù) 挖掘 系 統(tǒng)可 能 發(fā)現(xiàn) 的 關聯(lián) 規(guī) 則為 :major(X, “ computing science”) owns(X, “pe

3、rsonal computer” ) support=12%, confid ence=98%其中,X 是一個表示學生的變量。這個規(guī)則指出正在學習的學生,12%(支持度)主修計算機科學并且擁有一臺個人計算機。這個組一個學生 擁有一臺個人電腦的概率是 98%(置信度,或確定度)。 分類與預測不同,因為前者的作用是構造一系列能描述和區(qū)分數(shù)據(jù)類型 或概念的模型(或功能),而后者是建立一個模型去預測缺失的或無效 的、并且通常是數(shù)字的數(shù)據(jù)值。它們的相似性是他們都是預測的工具: 分類被用作預測目標數(shù)據(jù)的類的標簽,而預測典型的應用是預測缺失的 數(shù)字型數(shù)據(jù)的值。 聚類分析的數(shù)據(jù)對象不考慮已知的類標號。對象根據(jù)

4、最大花蕾內(nèi)部的相 似性、最小化類之間的相似性的原則進行聚類或分組。形成的每一簇可 以被看作一個對象類。聚類也便于分類法組織形式,將觀測組織成類分 層結構,把類似的事件組織在一起。 數(shù)據(jù)延邊分析描述和模型化隨時間變化的對象的規(guī)律或趨勢,盡管這可 能包括時間相關數(shù)據(jù)的特征化、區(qū)分、關聯(lián)和相關分析、分類、或預測, 這種分析的明確特征包括時間序列數(shù)據(jù)分析、序列或周期模式匹配、和 基于相似性的數(shù)據(jù)分析1.3 1.9 列舉并描述說明數(shù)據(jù)挖掘任務的五種原語。 解答:用于指定數(shù)據(jù)挖掘任務的五種原語是: 任務相關數(shù)據(jù):這種原語指明給定挖掘所處理的數(shù)據(jù)。它包括指明數(shù)據(jù) 庫、數(shù)據(jù)庫表、或數(shù)據(jù)倉庫,其中包括包含關系數(shù)

5、據(jù)、選擇關系數(shù)據(jù)的 條件、用于探索的關系數(shù)據(jù)的屬性或維、關于修復的數(shù)據(jù)排序和分組。 挖掘的數(shù)據(jù)類型:這種原語指明了所要執(zhí)行的特定數(shù)據(jù)挖掘功能,如特 征化、區(qū)分、關聯(lián)、分類、聚類、或演化分析。同樣,用戶的要求可能 更特殊,并可能提供所發(fā)現(xiàn)的模式必須匹配的模版。這些模版或超模式(也被稱為超規(guī)則)能被用來指導發(fā)現(xiàn)過程。 背景知識:這種原語允許用戶指定已有的關于挖掘領域的知識。這樣的 知識能被用來指導知識發(fā)現(xiàn)過程,并且評估發(fā)現(xiàn)的模式。關于數(shù)據(jù)中關 系的概念分層和用戶信念是背景知識的形式。 模式興趣度度量:這種原語允許用戶指定功能,用于從知識中分割不感 興趣的模式,并且被用來指導挖掘過程,也可評估發(fā)現(xiàn)的

6、模式。這樣就 允許用戶限制在挖掘過程返回的不感興趣的模式的數(shù)量,因為一種數(shù)據(jù) 挖掘系統(tǒng)可能產(chǎn)生大量的模式。興趣度測量能被指定為簡易性、確定性、 適用性、和新穎性的特征。 發(fā)現(xiàn)模式的可視化:這種原語述及發(fā)現(xiàn)的模式應該被顯示出來。為了使 數(shù)據(jù)挖掘能有效地將知識傳給用戶,數(shù)據(jù)挖掘系統(tǒng)應該能將發(fā)現(xiàn)的各種 形式的模式展示出來,正如規(guī)則、表格、餅或條形圖、決策樹、立方體或其它視覺的表示。1.4 1.13 描述以下數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成方法的差別:不耦 合、松散耦合、半緊耦合和緊密耦合。你認為哪種方法最流行,為什么?解答: 數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)的集成的層次的差別如下。 不耦合:數(shù)據(jù)

7、挖掘系統(tǒng)用像平面文件這樣的原始資料獲得被挖掘的原始 數(shù)據(jù)集,因為沒有數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)倉庫系統(tǒng)的任何功能被作為處理過 程的一部分執(zhí)行。因此,這種構架是一種糟糕的設計。 松散耦合:數(shù)據(jù)挖掘系統(tǒng)不與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成,除了使用被挖掘 的初始數(shù)據(jù)集的源數(shù)據(jù)和存儲挖掘結果。這樣,這種構架能得到數(shù)據(jù)庫 和數(shù)據(jù)倉庫提供的靈活、高效、和特征的優(yōu)點。但是,在大量的數(shù)據(jù)集 中,由松散耦合得到高可測性和良好的性能是非常困難的,因為許多這 種系統(tǒng)是基于內(nèi)存的。 半緊密耦合:一些數(shù)據(jù)挖掘原語,如聚合、分類、或統(tǒng)計功能的預計算, 可在數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)有效的執(zhí)行,以便數(shù)據(jù)挖掘系統(tǒng)在挖掘-查詢 過程的應用。另外,一些經(jīng)

8、常用到的中間挖掘結果能被預計算并存儲到 數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)中,從而增強了數(shù)據(jù)挖掘系統(tǒng)的性能。 緊密耦合:數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)被完全整合成數(shù)據(jù)挖掘系統(tǒng)的一部 份,并且因此提供了優(yōu)化的數(shù)據(jù)查詢處理。這樣的話,數(shù)據(jù)挖掘子系統(tǒng) 被視為一個信息系統(tǒng)的功能組件。這是一中高度期望的結構,因為它有 利于數(shù)據(jù)挖掘功能、高系統(tǒng)性能和集成信息處理環(huán)境的有效實現(xiàn)。從以上提供的體系結構的描述看,緊密耦合是最優(yōu)的,沒有值得顧慮的技術 和執(zhí)行問題。但緊密耦合系統(tǒng)所需的大量技術基礎結構仍然在發(fā)展變化,其實現(xiàn) 并非易事。因此,目前最流行的體系結構仍是半緊密耦合,因為它是松散耦合和 緊密耦合的折中。1.5 1.14 描述關于數(shù)

9、據(jù)挖掘方法和用戶交互問題的三個數(shù)據(jù)挖掘挑戰(zhàn)。第 2 章 數(shù)據(jù)預處理2.1 2.2 假設給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間。區(qū)間和對應的頻率如下。年齡頻率1520051545015203002050150050807008011044計算數(shù)據(jù)的近似中位數(shù)值。解答: 先判定中位數(shù)區(qū)間:N=200+450+300+1500+700+44=3194;N/2=1597 200+450+300=950<1597<2450=950+1500; 2050 對應中位數(shù)區(qū)間。 我們有:L1=20,N=3197,(freq) l=950,freqmed ian=1500,width=30,使用公式(2.3)

10、: N / 2 ()freq l 3197 / 2 950 median = L1 + width = 20 + × 30 = 32.97 freq median 1500 median=32.97 歲。2.2 2.4 假定用于分析的數(shù)據(jù)包含屬性 age。數(shù)據(jù)元組的 age 值(以遞增序) 是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。(a) 該數(shù)據(jù)的均值是什么?中位數(shù)是什么?(b) 該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等)。(c) 數(shù)據(jù)的中列數(shù)是什么?(

11、d) 你能(粗略地)找出數(shù)據(jù)的第一個四分位數(shù)(Q1)和第三個四分位數(shù)(Q3)嗎?(e) 給出數(shù)據(jù)的五數(shù)概括。(f) 畫出數(shù)據(jù)的盒圖。(g) 分位數(shù)分位數(shù)圖與分位數(shù)圖的不同之處是什么? 解答:(a) 該數(shù)據(jù)的均值是什么?中位數(shù)是什么?N 1 N均值是: x = xii=1個,即 x14=25=Q2。= 809 / 27 = 29.96 30 (公式 2.1 )。中位數(shù)應是第 14(b) 該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等)。 這個數(shù)集的眾數(shù)有兩個:25 和 35,發(fā)生在同樣最高的頻率處,因此是雙峰眾數(shù)。(c) 數(shù)據(jù)的中列數(shù)是什么? 數(shù)據(jù)的中列數(shù)是最大術和最小是的均值。即:midra

12、nge=(70+13)/2=41.5。(d) 你能(粗略地)找出數(shù)據(jù)的第一個四分位數(shù)(Q1)和第三個四分位數(shù)(Q3) 嗎?數(shù)據(jù)集的第一個四分位數(shù)應發(fā)生在 25%處,即在(N+1)/4=7 處。所以:Q1=20。 而第三個四分位數(shù)應發(fā)生在 75%處,即在 3×(N+1)/4=21 處。所以:Q3=35(e) 給出數(shù)據(jù)的五數(shù)概括。一個數(shù)據(jù)集的分布的 5 數(shù)概括由最小值、第一個四分位數(shù)、中位數(shù)、第三個 四分位數(shù)、和最大值構成。它給出了分布形狀良好的匯總,并且這些數(shù)據(jù)是:13、20、25、35、70。(f) 畫出數(shù)據(jù)的盒圖。 略。(g) 分位數(shù)分位數(shù)圖與分位數(shù)圖的不同之處是什么? 分位數(shù)圖是

13、一種用來展示數(shù)據(jù)值低于或等于在一個單變量分布中獨立的變量的粗略百分比。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨立變量測得的 值(縱軸)相對于它們的分位數(shù)(橫軸)被描繪出來。但分位數(shù)分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù)。兩個坐標軸顯示它們的測量值相應分布的值域,且點按照 兩種分布分位數(shù)值展示。一條線(y=x)可畫到圖中,以增加圖像的信息。落在 該線以上的點表示在 y 軸上顯示的值的分布比 x 軸的相應的等同分位數(shù)對應的值 的分布高。反之,對落在該線以下的點則低。2.3 2.7 使用習題 2.4 給出的 age 數(shù)據(jù)回答下列問題:(a) 使用分箱均值光滑對以

14、上數(shù)據(jù)進行光滑,箱的深度為 3。解釋你的步驟。 評述對于給定的數(shù)據(jù),該技術的效果。(b) 如何確定數(shù)據(jù)中的離群點?(c) 對于數(shù)據(jù)光滑,還有哪些其他方法? 解答:(a) 使用分箱均值光滑對以上數(shù)據(jù)進行光滑,箱的深度為 3。解釋你的步驟。 評述對于給定的數(shù)據(jù),該技術的效果。用箱深度為 3 的分箱均值光滑對以上數(shù)據(jù)進行光滑需要以下步驟: 步驟 1:對數(shù)據(jù)排序。(因為數(shù)據(jù)已被排序,所以此時不需要該步驟。) 步驟 2:將數(shù)據(jù)劃分到大小為 3 的等頻箱中。箱 1:13,15,16 箱 2:16,19,20 箱 3:20,21,22 箱 4:22,25,25 箱 5:25,25,30 箱 6:33,33,

15、35 箱 7:35,35,35 箱 8:36,40,45 箱 9:46,52,70 步驟 3:計算每個等頻箱的算數(shù)均值。 步驟 4:用各箱計算出的算數(shù)均值替換每箱中的每個值。箱 1:44/3,44/3 ,44/3 箱 2:55/3 ,55/3,55/3 箱 3:21,21,21箱 4:24,24,24 箱 5:80/3,80/3,80/3 箱 6:101/3,101/3 ,101/3箱 7:35,35,35 箱 8:121/3,121/3 ,121/3 箱 9:56,56,56 (b) 如何確定數(shù)據(jù)中的離群點? 聚類的方法可用來將相似的點分成組或“簇”,并檢測離群點。落到簇的集外的值可以被視為

16、離群點。作為選擇,一種人機結合的檢測可被采用,而計算機 用一種事先決定的數(shù)據(jù)分布來區(qū)分可能的離群點。這些可能的離群點能被用人工 輕松的檢驗,而不必檢查整個數(shù)據(jù)集。(c) 對于數(shù)據(jù)光滑,還有哪些其他方法?其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法,如中位數(shù)光滑和箱邊界 光滑。作為選擇,等寬箱可被用來執(zhí)行任何分箱方式,其中每個箱中的數(shù)據(jù)范圍 均是常量。除了分箱方法外,可以使用回歸技術擬合成函數(shù)來光滑數(shù)據(jù),如通過 線性或多線性回歸。分類技術也能被用來對概念分層,這是通過將低級概念上卷 到高級概念來光滑數(shù)據(jù)。2.4 2.10 如下規(guī)范化方法的值域是什么?(a) min-max 規(guī)范化。(b) z-s

17、core 規(guī)范化。(c) 小數(shù)定標規(guī)范化。 解答:(a) min-max 規(guī)范化。 值域是new_min, new_max。 (b) z-score 規(guī)范化。值域是(old _min mean)/ ,(old_max mean)/,總的來說,對于所有可能 的數(shù)據(jù)集的值域是(,+)。(c) 小數(shù)定標規(guī)范化。 值域是(1.0,1.0)。2.5 2.12 使用習題 2.4 給出的 age 數(shù)據(jù),回答以下問題:(a) 使用 min-max 規(guī)范化將 age 值 35 變換到0.0,1.0區(qū)間。(b) 使用 z-score 規(guī)范化變換 age 值 35,其中 age 的標準差為 12.94 歲。(c)

18、使用小數(shù)定標規(guī)范化變換 age 值 35。(d) 對于給定的數(shù)據(jù),你愿意使用哪種方法?陳述你的理由。解答:(a) 使用 min-max 規(guī)范化將 age 值 35 變換到0.0,1.0區(qū)間。 min A=13,maxA=70,new _min A=0.0,new _maxA=1.0,而 v=35,v' =v min AA(new _ maxA new _ minA) + new _ minmaxA min A= 35 13 (1.0 0.0 ) + 0.0 = 0.386070 13(b) 使用 z-score 規(guī)范化變換 age 值 35,其中 age 的標準差為 12.94 歲。A

19、 = 13 + 15 + 2 × 16 + 19 + 2 × 20 + 21 + 2 × 22 + 4 × 2527+ 30 + 2 × 33 + 4 × 35 + 36 + 40 + 45 + 46 + 52 + 7027N = 809 = 29 .96327A 2 = (Ai A )i=1N= 161.2949 , A =AN 2 = 12.7002A或 s 2 = (Ai A )i=1N= 167 .4986 , sA =As 2 = 12.9421v=35v ' = v A = 35 29.963 =5.037= 0.

20、3966 0.400 A 12.700212.7002s或 v ' = v A = 35 29.963 =5.037= 0.3892 0.39sA 12.942112.9421(c) 使用小數(shù)定標規(guī)范化變換 age 值 35。由于最大的絕對值為 70,所以 j=2 。 v' =v10 j= 3510 2= 0.35(d) 對于給定的數(shù)據(jù),你愿意使用哪種方法?陳述你的理由。略。2.6 2.14 假設 12 個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每種方法將其劃分成三個箱。(a) 等頻(等深)劃分。(b) 等寬

21、劃分。 (c) 聚類。 解答:(a) 等頻(等深)劃分。bin15,10,11,13bin115,35,50,55(b) 等寬劃分。bin1 72,91,204,215每個區(qū)間的寬度是:(215-5)/3=70bin15,10,11,13,15,35,50,55,72bin191bin1204,215(c) 聚類。我們可以使用一種簡單的聚類技術:用 2 個最大的間隙將數(shù)據(jù)分成 3 個箱。bin15,10,11,13,15bin135,50,55,72,91bin1204,2152.7 2.15 使用習題 2.4 給出的 age 數(shù)據(jù),(a) 畫出一個等寬為 10 的等寬直方圖;(b) 為如下每

22、種抽樣技術勾畫例子:SRSWOR,SRSWR ,聚類抽樣,分層 抽樣。使用大小為 5 的樣本和層“青年”,“中年”和“老年”。解答:(a) 畫出一個等寬為 10 的等寬直方圖;87654321015 25 35 45 55 65(b) 為如下每種抽樣技術勾畫例子:SRSWOR,SRSWR ,聚類抽樣,分層 抽樣。使用大小為 5 的樣本和層“青年”,“中年”和“老年”。元組:T 113T 1022T 1935T 215T 1125T 2035T 316T 1225T 2135T 416T 1325T 2236T 519T 1425T 2340T 620T 1530T 2445T 720T 163

23、3T 2546T 821T 1733T 2652T 922T 1835T 2770SRSWOR 和 SRSWR:不是同次的隨機抽樣結果可以不同,但前者因無放回所以不能有相同的元組。SRSWOR(n=5)SRSWR(n=5)T 416T 720T 620T 720T 1022T 2035T1125T 2135T 2652T 2546聚類抽樣:設起始聚類共有 6 類,可抽其中的 m 類。Sample1Sample2Sample3Sample4Sample5Sample6T 113T620T 1125T 1633T 2135T 2652T 215T720T 1225T 1733T 2236T 277

24、0T 316T821T 1325T 1835T 2340T 416T922T 1425T 1935T 2445T 519T 1022T 1530T 2035T 2546Sample2 Sample5T 620T2135T 720T2236T 821T2340T 922T2445T 1022T2546分層抽樣:按照年齡分層抽樣時,不同的隨機試驗結果不同。T113youngT 1022youngT 1935middle ageT215youngT 1125youngT 2035middle ageT316youngT 1225youngT 2135middle ageT416youngT 1325

25、youngT 2236middle ageT519youngT 1425youngT 2340middle ageT620youngT 1530middle ageT 2445middle ageT720youngT 1633middle ageT 2546middle ageT821youngT 1733middle ageT 2652middle ageT922youngT 1835middle ageT 2770seniorT416youngT 1225youngT 1733middle ageT 2546middle ageT 2770Senio r2.8 55555555555555

26、5555555555553.1 3.4 假定 BigUniversity 的數(shù)據(jù)倉庫包含如下 4 個維:student(student_name,area_id , major, status, university) , course(course_name, department) , semester(semester, year) 和 instructor(dept, rank);2 個度量:count 和 avg_grade。 在最低概念層, 度量 avg_grade 存放學生的實際 課程成績。在較高概念層, avg_grade 存放給定組合的平均成績。(a) 為該數(shù)據(jù)倉庫畫出雪花形

27、模式圖。(b) 由 基 本 方 體 student, course, semester, instructor 開 始 , 為 列 出 BigUniversity 每個學生的 CS 課程的平均成績,應當使用哪些特殊 的 OLAP 操作。(c) 如果每維有 5 層(包括 all),如“student<major<status<university<all ”, 該立方體包含多少方體?解答:a) 為該數(shù)據(jù)倉庫畫出雪花形模式圖。雪花模式如圖所示。b) 由 基 本 方 體 student, course, semester, instructor 開 始 , 為 列 出 Big

28、University 每個學生的 CS 課程的平均成績,應當使用哪些特殊的 OLAP 操作。這些特殊的聯(lián)機分析處理(OLAP )操作有:i.沿課程(course)維從 course_id “上卷”到 department。ii.沿學生(student)維從 student_id “上卷”到 university 。iii. 取 department= “CS ”和 university= “Big University ”,沿課程(course)維和學生(student)維切片。iv.沿學生(student)維從 university 下鉆到 student_name。c) 如果每維有 5 層

29、(包括 all),如“student<major<status<university<all ”, 該立方體包含多少方體?這個立方體將包含 54=625 個方體。course維表univstudent_idstudent_idcourse_idstudent namesemester_idarea_idinstructor_idmajorcountstatusavg_gradeuniversity事實表student維表course_id course_namedepartmentsemester維表semester_id semester yearinstructor

30、維表 Instructor_id deptrankarea維表 area_id cityprovincecountry題 3.4 圖 題 3.4 中數(shù)據(jù)倉庫的雪花形模式3.2 22222223.3 33333334.1 2008-11-294.2 有幾種典型的立方體計算方法,4.3 題 4.12 考慮下面的多特征立方體查詢:按item ,regio n,month 的所有 子集分組,對每組找出 2004 年的最小貨架壽命,并對價格低于 100 美元、貨架 壽命在最小貨架壽命的 1.251.5 倍之間的元組找出總銷售額部分。d) 畫出該查詢的多特征立方體圖。e) 用擴充的 SQL 表示該查詢。f

31、)這是一個分布式多特征立方體嗎?為什么? 解答:(a) 畫出該查詢的多特征立方體圖。 R 0R1(1.25*min(shelf)and1.5*min(shelf) (b) 用擴充的 SQL 表示該查詢。select item, region, month, Min(shelf), SUM(R1)from Purchase where year=2004cube by item, region, month: R1such that R1.shelf1.25*MIN(Shelf) and (R1.Shelf1.5*MIN(Shelf) andR1.Price<100(c) 這是一個分布式多

32、特征立方體嗎?為什么? 這不是一個分布多特征立方體,因為在“such that”語句中采用了“”條 件。4.4 2008-11-294.5 2008-11-295.1 Aprio ri 算法使用子集支持度性質(zhì)的先驗知識。 節(jié)介紹了由頻繁項集產(chǎn)生關聯(lián)規(guī)則的方法。提出了一個更有效的方 法。解釋它為什么比 節(jié)的方法更有效。(提示:考慮將習題 5.1(b)和習題 5.1(c) 的性質(zhì)結合到你的設計中。)5.3 數(shù)據(jù)庫有 5 個事物。設 min_sup=60%,min_conf=80 。 TID 購買的商品 T100 M, O, N, K, E, YT200 D, O, N, K, E, Y T300

33、M, A, K, ET400 M, U, C, K, YT500 C, O, O, K, I, Eg) 分別使用 Aprio ri 和 FP 增長算法找出所有的頻繁項集。比較兩種挖掘過程的效率。h) 列舉所有與下面的的元規(guī)則匹配的強關聯(lián)規(guī)則(給出支持度 s 和置 信度 c),其中,X 是代表顧客的變量,item 是表示項的變量(如“A”、 “B ”等):xtransaction, buys(X, item 1)buys(X, item 2)buys(X, item 3) s, c解答:(a) 分別使用 Aprio ri 和 FP 增長算法找出所有的頻繁項集。比較兩種挖掘過 程的效率。Aprio

34、 ri 算法:由于只有 5 次購買事件,所以絕對支持度是 5×min_sup=3。M3O3 N25 K E4C1 = Y3 D1M3O3L1 = K5E4MO 1 3MKME 2 2MYOK 3 C2 = OE 3 OY2 MK33 OKL2 = OE34 KEOKE 32C3 = KEY A 1 Y3U 1 C 21 I3L = OKE 3 KE KY EY4 3 2 KY 3FP-growth:數(shù)據(jù)庫的第一次掃描與 Aprio ri 算法相同,得到 L 1。再按支持度計數(shù)的遞減序排序,得到:L=(K:5), (E:4), (M:3), (O:3), (Y:3)。掃描沒個事 務,按

35、以上 L 的排序,從根節(jié)點開始,得到 FP-樹。RootK:5E:4M:1O:1M:2O:2 Y:1Y:1Y:1題 5.3 圖 FP 增長算法項條件模式基條件 FP 樹產(chǎn)生的頻繁模式Y O MEK,E,M,O:1 ,K,E,O:1,K,M:1K,E,M:1 ,K,E:2K,E:2 ,K:1K:4K:3K:3 ,E:3K:3K:4K,Y:3K,O:3,E,O:3 ,K,E,O:3K,M:3K,E:4效率比較:Aprio ri 算法的計算過程必須對數(shù)據(jù)庫作多次掃描,而 FP-增長算 法在構造過程中只需掃描一次數(shù)據(jù)庫,再加上初始時為確定支持度遞減排序 的一次掃描,共計只需兩次掃描。由于在 Aprio

36、 ri 算法中的自身連接過程產(chǎn) 生候選項集,候選項集產(chǎn)生的計算代價非常高,而 FP-增長算法不需產(chǎn)生任 何候選項。(b) 列舉所有與下面的的元規(guī)則匹配的強關聯(lián)規(guī)則(給出支持度 s 和置信度 c),其中,X 是代表顧客的變量,item 是表示項的變量(如“A”、“B ” 等):xtransaction, buys(X, “K”) buys(X, “O”)buys(X, “E ”) s=0.6, c=1xtransaction, buys(X, “E ”)buys(X, “E”) buys(X, “K”) s=0.6, c=1或也可表示為K,OEs(support)=0.6 或 60%,c(con

37、fid ence)=1 或 100% E,OKs(support)=0.6 或 60%,c(confid ence)=1 或 100%5.4 (實現(xiàn)項目)使用你熟悉的程序設計語言(如 C+或 Java),實現(xiàn)本章介 紹的三種頻繁項集挖掘算法:5.5 2008-12-015.6 2009-01-09第 6 章 分類和預測6.1 簡述決策樹分類的主要步驟。6.2 6.11 下表由雇員數(shù)據(jù)庫的訓練數(shù)據(jù)組成。數(shù)據(jù)已泛化。例如,age “3135”表示年齡在 3135 之間。對于給定的行,count 表示 department,status,ag e和 salary 在該行具有給定值的元組數(shù)。depar

38、tmentstatusagesalarycountsalessenior313546K50K30salesjunior263026K30K40salesjunior313531K35K40systemsjunior212546K50K20systemssenio r313566K70K5systemsjunior263046K50K3systemssenio r414566K70K3marketingsenior364046K50K10marketingjunior313541K45K4secretarysenior465036K40K4secretaryjunior263026K30K6i)

39、如何修改基本決策樹算法,以便考慮每個廣義數(shù)據(jù)元組(即每一行)的 count?j)使用修改過的算法,構造給定數(shù)據(jù)的決策樹。k) 給定一個數(shù)據(jù)元組,它的屬性 department,age 和 salary 的值分別為 “systems”,“2630”,和“46K50K”。該元組 status 的樸素貝葉 斯分類是什么?l)為給定的數(shù)據(jù)設計一個多層前饋神經(jīng)網(wǎng)絡。標記輸入和輸出層節(jié)點。m) 使用上面得到的多層前饋神經(jīng)網(wǎng)絡,給定訓練實例(sales,senior ,3135,46K50K),給出后向傳播算法一次迭代后的權重值。指出解答:你使用的初始權重和偏倚以及學習率。(a) 如何修改基本決策樹算法,以便考慮每個廣義數(shù)據(jù)元組(即每一行) 的count?(b) 使用修改過的算法,構造給定數(shù)據(jù)的決策樹。(c) 給 定一 個數(shù) 據(jù)元 組, 它的 屬性 department ,age 和 salary 的 值分 別為 “systems”,“2630”,和“46K50K”。該元組 status 的樸素貝葉斯分 類是什么?解一:設元組的各個屬性之間相互獨立,所以先求每個屬性的類條件概率:P(sys

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論