版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)挖掘概念概念與技術DataMiningConceptsandTechniques習題答案第1章引言1.1 什么是數(shù)據(jù)挖掘在你的答復中,針對以下問題:1.2 1.6定義以下數(shù)據(jù)挖掘功能:特征化、區(qū)分、關聯(lián)和相關分析、預測聚類和演變分析.使用你熟悉的現(xiàn)實生活的數(shù)據(jù)庫,給出每種數(shù)據(jù)挖掘功能的例子.解答:特征化是一個目標類數(shù)據(jù)的一般特性或特性的匯總.例如,學生的特征可被提出,形成所有大學的計算機科學專業(yè)一年級學生的輪廓,這些特征包括作為一種高的年級平均成績GPA:Gradepointaversge的信息,還有所修的課程的最大數(shù)量.區(qū)分是將目標類數(shù)據(jù)對象的一般特性與一個或多個比照類對象的一般特性進行
2、比擬.例如,具有高GPA的學生的一般特性可被用來與具有低GPA的一般特性比擬.最終的描述可能是學生的一個一般可比擬的輪廓,就像具有高GPA的學生的75%是四年級計算機科學專業(yè)的學生,而具有低GPA的學生的65%不是.關聯(lián)是指發(fā)現(xiàn)關聯(lián)規(guī)那么,這些規(guī)那么表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件.例如,一個數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關聯(lián)規(guī)那么為:majorX,computingscience"®ownsX,personalcomputersupport=12%,confidence=98%其中,X是一個表示學生的變量.這個規(guī)那么指出正在學習的學生,12%支持度主修計算機科學并且擁有
3、一臺個人計算機.這個組一個學生擁有一臺個人電腦的概率是98%置信度,或確定度.分類與預測不同,由于前者的作用是構造一系列能描述和區(qū)分數(shù)據(jù)類型或概念的模型或功能,而后者是建立一個模型去預測缺失的或無效的、并且通常是數(shù)字的數(shù)據(jù)值.它們的相似性是他們都是預測的工具:分類被用作預測目標數(shù)據(jù)的類的標簽,而預測典型的應用是預測缺失的數(shù)字型數(shù)據(jù)的值.聚類分析的數(shù)據(jù)對象不考慮的類標號.對象根據(jù)最大花蕾內(nèi)部的相似性、最小化類之間的相似性的原那么進行聚類或分組.形成的每一簇可以被看作一個對象類.聚類也便于分類法組織形式,將觀測組織成類分層結構,把類似的事件組織在一起.數(shù)據(jù)延邊分析描述和模型化隨時間變化的對象的規(guī)律
4、或趨勢,盡管這可能包括時間相關數(shù)據(jù)的特征化、區(qū)分、關聯(lián)和相關分析、分類、或預測,這種分析的明確特征包括時間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析1.3 1.9列舉并描述說明數(shù)據(jù)挖掘任務的五種原語.解答:用于指定數(shù)據(jù)挖掘任務的五種原語是:任務相關數(shù)據(jù):這種原語指明給定挖掘所處理的數(shù)據(jù).它包括指明數(shù)據(jù)庫、數(shù)據(jù)庫表、或數(shù)據(jù)倉庫,其中包括包含關系數(shù)據(jù)、選擇關系數(shù)據(jù)的條件、用于探索的關系數(shù)據(jù)的屬性或維、關于修復的數(shù)據(jù)排序和分組.挖掘的數(shù)據(jù)類型:這種原語指明了所要執(zhí)行的特定數(shù)據(jù)挖掘功能,如特征化、區(qū)分、關聯(lián)、分類、聚類、或演化分析.同樣,用戶的要求可能更特殊,并可能提供所發(fā)現(xiàn)的模式必須匹
5、配的模版.這些模版或超模式也被稱為超規(guī)那么能被用來指導發(fā)現(xiàn)過程.背景知識:這種原語允許用戶指定已有的關于挖掘領域的知識.這樣的知識能被用來指導知識發(fā)現(xiàn)過程,并且評估發(fā)現(xiàn)的模式.關于數(shù)據(jù)中關系的概念分層和用戶信念是背景知識的形式.模式興趣度度量:這種原語允許用戶指定功能,用于從知識中分割不感興趣的模式,并且被用來指導挖掘過程,也可評估發(fā)現(xiàn)的模式.這樣就允許用戶限制在挖掘過程返回的不感興趣的模式的數(shù)量,由于一種數(shù)據(jù)挖掘系統(tǒng)可能產(chǎn)生大量的模式.興趣度測量能被指定為簡易性、確定性、適用性、和新奇性的特征.發(fā)現(xiàn)模式的可視化:這種原語述及發(fā)現(xiàn)的模式應該被顯示出來.為了使數(shù)據(jù)挖掘能有效地將知識傳給用戶,數(shù)據(jù)
6、挖掘系統(tǒng)應該能將發(fā)現(xiàn)的各種形式的模式展示出來,正如規(guī)那么、表格、餅或條形圖、決策樹、立方體或其它視覺的表示.1.4 1.13描述以下數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成方法的差異:不耦合、松散耦合、半緊耦合和緊密耦合.你認為哪種方法最流行,為什么解答:數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)的集成的層次的差異如下.不耦合:數(shù)據(jù)挖掘系統(tǒng)用像平面文件這樣的原始資料獲得被挖掘的原始數(shù)據(jù)集,由于沒有數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)倉庫系統(tǒng)的任何功能被作為處理過程的一局部執(zhí)行.因此,這種構架是一種糟糕的設計.松散耦合:數(shù)據(jù)挖掘系統(tǒng)不與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成,除了使用被挖掘的初始數(shù)據(jù)集的源數(shù)據(jù)和存儲挖掘結果.這樣,這種構架能得到數(shù)
7、據(jù)庫和數(shù)據(jù)倉庫提供的靈活、高效、和特征的優(yōu)點.但是,在大量的數(shù)據(jù)集中,由松散耦合得到高可測性和良好的性能是非常困難的,由于許多這種系統(tǒng)是基于內(nèi)存的.半緊密耦合:一些數(shù)據(jù)挖掘原語,如聚合、分類、或統(tǒng)計功能的預計算,可在數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)有效的執(zhí)行,以便數(shù)據(jù)挖掘系統(tǒng)在挖掘-查詢過程的應用.另外,一些經(jīng)常用到的中間挖掘結果能被預計算并存儲到數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)中,從而增強了數(shù)據(jù)挖掘系統(tǒng)的性能.緊密耦合:數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)被完全整合成數(shù)據(jù)挖掘系統(tǒng)的一部份,并且因此提供了優(yōu)化的數(shù)據(jù)查詢處理.這樣的話,數(shù)據(jù)挖掘子系統(tǒng)被視為一個信息系統(tǒng)的功能組件.這是一中高度期望的結構,由于它有利于數(shù)據(jù)挖掘功能、高系統(tǒng)
8、性能和集成信息處理環(huán)境的有效實現(xiàn).從以上提供的體系結構的描述看,緊密耦合是最優(yōu)的,沒有值得顧慮的技術和執(zhí)行問題.但緊密耦合系統(tǒng)所需的大量技術根底結構仍然在開展變化,其實現(xiàn)并非易事.因此,目前最流行的體系結構仍是半緊密耦合,由于它是松散耦合和緊密耦合的折中.1.5 1.14描述關于數(shù)據(jù)挖掘方法和用戶交互問題的三個數(shù)據(jù)挖掘挑戰(zhàn).第2章數(shù)據(jù)預處理2.12.2假設給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間.區(qū)間和對應的頻率如下.5s»1-52005-1545015-2030020-50150050-807008011044計算數(shù)據(jù)的近似中位數(shù)值.解答:先判定中位數(shù)區(qū)間:N=200+450+300+150
9、0+700+44=3194;N/2=1597200+450+300=950<1597<2450=950+1500;2050對應中位數(shù)區(qū)間.我們有:L1=20,N=3197,(Efreq)i=950,freqmedian=1500,width=30,使用公式(2.3):>:N/2、二freqi£U'3197/2950median=L1:width=20世、-30=32.97二.freqmediangT1500median=32.97歲.2.22.4假定用于分析的數(shù)據(jù)包含屬性age數(shù)據(jù)元組的age值(以遞增序)是:13,15,16,16,19,20,20,21,
10、22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.(a)該數(shù)據(jù)的均值是什么中位數(shù)是什么(b)該數(shù)據(jù)的眾數(shù)是什么討論數(shù)據(jù)的峰(即雙峰、三峰等).(c)數(shù)據(jù)的中列數(shù)是什么(d)你能(粗略地)找出數(shù)據(jù)的第一個四分位數(shù)(Q1)和第三個四分位數(shù)(Q3)嗎?(e)給出數(shù)據(jù)的五數(shù)概括.畫出數(shù)據(jù)的盒圖.(g)分位數(shù)一分位數(shù)圖與分位數(shù)圖的不同之處是什么解答:(a)該數(shù)據(jù)的均值是什么中位數(shù)是什么N均值是:X=年Xj=809/27=29.96E30(公式2.1).中位數(shù)應是第14NiJ個,即X14=25=Q2o這個數(shù)集的眾數(shù)有(b)該數(shù)據(jù)的眾數(shù)是什么討
11、論數(shù)據(jù)的峰(即雙峰、三峰等)兩個:25和35,發(fā)生在同樣最高的頻率處,因此是雙峰眾數(shù).數(shù)據(jù)的中列數(shù)是最大術和最小是的均值.即:(c)數(shù)據(jù)的中列數(shù)是什么midrange=(70+13)/2=41.5(d)你能(粗略地)找出數(shù)據(jù)的第一個四分位數(shù)(Qi)和第三個四分位數(shù)(Q3)嗎數(shù)據(jù)集的第一個四分位數(shù)應發(fā)生在25%處,即在(N+1)/4=7處.所以:Qi=20o而第三個四分位數(shù)應發(fā)生在75%處,即在3X(N+1)/4=21處.所以:Q3=35(e)給出數(shù)據(jù)的五數(shù)概括.一個數(shù)據(jù)集的分布的5數(shù)概括由最小值、第一個四分位數(shù)、中位數(shù)、第三個四分位數(shù)、和最大值構成.它給出了分布形狀良好的匯總,并且這些數(shù)據(jù)是:
12、13、20、 25、35、70o畫出數(shù)據(jù)的盒略.(g)分位數(shù)一分位數(shù)圖與分位數(shù)圖的不同之處是什么分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在一個單變量分布中獨立的變量的粗略百分比.這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨立變量測得的值(縱軸)相對于它們的分位數(shù)(橫軸)被描繪出來.但分位數(shù)一分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù).兩個坐標軸顯示它們的測量值相應分布的值域,且點根據(jù)兩種分布分位數(shù)值展示.一條線(y=x)可畫到圖中,以增加圖像的信息.落在該線以上的點表示在y軸上顯示的值的分布比x軸的相應的等同分位數(shù)對應的值的分布高.反之,對落在該線以下的點那么低.2
13、0.3 2.7使用習題2.4給出的age數(shù)據(jù)答復以下問題:(a)使用分箱均值光滑對以上數(shù)據(jù)進行光滑,箱的深度為3.解釋你的步驟評述對于給定的數(shù)據(jù),該技術的效果.(b)如何確定數(shù)據(jù)中的離群點(c)對于數(shù)據(jù)光滑,還有哪些其他方法解答:(a)使用分箱均值光滑對以上數(shù)據(jù)進行光滑,箱的深度為3.解釋你的步驟評述對于給定的數(shù)據(jù),該技術的效果.用箱深度為3的分箱均值光滑對以上數(shù)據(jù)進行光滑需要以下步驟:步驟1:對數(shù)據(jù)排序.(由于數(shù)據(jù)已被排序,所以此時不需要該步驟.)步驟2:將數(shù)據(jù)劃分到大小為3的等頻箱中.箱1:13,15,16箱2:16,19,20箱3:20,21,22箱4:22,25,25箱5:25,25,
14、30箱6:33,33,35箱7:35,35,35箱8:36,40,45箱9:46,52,70步驟3:計算每個等頻箱的算數(shù)均值.步驟4:用各箱計算出的算數(shù)均值替換每箱中的每個值.箱1:44/3,44/3,44/3箱2:55/3,55/3,55/3箱3:21,21,21箱4:24,24,24箱5:80/3,80/3,80/3箱6:101/3,101/3,101/3箱7:35,35,35箱8:121/3,121/3,121/3箱9:56,56,56(b)如何確定數(shù)據(jù)中的離群點聚類的方法可用來將相似的點分成組或“簇,并檢測離群點.落到簇的集外的值可以被視為離群點.作為選擇,一種人機結合的檢測可被采用,
15、而計算機用一種事先決定的數(shù)據(jù)分布來區(qū)分可能的離群點.這些可能的離群點能被用人工輕松的檢驗,而不必檢查整個數(shù)據(jù)集.(c)對于數(shù)據(jù)光滑,還有哪些其他方法其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法,如中位數(shù)光滑和箱邊界光滑.作為選擇,等寬箱可被用來執(zhí)行任何分箱方式,其中每個箱中的數(shù)據(jù)范圍均是常量.除了分箱方法外,可以使用回歸技術擬合成函數(shù)來光滑數(shù)據(jù),如通過線性或多線性回歸.分類技術也能被用來對概念分層,這是通過將低級概念上卷到高級概念來光滑數(shù)據(jù).20.4 2.10如下標準化方法的值域是什么(a) min-max標準化.(b) z-score標準化.(c)小數(shù)定標標準化.解答:(c) min-max
16、標準化.值域是new_min,new_max.(b)z-score標準化.值域是(old_min-mean)/電(old_maxmean)/d,總的來說,對于所有可能的數(shù)據(jù)集的值域是(00,+°0(c)小數(shù)定標標準化.值域是(1.0,1.0)O20.5 2.12使用習題2.4給出的age數(shù)據(jù),答復以下問題:(a)使用min-max標準化將age值35變換到0.0,1.0區(qū)間.(b)使用z-score標準化變換age值35,其中age的標準差為12.94歲(c)使用小數(shù)定標標準化變換age值35.(d)對于給定的數(shù)據(jù),你愿意使用哪種方法陳述你的理由.解答:(a)使用min-max標準化
17、將age值35變換到0.0,1.0區(qū)間.mina=13,maxA=70,new_mina=0.0,new_maxA=1.0,而v=35,new_maxanew_mina)+new_mina35“131.0-0.00.0=0.386070'-13(b)使用z-score標準化變換age值35,其中age的標準差為12.94歲.131521619220212-22425A二2730.233.435.36.40.4546.52702780927=29.9632bAN_'?1(Ai-A=1:161.2949,(TAbA=12.7002im、二A-A=167,4986,s2二Sa=12,
18、9421v=35_5.037一12,7002=0.3966H0.400v.、二A35129.963a12.7002,v、A35129.9635.037Vs'=0.3892H0.39Sa12.942112.9421(c)使用小數(shù)定標標準化變換age值35由于最大的絕對值為70,所以j=2ov'=_v_=拒=03510j102.(d)對于給定的數(shù)據(jù),你愿意使用哪種方法陳述你的理由.略.20.6 2.14假設12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215.使用如下每種方法將其劃分成三個箱.(a)等頻(等深)劃分.(b)等寬劃
19、分.(c)聚類.解答:(a)等頻(等深)劃分.bin15,10,11,13bin115,35,50,55(b)等寬劃分.bin172,91,204,215每個區(qū)間的寬度是:(215-5)/3=70bin15,10,11,13,15,35,50,55,72bin191bin1204,215(c)聚類.我們可以使用一種簡單的聚類技術:用2個最大的間隙將數(shù)據(jù)分成3個箱.bin15,10,11,13,15bin135,50,55,72,91bin1204,21520.7 2.15使用習題2,4給出的age數(shù)據(jù),(a)畫出一個等寬為10的等寬直方圖;(b)為如下每種抽樣技術勾畫例子:SRSWOR,SRS
20、WR,聚類抽樣,分層抽樣.使用大小為5的樣本和層“青年,“中年和“老年.解答:(a)畫出一個等寬為10的等寬直方圖;L011111'152535455565(b)為如下每種抽樣技術勾畫例子:SRSWOR,SRSWR,聚類抽樣,分層抽樣.使用大小為5的樣本和層“青年,“中年和“老年.元組:Ti13T1022T1935T215T1125T2035T316T1225T2135T416T1325T2236T519T1425T2340T620T1530T2445T720T1633T2546T821T1733T2652T922T1835T2770SRSWOR和SRSWR:不是同次的隨機抽樣結果可以
21、不同,但前者因無放回所以不能有相同的元組.SRSWOR(n=5)SRSWR(n=5)T416T720T620T720T1022T2035T1125T2135T2652T2546聚類抽樣:設起始聚類共有6類,可抽其中的m類.Sample1Sample2Sample3Sample4Sample5Sample6Ti13T620T1125T1633T2135T2652T215T720T1225T1733T2236T2770T316T821T1325T1835T2340T416T922T1425T1935T2445T519T1022T1530T2035T2546Sample2Sample5T620T21
22、35T720T2236T821T2340T922T2445T1022T2546分層抽樣:根據(jù)年齡分層抽樣時,不同的隨機試驗結果不同Ti13youngT1022youngT1935middleageT215youngT1125youngT2035middleageT316youngT1225youngT2135middleageT416youngT1325youngT2236middleageT519youngT1425youngT2340middleageT620youngT1530middleageT2445middleageT720youngT1633middleageT2546middl
23、eageT821youngT1733middleageT2652middleageT922youngT1835middleageT2770seniorT416youngT1225youngT1733middleageT2546middleageT2770Senior2.855555555555555555555555555第3章數(shù)據(jù)倉庫與OLAP技術概述3.1 3.4假定BigUniversity的數(shù)據(jù)倉庫包含如下4個維:student(student_name,area_id,major,status,university),course(course_name,department),se
24、mester(semester,year)和instructor(dept,rank);2個度量:count和avg_grade.在最低概念層,度量avg_grade存放學生的實際課程成績.在較高概念層,avg_grade存放給定組合的平均成績.(a)為該數(shù)據(jù)倉庫畫出雪花形模式圖.(b)由根本方體student,course,semester,instructor開始,為歹U出BigUniversity每個學生的CS課程的平均成績,應當使用哪些特殊的OLAP操作.(c)如果每維有5層(包括all),如“student<major<status<university<al
25、l",該立方體包含多少方體解答:a)為該數(shù)據(jù)倉庫畫出雪花形模式圖.雪花模式如下圖.b) 由根本方體student,course,semester,instructor開始,為歹U出BigUniversity每個學生的CS課程的平均成績,應當使用哪些特殊的OLAP操作.這些特殊的聯(lián)機分析處理(OLAP)操作有:1. 沿課程(course)維從course_id上卷"至1Jdepartmentoii.沿學生(student)維從student_id上卷"至1Juniversity.iii.取department="CS"和university=&q
26、uot;BigUniversity,沿課程(course)維和學生(student)維切片.iv.沿學生(student)維從university下鉆至Ustudent_name.c) 如果每維有5層(包括all),如“student<major<status<university<all",該立方體包含多少方體這個立方體將包含54=625個方體.course維表univ事實表student維表題3.4圖題3.4中數(shù)據(jù)倉庫的雪花形模式第四章4.1 2021-11-294.2 有幾種典型的立方體計算方法,4.3 題4.12考慮下面的多特征立方體查詢:按item,
27、region,month)的所有子集分組,對每組找出2004年的最小貨架壽命,并對價格低于100美元、貨架壽命在最小貨架壽命的1.251.5倍之間的元組找出總銷售額局部.d)畫出該查詢的多特征立方體圖.e)用擴充的SQL表示該查詢.f)這是一個分布式多特征立方體嗎為什么解答:(a)畫出該查詢的多特征立方體圖.R0-R1(>4.4 5*min(shelf)and£1.5*min(shelf)(b)用擴充的SQL表示該查詢.selectitem,region,month,Min(shelf),SUM(R1)fromPurchasewhereyear=2004cubebyitem,r
28、egion,month:R1suchthatR1.shelf閆.25*MIN(Shelf)and(R1.Shelf<1.5*MIN(Shelf)andR1.Price<100(c)這是一個分布式多特征立方體嗎為什么這不是一個分布多特征立方體,由于在“suchthat語句中采用了y條件.4.42021-11-294.52021-11-29第五章5.1 Apriori算法使用子集支持度性質(zhì)的先驗知識.5.2 5.2.2節(jié)介紹了由頻繁項集產(chǎn)生關聯(lián)規(guī)那么的方法.提出了一個更有效的方法.解釋它為什么比5.2.2節(jié)的方法更有效.(提示:考慮將習題5.1(b)和習題5.1(c)的性質(zhì)結合到你的設
29、計中.)5.3數(shù)據(jù)庫有5個事物.設min_sup=60%,min_conf=80.TID購置的商品T100M,O,N,K,E,YT200D,O,N,K,E,YT300M,A,K,ET400M,U,C,K,YT500C,O,O,K,I,Eg)分別使用Apriori和FP增長算法找出所有的頻繁項集.比擬兩種挖掘過程的效率.h)列舉所有與下面的的元規(guī)那么匹配的強關聯(lián)規(guī)那么(給出支持度s和置信度c),其中,X是代表顧客的變量,item是表示項的變量(如“A、“B等):xgransaction,buys(X,item1)Abuys(X,item2)®buys(X,item3)s,c解答:(a)
30、分別使用Apriori和FP增長算法找出所有的頻繁項集.比擬兩種挖掘過程的效率.Apriori算法:由于只有5次購置事件,所以絕對支持度是5xmin_sup=3YM3/IMO1/:O3-OCI:MK3女'N2=o'MELOO2gK5sIM3/F|4V產(chǎn)oOTMK3/:E400:O3°°“VIYr:OK3°°OCIOK38oOYOKE3/C1=*Y3ML1=*K5=oC2=00L2='OE3°oC3=*27:D產(chǎn)EQO4f,OEF3的:KE4比妒丫00QY2s,A1ooY3COKY300*KE4co:U1Fcoon,KY3
31、一c200CO<IVNEY2號L3=Oke31FP-growth:數(shù)據(jù)庫的第一次掃描與Apriori算法相同,得到Li.再按支持度計數(shù)的遞減序排序,得到:L=(K:5),(E:4),(M:3),(O:3),(Y:3).掃描沒個事務,按以上L的排序,從根節(jié)點開始,得到FP-樹.項條件模式基條件FP樹產(chǎn)生的頻繁模式YK,E,M,O:1,K,E,O:1,K,M:1K:3K,Y:3OK,E,M:1,K,E:2K:3,E:3K,O:3,E,O:3,K,E,O:3MK,E:2,K:1K:3K,M:3EK:4K:4K,E:4效率比擬:Apriori算法的計算過程必須對數(shù)據(jù)庫作屢次掃描,而FP-增長算法
32、在構造過程中只需掃描一次數(shù)據(jù)庫,再加上初始時為確定支持度遞減排序的一次掃描,共計只需兩次才3描.由于在Apriori算法中的自身連接過程產(chǎn)生候選項集,候選項集產(chǎn)生的計算彳價非常高,而FP-增長算法不需產(chǎn)生任何候選項.(b)列舉所有與下面的的元規(guī)那么匹配的強關聯(lián)規(guī)那么(給出支持度s和置信度c),其中,X是代表顧客的變量,item是表示項的變量(如"A、“B等):x端ransaction,buys(X,"K")Abuys(X,"O")®buys(X,"E")s=0.6,c=1transaction,buys(X,&qu
33、ot;E")Abuys(X,"E")®buys(X,"K")s=0.6,c=1或也可表示為K,O-Es(support)=0.6或60%,c(confidence)=1或100%E,O-Ks(support)=0.6或60%,c(confidence)=1或100%5.4(實現(xiàn)工程)使用你熟悉的程序設計語言(如C+或Java),實現(xiàn)本章介紹的三種頻繁項集挖掘算法:第6章分類和預測6.1簡述決策樹分類的主要步驟.6.26.11下表由雇員數(shù)據(jù)庫的練習數(shù)據(jù)組成.數(shù)據(jù)已泛化.例如,age"31,35表示年齡在3135之間.對于給定的
34、行,count表示department,status,age和salary在該行具有給定值的元組數(shù).departmentstatusagesalarycountsalessenior31,3546K,50K30salesjunior26,3026K,30K40salesjunior31,3531K,35K40systemsjunior21,2546K,50K20systemssenior31,3566K,70K5systemsjunior26,3046K,50K3systemssenior41,4566K,70K3marketingsenior36,4046K,50K10marketingju
35、nior31,3541K,45K4secretarysenior46,5036K,40K4secretaryjunior26,3026K,30K6i)如何修改根本決策樹算法,以便考慮每個廣義數(shù)據(jù)元組(即每一行)的count?j)使用修改正的算法,構造給定數(shù)據(jù)的決策樹.k)給定一個數(shù)據(jù)元組,它的屬性department,age和salary的值分別為"systems","26,30",和"46K,50K.該元組status的樸素貝葉斯分類是什么I)為給定的數(shù)據(jù)設計一個多層前饋神經(jīng)網(wǎng)絡.標記輸入和輸出層節(jié)點.m)使用上面得到的多層前饋神經(jīng)網(wǎng)絡,給定練習實例(sales,senior,31,35,46K,50K),給出后向傳播算法一次迭代后的權重值.指出解答:你使用的初始權重和偏倚以及學習率.(a)如何修改根本決策樹算法,以便考慮每個廣義數(shù)據(jù)元組(即每一行)的count?(b)使用修改正的算法,構造給定數(shù)據(jù)的決策樹.(c)給定一個數(shù)據(jù)元組,它的屬性department,age和salary的值分別為“systems,“26,30,和“46K,50K.該元組status的樸素貝葉斯分類是什么解一:設元組的各個屬性之間相互獨立,所以先求每個屬性的類條件概率:P(systems|junior)=(20+
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 石河子大學《信息檢索與利用》2023-2024學年第一學期期末試卷
- 常見精神癥狀的護理
- 石河子大學《土木工程概論》2021-2022學年第一學期期末試卷
- 石河子大學《人力資源管理實訓軟件》2021-2022學年第一學期期末試卷
- 石河子大學《當代世界社會主義》2023-2024學年第一學期期末試卷
- 沈陽理工大學《先進制造技術》2021-2022學年第一學期期末試卷
- 沈陽理工大學《汽車檢測與診斷技術》2021-2022學年第一學期期末試卷
- 沈陽理工大學《集成電路的應用電路》2023-2024學年期末試卷
- 沈陽理工大學《工程制圖》2021-2022學年第一學期期末試卷
- 光伏組件維修合同范本
- 中英文旅游合同范本
- 意識形態(tài)學習方案范文三篇
- 水汽品質(zhì)劣化的原因及其處理方法
- 2023年軍隊文職人員(數(shù)學3+化學)科目考試題庫(濃縮500多題)
- 小眼睛大手術-眼科顯微手術技能知到章節(jié)答案智慧樹2023年溫州醫(yī)科大學
- 2023石景山區(qū)高三一模數(shù)學試卷
- 國網(wǎng)基建各專業(yè)考試題庫大全-質(zhì)量專業(yè)-下(判斷題匯總)
- 社會生態(tài)系統(tǒng)下困境兒童多重困境分析共3篇
- 【信息技術 】計算機系統(tǒng)互聯(lián) 第1課時課件 教科版(2019)高中信息技術必修2
- 議論文閱讀訓練10篇(附答案及解析)
- 山西省普通高級中學辦學基本標準
評論
0/150
提交評論