版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、精選學(xué)習(xí)資料 - - - 歡迎下載數(shù)據(jù)挖掘概念概念與技術(shù)data miningconcepts and techniques習(xí)題答案第 1 章引言1.1 什么為數(shù)據(jù)挖掘?在你的回答中,針對以下問題:1.2 1.6 定義以下數(shù)據(jù)挖掘功能:特點化.區(qū)分.關(guān)聯(lián)和相關(guān)分析.猜測聚類和演化分析;使用你熟識的現(xiàn)實生活的數(shù)據(jù)庫,給出每種數(shù)據(jù)挖掘功能的例子;解答:特點化為一個目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總;例如,同學(xué)的特點可被提出,形成全部高校的運算機(jī)科學(xué)專業(yè)一年級同學(xué)的輪廓,這些特征包括作為一種高的年級平均成果gpa: gradepoint aversge的信息,仍有所修的課程的最大數(shù)量;區(qū)分為將目標(biāo)類數(shù)
2、據(jù)對象的一般特性與一個或多個對比類對象的一般特性進(jìn)行比較;例如,具有高gpa 的同學(xué)的一般特性可被用來與具有低 gpa 的一般特性比較;最終的描述可能為同學(xué)的一個一般可比較的輪廓, 就像具有高gpa 的同學(xué)的75% 為四年級運算機(jī)科學(xué)專業(yè)的同學(xué),而具有低gpa 的同學(xué)的65%不為;關(guān)聯(lián)為指發(fā)覺關(guān)聯(lián)規(guī)章,這些規(guī)章表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特 征 值的 條 件; 例 如, 一 個數(shù) 據(jù) 挖掘 系 統(tǒng)可 能 發(fā)覺 的 關(guān)聯(lián) 規(guī) 就為 :majorx、“computingscience”ownsx、“personal computer ” support=12%、 confid ence=98%其
3、中, x 為一個表示同學(xué)的變量;這個規(guī)章指出正在學(xué)習(xí)的同學(xué),12%(支持度)主修運算機(jī)科學(xué)并且擁有一臺個人運算機(jī);這個組一個同學(xué) 擁有一臺個人電腦的概率為 98% (置信度,或確定度) ;分類與猜測不同,由于前者的作用為構(gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型(或功能),而后者為建立一個模型去猜測缺失的或無效的.并且通常為數(shù)字的數(shù)據(jù)值;它們的相像性為他們都為猜測的工具 : 分類被用作猜測目標(biāo)數(shù)據(jù)的類的標(biāo)簽,而猜測典型的應(yīng)用為猜測缺失的數(shù)字型數(shù)據(jù)的值;聚類分析的數(shù)據(jù)對象不考慮已知的類標(biāo)號;對象依據(jù)最大花蕾內(nèi)部的相似性.最小化類之間的相像性的原就進(jìn)行聚類或分組;形成的每一簇可以被看作一個對象類;
4、聚類也便于分類法組織形式,將觀測組織成類分層結(jié)構(gòu),把類似 的大事組織在一起;數(shù)據(jù)延邊分析描述和模型化隨時間變化的對象的規(guī)律或趨勢,盡管這可 能包括時間相關(guān)數(shù)據(jù)的特點化.區(qū)分.關(guān)聯(lián)和相關(guān)分析.分類.或猜測,這種分析的明確特點包括時間序列數(shù)據(jù)分析.序列或周期模式匹配.和基于相像性的數(shù)據(jù)分析1.3 1.9 列舉并描述說明數(shù)據(jù)挖掘任務(wù)的五種原語;解答:用于指定數(shù)據(jù)挖掘任務(wù)的五種原語為:精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載任務(wù)相關(guān)數(shù)據(jù):這種原語指明給定挖掘所處理的數(shù)據(jù);它包括指明數(shù)據(jù)庫.數(shù)據(jù)庫表.或數(shù)據(jù)倉庫,其中包括包含關(guān)系數(shù)據(jù).挑選關(guān)系數(shù)據(jù)的條件.用于探究的關(guān)系數(shù)據(jù)的屬性或維.關(guān)于修復(fù)的數(shù)據(jù)
5、排序和分組;挖掘的數(shù)據(jù)類型:這種原語指明白所要執(zhí)行的特定數(shù)據(jù)挖掘功能,如特點化.區(qū)分.關(guān)聯(lián).分類.聚類.或演化分析;同樣,用戶的要求可能更特別,并可能供應(yīng)所發(fā)覺的模式必需匹配的模版;這些模版或超模式(也被稱為超規(guī)章)能被用來指導(dǎo)發(fā)覺過程;背景學(xué)問:這種原語答應(yīng)用戶指定已有的關(guān)于挖掘領(lǐng)域的學(xué)問;這樣的學(xué)問能被用來指導(dǎo)學(xué)問發(fā)覺過程,并且評估發(fā)覺的模式;關(guān)于數(shù)據(jù)中關(guān)系的概念分層和用戶信念為背景學(xué)問的形式;模式愛好度度量:這種原語答應(yīng)用戶指定功能,用于從學(xué)問中分割不感愛好的模式,并且被用來指導(dǎo)挖掘過程,也可評估發(fā)覺的模式;這樣就答應(yīng)用戶限制在挖掘過程返回的不感愛好的模式的數(shù)量,由于一種數(shù)據(jù)挖掘系統(tǒng)可能
6、產(chǎn)生大量的模式;愛好度測量能被指定為簡易性.確定性 .適用性.和新奇性的特點;發(fā)覺模式的可視化:這種原語述及發(fā)覺的模式應(yīng)當(dāng)被顯示出來;為了使數(shù)據(jù)挖掘能有效地將學(xué)問傳給用戶,數(shù)據(jù)挖掘系統(tǒng)應(yīng)當(dāng)能將發(fā)覺的各種形式的模式展現(xiàn)出來,正如規(guī)章.表格.餅或條形圖.決策樹.立方體或其它視覺的表示;1.4 1.13 描述以下數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成方法的差別:不耦合.松散耦合. 半緊耦合和緊密耦合;你認(rèn)為哪種方法最流行,為什么?解答:數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)的集成的層次的差別如下;不耦合:數(shù)據(jù)挖掘系統(tǒng)用像平面文件這樣的原始資料獲得被挖掘的原始 數(shù)據(jù)集,由于沒有數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)倉庫系統(tǒng)的任何功
7、能被作為處理過 程的一部分執(zhí)行;因此,這種構(gòu)架為一種糟糕的設(shè)計;松散耦合:數(shù)據(jù)挖掘系統(tǒng)不與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成,除了使用被挖 掘的初始數(shù)據(jù)集的源數(shù)據(jù)和儲備挖掘結(jié)果;這樣,這種構(gòu)架能得到數(shù)據(jù)庫和數(shù)據(jù)倉庫供應(yīng)的敏捷.高效.和特點的優(yōu)點;但為,在大量的數(shù)據(jù)集中,由松散耦合得到高可測性和良好的性能為特別困難的,由于很多這種系統(tǒng)為基于內(nèi)存的;半緊密耦合:一些數(shù)據(jù)挖掘原語,如聚合.分類. 或統(tǒng)計功能的預(yù)運算,可在數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)有效的執(zhí)行,以便數(shù)據(jù)挖掘系統(tǒng)在挖掘- 查詢 過程的應(yīng)用;另外,一些常常用到的中間挖掘結(jié)果能被估計算并儲備到數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)中,從而增強(qiáng)了數(shù)據(jù)挖掘系統(tǒng)的性能;緊密耦合:數(shù)據(jù)庫
8、或數(shù)據(jù)倉庫系統(tǒng)被完全整合成數(shù)據(jù)挖掘系統(tǒng)的一 部份,并且因此供應(yīng)了優(yōu)化的數(shù)據(jù)查詢處理;這樣的話,數(shù)據(jù)挖掘子系統(tǒng)被視為一個信息系統(tǒng)的功能組件;這為一中高度期望的結(jié)構(gòu),由于它有利于數(shù)據(jù)挖掘功能.高系統(tǒng)性能和集成信息處理環(huán)境的有效實現(xiàn);精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載從以上供應(yīng)的體系結(jié)構(gòu)的描述看,緊密耦合為最優(yōu)的,沒有值得顧慮的技術(shù)和執(zhí)行問題;但緊密耦合系統(tǒng)所需的大量技術(shù)基礎(chǔ)結(jié)構(gòu)仍舊在進(jìn)展變化,其實現(xiàn)并非易事;因此,目前最流行的體系結(jié)構(gòu)仍為半緊密耦合,由于它為松散耦合和緊密耦合的折中;1.5 1.14 描述關(guān)于數(shù)據(jù)挖掘方法和用戶交互問題的三個數(shù)據(jù)挖掘挑戰(zhàn);第 2 章數(shù)據(jù)預(yù)處理2.1 2.
9、2 假設(shè)給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間;區(qū)間和對應(yīng)的頻率如下;年齡頻率15200515450152030020501500508070080110運算數(shù)據(jù)的近似中位數(shù)值;解答:先判定中位數(shù)區(qū)間:44n=200+450+300+1500+700+44=3194; n/2=1597200+450+300=950<1597<2450=950+1500;2050 對應(yīng)中位數(shù)區(qū)間;我們有: l 1=20 ,n=3197 , freq l =950 , freq median =1500 , width =30 ,使用公式( 2.3 ):n / 2freq l3197 / 2950median
10、l1width203032.97freq median1500median=32.97 歲 ;2.2 2.4 假定用于分析的數(shù)據(jù)包含屬性age;數(shù)據(jù)元組的age 值(以遞增序) 為: 13,15, 16, 16 ,19, 20,20 , 21, 22,22 , 25,25, 25, 25,30,33, 33, 35, 35, 35, 35, 36, 40, 45 , 46 , 52, 70;(a) 該數(shù)據(jù)的均值為什么?中位數(shù)為什么?(b) 該數(shù)據(jù)的眾數(shù)為什么?爭論數(shù)據(jù)的峰(即雙峰.三峰等);(c) 數(shù)據(jù)的中列數(shù)為什么?(d) 你能(粗略地) 找出數(shù)據(jù)的第一個四分位數(shù)( q1)和第三個四分位數(shù)(
11、 q3)嗎?(e) 給出數(shù)據(jù)的五數(shù)概括;(f) 畫出數(shù)據(jù)的盒圖;(g) 分位數(shù)分位數(shù)圖與分位數(shù)圖的不同之處為什么?解答:(a) 該數(shù)據(jù)的均值為什么?中位數(shù)為什么?1n精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載均值為:xx i809 / 2729.9630 (公式2.1 );中位數(shù)應(yīng)為第14精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載n i 1個,即x14=25= q2 ;(b) 該數(shù)據(jù)的眾數(shù)為什么?爭論數(shù)據(jù)的峰(即雙峰.三峰等);這個數(shù)集的眾數(shù)有兩個: 25 和 35 ,發(fā)生在同樣最高的頻率處,因此為雙峰精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載眾數(shù);(c) 數(shù)據(jù)的中列數(shù)為什么?數(shù)據(jù)
12、的中列數(shù)為最大術(shù)和最小為的均值;即:midrange =70+13/2=41.5 ;(d) 你能(粗略地) 找出數(shù)據(jù)的第一個四分位數(shù)( q 1)和第三個四分位數(shù)( q3 )嗎? 數(shù)據(jù)集的第一個四分位數(shù)應(yīng)發(fā)生在25% 處,即在 n+1/4=7處;所以:q1 =20;而第三個四分位數(shù)應(yīng)發(fā)生在75%處,即在3×n+1/4=21處;所以: q 3=35(e) 給出數(shù)據(jù)的五數(shù)概括;一個數(shù)據(jù)集的分布的5 數(shù)概括由最小值.第一個四分位數(shù).中位數(shù).第三個四分位數(shù). 和最大值構(gòu)成;它給出了分布外形良好的匯總,并且這些數(shù)據(jù)為:13. 20.25.35 .70 ;(f) 畫出數(shù)據(jù)的盒略;(g) 分位數(shù)分位
13、數(shù)圖與分位數(shù)圖的不同之處為什么?分位數(shù)圖為一種用來展現(xiàn)數(shù)據(jù)值低于或等于在一個單變量分布中獨立的變量的粗略百分比;這樣,他可以展現(xiàn)全部數(shù)的分位數(shù)信息,而為獨立變量測得的值(縱軸)相對于它們的分位數(shù)(橫軸)被描畫出來;但分位數(shù)分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一 單變量分布的分位數(shù);兩個坐標(biāo)軸顯示它們的測量值相應(yīng)分布的值域,且點依據(jù)兩種分布分位數(shù)值展現(xiàn);一條線(y=x )可畫到圖中,以增加圖像的信息;落在 該線以上的點表示在y 軸上顯示的值的分布比x 軸的相應(yīng)的等同分位數(shù)對應(yīng)的值的分布高;反之,對落在該線以下的點就低;2.3 2.7使用習(xí)題2.4 給 出的age 數(shù)據(jù)回答以下問
14、題:a 使用分箱均值光滑對以上數(shù)據(jù)進(jìn)行光滑,箱的深度為3;說明你的步驟;評述對于給定的數(shù)據(jù),該技術(shù)的成效;b如何確定數(shù)據(jù)中的離群點?c對于數(shù)據(jù)光滑,仍有哪些其他方法?解答:a 使用分箱均值光滑對以上數(shù)據(jù)進(jìn)行光滑,箱的深度為3;說明你的步驟;評述對于給定的數(shù)據(jù),該技術(shù)的成效;用箱深度為3 的分箱均值光滑對以上數(shù)據(jù)進(jìn)行光滑需要以下步驟:步驟 1:對數(shù)據(jù)排序; (由于數(shù)據(jù)已被排序,所以此時不需要該步驟;)步驟 2:將數(shù)據(jù)劃分到大小為3 的等頻箱中;箱 1: 13, 15, 16箱 2:16 , 19, 20箱 3: 20, 21, 22箱 4: 22, 25, 25箱 5:25 , 25, 30箱
15、6: 33, 33, 35箱 7: 35, 35, 35箱 8: 36, 40, 45箱 9: 46 , 52, 70步驟 3:運算每個等頻箱的算數(shù)均值;步驟 4:用各箱運算出的算數(shù)均值替換每箱中的每個值;箱 1: 44/3, 44/3 , 44/3 箱 2: 55/3 , 55/3, 55/3箱 3: 21, 21, 21箱 4:24,24,24箱 5:80/3,80/3,80/3箱 6:101/3,101/3 ,101/3箱 7: 35, 35, 35箱 8: 121/3 , 121/3 , 121/3 箱 9: 56, 56, 56 b 如何確定數(shù)據(jù)中的離群點? 聚類的方法可用來將相像的
16、點分成組或“簇”,并檢測離群點;落到簇的集外的值可以被視為離群點;作為挑選,一種人機(jī)結(jié)合的檢測可被采納,而運算機(jī)用一種事先打算的數(shù)據(jù)分布來區(qū)分可能的離群點;這些可能的離群點能被用人工精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載輕松的檢驗,而不必檢查整個數(shù)據(jù)集;c對于數(shù)據(jù)光滑,仍有哪些其他方法?其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法,如中位數(shù)光滑和箱邊界光滑;作為挑選,等寬箱可被用來執(zhí)行任何分箱方式,其中每個箱中的數(shù)據(jù)范疇均為常量;除了分箱方法外,可以使用回來技術(shù)擬合成函數(shù)來光滑數(shù)據(jù),如通過線性或多線性回來; 分類技術(shù)也能被用來對概念分層, 這為通過將低級概念上卷 到高級概念來光滑數(shù)據(jù);
17、2.4 2.10如下規(guī)范化方法的值域為什么?(a) min-max規(guī)范化;(b) z-score 規(guī)范化;(c) 小數(shù)定標(biāo)規(guī)范化;解答:a min-max規(guī)范化;值域為new_min、new_max ; b z-score 規(guī)范化;值域為 old _min mean/ ,old_max mean/ ,總的來說,對于全部可能的數(shù)據(jù)集的值域為 , +;c小數(shù)定標(biāo)規(guī)范化;值域為 1.0、 1.0 ;2.5 2.12 使用習(xí)題2.4 給出的age 數(shù)據(jù),回答以下問題:(a) 使用 min-max 規(guī)范化將age 值 35 變換到 0.0 , 1.0區(qū)間;(b) 使用 z-score 規(guī)范化變換age
18、值 35, 其中age 的標(biāo)準(zhǔn)差為12.94 歲 ;(c) 使用小數(shù)定標(biāo)規(guī)范化變換age 值 35 ;(d) 對于給定的數(shù)據(jù),你情愿使用哪種方法?陳述你的理由;解答:(a) 使用 min-max 規(guī)范化將age 值 35 變換到 0.0 , 1.0區(qū)間; min a=13 , max a =70 , new _min a=0.0 , new _max a=1.0 ,而v=35 ,aaav'vmin anew _ maxnew _ minnew _ minmax amin a3513 1.00.00.00.38607013(b) 使用 z-score 規(guī)范化變換age 值 35,其中 a
19、ge 的標(biāo)準(zhǔn)差為12.94 歲 ;a1315216192202122242527302334353640454652702780929 .96327精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載n2i 1aaian161.2949 , a2a12.7002精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載或ns2ai 1aian精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載167.4986 ,sa2sa12.9421精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載v=35v 'va3529.9635.
20、0370.39660.400a12.700212.7002s或v 'va3529.9635.0370.38920.39sa12.942112.9421精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載(c) 使用小數(shù)定標(biāo)規(guī)范化變換age 值 35 ;由于最大的肯定值為70,所以j=2 ; v'vj10350.35210精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載(d) 對于給定的數(shù)據(jù),你情愿使用哪種方法?陳述你的理由;略;2.6 2.14 假設(shè) 12 個銷售價格記錄組已經(jīng)排序如下:5, 10,11,13, 15,35,50, 55, 72 , 92 , 204, 215 ;使用如
21、下每種方法將其劃分成三個箱;(a) 等頻(等深)劃分;(b) 等寬劃分;(c) 聚類;解答:(a) 等頻(等深)劃分;bin15、10、11、13bin115、35、50、55(b) 等寬劃分;bin172、91、204、215每個區(qū)間的寬度為:215-5/3=70bin15、10、11、13、15、35、50、55、72bin191bin1204、215(c) 聚類;我們可以使用一種簡潔的聚類技術(shù):用2 個最大的間隙將數(shù)據(jù)分成3 個箱;bin15、10、11、13、15bin135、50、55、72、91bin1204、2152.7 2.15使用習(xí)題2.4 給出的 age 數(shù)據(jù),(a) 畫出
22、一個等寬為10 的等寬直方圖;(b) 為如下每種抽樣技術(shù)勾畫例子:srswor , srswr ,聚類抽樣,分層抽樣;使用大小為5 的樣本和層“青年”,“中年”和“老年”;解答: a 畫出一個等寬為10 的等寬直方圖;精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載876543210152535455565b為如下每種抽樣技術(shù)勾畫例子:srswor , srswr ,聚類抽樣,分層抽樣;使用大小為5 的樣本和層“青年”,“中年”和“老年”;元組:t 113t 1022t 1935t 215t 1125t 2035t 316t 1225t 2135t 416t 1325t 2236t 519t 1
23、425t 2340t 620t 1530t 2445t 720t 1633t 2546t 821t 1733t 2652t 922t 1835t 2770srswor 和 srswr :不為同次的隨機(jī)抽樣結(jié)果可以不同,但前者因無放回所以不能有相同的元組;srsworn=5srswrn=5t 416t 720t 620t 720t 1022t2 035t 1125t2 135t 2652t2 546聚類抽樣:設(shè)起始聚類共有6 類,可抽其中的m 類 ;sample1sample2sample3sample4sample5sample6 t 113t620t 1125t 1633t 2135t2 6
24、52t 215t720t 1225t 1733t 2236t2 770t 316t821t 1325t 1835t 2340t 416t922t 1425t 1935t 2445t 519t 1022t 1530t 2035t 2546精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載sample2sample5t 620t 2135t 720t 2236t 821t 2340t 922t 2445t 1022t 2546分層抽樣:依據(jù)年齡分層抽樣時,不同的隨機(jī)試驗結(jié)果不同;t 113youngt 1022youngt 1935middle aget 215youngt 1125youngt 20
25、35middle aget 316youngt 1225youngt 2135middle aget 416youngt 1325youngt 2236middle aget 519youngt 1425youngt 2340middle aget 620youngt 1530middle aget 2445middle aget 720youngt 1633middle aget 2546middle aget 821youngt 1733middle aget 2652middle aget 922youngt 1835middle aget 2770seniort 416youngt 1
26、225youngt 1733middle aget 2546middle aget 2770senior2.8 55555555555555555555555555精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載第 3 章數(shù)據(jù)倉庫與olap技術(shù)概述3.1 3.4 假 定 biguniversity的數(shù)據(jù)倉庫包含如下4 個維:studentstudent_name、 area_id 、major、status、university,coursecourse_name、department, semestersemester、 year 和 instructordept、rank ; 2 個度量:c
27、ount 和 avg_grade ;在最低概念層,度量avg_grade 存放同學(xué)的實際課程成果;在較高概念層,avg_grade 存放給定組合的平均成果;(a) 為該數(shù)據(jù)倉庫畫出雪花形模式圖;(b) 由 基 本 方 體 student、course、semester、instructor開 始 , 為 列 出biguniversity每個同學(xué)的cs 課程的平均成果,應(yīng)當(dāng)使用哪些特別的olap 操作;(c) 假如每維有5 層(包括all ),如“ student<major<status<university<all”,該立方體包含多少方體?解答:a) 為該數(shù)據(jù)倉庫畫出
28、雪花形模式圖;雪花模式如下列圖;b) 由 基 本 方 體 student、 course、 semester、 instructor開 始 , 為 列 出biguniversity每個同學(xué)的cs 課程的平均成果,應(yīng)當(dāng)使用哪些特別的olap 操作;這些特別的聯(lián)機(jī)分析處理(olap )操作有:i. 沿課程( course)維從course_id “ 上卷”到department ;ii. 沿同學(xué)( student)維從student_id “ 上卷”到university ;iii. 取 department= “ cs ” 和 university= “ big university ”,沿課程
29、( course)維和同學(xué)(student)維切片;iv. 沿同學(xué)( student)維從university 下 鉆到student_name ;c) 假如每維有5 層(包括all ),如“ student<major<status<university<all”,該立方體包含多少方體?這個立方體將包含54 =625 個方體;精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載course維表univ事實表student維表精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載course_id course_name departme
30、ntsemester維表semester_id semester yearinstructor維表instructor_iddept rankstudent_idstudent_idcourse_idstudent namesemester_idarea_idinstructor_idmajorcountstatusavg_gradeuniversityarea維表area_id city province country題 3.4 圖 題 3.4 中數(shù)據(jù)倉庫的雪花形模式精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載第四章4.1 2021-11-294.2 有幾種典型的立方體運算方法,4.3
31、題 4.12 考慮下面的多特點立方體查詢:按 item , regio n, month 的全部 子集分組,對每組找出2004 年的最小貨架壽命,并對價格低于100 美元.貨架 壽命在最小貨架壽命的 1.251.5 倍之間的元組找出總銷售額部分;d) 畫出該查詢的多特點立方體圖;e) 用擴(kuò)充的sql 表示該查詢;f) 這為一個分布式多特點立方體嗎?為什么?解答:a 畫出該查詢的多特點立方體圖;r 0 r1 1.25*minshelfand 1.5*minshelf b 用擴(kuò)充的 sql 表示該查詢;selectitem、 region、 month、 minshelf、sumr1frompur
32、chase whereyear=2004cube byitem、 region、 month:r1such thatr1.shelf 1.25*minshelf andr1.shelf 1.5*minshelf and r1.price<100精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載c 這為一個分布式多特點立方體嗎?為什么?這不為一個分布多特點立方體,由于在“such that ”語句中采納了“”條件;4.4 2021-11-29精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載第五章4.5 2021-11-29精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載5.1 aprio ri 算
33、法使用子集支持度性質(zhì)的先驗學(xué)問;5.2 5.2.2 節(jié)介紹了由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)章的方法;提出了一個更有效的方法;5.3 數(shù)據(jù)庫有5 個事物;設(shè)min_sup=60% ,解min_conf=80 ; tid購買的商品釋t100m、 o、 n、 k、 e、它y為t200d、 o、 n、 k、 e、什y t300m、 a、 k、 e么t400m、 u、 c、 k、 y比t500c、 o、 o、 k、 i、 eg) 分別使用aprio r i 和 fp 增長算法找出全部的頻繁項集;比較兩種挖5 掘過程的效率;.h列舉全部與下面的的元規(guī)章匹配的強(qiáng)關(guān)聯(lián)規(guī)章(給出支持度s 和2置信度 c),其中, x 為
34、代表顧客的變量,item 為表示項的變量(如 “a ”.“ b ” 等):.xtransaction、 buysx、 item 1 buysx、 item 2buysx、 item 3 s、 c2解答:(a) 分別使用aprio ri 和 fp 增長算法找出全部的頻繁項集;比較兩種挖掘節(jié)過 程的效率;的aprio ri 算法:由于只有5 次購買大事,所以肯定支持度為5×min_sup=3 ;方法更(提示:考慮將習(xí)題5.1b 和習(xí)題 5.1c 的性質(zhì)結(jié)合到你的設(shè)計中;)精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載m3o3n2k5m3e4o3c1y3l1k5c2d1e4a1y3mo1m
35、k3mk3ok3l2oe3c3ke4ky3me2my2ok3oke3精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載oe3oy2key2精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載ke4u1ky3c2ey2i1l3oke3fp-growth :數(shù)據(jù)庫的第一次掃描與aprio ri 算法相同,得到l 1;再按支持度計數(shù)的遞減序排序,得到:l=k:5、e:4、 m:3、 o:3、 y:3;掃描沒個事務(wù),按以上l 的排序,從根節(jié)點開頭,得到fp- 樹;rootk:5e:4m:1m:2o:2y:1精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載o:1y:1精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載y
36、:1題 5.3 圖 fp 增長算法項條件模式基條 件 fp 樹產(chǎn)生的頻繁模式精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載yk、e、m、o:1, k、e、o:1 , k、m:1 ok、e、m:1, k、e:2k、e:2, k:1mk:4ek:3 k:3 , e:3k:3k:4k、y:3k、o:3, e、o:3, k、e、o:3k、m:3k、e:4精品學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載效率比較:aprio ri算法的運算過程必需對數(shù)據(jù)庫作多次掃描,而fp- 增長算法在構(gòu)造過程中只需掃描一次數(shù)據(jù)庫,再加上初始時為確定支持度遞減排序的一次掃描,共計只需兩次掃描;由于在aprio ri 算法中
37、的自身連接過程產(chǎn)生候選項集,候選項集產(chǎn)生的運算代價特別高,而fp-增長算法不需產(chǎn)生任 何候選項;(b) 列舉全部與下面的的元規(guī)章匹配的強(qiáng)關(guān)聯(lián)規(guī)章(給出支持度s 和置信度 c),其中, x為代表顧客的變量,item 為表示項的變量(如“a ”.“ b ”等):xtransaction、 buysx、 “ k ” buysx、 “o”buysx、“ e” s=0.6、 c=1 xtransaction、 buysx、 “ e ” buysx、“ e”buysx、“ k ” s=0.6、 c=1 或也可表示為k、o essupport=0.6或 60%、cconfid ence=1 或 100%精品
38、學(xué)習(xí)資料精選學(xué)習(xí)資料 - - - 歡迎下載e、o kssupport=0.6或 60%、cconfid ence=1 或 100%5.4 (實現(xiàn)項目)使用你熟識的程序設(shè)計語言(如c+ 或 java ),實現(xiàn)本章介紹的三種頻繁項集挖掘算法:第 6 章分類和猜測6.1 簡述決策樹分類的主要步驟;6.2 6.11 下表由雇員數(shù)據(jù)庫的訓(xùn)練數(shù)據(jù)組成;數(shù)據(jù)已泛化;例如,age “ 31 35”表示年齡在3135 之間;對于給定的行,count 表 示 department,status,ag e和 salary 在該行具有給定值的元組數(shù);departmentsalesstatusseniorage3135
39、salary46k50kcount30salesjunior263026k30k40salesjunior313531k35k40systemsjunior212546k50k20systemssenior313566k70k5systemsjunior263046k50k3systemssenior414566k70k3marketingsenior364046k50k10marketingjunior313541k45k4secretarysenior465036k40k4secretaryjunior263026k30k6i) 如何修改基本決策樹算法,以便考慮每個廣義數(shù)據(jù)元組(即每一行)
40、的 count ?j) 使用修改過的算法,構(gòu)造給定數(shù)據(jù)的決策樹;k) 給定一個數(shù)據(jù)元組,它的屬性department , age 和 salary 的值分別為 “ systems”,“ 26 30”,和“ 46k 50k ”;該元組 status 的樸實貝葉斯分類為什么?l) 為給定的數(shù)據(jù)設(shè)計一個多層前饋神經(jīng)網(wǎng)絡(luò);標(biāo)記輸入和輸出層節(jié)點;m) 使用上面得到的多層前饋神經(jīng)網(wǎng)絡(luò),給定訓(xùn)練實例(sales, senior ,3135, 46k50k),給出后向傳播算法一次迭代后的權(quán)重值;指出 解答:你使用的初始權(quán)重和偏倚以及學(xué)習(xí)率;(a) 如何修改基本決策樹算法,以便考慮每個廣義數(shù)據(jù)元組(即每一行)的count ?(b) 使用修改過的算法,構(gòu)造給定數(shù)據(jù)的決策樹;(c) 給 定一 個數(shù) 據(jù)元 組, 它的 屬性department , age 和 salary 的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025公司之間無息借款合同模板
- 2025品牌策劃合同
- 2025商鋪買賣定金合同的范本
- 2025工廠物業(yè)管理的合同
- 科技創(chuàng)業(yè)挑戰(zhàn)與機(jī)遇并存
- 職場新人的季節(jié)性胃腸保健指南
- 科學(xué)與工程教育的融合與創(chuàng)新人才培養(yǎng)
- 種植技術(shù)的新時代農(nóng)業(yè)科技園區(qū)的建設(shè)路徑
- 跨文化背景下的學(xué)生德育評價策略
- 二零二五年度床上三件套抗菌技術(shù)研發(fā)合同2篇
- 船員外包服務(wù)投標(biāo)方案
- 沉積相及微相劃分教學(xué)課件
- 鉗工考試題及參考答案
- 移動商務(wù)內(nèi)容運營(吳洪貴)任務(wù)五 引發(fā)用戶共鳴外部條件的把控
- 工程造價專業(yè)職業(yè)能力分析
- 醫(yī)藥高等數(shù)學(xué)知到章節(jié)答案智慧樹2023年浙江中醫(yī)藥大學(xué)
- 沖渣池施工方案
- 人教版初中英語八年級下冊 單詞默寫表 漢譯英
- 學(xué)校網(wǎng)絡(luò)信息安全管理辦法
- 中國古代文學(xué)史 馬工程課件(下)21第九編晚清文學(xué) 緒論
- 2023年鐵嶺衛(wèi)生職業(yè)學(xué)院高職單招(語文)試題庫含答案解析
評論
0/150
提交評論