數(shù)據(jù)挖掘課后題答案_第1頁
數(shù)據(jù)挖掘課后題答案_第2頁
數(shù)據(jù)挖掘課后題答案_第3頁
數(shù)據(jù)挖掘課后題答案_第4頁
數(shù)據(jù)挖掘課后題答案_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘課后題答案數(shù)據(jù)挖掘課后題答案數(shù)據(jù)挖掘課后題答案數(shù)據(jù)挖掘課后題答案編制僅供參考審核批準生效日期地址:電話:傳真:郵編:數(shù)據(jù)挖掘——概念概念與技術(shù)JweiHn MceeKer 著范明 孟曉峰譯第1章引言什么是數(shù)據(jù)挖掘在你的回答中,針對以下問題:定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、預(yù)測聚類和演變分析使用你熟悉的現(xiàn)實生活的數(shù)據(jù)庫給出每種數(shù)據(jù)挖掘功能的例子。解答:?特征化是一個目標類數(shù)據(jù)的一般特性或特性的匯總例如學生的特征可被提出形成所有大學的計算機科學專業(yè)一年級學生的輪廓這些特征包括作為一種高的年級平均成績P:depontvg)的信息,還有所修的課程的最大數(shù)量。?區(qū)分是將目標類數(shù)據(jù)對象的一般特性與一個或多個對比類對象的一般特性進行比較。例如,具有高A的學生的一般特性可被用來與具有低A的一般特性比較。最終的描述可能是學生的一個一般可比較的輪廓就像具有高A的學生的75%是四年級計算機科學專業(yè)的學生,而具有低A的學生的65不是。?關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)則這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如,一個數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:orX, “opung ne)?on(, “ponl opuer”)uppot=12, odn=98%]其中,X是一個表示學生的變量。這個規(guī)則指出正在學習的學生,12%(支持度主修計算機科學并且擁有一臺個人計算機這個組一個學生擁有一臺個人電腦的概率是98(置信度,或確定度。?分類與預(yù)測不同因為前者的作用是構(gòu)造一系列能描述和區(qū)分數(shù)據(jù)類型或概念的模型(或功能,而后者是建立一個模型去預(yù)測缺失的或無效的、并且通常是數(shù)字的數(shù)據(jù)值。它們的相似性是他們都是預(yù)測的工具:分類被用作預(yù)測目標數(shù)據(jù)的類的標簽而預(yù)測典型的應(yīng)用是預(yù)測缺失的數(shù)字型數(shù)據(jù)的值。?聚類分析的數(shù)據(jù)對象不考慮已知的類標號對象根據(jù)最大花蕾內(nèi)部的相似性最小化類之間的相似性的原則進行聚類或分組形成的每一簇可以被看作一個對象類聚類也便于分類法組織形式將觀測組織成類分層結(jié)構(gòu),把類似的事件組織在一起。?數(shù)據(jù)延邊分析描述和模型化隨時間變化的對象的規(guī)律或趨勢盡管這可能包括時間相關(guān)數(shù)據(jù)的特征化區(qū)分關(guān)聯(lián)和相關(guān)分析分類或預(yù)測,這種分析的明確特征包括時間序列數(shù)據(jù)分析、序列或周期模式匹配和基于相似性的數(shù)據(jù)分析列舉并描述說明數(shù)據(jù)挖掘任務(wù)的五種原語。解答:用于指定數(shù)據(jù)挖掘任務(wù)的五種原語是:?任務(wù)相關(guān)數(shù)據(jù)這種原語指明給定挖掘所處理的數(shù)據(jù)它包括指明數(shù)據(jù)庫數(shù)據(jù)庫表、或數(shù)據(jù)倉庫其中包括包含關(guān)系數(shù)據(jù)、選擇關(guān)系數(shù)據(jù)的條件、用于探索的關(guān)系數(shù)據(jù)的屬性或維、關(guān)于修復的數(shù)據(jù)排序和分組。?挖掘的數(shù)據(jù)類型這種原語指明了所要執(zhí)行的特定數(shù)據(jù)挖掘功能如特征化、區(qū)分關(guān)聯(lián)、分類、聚類或演化分析。同樣,用戶的要求可能更特殊并可能提供所發(fā)現(xiàn)的模式必須匹配的模版這些模版或超模式(也被稱為超規(guī)則)能被用來指導發(fā)現(xiàn)過程。?背景知識這種原語允許用戶指定已有的關(guān)于挖掘領(lǐng)域的知識這樣的知識能被用來指導知識發(fā)現(xiàn)過程并且評估發(fā)現(xiàn)的模式關(guān)于數(shù)據(jù)中關(guān)系的概念分層和用戶信念是背景知識的形式。?模式興趣度度量這種原語允許用戶指定功能用于從知識中分割不感興趣的模式并且被用來指導挖掘過程,也可評估發(fā)現(xiàn)的模式這樣就允許用戶限制在挖掘過程返回的不感興趣的模式的數(shù)量因為一種數(shù)據(jù)挖掘系統(tǒng)可能產(chǎn)生大量的模式興趣度測量能被指定為簡易性確定性、適用性、和新穎性的特征。?發(fā)現(xiàn)模式的可視化這種原語述及發(fā)現(xiàn)的模式應(yīng)該被顯示出來為了使數(shù)據(jù)挖掘能有效地將知識傳給用戶數(shù)據(jù)挖掘系統(tǒng)應(yīng)該能將發(fā)現(xiàn)的各種形式的模式展示出來,正如規(guī)則表格、餅或條形圖決策樹、立方體或其它視覺的表示。描述以下數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成方法的差別不耦合松散耦合半緊耦合和緊密耦合你認為哪種方法最流行為什么解答:數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)的集成的層次的差別如下。?不耦合數(shù)據(jù)挖掘系統(tǒng)用像平面文件這樣的原始資料獲得被挖掘的原始數(shù)據(jù)集因為沒有數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)倉庫系統(tǒng)的任何功能被作為處理過程的一部分執(zhí)行。因此,這種構(gòu)架是一種糟糕的設(shè)計。?松散耦合數(shù)據(jù)挖掘系統(tǒng)不與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成除了使用被挖掘的初始數(shù)據(jù)集的源數(shù)據(jù)和存儲挖掘結(jié)果這樣這種構(gòu)架能得到數(shù)據(jù)庫和數(shù)據(jù)倉庫提供的靈活高效、和特征的優(yōu)點但是,在大量的數(shù)據(jù)集中由松散耦合得到高可測性和良好的性能是非常困難的因為許多這種系統(tǒng)是基于內(nèi)存的。?半緊密耦合一些數(shù)據(jù)挖掘原語如聚合分類或統(tǒng)計功能的預(yù)計算,可在數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)有效的執(zhí)行以便數(shù)據(jù)挖掘系統(tǒng)在挖掘-查詢過程的應(yīng)用另外一些經(jīng)常用到的中間挖掘結(jié)果能被預(yù)計算并存儲到數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)中,從而增強了數(shù)據(jù)挖掘系統(tǒng)的性能。?緊密耦合:數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)被完全整合成數(shù)據(jù)挖掘系統(tǒng)的一部份并且因此提供了優(yōu)化的數(shù)據(jù)查詢處理。這樣的話數(shù)據(jù)挖掘子系統(tǒng)被視為一個信息系統(tǒng)的功能組件這是一中高度期望的結(jié)構(gòu)因為它有利于數(shù)據(jù)挖掘功能、高系統(tǒng)性能和集成信息處理環(huán)境的有效實現(xiàn)。從以上提供的體系結(jié)構(gòu)的描述看緊密耦合是最優(yōu)的沒有值得顧慮的技術(shù)和執(zhí)行問題但緊密耦合系統(tǒng)所需的大量技術(shù)基礎(chǔ)結(jié)構(gòu)仍然在發(fā)展變化其實現(xiàn)并非易事因此目前最流行的體系結(jié)構(gòu)仍是半緊密耦合因為它是松散耦合和緊密耦合的折中。描述關(guān)于數(shù)據(jù)挖掘方法和用戶交互問題的三個數(shù)據(jù)挖掘挑戰(zhàn)。第2章數(shù)據(jù)預(yù)處理假設(shè)給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間。區(qū)間和對應(yīng)的頻率如下。年齡頻率1~52005~1545015~2030020~50150050~8070080~11044計算數(shù)據(jù)的近似中位數(shù)值。解答:先判定中位數(shù)區(qū)間:N=200+450+300+1500+700+44=3194;N2=1597∵200+450+300=950<1597<2450=950+1500;∴20~50對應(yīng)中位數(shù)區(qū)間。我們有:L=20,N=3197,(fq)=950,fq=1500,wdth=30,使用公式(:??N/2?∑?

fq??

?3197/2?950?mdan?

?wdth20?

?30? fq?

? 1500 ?∴ mdan=歲。假定用于分析的數(shù)據(jù)包含屬性e。數(shù)據(jù)元組的ge值(以遞增序)是:1315,16,1619,2020,21,2222,2525,25,2530,33,33,35,35,35,35,36,40,45,46,52,70。)該數(shù)據(jù)的均值是什么中位數(shù)是什么b)該數(shù)據(jù)的眾數(shù)是什么討論數(shù)據(jù)的峰(即雙峰、三峰等。)數(shù)據(jù)的中列數(shù)是什么d)你(粗略地找出數(shù)據(jù)的第一個四分位(Q和第三個四分位(Q)嗎)給出數(shù)據(jù)的五數(shù)概括。)畫出數(shù)據(jù)的盒圖。g)分位數(shù)—分位數(shù)圖與分位數(shù)圖的不同之處是什么解答:)該數(shù)據(jù)的均值是什么中位數(shù)是什么N∑N∑均值是:x x個,即=25=Q。

809/27?30(公式。中位數(shù)應(yīng)是第14b)該數(shù)據(jù)的眾數(shù)是什么討論數(shù)據(jù)的峰(即雙峰、三峰等。這個數(shù)集的眾數(shù)有兩個:25和35,發(fā)生在同樣最高的頻率處,因此是雙峰眾數(shù)。)數(shù)據(jù)的中列數(shù)是什么數(shù)據(jù)的中列數(shù)是最大術(shù)和最小是的均值。即:mdang=70+13/2=。d)你(粗略地找出數(shù)據(jù)的第一個四分位(Q和第三個四分位(Q)嗎數(shù)據(jù)集的第一個四分位數(shù)應(yīng)發(fā)生在25%處即在N+14=7處所以Q=20。而第三個四分位數(shù)應(yīng)發(fā)生在75處,即在3×N+14=21處。所以:Q=35)給出數(shù)據(jù)的五數(shù)概括。一個數(shù)據(jù)集的分布的5數(shù)概括由最小值第一個四分位數(shù)中位數(shù)第三個四分位數(shù)和最大值構(gòu)成它給出了分布形狀良好的匯總并且這些數(shù)據(jù)是13、20、25、35、70。)畫出數(shù)據(jù)的盒圖。略。g)分位數(shù)—分位數(shù)圖與分位數(shù)圖的不同之處是什么分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在一個單變量分布中獨立的變量的粗略百分比這樣他可以展示所有數(shù)的分位數(shù)信息而為獨立變量測得的值(縱軸)相對于它們的分位數(shù)(橫軸)被描繪出來。但分位數(shù)—分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù)用橫軸表示另一單變量分布的分位數(shù)兩個坐標軸顯示它們的測量值相應(yīng)分布的值域且點按照兩種分布分位數(shù)值展示。一條線(y=x)可畫到圖中,以增加圖像的信息。落在該線以上的點表示在y軸上顯示的值的分布比x軸的相應(yīng)的等同分位數(shù)對應(yīng)的值的分布高。反之,對落在該線以下的點則低。使用習題給出的ge數(shù)據(jù)回答下列問題:)使用分箱均值光滑對以上數(shù)據(jù)進行光滑箱的深度為3解釋你的步驟。評述對于給定的數(shù)據(jù),該技術(shù)的效果。b)如何確定數(shù)據(jù)中的離群點)對于數(shù)據(jù)光滑,還有哪些其他方法解答:)使用分箱均值光滑對以上數(shù)據(jù)進行光滑箱的深度為3解釋你的步驟。評述對于給定的數(shù)據(jù),該技術(shù)的效果。用箱深度為3的分箱均值光滑對以上數(shù)據(jù)進行光滑需要以下步驟:? 步驟1:對數(shù)據(jù)排序(因為數(shù)據(jù)已被排序,所以此時不需要該步驟)? 步驟2:將數(shù)據(jù)劃分到大小為3的等頻箱中。箱1:13,15,16箱2:16,19,20箱3:20,21,22箱4:22,25,25箱5:25,25,30箱6:33,33,35箱7:35,35,35箱8:36,40,45箱9:46,52,70? 步驟3:計算每個等頻箱的算數(shù)均值。? 步驟4:用各箱計算出的算數(shù)均值替換每箱中的每個值。箱1:443,443,443箱2:553,553,553 箱3:21,21,21箱4242424 箱5803803803 箱6101310131013箱7:35,35,35 箱8:1213,1213,1213箱9:56,56,56b)如何確定數(shù)據(jù)中的離群點聚類的方法可用來將相似的點分成組或“簇,并檢測離群點。落到簇的集外的值可以被視為離群點作為選擇一種人機結(jié)合的檢測可被采用而計算機用一種事先決定的數(shù)據(jù)分布來區(qū)分可能的離群點這些可能的離群點能被用人工輕松的檢驗,而不必檢查整個數(shù)據(jù)集。)對于數(shù)據(jù)光滑,還有哪些其他方法其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法如中位數(shù)光滑和箱邊界光滑作為選擇等寬箱可被用來執(zhí)行任何分箱方式其中每個箱中的數(shù)據(jù)范圍均是常量除了分箱方法外可以使用回歸技術(shù)擬合成函數(shù)來光滑數(shù)據(jù)如通過線性或多線性回歸分類技術(shù)也能被用來對概念分層這是通過將低級概念上卷到高級概念來光滑數(shù)據(jù)。如下規(guī)范化方法的值域是什么)n-x規(guī)范化。b)-oe規(guī)范化。)小數(shù)定標規(guī)范化。解答:)n-x規(guī)范化。值域是n_n,w_ax。b)-oe規(guī)范化。值域是od_n-n/od_ax-n/σ]總的來說對于所有可能的數(shù)據(jù)集的值域是(-∞,+)。)小數(shù)定標規(guī)范化。值域是(-,。使用習題給出的ge數(shù)據(jù),回答以下問題:()使用mn-mx規(guī)范化將ge值35變換到[,區(qū)間。(b)使用-sore規(guī)范化變換ge值35,其中g(shù)e的標準差為歲。()使用小數(shù)定標規(guī)范化變換ge值35。(d)對于給定的數(shù)據(jù),你愿意使用哪種方法陳述你的理由。解答:()使用mn-mx規(guī)范化將ge值35變換到[,區(qū)間?!適n=13,mx=70,nw_n=,nw_m=,而v=35,v'

v?mnnw_ax

?nw_mn

nw_mnax

?mn35?13?70?13(b)使用-sore規(guī)范化變換ge值35,其中g(shù)e的標準差為歲。A1315216192202122242527302334353640454652702780929.96327σ

∑?AN

,σ

σ或s

∑?AN

167.4986,s

sv=35v'v?A35?

≈σ

或v'v?A35?

()使用小數(shù)定標規(guī)范化變換ge值35。由于最大的絕對值為70,所以=2。v'

v103510(d)對于給定的數(shù)據(jù),你愿意使用哪種方法陳述你的理由。略。假設(shè)12個銷售價格記錄組已經(jīng)排序如下51011131535,50,55,72,92,204,215。使用如下每種方法將其劃分成三個箱。)等頻(等深)劃分。b)等寬劃分。)聚類。解答:)等頻(等深)劃分。bn15,10,1,13bn115,35,50,55b)等寬劃分。

bn172,91,204,215每個區(qū)間的寬度是:215-53=70bn15,10,1,13,15,35,50,55,72bn191bn1204,215)聚類。我們可以使用一種簡單的聚類技術(shù):用2個最大的間隙將數(shù)據(jù)分成3個箱。bn15,10,1,13,15bn135,50,55,72,91bn1204,215使用習題給出的ge數(shù)據(jù),)畫出一個等寬為10的等寬直方圖;b)為如下每種抽樣技術(shù)勾畫例子:SSOR,SSR,聚類抽樣,分層抽樣。使用大小為5的樣本和層“青年“中年”和“老年。解答:)畫出一個等寬為10的等寬直方圖;b)為如下每種抽樣技術(shù)勾畫例子:SSOR,SSR,聚類抽樣,分層抽樣。使用大小為5的樣本和層“青年“中年”和“老年。元組:T13T22T35T15T25T35T16T25T35T16T25T36T19T25T40T20T30T45T20T33T46T21T33T52T22T35T70SSOR和SSR不是同次的隨機抽樣結(jié)果可以不同但前者因無放回所以不能有相同的元組。SSORn=5)SSR=5)T16T20T20T20T22T35T25T35T52T46聚類抽樣:設(shè)起始聚類共有6類,可抽其中的m類。Sp1Sp2Spe3Sp4Sp5Sp6T13T20T25T33T35T52T15T20T25T33T36T70T16T21T25T35T40T16T22T25T35T45T19T22T30T35T46Sp2 Sp5T20T35T20T36T21T40T22T45T22T46分層抽樣:按照年齡分層抽樣時,不同的隨機試驗結(jié)果不同。T13youngT22youngT35ddegeT15youngT25youngT35ddegeT16youngT25youngT35ddegeT16youngT25youngT36ddegeT19youngT25youngT40ddegeT20youngT30ddeeT45ddegeT20youngT33ddeeT46ddegeT21youngT33ddeeT52ddegeT22youngT35ddeeT70norT16youngT25youngT33ddeeT46ddeeT70Sor55假定gUnvrty的數(shù)據(jù)倉庫包含如下4個維udnttudn_ne,_d,o,tu,unvsy),ou(ou_ne,dpen),s(e,y)和ntuordpt,nk);2個度量:ont和vg_gde。在最低概念層,度量vg_gde存放學生的實際課程成績。在較高概念層,vg_gde存放給定組合的平均成績。)為該數(shù)據(jù)倉庫畫出雪花形模式圖。b)由基本方體tudn,or,t,nruor]開始,為列出gUnvety每個學生的CS課程的平均成績,應(yīng)當使用哪些特殊的OP操作。)如果每維有5層(包括al,如“udn<aor<tu<unvety<l,該立方體包含多少方體解答:)為該數(shù)據(jù)倉庫畫出雪花形模式圖。雪花模式如圖所示。b)由基本方體udnt,ou,s,ntuor]開始,為列出gUnvety每個學生的CS課程的平均成績應(yīng)當使用哪些特殊的OP操作。這些特殊的聯(lián)機分析處理(OP)操作有:. 沿課程(oue)維從or_d“上卷”到dpent。. 沿學生(udnt)維從udnt_d“上卷”到nvety。. 取dpen=“CS”和nvety=“gnvety,沿課程(oue)維和學生(udnt)維切片。v. 沿學生(udnt)維從unvsy下鉆到udnt_ne。)如果每維有5(包括al“udn<aor<au<unvety<l,該立方體包含多少方體這個立方體將包含5=625個方體。couse維表

unvststudnt_dstudnt_dour_idstudntnmemstr_dr_idnstrucor_dmorcountsttusvg_grdeunversty

studnt維表ours_dcous_nmedprtmntsmstr維表mstr_dsmstryrnstrutor維表Instucto_ddptrnk

ra維表r_idctyprovnceountry題圖題中數(shù)據(jù)倉庫的雪花形模式222222233333332008-1-29有幾種典型的立方體計算方法,題考慮下面的多特征立方體查詢:按tm,on,onh}的所有子集分組,對每組找出2004年的最小貨架壽命,并對價格低于100美元、貨架壽命在最小貨架壽命的~倍之間的元組找出總銷售額部分。d)畫出該查詢的多特征立方體圖。)用擴充的SQL表示該查詢。) 這是一個分布式多特征立方體嗎為什么解答:)畫出該查詢的多特征立方體圖。R0→R1(≥*min(shelf)and≤*min(shelf))b)用擴充的SQL表示該查詢。t ,gon,onh,nh),S(1)om Prhehe y=2004ubeby ,gon,onh:1uhht ≥*NSh)d≤*NSh)nd<100)這是一個分布式多特征立方體嗎為什么這不是一個分布多特征立方體,因為在“chht”語句中采用“≤”條件。2008-1-292008-1-29poi算法使用子集支持度性質(zhì)的先驗知識。節(jié)介紹了由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則的方法提出了一個更有效的方法解釋它為什么比節(jié)的方法更有效(提示考慮將習題b)和習題)的性質(zhì)結(jié)合到你的設(shè)計中)■數(shù)據(jù)庫有5個事物。設(shè)n_sup=60,n_on=80。ID 購買的商品100 ,O,N,K,E,}200 D,O,N,K,E,}300 ,,K,}400 ,,C,K,}500 C,O,O,K,,}g)分別使用poi和FP增長算法找出所有的頻繁項集。比較兩種挖掘過程的效率。h)列舉所有與下面的的元規(guī)則匹配的強關(guān)聯(lián)規(guī)則(給出支持度s和置信度其中X是代表顧客的變量m是表示項的變A、“B”等:x∈naon,bysX,m)∧buyX,m)?bys,m),]解答:)分別使用poi和FP增長算法找出所有的頻繁項集。比較兩種挖掘過程的效率。poi算法:由于只有5次購買事件,所以絕對支持度是5×n_sup=3。?M 3?O3? ?O3? ??N 2?5? ?5?K ??E 4?? ??Y 3??D 1?? ?

M 3?O3? ?O3? ??K 5?E4? ?E4? ?

?O1??3??K ??3??E 2?2? ?2?MY ??K 3?C? ??E 3??OY 2?

?K 3??3??K ??3?L?E 3??4??KE ??4?

KE 3??2?C?KEY ??2??A 1? Y 3?U 1?? ??C 2?1? ?1?I ?LKE3

??KE?KY??EY

?4?3??2

KY 3FP-owh:數(shù)據(jù)庫的第一次掃描與poi算法相同得到L。再按支持度計數(shù)的遞減序排序,得到:={K5,E4,3),O3,3)}。掃描沒個事務(wù),按以上L的排序,從根節(jié)點開始,得到FP樹。Root:5:4

:11

:2

2 111題圖FP增長算法項條件模式基條件FP樹產(chǎn)生的頻繁模式Y(jié)OME{{,,,1},{,,:1},{,:1}}{,,1},{,:2}}{{,:2},{:1}}{{:4}}:33,:3:3:4{,3}{,:3},{,3},{,,:3}{,:3}{,:4}效率比較:poi算法的計算過程必須對數(shù)據(jù)庫作多次掃描,而FP增長算法在構(gòu)造過程中只需掃描一次數(shù)據(jù)庫再加上初始時為確定支持度遞減排序的一次掃描,共計只需兩次掃描。由于在poi算法中的自身連接過程產(chǎn)生候選項集,候選項集產(chǎn)生的計算代價非常高,而FP增長算法不需產(chǎn)生任何候選項。b)列舉所有與下面的的元規(guī)則匹配的強關(guān)聯(lián)規(guī)則(給出支持度s和置信度,其中,X是代表顧客的變量,m是表示項的變量(如““B”等:x∈naon,bysX,“)∧by(,O)?bys,“E)=,=1]x∈naon,bysX,“E)∧buyX,“E)buyX,“)=,=1]或也可表示為K,→[uppor=或60,ondn)=1或100],O→Kuppot=或60,ondn)=1或100]■(實現(xiàn)項目使用你熟悉的程序設(shè)計語(如C++或va實現(xiàn)本章介紹的三種頻繁項集挖掘算法:2008-12012009-0109第6章分類和預(yù)測簡述決策樹分類的主要步驟。下表由雇員數(shù)據(jù)庫的訓練數(shù)據(jù)組成。數(shù)據(jù)已泛化例如e“31…35表示年齡在31~35之間對于給定的行ount表示dpenttuge和ry在該行具有給定值的元組數(shù)。eatetsasagesaayontsnor31…3546K…50K30sunor26…3026K…30K40sunor31…3531K…35K40yesunor21…2546…50K20yesor31…3566…70K5yesunor26…3046…50K3yesor41…4566…70K3ktngnor36…4046…50K10ktngunor31…3541K…45K4tynor46…5036…40K4tyunor26…3026…30K6) 如何修改基本決策樹算法以便考慮每個廣義數(shù)據(jù)元(即每一行)的ount) 使用修改過的算法,構(gòu)造給定數(shù)據(jù)的決策樹。k)給定一個數(shù)據(jù)元組,它的屬性dpent,ge和y的值分別為“yes“26…30,和“46K…50。該元組tus的樸素貝葉斯分類是什么) 為給定的數(shù)據(jù)設(shè)計一個多層前饋神經(jīng)網(wǎng)絡(luò)標記輸入和輸出層節(jié)點。)使用上面得到的多層前饋神經(jīng)網(wǎng)絡(luò),給定訓練實例(s,nor,31…3546K…50K給出后向傳播算法一次迭代后的權(quán)重值指出解答:

你使用的初始權(quán)重和偏倚以及學習率。)如何修改基本決策樹算法,以便考慮每

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論