數(shù)據(jù)挖掘作業(yè)_第1頁
數(shù)據(jù)挖掘作業(yè)_第2頁
數(shù)據(jù)挖掘作業(yè)_第3頁
數(shù)據(jù)挖掘作業(yè)_第4頁
數(shù)據(jù)挖掘作業(yè)_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘作業(yè)第一章引言一、填空題數(shù)據(jù)庫中的知識挖掘(KDD)包括以下七個步驟:、和數(shù)據(jù)挖掘的性能問題主要包括:、和當前的數(shù)據(jù)挖掘研究中,最主要的三個研究方向是:、和在萬維網(wǎng)(WWW)上應(yīng)用的數(shù)據(jù)挖掘技術(shù)常被稱為:孤立點是扌旨:二、單選題數(shù)據(jù)挖掘應(yīng)用和一些常見的數(shù)據(jù)統(tǒng)計分析系統(tǒng)的最主要區(qū)別在于:A、所涉及的算法的復雜性;B、所涉及的數(shù)據(jù)量;C、計算結(jié)果的表現(xiàn)形式;D、是否使用了人工智能技術(shù)孤立點挖掘適用于下列哪種場合?A、目標市場分析B、購物籃分析C、模式識別D、信用卡欺詐檢測下列幾種數(shù)據(jù)挖掘功能中,()被廣泛的應(yīng)用于股票價格走勢分析關(guān)聯(lián)分析B.分類和預(yù)測C.聚類分析D.演變分析下面的數(shù)據(jù)挖掘的

2、任務(wù)中,()將決定所使用的數(shù)據(jù)挖掘功能A、選擇任務(wù)相關(guān)的數(shù)據(jù)B、選擇要挖掘的知識類型C、模式的興趣度度量D、模式的可視化表示下列幾種數(shù)據(jù)挖掘功能中,()被廣泛的用于購物籃分析A、關(guān)聯(lián)分析B、分類和預(yù)測C、聚類分析D、演變分析根據(jù)顧客的收入和職業(yè)情況,預(yù)測他們在計算機設(shè)備上的花費,所使用的相應(yīng)數(shù)據(jù)挖掘功能是()A.關(guān)聯(lián)分析B.分類和預(yù)測C.演變分析D.概念描述幫助市場分析人員從客戶的基本信息庫中發(fā)現(xiàn)不同的客戶群,通常所使用的數(shù)據(jù)挖掘功能是()A.關(guān)聯(lián)分析B.分類和預(yù)測C.聚類分析D.孤立點分析E.演變分析假設(shè)現(xiàn)在的數(shù)據(jù)挖掘任務(wù)是解析數(shù)據(jù)庫中關(guān)于客戶的一般特征的描述,通常所使用的數(shù)據(jù)挖掘功能是()

3、A.關(guān)聯(lián)分析B.分類和預(yù)測C.孤立點分析D.演變分析E.概念描述三、簡答題什么是數(shù)據(jù)挖掘?一個典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括哪些組成部分?請簡述不同歷史時代數(shù)據(jù)庫技術(shù)的演化。請列舉數(shù)據(jù)挖掘應(yīng)用常見的數(shù)據(jù)源。(或者說,我們都在什么樣的數(shù)據(jù)上進行數(shù)據(jù)挖掘)什么是模式興趣度的客觀度量和主觀度量?在哪些情況下,我們認為所挖掘出來的模式是有趣的?根據(jù)挖掘的知識類型,我們可以將數(shù)據(jù)挖掘系統(tǒng)分為哪些類別?第2章數(shù)據(jù)預(yù)處理一、填空題進行數(shù)據(jù)預(yù)處理時所使用的主要方法包括:、和處理噪聲數(shù)據(jù)的方法主要包括:、和模式集成的主要問題包括:和數(shù)據(jù)概化是指:數(shù)據(jù)壓縮可分為:和兩種類型。進行數(shù)值歸約時,三種常用的有參方法是:、和

4、數(shù)據(jù)離散度的最常用度量是、和二、單選題數(shù)據(jù)歸約的目的是()A、填補數(shù)據(jù)種的空缺值B、集成多個數(shù)據(jù)源的數(shù)據(jù)C、得到數(shù)據(jù)集的壓縮表示D、規(guī)范化數(shù)據(jù)下面哪種數(shù)據(jù)預(yù)處理技術(shù)可以用來平滑數(shù)據(jù),消除數(shù)據(jù)噪聲?A.數(shù)據(jù)清理B.數(shù)據(jù)集成C.數(shù)據(jù)變換D.數(shù)據(jù)歸約進行數(shù)據(jù)規(guī)范化的目的是()去掉數(shù)據(jù)中的噪聲對數(shù)據(jù)進行匯總和聚集使用概念分層,用高層次概念替換低層次“原始”數(shù)據(jù)將屬性按比例縮放,使之落入一個小的特定區(qū)間數(shù)據(jù)的噪聲是指()A、孤立點B、空缺值C、測量變量中的隨即錯誤或偏差D、數(shù)據(jù)變換引起的錯誤那種數(shù)據(jù)變換的方法將數(shù)據(jù)沿概念分層向上匯總A、平滑B、聚集C、數(shù)據(jù)概化D、規(guī)范化()通過將屬性域劃分為區(qū)間,從而減

5、少給定連續(xù)值的個數(shù)。A.概念分層B.離散化C.分箱D.直方圖三、多選題下面哪些問題是我們進行數(shù)據(jù)預(yù)處理的原因?A.數(shù)據(jù)中的空缺值B.噪聲數(shù)據(jù)C.數(shù)據(jù)中的不一致性D.數(shù)據(jù)中的概念分層下面的度量中,哪些是數(shù)據(jù)離散度的度量?C.模D.中間四分位數(shù)區(qū)間)CC.模D.中間四分位數(shù)區(qū)間)C、不一致數(shù)據(jù)D、敏感數(shù)據(jù)C、維歸約D、規(guī)范化數(shù)據(jù)清理的目的是處理數(shù)據(jù)中的(A、空缺值B、噪聲數(shù)據(jù)下列哪些是數(shù)據(jù)變換可能涉及的內(nèi)容?A、數(shù)據(jù)壓縮B、數(shù)據(jù)概化以下哪些原因可能引起空缺值A(chǔ)、設(shè)備異常B、命名規(guī)則的不一致C、與其他已有數(shù)據(jù)不一致而被刪除D、在輸入時,有些數(shù)據(jù)因為得不到重視而沒有被輸入四、簡答題常用的數(shù)值屬性概念分

6、層的方法有哪些?典型的生成分類數(shù)據(jù)的概念分層的方法有哪些?在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法。常見的數(shù)據(jù)歸約策略包括哪些?第四章數(shù)據(jù)挖掘原語、語言和系統(tǒng)結(jié)構(gòu)一、填空題概念分層有四種類型,分別是:、和常用的四種興趣度的客觀度量是:、和(3)同時滿足和的關(guān)聯(lián)規(guī)則稱為強關(guān)聯(lián)規(guī)則。二、單選題以下DMQL片斷:mineassociationsasbuyingHabitsmatchingP(X:customer,W)AQ(X,Y)=buys(X,Z)所指定的挖掘知識類型是:A、特征化B、區(qū)分C、關(guān)聯(lián)D、分類以下哪種數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫/數(shù)據(jù)倉庫系統(tǒng)集成方式將會使數(shù)

7、據(jù)挖掘系統(tǒng)達到最好的性能?A、不耦合B、松散耦合C、半緊密耦合D、緊密耦合三、多選題以下哪些OLAP操作是和概念分層緊密相關(guān)的?A、上卷B、切片C、下鉆D、切塊四、簡答題定義數(shù)據(jù)挖掘任務(wù)的原語,主要應(yīng)該包括哪些部分?為什么需要數(shù)據(jù)挖掘原語和語言來指導數(shù)據(jù)挖掘?描述如下將數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)集成的結(jié)構(gòu)之間的差別:不耦合、松散耦合、半緊密耦合和緊密耦合。數(shù)據(jù)挖掘的GUI可能包含哪些部分?第五章概念描述:特征化與比較一、填空題概念描述由和組成。一般來說,進行類比較的過程應(yīng)該包括以下幾個步驟:、和從數(shù)據(jù)分析的角度看,數(shù)據(jù)挖掘可以分為兩類:和4)屬性相關(guān)分析的基本思想是計算某種度量,用于量

8、化屬性與給定類或概念的相關(guān)性??刹捎玫亩攘堪ǎ骸⒑停?)數(shù)據(jù)離散度的最常用度量包括:、和二、單選題(1)類比較的過程中,我們在哪個步驟得到主目標類關(guān)系/方體和主對比類關(guān)系/方體?A、數(shù)據(jù)收集B、維相關(guān)分析C、同步概化D、導出比較的表示(2)哪種圖形顯示方法常用于描述兩個變量間的依賴模式?A、直方圖B、分位數(shù)圖C、散布圖D、LOESS曲線(3)哪種圖形顯示方法常用于確定兩個量化的變量之間看上去是否有聯(lián)系、模式或者趨勢?A、直方圖B、分位數(shù)圖C、散布圖D、LOESS曲線(4)哪種圖形顯示方法用于顯示所有的數(shù)據(jù),允許用戶評估總的情況和不尋常情況的出現(xiàn)?A、直方圖B、分位數(shù)圖C、散布圖D、LOESS

9、曲線(5)中心趨勢度量模(mode)是指A、算術(shù)平均值B、數(shù)據(jù)集中出現(xiàn)頻率最高的值C、最大值D、最小值三、多選題(1)下面哪些是常用的數(shù)據(jù)概化方法?A、離散化B、數(shù)據(jù)立方體(OLAP技術(shù))C、判定歸納樹D、面向?qū)傩缘臍w納(2)使用數(shù)據(jù)立方體方法進行數(shù)據(jù)概化的優(yōu)點包括:A、數(shù)據(jù)概化的一種有效實現(xiàn)B、可以計算各種不同的度量值C、受數(shù)據(jù)類型和度量類型的約束比較少D、概化和特征分析通過一系列的數(shù)據(jù)立方體操作完成,簡單高效(3)以下哪些是屬于中心趨勢的度量A、平均值B、標準差C、五數(shù)概括D、中位數(shù)四、簡答題(1)簡述類比較的過程。(2)簡述面向?qū)傩詺w納的基本思想,并說明什么時候使用屬性刪除,什么時候使用

10、屬性概化。(3)簡述概念描述的屬性相關(guān)分析的基本步驟。(4)簡要敘述概念描述和OLAP之間的主要區(qū)別。(5)為什么進行屬性相關(guān)分析?(6)簡述進行概念描述時,面向數(shù)據(jù)庫的方法和機器學習的主要區(qū)別。(7)什么是概念描述的增量挖掘?第六章大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘一、填空題(1)關(guān)聯(lián)規(guī)則挖掘中,兩個主要的興趣度度量是:和(2)Aprior算法包括和兩個基本步驟(3)項集的頻率是扌旨(4)大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘包含兩個過程:和(5)根據(jù)規(guī)則中所處理的值類型,關(guān)聯(lián)規(guī)則可分為:和Apriori性質(zhì)是扌旨:挖掘多維關(guān)聯(lián)規(guī)則的技術(shù)可以根據(jù)量化屬性的處理分為三種基本方法:和對于頻繁項集挖掘,在挖掘過程中使

11、用的約束包括以下五種類型:、和在多維關(guān)聯(lián)規(guī)則挖掘中,我們搜索的不是頻繁項集,而是、單選題1)下列幾種數(shù)據(jù)挖掘功能中,()被廣泛的用于購物籃分析。A1)下列幾種數(shù)據(jù)挖掘功能中,()被廣泛的用于購物籃分析。A、關(guān)聯(lián)分析B、分類和預(yù)測支持度(support)是衡量興趣度度量(A、實用性B、確定性置信度(confidence)是衡量興趣度度量(A、簡潔性B、確定性C、聚類分析)的旨標。C.、簡潔性)的旨標。C.、實用性D、演變分析D、新穎性D、新穎性)4)根據(jù)關(guān)聯(lián)分析中所處理的值類型,可以將關(guān)聯(lián)規(guī)則分類為:(A、布爾關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)規(guī)則B、單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則C、單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則D、

12、簡答關(guān)聯(lián)規(guī)則和復雜關(guān)聯(lián)規(guī)則(5)規(guī)則:age(X,”19-25”)Abuys(X,“popcorn”)=buys(X,“coke”)是一個A、單維關(guān)聯(lián)規(guī)則B、多維關(guān)聯(lián)規(guī)則C、混合維關(guān)聯(lián)規(guī)則D、不是一個關(guān)聯(lián)規(guī)則三、多選題根據(jù)關(guān)聯(lián)分析中所涉及的抽象層,可以將關(guān)聯(lián)規(guī)則分類為:()A、布爾關(guān)聯(lián)規(guī)則B、單層關(guān)聯(lián)規(guī)則C、多維關(guān)聯(lián)規(guī)則D、多層關(guān)聯(lián)規(guī)則根據(jù)關(guān)聯(lián)分析中所涉及的數(shù)據(jù)維,可以將關(guān)聯(lián)規(guī)則分類為:()A、布爾關(guān)聯(lián)規(guī)則A、布爾關(guān)聯(lián)規(guī)則B、單維關(guān)聯(lián)規(guī)則(3)Apriori算法所面臨的主要的挑戰(zhàn)包括:A、會消耗大量的內(nèi)存C、對候選項集的支持度計算非常繁瑣C、多維關(guān)聯(lián)規(guī)則D、多層關(guān)聯(lián)規(guī)則B、會產(chǎn)生大量的候選項集

13、D、要對數(shù)據(jù)進行多次掃描四、簡答題對于具有遞減支持度的多層關(guān)聯(lián)規(guī)則挖掘,分別都有哪些搜索策略?各有什么特點?給出一個例子,表明強關(guān)聯(lián)規(guī)則中的項可能實際上是負相關(guān)的。簡述在多層關(guān)聯(lián)規(guī)則挖掘中,在不同的層使用一致的支持度的優(yōu)缺點。什么是簡潔性約束?第6章分類和預(yù)測一、填空題通過對數(shù)據(jù)進行預(yù)處理,可以提高分類和預(yù)測過程的、和防止分類中的過分適應(yīng)的兩種方法分別是:和二、單選題下面哪種分類方法是屬于神經(jīng)網(wǎng)絡(luò)學習算法?()A、判定樹歸納B、貝葉斯分類C、后向傳播分類D、基于案例的推理2)下面哪種分類方法是屬于統(tǒng)計學的分類方法?()A、判定樹歸納BA、判定樹歸納B、貝葉斯分類C、后向傳播分類D、基于案例的推

14、理3)下列哪個描述是正確的?(3)下列哪個描述是正確的?(A、分類和聚類都是有指導的學習B、分類和聚類都是無指導的學習C、分類是有指導的學習,聚類是無指導的學習D、分類是無指導的學習,聚類是有指導的學習三、簡答題(1)簡述判定樹分類的主要步驟。(2)在判定樹歸納中,為什么樹剪枝是有用的?(3)為什么樸素貝葉斯分類稱為“樸素”的?簡述樸素貝葉斯分類的主要思想(4)請簡述判定樹歸納算法的基本策略。(5)對分類和預(yù)測方法進行比較和評估的標準都有哪些?(6)簡述數(shù)據(jù)分類的兩步過程。(7)簡述后向傳播分類的優(yōu)缺點。四、算法題(1)使用判定樹歸納算法,根據(jù)顧客年齡age(分為3個年齡段:23),收入inc

15、ome(取值為high,medium,low),是否為student(取值為yes和no),信用credit_rating等級(取值為fair和excellent)來判定用戶是否會購買PCGame,即構(gòu)建判定樹buys_PCGame,假設(shè)現(xiàn)有的數(shù)據(jù)經(jīng)過第一次劃分之后得到如下圖所示結(jié)果,并根據(jù)該結(jié)果對每一個劃分中的各個屬性計算信息增益對age23的顧客:Gain(income)=0.042,Gain(student)=0.462,Gain(credit_rating)=0.155請根據(jù)以上結(jié)果繪制出判定樹buys_PCGame,來判定用戶是否會購買PCGame。ageageincomestude

16、ntincomestudentcreditratingclasshighnofairnomediumyesfairnohighnofairnomediumyesexcellentyeslownoexcellentyesIncomestudentcreditratingclasshighnofairnohighyesexcellentyesmediumyesfairyeslowyesfairyeslownoexcellentnoincomestudentcreditratingclasshighnofairyesmediumyesfairyeshighnofairyesmediumyesexce

17、llentyes第7章聚類分析一、填空題在數(shù)據(jù)挖掘中,常用的聚類算法包括:、基于網(wǎng)格的方法和基于模型的方法。聚類分析常作為一個獨立的工具來獲得一個好的聚類分析方法會產(chǎn)生高質(zhì)量的聚類,具有兩個特征:和許多基于內(nèi)存的聚類算法所常用的兩種數(shù)據(jù)結(jié)構(gòu)是和基于網(wǎng)格的聚類方法的優(yōu)點是:孤立點產(chǎn)生的主要原因包括:和在基于統(tǒng)計的孤立點檢測中,常用于不一致性檢驗的參數(shù)包括:、和二、單選題下面那種數(shù)據(jù)挖掘方法可以用來檢測孤立點?A.概念描述B.分類和預(yù)測C.聚類分析D.演變分析以下哪個指標不是表示對象間的相似度和相異度A、Euclidean距離B、Manhattan距離C、Eula距離D、Minkowski距離以下

18、哪種聚類方法可以發(fā)現(xiàn)任意形狀的聚類?A、劃分的方法B、基于模型的方法C、基于密度的方法D、層次的方法三、簡答題數(shù)據(jù)挖掘?qū)垲惙治鲇心男┮??簡述基于劃分的聚類方法。劃分的準則是什么?列舉孤立點挖掘的常見應(yīng)用。簡單地描述如何計算由如下類型的變量描述的對象間的相異度:不對稱的二元變量標稱變量比例標度型(ratio-scaled)變量數(shù)值型的變量給出一個特定的聚類方法如何被綜合使用的例子,例如,什么情況下一個聚類算法被用作另一個算法的預(yù)處理步驟。第九章電子商務(wù)與數(shù)據(jù)挖掘一、填空題Web數(shù)據(jù)挖掘通常包括、和三種形式。進行WebUsageMining主要是通過對系統(tǒng)日志信息的數(shù)據(jù)挖掘,常用的數(shù)據(jù)源包括:

19、、和。二、簡答題列舉WEB日志的字段。2)跟其他應(yīng)用領(lǐng)域相比,在電子商務(wù)中進行數(shù)據(jù)挖掘有哪些優(yōu)勢?(3)列舉WEB使用挖掘(WebUsageMining)的應(yīng)用。(4)基于Web日志的用戶訪問模式挖掘有什么缺點?5)電子商務(wù)中進行數(shù)據(jù)挖掘有哪些難點?作業(yè)答案第一章引言一、填空題(1)數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)選擇,數(shù)據(jù)變換,數(shù)據(jù)挖掘,模式評估,知識表示(2)算法的效率、可擴展性和并行處理(3)統(tǒng)計學、數(shù)據(jù)庫技術(shù)和機器學習(4)WEB挖掘(5)一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)二、單選題(1)B;(2)D;(3)D;(4)B;(5)A;(6)B;(7)C;(8)E;三、簡答題(1)什么是數(shù)

20、據(jù)挖掘?答:數(shù)據(jù)挖掘指的是從大量的數(shù)據(jù)中挖掘出那些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識。(2)一個典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括哪些組成部分?答:一個典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括以下部分:數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器知識庫數(shù)據(jù)挖掘引擎模式評估模塊圖形用戶界面(3)請簡述不同歷史時代數(shù)據(jù)庫技術(shù)的演化。答:1960年代和以前:研究文件系統(tǒng)。1970年代:出現(xiàn)層次數(shù)據(jù)庫和網(wǎng)狀數(shù)據(jù)庫。1980年代早期:關(guān)系數(shù)據(jù)模型,關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)的實現(xiàn)1980年代后期:出現(xiàn)各種高級數(shù)據(jù)庫系統(tǒng)(如:擴展的關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫等等)以及面向應(yīng)用的數(shù)據(jù)庫系統(tǒng)

21、(空間數(shù)據(jù)庫,時序數(shù)據(jù)庫,多媒體數(shù)據(jù)庫等等。1990年代:研究的重點轉(zhuǎn)移到數(shù)據(jù)挖掘,數(shù)據(jù)倉庫,多媒體數(shù)據(jù)庫和網(wǎng)絡(luò)數(shù)據(jù)庫。2000年代:人們專注于研究流數(shù)據(jù)管理和挖掘、基于各種應(yīng)用的數(shù)據(jù)挖掘、XML數(shù)據(jù)庫和整合的信息系統(tǒng)。(4)請列舉數(shù)據(jù)挖掘應(yīng)用常見的數(shù)據(jù)源。(或者說,我們都在什么樣的數(shù)據(jù)上進行數(shù)據(jù)挖掘)答:常見的數(shù)據(jù)源包括關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、事務(wù)數(shù)據(jù)庫和高級數(shù)據(jù)庫系統(tǒng)和信息庫。其中高級數(shù)據(jù)庫系統(tǒng)和信息庫包括:空間數(shù)據(jù)庫、時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫、流數(shù)據(jù)、多媒體數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫和對象-關(guān)系數(shù)據(jù)庫、異種數(shù)據(jù)庫和遺產(chǎn)(legacy)數(shù)據(jù)庫、文本數(shù)據(jù)庫和萬維網(wǎng)(WWW)等。(5)什么是模式興

22、趣度的客觀度量和主觀度量?答:客觀度量指的是基于所發(fā)現(xiàn)模式的結(jié)構(gòu)和關(guān)于它們的統(tǒng)計來衡量模式的興趣度,比如:支持度、置信度等等;主觀度量基于用戶對數(shù)據(jù)的判斷來衡量模式的興趣度,比如:出乎意料的、新穎的、可行動的等等。(6)在哪些情況下,我們認為所挖掘出來的模式是有趣的?答:一個模式是有趣的,如果(1)它易于被人理解;(2)在某種程度上,對于新的或測試數(shù)據(jù)是有效的;(3)具有潛在效用;(4)新穎的;(5)符合用戶確信的某種假設(shè)。(7)根據(jù)挖掘的知識類型,我們可以將數(shù)據(jù)挖掘系統(tǒng)分為哪些類別?答:根據(jù)挖掘的知識類型,數(shù)據(jù)挖掘系統(tǒng)可以分為特征分析,區(qū)分,關(guān)聯(lián)分析,分類聚類,孤立點分析/演變分析,偏差分析

23、,多種方法的集成和多層級挖掘等類型。第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)一、填空題星形模式、雪花模式和事實星座模式不物化、部分物化和全物化面向主題、數(shù)據(jù)集成、隨時間而變化和數(shù)據(jù)不易丟失事務(wù)操作,只讀查詢分布的、代數(shù)的和整體的自頂向下視圖、數(shù)據(jù)源視圖、數(shù)據(jù)倉庫視圖、商務(wù)查詢視圖關(guān)系OLAP服務(wù)器(ROLAP)、多維OLAP服務(wù)器(MOLAP)和混合OLAP服務(wù)器(HOLAP)分布的海量數(shù)據(jù),有限的內(nèi)存和時間二、單選題(1)B;(2)D;(3)C;(4)A;(5)B三、多選題(1)ABD;(2)ABC;(3)BCD;(4)ACD;四、簡答題為什么在進行聯(lián)機分析處理(OLAP)時,我們需要一個獨立

24、的數(shù)據(jù)倉庫,而不是直接在日常操作的數(shù)據(jù)庫上進行。答:使用一個獨立的數(shù)據(jù)倉庫進行OLAP處理是為了以下目的:提高兩個系統(tǒng)的性能操作數(shù)據(jù)庫是為OLTP而設(shè)計的,沒有為OLAP操作優(yōu)化,同時在操作數(shù)據(jù)庫上處理OLAP查詢,會大大降低操作任務(wù)的性能;而數(shù)據(jù)倉庫是為OLAP而設(shè)計,為復雜的OLAP查詢,多維視圖,匯總等OLAP功能提供了優(yōu)化。兩者有著不同的功能操作數(shù)據(jù)庫支持多事務(wù)的并行處理,而數(shù)據(jù)倉庫往往只是對數(shù)據(jù)記錄進行只讀訪問;這時如果將事務(wù)處理的并行機制和恢復機制用于這種OLAP操作,就會顯著降低OLAP的性能。兩者有著不同的數(shù)據(jù)數(shù)據(jù)倉庫中存放歷史數(shù)據(jù);日常操作數(shù)據(jù)庫中存放的往往只是最新的數(shù)據(jù)。為

25、什么說數(shù)據(jù)倉庫具有隨時間而變化的特征?答:(1)數(shù)據(jù)倉庫的時間范圍比操作數(shù)據(jù)庫系統(tǒng)要長的多。操作數(shù)據(jù)庫系統(tǒng)主要保存當前數(shù)據(jù),而數(shù)據(jù)倉庫從歷史的角度提供信息(比如過去5-10年)。數(shù)據(jù)倉庫中的每一個關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時間元素,而操作數(shù)據(jù)庫中的關(guān)鍵結(jié)構(gòu)可能就不包括時間元素。試述對于多個異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動的方法(update-driven),而不愿使用查詢驅(qū)動(query-driven)的方法?答:因為對于多個異種信息源的集成,查詢驅(qū)動方法需要復雜的信息過濾和集成處理,并且與局部數(shù)據(jù)源上的處理競爭資源,是一種低效的方法,并且對于頻繁的查詢,特別是需要聚集操作的查

26、詢,開銷很大。而更新驅(qū)動方法為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能,因為數(shù)據(jù)被處理和重新組織到一個語義一致的數(shù)據(jù)存儲中,進行查詢的同時并不影響局部數(shù)據(jù)源上進行的處理。此外,數(shù)據(jù)倉庫存儲并集成歷史信息,支持復雜的多維查詢。請簡述幾種典型的多維數(shù)據(jù)的0LAP操作答:典型的OLAP操作包括以下幾種上卷:通過一個維的概念分層向上攀升或者通過維歸約,在數(shù)據(jù)立方體上進行聚集;下鉆:上卷的逆操作,由不太詳細的數(shù)據(jù)得到更詳細的數(shù)據(jù);通常可以通過沿維的概念分層向下或引入新的維來實現(xiàn);切片:在給定的數(shù)據(jù)立方體的一個維上進行選擇,導致一個子方;切塊:通過對兩個或多個維執(zhí)行選擇,定義子方;轉(zhuǎn)軸:轉(zhuǎn)動數(shù)據(jù)的視角,提供數(shù)據(jù)的

27、替代表示;鉆過:執(zhí)行涉及多個事實表的查詢;鉆透:使用關(guān)系SQL機制,鉆到數(shù)據(jù)立方體的底層,到后端關(guān)系表(5)為什么說相對于日常的應(yīng)用數(shù)據(jù)庫,數(shù)據(jù)倉庫中的數(shù)據(jù)更加不容易丟失?答:(1)盡管數(shù)據(jù)倉庫中的數(shù)據(jù)來自于操作數(shù)據(jù)庫,但它們卻是在物理上分離保存的,操作數(shù)據(jù)庫的更新操作不會出現(xiàn)在數(shù)據(jù)倉庫環(huán)境下。(2)數(shù)據(jù)倉庫不需要事務(wù)處理,恢復,和并發(fā)控制等機制。(3)數(shù)據(jù)倉庫只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪問(讀操作)。(6)假定Big_University的數(shù)據(jù)倉庫包含如下4個維:student,course,semester和instructor;2個度量:count和avg_grade。在最

28、低得到概念層(例如,對于給定的學生、課程、學期和教師的組合),度量avg_grade存放學生的實際成績。在較高的概念層,avg_grade存放給定組合的平均成績。(a)為數(shù)據(jù)倉庫畫出雪花模式圖。(b)由基本方體student,course,semester,instructor開始,為列出Big_University每個學生的CS課程的平均成績,應(yīng)當使用哪些OLAP操作(如,由學期上卷到學年)。(c)如果每維有5層(包括all),如studentmajorstatusuniversityall,該數(shù)據(jù)方包含多少方體(包含基本方體和頂點方體)?(7)在數(shù)據(jù)倉庫中,元數(shù)據(jù)的主要用途包括哪些?答:在

29、數(shù)據(jù)倉庫中,元數(shù)據(jù)的主要用途包括:(1)用作目錄,幫助決策支持系統(tǒng)分析者對數(shù)據(jù)倉庫的內(nèi)容定義(2)作為數(shù)據(jù)倉庫和操作性數(shù)據(jù)庫之間進行數(shù)據(jù)轉(zhuǎn)換時的映射標準(3)用于指導當前細節(jié)數(shù)據(jù)和稍加綜合的數(shù)據(jù)之間的匯總算法,指導稍加綜合的數(shù)據(jù)和高度綜合的數(shù)據(jù)之間的匯總算法。(8)數(shù)據(jù)倉庫后端工具和程序包括哪些?答:數(shù)據(jù)倉庫后端工具主要指的是用來裝入和刷新數(shù)據(jù)的工具,包括:(1)數(shù)據(jù)提?。簭亩鄠€外部的異構(gòu)數(shù)據(jù)源收集數(shù)據(jù)(2)數(shù)據(jù)清理:檢測數(shù)據(jù)種的錯誤并作可能的訂正(3)數(shù)據(jù)變換:將數(shù)據(jù)由歷史或主機的格式轉(zhuǎn)化為數(shù)據(jù)倉庫的格式(4)裝載:排序、匯總、合并、計算視圖,檢查完整性,并建立索引和分區(qū)(5)刷新:將數(shù)據(jù)源

30、的更新傳播到數(shù)據(jù)倉庫中五、計算題(1)答:a.內(nèi)存空間需求量最小的塊計算次序和內(nèi)存空間需求量最大的塊計算次序分別如下圖所示:allallABCABACBCABC內(nèi)存空間需求最小的塊計算次序ABC內(nèi)存空間需求最大的塊計算次序allallABCABACBCABC內(nèi)存空間需求最小的塊計算次序ABC內(nèi)存空間需求最大的塊計算次序b.這兩個次序下計算二維平面所需要的內(nèi)存空間的大?。簝?nèi)存空間需求最小的次序:10,000X1,000(用于整個BC平面)+(100,000/10)X1,000(用于AC平面的一行)+(100,000/10)X(10,000/10)(用于AB平面的一格)=30,000,000內(nèi)存空

31、間需求量最大的塊計算次序:100,000X10,000(用于整個AB平面)+100,000X(1,000/10)(用于AC平面的一行)+(10,000/10)X(1,000/10)=1,010,100,000第三章數(shù)據(jù)預(yù)處理一、填空題(1)數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約(2)分箱、聚類、計算機和人工檢查結(jié)合、回歸(3)整合不同數(shù)據(jù)源中的元數(shù)據(jù),實體識別問題(4)沿概念分層向上概化(5)有損壓縮,無損壓縮(6)線性回歸方法,多元回歸,對數(shù)線性模型(7)五數(shù)概括、中間四分位數(shù)區(qū)間、標準差二、單選題(1)C;(2)A;(3)D;(4)C;(5)C;(6)B三、多選題(1)ABC;(2)BD;

32、(3)ABC;(4)BD;(5)ACD四、簡答題(1)常用的數(shù)值屬性概念分層的方法有哪些?答:常用的數(shù)值屬性概念分層的方法有分箱、直方圖分析、聚類分析、基于熵的離散化和通過自然劃分分段。(2)典型的生成分類數(shù)據(jù)的概念分層的方法有哪些?答:典型的生成分類數(shù)據(jù)的概念分層的方法包括:(1)由用戶或?qū)<以谀J郊夛@示的說明屬性的部分序;(2)通過顯示數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分。(3)說明屬性集,但不說明它們的偏序,然后系統(tǒng)根據(jù)算法自動產(chǎn)生屬性的序,構(gòu)造有意義的概念分層。(4)對只說明部分屬性集的情況,則可根據(jù)數(shù)據(jù)庫模式中的數(shù)據(jù)語義定義對屬性的捆綁信息,來恢復相關(guān)的屬性。(3)在現(xiàn)實世界的數(shù)據(jù)中,元組在

33、某些屬性上缺少值是常有的。描述處理該問題的各種方法。答:處理空缺值的方法有:(1)忽略元組。當類標號缺少時通常這么做(假定挖掘任務(wù)設(shè)計分類或描述),當每個屬性缺少值的百分比變化很大時,它的效果非常差。(2)人工填寫空缺值。這種方法工作量大,可行性低(3)使用一個全局變量填充空缺值:比如使用unknown或(4)使用屬性的平均值填充空缺值(5)使用與給定元組屬同一類的所有樣本的平均值(6)使用最可能的值填充空缺值。如使用像Bayesian公式或判定樹這樣的基于推斷的方法(4)常見的數(shù)據(jù)歸約策略包括哪些?答:數(shù)據(jù)歸約策略包括:1)數(shù)據(jù)立方體聚集2)維歸約3)數(shù)據(jù)壓縮4)數(shù)值歸約5)離散化和概念分層

34、產(chǎn)生第四章數(shù)據(jù)挖掘原語、語言和系統(tǒng)結(jié)構(gòu)一、填空題(1)模式分層,集合分組分層,操作導出的分層,基于規(guī)則的分層(2)簡單性、確定性、實用性、新穎性(3)最小置信度臨界值、最小支持度臨界值二、單選題(1)C;(2)D三、多選題(1)AC四、簡答題(1)定義數(shù)據(jù)挖掘任務(wù)的原語,主要應(yīng)該包括哪些部分?答:一個定義數(shù)據(jù)挖掘任務(wù)的原語主要應(yīng)該包括以下部分的說明:說明數(shù)據(jù)庫的部分或用戶感興趣的數(shù)據(jù)集;要挖掘的知識類型;用于指導挖掘的背景知識;模式評估、興趣度量;如何顯示發(fā)現(xiàn)的知識。(2)為什么需要數(shù)據(jù)挖掘原語和語言來指導數(shù)據(jù)挖掘?答:如果不使用數(shù)據(jù)挖掘原語和語言來指導數(shù)據(jù)挖掘(1)會產(chǎn)生大量模式(重新把知識

35、淹沒)(2)會涵蓋所有數(shù)據(jù),使得挖掘效率低下(3)大部分有價值的模式集可能被忽略(4)挖掘出的模式可能難以理解,缺乏有效性、新穎性和實用性令人不感興趣。(3)描述如下將數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)集成的結(jié)構(gòu)之間的差別:不耦合、松散耦合、半緊密耦合和緊密耦合。答:不耦合:DM系統(tǒng)不利用DB/DW系統(tǒng)的任何功能。這種集成結(jié)構(gòu)簡單,但是沒有利用數(shù)據(jù)庫的功能意味著信息分析處理借助第三方工具,這使得系統(tǒng)的構(gòu)建和集成變得很困難。松散耦合:DM系統(tǒng)將使用DB/DW系統(tǒng)的某些功能。這種集成結(jié)構(gòu)簡單地利用DB/DW提供的數(shù)據(jù)查詢功能,沒有使用DB/DW的后臺優(yōu)化,算法大部分是基于內(nèi)存的,性能和可擴展性差。

36、半緊密耦合:除了將DM系統(tǒng)連接到一個DB/DW系統(tǒng)之外,一些基本數(shù)據(jù)挖掘原語(通過分析頻繁遇到的數(shù)據(jù)挖掘功能確定)可以在DB/DW系統(tǒng)中實現(xiàn)。如此一來,一些中間的挖掘結(jié)果可以在DB/DW上實現(xiàn)計算或有效的即時計算,性能會有較大提高。緊密耦合:DM系統(tǒng)平滑的集成到DB/DW系統(tǒng)中。數(shù)據(jù)挖掘子系統(tǒng)被視為信息挖掘子系統(tǒng)的一部分,數(shù)據(jù)挖掘查詢和功能根據(jù)DB或DW系統(tǒng)的挖掘查詢分析、數(shù)據(jù)結(jié)構(gòu)、索引模式和查詢處理方法優(yōu)化。這種結(jié)構(gòu)提供了一個統(tǒng)一的信息處理平臺,功能、性能等方面都會達到一個高水平。數(shù)據(jù)挖掘的GUI可能包含哪些部分?答:數(shù)據(jù)挖掘的GUI可能包含以下部分:數(shù)據(jù)收集和數(shù)據(jù)查詢編輯發(fā)現(xiàn)模式的表示分層

37、結(jié)構(gòu)說明和操縱數(shù)據(jù)挖掘原語的操作交互的多層挖掘其他各種信息第五章概念描述:特征化與比較一、填空題特征化、區(qū)分數(shù)據(jù)收集、維相關(guān)分析、同步概化、導出比較的表示描述性挖掘和預(yù)測性挖掘信息增益、Gini索引、不確定性和相關(guān)系數(shù)五數(shù)概括、中間四分位數(shù)區(qū)間、標準差二、單選題(1)C;(2)D;(3)C;(4)B;(5)B三、多選題(1)BD;(2)ABD;(3)AD四、簡答題簡述類比較的過程。答:類比較的過程一般包括以下四個步驟:數(shù)據(jù)收集通過查詢處理收集數(shù)據(jù)庫中相關(guān)的數(shù)據(jù),并將其劃分為一個目標類和一個或多個對比類;維相關(guān)分析使用屬性相關(guān)分析方法,使我們的任務(wù)中僅包含強相關(guān)的維;同步概化同步的在目標類和對比

38、類上進行概化,得到主目標類關(guān)系/方體和主對比類關(guān)系/方體;導出比較的表示用可視化技術(shù)表達類比較描述,通常會包含“對比”度量,反映目標類與對比類間的比較。簡述面向?qū)傩詺w納的基本思想,并說明什么時候使用屬性刪除,什么時候使用屬性概化。答:面向?qū)傩詺w納的基本思想是:首先使用關(guān)系數(shù)據(jù)庫查詢收集任務(wù)相關(guān)的數(shù)據(jù);然后通過考察任務(wù)相關(guān)數(shù)據(jù)中每個屬性的不同值的個數(shù),進行概化(通過屬性刪除或者屬性概化)。聚集通過合并相等的廣義元組,并累計他們相應(yīng)的技術(shù)值進行。這壓縮了概化后的數(shù)據(jù)集合。結(jié)果廣義關(guān)系可以映射到不同形式,如圖表或規(guī)則,提供用戶。使用屬性刪除的情況:如果初始工作關(guān)系的一個屬性上有大量的不同值,但是(1

39、)在此屬性上沒有概化操作符,或(2)它的較高層概念用其他屬性表示;使用屬性概化的情況:如果初始工作關(guān)系的一個屬性上有大量的不同值,并且該屬性上存在著概化操作符。簡述概念描述的屬性相關(guān)分析的基本步驟。答:(1)數(shù)據(jù)收集:通過查詢處理,收集目標類和對比類的數(shù)據(jù);使用保守的AOI進行預(yù)相關(guān)分析:這一步識別屬性和維的集合,選擇的相關(guān)性度量用于他們;使用選定的相關(guān)分析度量刪除不相關(guān)和弱相關(guān)屬性:使用選定的相關(guān)分析度量,評估候選關(guān)系中的每個屬性;使用AOI產(chǎn)生概念描述:使用一組不太保守的屬性概化臨界值進行AOI。簡要敘述概念描述和OLAP之間的主要區(qū)別。答:兩者的主要區(qū)別有:概念描述可以處理復雜數(shù)據(jù)類型的

40、屬性及其聚集,而實際使用的OLAP系統(tǒng)中,維和度量的數(shù)據(jù)類型都非常有限(非數(shù)值型的維和數(shù)值型的數(shù)據(jù)),表現(xiàn)為一種簡單的數(shù)據(jù)分析模型。OLAP是一個由用戶控制的過程,而概念描述是一個更加自動化的過程。為什么進行屬性相關(guān)分析?答:數(shù)據(jù)倉庫和OLAP系統(tǒng)中的多維數(shù)據(jù)分析缺乏一個自動概化過程,這使得這個過程中需要有很多用戶干預(yù)。用戶必須告訴系統(tǒng)哪些維或?qū)傩詰?yīng)當包含在類分析中。如果選擇的屬性太少,則造成挖掘的描述結(jié)果不正確;屬性太多,浪費計算、淹沒知識。通過屬性相關(guān)分析,可以更容易地發(fā)現(xiàn)屬性之間的相關(guān)性,濾掉統(tǒng)計上不相關(guān)或弱相關(guān)的屬性,保留對手頭數(shù)據(jù)挖掘任務(wù)最相關(guān)的屬性。簡述進行概念描述時,面向數(shù)據(jù)庫的

41、方法和機器學習的主要區(qū)別。答:面向數(shù)據(jù)庫的方法指的是面向大型數(shù)據(jù)庫的概念描述的概化方法,使用基于數(shù)據(jù)立方體的方法或面向?qū)傩缘臍w納的方法。機器學習使用示例學習的范例,在概念集或標定訓練樣本集上進行,通過檢驗這些集合在學習中導出關(guān)于描述類的假定。什么是概念描述的增量挖掘?答:增量挖掘根據(jù)數(shù)據(jù)庫中新增的數(shù)據(jù)DB來修正挖掘的結(jié)果,而不是重新從修正過的數(shù)據(jù)庫中進行挖掘而得到結(jié)果。第六章大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘一、填空題支持度和置信度連接和剪枝包含項集的事務(wù)數(shù)找出所有頻繁項集、由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則布爾關(guān)聯(lián)規(guī)則、量化關(guān)聯(lián)規(guī)則頻繁項集的所有非空子集也必須是頻繁的量化屬性的靜態(tài)離散化、量化關(guān)聯(lián)規(guī)則、基于距

42、離的關(guān)聯(lián)規(guī)則反單調(diào)的、單調(diào)的、簡潔的、可轉(zhuǎn)變的、不可轉(zhuǎn)變的頻繁謂詞集二、單選題(1)A;(2)A;(3)B;(4);(5)C三、多選題1)BD;(2)BC;(3)ABD四、簡答題(1)對于具有遞減支持度的多層關(guān)聯(lián)規(guī)則挖掘,分別都有哪些搜索策略?各有什么特點?答:具有遞減支持度的多層關(guān)聯(lián)規(guī)則挖掘中使用的搜索策略包括:逐層獨立:完全的寬度搜索,沒有頻繁項集的背景知識用于剪枝??疾烀恳粋€節(jié)點,不管其父節(jié)點是否頻繁。特點是條件很松,可能導致在低層考察大量非頻繁的項,找出一些不重要的關(guān)聯(lián);層交叉k-項集過濾:一個第i層的k-項集被考察,當且僅當它在第(i-1)層的對應(yīng)父節(jié)點的k-項集是頻繁的。特點是限制

43、太強,有些有價值的模式可能被該方法過濾掉;層交叉單項過濾:一個第i層的項被考察,當且僅當它在第(i-1)層的父節(jié)點是頻繁的。它是上述兩個極端策略的折中。(2)給出一個例子,表明強關(guān)聯(lián)規(guī)則中的項可能實際上是負相關(guān)的。答:例如教材數(shù)據(jù)挖掘:概念與技術(shù)中例6.6和表6.4。(3)簡述在多層關(guān)聯(lián)規(guī)則挖掘中,在不同的層使用一致的支持度的優(yōu)缺點。答:對所有層都使用一致的最小支持度,優(yōu)點在于:搜索時容易采用優(yōu)化策略,即一個項如果不滿足最小支持度,它的所有子項都可以不用搜索;缺點在于:最小支持度值設(shè)置困難,如果設(shè)置太高,將丟掉出現(xiàn)在較低抽象層中有意義的關(guān)聯(lián)規(guī)則,如果設(shè)置太低,會在較高層產(chǎn)生太多的無興趣的規(guī)則。

44、(4)什么是簡潔性約束?答:一個約束被稱為簡潔的,如果我們可以列出并僅僅列出所有確保滿足該約束的集合。利用簡潔性約束,我們可以在計數(shù)前進行剪枝,從而避免產(chǎn)生測試方式的過大開銷。第七章分類和預(yù)測一、填空題(1)準確性、有效性和可伸縮性(2)先剪枝、后剪枝二、單選題(1)C;(2)B;(3)C三、簡答題(1)簡述判定樹分類的主要步驟。答:首先是生成判定樹。分為2個步驟:(1)歸納生成判定樹。開始時,所有的訓練樣本都在根節(jié)點,然后遞歸的通過選定的離散值屬性,來劃分樣本,直至滿足停止條件。(2)樹剪枝。許多分枝反映的是訓練數(shù)據(jù)中的噪聲和孤立點,樹剪枝試圖檢測和剪去這種分枝接下來在判定樹的使用中,對于某

45、一未知樣本,通過將樣本的屬性值與判定樹相比較來判斷其類別歸屬。(2)在判定樹歸納中,為什么樹剪枝是有用的?答:當判定樹創(chuàng)建時,由于數(shù)據(jù)中的噪聲和孤立點,許多分枝反應(yīng)的是訓練數(shù)據(jù)中的異常。剪枝方法處理這種過分適應(yīng)數(shù)據(jù)的問題。通常,這種方法使用統(tǒng)計度量,剪去最不可靠的分枝,這將導致較快的分類,提高樹獨立于測試數(shù)據(jù)正確分類的可靠性。(3)為什么樸素貝葉斯分類稱為“樸素”的?簡述樸素貝葉斯分類的主要思想。答:樸素貝葉斯分類被稱為“樸素”的原因是計算元組的類條件出現(xiàn)概率時,做了類條件獨立的樸素假定。貝葉斯分類的主要思想?yún)⒖冀滩臄?shù)據(jù)挖掘:概念與技術(shù)7.4.2小節(jié)。(4)請簡述判定樹歸納算法的基本策略。答:

46、樹以代表訓練樣本的單個節(jié)點開始如果樣本都在同一個類,則該節(jié)點成為樹葉,并用該類標記否則,算法使用基于熵的度量信息增益作為指導信息,選擇能夠最好的將樣本分類的屬性;該屬性成為節(jié)點的“測試”或“判定”屬性。(使用分類屬性)對測試屬性每個已知的值,創(chuàng)建一個分支,并以此劃分樣本算法使用同樣的過程,遞歸的形成每個劃分上的樣本判定樹。一旦一個屬性出現(xiàn)在一個節(jié)點上,就不在該節(jié)點的任何子節(jié)點上出現(xiàn)遞歸劃分步驟停止的條件有:(1)給定節(jié)點的所有樣本屬于同一類(2)沒有剩余屬性可以用來進一步劃分樣本使用多數(shù)表決(3)沒有剩余的樣本(5)對分類和預(yù)測方法進行比較和評估的標準都有哪些?答:(1)導出分類法后,再使用訓

47、練數(shù)據(jù)評估分類法,這種方法可能錯誤的導致樂觀的估計。(2)保持方法:給定數(shù)據(jù)隨機劃分為兩個集合:訓練集(2/3)和測試集(1/3)。訓練集導出分類法,測試集對其準確性進行評估。隨機子選樣是保持方法的一個變形,將保持方法重復k次,然后取準確率的平均值。(3)k-折交叉確認:初始數(shù)據(jù)被劃分為k個不相交的,大小大致相同的子集S1,S2Sk。進行k次訓練和測試,第i次時,以Si做測試集,其他做訓練集。準確率為k次迭代正確分類數(shù)除以初始數(shù)據(jù)集樣本總數(shù)。(6)簡述數(shù)據(jù)分類的兩步過程。答:第一步,建立一個模型,描述預(yù)定數(shù)據(jù)類集和概念集。訓練數(shù)據(jù)集由為建立模型而被分析的數(shù)據(jù)元組形成,其中每個元組屬于一個預(yù)定義

48、的類,由一個類標號屬性確定。學習模型可以用分類規(guī)則、判定樹或數(shù)學公式的形式提供。第二步,使用模型,對將來的或未知的對象進行分類。模型在使用之前,要先評估模型的預(yù)測準確率。對每個測試樣本,將已知的類標號和該樣本的學習模型類預(yù)測比較。模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比。測試集要獨立于訓練樣本集,否則會出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況。(7)簡述后向傳播分類的優(yōu)缺點。答:優(yōu)點(1)預(yù)測精度總的來說較高(2)健壯性好,訓練樣本中包含錯誤時也可正常工作(3)輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值(4)對目標進行分類較快缺點(1)訓練(學習)時間長(2)蘊涵在學習的權(quán)中的

49、符號含義很難理解(3)很難跟專業(yè)領(lǐng)域知識相整合四、算法題判定樹buys_PCGame如下所示:18credit_ratingexcellentfairage?18.23yesyesstudent?noyesnono第八章聚類分析18credit_ratingexcellentfairage?18.23yesyesstudent?noyesnono一、填空題(1)劃分方法、層次的方法、基于密度的方法(2)數(shù)據(jù)分布的情況(3)高類內(nèi)相似度、低類間相似度(4)數(shù)據(jù)矩陣、相異度矩陣(5)處理數(shù)度快(6)度量或執(zhí)行錯誤、數(shù)據(jù)變異的結(jié)果(7)數(shù)據(jù)分布、分布參數(shù)、預(yù)期的孤立點數(shù)、單選題1)C;(2)C;(3

50、)C三、簡答題(1)數(shù)據(jù)挖掘?qū)垲惙治鲇心男┮??答:?)可擴展性:大多數(shù)來自于機器學習和統(tǒng)計學領(lǐng)域的聚類算法只在處理數(shù)百條數(shù)據(jù)時能表現(xiàn)出高效率(2)能夠處理不同的數(shù)據(jù)類型(3)發(fā)現(xiàn)任意形狀聚類的能力(4)最小化用于決定輸入?yún)?shù)的領(lǐng)域知識(5)能夠處理噪聲數(shù)據(jù)(6)對于輸入數(shù)據(jù)的順序不敏感:同一個數(shù)據(jù)集合,以不同的次序提交給同一個算法,應(yīng)該產(chǎn)生相似的結(jié)果(7)能夠高效地處理高維數(shù)據(jù)(8)支持基于約束的聚類(9)可解釋性和可用性:聚類要和特定的語義解釋和應(yīng)用相聯(lián)系(2)簡述基于劃分的聚類方法。劃分的準則是什么?答:給定一個n個對象或元組的數(shù)據(jù)庫,一個劃分方法構(gòu)建數(shù)據(jù)的k個劃分,每個劃分表示一個簇,并且k=n。每個簇至少包含一個對象,每個對象或元組屬于且僅屬于一個簇。劃分的準則是同一個聚類中的對象盡可能地接近或相關(guān),不同聚類中的對象盡可能地遠離或不同。(3)列舉孤立點挖掘的常見應(yīng)用。答:孤立點挖掘的常見應(yīng)用有(1)信用卡欺詐檢測(2)移動電話欺詐檢測(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論