數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)復習資料_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)復習資料_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)復習資料_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)復習資料_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)復習資料_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)復習資料一、單項選擇題1. 數(shù)據(jù)挖掘技術(shù)包括三個主要的部分A.數(shù)據(jù)、模型、技術(shù)BC.數(shù)據(jù)、建模能力、算法與技術(shù)2. 關于基本數(shù)據(jù)的元數(shù)據(jù)是指:(D)算法、技術(shù)、領域知識建模能力、算法與技術(shù)、領域知識A. 基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應用程序等結(jié)構(gòu)相關的信息;B. 基本元數(shù)據(jù)包括與企業(yè)相關的管理方面的數(shù)據(jù)和信息;C. 基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息;D. 基本元數(shù)據(jù)包括關于裝載和更新處理,分析處理以及管理方面的信息。3. 關于OLAF和OLTP勺說法,下列不正確的是:(A)A . OLAP事務量大,但事務內(nèi)容比較簡單且重復率高B . OLAP

2、的最終數(shù)據(jù)來源與OLTP不一樣C. OLTP面對的是決策人員和高層管理人員D . OLTP以應用為核心,是應用驅(qū)動的4. 將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務?(C )A.頻繁模式挖掘 B.分類和預測 C.5. 下面哪種不屬于數(shù)據(jù)預處理的方法?A.變量代換 B. 離散化6. 在ID3算法中信息增益是指(DA.信息的溢出程度B.C.熵增加的程度最大D.7. 以下哪個算法是基于規(guī)則的分類器A. C4.5 B. KNN C. Bayes8. 以下哪項關于決策樹的說法是錯誤的(數(shù)據(jù)預處理D.數(shù)據(jù)流挖掘A.B.C.(DC.聚集 D.估計遺漏值信息的增加效益 熵減少的程度最大

3、(A )D. ANN冗余屬性不會對決策樹的準確率造成不利的影響子樹可能在決策樹中重復多次決策樹算法對于噪聲的干擾非常敏感尋找最佳決策樹是NP 完全冋題D.9.假設收入屬性的最小與最大分別是10000和90000,現(xiàn)在想把當前值30000映射到區(qū)間0,1,若采用最大-最小數(shù)據(jù)規(guī)范方法,計算結(jié)果是( A )A. 0.25 B. 0.375C.0.125 D. 0.5在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是:)A.有放回的簡單隨機抽樣B.無放回的簡單隨機抽樣C.分層抽樣D.漸進抽樣當不知道數(shù)據(jù)所帶標簽時,可以使用哪種技術(shù)促使帶同類標簽的數(shù)據(jù)與帶其10.余弦距離 D.Bregma

4、n散度 )A. 粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別B. 數(shù)據(jù)越詳細,粒度就越小,級別也就越高C. 數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高D. 粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量17. 某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種 屬于數(shù)據(jù)挖掘的哪類問題? ( B)A.聚類 B.關聯(lián)規(guī)則發(fā)現(xiàn)C.18. OLAF技術(shù)的核心是:(D )A.在線性 B.對用戶的快速響應C.分類 D.自然語言處理互操作性D.多維分析11.他標簽的數(shù)據(jù)相分離? ( B)A. 分類 B. 聚類 C.關聯(lián)分析D.隱馬爾可夫鏈12. 設X=1, 2, 3是頻繁項集,則可由X

5、產(chǎn)生(C )個關聯(lián)規(guī)則。A.4B.5C.6D.713. ( C )將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度,它 是一種凝聚層次聚類技術(shù)。A . MIN (單鏈)B. MAX (全鏈)C.組平均 D . Ward方法14. 只有非零值才重要的二元屬性被稱作:(C )A.計數(shù)屬性B.離散屬性C.非對稱的二元屬性D.對稱屬性A )的時候,合適的質(zhì)心是15. 在基本K均值算法里,當鄰近度函數(shù)采用( 簇中各點的中位數(shù)。A.曼哈頓距離B.平方歐幾里德距離 C.16. 下面關于數(shù)據(jù)粒度的描述不正確的是:(C聚集 D.5, 10, 11, 13, 15, 35, 50, 55,15在第19. 下

6、面哪種不屬于數(shù)據(jù)預處理的方法?(估計遺漏值A.變量代換 B. 離散化C.20. 假設12個銷售價格記錄組已經(jīng)排序如下:72, 92, 204, 215 使用如下每種方法將它們劃分成四個箱。等深劃分時, 幾個箱子內(nèi)? ( B )A.第一個B.第二個C.第三個D.21. 上題中,等寬劃分時(寬度為 50),15又在哪個箱子里? ( A )A.第一個B.第二個C.第三個D.22. 熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是:(B )A.1bit B.2.6bit C.3.2bit D.3.8bit23. 假設屬性in come的最大最小值分別是12000元和98000元。利用最

7、大最小規(guī) 范化的方法將屬性的值映射到 0至1的范圍內(nèi)。對屬性in come的73600元將被轉(zhuǎn) 化為:(D )A.0.821B.1.224C.1.458D.0.71624. 假定用于分析的數(shù)據(jù)包含屬性 age。數(shù)據(jù)元組中age的值如下(按遞增序): 13,15,16,16,19,20,20,21,22,22,25,25,25,30, 33,33,35,35,36, 40, 45, 46, 52, 70,問題:使用按箱平均值平滑方法對上述數(shù)據(jù)進行平滑, 箱的深度為3。第二個箱子值為:(A )A. 18.3 B. 22.625. 給定兩個對象,分別用元組(第二個第三個第四個第四個C. 26.8D.

8、27.922,1,42,10)和(20,0,36,8 )表示,則這兩個對象之間的曼哈坦距離為:A.5B.11C.2.92D.2.2426. 概念分層圖是(A.無向無環(huán)27. 假設A為事件)圖。B.有向無環(huán)C.有向有環(huán)D.無向有環(huán)“產(chǎn)品合格”,B為“機器工作正?!保F(xiàn)給出以下概率:機器工作正常,生產(chǎn)產(chǎn)品合格的概率為P (A|B)=0.95;機器不正常工作時,生產(chǎn)產(chǎn)品合格的概率為P(A| B) =0.1;機器正常工作的概率,即P(B)=0.9。已知生產(chǎn)了一個不合格品,機器不正常工作的概率,即 P(B|A)是(A.0.90二、填空題B. 0.333C. 0.667D. 0.051.數(shù)據(jù)倉庫是面向主題

9、的、( 集成的具有特性的)、穩(wěn)定的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。2. OLAP的基本多維分析操作有(聚類 )、切片、切塊以及( 旋轉(zhuǎn))等。3.多維數(shù)據(jù)集通常采用(星型)或雪花型架構(gòu),以( 事實)為中心,連接多個(維表)。4.空缺值數(shù)據(jù)的處理方法主要有使用默認值、(屬性平均值)、(同類樣本平均值)和預測最可能的值等。5平均互信息等于(信息)熵減(條件)熵,表示不確定性的消除。6. 神經(jīng)網(wǎng)絡的學習方式有3種:(監(jiān)督學習)、(非監(jiān)督學習)和再勵學習(強化學習)。7. 聚類分析的數(shù)據(jù)通??煞譃閰^(qū)間標度變量、二元變量、(標稱變量)、(比例 標度變量)、序數(shù)型以及混合類型等。8數(shù)據(jù)立方體是數(shù)

10、據(jù)的多維建模和表示,由維和事實組成。維就是涉及的(性)、而事實是一個具體的(數(shù)據(jù))。)、(數(shù)9. 數(shù)據(jù)預處理的主要內(nèi)容(方法)包括(數(shù)據(jù)清洗)、(數(shù)據(jù)變換據(jù)集成)和數(shù)據(jù)歸約等。10. 關聯(lián)規(guī)則的經(jīng)典算法包括( Apriori )算法和(FP_Growth)算法,其中(FPGrowth)算法的效率更高。11. 非線性回歸的模型有:直接換元法、(間接代換法)和(非線性型)三種。12. 人工神經(jīng)網(wǎng)絡的特點和優(yōu)勢主要表現(xiàn)在具有(自學習)功能、具有(聯(lián)系存 儲)功能和具有高速尋找優(yōu)化解的能力三個方面。13. ID3算法只能對描述屬性為(離散)型屬性的數(shù)據(jù)集構(gòu)造決策樹。14. 按照對應的數(shù)據(jù)類型,Web挖

11、掘可分為內(nèi)容挖掘、()和(15.BP神經(jīng)網(wǎng)絡由(輸入)、(輸出)以及一或多個隱含結(jié)點組成。三、判斷題1. 數(shù)據(jù)挖掘的目標不在于數(shù)據(jù)采集策略,而在于對于已經(jīng)存在的數(shù)據(jù)進行模式的發(fā)掘。2. 模式為對數(shù)據(jù)集的全局性總結(jié),它對整個測量空間的每一點做出描述;模型則對變量變化空間的一個有限區(qū)域做出描述。錯)3.數(shù)據(jù)倉庫中間層OLAP服務器只能采用關系型OLAP錯)4.特征提取技術(shù)并不依賴于特定的領域。5.定量屬性可以是整數(shù)值或者是連續(xù)值。對)6. Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預測另一個屬性,它在驗證用戶提出的假設過程中提取信息。( 錯)7.貝葉斯法是一種在已知后驗概率與類條件概率的情況下的模式

12、分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。錯)8.給定由兩次運行K均值產(chǎn)生的兩個不同的簇集,誤差的平方和最大的那個應該被視為較優(yōu)。錯)。9.如果規(guī)則不滿足置信度閾值,則形成的規(guī)則一定也不滿足置信度閾值,其中是X的子集。對)10.分類和回歸都可用于預測,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。11.如果一個對象不強屬于任何簇,那么該對象是基于聚類的離群點。(對12. K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個數(shù)由算法自動地確定。(錯13.數(shù)據(jù)挖掘的主要任務是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預測數(shù)據(jù)等任務。14.離散屬性總是具有有限個值。15.用于

13、分類的離散化方法之間的根本區(qū)別在于是否使用類信息。16.特征提取技術(shù)并不依賴于特定的領域。17.定量屬性可以是整數(shù)值或者是連續(xù)值。18. Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預測另一個屬性,它在驗證用戶提出的假設過程中提取信息。( 錯)19.關聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表的規(guī)則。(錯 )20.利用先驗原理可以幫助減少頻繁項集產(chǎn)生時需要探查的候選項個數(shù)。對)21.具有較高的支持度的項集具有較高的置信度。(錯22.函數(shù)),以便能夠使用模型預測類標記未知的對象類。(錯聚類(clustering )是這樣的過程:它找出描述并區(qū)分數(shù)據(jù)類或概念的模型23.分類和回歸都可用于預測,分

14、類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。四、簡答題1設某事務項集構(gòu)成如表1所示,填空完成粗體字部分支持度和置信度的計算,保留1位小數(shù)。表1事務ID項集L2支持度%規(guī)則置信度%T1A,DA,B33.3A=B50T2D,EA,C33.3C=A60T3A,C,EA,D44.4A=D66.7T4a,b,d,eB,D33.3B=D75T5A,B,CC,D33.3C=D60T6a,b,dD,E33.3D=E42.9T7A,C,DT8C,D,ET9B,C,D2.寫出非對稱二元變量相異度計算公式(即jaccard系數(shù)),并計算表2中各對象間 的相異度。表2、測試項目 對象test-1test-2tes

15、t-3test-4test-5test-6OBJ1YNPNNNOBJ2YNPNPNOBJ3NYNYNN解:Jaccard系數(shù)公式可描述為非對稱二元相異度=取值不同的同位屬性數(shù)/(單個元素的屬性位數(shù)-同取0的位 數(shù))。d(i, j) r s ,其中r表示對象i取值為1,對象j取值為0; s表示對q r s象i取0值,對象j取1值,q表示對象i和j同取1值。d(0BJ1,OBJ 2)d(OBJ1,OBJ3)d(OBJ2,OBJ 3)0 12 0 12 20 2 23 20 321344550.333.給定兩個對象,分別用元組22,1,42,10) 和( 20,0,36,8 )表示(a)計算兩個對象

16、之間的歐幾里德的距離;(b)計算兩個對象之間的曼哈坦距離;q = 3。(c)計算兩個對象間的明考斯基距離,解:(a) 歐幾里德距離:d(i,j) v(20 22)2 (0 1)2 (36 42)2 (8 10)25;(b) 曼哈坦距離:d(i,j) |20 22 |0 1 |36 42 |8 g 11 ;(C)明考斯基距離,d(i,j) V|20 22五、分析題1.已知某事務數(shù)據(jù)庫如表q=3o336421034.327 。畫出繪制過程。3所示,請米用FP-Growth算法繪制出FP-tree,要求TID項目列表T111,12,15T2I2,I3T3I2,I4T4I1,I2,I4T5I1,I4,

17、I5T6I2,I3T7I3,I4T8I1,I2,I3,I5T9I1,I2,I3表3:事務數(shù)據(jù)庫1顯SrtfiEHUnnsu?7任討s3解:1 sm支持JE計戲功7(lU5冋5斗1冋3FFW 甬老的歩痢程n頃a晰T112AKK1202,13】Ti鳴14TATSut m引T&TTEIXI4Taas, Tt 13, IST孕2.給定表4所示的訓練數(shù)據(jù),數(shù)據(jù)樣本屬性age,income,student和credit_rating描述。類標號屬性類標號的數(shù)據(jù)樣本credit_rati ng= ”buys_computer具有兩個不同值(即Yes,No)。給定一個沒有X=(age=” =30”,incom

18、e=” medium” , student= ” yes”fair ”),使用樸素貝葉斯分類預測這個數(shù)據(jù)樣本的類標號。(10分)表4數(shù)據(jù)庫訓練數(shù)據(jù)元組RIDagein comestude ntCredit rat ingClass:buys co mpu ter1=30highnofairNo240mediumnofairYes540lowyesfairYes640lowyesexcelle ntNo731 40lowyesexcelle ntYes8=30mediumnofairNo940mediumyesfairYes1140mediumnoexcelle ntNo解:(1)每個類的先驗概率P (buys_com pu ter=Yes”)=9/14P (buys_co mp uter = No”)=5/14(2)為計算P(X/Ci),i=1,2,計算下面的條件概率:P( agev=30”|buys_co mpu ter =Yes”)=2/9P( agev=30”|buys_co m

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論