數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)復(fù)習(xí)材料_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)復(fù)習(xí)材料_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)復(fù)習(xí)材料_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)復(fù)習(xí)材料_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)復(fù)習(xí)材料_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)復(fù)習(xí)資料一、單項(xiàng)選擇題數(shù)據(jù)挖掘技術(shù)包括三個(gè)主要的部分?jǐn)?shù)據(jù)、模型、技術(shù)C.數(shù)據(jù)、建模能力、算法與技術(shù)關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指:(D(C )算法、技術(shù)、領(lǐng)域知識(shí)D.建模能力、算法與技術(shù)、領(lǐng)域知識(shí))基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息;基本元數(shù)據(jù)包括日志文件和簡(jiǎn)歷執(zhí)行處理的時(shí)序調(diào)度信息;基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息。關(guān)于OLAP和OLTP的說(shuō)法,下列不正確的是:( A)OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高OLAP的最終數(shù)據(jù)來(lái)源與OLTP不一樣OLTP面對(duì)的是決策

2、人員和高層管理人員OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動(dòng)的將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)?頻繁模式挖掘B.分類和預(yù)測(cè)下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?變量代換B.離散化在ID3算法中信息增益是指(D信息的溢出程度C.熵增加的程度最大以下哪個(gè)算法是基于規(guī)則的分類器A. C4.5B. KNN以下哪項(xiàng)關(guān)于決策樹(shù)的說(shuō)法是錯(cuò)誤的(A.B.C.D.C.數(shù)據(jù)預(yù)處理D.數(shù)據(jù)流挖掘(D )C.聚集D.估計(jì)遺漏值)信息的增加效益D.熵減少的程度最大A )(C. Bayes D. ANNC )冗余屬性不會(huì)對(duì)決策樹(shù)的準(zhǔn)確率造成不利的影響子樹(shù)可能在決策樹(shù)中重復(fù)多次決策樹(shù)算法對(duì)于噪聲的干擾非常

3、敏感尋找最佳決策樹(shù)是NP完全問(wèn)題假設(shè)收入屬性的最小與最大分別是10000和90000,現(xiàn)在想把當(dāng)前值30000映射到區(qū)間0,1,若采用最大一最小數(shù)據(jù)規(guī)范方法,計(jì)算結(jié)果是(A )A. 0.25B. 0.375C.0.125 D. 0.5在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是:(D )A.有放回的簡(jiǎn)單隨機(jī)抽樣分層抽樣無(wú)放回的簡(jiǎn)單隨機(jī)抽樣漸進(jìn)抽樣當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?( B)A.分類B.聚類 C.關(guān)聯(lián)分析D.隱馬爾可夫鏈設(shè)X=1,2, 3是頻繁項(xiàng)集,則可由X產(chǎn)生(C)個(gè)關(guān)聯(lián)規(guī)則。A.4B.5C.6D.7( C )

4、將兩個(gè)簇的鄰近度定義為不同簇的所有點(diǎn)對(duì)的平均逐對(duì)鄰近度,它 是一種凝聚層次聚類技術(shù)。A. MIN (單鏈)B. MAX (全鏈)。.組平均 D. Ward方法只有非零值才重要的二元屬性被稱作:(C )A.計(jì)數(shù)屬性B.離散屬性非對(duì)稱的二元屬性D.對(duì)稱屬性在基本K均值算法里,當(dāng)鄰近度函數(shù)采用(A )的時(shí)候,合適的質(zhì)心是 簇中各點(diǎn)的中位數(shù)。A.曼哈頓距離B.平方歐幾里德距離C.余弦距離 D.Bregman散度下面關(guān)于數(shù)據(jù)粒度的描述不正確的是:(C )粒度是指數(shù)據(jù)倉(cāng)庫(kù)小數(shù)據(jù)單元的詳細(xì)程度和級(jí)別數(shù)據(jù)越詳細(xì),粒度就越小,級(jí)別也就越高數(shù)據(jù)綜合度越高,粒度也就越大,級(jí)別也就越高粒度的具體劃分將直接影響數(shù)據(jù)倉(cāng)庫(kù)

5、中的數(shù)據(jù)量以及查詢質(zhì)量某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購(gòu)買尿布,這種 屬于數(shù)據(jù)挖掘的哪類問(wèn)題?(B )D.自然語(yǔ)言處理D.多維分析D.估計(jì)遺漏值A(chǔ).聚類B.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)C.分類OLAP技術(shù)的核心是:(D )A.在線性B.對(duì)用戶的快速響應(yīng)C.互操作性下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?( D )A.變量代換B.離散化C.聚集假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215使用如下每種方法將它們劃分成四個(gè)箱。等深劃分時(shí),15在第 幾個(gè)箱子內(nèi)? ( B )A.第一個(gè)B.第二個(gè)C.第三個(gè)D.第四個(gè)上題中

6、,等寬劃分時(shí)(寬度為50), 15又在哪個(gè)箱子里? ( A )A.第一個(gè)B.第二個(gè)C.第三個(gè)D.第四個(gè)熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是:(B )A.lbitB.2.6bit C.3.2bitD.3.8bit假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī) 范化的方法將屬性的值映射到0至1的范圍內(nèi)。對(duì)屬性income的73600元將被轉(zhuǎn) 化為:(D )A.0.821B.1.224C.1.458D.0.716假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序): 13,15,16,16,19,20,20,21,22,

7、22,25,25,25,30,33,33,35,35,36, 40,45, 46, 52, 70,問(wèn)題:使用按箱平均值平滑方法對(duì)上述數(shù)據(jù)進(jìn)行平滑, 箱的深度為3。第二個(gè)箱子值為:(A )A. 18.3B. 22.6C. 26.8D.27.9給定兩個(gè)對(duì)象,分別用元組(22,1,42,10)和(20,0,36,8)表示,則這兩個(gè)對(duì)象之間的曼哈坦距離為:()A.5B.11C.2.92D.2.24概念分層圖是(B )圖。A.無(wú)向無(wú)環(huán)B.有向無(wú)環(huán)C.有向有環(huán)D.無(wú)向有環(huán)假設(shè)A為事件“產(chǎn)品合格”,B為“機(jī)器工作正?!?,現(xiàn)給出以下概率:機(jī)器工作正常,生產(chǎn)產(chǎn)品合格的概率為P(AIB)=0.95;機(jī)器不正常工作

8、時(shí),生產(chǎn)產(chǎn)品合 格的概率為P(A I B)=0.1;機(jī)器正常工作的概率,即P(B)=0.9。已知生產(chǎn)了一個(gè)不 合格品,機(jī)器不正常工作的概率,即P(BI A)是()。A. 0.90B. 0.333C. 0.667D. 0.05二、填空題數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、( 集成的 )、(具有特性的)、穩(wěn)定的數(shù)據(jù) 集合,用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程。OLAP的基本多維分析操作有(聚類)、切片、切塊以及(旋轉(zhuǎn))等。多維數(shù)據(jù)集通常采用(星型)或雪花型架構(gòu),以(事實(shí))為中心,連 接多個(gè)(維表)??杖敝禂?shù)據(jù)的處理方法主要有使用默認(rèn)值、(屬性平均值)、(同類樣本平均值) 和預(yù)測(cè)最可能的值等。平均互信息等于(信息)熵

9、減(條件)熵,表示不確定性的消除。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方式有3種:(監(jiān)督學(xué)習(xí))、(非監(jiān)督學(xué)習(xí))和再勵(lì)學(xué)習(xí)(強(qiáng) 化學(xué)習(xí))。聚類分析的數(shù)據(jù)通??煞譃閰^(qū)間標(biāo)度變量、二元變量、(標(biāo)稱變量)、(比例 標(biāo)度變量)、序數(shù)型以及混合類型等。數(shù)據(jù)立方體是數(shù)據(jù)的多維建模和表示,由維和事實(shí)組成。維就是涉及的(屬 性)、而事實(shí)是一個(gè)具體的(數(shù)據(jù))。數(shù)據(jù)預(yù)處理的主要內(nèi)容(方法)包括(數(shù)據(jù)清洗)、(數(shù)據(jù)變換 )、(數(shù) 據(jù)集成)和數(shù)據(jù)歸約等。關(guān)聯(lián)規(guī)則的經(jīng)典算法包括(Apriori )算法和(FP_Growth )算法,其中(FP_Growth )算法的效率更高。非線性回歸的模型有:直接換元法、(間接代換法)和(非線性型)三種。人

10、工神經(jīng)網(wǎng)絡(luò)的特點(diǎn)和優(yōu)勢(shì)主要表現(xiàn)在具有(自學(xué)習(xí))功能、具有(聯(lián)系存 儲(chǔ))功能和具有高速尋找優(yōu)化解的能力三個(gè)方面。ID3算法只能對(duì)描述屬性為(離散)型屬性的數(shù)據(jù)集構(gòu)造決策樹(shù)。 TOC o 1-5 h z 按照對(duì)應(yīng)的數(shù)據(jù)類型,Web挖掘可分為內(nèi)容挖掘、()和()。BP神經(jīng)網(wǎng)絡(luò)由(輸入)、(輸出)以及一或多個(gè)隱含結(jié)點(diǎn)組成。三、判斷題數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略,而在于對(duì)于已經(jīng)存在的數(shù)據(jù)進(jìn)行模式的發(fā)掘。(對(duì) )模式為對(duì)數(shù)據(jù)集的全局性總結(jié),它對(duì)整個(gè)測(cè)量空間的每一點(diǎn)做出描述;模型則對(duì)變量變化空間的一個(gè)有限區(qū)域做出描述。(錯(cuò))數(shù)據(jù)倉(cāng)庫(kù)中間層OLAP服務(wù)器只能采用關(guān)系型OLAP。(錯(cuò))特征提取技術(shù)并不依賴于

11、特定的領(lǐng)域。(錯(cuò))定量屬性可以是整數(shù)值或者是連續(xù)值。(對(duì))Web數(shù)據(jù)挖掘是通過(guò)數(shù)據(jù)庫(kù)仲的一些屬性來(lái)預(yù)測(cè)另一個(gè)屬性,它在驗(yàn)證用戶提出的假設(shè)過(guò)程中提取信息。(錯(cuò))貝葉斯法是一種在已知后驗(yàn)概率與類條件概率的情況下的模式分類方法,待分 TOC o 1-5 h z 樣本的分類結(jié)果取決于各類域中樣本的全體。(錯(cuò))給定由兩次運(yùn)行K均值產(chǎn)生的兩個(gè)不同的簇集,誤差的平方和最大的那個(gè)應(yīng)該被視為較優(yōu)。(錯(cuò))。如果規(guī)則不滿足置信度閾值,則形成的規(guī)則一定也不滿足置信度閾值,其中是X的子集。( 對(duì))分類和回歸都可用于預(yù)測(cè),分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。(對(duì))如果一個(gè)對(duì)象不強(qiáng)屬于任何簇,那么該對(duì)象是基于

12、聚類的離群點(diǎn)。(對(duì) )K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個(gè)數(shù)由算法自動(dòng)地確定。(錯(cuò))數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)等任務(wù)。(對(duì) )離散屬性總是具有有限個(gè)值。(錯(cuò) )用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。(對(duì))特征提取技術(shù)并不依賴于特定的領(lǐng)域。(錯(cuò))定量屬性可以是整數(shù)值或者是連續(xù)值。(對(duì))Web數(shù)據(jù)挖掘是通過(guò)數(shù)據(jù)庫(kù)仲的一些屬性來(lái)預(yù)測(cè)另一個(gè)屬性,它在驗(yàn)證用戶提出的假設(shè)過(guò)程中提取信息。( 錯(cuò))關(guān)聯(lián)規(guī)則挖掘過(guò)程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表的規(guī)則。(錯(cuò))利用先驗(yàn)原理可以幫助減少頻繁項(xiàng)集產(chǎn)生時(shí)需要探查的候選項(xiàng)個(gè)數(shù)。( 對(duì)

13、)具有較高的支持度的項(xiàng)集具有較高的置信度。(錯(cuò) )聚類(clustering)是這樣的過(guò)程:它找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類。(錯(cuò) )分類和回歸都可用于預(yù)測(cè),分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。( 對(duì))四、簡(jiǎn)答題設(shè)某事務(wù)項(xiàng)集構(gòu)成如表1所示,填空完成粗體字部分支持度和置信度的計(jì)算, 保留1位小數(shù)。表1事務(wù)ID項(xiàng)集L2支持度規(guī)則置信度T1A,DA,B33.3A=B50T2D,EA,C33.3C=A60T3A,C,EA,D44.4A=D66.7T4A,B,D,EB,D33.3B=D75T5A,B,CC,D33.3C=D60T6A,B,

14、DD,E33.3D=E42.9T7A,C,DT8C,D,ET9B,C,D寫出非對(duì)稱二元變量相異度計(jì)算公式(即jaccard系數(shù)),并計(jì)算表2中各對(duì)象間 的相異度。表2-試項(xiàng)目 對(duì)象test-1test-2test-3test-4test-5test-6OBJ1YNPNNNOBJ2YNPNPNOBJ3NYNYNN解:Jaccard系數(shù)公式可描述為非對(duì)稱二元相異度二取值不同的同位屬性數(shù)/(單個(gè)元素的屬性位數(shù)-同取0的位數(shù))。d(i, j) = r +,其中r表示對(duì)象i取值為1,對(duì)象j取值為0; s表示對(duì) q + r + s象i取0值,對(duì)象j取1值,q表示對(duì)象i和j同取1值。d(OBJ 1,OBJ2

15、) = 0 +1 = - = 0.332 + 0 +1 3,. c 2 + 24 ,d(OBJ 1,OBJ3) = = 10 + 2 + 2 43 + 25d(OBJ2,OBJ3) = = 10 + 3 + 2 5給定兩個(gè)對(duì)象,分別用元組(22,1,42,10)和(20,0,36,8)表示計(jì)算兩個(gè)對(duì)象之間的歐幾里德的距離;計(jì)算兩個(gè)對(duì)象之間的曼哈坦距離;計(jì)算兩個(gè)對(duì)象間的明考斯基距離,q = 3。解:歐幾里德距離:d(i,j) = * (20 22)2 + (0 1)2 + (36 42)2 + (8 10)2 = 5 ;曼哈坦距離:d (i, j) = |20 22| +10-1| +136 4

16、2| +18-10 = 11 ;明考斯基距離,q=3。d(i, j)=20 22|3 +10 1|3 +136 42|3 +18 10|3 = 4.327。五、分析題已知某事務(wù)數(shù)據(jù)庫(kù)如表3所示,請(qǐng)采用FP-Growth算法繪制出FP-tree,要求 畫出繪制過(guò)程。表3:事務(wù)數(shù)據(jù)庫(kù)TID項(xiàng)目列表T1I1,I2,I5T2I2,I3T3I2,I4T4I1,I2,I4T5I1,I4,I5T6I2,I3T7I3,I4T8I1,I2,I3,I5T9I1,I2,I3解:排序啟1頁(yè)集支持度計(jì)數(shù)頂集支持度訐數(shù)TID項(xiàng)目列表(iG5(127T112,11,157III5T2皿日03)5I3JS13仃441414T

17、4皿工1網(wǎng)!&3US】3TS皿工七15興算法的步驟噩1FF-h契耳法的步驟流在WT6蝕,13TT皿wTS皿瓦13,15T9皿口 131FF-tr打算法的步痢罹才圖:FP-tree給定表4所示的訓(xùn)練數(shù)據(jù),數(shù)據(jù)樣本屬性age, income, student和credit_rating 描述。類標(biāo)號(hào)屬性buys_computer具有兩個(gè)不同值(即Yes,No)。給定一個(gè)沒(méi)有 類標(biāo)號(hào)的數(shù)據(jù)樣本 X=(age=30, income=medium, student=yes, credit_rating=” fair” ),使用樸素貝葉斯分類預(yù)測(cè)這個(gè)數(shù)據(jù)樣本的類標(biāo)號(hào)。(10 分)表4數(shù)據(jù)庫(kù)訓(xùn)練數(shù)據(jù)元組RI

18、DageincomestudentCredit_ratingClass:buys_computer1=30highnofairNo240mediumnofairYes540lowyesfairYes640lowyesexcellentNo731-40lowyesexcellentYes8=30mediumnofairNo940mediumyesfairYes1140mediumnoexcellentNo解:(1)每個(gè)類的先驗(yàn)概率P(buys_computer=Yes)=9/14P(buys_computer =No)=5/14為計(jì)算P(X/Ci), i=1,2,計(jì)算下面的條件概率:P(age=30”| buys_computer =Yes)=2/9P(age=30”| buys_computer =No)=3/5P(income=medium| buys_computer =Yes)=4/9P(income=medium| buys_computer =No)=2/5P(student=yes| buys_computer =Yes)=6/9P(student=yes| buys_computer =No)=1/5P(credit_rating=fair”| buys_computer =Yes)=6/9P(credit_rating=fair| buys_computer

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論