數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)復(fù)習(xí)材料

上傳人：l*** IP屬地：天津上傳時(shí)間：2022-07-26 格式：DOCX 頁(yè)數(shù)：11 大?。?9.28KB 積分：18 舉報(bào) 版權(quán)申訴

數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)復(fù)習(xí)材料_第2頁(yè)

數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)復(fù)習(xí)材料_第3頁(yè)

數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)復(fù)習(xí)材料_第4頁(yè)

數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)復(fù)習(xí)材料_第5頁(yè)

已閱讀5頁(yè)，還剩6頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)復(fù)習(xí)資料一、單項(xiàng)選擇題數(shù)據(jù)挖掘技術(shù)包括三個(gè)主要的部分?jǐn)?shù)據(jù)、模型、技術(shù)C.數(shù)據(jù)、建模能力、算法與技術(shù)關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指：(D(C )算法、技術(shù)、領(lǐng)域知識(shí)D.建模能力、算法與技術(shù)、領(lǐng)域知識(shí))基本元數(shù)據(jù)與數(shù)據(jù)源，數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息；基本元數(shù)據(jù)包括日志文件和簡(jiǎn)歷執(zhí)行處理的時(shí)序調(diào)度信息;基本元數(shù)據(jù)包括關(guān)于裝載和更新處理，分析處理以及管理方面的信息。關(guān)于OLAP和OLTP的說(shuō)法，下列不正確的是：( A)OLAP事務(wù)量大，但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高OLAP的最終數(shù)據(jù)來(lái)源與OLTP不一樣OLTP面對(duì)的是決策

2、人員和高層管理人員OLTP以應(yīng)用為核心，是應(yīng)用驅(qū)動(dòng)的將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)?頻繁模式挖掘B.分類和預(yù)測(cè)下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?變量代換B.離散化在ID3算法中信息增益是指(D信息的溢出程度C.熵增加的程度最大以下哪個(gè)算法是基于規(guī)則的分類器A. C4.5B. KNN以下哪項(xiàng)關(guān)于決策樹(shù)的說(shuō)法是錯(cuò)誤的(A.B.C.D.C.數(shù)據(jù)預(yù)處理D.數(shù)據(jù)流挖掘(D )C.聚集D.估計(jì)遺漏值)信息的增加效益D.熵減少的程度最大A )(C. Bayes D. ANNC )冗余屬性不會(huì)對(duì)決策樹(shù)的準(zhǔn)確率造成不利的影響子樹(shù)可能在決策樹(shù)中重復(fù)多次決策樹(shù)算法對(duì)于噪聲的干擾非常

3、敏感尋找最佳決策樹(shù)是NP完全問(wèn)題假設(shè)收入屬性的最小與最大分別是10000和90000,現(xiàn)在想把當(dāng)前值30000映射到區(qū)間0,1,若采用最大一最小數(shù)據(jù)規(guī)范方法，計(jì)算結(jié)果是(A )A. 0.25B. 0.375C.0.125 D. 0.5在抽樣方法中，當(dāng)合適的樣本容量很難確定時(shí)，可以使用的抽樣方法是:（D ）A.有放回的簡(jiǎn)單隨機(jī)抽樣分層抽樣無(wú)放回的簡(jiǎn)單隨機(jī)抽樣漸進(jìn)抽樣當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí)，可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離？（ B）A.分類B.聚類 C.關(guān)聯(lián)分析D.隱馬爾可夫鏈設(shè)X=1，2, 3是頻繁項(xiàng)集，則可由X產(chǎn)生（C）個(gè)關(guān)聯(lián)規(guī)則。A.4B.5C.6D.7（ C ）

4、將兩個(gè)簇的鄰近度定義為不同簇的所有點(diǎn)對(duì)的平均逐對(duì)鄰近度，它是一種凝聚層次聚類技術(shù)。A. MIN （單鏈）B. MAX （全鏈）。.組平均 D. Ward方法只有非零值才重要的二元屬性被稱作：（C ）A.計(jì)數(shù)屬性B.離散屬性非對(duì)稱的二元屬性D.對(duì)稱屬性在基本K均值算法里，當(dāng)鄰近度函數(shù)采用（A ）的時(shí)候，合適的質(zhì)心是簇中各點(diǎn)的中位數(shù)。A.曼哈頓距離B.平方歐幾里德距離C.余弦距離 D.Bregman散度下面關(guān)于數(shù)據(jù)粒度的描述不正確的是：（C ）粒度是指數(shù)據(jù)倉(cāng)庫(kù)小數(shù)據(jù)單元的詳細(xì)程度和級(jí)別數(shù)據(jù)越詳細(xì)，粒度就越小，級(jí)別也就越高數(shù)據(jù)綜合度越高，粒度也就越大,級(jí)別也就越高粒度的具體劃分將直接影響數(shù)據(jù)倉(cāng)庫(kù)

5、中的數(shù)據(jù)量以及查詢質(zhì)量某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn)，買啤酒的人很大概率也會(huì)購(gòu)買尿布，這種屬于數(shù)據(jù)挖掘的哪類問(wèn)題？（B ）D.自然語(yǔ)言處理D.多維分析D.估計(jì)遺漏值A(chǔ).聚類B.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)C.分類OLAP技術(shù)的核心是：（D ）A.在線性B.對(duì)用戶的快速響應(yīng)C.互操作性下面哪種不屬于數(shù)據(jù)預(yù)處理的方法？（ D ）A.變量代換B.離散化C.聚集假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215使用如下每種方法將它們劃分成四個(gè)箱。等深劃分時(shí)，15在第幾個(gè)箱子內(nèi)？（ B ）A.第一個(gè)B.第二個(gè)C.第三個(gè)D.第四個(gè)上題中

6、，等寬劃分時(shí)（寬度為50）, 15又在哪個(gè)箱子里？（ A ）A.第一個(gè)B.第二個(gè)C.第三個(gè)D.第四個(gè)熵是為消除不確定性所需要獲得的信息量，投擲均勻正六面體骰子的熵是：（B ）A.lbitB.2.6bit C.3.2bitD.3.8bit假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī) 范化的方法將屬性的值映射到0至1的范圍內(nèi)。對(duì)屬性income的73600元將被轉(zhuǎn) 化為：（D ）A.0.821B.1.224C.1.458D.0.716假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下（按遞增序）： 13，15，16，16，19，20，20，21，22，

7、22，25，25，25，30，33，33，35，35，36, 40，45, 46, 52, 70,問(wèn)題：使用按箱平均值平滑方法對(duì)上述數(shù)據(jù)進(jìn)行平滑，箱的深度為3。第二個(gè)箱子值為：（A ）A. 18.3B. 22.6C. 26.8D.27.9給定兩個(gè)對(duì)象，分別用元組（22,1,42,10）和（20,0,36,8）表示，則這兩個(gè)對(duì)象之間的曼哈坦距離為：（）A.5B.11C.2.92D.2.24概念分層圖是（B ）圖。A.無(wú)向無(wú)環(huán)B.有向無(wú)環(huán)C.有向有環(huán)D.無(wú)向有環(huán)假設(shè)A為事件“產(chǎn)品合格”，B為“機(jī)器工作正?！?，現(xiàn)給出以下概率：機(jī)器工作正常，生產(chǎn)產(chǎn)品合格的概率為P（AIB）=0.95；機(jī)器不正常工作

8、時(shí)，生產(chǎn)產(chǎn)品合格的概率為P（A I B）=0.1；機(jī)器正常工作的概率，即P（B）=0.9。已知生產(chǎn)了一個(gè)不合格品，機(jī)器不正常工作的概率，即P（BI A）是（）。A. 0.90B. 0.333C. 0.667D. 0.05二、填空題數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、（集成的）、（具有特性的）、穩(wěn)定的數(shù)據(jù) 集合，用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程。OLAP的基本多維分析操作有（聚類）、切片、切塊以及（旋轉(zhuǎn)）等。多維數(shù)據(jù)集通常采用（星型）或雪花型架構(gòu)，以（事實(shí)）為中心，連接多個(gè)（維表）?？杖敝禂?shù)據(jù)的處理方法主要有使用默認(rèn)值、（屬性平均值）、（同類樣本平均值）和預(yù)測(cè)最可能的值等。平均互信息等于（信息）熵

9、減（條件）熵，表示不確定性的消除。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方式有3種：（監(jiān)督學(xué)習(xí)）、（非監(jiān)督學(xué)習(xí)）和再勵(lì)學(xué)習(xí)（強(qiáng) 化學(xué)習(xí)）。聚類分析的數(shù)據(jù)通?？煞譃閰^(qū)間標(biāo)度變量、二元變量、（標(biāo)稱變量）、（比例標(biāo)度變量）、序數(shù)型以及混合類型等。數(shù)據(jù)立方體是數(shù)據(jù)的多維建模和表示，由維和事實(shí)組成。維就是涉及的（屬性）、而事實(shí)是一個(gè)具體的（數(shù)據(jù)）。數(shù)據(jù)預(yù)處理的主要內(nèi)容（方法）包括（數(shù)據(jù)清洗）、（數(shù)據(jù)變換）、（數(shù) 據(jù)集成）和數(shù)據(jù)歸約等。關(guān)聯(lián)規(guī)則的經(jīng)典算法包括（Apriori ）算法和（FP_Growth ）算法，其中（FP_Growth ）算法的效率更高。非線性回歸的模型有：直接換元法、（間接代換法）和（非線性型）三種。人

10、工神經(jīng)網(wǎng)絡(luò)的特點(diǎn)和優(yōu)勢(shì)主要表現(xiàn)在具有（自學(xué)習(xí)）功能、具有（聯(lián)系存儲(chǔ)）功能和具有高速尋找優(yōu)化解的能力三個(gè)方面。ID3算法只能對(duì)描述屬性為（離散）型屬性的數(shù)據(jù)集構(gòu)造決策樹(shù)。 TOC o 1-5 h z 按照對(duì)應(yīng)的數(shù)據(jù)類型，Web挖掘可分為內(nèi)容挖掘、（）和（）。BP神經(jīng)網(wǎng)絡(luò)由（輸入）、（輸出）以及一或多個(gè)隱含結(jié)點(diǎn)組成。三、判斷題數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略，而在于對(duì)于已經(jīng)存在的數(shù)據(jù)進(jìn)行模式的發(fā)掘。（對(duì) ）模式為對(duì)數(shù)據(jù)集的全局性總結(jié)，它對(duì)整個(gè)測(cè)量空間的每一點(diǎn)做出描述；模型則對(duì)變量變化空間的一個(gè)有限區(qū)域做出描述。（錯(cuò)）數(shù)據(jù)倉(cāng)庫(kù)中間層OLAP服務(wù)器只能采用關(guān)系型OLAP。（錯(cuò)）特征提取技術(shù)并不依賴于

11、特定的領(lǐng)域。（錯(cuò)）定量屬性可以是整數(shù)值或者是連續(xù)值。（對(duì)）Web數(shù)據(jù)挖掘是通過(guò)數(shù)據(jù)庫(kù)仲的一些屬性來(lái)預(yù)測(cè)另一個(gè)屬性，它在驗(yàn)證用戶提出的假設(shè)過(guò)程中提取信息。（錯(cuò)）貝葉斯法是一種在已知后驗(yàn)概率與類條件概率的情況下的模式分類方法，待分 TOC o 1-5 h z 樣本的分類結(jié)果取決于各類域中樣本的全體。（錯(cuò)）給定由兩次運(yùn)行K均值產(chǎn)生的兩個(gè)不同的簇集，誤差的平方和最大的那個(gè)應(yīng)該被視為較優(yōu)。（錯(cuò)）。如果規(guī)則不滿足置信度閾值，則形成的規(guī)則一定也不滿足置信度閾值，其中是X的子集。（對(duì)）分類和回歸都可用于預(yù)測(cè)，分類的輸出是離散的類別值，而回歸的輸出是連續(xù)數(shù)值。（對(duì)）如果一個(gè)對(duì)象不強(qiáng)屬于任何簇，那么該對(duì)象是基于

12、聚類的離群點(diǎn)。（對(duì) ）K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法，簇的個(gè)數(shù)由算法自動(dòng)地確定。（錯(cuò)）數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則，從而能更好的完成描述數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)等任務(wù)。（對(duì) ）離散屬性總是具有有限個(gè)值。（錯(cuò) ）用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。（對(duì)）特征提取技術(shù)并不依賴于特定的領(lǐng)域。（錯(cuò)）定量屬性可以是整數(shù)值或者是連續(xù)值。（對(duì)）Web數(shù)據(jù)挖掘是通過(guò)數(shù)據(jù)庫(kù)仲的一些屬性來(lái)預(yù)測(cè)另一個(gè)屬性，它在驗(yàn)證用戶提出的假設(shè)過(guò)程中提取信息。（錯(cuò)）關(guān)聯(lián)規(guī)則挖掘過(guò)程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表的規(guī)則。（錯(cuò)）利用先驗(yàn)原理可以幫助減少頻繁項(xiàng)集產(chǎn)生時(shí)需要探查的候選項(xiàng)個(gè)數(shù)。（對(duì)

13、）具有較高的支持度的項(xiàng)集具有較高的置信度。（錯(cuò) ）聚類（clustering）是這樣的過(guò)程：它找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型（或函數(shù)），以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類。（錯(cuò) ）分類和回歸都可用于預(yù)測(cè)，分類的輸出是離散的類別值，而回歸的輸出是連續(xù)數(shù)值。（對(duì)）四、簡(jiǎn)答題設(shè)某事務(wù)項(xiàng)集構(gòu)成如表1所示，填空完成粗體字部分支持度和置信度的計(jì)算，保留1位小數(shù)。表1事務(wù)ID項(xiàng)集L2支持度規(guī)則置信度T1A,DA,B33.3A=B50T2D,EA,C33.3C=A60T3A,C,EA,D44.4A=D66.7T4A,B,D,EB,D33.3B=D75T5A,B,CC,D33.3C=D60T6A,B,

14、DD,E33.3D=E42.9T7A,C,DT8C,D,ET9B,C,D寫出非對(duì)稱二元變量相異度計(jì)算公式(即jaccard系數(shù))，并計(jì)算表2中各對(duì)象間的相異度。表2-試項(xiàng)目對(duì)象test-1test-2test-3test-4test-5test-6OBJ1YNPNNNOBJ2YNPNPNOBJ3NYNYNN解：Jaccard系數(shù)公式可描述為非對(duì)稱二元相異度二取值不同的同位屬性數(shù)/(單個(gè)元素的屬性位數(shù)-同取0的位數(shù))。d(i, j) = r +，其中r表示對(duì)象i取值為1,對(duì)象j取值為0； s表示對(duì) q + r + s象i取0值，對(duì)象j取1值，q表示對(duì)象i和j同取1值。d(OBJ 1，OBJ2

15、) = 0 +1 = - = 0.332 + 0 +1 3,. c 2 + 24 ,d(OBJ 1，OBJ3) = = 10 + 2 + 2 43 + 25d(OBJ2，OBJ3) = = 10 + 3 + 2 5給定兩個(gè)對(duì)象，分別用元組(22,1,42,10)和(20,0,36,8)表示計(jì)算兩個(gè)對(duì)象之間的歐幾里德的距離；計(jì)算兩個(gè)對(duì)象之間的曼哈坦距離；計(jì)算兩個(gè)對(duì)象間的明考斯基距離，q = 3。解：歐幾里德距離：d(i,j) = * (20 22)2 + (0 1)2 + (36 42)2 + (8 10)2 = 5 ；曼哈坦距離：d (i, j) = |20 22| +10-1| +136 4

16、2| +18-10 = 11 ；明考斯基距離，q=3。d(i, j)=20 22|3 +10 1|3 +136 42|3 +18 10|3 = 4.327。五、分析題已知某事務(wù)數(shù)據(jù)庫(kù)如表3所示，請(qǐng)采用FP-Growth算法繪制出FP-tree，要求畫出繪制過(guò)程。表3：事務(wù)數(shù)據(jù)庫(kù)TID項(xiàng)目列表T1I1,I2,I5T2I2,I3T3I2,I4T4I1,I2,I4T5I1,I4,I5T6I2,I3T7I3,I4T8I1,I2,I3,I5T9I1,I2,I3解：排序啟1頁(yè)集支持度計(jì)數(shù)頂集支持度訐數(shù)TID項(xiàng)目列表(iG5(127T112,11,157III5T2皿日03)5I3JS13仃441414T

17、4皿工1網(wǎng)!&3US】3TS皿工七15興算法的步驟噩1FF-h契耳法的步驟流在WT6蝕,13TT皿wTS皿瓦13,15T9皿口 131FF-tr打算法的步痢罹才圖：FP-tree給定表4所示的訓(xùn)練數(shù)據(jù)，數(shù)據(jù)樣本屬性age, income, student和credit_rating 描述。類標(biāo)號(hào)屬性buys_computer具有兩個(gè)不同值(即Yes,No)。給定一個(gè)沒(méi)有類標(biāo)號(hào)的數(shù)據(jù)樣本 X=(age=30, income=medium, student=yes, credit_rating=” fair” ),使用樸素貝葉斯分類預(yù)測(cè)這個(gè)數(shù)據(jù)樣本的類標(biāo)號(hào)。(10 分)表4數(shù)據(jù)庫(kù)訓(xùn)練數(shù)據(jù)元組RI

18、DageincomestudentCredit_ratingClass:buys_computer1=30highnofairNo240mediumnofairYes540lowyesfairYes640lowyesexcellentNo731-40lowyesexcellentYes8=30mediumnofairNo940mediumyesfairYes1140mediumnoexcellentNo解：(1)每個(gè)類的先驗(yàn)概率P(buys_computer=Yes)=9/14P(buys_computer =No)=5/14為計(jì)算P(X/Ci), i=1,2,計(jì)算下面的條件概率：P(age=30”| buys_computer =Yes)=2/9P(age=30”| buys_computer =No)=3/5P(income=medium| buys_computer =Yes)=4/9P(income=medium| buys_computer =No)=2/5P(student=yes| buys_computer =Yes)=6/9P(student=yes| buys_computer =No)=1/5P(credit_rating=fair”| buys_computer =Yes)=6/9P(credit_rating=fair| buys_computer

人人文庫(kù)> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)復(fù)習(xí)材料

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)復(fù)習(xí)材料

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔