數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試試題

上傳人：y*** IP屬地：天津上傳時間：2022-01-15 格式：DOCX 頁數(shù)：7 大?。?0.36KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、一、填空題（15分）1.數(shù)據(jù)倉庫的特點分別是面向主題、集成、相對穩(wěn)定、反映歷史變化。技術(shù)2.元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。根據(jù)元數(shù)據(jù)用途的不同可將元數(shù)據(jù)分為元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類。3.0LA P技術(shù)多維分析過程中，多維分析操作包括切片切塊鉆取、旋轉(zhuǎn)等?！爸行暮洼椛洹奔軜?gòu)，其中企4.基于依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲的數(shù)據(jù)倉庫體系結(jié)構(gòu)常常被稱為業(yè)級數(shù)據(jù)倉庫是中心，源數(shù)據(jù)系統(tǒng)和數(shù)據(jù)集市在輸入和輸出范圍的兩端。5.0DS實際上是一個集成的、面向主題的、可更新的、當前值的企業(yè)級的、詳細的數(shù)據(jù)庫，也叫運營數(shù)據(jù)存儲。二、多項選擇題（10分）6.在數(shù)據(jù)挖掘的分析方法中,直接數(shù)據(jù)挖掘包括（

2、ACD )A分類 B關(guān)聯(lián)估值預(yù)言7. 數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程中，ETL軟件的主要功能包括(ABC)A數(shù)據(jù)抽取B數(shù)據(jù)轉(zhuǎn)換C數(shù)據(jù)加載D數(shù)據(jù)稽核8. 數(shù)據(jù)分類的評價準則包括（ABCD ）A精確度 B 查全率和查準率 C F-Measure D幾何均值9. 層次聚類方法包括（BC ）A劃分聚類方法 B凝聚型層次聚類方法C分解型層次聚類方法D基于密度聚類方法10. 貝葉斯網(wǎng)絡(luò)由兩部分組成，分別是（A DA網(wǎng)絡(luò)結(jié)構(gòu) B先驗概率C后驗概率D 條件概率表三、計算題（30 分）其中每一條事務(wù)表示在一項收款機業(yè)務(wù)中賣出的項目,11. 一個食品連鎖店每周的事務(wù)記錄如下表所示，定sup min=40% conf m

3、in=40%使用ApWri算法計算生成的關(guān)聯(lián)規(guī)則，標明每趟數(shù)據(jù)庫掃描時的候選集和大項目集。（15分）事務(wù)項目事務(wù)項目T1面包、果凍、花生醬T4啤酒、面包T2面包、花生醬T5啤酒、牛奶T3面包、牛奶、花生醬解：（1）由1=面包、果凍、花生醬、牛奶、啤酒的所有項目直接產(chǎn)生1-候選Ci,計算其支持度，取出支持度小于SUp的項集，形成1-頻繁集L1，如下表所示：項集C1支持度項集L1支持度面包4/5面包4/5花生醬3/5花生醬3/5牛奶2/5牛奶2/5啤酒2/5啤酒2/5 組合連接L1中的各項目，產(chǎn)生 2-候選集C2，計算其支持度，取出支持度小于sup的項集，形成2-頻繁集L2,如下表所示：項集G支

4、持度項集L2支持度面包、花生醬3/5面包、花生醬3/5至此，所有頻繁集都被找到，算法結(jié)束,所以，confidence (面包宀花生醬) = (4/5 ) / (3/5 ) =4/3> conf confidence (花生醬宀面包) = (3/5 ) / (4/5 ) =3/4> conf min所以，關(guān)聯(lián)規(guī)則面包 T花生醬、花生醬 T面包均是強關(guān)聯(lián)規(guī)則。12.給定以下數(shù)據(jù)集（2, 4, 10,歐式距離計算。（15分）12，15, 3，21），進行K-Means聚類，設(shè)定聚類數(shù)為 2個，相似度按照解：（1）從數(shù)據(jù)集X中隨機地選擇題可知k=2，則可設(shè) m=2, m=4：k個數(shù)據(jù)樣本作

5、為聚類的出示代表點，每一個代表點表示一個類別，由（2 ）對于X中的任意數(shù)據(jù)樣本 xm最近的初始代表點所表示的類別中：當（Kxmvtotal）,計算它與k個初始代表點的距離，并且將它劃分到距離m=2時，樣本（2 , 4, 10, 12, 15, 3, 21）距離該代表點的距離分別為 2，8，10，13，1，19。當 m=4 時，樣本（2，4，10，12，15, 3, 21）距離該代表點的距離分別為-2 , 6, 8, 11, -1 , 17。最小距離是1或者-1將該元素放入m=2的聚類中，則該聚類為（2，3），另一個聚類 m=4為（4，10，12,15，21)。（3）完成數(shù)據(jù)樣本的劃分之后，對于

6、每一個聚類，計算其中所有數(shù)據(jù)樣本的均值，并且將其作為該聚類的新的代表點，由此得到 k個均值代表點：m=2.5 , m=12 :（4）對于X中的任意數(shù)據(jù)樣本xm （1<xm<total ）,計算它與k個初始代表點的距離,最近的初始代表點所表示的類別中：當m=2.5時，樣本（2 , 4, 10, 12, 15, 3,離分別為-0.5 , 0.5 , 1.5 , 7.5 , 9.5 , 12.5 , 18.5。并且將它劃分到距離21）距離該代表點的距當m=12時，樣本（2，4，10，12，15，3，21）距離該代表點的距離分別為-10，-9，-8，2, 3, 9。最小距離是1.5將該元

7、素放入 m=2.5的聚類中，則該聚類為（2, 3, 4）,另一個聚類 m=12為（10, 12,15, 21)。（5）完成數(shù)據(jù)樣本的劃分之后，對于每一個聚類，計算其中所有數(shù)據(jù)樣本的均值，并且將其作為該聚類的類型新的代表點，由此得到 k個均值代表點：m=3, m2=14.5 :(6)對于X中的任意數(shù)據(jù)樣本xm( 1<xm<total ),計算它與k個初始代表點的距離，并且將它劃分到距離最近的初始代表點所表示的類別中：當m=3時，樣本(2 , 4, 10, 12, 15, 3, 21)距離該代表點的距離分別為-1 ,1 , 7, 9, 12, 18,0當 m=i4.5-4.5 , -

8、2.5,0.5 , 6.5。時，樣本（2 , 4, 10, 12, 15, 3, 21）距離該代表點的距離分別為-12.58 , -11.5 , -10.5 ,最小距離是0.5將該元素放入 m=3的聚類中，則該聚類為(2 , 3, 4),另一個聚類 =14.5為(10, 12,15, 21）。至此，各個聚類不再發(fā)生變化為止，即誤差平方和準則函數(shù)的值達到最優(yōu)。四. 設(shè)計題(45分)13.按照題目給定的3個數(shù)據(jù)文件，任選一個建立數(shù)據(jù)流圖，要求至少包括記錄選項、字段選項、圖形結(jié)點各一個。任選關(guān)聯(lián)規(guī)則Ap riori算法、中的一個進行挖掘，并給出數(shù)據(jù)流圖。貝葉斯網(wǎng)絡(luò)、K-Means聚類、決策樹 C5

9、.0 ( C4.5)算法、神經(jīng)網(wǎng)絡(luò)（10 分）<3>q h urn（10 分）14.對以上數(shù)據(jù)流圖中使用的每個結(jié)點做一簡短說明。選擇：age>25.過濾：過濾后的字段。Region,tenure,age,marital,churn.類型抉失檢查方向Q region tenure ageO maritalO churn及瑾歹冶a 禱?f畫 Q范圍爐范圍i Soo、輸入、輸入I、輸入輸入 ©輸出，對于執(zhí)行結(jié)果太多的，可節(jié)選部15.給出以上數(shù)據(jù)流圖中模型的執(zhí)行結(jié)果（生成模型完全展開后的數(shù)據(jù)）分結(jié)果。（10分）I I 二（N":t：> 士Mil町 F*

10、 M_叭dWx帚|_Wk士AT：7 T Fi 口 T 己=INS mBW <0.7-03 n（n 6f" （ L-z* I < U . A *3 > tu»niru» c NP E3P iWLp f 曰 3or-» UN-I O O ->&.>-ns £13-： 1=1了 -ItizWSra U C 峙 N-T ON trncriTf I f n ； t& r I *j re- C mw 3e / r= LJiui » cm - 護£-» kh tSGySP* m 口匸

11、< 曰口q&曰 nLn 0 I 耳 I < U _ Cl J tb_r| |4 M ._r C Z3 片 T?r& rti cr-i L1 一1 o 口-41 i=Pi_iij u t >13.1 ly 5TIEIt 冃 I < -I ri t& r I *_j r& c 3 e - -t e >r = lJIui » C 1 一 1 Q O *（15 分）16.對以上模型生成的結(jié)果做一簡要的分析，包括算法采用的基本原理、數(shù)學(xué)模型、算法步驟等。答: k-means聚類算法基本原理：將各個聚類子集內(nèi)的所有數(shù)據(jù)樣本的均值作為該聚類的代表點，算法的主要思想是通過迭代過程把數(shù)據(jù)劃分為不同的類別，使得評價聚集類性能的準則函數(shù)達到最優(yōu)，從而使生成的每個聚集類的緊湊，類間獨立。操作步驟: 輸入：數(shù)據(jù)集，其中的數(shù)據(jù)樣本只包含描述屬性，不包含類別屬性。聚類個數(shù) 輸出:（1 ）從數(shù)據(jù)集X中隨機地選擇k個數(shù)據(jù)樣本作為聚類的出示代表點，每一個代表點表示一個類別（2）對于X中的任意數(shù)據(jù)樣本xm（ Ivxmvtotal ），計算它與k個初始代表點的距離，并且將它劃分到距離最近的初始代表

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試試題

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試試題

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔