版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、中國礦業(yè)大學(xué)銀川學(xué)院期末考試試題2010至2011學(xué)年第2學(xué)期考試科目 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 學(xué)分 2 年級(jí) 2008 系 機(jī)電動(dòng)力與信息工程系 專業(yè) 計(jì)算機(jī) 一、 填空題(15分)1.數(shù)據(jù)倉庫的特點(diǎn)分別是 面向主題 、 集成 、 相對(duì)穩(wěn)定 、反映歷史變化。2.元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。根據(jù)元數(shù)據(jù)用途的不同可將元數(shù)據(jù)分為 技術(shù) 元數(shù)據(jù)和 業(yè)務(wù) 元數(shù)據(jù)兩類。3.OLAP技術(shù)多維分析過程中,多維分析操作包括 切片 、 切塊 、 鉆取 、 旋轉(zhuǎn) 等。4.基于依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)倉庫體系結(jié)構(gòu)常常被稱為“ 中心和輻射 ”架構(gòu),其中 企業(yè)級(jí)數(shù)據(jù)倉庫 是中心,源數(shù)據(jù)系統(tǒng)
2、和數(shù)據(jù)集市在輸入和輸出范圍的兩端。5.ODS實(shí)際上是一個(gè)集成的、 面向主題的 、 可更新的 、 當(dāng)前值的 、 企業(yè)級(jí)的 、詳細(xì)的數(shù)據(jù)庫,也叫運(yùn)營數(shù)據(jù)存儲(chǔ)。二、 多項(xiàng)選擇題(10分)6.在數(shù)據(jù)挖掘的分析方法中,直接數(shù)據(jù)挖掘包括( )A 分類 B 關(guān)聯(lián) C 估值 D 預(yù)言7.數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程中,ETL軟件的主要功能包括()A 數(shù)據(jù)抽取 B 數(shù)據(jù)轉(zhuǎn)換 C 數(shù)據(jù)加載 D 數(shù)據(jù)稽核8.數(shù)據(jù)分類的評(píng)價(jià)準(zhǔn)則包括( ABCD )A 精確度 B 查全率和查準(zhǔn)率 C F-Measure D 幾何均值9.層次聚類方法包括( BC )A 劃分聚類方法 B 凝聚型層次聚類方法 C 分解型層次聚類方法 D 基于密
3、度聚類方法10.貝葉斯網(wǎng)絡(luò)由兩部分組成,分別是( A D )A 網(wǎng)絡(luò)結(jié)構(gòu) B 先驗(yàn)概率 C 后驗(yàn)概率 D 條件概率表三、 計(jì)算題(30分)11.一個(gè)食品連鎖店每周的事務(wù)記錄如下表所示,其中每一條事務(wù)表示在一項(xiàng)收款機(jī)業(yè)務(wù)中賣出的項(xiàng)目,假定supmin=40%,confmin=40%,使用Apriori算法計(jì)算生成的關(guān)聯(lián)規(guī)則,標(biāo)明每趟數(shù)據(jù)庫掃描時(shí)的候選集和大項(xiàng)目集。(15分)事務(wù)項(xiàng)目事務(wù)項(xiàng)目 T1 T2 T3面包、果凍、花生醬面包、花生醬面包、牛奶、花生醬 T4 T5啤酒、面包啤酒、牛奶解:(1)由I=面包、果凍、花生醬、牛奶、啤酒的所有項(xiàng)目直接產(chǎn)生1-候選C1,計(jì)算其支持度,取出支持度小于sup
4、min的項(xiàng)集,形成1-頻繁集L1,如下表所示:項(xiàng)集C1 支持度 項(xiàng)集L1 支持度面包 花生醬 牛奶 啤酒 4/53/52/52/5面包 花生醬 牛奶 啤酒 4/5 3/5 2/5 2/5(2)組合連接L1中的各項(xiàng)目,產(chǎn)生2-候選集C2,計(jì)算其支持度,取出支持度小于supmin的項(xiàng)集,形成2-頻繁集L2,如下表所示:項(xiàng)集C2 支持度 項(xiàng)集L2支持度面包、花生醬 3/5面包、花生醬 3/5至此,所有頻繁集都被找到,算法結(jié)束,所以,confidence(面包花生醬)=(4/5)/(3/5)=4/3 confmin confidence( 花生醬面包)=(3/5)/(4/5)=3/4 confmin所
5、以,關(guān)聯(lián)規(guī)則面包花生醬、 花生醬面包均是強(qiáng)關(guān)聯(lián)規(guī)則。12.給定以下數(shù)據(jù)集(2,4,10,12,15,3,21),進(jìn)行K-Means聚類,設(shè)定聚類數(shù)為2個(gè),相似度按照歐式距離計(jì)算。(15分)解:(1)從數(shù)據(jù)集X中隨機(jī)地選擇k個(gè)數(shù)據(jù)樣本作為聚類的出示代表點(diǎn),每一個(gè)代表點(diǎn)表示一個(gè)類別,由題可知k=2,則可設(shè)m1=2,m2=4:(2)對(duì)于X中的任意數(shù)據(jù)樣本xm(1xmtotal),計(jì)算它與k個(gè)初始代表點(diǎn)的距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中:當(dāng)m1=2時(shí),樣本(2 ,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為2,8,10,13,1,19。當(dāng)m2=4時(shí),樣本(2 ,4,1
6、0,12,15,3,21)距離該代表點(diǎn)的距離分別為-2,6,8,11,-1,17。最小距離是1或者-1將該元素放入m1=2的聚類中,則該聚類為(2,3),另一個(gè)聚類m2=4為(4,10,12,15,21)。(3)完成數(shù)據(jù)樣本的劃分之后,對(duì)于每一個(gè)聚類,計(jì)算其中所有數(shù)據(jù)樣本的均值,并且將其作為該聚類的新的代表點(diǎn),由此得到k個(gè)均值代表點(diǎn):m1=2.5,m2=12:(4)對(duì)于X中的任意數(shù)據(jù)樣本xm(1xmtotal),計(jì)算它與k個(gè)初始代表點(diǎn)的距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中:當(dāng)m1=2.5時(shí),樣本(2 ,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為-0.5,0.5,
7、1.5,7.5,9.5,12.5,18.5。當(dāng)m2=12時(shí),樣本(2 ,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為-10,-9,-8,2,3,9。最小距離是1.5將該元素放入m1=2.5的聚類中,則該聚類為(2,3,4),另一個(gè)聚類m2=12為(10,12,15,21)。(5)完成數(shù)據(jù)樣本的劃分之后,對(duì)于每一個(gè)聚類,計(jì)算其中所有數(shù)據(jù)樣本的均值,并且將其作為該聚類的新的代表點(diǎn),由此得到k個(gè)均值代表點(diǎn):m1=3, m2=14.5:(6)對(duì)于X中的任意數(shù)據(jù)樣本xm(1xm25.過濾:過濾后的字段。Region,tenure,age,marital,churn.類型:15.給出以上數(shù)據(jù)流
8、圖中模型的執(zhí)行結(jié)果(生成模型完全展開后的數(shù)據(jù)),對(duì)于執(zhí)行結(jié)果太多的,可節(jié)選部分結(jié)果。(10分)16.對(duì)以上模型生成的結(jié)果做一簡要的分析,包括算法采用的基本原理、數(shù)學(xué)模型、算法步驟等。(15分)答:k-means聚類算法基本原理:將各個(gè)聚類子集內(nèi)的所有數(shù)據(jù)樣本的均值作為該聚類的代表點(diǎn),算法的主要思想是通過迭代過程把數(shù)據(jù)劃分為不同的類別,使得評(píng)價(jià)聚集類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu),從而使生成的每個(gè)聚集類的緊湊,類間獨(dú)立。操作步驟:輸入:數(shù)據(jù)集,其中的數(shù)據(jù)樣本只包含描述屬性,不包含類別屬性。聚類個(gè)數(shù)K輸出:(1)從數(shù)據(jù)集X中隨機(jī)地選擇k個(gè)數(shù)據(jù)樣本作為聚類的出示代表點(diǎn),每一個(gè)代表點(diǎn)表示一個(gè)類別(2)對(duì)于X中的任意數(shù)據(jù)樣本xm(1xmtotal),計(jì)算它與k個(gè)初始代表點(diǎn)的距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中(3)完成數(shù)據(jù)樣本的劃分之后,對(duì)于每一個(gè)聚類,計(jì)算其中所有數(shù)據(jù)樣本的均值,并且
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年安全生產(chǎn)事故處理及報(bào)告制度范例(二篇)
- 2024年協(xié)會(huì)執(zhí)行秘書長輪值制度范本(二篇)
- 2024年9月進(jìn)出口數(shù)據(jù)點(diǎn)評(píng):短期因素?cái)_動(dòng)疊加外需放緩9月出口增速大幅回落 -中誠信
- 2024年學(xué)校公共場所衛(wèi)生制度例文(二篇)
- 2024年外科醫(yī)生個(gè)人工作計(jì)劃(三篇)
- 2024年四年級(jí)班主任工作總結(jié)標(biāo)準(zhǔn)樣本(二篇)
- 2024年商鋪門面租賃合同范本(四篇)
- 2024年小產(chǎn)權(quán)房子合同經(jīng)典版(四篇)
- 2024年幼兒園保健工作計(jì)劃(五篇)
- 2024年安裝勞務(wù)合同例文(三篇)
- 新質(zhì)生產(chǎn)力:復(fù)合概念、發(fā)展基礎(chǔ)與系統(tǒng)創(chuàng)新路徑
- 2024年個(gè)人車位租賃合同參考范文(三篇)
- 江西省九江市修水縣2024屆九年級(jí)上學(xué)期期中考試數(shù)學(xué)試卷(含答案)
- 2024年山東省濟(jì)南市中考數(shù)學(xué)真題(含答案)
- 山東省青島市黃島區(qū)2023-2024學(xué)年六年級(jí)上學(xué)期期中語文試卷
- 二手門市銷售合同范本
- 2024年安全員A證試題庫(附答案)
- 浙江省溫州市蒼南縣2023-2024學(xué)年八年級(jí)上學(xué)期期中考試英語試題
- 部編版五年級(jí)上冊(cè)《交流平臺(tái)·初試身手·習(xí)作例文》課件
- 新蘇教版六年級(jí)上冊(cè)科學(xué)全冊(cè)知識(shí)點(diǎn)
- 2.2生命活動(dòng)的主要承擔(dān)者-蛋白質(zhì)(公開課)
評(píng)論
0/150
提交評(píng)論