數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(2014年工碩)答案_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(2014年工碩)答案_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(2014年工碩)答案_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(2014年工碩)答案_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(2014年工碩)答案_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 課程名稱:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘滿分分值:100考試日期:2014-03-16姓名:學(xué)號:I.選擇題,為每個問題選擇最合適的答案(15X3%=45%)數(shù)據(jù)倉庫是為_(A)_服務(wù)的。A)決策B)查詢C)統(tǒng)計D)匯總數(shù)據(jù)倉庫上的業(yè)務(wù)處理稱作_(A)_OA)聯(lián)機(jī)事務(wù)處理B)聯(lián)機(jī)分析處理C)聯(lián)機(jī)輸入處理D)聯(lián)機(jī)查詢處理在自然演化體系結(jié)構(gòu)中,關(guān)于導(dǎo)致數(shù)據(jù)缺乏可信性的原因的說法哪個不正確?(D)A)數(shù)據(jù)無時基B)抽取程序的算法有差異C)抽取的層次不同D)缺乏集成性下面哪項關(guān)于OLTP與OLAP訪問特點(diǎn)的說法是不正確的(B)A)OLTP和OLAP對于響應(yīng)時間的要求都高B)OLTP訪問頻率高,OLAP訪問頻率低

2、C)OLAP訪問大量的歷史,執(zhí)行大量統(tǒng)計操作D)OLTP數(shù)據(jù)處理具有并發(fā)性數(shù)據(jù)倉庫中的多維模型最常用的是哪種?(B)A)雪花模型B)星型模型C)E-R模型D)事實(shí)星座模型關(guān)于星型模型中的表的說法正確的是?(B)A)代碼表和維表B)事實(shí)表和維表C)事實(shí)表和參照表D)維表和參照表下面關(guān)于數(shù)據(jù)倉庫中數(shù)據(jù)的說法錯誤的是?(A)A)數(shù)據(jù)越詳細(xì),粒度越小,層次級別就越高。B)在估計直接存儲設(shè)備數(shù)時,如數(shù)據(jù)超過1000萬行必須強(qiáng)制采取雙重粒度級。C)數(shù)據(jù)倉庫大部分分析是針對被壓縮的、存取效率高的輕度級數(shù)據(jù)進(jìn)行的。D)數(shù)據(jù)分割便于數(shù)據(jù)的重構(gòu)、重組和恢復(fù),以提高創(chuàng)建索引和順序掃描的效率。下面關(guān)于數(shù)據(jù)倉庫的數(shù)據(jù)存

3、儲方式的說法哪個是不正確的?(B)A)虛擬存儲方式中,數(shù)據(jù)倉庫的數(shù)據(jù)仍然在源數(shù)據(jù)中。B)星型模式下的維表規(guī)范化的,而雪花模式下的不需要規(guī)范化C)在查詢效率方面,星型模式效率更高D)在事實(shí)星座模式中有多個事實(shí)表,且它們共享相同的維表下面關(guān)于星型模型的說法哪個是不正確的?(C)A)有一個包含大量數(shù)據(jù)的事實(shí)表B)有一組小的附屬表,稱為維表,每維一個。C)事實(shí)表的每個字段都是事實(shí)度量字段D)事實(shí)中每條元組都含有指向各個維表的外鍵和度量數(shù)據(jù)。下面關(guān)于數(shù)據(jù)倉庫的數(shù)據(jù)追加的說法哪個是不正確的?A)時標(biāo)法需要為記錄數(shù)據(jù)增加一個時間標(biāo)志(C)B)前后映像文件方法需要掃描整個數(shù)據(jù)庫,占用較多資源,對性能有較大影響

4、C)DELTA不需要掃描整個數(shù)據(jù)庫,效率較高,應(yīng)用普遍D)日志文件法也不需要掃描整個數(shù)據(jù)庫,是固有機(jī)制。假設(shè)收入屬性的最小與最大分別是10000和90000,現(xiàn)在想把當(dāng)前值30000映射到區(qū)間0,1,若采用最大最小數(shù)據(jù)規(guī)范方法,計算結(jié)果是多少?(B)A)0.25B)0.375C)0.125D)0.5下面關(guān)于維的概念哪個是不正確的?(C)A)維是人們觀察數(shù)據(jù)的特定角度。B)維的層次性是由觀察數(shù)據(jù)細(xì)致程度不同造成的。C)“某年某月某日”是時間維的層次。D)“月、季、年”是時間維的層次。下面關(guān)于OLAP的數(shù)據(jù)模型的說法哪個是不正確的?(D)A)MOLAP基于多維數(shù)據(jù)庫B)MOLAP表現(xiàn)為“超立方”結(jié)

5、構(gòu),采用類似于多維數(shù)組的結(jié)構(gòu)C)ROLAP基于關(guān)系數(shù)據(jù)庫D)ROLAP是一個平面結(jié)構(gòu),用關(guān)系數(shù)據(jù)庫表示多維數(shù)據(jù)時,采用雪花模型。數(shù)據(jù)倉庫開發(fā)應(yīng)用周期可分為三個階段,下列哪項不是其中某個階段?(B)A)規(guī)劃分析階段B)體系結(jié)構(gòu)設(shè)計階段C)設(shè)計實(shí)施階段D)使用維護(hù)階段哪項不屬于概念模型(E-R)到邏輯模型(星型模型)所做的工作?(C)A)確定數(shù)據(jù)匯總水平B)設(shè)計事實(shí)表與維表C)調(diào)整數(shù)據(jù)表結(jié)構(gòu)保持?jǐn)?shù)據(jù)完整性D)創(chuàng)建事實(shí)表與維表之間的關(guān)系II.簡答題(任選5題,5X5%=25%)在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的,描述處理該問題的方法?(至少給出5種不同的方法)答:(1)忽略元組(2)

6、人工填寫空缺值(3)使用一個全局常量填充空缺值(4)使用屬性的平均值填充空缺值(5)使用與給定元組屬同一類的所有樣本的平均值(6)使用最可能的值填充空缺值簡述數(shù)據(jù)倉庫的四個基本特征?答:四個基本特征為:(1)面向主題操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。(2)集成的數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。(3)相對穩(wěn)定的數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,

7、一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。(4)反映歷史變化數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉庫的時點(diǎn))到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。簡述輪轉(zhuǎn)綜合數(shù)據(jù)存儲的過程?答:(1)確定用戶需求:確定終端用戶的需要,為數(shù)據(jù)倉庫中存儲的數(shù)據(jù)建立模型。(2)設(shè)計和建立數(shù)據(jù)庫:設(shè)計和建立數(shù)據(jù)庫是成功地創(chuàng)建數(shù)據(jù)倉庫的一個關(guān)鍵步驟。數(shù)據(jù)倉庫常常使用星型模式和雪花型模式來存儲數(shù)據(jù),作為OLAP工具管理的合計基礎(chǔ),以便盡可能快地響應(yīng)復(fù)雜查詢。提取

8、和加載數(shù)據(jù):提取和加載數(shù)據(jù)的進(jìn)程如下:校驗(yàn)經(jīng)營系統(tǒng)中的數(shù)據(jù);從經(jīng)營系統(tǒng)中提取數(shù)據(jù);凈化數(shù)據(jù);把數(shù)據(jù)轉(zhuǎn)換和遷移到數(shù)據(jù)倉庫中簡述數(shù)據(jù)庫數(shù)據(jù)與數(shù)據(jù)倉庫數(shù)據(jù)的異同?答:數(shù)據(jù)庫是數(shù)據(jù)倉庫的基礎(chǔ)。數(shù)據(jù)倉庫實(shí)際上也是由數(shù)據(jù)庫的很多表組成的。需要把存放大量操作性業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)庫經(jīng)過篩選、抽取、歸納、統(tǒng)計、轉(zhuǎn)換到一個新的數(shù)據(jù)庫中。然后再進(jìn)行數(shù)據(jù)展現(xiàn)。區(qū)別:(1)數(shù)據(jù)庫只存放在當(dāng)前值,數(shù)據(jù)倉庫存放歷史值;數(shù)據(jù)庫內(nèi)數(shù)據(jù)是動態(tài)變化的,只要有業(yè)務(wù)發(fā)生,數(shù)據(jù)就會被更新,而數(shù)據(jù)倉庫則是靜態(tài)的歷史數(shù)據(jù),只能定期添加、刷新;數(shù)據(jù)庫中的數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜,有各種結(jié)構(gòu)以適合業(yè)務(wù)處理系統(tǒng)的需要,而數(shù)據(jù)倉庫中的數(shù)據(jù)結(jié)構(gòu)則相對簡單;數(shù)據(jù)庫

9、中數(shù)據(jù)訪問頻率較高,但訪問量較少,而數(shù)據(jù)倉庫的訪問頻率低但訪問量卻很高;數(shù)據(jù)庫中數(shù)據(jù)的目標(biāo)是面向業(yè)務(wù)處理人員的,為業(yè)務(wù)處理人員提供信息處理的支持,而數(shù)據(jù)倉庫則是面向高層管理人員的,為其提供決策支持;數(shù)據(jù)庫在訪問數(shù)據(jù)時要求響應(yīng)速度快,其響應(yīng)時間一般在幾秒內(nèi),而數(shù)據(jù)倉庫的響應(yīng)時間則可長達(dá)數(shù)幾小時序列模式挖掘中什么是最大序列?并請舉例說明。答:兩個序列A=和B=%4.九,如果存在整數(shù)i1i2_in且a1包含于打,a2包含于bi2,,an包含于bin,則稱序列a包含于序列b。在一個序列集中如果序列s不包含于任何其它序列中,則稱序列s為最大的。比如序列(3)(4,5)(8)包含于序列(7)(3,8)(9

10、)(4,5,6)(8),因?yàn)?3)包含于(3,8),(4,5)包含于(4,5,6)以及(8)包含于(8)。但是序列(3)(5)不包含于(3,5),反之亦然。前者表示項3和項5是先后購買的,而后者則表示項3和項5是同時購買的,這就是區(qū)別所在。6.簡述CRISP_DM模型?答:CRISP-DM模型為一個KDD工程提供了一個完整的過程描述.該模型將一個KDD工程分為6個不同的,但順序并非完全不變的階段.businessunderstanding:即商業(yè)理解.在第一個階段我們必須從商業(yè)的角度上面了解項目的要求和最終目的是什么.并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來.dataunderstandi

11、ng:數(shù)據(jù)的理解以及收集,對可用的數(shù)據(jù)進(jìn)行評估.datapreparation:數(shù)據(jù)的準(zhǔn)備,對可用的原始數(shù)據(jù)進(jìn)行一系列的組織以及清洗,使之達(dá)到建模需求.modeling:即應(yīng)用數(shù)據(jù)挖掘工具建立模型.Revaluation:對建立的模型進(jìn)行評估,重點(diǎn)具體考慮得出的結(jié)果是否符合第一步的商業(yè)目的.(6)deployment:部署,即將其發(fā)現(xiàn)的結(jié)果以及過程組織成為可讀文本形式.(數(shù)據(jù)挖掘報告)7至少列舉出3個適用于分類算法的模型評價指標(biāo),并闡述其含義?答:1)正確率(accuracy)正確率是我們最常見的評價指標(biāo),accuracy=(TP+TN)/(P+N),就是被分對的樣本數(shù)除以所有的樣本數(shù),通常來

12、說,正確率越高,分類器越好;錯誤率(errorrate)錯誤率則與正確率相反,描述被分類器錯分的比例,errorrate=(FP+FN)/(P+N),對某一個實(shí)例來說,分對與分錯是互斥事件,所以accuracy=1-errorrate;靈敏度(sensitive)sensitive=TP/P,表示的是所有正例中被分對的比例,衡量了分類器對正例的識別能力;特效度(specificity)specificity=TN/N,表示的是所有負(fù)例中被分對的比例,衡量了分類器對負(fù)例的識別能力8.OLAP中數(shù)據(jù)立方體物化的目的是什么?分幾類?物化是主要考慮的因素有哪些?答:數(shù)據(jù)立方體有利于多維數(shù)據(jù)的聯(lián)機(jī)分析處

13、理,使得從不同的角度對數(shù)據(jù)進(jìn)行觀察成為可能。方體的選擇分為三類:不物化,即不預(yù)先計算任何“非基本”方體;全物化:預(yù)先計算所有的方體;部分物化:在整個可能的方體集中,有選擇地物化一個適當(dāng)?shù)淖蛹?。考慮的因素有三個:(1)確定要物化的方體子集(2)利用查詢處理時物化的方體(3)在裝入和刷新時,有效地更新物化的方體。 (5%) III.設(shè)計題(3X10%=30%)1、假設(shè)數(shù)據(jù)倉庫包含三個維time、doctor和patient,兩個度量count和charge,其中charge是醫(yī)生對一位病人的一次診治的收費(fèi)。A)列舉三種流行的數(shù)據(jù)倉庫建模模式1%B)使用(A)列舉的模式之一,畫出上面數(shù)據(jù)倉庫的模式圖

14、3%C)由基本方體day,doctor,patient開始,為列出2010年每位醫(yī)生的收費(fèi)總數(shù),應(yīng)當(dāng)執(zhí)行哪些OLAP操作?3%D)為得到相同的結(jié)果,寫一個SQL查詢。假定數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫中,其模式如下:feeday,month,year,doctor,hospital,patient,count,charge3%答:A)星型模式、雪花模式、或事實(shí)星座模式B)星型模型模式圖timeclimensioutabledoctotrlimensioubleriinekeytimekeydooctoiiddaydoctoriddoctorUdinedayoiweek/paiieinidphonedmo

15、nthaddissquaiter/!chargesexyear/comitfacttablepatientdiineusioutnblepatietnidsex-desciiptiunaddress上卷(Roll-up)操作,時間維的概念分層向上攀升,從day攀升到y(tǒng)ear.切片(Slice)操作,fortime=2004.上卷(Roll-up)操作:維規(guī)約,對patient維進(jìn)行規(guī)約。patientfromindividualpatienttoall.2、假定下面的表從面向?qū)傩缘臍w納導(dǎo)出。類出生地人數(shù)程序員江蘇180其它120銷售員江蘇20其它80a)將該表轉(zhuǎn)換成顯示相關(guān)t-權(quán)和d-權(quán)的交叉

16、表(5%)b)將類“程序員”轉(zhuǎn)換成(雙向的)量化描述規(guī)則。例如VXProgrammer(X)o(birth_place(X)=江蘇A.)t:x%,d:y%.v(.)(t:w%,d:z%3、假設(shè)數(shù)據(jù)集D含有9個數(shù)據(jù)對象(用2維空間的點(diǎn)表示):A1(3,2),A2(3,9),A3(8,6),B1(9,5),B2(2,4),B3(3,10),C1(2,6),C2(9,6),C3(2,2)123123123采用k-均值方法進(jìn)行聚類,距離函數(shù)采用歐幾里德距離,取k=3,假設(shè)初始的三個簇質(zhì)心為ai,bi,和q,求:(1)第一次循環(huán)結(jié)束時的三個簇的質(zhì)心。(5%)(2)最后求得的三個簇。5%解:(1)第一次循

17、環(huán):d2(A1,A1)=(3-3)2+(2-2)2=0d2(A1,B1)=(3-9)2+(2-5)2=45d2(A1,C1)=(3-2)2+(2-6)2=17因?yàn)閐2(Al,Al)最小,所以,A1-A1d2(A2,A1)=(3-3)2+(9-2)2=49d2(A2,Bl)=(3-9)2+(9-5)2=60d2(A2,Cl)=(3-2)2+(9-6)2=l0因?yàn)閐2(A2,Cl)最小,所以,A2-C1d2(A3,Al)=(8-3)2+(6-2)2=4ld2(A3,Bl)=(8-9)2+(6-5)2=2d2(A3,Cl)=(8-2)2+(6-6)2=36因?yàn)閐2(A3,Bl)最小,所以,A3-B1

18、d2(Bl,Al)=(9-3)2+(5-2)2=45d2(Bl,Bl)=(9-9)2+(5-5)2=0d2(Bl,Cl)=(9-2)2+(5-6)2=50因?yàn)閐2(Bl,Bl)最小,所以,B1-B1d2(B2,Al)=(2-3)2+(4-2)2=5d2(B2,Bl)=(2-9)2+(4-5)2=50d2(B2,Cl)=(2-2)2+(4-6)2=4因?yàn)閐2(B2,Cl)最小,所以,B2-C1d2(B3,Al)=(3-3)2+(l0-2)2=64d2(B3,Bl)=(3-9)2+(l0-5)2=6ld2(B3,C1)=(3-2)2+(10-6)2=17因?yàn)閐2(B3,Cl)最小,所以,B3-C1d2(C1,A1)=(2-3)2+(6-2)2=17d2(Cl,Bl)=(2-9)2+(6-5)2=50d2(Cl,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論