數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試題_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試題_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試題_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試題_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試題_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《數(shù)據(jù)庫房與數(shù)據(jù)挖掘試題》一、判斷題(每題1分,計(jì)30分,答題時(shí)每5個(gè)答案寫在一同)數(shù)據(jù)庫作為數(shù)據(jù)資源用于管理業(yè)務(wù)中的信息解析辦理。(X)數(shù)據(jù)庫的查問不是指對(duì)記錄級(jí)數(shù)據(jù)的查問,而是指對(duì)解析要求的查問。(X)關(guān)系數(shù)據(jù)庫是二維數(shù)據(jù)(平面),多維數(shù)據(jù)庫是空間立體數(shù)據(jù)。(v)數(shù)據(jù)進(jìn)入數(shù)據(jù)庫房以前,一定經(jīng)過加工與集成。(V)OLAP使用的是目前數(shù)據(jù);OLTP使用的是歷史數(shù)據(jù)。(V)對(duì)數(shù)據(jù)庫房操作不明確,操作數(shù)據(jù)量少。(X)數(shù)據(jù)市集實(shí)現(xiàn)難度超出數(shù)據(jù)庫房。(X)OLAP使用的數(shù)據(jù)經(jīng)常更新;OLTP使用的數(shù)據(jù)不更新,但周期性刷新。(X)數(shù)據(jù)市集可升級(jí)到完好的數(shù)據(jù)庫房。(V)數(shù)據(jù)庫中寄存的數(shù)據(jù)基本上是保留目前綜合數(shù)據(jù)。(X)OLAP可以應(yīng)解析人員的要求迅速、靈巧地進(jìn)行大數(shù)據(jù)量的復(fù)雜辦理。(V)OLAP支持復(fù)雜的決議解析操作,重視對(duì)解析人員和高層管理人員的決議支持。(V)OLTP的事務(wù)辦理量大,辦理內(nèi)容比較簡(jiǎn)單但重復(fù)率高。(V)數(shù)據(jù)庫房的用戶有兩類:信息使用者和探究者。(V)對(duì)數(shù)據(jù)庫的操作比較明確,操作數(shù)據(jù)量大。(X)數(shù)據(jù)庫用于事務(wù)辦理,數(shù)據(jù)庫房用于決議解析。(V)信息使用者以一種可展望的、重發(fā)性的方式使用數(shù)據(jù)庫房平臺(tái)。(V)OLAP一次辦理的數(shù)據(jù)量大;OLTP一次性辦理的數(shù)據(jù)量小。(V)OLTP每次操作的數(shù)據(jù)量不大且多為目前的數(shù)據(jù)。(V)數(shù)據(jù)庫房系統(tǒng)由數(shù)據(jù)庫房(DW)、庫房管理和解析工具三部分組成。(V)隨著業(yè)務(wù)的變化,數(shù)據(jù)庫房中的數(shù)據(jù)會(huì)隨時(shí)更新。(X)數(shù)據(jù)市集的規(guī)模比數(shù)據(jù)庫房更大。(X)數(shù)據(jù)市集擁有更詳盡的、早先儲(chǔ)蓄在數(shù)據(jù)庫房的數(shù)據(jù)。(V)不同樣維值的組合及其對(duì)應(yīng)的胸懷值組成了不同樣的查問和解析。(V)OLAP使用細(xì)節(jié)性數(shù)據(jù),OLTP使用綜合性數(shù)據(jù)。(X)數(shù)據(jù)市集由公司管理和保護(hù)。(X)OLAP的觀點(diǎn)模型是多維的。(V)數(shù)據(jù)庫已經(jīng)成為了成熟的信息基礎(chǔ)設(shè)備。(V)數(shù)據(jù)庫既保留過去的數(shù)據(jù)又保留目前的數(shù)據(jù)。(X)OLTP面對(duì)的是事務(wù)辦理操作人員和低層管理人員。(V)二、填空題(每題1分,計(jì)10分)1.信息使用者平時(shí)查察歸納數(shù)據(jù)或齊集數(shù)。2.探究者的任務(wù)是找尋公司數(shù)據(jù)內(nèi)隱含的價(jià)值。3.數(shù)據(jù)立方體是在全部可能組合的維進(jìn)步行分組齊集計(jì)算的總和。4.基本的多維數(shù)據(jù)解析操作包含切片切塊、旋轉(zhuǎn)、鉆取等。5.數(shù)據(jù)立方體的建立和保護(hù)等計(jì)算方法成為了多維數(shù)據(jù)解析研究的要點(diǎn)問題。6.OLAP是建立在網(wǎng)絡(luò)上的開發(fā)系統(tǒng)構(gòu)造。7.在數(shù)據(jù)立方體中,不同樣維度組合組成了不同樣的子立方體。8.不同樣的數(shù)據(jù)庫房需要建立不同樣的數(shù)據(jù)庫。9.ETL是建立數(shù)據(jù)庫房的重要步驟,需要花銷開發(fā)數(shù)據(jù)庫房70%的工作量。數(shù)據(jù)庫房的數(shù)據(jù)是綜合的集成。三、名詞解說(每題5分,計(jì)30分)1、數(shù)據(jù)市集4、元數(shù)據(jù)2、數(shù)據(jù)挖掘5、知識(shí)發(fā)現(xiàn)3、商業(yè)智能6、數(shù)據(jù)庫房1,數(shù)據(jù)市集(DataMarts)是一種更小、更集中的數(shù)據(jù)庫房,為公司供給分析商業(yè)數(shù)據(jù)的一條低價(jià)門路。DataMarts是指擁有特定應(yīng)用的數(shù)據(jù)庫房,主要針對(duì)某個(gè)應(yīng)用或許詳盡部門級(jí)的應(yīng)用,支持用戶獲取競(jìng)爭(zhēng)優(yōu)勢(shì)或許找到進(jìn)入新市場(chǎng)的詳盡解決方案。4,元數(shù)據(jù)(metadata)定義為對(duì)于數(shù)據(jù)的數(shù)據(jù)(dataaboutdata),即元數(shù)據(jù)描繪了數(shù)據(jù)庫房的數(shù)據(jù)和環(huán)境。2,數(shù)據(jù)挖掘(DM):KDD過程中的一個(gè)特定步驟,它用特意算法從數(shù)據(jù)中抽取知識(shí)。3,商業(yè)智能以數(shù)據(jù)庫房為基礎(chǔ),經(jīng)過聯(lián)機(jī)解析辦理和數(shù)據(jù)挖掘技術(shù)幫助公司領(lǐng)導(dǎo)者針對(duì)市場(chǎng)變化的環(huán)境,做出迅速、正確的決議。5,知識(shí)發(fā)現(xiàn)(KDD):從數(shù)據(jù)中發(fā)現(xiàn)實(shí)用知識(shí)的整個(gè)過程。6,數(shù)據(jù)庫房是決議支持系統(tǒng)(dss)和聯(lián)機(jī)解析應(yīng)用數(shù)據(jù)源的構(gòu)造化數(shù)據(jù)環(huán)境。數(shù)據(jù)庫房研究和解決從數(shù)據(jù)庫中獲守信息的問題。數(shù)據(jù)庫房的特色在于面向主題、集成性、牢固性和時(shí)變性。四、簡(jiǎn)答題(每題5分,計(jì)30分)簡(jiǎn)述數(shù)據(jù)庫房與數(shù)據(jù)挖掘的關(guān)系?數(shù)據(jù)庫房與數(shù)據(jù)挖掘都是決議支持新技術(shù)。但它們有著完好不同樣的協(xié)助決議方式。在數(shù)據(jù)庫房系統(tǒng)的前端的解析工具中,數(shù)據(jù)挖掘是此中重要工具之一。它可以幫助決議用戶挖掘數(shù)據(jù)庫房的數(shù)據(jù)中隱含的規(guī)律性。比較統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的異同?統(tǒng)計(jì)學(xué)主假如對(duì)數(shù)目數(shù)據(jù)(數(shù)值)或連續(xù)值數(shù)據(jù)(如年紀(jì)、薪資等),進(jìn)行數(shù)值計(jì)算(如初等運(yùn)算)的定量解析,獲取數(shù)目信息。數(shù)據(jù)挖掘主要對(duì)失散數(shù)據(jù)(如職稱、病癥等)進(jìn)行定性解析(覆蓋、歸納等),獲取規(guī)則知識(shí)。統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘是有區(qū)其余??墒?,它們之間是相互增補(bǔ)的。3.比較OLAP的數(shù)據(jù)模型MOLAP與ROLAP?MOLAP是早先生成多維立方體,供此后查問解析用,而ROLAP是經(jīng)過動(dòng)向的生成Sql,去做查問關(guān)系型數(shù)據(jù)庫,假如沒有做性能優(yōu)化,數(shù)據(jù)量很大的時(shí)候,性能問題就會(huì)顯得比較突出了。ROLAP

MOLAP

比較ROLAP

MOLAP沿用現(xiàn)有的關(guān)系數(shù)據(jù)庫的技術(shù)

專為

OLAP所設(shè)計(jì)響應(yīng)速度比MOLAP慢;現(xiàn)相關(guān)系型數(shù)據(jù)庫已經(jīng)對(duì)OLAP做了好多優(yōu)化,包含并行儲(chǔ)蓄、性能好、響應(yīng)速度快并行查問、并行數(shù)據(jù)管理、鑒于成本的查問優(yōu)化、位圖索引、SQL的OLAP擴(kuò)展(cube,rollup)等,性能有所提升數(shù)據(jù)裝載速度快數(shù)據(jù)裝載速度慢需要進(jìn)行估計(jì)算,可能致使儲(chǔ)蓄空間耗資小,維數(shù)沒有限制數(shù)據(jù)爆炸,維數(shù)有限;沒法支持維的動(dòng)向變化受操作系統(tǒng)平臺(tái)中文件大借用RDBMS儲(chǔ)蓄數(shù)據(jù),沒有文件大小限制小的限制,難以達(dá)到TB級(jí)(只好10~20G)缺乏數(shù)據(jù)模型和數(shù)據(jù)接見可以經(jīng)過SQL實(shí)現(xiàn)詳盡數(shù)據(jù)與綱領(lǐng)數(shù)據(jù)的儲(chǔ)蓄的標(biāo)準(zhǔn)–支持高性能的決議支持–不支擁相關(guān)估計(jì)算的讀寫操作計(jì)算–SQL沒法達(dá)成部分計(jì)算?復(fù)雜的跨維計(jì)算?沒法達(dá)成多行的計(jì)算?多用戶的讀寫操作?沒法達(dá)成維之間的計(jì)算?行級(jí)的計(jì)算保護(hù)困難管理簡(jiǎn)單比較數(shù)據(jù)挖掘與OLAP的差別?OLAP的典型應(yīng)用,經(jīng)過商業(yè)活動(dòng)變化的查問發(fā)現(xiàn)的問題,經(jīng)過追蹤查問找出問題出現(xiàn)的原由,達(dá)到協(xié)助決議的作用。數(shù)據(jù)挖掘任務(wù)在于聚類(如神經(jīng)網(wǎng)絡(luò)聚類)、分類(如決議樹分類)、展望等。什么是對(duì)于數(shù)據(jù)庫房照射的元數(shù)據(jù)?數(shù)據(jù)庫房的元數(shù)據(jù)除對(duì)數(shù)據(jù)庫房中數(shù)據(jù)的描繪(數(shù)據(jù)庫房詞典)外,還有以下三類元數(shù)據(jù):對(duì)于數(shù)據(jù)源的元數(shù)據(jù)對(duì)于抽取和變換的元數(shù)據(jù)對(duì)于最后用戶的元數(shù)據(jù)簡(jiǎn)述聯(lián)機(jī)解析辦理的四個(gè)特色?(1)迅速性:用戶對(duì)OLAP的迅速反應(yīng)能力有很高的要求。(2)可解析性:OLAP系統(tǒng)應(yīng)能辦理任何邏輯解析和統(tǒng)計(jì)解析。(3)多維性:系統(tǒng)一定供給對(duì)數(shù)據(jù)解析的多維視圖和解析。(4)信息性:OLAP系統(tǒng)應(yīng)能實(shí)時(shí)獲取信息,而且管理大容量的信息。數(shù)據(jù)庫房與數(shù)據(jù)挖掘第一章課后習(xí)題一:填空題1)數(shù)據(jù)庫中儲(chǔ)蓄的都是數(shù)據(jù),而數(shù)據(jù)庫房中的數(shù)據(jù)都是一些歷史的、存檔的、歸納的、計(jì)算的數(shù)據(jù)。2)數(shù)據(jù)庫房中的數(shù)據(jù)分為四個(gè)級(jí)別:早起細(xì)節(jié)級(jí)、目前細(xì)節(jié)級(jí)、輕度綜合級(jí)、高度綜合級(jí)。3)數(shù)據(jù)源是數(shù)據(jù)庫房系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉,平時(shí)包含業(yè)務(wù)數(shù)據(jù)和歷史數(shù)據(jù)。4)元數(shù)據(jù)是“對(duì)于數(shù)據(jù)的數(shù)據(jù)”。依據(jù)元數(shù)據(jù)用途的不同樣將數(shù)據(jù)庫房的元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類。5)數(shù)據(jù)辦理平時(shí)分為兩大類:聯(lián)機(jī)事務(wù)辦理和聯(lián)機(jī)事務(wù)解析6)Fayyad過程模型主要有數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)挖掘和結(jié)果解析三個(gè)主要部分組成。7)假如從整體上看數(shù)據(jù)挖掘技術(shù),可以將其分為統(tǒng)計(jì)解析類、知識(shí)發(fā)現(xiàn)類和其余種類

的數(shù)據(jù)挖掘技術(shù)三大類。8)那些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對(duì)象稱做9)依據(jù)挖掘?qū)ο蟮牟煌瑯?,將Web數(shù)據(jù)挖掘分為三類:

孤立點(diǎn)。web內(nèi)容挖掘、

web

構(gòu)造挖掘和

web使用挖掘。10)查問型工具、解析型工具盒挖掘型工具

聯(lián)合在一同組成了數(shù)據(jù)庫房系統(tǒng)的工具層,

它們各自的重視點(diǎn)不同樣,所以適用范圍和針對(duì)的用戶也不同樣。二:簡(jiǎn)答題1)什么是數(shù)據(jù)庫房?數(shù)據(jù)庫房的特色主要有哪些?數(shù)據(jù)庫房是一個(gè)面向主題的、集成的、相對(duì)牢固的、反應(yīng)歷史變化的數(shù)據(jù)會(huì)合,用于支持管理決議。主要特色:面向主題組織的、集成的、牢固的、隨時(shí)間不停變化的、數(shù)據(jù)的會(huì)合性、支持決議作用2)簡(jiǎn)述數(shù)據(jù)挖掘的技術(shù)定義。從技術(shù)角度看,數(shù)據(jù)挖掘是從大批的、不完好的、有噪聲的、模糊的、隨機(jī)的實(shí)質(zhì)數(shù)據(jù)中,提取隱含在此中的、人們不知道的、但又是暗藏實(shí)用的信息和知識(shí)的過程。3)什么是業(yè)務(wù)元數(shù)據(jù)?業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描繪了數(shù)據(jù)庫房中的數(shù)據(jù),它供給了介于使用者和實(shí)質(zhì)系統(tǒng)之間的語義層,使得不懂計(jì)算機(jī)技術(shù)的業(yè)務(wù)人員也可以讀懂?dāng)?shù)據(jù)庫房中的數(shù)據(jù)4)簡(jiǎn)述數(shù)據(jù)挖掘與傳統(tǒng)解析方法的差別。實(shí)質(zhì)差別是:數(shù)據(jù)挖掘是在沒有明確假定的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所獲取的信息應(yīng)擁有先前未知、有效和適用三個(gè)特色。5)簡(jiǎn)述數(shù)據(jù)庫房4種系統(tǒng)構(gòu)造的異同點(diǎn)及其適用性。a.虛構(gòu)的數(shù)據(jù)庫房系統(tǒng)構(gòu)造b.獨(dú)自的數(shù)據(jù)庫房系統(tǒng)構(gòu)造c.獨(dú)自的數(shù)據(jù)市集系統(tǒng)構(gòu)造d.散布式數(shù)據(jù)庫房構(gòu)造第二章課后習(xí)題一:填空題1)模型是對(duì)現(xiàn)實(shí)世界進(jìn)行抽象的工具。在信息管理中需要將現(xiàn)實(shí)世界的事物及其相關(guān)特色變換為信息世界的數(shù)據(jù)才能對(duì)信息進(jìn)行辦理與管理,這就需要依靠數(shù)據(jù)模型作為這類變換的橋梁。2)數(shù)據(jù)庫房模型設(shè)計(jì)包含觀點(diǎn)、邏輯、物理、元數(shù)據(jù)模型設(shè)計(jì)等內(nèi)容。3)現(xiàn)實(shí)世界是存在于現(xiàn)實(shí)之中的各樣客觀事物。觀點(diǎn)世界是現(xiàn)真相況在人們腦筋中的反應(yīng)。邏輯世界是人們?yōu)閷⒋嬖谟谧约耗X筋中的觀點(diǎn)模型變換到計(jì)算機(jī)中的實(shí)質(zhì)的物理儲(chǔ)蓄過程中的一個(gè)計(jì)算機(jī)邏輯表示模式。計(jì)算機(jī)世界則是指現(xiàn)實(shí)世界中的事物在計(jì)算機(jī)系統(tǒng)中的實(shí)質(zhì)儲(chǔ)蓄模式。4)數(shù)據(jù)庫房設(shè)計(jì)的觀點(diǎn)模型與業(yè)務(wù)數(shù)據(jù)辦理系統(tǒng)的三級(jí)數(shù)據(jù)模型仍舊擁有必定的差距。表現(xiàn)在數(shù)據(jù)種類的差別、數(shù)據(jù)的歷史變遷性、數(shù)據(jù)大體性5)數(shù)據(jù)庫房項(xiàng)目需求的采集與解析需求要從歷史數(shù)據(jù)與用戶需求兩個(gè)方面同時(shí)著手,采納數(shù)據(jù)驅(qū)動(dòng)+用戶驅(qū)動(dòng)的理念。6)所謂主題,是指在較高程度大將業(yè)務(wù)數(shù)據(jù)進(jìn)行綜合,歸類和解析利用的一個(gè)抽象觀點(diǎn),每個(gè)主題基本對(duì)峙業(yè)務(wù)的一個(gè)解析領(lǐng)域。7)多維數(shù)據(jù)模型較為廣泛地采納星型模型、雪花模型兩種模式。8)設(shè)計(jì)齊集模型時(shí),第一需要考慮用戶的使用要求,其次要考慮數(shù)據(jù)庫房的粒度模型和數(shù)據(jù)的統(tǒng)計(jì)解析狀況。9)切割是數(shù)據(jù)庫房邏輯設(shè)計(jì)中要解決的另一個(gè)重要問題,它的目的在于提升效率能為數(shù)據(jù)庫房的物理實(shí)行供給設(shè)計(jì)依據(jù)。10)元數(shù)據(jù)依據(jù)使用狀況,主要有技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類元數(shù)據(jù)。二:簡(jiǎn)答題1)簡(jiǎn)述觀點(diǎn)模型設(shè)計(jì)主要達(dá)成哪些工作?界定系統(tǒng)界限、確立主要的主題域、細(xì)化解析詳盡內(nèi)容2)簡(jiǎn)述一個(gè)符合第三范式的關(guān)系一定擁有的三個(gè)條件。A.每個(gè)屬性的值唯一,不擁有多義性B.每個(gè)非主屬性一定完好依靠于整個(gè)主鍵C.每個(gè)非主屬性不可以依靠于其余關(guān)系中的屬性。3)簡(jiǎn)述確立粒度級(jí)其余步驟A.估量DASDB.計(jì)算儲(chǔ)蓄空間、確立能否區(qū)分粒度。C.計(jì)劃影響數(shù)據(jù)庫房的粒度區(qū)分D.使用多重粒度E.使用多種儲(chǔ)蓄介質(zhì)的空間量F.選擇適合的粒度G.只采納大體數(shù)據(jù)4)簡(jiǎn)述CWM五個(gè)功能層對(duì)象模型層、基礎(chǔ)層、資源層、解析層、管理層5)數(shù)據(jù)庫房物理模型進(jìn)行優(yōu)化時(shí)可以考慮的解決方案有哪些?A.歸并表與簇文件B.建立數(shù)據(jù)序列C.引入冗余,反規(guī)范辦理D.表的物理切割分區(qū)E.生成派出數(shù)據(jù)第三章課后習(xí)題一:填空題1)ETL過程主要包含三個(gè)部分:數(shù)據(jù)抽取、數(shù)據(jù)沖刷與數(shù)據(jù)變換以及數(shù)據(jù)的加載。2)ETL工作流模型包含ETL觀點(diǎn)模型和ETL邏輯模型兩部分。3)觸發(fā)器方式是廣泛采納的一種增量抽取體系。該方式是依據(jù)抽取要求,在要被抽取的源表上建立插入、改正和刪除3個(gè)觸發(fā)器。4)一般狀況下,在一個(gè)ETL流程中,抽取操作老是最初履行,加載操作最后履行。5)數(shù)據(jù)質(zhì)量問題既有可能來自于數(shù)據(jù)源,又有可能來自于ETL的實(shí)行過程。6)基本的多線程并行辦理技術(shù)分為3種:任務(wù)并行辦理、數(shù)據(jù)并行辦理和管道并行辦理。7)ETL過程中數(shù)據(jù)質(zhì)量問題分為四類:?jiǎn)螖?shù)據(jù)源模式層問題、單數(shù)據(jù)源實(shí)例層問題、多半據(jù)源模式層問題、多半據(jù)源實(shí)例層。8)ETL過程可以被區(qū)分為兩各樣類:全量ETL過程和增量ETL過程。9)加載數(shù)據(jù)到目標(biāo)數(shù)據(jù)庫房的兩個(gè)基本方式是刷新方式和更新方式。10)控制“臟數(shù)據(jù)”對(duì)數(shù)據(jù)庫房解析結(jié)果的影響程度,采納各樣有效的舉措對(duì)其進(jìn)行辦理,這一辦理過程稱為數(shù)據(jù)沖刷。二:簡(jiǎn)答題1)怎樣保障ETL過程中的數(shù)據(jù)質(zhì)量?A.數(shù)據(jù)源端實(shí)行數(shù)據(jù)質(zhì)量控制:多半據(jù)源的異構(gòu)問題、數(shù)據(jù)扔掉值得問題、相像重復(fù)記錄的問題b.ETL過程中實(shí)行數(shù)據(jù)質(zhì)量控制:數(shù)據(jù)抽取程序嚴(yán)格審查、實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)源系統(tǒng)的更改、確立采信數(shù)據(jù)源、建立故障檢測(cè)體系、建立數(shù)據(jù)審查體系2)增量數(shù)據(jù)抽取中常用的捕捉變化數(shù)據(jù)的方法有哪幾種?觸發(fā)器方式、時(shí)間戳方式、全表刪除插入方式、全表比對(duì)方式、日記表方式、系統(tǒng)日記解析方式、系統(tǒng)日記解析方式。3)怎樣辦理空缺數(shù)據(jù)?可以采納忽略元組、用一個(gè)全局常量填補(bǔ)空缺值、用屬性性平均值填補(bǔ)空缺值、使用與給定元組同類的全部樣本的平均值填補(bǔ)空缺值、使用最可能的值填補(bǔ)空缺值、使用像Baysian公式或判斷樹這樣的鑒于推斷的方法。4)怎樣辦理噪聲數(shù)據(jù)?分箱或聚類等方法辦理5)簡(jiǎn)述數(shù)據(jù)加載操作。數(shù)據(jù)加載負(fù)責(zé)將經(jīng)過前幾步?jīng)_刷和變換后的數(shù)據(jù)依據(jù)目標(biāo)數(shù)據(jù)定義的表構(gòu)造裝入數(shù)據(jù)倉庫6)在ETL過程中會(huì)出現(xiàn)哪幾類數(shù)據(jù)質(zhì)量問題?解析其產(chǎn)生原由。單數(shù)據(jù)源模式層次問題---------》缺乏完好性拘束,糟糕的模式設(shè)計(jì)單數(shù)據(jù)源實(shí)例層次問題---------》數(shù)據(jù)記錄的錯(cuò)誤多半據(jù)源模式層次問題---------》異質(zhì)的數(shù)據(jù)模型和模式設(shè)計(jì)多半據(jù)源實(shí)例層次問題---------》冗余、相互矛盾或許不一致的數(shù)據(jù)第四章課后習(xí)題一:填空題1)OLAP系統(tǒng)依據(jù)其儲(chǔ)蓄的數(shù)據(jù)儲(chǔ)蓄格式可以分為關(guān)系OLAP、多維OLAP和混淆OLAP三種種類。2)對(duì)于擁有海量數(shù)據(jù)的數(shù)據(jù)庫房,B-Tree索引技術(shù)顯得其實(shí)不靈巧,于是人們探訪新的索引技術(shù),如位圖索引和表記符來解決此問題。3)用戶決議解析角度或決議解析出發(fā)點(diǎn)就是數(shù)據(jù)庫房中的維度。4)胸懷是多維數(shù)據(jù)集的核心值,是進(jìn)行OLAP操作的用戶所要察看解析的數(shù)據(jù)。5)上卷和下鉆的深度與維所區(qū)分的層次相對(duì)應(yīng),上卷解析的細(xì)化程度越低,粒度度越大。下鉆解析的細(xì)化程度越高,粒度越小。6)所謂的數(shù)據(jù)“上卷”是指用戶在數(shù)據(jù)庫房的應(yīng)用中,從較低層次開始漸漸將數(shù)據(jù)依據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論