版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第一章 課后習(xí)題一:填空題1)數(shù)據(jù)庫(kù)中存儲(chǔ)的都是數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)都是一些歷史的、存檔的、歸納的、計(jì)算的數(shù)據(jù)。2)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)分為四個(gè)級(jí)別:早起細(xì)節(jié)級(jí)、當(dāng)前細(xì)節(jié)級(jí)、輕度綜合級(jí)、高度綜合級(jí)。3)數(shù)據(jù)源是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉,通常包括業(yè)務(wù)數(shù)據(jù)和歷史數(shù)據(jù)。4)元數(shù)據(jù)是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”。根據(jù)元數(shù)據(jù)用途的不同將數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類。5)數(shù)據(jù)處理通常分為兩大類:聯(lián)機(jī)事務(wù)處理和聯(lián)機(jī)事務(wù)分析6)Fayyad 過程模型主要有數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)挖掘和結(jié)果分析三個(gè)主要部分組成。7)如果從整體上看數(shù)據(jù)挖掘技術(shù),可以將其分為統(tǒng)計(jì)分析類、知識(shí)發(fā)現(xiàn)類和
2、其他類型的數(shù)據(jù)挖掘技術(shù)三大類。8)那些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對(duì)象稱做孤立點(diǎn)。9)按照挖掘?qū)ο蟮牟煌?,將Web 數(shù)據(jù)挖掘分為三類:web 內(nèi)容挖掘、web 結(jié)構(gòu)挖掘和web使用挖掘。10)查詢型工具、分析型工具盒挖掘型工具結(jié)合在一起構(gòu)成了數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的工具層,它們各自的側(cè)重點(diǎn)不同,因此適用范圍和針對(duì)的用戶也不相同。二:簡(jiǎn)答題1)什么是數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)主要有哪些?數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。主要特點(diǎn):面向主題組織的、集成的、穩(wěn)定的、隨時(shí)間不斷變化的、數(shù)據(jù)的集合性、支持決 策作用2)簡(jiǎn)述數(shù)據(jù)挖掘的技術(shù)定義。從技術(shù)角度看,
3、數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際數(shù)據(jù)中,提取隱含在其中的、人們不知道的、但又是潛在有用的信息和知識(shí)的過程。3)什么是業(yè)務(wù)元數(shù)據(jù)?業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),它提供了介于使用者和實(shí)際系統(tǒng)之間的語(yǔ)義層,使得不懂計(jì)算機(jī)技術(shù)的業(yè)務(wù)人員也能夠讀懂?dāng)?shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)4)簡(jiǎn)述數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別。本質(zhì)區(qū)別是:數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知、有效和實(shí)用三個(gè)特征。5)簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)4種體系結(jié)構(gòu)的異同點(diǎn)及其適用性。a. 虛擬的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)b. 單獨(dú)的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)c. 單獨(dú)的數(shù)據(jù)集市體系結(jié)構(gòu)d. 分布式數(shù)
4、據(jù)倉(cāng)庫(kù)結(jié)構(gòu)第二章 課后習(xí)題一:填空題1)模型是對(duì)現(xiàn)實(shí)世界進(jìn)行抽象的工具。在信息管理中需要將現(xiàn)實(shí)世界的事物及其有關(guān)特征轉(zhuǎn)換為信息世界的數(shù)據(jù)才能對(duì)信息進(jìn)行處理與管理,這就需要依靠數(shù)據(jù)模型作為這種轉(zhuǎn)換的橋梁。2)數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)包括概念、邏輯、物理、元數(shù)據(jù)模型設(shè)計(jì)等內(nèi)容。3)現(xiàn)實(shí)世界是存在于現(xiàn)實(shí)之中的各種客觀事物。概念世界是現(xiàn)實(shí)情況在人們頭腦中的反應(yīng)。邏輯世界是人們?yōu)閷⒋嬖谟谧约侯^腦中的概念模型轉(zhuǎn)換到計(jì)算機(jī)中的實(shí)際的物理存儲(chǔ)過程中的一個(gè)計(jì)算機(jī)邏輯表示模式。計(jì)算機(jī)世界則是指現(xiàn)實(shí)世界中的事物在計(jì)算機(jī)系統(tǒng)中的實(shí)際存儲(chǔ)模式。4)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的概念模型與業(yè)務(wù)數(shù)據(jù)處理系統(tǒng)的三級(jí)數(shù)據(jù)模型仍然具有一定的差距。表現(xiàn)在
5、數(shù)據(jù)類型的差異、數(shù)據(jù)的歷史變遷性、數(shù)據(jù)概況性5)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目需求的收集與分析需求要從歷史數(shù)據(jù)與用戶需求兩個(gè)方面同時(shí)著手,采用數(shù)據(jù)驅(qū)動(dòng)+用戶驅(qū)動(dòng)的理念。6)所謂主題,是指在較高程度上將業(yè)務(wù)數(shù)據(jù)進(jìn)行綜合,歸類和分析利用的一個(gè)抽象概念,每個(gè)主題基本對(duì)立業(yè)務(wù)的一個(gè)分析領(lǐng)域。7)多維數(shù)據(jù)模型較為普遍地采用星型模型、雪花模型兩種模式。8)設(shè)計(jì)聚集模型時(shí),首先需要考慮用戶的使用要求,其次要考慮數(shù)據(jù)倉(cāng)庫(kù)的粒度模型和數(shù)據(jù)的統(tǒng)計(jì)分析情況。9)分割是數(shù)據(jù)倉(cāng)庫(kù)邏輯設(shè)計(jì)中要解決的另一個(gè)重要問題,它的目的在于提高效率能為數(shù)據(jù)倉(cāng)庫(kù)的物理實(shí)施提供設(shè)計(jì)依據(jù)。10)元數(shù)據(jù)根據(jù)使用情況,主要有技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類元數(shù)據(jù)。二:
6、簡(jiǎn)答題1)簡(jiǎn)述概念模型設(shè)計(jì)主要完成哪些工作?界定系統(tǒng)邊界、確定主要的主題域、細(xì)化分析具體內(nèi)容2)簡(jiǎn)述一個(gè)符合第三范式的關(guān)系必須具有的三個(gè)條件。A. 每個(gè)屬性的值唯一,不具有多義性B. 每個(gè)非主屬性必須完全依賴于整個(gè)主鍵C. 每個(gè)非主屬性不能依賴于其他關(guān)系中的屬性。3)簡(jiǎn)述確定粒度級(jí)別的步驟A. 估算DASDB. 計(jì)算存儲(chǔ)空間、確定是否劃分粒度。C. 計(jì)劃影響數(shù)據(jù)倉(cāng)庫(kù)的粒度劃分D. 使用多重粒度E. 使用多種存儲(chǔ)介質(zhì)的空間量F. 選擇合適的粒度G. 只采用概況數(shù)據(jù)4)簡(jiǎn)述CWM 五個(gè)功能層對(duì)象模型層、基礎(chǔ)層、資源層、分析層、管理層5)數(shù)據(jù)倉(cāng)庫(kù)物理模型進(jìn)行優(yōu)化時(shí)可以考慮的解決方案有哪些?A. 合并
7、表與簇文件B. 建立數(shù)據(jù)序列C. 引入冗余, 反規(guī)范處理D. 表的物理分割分區(qū)E. 生成派出數(shù)據(jù)第三章 課后習(xí)題一:填空題1)ETL 過程主要包括三個(gè)部分:數(shù)據(jù)抽取、數(shù)據(jù)清洗與數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)的加載。2)ETL 工作流模型包括ETL 概念模型和ETL 邏輯模型兩部分。3)觸發(fā)器方式是普遍采取的一種增量抽取機(jī)制。該方式是根據(jù)抽取要求,在要被抽取的源表上建立插入、修改和刪除3個(gè)觸發(fā)器。4)一般情況下,在一個(gè)ETL 流程中,抽取操作總是最先執(zhí)行,加載操作最后執(zhí)行。5)數(shù)據(jù)質(zhì)量問題既有可能來自于數(shù)據(jù)源,又有可能來自于ETL 的實(shí)施過程。6)基本的多線程并行處理技術(shù)分為3種:任務(wù)并行處理、數(shù)據(jù)并行處理和
8、管道并行處理。7)ETL 過程中數(shù)據(jù)質(zhì)量問題分為四類:?jiǎn)螖?shù)據(jù)源模式層問題、單數(shù)據(jù)源實(shí)例層問題、多數(shù)據(jù)源模式層問題、多數(shù)據(jù)源實(shí)例層。8)ETL 過程可以被劃分為兩種類型:全量ETL 過程和增量ETL 過程。9)加載數(shù)據(jù)到目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)的兩個(gè)基本方式是刷新方式和更新方式。10)控制“臟數(shù)據(jù)”對(duì)數(shù)據(jù)倉(cāng)庫(kù)分析結(jié)果的影響程度,采取各種有效的措施對(duì)其進(jìn)行處理,這一處理過程稱為數(shù)據(jù)清洗。二:簡(jiǎn)答題1)如何保障ETL 過程中的數(shù)據(jù)質(zhì)量?A. 數(shù)據(jù)源端實(shí)施數(shù)據(jù)質(zhì)量控制:多數(shù)據(jù)源的異構(gòu)問題、數(shù)據(jù)丟失值得問題、相似重復(fù)記錄的問題b.ETL 過程中實(shí)施數(shù)據(jù)質(zhì)量控制:數(shù)據(jù)抽取程序嚴(yán)格審核、及時(shí)監(jiān)控?cái)?shù)據(jù)源系統(tǒng)的變更、確定采
9、信數(shù)據(jù)源、建立故障檢測(cè)機(jī)制、建立數(shù)據(jù)審核機(jī)制2)增量數(shù)據(jù)抽取中常用的捕獲變化數(shù)據(jù)的方法有哪幾種?觸發(fā)器方式、時(shí)間戳方式、全表刪除插入方式、全表比對(duì)方式、日志表方式、系統(tǒng)日志分析方式、系統(tǒng)日志分析方式。3)如何處理空缺數(shù)據(jù)?可以采用忽略元組、用一個(gè)全局常量填充空缺值、用屬性性平均值填充空缺值、使用與給定元組同類的所有樣本的平均值填充空缺值、使用最可能的值填充空缺值、使用像Baysian 公式或判定樹這樣的基于推斷的方法。4)如何處理噪聲數(shù)據(jù)?分箱或聚類等方法處理5)簡(jiǎn)述數(shù)據(jù)加載操作。數(shù)據(jù)加載負(fù)責(zé)將經(jīng)過前幾步清洗和轉(zhuǎn)換后的數(shù)據(jù)按照目標(biāo)數(shù)據(jù)定義的表結(jié)構(gòu)裝入數(shù)據(jù)倉(cāng)庫(kù)6)在ETL 過程中會(huì)出現(xiàn)哪幾類數(shù)據(jù)
10、質(zhì)量問題?分析其產(chǎn)生原因。單數(shù)據(jù)源模式層次問題-缺少完整性約束,糟糕的模式設(shè)計(jì)單數(shù)據(jù)源實(shí)例層次問題-數(shù)據(jù)記錄的錯(cuò)誤多數(shù)據(jù)源模式層次問題-異質(zhì)的數(shù)據(jù)模型和模式設(shè)計(jì)多數(shù)據(jù)源實(shí)例層次問題-冗余、互相矛盾或者不一致的數(shù)據(jù)第四章 課后習(xí)題一:填空題1)OLAP 系統(tǒng)按照其存儲(chǔ)的數(shù)據(jù)存儲(chǔ)格式可以分為關(guān)系OLAP 、多維OLAP 和混合OLAP 三種類型。2)對(duì)于擁有海量數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù),B-Tree 索引技術(shù)顯得并不靈活,于是人們探尋新的索引技術(shù),如位圖索引和標(biāo)識(shí)符來解決此問題。3)用戶決策分析角度或決策分析出發(fā)點(diǎn)就是數(shù)據(jù)倉(cāng)庫(kù)中的維度。4)度量是多維數(shù)據(jù)集的核心值,是進(jìn)行OLAP 操作的用戶所要觀察分析的數(shù)
11、據(jù)。5)上卷和下鉆的深度與維所劃分的層次相對(duì)應(yīng),上卷分析的細(xì)化程度越低,粒度度越大。下鉆分析的細(xì)化程度越高,粒度越小。6)所謂的數(shù)據(jù)“上卷”是指用戶在數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用中,從較低層次開始逐步將數(shù)據(jù)按照不同的層次進(jìn)行概況處理。7)根據(jù)屬性列的不同我們可以建立不同類型的索引列。對(duì)于基數(shù)高的可以考慮用標(biāo)識(shí)索引,對(duì)于基數(shù)值較低的則采用與、或等位運(yùn)算速度比較快的位圖索引。8)報(bào)表與圖形是OLAP 系統(tǒng)向用戶展現(xiàn)分析結(jié)果的兩種主要方法。9)OLAP 系統(tǒng)在具體實(shí)現(xiàn)是,如果將多維數(shù)據(jù)存儲(chǔ)于客戶端,就可能呢產(chǎn)生“胖”客戶端系統(tǒng)。10)OLAP 采用多用戶的三層C/S結(jié)構(gòu),它由數(shù)據(jù)庫(kù)、OLAP 服務(wù)器、OLAP 客戶機(jī)及客戶端應(yīng)用程序構(gòu)成。二:簡(jiǎn)答題1)簡(jiǎn)述OLAP 的簡(jiǎn)明定義FASMI ??焖傩?、分析性、共享性、多維性、信息性2)簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)分析的關(guān)系。數(shù)據(jù)倉(cāng)庫(kù)提供數(shù)據(jù)源;數(shù)據(jù)分析提供分析方法;數(shù)據(jù)分析并非完全依賴于數(shù)據(jù)倉(cāng)庫(kù)第六章 課后習(xí)題一:填空題1)常見的數(shù)據(jù)預(yù)處理方法有數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。2)數(shù)據(jù)清理處理列程通常包括填補(bǔ)遺漏的數(shù)據(jù)值、平滑有噪聲數(shù)據(jù)、識(shí)別或除去異常值,以及解決不一致問題。3)常用的分箱方法有平均值平滑或邊界值平滑分箱。4)光滑是去掉數(shù)據(jù)中的噪聲。光滑技術(shù)主要包括分
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 使用吊車合同范例
- 2024年度中藥材種子供應(yīng)與購(gòu)銷合同
- 冷庫(kù)合同模板
- 廠房招商加工合同模板
- 醫(yī)美會(huì)員合同模板
- 2024年度信息系統(tǒng)集成項(xiàng)目監(jiān)理合同
- 商品房物業(yè)租賃合同范例
- 農(nóng)務(wù)勞務(wù)包工合同范例
- 商務(wù)合同和技術(shù)合同范例
- 養(yǎng)殖水體出租合同模板
- 吉安市市直事業(yè)單位選調(diào)工作人員真題
- 高爾夫球場(chǎng)施工方案
- 2024年浙江省中考英語(yǔ)試題卷(含答案解析)
- 2024秋三年級(jí)語(yǔ)文上冊(cè) 第七單元 22 讀不完的大書教案 新人教版
- 高校實(shí)驗(yàn)室安全基礎(chǔ)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 7 中華民族一家親 第一課時(shí) (教學(xué)設(shè)計(jì))-部編版道德與法治五年級(jí)上冊(cè)
- 高一機(jī)械制圖期末考試卷
- 2024-2030年中國(guó)圣誕裝飾品行業(yè)發(fā)展現(xiàn)狀與競(jìng)爭(zhēng)力策略分析研究報(bào)告
- 【課件】Unit+4+My+Favourite+Subject大單元教學(xué)說課課件人教版(2024)七年級(jí)英語(yǔ)上冊(cè)
- 生化分析儀器市場(chǎng)發(fā)展預(yù)測(cè)和趨勢(shì)分析
- 表現(xiàn)形式 課件 2024-2025學(xué)年人教版初中美術(shù)七年級(jí)上冊(cè)
評(píng)論
0/150
提交評(píng)論