數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘期末綜合復(fù)習(xí)第一章1、數(shù)據(jù)倉(cāng)庫(kù)就是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合。2、元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),它為訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)提供了一個(gè)信息目錄,根據(jù)數(shù)據(jù)用途的不同可將數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類。3、數(shù)據(jù)處理通常分成兩大類:聯(lián)機(jī)事務(wù)處理和聯(lián)機(jī)分析處理。4、多維分析是指以“維”形式組織起來(lái)的數(shù)據(jù)(多維數(shù)據(jù)集)采取切片、切塊、鉆取和旋轉(zhuǎn)等各種分析動(dòng)作,以求剖析數(shù)據(jù),使擁護(hù)能從不同角度、不同側(cè)面觀察數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),從而深入理解多維數(shù)據(jù)集中的信息。5、ROLAP是基于關(guān)系數(shù)據(jù)庫(kù)的OLAP實(shí)現(xiàn),而MOLAP是基于多維數(shù)據(jù)結(jié)構(gòu)組

2、織的OLAP實(shí)現(xiàn)。OLAP技術(shù)的有關(guān)概念 :OLAP根據(jù)其存儲(chǔ)數(shù)據(jù)的方式可分為三類:ROLAP、MOLAP、HOLAP6、數(shù)據(jù)倉(cāng)庫(kù)按照其開發(fā)過(guò)程,其關(guān)鍵環(huán)節(jié)包括數(shù)據(jù)抽取、數(shù)據(jù)存儲(chǔ)與管理和數(shù)據(jù)表現(xiàn)等。7、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)根據(jù)應(yīng)用需求的不同,可以分為以下4種類型:兩層架構(gòu)、獨(dú)立型數(shù)據(jù)集合、以來(lái)型數(shù)據(jù)結(jié)合和操作型數(shù)據(jù)存儲(chǔ)和邏輯型數(shù)據(jù)集中和實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)。8、操作型數(shù)據(jù)存儲(chǔ)實(shí)際上是一個(gè)集成的、面向主題的、可更新的、當(dāng)前值的(但是可“揮發(fā)”的)、企業(yè)級(jí)的、詳細(xì)的數(shù)據(jù)庫(kù),也叫運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)。9、“實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)”以為著源數(shù)據(jù)系統(tǒng)、決策支持服務(wù)和倉(cāng)庫(kù)倉(cāng)庫(kù)之間以一個(gè)接近實(shí)時(shí)的速度交換數(shù)據(jù)和業(yè)務(wù)規(guī)則。10、從應(yīng)

3、用的角度看,數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展演變可以歸納為5個(gè)階段:以報(bào)表為主、以分析為主、以預(yù)測(cè)模型為主、以運(yùn)營(yíng)導(dǎo)向?yàn)橹骱鸵詫?shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)和自動(dòng)決策為主。11、什么是數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)主要有哪些?數(shù)據(jù)倉(cāng)庫(kù)通常是指一個(gè)數(shù)據(jù)庫(kù)環(huán)境,而不是支一件產(chǎn)品,它是提供用戶用于決策支持的當(dāng)前和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的數(shù)據(jù)庫(kù)中通常不方便得到。數(shù)據(jù)倉(cāng)庫(kù)就是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,通常用于輔助決策支持。數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)包含以下幾個(gè)方面:(1)面向主題。操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織是面向

4、事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離;而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。(2)集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫(kù)通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫(kù)之間相互獨(dú)立,并且往往是異構(gòu)的。也就是說(shuō)存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)應(yīng)使用一致的命名規(guī)則、格式、編碼結(jié)構(gòu)和相關(guān)特性來(lái)定義。(3)相對(duì)穩(wěn)定的。操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供單位決策分析之用,對(duì)所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢和加載,一旦某個(gè)數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將作為數(shù)據(jù)檔案長(zhǎng)期保存,幾乎不再做修改和刪除操作,也就是說(shuō)針對(duì)數(shù)據(jù)倉(cāng)庫(kù),通常有大量的查詢操作及少量定期的加載(或刷新)操作。(4

5、)反映歷史變化。操作型數(shù)據(jù)庫(kù)(OLTP)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含較久遠(yuǎn)的歷史數(shù)據(jù),因此總是包括一個(gè)時(shí)間維,以便可以研究趨勢(shì)和變化。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)通常記錄了一個(gè)單位從過(guò)去某一時(shí)點(diǎn)(如開始啟用數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的時(shí)點(diǎn))到目前的所有時(shí)期的信息,通過(guò)這些信息,可以對(duì)單位的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。12、數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘,就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程,簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí),又被稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)。 數(shù)據(jù)挖掘的方法:直接數(shù)據(jù)挖掘、間接數(shù)據(jù)挖掘。13、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的關(guān)系若將

6、數(shù)據(jù)倉(cāng)庫(kù)比作礦井,那么數(shù)據(jù)挖掘就是深入礦井采礦的工作;數(shù)據(jù)挖掘是從數(shù)據(jù)倉(cāng)庫(kù)中找出有用信息的一種過(guò)程與技術(shù)。14、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)的分類(1)兩層架構(gòu)(Generic Two-Level Architecture)。(2)獨(dú)立型數(shù)據(jù)集市(Independent Data Mart)。(3)依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ)(Dependent Data Mart and Operational Data Store)。(4)邏輯型數(shù)據(jù)集市和實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)(Logical Data Mart and Real-Time Data Warehouse)。15、數(shù)據(jù)倉(cāng)庫(kù)的未來(lái)(1)在數(shù)據(jù)抽取方面,未來(lái)

7、的技術(shù)發(fā)展將集中在系統(tǒng)集成化方面。它將互連、轉(zhuǎn)換、復(fù)制、調(diào)度、監(jiān)控納入標(biāo)準(zhǔn)化的統(tǒng)一管理,以適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)本身或數(shù)據(jù)源可能的變化,使系統(tǒng)更便于管理和維護(hù)。(2)在數(shù)據(jù)管理方面,未來(lái)的發(fā)展將使數(shù)據(jù)庫(kù)廠商明確推出數(shù)據(jù)倉(cāng)庫(kù)引擎,作為數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器產(chǎn)品與數(shù)據(jù)庫(kù)服務(wù)器并駕齊驅(qū)。在這一方面,帶有決策支持?jǐn)U展的并行關(guān)系數(shù)據(jù)庫(kù)將最具發(fā)展?jié)摿?。?)在數(shù)據(jù)表現(xiàn)方面,數(shù)理統(tǒng)計(jì)的算法和功能將普遍集成到聯(lián)機(jī)分析產(chǎn)品中,并與Internet/Web技術(shù)緊密結(jié)合。按行業(yè)應(yīng)用特征細(xì)化的數(shù)據(jù)倉(cāng)庫(kù)用戶前端軟件將成為產(chǎn)品作為數(shù)據(jù)倉(cāng)庫(kù)解決方案的一部分。數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)過(guò)程的方法論將更加普及,將成為數(shù)據(jù)庫(kù)設(shè)計(jì)的一個(gè)明確分支,成為管理信息系統(tǒng)

8、設(shè)計(jì)的必備16、請(qǐng)列出3種數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品,并說(shuō)明其優(yōu)缺點(diǎn)。(1)IBM 公司提供了一套基于可視化數(shù)據(jù)倉(cāng)庫(kù)的商業(yè)智能(BI)解決方案,包括:Visual Warehouse(VW),Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及來(lái)自第三方的前端數(shù)據(jù)展現(xiàn)工具(如BO)和數(shù)據(jù)挖掘工具(如SAS)。其中,VW 是一個(gè)功能很強(qiáng)的集成環(huán)境,既可用于數(shù)據(jù)倉(cāng)庫(kù)建模和元數(shù)據(jù)管理,又可用于數(shù)據(jù)抽取、轉(zhuǎn)換、裝載和調(diào)度。Essbase/DB2 OLAP Server 支持“維”的定義和數(shù)據(jù)裝載。Essbase/DB2 OLAP Server 不是ROLAP(Relational O

9、LAP)服務(wù)器,而是一個(gè)(ROLAP 和MOLAP)混合的HOLAP 服務(wù)器,在Essbase 完成數(shù)據(jù)裝載后,數(shù)據(jù)存放在系統(tǒng)指定的DB2 UDB 數(shù)據(jù)庫(kù)中。它的前端數(shù)據(jù)展現(xiàn)工具可以選擇Business Objects 的BO、Lotus 的Approach、Cognos 的Impromptu 或IBM 的Query Management Facility;多維分析工具支持Arbor Software 的Essbase 和IBM(與Arbor 聯(lián)合開發(fā))的DB2 OLAP 服務(wù)器;統(tǒng)計(jì)分析工具采用SAS 系統(tǒng)。(2)Oracle 數(shù)據(jù)倉(cāng)庫(kù)解決方案主要包括Oracle Express 和Orac

10、le Discoverer 兩個(gè)部分。Oracle Express 由四個(gè)工具組成:Oracle Express Server 是一個(gè)MOLAP(多維OLAP)服務(wù)器,它利用多維模型,存儲(chǔ)和管理多維數(shù)據(jù)庫(kù)或多維高速緩存,同時(shí)也能夠訪問(wèn)多種關(guān)系數(shù)據(jù)庫(kù);Oracle Express Web Agent 通過(guò)CGI 或Web 插件支持基于Web 的動(dòng)態(tài)多維數(shù)據(jù)展現(xiàn);Oracle Express Objects 前端數(shù)據(jù)分析工具(目前僅支持Windows 平臺(tái))提供了圖形化建模和假設(shè)分析功能,支持可視化開發(fā)和事件驅(qū)動(dòng)編程技術(shù),提供了兼容Visual Basic 語(yǔ)法的語(yǔ)言,支持OCX 和OLE;Ora

11、cle Express Analyzer 是通用的、面向最終用戶的報(bào)告和分析工具(目前僅支持Windows 平臺(tái))。Oracle Discoverer 即席查詢工具是專門為最終用戶設(shè)計(jì)的,分為最終用戶版和管理員版。在Oracle 數(shù)據(jù)倉(cāng)庫(kù)解決方案的實(shí)施過(guò)程中,通常把匯總數(shù)據(jù)存儲(chǔ)在Express 多維數(shù)據(jù)庫(kù)中,而將詳細(xì)數(shù)據(jù)存儲(chǔ)在Oracle 關(guān)系數(shù)據(jù)庫(kù)中,當(dāng)需要詳細(xì)數(shù)據(jù)時(shí),Express Server 通過(guò)構(gòu)造SQL 語(yǔ)句訪問(wèn)關(guān)系數(shù)據(jù)庫(kù)。(3)Microsoft 將OLAP 功能集成到SQL Server 數(shù)據(jù)庫(kù)中,其解決方案包括BI 平臺(tái)、BI 終端工具、BI 門戶和BI 應(yīng)用四個(gè)部分,如圖1

12、.1。 BI 平臺(tái)是BI 解決方案的基礎(chǔ), 包括ETL 平臺(tái)SQL Server 2005 Integration Service(SSIS)、數(shù)據(jù)倉(cāng)庫(kù)引擎SQL Server 2005 RDBMS 以及多維分析和數(shù)據(jù)挖掘引擎SQL Server 2005 Analysis Service、報(bào)表管理引擎SQL Server 2005 Reporting Service。 BI 終端用戶工具,用戶通過(guò)終端用戶工具和Analysis Service 中的OLAP 服務(wù)和數(shù)據(jù)挖掘服務(wù)進(jìn)行交互來(lái)使用多維數(shù)據(jù)集和數(shù)據(jù)挖掘模型,終端用戶通??墒褂妙A(yù)定義報(bào)表、交互式多維分析、即席查詢、數(shù)據(jù)可視化、數(shù)據(jù)挖掘等

13、多種方法。 BI 門戶提供了各種不同用戶訪問(wèn)BI 信息的統(tǒng)一入口。BI 門戶是一個(gè)數(shù)據(jù)的匯集地,集成了來(lái)自不同系統(tǒng)的相關(guān)信息。用戶可以制定個(gè)性化的個(gè)人門戶,選擇和自己相關(guān)性最強(qiáng)的數(shù)據(jù),提高信息訪問(wèn)和使用的效率。 BI 應(yīng)用是建立在BI 平臺(tái)、BI 終端用戶工具和BI 統(tǒng)一門戶這些公共技術(shù)手段之上的滿足某個(gè)特定業(yè)務(wù)需求的應(yīng)用,例如零售業(yè)務(wù)分析、企業(yè)項(xiàng)目管理組合分析等 第二章1、調(diào)和數(shù)據(jù)是存儲(chǔ)在企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)和操作型數(shù)據(jù)存儲(chǔ)中的數(shù)據(jù)。2、抽取、轉(zhuǎn)換、加載過(guò)程的目的是為決策支持應(yīng)用提供一個(gè)單一的、權(quán)威數(shù)據(jù)源。因此,我們要求ETL過(guò)程產(chǎn)生的數(shù)據(jù)(即調(diào)和數(shù)據(jù)層)是詳細(xì)的、歷史的、規(guī)范的、可理解的、即時(shí)的

14、和質(zhì)量可控制的。3、數(shù)據(jù)抽取的兩個(gè)常見類型是靜態(tài)抽取和增量抽取。靜態(tài)抽取用于最初填充數(shù)據(jù)倉(cāng)庫(kù),增量抽取用于進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的維護(hù)。4、粒度是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的綜合程度高低的一個(gè)衡量。粒度越小,細(xì)節(jié)程度越高,綜合程度越低,回答查詢的種類越多。5、使用星型模式可以從一定程度上提高查詢效率。因?yàn)樾切湍J街袛?shù)據(jù)的組織已經(jīng)經(jīng)過(guò)預(yù)處理,主要數(shù)據(jù)都在龐大的事實(shí)表中。6、維度表一般由主鍵、分類層次和描述屬性組成。對(duì)于主鍵可以選擇兩種方式:自然鍵,代理鍵。7、雪花型模式是對(duì)星型模式維表的進(jìn)一步層次化和規(guī)范化來(lái)消除冗余的數(shù)據(jù)。8、數(shù)據(jù)倉(cāng)庫(kù)中存在不同綜合級(jí)別的數(shù)據(jù)。一般把數(shù)據(jù)分成4個(gè)級(jí)別:早期細(xì)節(jié)級(jí)、當(dāng)前細(xì)節(jié)級(jí)、輕度綜

15、合級(jí)和高度綜合級(jí)。9、(1)狀態(tài)數(shù)據(jù)與事件數(shù)據(jù)前者描述對(duì)象的狀態(tài),后者描述對(duì)象發(fā)生的事件; (前象)狀態(tài)數(shù)據(jù)事件數(shù)據(jù)(后象)狀態(tài)數(shù)據(jù)(2)當(dāng)前數(shù)據(jù)與周期數(shù)據(jù)當(dāng)前數(shù)據(jù)只保留最新數(shù)據(jù),現(xiàn)存的最新記錄將改變以前中的數(shù)據(jù)。周期數(shù)據(jù)則相反,一旦保存物理上就不在改變或刪除數(shù)據(jù)。通常每個(gè)周期數(shù)據(jù)記錄都會(huì)包含一個(gè)時(shí)間戳來(lái)只是日期甚至?xí)r間。(3)數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)分技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)是描述關(guān)于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)細(xì)節(jié)的數(shù)據(jù),包括:數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述,業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式,匯總算法,操作性業(yè)務(wù)環(huán)境導(dǎo)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的映射等。10、業(yè)務(wù)元數(shù)據(jù)是從業(yè)務(wù)角度描述數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),提供了使用者

16、和系統(tǒng)的語(yǔ)義層,使非專業(yè)人員能“讀懂”倉(cāng)庫(kù)中的數(shù)據(jù)。包括:(1)使用者的業(yè)務(wù)屬于所表達(dá)的數(shù)據(jù)類型、對(duì)象名和屬性名;(2)訪問(wèn)數(shù)據(jù)的原則和數(shù)據(jù)的來(lái)源;(3)系統(tǒng)所提供的分析方法及公式和報(bào)表的信息。簡(jiǎn)言之,元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的幫助和導(dǎo)航圖11、什么是數(shù)據(jù)倉(cāng)庫(kù)的3層數(shù)據(jù)結(jié)構(gòu)?數(shù)據(jù)是從企業(yè)內(nèi)外部的各業(yè)務(wù)處理系統(tǒng)(操作型數(shù)據(jù))流向企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)或操作型數(shù)據(jù)存儲(chǔ)區(qū),在這個(gè)過(guò)程中,要根據(jù)企業(yè)(或其他組織)的數(shù)據(jù)模型和元數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行調(diào)和處理,形成一個(gè)中間數(shù)據(jù)層,然后再根據(jù)分析需求,從調(diào)和數(shù)據(jù)層將數(shù)據(jù)引入導(dǎo)出數(shù)據(jù)層,如形成滿足各類分析需求的數(shù)據(jù)集市。12、什么是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETL過(guò)程?數(shù)據(jù)的ETL 過(guò)程就是

17、負(fù)責(zé)將操作型數(shù)據(jù)轉(zhuǎn)換成調(diào)和數(shù)據(jù)的過(guò)程。這兩種數(shù)據(jù)具有明顯的區(qū)別,因此,數(shù)據(jù)調(diào)和是構(gòu)建一個(gè)數(shù)據(jù)倉(cāng)庫(kù)中最難的和最具技術(shù)挑戰(zhàn)性的部分。在為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)填充數(shù)據(jù)的過(guò)程中,數(shù)據(jù)調(diào)和可分為兩個(gè)階段:一是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)(EDW)首次創(chuàng)建時(shí)的原始加載;二是接下來(lái)的定期修改,以保持EDW 的當(dāng)前有效性和擴(kuò)展性。整個(gè)過(guò)程由四個(gè)步驟組成:抽取、清洗、轉(zhuǎn)換、加載和索引。事實(shí)上,這些步驟可以進(jìn)行不同的組合,如,可以將數(shù)據(jù)抽取與清洗組合為一個(gè)過(guò)程,或者將清洗和轉(zhuǎn)換組合在一起。通常,在清洗過(guò)程中發(fā)現(xiàn)的拒絕數(shù)據(jù)信息會(huì)送回到源操作型業(yè)務(wù)系統(tǒng)中,然后將數(shù)據(jù)在源系統(tǒng)中加以處理,以便在以后重新抽取。13、什么是星型模式?它的特征是

18、什么?在星模式中,事實(shí)表居中,多個(gè)維表呈輻射狀分布于其四周,并與事實(shí)表連接。位于星形中心的實(shí)體是事實(shí)表,是用戶最關(guān)心的基本實(shí)體和查詢活動(dòng)的中心,為數(shù)據(jù)倉(cāng)庫(kù)的查詢活動(dòng)提供定量數(shù)據(jù)。位于星模式四周的實(shí)體是維度實(shí)體,其作用是限制和過(guò)濾用戶的查詢結(jié)果,縮小訪問(wèn)范圍。每個(gè)維表都有自己的屬性,維表和事實(shí)表通過(guò)關(guān)鍵字相關(guān)聯(lián)。14、為什么時(shí)間總是數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的維?信息包圖法,也叫用戶信息需求表,就是在一張平面表格上描述元素的多維性,其中的每一個(gè)維度用平面表格的一列表示,通常的維度如時(shí)間、地點(diǎn)、產(chǎn)品和顧客等;而細(xì)化本列的對(duì)象就是類別,例如時(shí)間維度的類別可以細(xì)化到年、月、日,甚至小時(shí);平面表格的最后一行(代

19、表超立方體中的單元格)即為指標(biāo)度量值,例如,某年在某銷售點(diǎn)的某類產(chǎn)品的實(shí)際銷售額。創(chuàng)建信息包圖時(shí)需要確定最高層和最低層的信息需求,以便最終設(shè)計(jì)出包含各個(gè)層次需要的數(shù)據(jù)倉(cāng)庫(kù)??傊畔鼒D法是一種自上而下的數(shù)據(jù)建模方法,即從用戶的觀點(diǎn)開始設(shè)計(jì)(用戶的觀點(diǎn)是通過(guò)與用戶交流得到的),站在管理者的角度把焦點(diǎn)集中在企業(yè)的一個(gè)或幾個(gè)主題上,著重分析主題所涉及數(shù)據(jù)的多維特性,這種自上而下的方法幾乎考慮了所有的信息源,以及這些信息源影響業(yè)務(wù)活動(dòng)的方式。12、簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)過(guò)程?收集、分析和確認(rèn)業(yè)務(wù)分析需求,分析和理解主題和元數(shù)據(jù)、事實(shí)及其量度、粒度和維度的選擇與設(shè)計(jì)、數(shù)據(jù)倉(cāng)庫(kù)的物理存儲(chǔ)方式的設(shè)計(jì)等。書p

20、4913、一個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的建立通暢需要經(jīng)過(guò)哪些步驟?(1)收集和分析業(yè)務(wù)需求;(2)建立數(shù)據(jù)模型和數(shù)據(jù)倉(cāng)庫(kù)的物理設(shè)計(jì);(3)定義數(shù)據(jù)源;(4)選擇數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和平臺(tái);(5)從操作型數(shù)據(jù)庫(kù)中抽取、清洗及轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù);(6)選擇訪問(wèn)和報(bào)表工具,選擇數(shù)據(jù)庫(kù)連接軟件,選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件;(7)更新數(shù)據(jù)倉(cāng)庫(kù)。14、建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的參考步驟(1)收集和分析業(yè)務(wù)需求步驟 (2)建立數(shù)據(jù)模型和數(shù)據(jù)倉(cāng)庫(kù)的物理設(shè)計(jì) (3)定義數(shù)據(jù)源 (4)選擇數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和平臺(tái) (5)從操作型數(shù)據(jù)庫(kù)中抽取、清洗及轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù) (6)選擇訪問(wèn)和報(bào)表工具,選擇數(shù)據(jù)庫(kù)連接軟件,選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件 (

21、7)更新數(shù)據(jù)倉(cāng)庫(kù)15、創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的兩種思維模式自頂向下(Top-down)OLTP數(shù)據(jù)通過(guò)ETL進(jìn)入DW,再?gòu)?fù)制推進(jìn)各個(gè)數(shù)據(jù)集市;自底向上(Bottom-Up)OLTP數(shù)據(jù)通過(guò)ETL進(jìn)入數(shù)據(jù)集市,再?gòu)?fù)制提升到DW;16、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)的設(shè)計(jì)過(guò)程(1)分析組織的業(yè)務(wù)狀況及數(shù)據(jù)源結(jié)構(gòu) (2)組織需求調(diào)研,收集業(yè)務(wù)需求 (3)采用信息包圖法進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì) (4)利用星形圖進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì) (5)數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)17、利用星形圖進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)(1)根據(jù)分析需求與信息包圖制作星形圖或雪花圖 (2)確定主題的屬性組 (3)事實(shí)表及其特征、事實(shí)表的類型與設(shè)計(jì) (

22、4)粒度的選擇與設(shè)計(jì)步驟 (5)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的聚合模型與數(shù)據(jù)的分割處理 (6)星形圖中的維度表簡(jiǎn)介 (7)常用維度的設(shè)計(jì)模式第四章1、關(guān)聯(lián)規(guī)則的經(jīng)典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。2、如果L2=a,b,a,c,a,d,b,c,b,d,則連接產(chǎn)生的C3=a,b,c,a,b,d,a,c,d,b,c,d 再經(jīng)過(guò)修剪,C3=a,b,c,a,b,d3、設(shè)定supmin=50%,交易集如則L1=A,B,C L2=A,CT1 A B CT2 A CT3 A DT4 B E F4、什么是關(guān)聯(lián)規(guī)則?關(guān)聯(lián)規(guī)則的應(yīng)用有哪些?關(guān)聯(lián)規(guī)則挖掘最初由R.Agraw

23、al 等人提出,用來(lái)發(fā)現(xiàn)超級(jí)市場(chǎng)中用戶購(gòu)買的商品之間的隱含關(guān)聯(lián)關(guān)系,并用規(guī)則的形式表示出來(lái),稱為關(guān)聯(lián)規(guī)則(Association Rule)。關(guān)聯(lián)規(guī)則除了可以發(fā)現(xiàn)超市購(gòu)物中隱含的關(guān)聯(lián)關(guān)系之外,還可以應(yīng)用于其他很多領(lǐng)域。關(guān)聯(lián)規(guī)則的應(yīng)用還包括文本挖掘、商品廣告郵寄分析、網(wǎng)絡(luò)故障分析等。5、關(guān)聯(lián)規(guī)則的分類有哪些?關(guān)聯(lián)規(guī)則挖掘的步驟包括什么? 關(guān)聯(lián)規(guī)則的分類:(1)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。(2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。(3)基于規(guī)則中處理的變量的類型不同,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。關(guān)聯(lián)規(guī)則挖掘的步驟:(1)找出交易數(shù)據(jù)庫(kù)

24、中所有大于或等于用戶指定的最小支持度的頻繁項(xiàng)集;(2)利用頻繁項(xiàng)集生成所需要的關(guān)聯(lián)規(guī)則,根據(jù)用戶設(shè)定的最小可信度進(jìn)行取舍,產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。第五章1、分類的過(guò)程包括獲取數(shù)據(jù)、預(yù)處理、分類器設(shè)計(jì)和分類決策。2、分類器設(shè)計(jì)階段包含三個(gè)過(guò)程:劃分?jǐn)?shù)據(jù)集、分類器構(gòu)造和分類器測(cè)試。3、分類問(wèn)題中常用的評(píng)價(jià)準(zhǔn)則有精確度、查全率和查準(zhǔn)率和集合均值。4、支持向量機(jī)中常用的核函數(shù)有多項(xiàng)式核函數(shù)、徑向基核函數(shù)和S型核函數(shù)。5、分類的定義:分類是指把數(shù)據(jù)樣本映射到一個(gè)事先定義的類中的學(xué)習(xí)過(guò)程,即給定一組輸入的屬性向量及其對(duì)應(yīng)的類,用基于歸納的學(xué)習(xí)算法得出分類6、分類的應(yīng)用領(lǐng)域有哪些?分類問(wèn)題是數(shù)據(jù)挖掘領(lǐng)域中研究和應(yīng)用

25、最為廣泛的技術(shù)之一,許多分類算法被包含在統(tǒng)計(jì)分析工具的軟件包中,作為專門的分類工具來(lái)使用。分類問(wèn)題在商業(yè)、銀行業(yè)、醫(yī)療診斷、生物學(xué)、文本挖掘、因特網(wǎng)篩選等領(lǐng)域都有廣泛應(yīng)用。例如,在銀行業(yè)中,分類方法可以輔助工作人員將正常信用卡用戶和欺詐信用卡用戶進(jìn)行分類,從而采取有效措施減小銀行的損失;在醫(yī)療診斷中,分類方法可以幫助醫(yī)療人員將正常細(xì)胞和癌變細(xì)胞進(jìn)行分類,從而及時(shí)制定救治方案,挽救病人的生命;在因特網(wǎng)篩選中,分類方法可以協(xié)助網(wǎng)絡(luò)工作人員將正常郵件和垃圾郵件進(jìn)行分類,從而制定有效的垃圾郵件過(guò)濾機(jī)制,防止垃圾郵件干擾人們的正常生活。7、分類問(wèn)題使用的數(shù)據(jù)集格式(1)描述屬性可以是連續(xù)型屬性,也可以是

26、離散型屬性;而類別屬性必須是離散型屬性。(2)連續(xù)型屬性是指在某一個(gè)區(qū)間或者無(wú)窮區(qū)間內(nèi)該屬性的取值是連續(xù)的 ,例如屬性“Age”(3)離散型屬性是指該屬性的取值是不連續(xù)的 ,例如屬性“Salary”和“Class”8、分類的過(guò)程(1)獲取數(shù)據(jù):輸入數(shù)據(jù)、對(duì)數(shù)據(jù)進(jìn)行量化(2)預(yù)處理:去除噪聲數(shù)據(jù)、對(duì)空缺值進(jìn)行處理;數(shù)據(jù)集成或者變換(3)分類器設(shè)計(jì):劃分?jǐn)?shù)據(jù)集、分類器構(gòu)造、分類器測(cè)試(4)分類決策:對(duì)未知類標(biāo)號(hào)的數(shù)據(jù)樣本進(jìn)行分類9、決策樹的優(yōu)點(diǎn):進(jìn)行分類器設(shè)計(jì)時(shí),決策樹分類方法所需時(shí)間相對(duì)較少;決策樹的分類模型是樹狀結(jié)構(gòu),簡(jiǎn)單直觀,比較符合人類的理解方式;可以將決策樹中到達(dá)每個(gè)葉節(jié)點(diǎn)的路徑轉(zhuǎn)換為I

27、FTHEN形式的分類規(guī)則,這種形式更有利于理解10、決策樹的基本概念:適用于離散值屬性、連續(xù)值屬性;采用自頂向下的遞歸方式產(chǎn)生一個(gè)類似于流程圖的樹結(jié)構(gòu);在根節(jié)點(diǎn)和各內(nèi)部節(jié)點(diǎn)上選擇合適的描述屬性,并且根據(jù)該屬性的不同取值向下建立分枝11、決策樹剪枝:決策樹剪枝過(guò)程試圖檢測(cè)和去掉多余的分枝,以提高對(duì)未知類標(biāo)號(hào)的數(shù)據(jù)進(jìn)行分類時(shí)的準(zhǔn)確性。a) 先剪枝方法:在生成決策樹的過(guò)程中對(duì)樹進(jìn)行剪枝b) 后剪枝方法:在生成決策樹之后對(duì)樹進(jìn)行剪枝第六章1、聚類分析包括連續(xù)型、二值離散型、多值離散型和混合類型4種類型描述屬性的相似度計(jì)算方法。2、連續(xù)型屬性的數(shù)據(jù)樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。3、

28、劃分聚類方法對(duì)數(shù)據(jù)集進(jìn)行聚類時(shí)包含三個(gè)要點(diǎn):選種某種距離作為數(shù)據(jù)樣本減的相似性度量、選擇評(píng)價(jià)聚類性能的準(zhǔn)則函數(shù)和選擇某個(gè)初始分類,之后用迭代的方法得到聚類結(jié)果,使得評(píng)價(jià)聚類的準(zhǔn)則函數(shù)取得最優(yōu)值。4、層次聚類方法包括凝聚型和分解型兩中層次聚類方法。5、什么是聚類分析?聚類分析的應(yīng)用領(lǐng)域有哪些?書p131聚類分析是將物理的或者抽象的數(shù)據(jù)集合劃分為多個(gè)類別的過(guò)程,聚類之后的每個(gè)類別中任意兩個(gè)數(shù)據(jù)樣本之間具有較高的相似度,不同類別的數(shù)據(jù)樣本之間具有較低的相似度。6、數(shù)據(jù)挖掘技術(shù)對(duì)聚類分析的要求:(1)可伸縮性 (適用于增長(zhǎng)的大數(shù)據(jù)集)(2)處理不同類型屬性的能力 (支持多種類型屬性的數(shù)據(jù)集)(3)發(fā)現(xiàn)

29、任意形狀聚類的能力 (除了球形聚類外,能劃分出任意形狀聚類)(4)減小對(duì)先驗(yàn)知識(shí)和用戶自定義參數(shù)的依賴性 (5)處理噪聲數(shù)據(jù)的能力(對(duì)孤立點(diǎn)、缺失值、錯(cuò)誤數(shù)據(jù)等噪聲數(shù)據(jù)的抗干擾性)(6)可解釋性和實(shí)用性 (降維,可視化顯示)7、通常聚類算法可以分為以下幾類:(1)劃分聚類方法選擇適當(dāng)?shù)某跏即睃c(diǎn)將數(shù)據(jù)樣本進(jìn)行初始聚類,之后通過(guò)迭代過(guò)程對(duì)聚類的結(jié)果進(jìn)行不斷的調(diào)整,直到使評(píng)價(jià)性能的準(zhǔn)則函數(shù)的值達(dá)到最優(yōu)為止。(2)層次聚類方法 (3)基于密度的聚類方法 (4)基于網(wǎng)格的聚類方法第十章1、遺傳算法(Genetic Algorithms,GA)是一種有效的全局搜索方法,是一種基于達(dá)爾文自然選擇和遺傳變異

30、等生物進(jìn)化機(jī)制而發(fā)展起來(lái)的仿生算法。2、例1 利用遺傳算法求解區(qū)間0,31上的二次函數(shù)y=x2的最大值。解 (1) 設(shè)定種群規(guī)模,編碼染色體,產(chǎn)生初始種群。將種群規(guī)模設(shè)定為4;用5位二進(jìn)制數(shù)編碼染色體;取下列個(gè)體組成初始種群S1:s1= 13 (01101), s2= 24 (11000)s3= 8 (01000), s4= 19 (10011)(2) 定義適應(yīng)度函數(shù),取適應(yīng)度函數(shù):f (x)=x2f (s1) = f(13) = 132 = 169 f (s2) = f(24) = 242 = 576f (s3) = f(8) = 82 = 64 f (s4) = f(19) = 192 =

31、 361由此可求得P(s1) = P(13) = 0.14 P(s2) = P(24) = 0.49P(s3) = P(8) = 0.06 P(s4) = P(19) = 0.31(3) 計(jì)算各代種群中的各個(gè)體的適應(yīng)度, 并對(duì)其染色體進(jìn)行遺傳操作,直到適應(yīng)度最高的個(gè)體(即31(11111))出現(xiàn)為止。填空題20分,簡(jiǎn)答題25分,計(jì)算題2個(gè)(25分),綜合題30分1、數(shù)據(jù)倉(cāng)庫(kù)的組成?P2數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù),數(shù)據(jù)抽取工具,元數(shù)據(jù),訪問(wèn)工具,數(shù)據(jù)集市,數(shù)據(jù)倉(cāng)庫(kù)管理,信息發(fā)布系統(tǒng)2、數(shù)據(jù)挖掘技術(shù)對(duì)聚類分析的要求有哪幾個(gè)方面?P131可伸縮性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀聚類的能力;減小對(duì)先驗(yàn)知識(shí)和

32、用戶自定義參數(shù)的依賴性;處理噪聲數(shù)據(jù)的能力;可解釋性和實(shí)用性3、數(shù)據(jù)倉(cāng)庫(kù)在存儲(chǔ)和管理方面的特點(diǎn)與關(guān)鍵技術(shù)?P7(1)數(shù)據(jù)倉(cāng)庫(kù)面對(duì)的是大量數(shù)據(jù)的存儲(chǔ)與管理(2)并行處理(3)針對(duì)決策支持查詢的優(yōu)化(4)支持多維分析的查詢模式4、常見的聚類算法可以分為幾類?P132基于劃分的聚類算法,基于層次的聚類算法,基于密度的聚類算法,基于網(wǎng)格的聚類算法,基于模型的聚類算法等。5、一個(gè)典型的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的組成?P12數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)與管理、OLAP服務(wù)器、前端工具與應(yīng)用6、 數(shù)據(jù)倉(cāng)庫(kù)常見的存儲(chǔ)優(yōu)化方法?P71表的歸并與簇文件;反向規(guī)范化,引入冗余;表的物理分割。7、 數(shù)據(jù)倉(cāng)庫(kù)發(fā)展演變的5個(gè)階段?P20以報(bào)表為

33、主 以分析為主 以預(yù)測(cè)模型為主 以運(yùn)行向?qū)橹饕詫?shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù) 自動(dòng)決策應(yīng)用為主8、 ID3算法主要存在的缺點(diǎn)?P116(1)ID3算法在選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中的分枝屬性時(shí),使用信息增益作為評(píng)價(jià)標(biāo)準(zhǔn)。信息增益的缺點(diǎn)是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會(huì)提供太多有價(jià)值的信息。(2)ID3算法只能對(duì)描述屬性為離散型屬性的數(shù)據(jù)集構(gòu)造決策樹。9、 簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)ETL軟件的主要功能和對(duì)產(chǎn)生數(shù)據(jù)的目標(biāo)要求。P30ETL軟件的主要功能:數(shù)據(jù)的抽取,數(shù)據(jù)的轉(zhuǎn)換,數(shù)據(jù)的加載對(duì)產(chǎn)生數(shù)據(jù)的目標(biāo)要求:詳細(xì)的、歷史的、規(guī)范化的、可理解的、即時(shí)的、質(zhì)量可控制的10、 簡(jiǎn)述分類器設(shè)計(jì)階段包含的3個(gè)過(guò)程。劃分?jǐn)?shù)據(jù)集,分類器構(gòu)造,分類器測(cè)試11、 什么是數(shù)據(jù)清洗?P33數(shù)據(jù)清洗是一種使用模式識(shí)別和其他技術(shù),在將原始數(shù)據(jù)轉(zhuǎn)換和移到數(shù)據(jù)倉(cāng)庫(kù)之前來(lái)升級(jí)原始數(shù)據(jù)12、支持度和置信度的計(jì)算公式及數(shù)據(jù)計(jì)算(P90)找出所有的規(guī)則X à Y , 使支持度和置信度分別大于門限支持度: 事務(wù)中X和Y同時(shí)發(fā)生的比例,P(X Y)置信度:項(xiàng)集X發(fā)生時(shí),Y同時(shí)發(fā)生的條件概率P(Y|X)Example:13、利用信息包圖設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)概念模型需要確定的三方面內(nèi)容。P57確定指標(biāo),確定維度,確定類別14、K-近鄰分類方法的操作步驟(包括算法的輸入和輸出)。P12815、什么是技術(shù)元數(shù)據(jù),主要包含的內(nèi)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論