數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件1 (2)_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件1 (2)_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件1 (2)_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件1 (2)_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件1 (2)_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理22.1 數(shù)據(jù)倉庫結(jié)構(gòu)體系數(shù)據(jù)倉庫結(jié)構(gòu)體系2.2 數(shù)據(jù)倉庫的數(shù)據(jù)模型數(shù)據(jù)倉庫的數(shù)據(jù)模型2.3數(shù)據(jù)抽取、轉(zhuǎn)換和裝載數(shù)據(jù)抽取、轉(zhuǎn)換和裝載2.4 元數(shù)據(jù)元數(shù)據(jù)32.1 數(shù)據(jù)倉庫結(jié)構(gòu)體系數(shù)據(jù)倉庫結(jié)構(gòu)體系2.1.1 數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫結(jié)構(gòu)2.1.2數(shù)據(jù)集市及其結(jié)構(gòu)數(shù)據(jù)集市及其結(jié)構(gòu)2.1.3 數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)2.1.4 數(shù)據(jù)倉庫運(yùn)行結(jié)構(gòu)數(shù)據(jù)倉庫運(yùn)行結(jié)構(gòu)4 近期基本數(shù)據(jù):近期基本數(shù)據(jù):是最近時(shí)期的業(yè)務(wù)數(shù)據(jù),是數(shù)是最近時(shí)期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉庫用戶最感興趣的部分,數(shù)據(jù)量大。據(jù)倉庫用戶最感興趣的部分,數(shù)據(jù)量大。 歷史基本數(shù)據(jù):歷史基本數(shù)據(jù):近期基本數(shù)據(jù)隨時(shí)間的推移,近

2、期基本數(shù)據(jù)隨時(shí)間的推移,由數(shù)據(jù)倉庫的時(shí)間控制機(jī)制轉(zhuǎn)為歷史基本數(shù)據(jù)。由數(shù)據(jù)倉庫的時(shí)間控制機(jī)制轉(zhuǎn)為歷史基本數(shù)據(jù)。 輕度綜合數(shù)據(jù):輕度綜合數(shù)據(jù):是從近期基本數(shù)據(jù)中提取出的,是從近期基本數(shù)據(jù)中提取出的,這 層 數(shù) 據(jù) 是 按 時(shí) 間 段 選 取 , 或 者 按 數(shù) 據(jù) 屬 性這 層 數(shù) 據(jù) 是 按 時(shí) 間 段 選 取 , 或 者 按 數(shù) 據(jù) 屬 性(attributesattributes)和內(nèi)容(和內(nèi)容(contentscontents)進(jìn)行綜合。進(jìn)行綜合。 高度綜合數(shù)據(jù)層:高度綜合數(shù)據(jù)層:這一層的數(shù)據(jù)是在輕度綜合這一層的數(shù)據(jù)是在輕度綜合數(shù)據(jù)基礎(chǔ)上的再一次綜合,是一種準(zhǔn)決策數(shù)據(jù)。數(shù)據(jù)基礎(chǔ)上的再一次綜

3、合,是一種準(zhǔn)決策數(shù)據(jù)。 元元數(shù)數(shù)據(jù)據(jù) 高高度度綜綜合合數(shù)數(shù)據(jù)據(jù)輕輕度度綜綜合合數(shù)數(shù)據(jù)據(jù)當(dāng)當(dāng)前前基基本本數(shù)數(shù)據(jù)據(jù)歷歷史史數(shù)數(shù)據(jù)據(jù)層層 6 數(shù)據(jù)粒度數(shù)據(jù)粒度 定義 粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級別。細(xì)化程度越高,粒度級就越??;相反,細(xì)化程度越低,粒度級就越大。 粒度深深地影響存放在數(shù)據(jù)倉庫中數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉庫所能回答的查詢類型。 在數(shù)據(jù)倉庫中的數(shù)據(jù)粒度與查詢的詳細(xì)程度之間要做出權(quán)衡。 當(dāng)提高粒度級別時(shí),數(shù)據(jù)所能回答查詢的能力會隨之降低。換言之,在一個(gè)很低的粒度級別上,幾乎可以回答任何問題,但在高粒度級別上,數(shù)據(jù)所能處理的問題的數(shù)量是有限的。 7 左圖是一個(gè)低粒

4、度級,每個(gè)活動(在這里是一次電話)被詳細(xì)記錄下來,數(shù)據(jù)的格式如圖所示。到月底每個(gè)顧客平均有200條記錄(全月中每個(gè)電話都記錄一次),因而總共需要40000個(gè)字節(jié); 右圖的邊是一個(gè)高粒度級。數(shù)據(jù)代表一位顧客一個(gè)月的綜合信息,每位顧客一個(gè)月只有一個(gè)記錄,這樣的記錄大約只需200個(gè)字節(jié)。 8問題:“上星期某某顧客是否給某某人打了電話?” 在低粒度級別上,完全可以回答這一問題,雖然這種回答將花費(fèi)大量資源去查詢大量的記錄,但是問題結(jié)果是可以確定的。 在高粒度級別上,則無法明確地回答這個(gè)問題。假如在數(shù)據(jù)倉庫中存放的只是所打電話的總數(shù),那么就無法確定其中是否有一個(gè)電話是打給某人的。 9n數(shù)據(jù)倉庫工作范圍和成

5、本常常是巨大的。開發(fā)數(shù)數(shù)據(jù)倉庫工作范圍和成本常常是巨大的。開發(fā)數(shù)據(jù)倉庫是代價(jià)很高、時(shí)間較長的大項(xiàng)目。據(jù)倉庫是代價(jià)很高、時(shí)間較長的大項(xiàng)目。n提供更緊密集成的數(shù)據(jù)集市就應(yīng)運(yùn)產(chǎn)生。提供更緊密集成的數(shù)據(jù)集市就應(yīng)運(yùn)產(chǎn)生。n目前,全世界對數(shù)據(jù)倉庫總投資的一半以上均集目前,全世界對數(shù)據(jù)倉庫總投資的一半以上均集中在數(shù)據(jù)集市上。中在數(shù)據(jù)集市上。10n數(shù)據(jù)集市(數(shù)據(jù)集市(Data MartsData Marts)是一種更小、更集是一種更小、更集中的數(shù)據(jù)倉庫,為公司提供分析商業(yè)數(shù)據(jù)的中的數(shù)據(jù)倉庫,為公司提供分析商業(yè)數(shù)據(jù)的一條廉價(jià)途徑。一條廉價(jià)途徑。nData MartsData Marts是指具有特定應(yīng)用的數(shù)據(jù)倉庫

6、,是指具有特定應(yīng)用的數(shù)據(jù)倉庫,主要針對某個(gè)應(yīng)用或者具體部門級的應(yīng)用,主要針對某個(gè)應(yīng)用或者具體部門級的應(yīng)用,支持用戶獲得競爭優(yōu)勢或者找到進(jìn)入新市場支持用戶獲得競爭優(yōu)勢或者找到進(jìn)入新市場的具體解決方案。的具體解決方案。113.數(shù)據(jù)集市與數(shù)據(jù)倉庫差別數(shù)據(jù)集市與數(shù)據(jù)倉庫差別(1)數(shù)據(jù)倉庫是基于整個(gè)企業(yè)的數(shù)據(jù)模型建立的,)數(shù)據(jù)倉庫是基于整個(gè)企業(yè)的數(shù)據(jù)模型建立的,它面向企業(yè)范圍內(nèi)的主題。而數(shù)據(jù)集市是按照某一它面向企業(yè)范圍內(nèi)的主題。而數(shù)據(jù)集市是按照某一特定部門的數(shù)據(jù)模型建立的。特定部門的數(shù)據(jù)模型建立的。(2)部門的主題與企業(yè)的主題之間可能存在關(guān)聯(lián),)部門的主題與企業(yè)的主題之間可能存在關(guān)聯(lián),也可能不存在關(guān)聯(lián)。

7、也可能不存在關(guān)聯(lián)。(3)數(shù)據(jù)集市的數(shù)據(jù)組織一般采用星型模型。)數(shù)據(jù)集市的數(shù)據(jù)組織一般采用星型模型。大型數(shù)據(jù)倉庫的數(shù)據(jù)組織,如大型數(shù)據(jù)倉庫的數(shù)據(jù)組織,如NCR公司采用第三范式。公司采用第三范式。12 1 1、規(guī)模是小的規(guī)模是小的2 2、特定的應(yīng)用、特定的應(yīng)用3 3、面向部門面向部門4 4、由業(yè)務(wù)部門定義,設(shè)計(jì)和開發(fā)、由業(yè)務(wù)部門定義,設(shè)計(jì)和開發(fā)5 5、由業(yè)務(wù)部門管理和維護(hù)、由業(yè)務(wù)部門管理和維護(hù)6 6、快速實(shí)現(xiàn)快速實(shí)現(xiàn)7 7、購買較便宜、購買較便宜8 8、投資快速回收投資快速回收9 9、更詳細(xì)的、預(yù)先存在的數(shù)據(jù)倉庫的摘要子集、更詳細(xì)的、預(yù)先存在的數(shù)據(jù)倉庫的摘要子集1010、可升級到完整的數(shù)據(jù)倉庫可升

8、級到完整的數(shù)據(jù)倉庫13獨(dú)立數(shù)據(jù)集市獨(dú)立數(shù)據(jù)集市(Independent Data Mart)(Independent Data Mart)從屬數(shù)據(jù)集市從屬數(shù)據(jù)集市(Dependent Data Mart)(Dependent Data Mart)14 數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫(數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫(DWDW)、)、倉庫管理和分析工倉庫管理和分析工具三部分組成。具三部分組成。2.1.2 數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)15 (1)數(shù)據(jù)建模)數(shù)據(jù)建模數(shù)據(jù)建模是建立數(shù)據(jù)倉庫的數(shù)據(jù)模型。數(shù)據(jù)建模是建立數(shù)據(jù)倉庫的數(shù)據(jù)模型。數(shù)據(jù)倉庫的數(shù)據(jù)模型不同于數(shù)據(jù)庫的數(shù)據(jù)模型在于:數(shù)據(jù)倉庫的數(shù)據(jù)模型不同于數(shù)據(jù)庫的數(shù)據(jù)

9、模型在于:數(shù)據(jù)倉庫只為決策分析用,不包含事務(wù)處理的數(shù)據(jù)。數(shù)據(jù)倉庫只為決策分析用,不包含事務(wù)處理的數(shù)據(jù)。數(shù)據(jù)倉庫的增加了時(shí)間屬性數(shù)據(jù)。數(shù)據(jù)倉庫的增加了時(shí)間屬性數(shù)據(jù)。數(shù)據(jù)倉庫增加了一些綜合數(shù)據(jù)。數(shù)據(jù)倉庫增加了一些綜合數(shù)據(jù)。數(shù)據(jù)倉庫的數(shù)據(jù)建模是適應(yīng)決策用戶使用的邏輯數(shù)據(jù)數(shù)據(jù)倉庫的數(shù)據(jù)建模是適應(yīng)決策用戶使用的邏輯數(shù)據(jù)模型。模型。 16(2)數(shù)據(jù)抽取、轉(zhuǎn)換、裝載)數(shù)據(jù)抽取、轉(zhuǎn)換、裝載n數(shù)據(jù)倉庫中的數(shù)據(jù),是通過在源數(shù)據(jù)中數(shù)據(jù)倉庫中的數(shù)據(jù),是通過在源數(shù)據(jù)中抽取數(shù)據(jù),按數(shù)據(jù)倉庫的邏輯數(shù)據(jù)模型抽取數(shù)據(jù),按數(shù)據(jù)倉庫的邏輯數(shù)據(jù)模型的要求進(jìn)行數(shù)據(jù)轉(zhuǎn)換,再按物理數(shù)據(jù)模的要求進(jìn)行數(shù)據(jù)轉(zhuǎn)換,再按物理數(shù)據(jù)模型的要求裝載到數(shù)據(jù)

10、倉庫中去。型的要求裝載到數(shù)據(jù)倉庫中去。n數(shù)據(jù)抽取、轉(zhuǎn)換、裝載(數(shù)據(jù)抽取、轉(zhuǎn)換、裝載(ETL)是建立)是建立數(shù)據(jù)倉庫的重要步驟,需要花費(fèi)開發(fā)數(shù)數(shù)據(jù)倉庫的重要步驟,需要花費(fèi)開發(fā)數(shù)據(jù)倉庫據(jù)倉庫70%的工作量。的工作量。17(1 1)查詢工具)查詢工具 數(shù)據(jù)倉庫的查詢不是指對記錄級數(shù)據(jù)的查數(shù)據(jù)倉庫的查詢不是指對記錄級數(shù)據(jù)的查詢,而是指對分析要求的查詢。詢,而是指對分析要求的查詢。 一般包含:一般包含: 可視化工具:可視化工具:以圖形化方式展示數(shù)據(jù),可以圖形化方式展示數(shù)據(jù),可以幫助了解數(shù)據(jù)的結(jié)構(gòu),關(guān)系以及動態(tài)性。以幫助了解數(shù)據(jù)的結(jié)構(gòu),關(guān)系以及動態(tài)性。18 (2 2)多維分析工具()多維分析工具(OLAP

11、OLAP工具)工具) 通過對信息的多種可能的觀察形式進(jìn)行快速、一致和交互性的通過對信息的多種可能的觀察形式進(jìn)行快速、一致和交互性的存取,這樣便利用戶對數(shù)據(jù)進(jìn)行深入的分析和觀察。存取,這樣便利用戶對數(shù)據(jù)進(jìn)行深入的分析和觀察。 多維數(shù)據(jù)的每一維代表對數(shù)據(jù)的一個(gè)特定的觀察視角,如時(shí)間、多維數(shù)據(jù)的每一維代表對數(shù)據(jù)的一個(gè)特定的觀察視角,如時(shí)間、地域、業(yè)務(wù)等。地域、業(yè)務(wù)等。(3 3)數(shù)據(jù)挖掘工具)數(shù)據(jù)挖掘工具 從大量數(shù)據(jù)中挖掘具有規(guī)律性知識,需要利用數(shù)據(jù)挖掘(從大量數(shù)據(jù)中挖掘具有規(guī)律性知識,需要利用數(shù)據(jù)挖掘(Data Data MiningMining)工具。工具。19 數(shù)據(jù)倉庫應(yīng)用是一個(gè)典型的客戶數(shù)據(jù)倉

12、庫應(yīng)用是一個(gè)典型的客戶/ /服務(wù)器(服務(wù)器(C/SC/S)結(jié)構(gòu)形結(jié)構(gòu)形式:式: 客戶端所做的工作:客戶交互、格式化查詢、結(jié)果顯示、客戶端所做的工作:客戶交互、格式化查詢、結(jié)果顯示、報(bào)表生成等。報(bào)表生成等。 服務(wù)器端完成各種輔助決策的服務(wù)器端完成各種輔助決策的SQLSQL查詢、復(fù)雜的計(jì)算和各查詢、復(fù)雜的計(jì)算和各類綜合功能等。類綜合功能等。 客 戶 端 數(shù) 據(jù) 倉 庫 服 務(wù) 器 20客 戶 端OLAP 服 務(wù) 器數(shù) 據(jù) 倉 庫服 務(wù) 器 OLAPOLAP服務(wù)器將加強(qiáng)和規(guī)范化決策支持的服務(wù)工服務(wù)器將加強(qiáng)和規(guī)范化決策支持的服務(wù)工作,集中和簡化了原客戶端和數(shù)據(jù)倉庫服務(wù)器的部作,集中和簡化了原客戶端和數(shù)

13、據(jù)倉庫服務(wù)器的部分工作,降低了系統(tǒng)數(shù)據(jù)傳輸量。分工作,降低了系統(tǒng)數(shù)據(jù)傳輸量。 這種結(jié)構(gòu)形式工作效率更高。這種結(jié)構(gòu)形式工作效率更高。21 數(shù)據(jù)倉庫存儲采用多維數(shù)據(jù)模型。數(shù)據(jù)倉庫存儲采用多維數(shù)據(jù)模型。 果汁可樂牛奶商品維奶油浴巾香皂北京上海長沙1 2 3 4 5 6 7城市維日期維22數(shù)據(jù)模型數(shù)據(jù)模型 數(shù)據(jù)模型是對現(xiàn)實(shí)世界的一種抽象,根據(jù)抽象程度的不同,可形成不同抽象層次上的數(shù)據(jù)模型。與數(shù)據(jù)庫的數(shù)據(jù)模型相類似,數(shù)據(jù)倉庫的數(shù)據(jù)模型也分為三個(gè)層次: 概念模型 邏輯模型 物理模型 23n概念模型概念模型 客觀世界到計(jì)算機(jī)系統(tǒng)的一個(gè)中間層次,它最常用的表示方法是ER法(實(shí)體關(guān)系)。 目前,數(shù)據(jù)倉庫一般是建

14、立在關(guān)系型數(shù)據(jù)庫的基礎(chǔ)之上,所以其概念模型與一般關(guān)系型數(shù)據(jù)庫采用的概念模型相一致。 數(shù)據(jù)模型數(shù)據(jù)模型24n邏輯模型邏輯模型 指數(shù)據(jù)的邏輯結(jié)構(gòu),如多維模型、關(guān)系模型、層次模型等。數(shù)據(jù)倉庫的邏輯模型描述了數(shù)據(jù)倉庫的主題的邏輯實(shí)現(xiàn),即每個(gè)主題對應(yīng)的模式定義。n物理模型物理模型 是邏輯模型的具體實(shí)現(xiàn),如物理存取方式、數(shù)據(jù)存儲結(jié)構(gòu)、數(shù)據(jù)存放位置以及存儲分配等。在設(shè)計(jì)數(shù)據(jù)倉庫的物理模型時(shí),需要考慮一些提高性能的技術(shù),如表分區(qū),建立索引等。數(shù)據(jù)模型數(shù)據(jù)模型25 目前,對數(shù)據(jù)倉庫模型的討論大多集中在邏輯模型,其中最常用的是多維模型。維維: :人們觀察數(shù)據(jù)的特定角度,是相同類數(shù)據(jù)的集合相同類數(shù)據(jù)的集合。例如,企

15、業(yè)常常關(guān)心不同銷售數(shù)據(jù)隨時(shí)間的變化情況,所以時(shí)間就是一個(gè)維。商店、產(chǎn)品都是維。商店、產(chǎn)品都是維。維的層次維的層次 人們觀察數(shù)據(jù)的某個(gè)特定角度還可以存在細(xì)節(jié)程度不同的多個(gè)描述,這就是維的層次。一個(gè)維往往有多個(gè)層次,比如描述時(shí)間維時(shí),可以從年份、季度、月份、天等不同層次來描述,那么年份、季度、月份和天就是時(shí)間維的層次; 數(shù)據(jù)模型數(shù)據(jù)模型26維成員維成員 維的一個(gè)取值稱為該維的一個(gè)成員。如果一個(gè)維是多層次的,那么該維的成員就是在不同層次取值的組合。例如時(shí)間維分為年、月和天三個(gè)層次則分別在其上各取一個(gè)值組合起來即得到日期維的一個(gè)成員,即“某年某月某日”;度量度量 描述了要分析的數(shù)值,例如話費(fèi)、用戶數(shù)量

16、等; 27n數(shù)據(jù)倉庫的數(shù)據(jù)模型 星型結(jié)構(gòu) 雪花型結(jié)構(gòu) 星型雪花型結(jié)構(gòu)n數(shù)據(jù)倉庫的數(shù)據(jù)事實(shí)數(shù)據(jù)維度數(shù)據(jù) 不論是星型、雪花型或者是星型雪花型結(jié)構(gòu)都是以事實(shí)表為中心。不同點(diǎn)只是在外圍維度表相互之間的關(guān)系不同而已。 28 大多數(shù)的數(shù)據(jù)倉庫都采用大多數(shù)的數(shù)據(jù)倉庫都采用“星型模型星型模型”。星型模型是。星型模型是由由“事實(shí)表事實(shí)表”(大表)以及多個(gè)(大表)以及多個(gè)“維表維表”(小表)所組成。(小表)所組成。星型架構(gòu)的維度表只會與事實(shí)表生成關(guān)系,維度表與維度表之間并不會生成任何的關(guān)系。 “ “事實(shí)表事實(shí)表”中存放大量關(guān)于企業(yè)的事實(shí)數(shù)據(jù)(數(shù)量數(shù)中存放大量關(guān)于企業(yè)的事實(shí)數(shù)據(jù)(數(shù)量數(shù)據(jù))。據(jù))。 例如:多個(gè)時(shí)期的

17、數(shù)據(jù)可能會出現(xiàn)在同一個(gè)例如:多個(gè)時(shí)期的數(shù)據(jù)可能會出現(xiàn)在同一個(gè)“事實(shí)表事實(shí)表”中。中?!熬S表維表”中存放描述性數(shù)據(jù),維表是圍繞事實(shí)表建立中存放描述性數(shù)據(jù),維表是圍繞事實(shí)表建立的較小的表。的較小的表。 星型模型數(shù)據(jù)如下圖:星型模型數(shù)據(jù)如下圖: 2.2.1星型模型星型模型29訂貨表客戶表銷售員表事實(shí)表產(chǎn)品表日期表地區(qū)表星型模型數(shù)據(jù)存儲情況示意圖 31 2.2.22.2.2雪花模型雪花模型 雪花模型對星型模型的維表進(jìn)一步層次化,原來的各維表雪花模型對星型模型的維表進(jìn)一步層次化,原來的各維表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的可能被擴(kuò)展為小的事實(shí)表,形成一些局部的“層次層次”區(qū)域。區(qū)域。 在上面星型模

18、型的數(shù)據(jù)中在上面星型模型的數(shù)據(jù)中 ,對,對“產(chǎn)品表產(chǎn)品表”“”“日期日期表表”“”“地區(qū)表地區(qū)表”進(jìn)行擴(kuò)展形成雪花模型數(shù)據(jù)見下圖。進(jìn)行擴(kuò)展形成雪花模型數(shù)據(jù)見下圖。 2.2.32.2.3星網(wǎng)模型星網(wǎng)模型 星網(wǎng)模型是將多個(gè)星型模型連接起來形成網(wǎng)狀結(jié)構(gòu)。多個(gè)星網(wǎng)模型是將多個(gè)星型模型連接起來形成網(wǎng)狀結(jié)構(gòu)。多個(gè)星型模型通過相同的維,如時(shí)間維,連接多個(gè)事實(shí)表。星型模型通過相同的維,如時(shí)間維,連接多個(gè)事實(shí)表。32地區(qū)鍵事務(wù)鍵用戶鍵時(shí)間鍵狀態(tài)鍵時(shí)間鍵用戶鍵事務(wù)鍵地區(qū)鍵電話費(fèi)用時(shí)間鍵用戶鍵狀態(tài)鍵電話余額電話公司星網(wǎng)模型實(shí)例 342.2.4第三范式第三范式n數(shù)據(jù)倉庫可以按第三范式進(jìn)行邏輯數(shù)據(jù)數(shù)據(jù)倉庫可以按第三范式

19、進(jìn)行邏輯數(shù)據(jù)建模。它不同于星型模型在于,把事實(shí)建模。它不同于星型模型在于,把事實(shí)表和維表的屬性都集中在同一數(shù)據(jù)庫中,表和維表的屬性都集中在同一數(shù)據(jù)庫中,按第三范式組織數(shù)據(jù)。它減少了維表中按第三范式組織數(shù)據(jù)。它減少了維表中的鍵和不必要的屬性。的鍵和不必要的屬性。n著名的著名的NCR數(shù)據(jù)倉庫公司采用了第三范數(shù)據(jù)倉庫公司采用了第三范式的邏輯數(shù)據(jù)模型。式的邏輯數(shù)據(jù)模型。35n星型模型在進(jìn)行多維數(shù)據(jù)分析時(shí),速度星型模型在進(jìn)行多維數(shù)據(jù)分析時(shí),速度是很快的。但是增加維度將是很困難的是很快的。但是增加維度將是很困難的事情。事情。n第三范式對于海量數(shù)據(jù)(如第三范式對于海量數(shù)據(jù)(如TB級),且級),且需要處理大量

20、的動態(tài)業(yè)務(wù)分析時(shí),就顯需要處理大量的動態(tài)業(yè)務(wù)分析時(shí),就顯示了它的優(yōu)勢。示了它的優(yōu)勢。362.3數(shù)據(jù)抽取、轉(zhuǎn)換和裝載數(shù)據(jù)抽取、轉(zhuǎn)換和裝載n 數(shù)據(jù)倉庫的數(shù)據(jù)來源于多個(gè)數(shù)據(jù)源,主要是企業(yè)內(nèi)數(shù)據(jù)倉庫的數(shù)據(jù)來源于多個(gè)數(shù)據(jù)源,主要是企業(yè)內(nèi)部數(shù)據(jù);存檔的歷史數(shù)據(jù);企業(yè)的外部數(shù)據(jù)。這些數(shù)據(jù)源部數(shù)據(jù);存檔的歷史數(shù)據(jù);企業(yè)的外部數(shù)據(jù)。這些數(shù)據(jù)源可能是在不同的硬件平臺上,使用不同的操作系統(tǒng)。源數(shù)可能是在不同的硬件平臺上,使用不同的操作系統(tǒng)。源數(shù)據(jù)是以不同的格式存放在不同的數(shù)據(jù)庫中。據(jù)是以不同的格式存放在不同的數(shù)據(jù)庫中。n 數(shù)據(jù)倉庫需要將這些源數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換和裝載的數(shù)據(jù)倉庫需要將這些源數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換和裝載的過

21、程,存儲到數(shù)據(jù)倉庫的數(shù)據(jù)模型中??梢哉f,數(shù)據(jù)倉庫過程,存儲到數(shù)據(jù)倉庫的數(shù)據(jù)模型中。可以說,數(shù)據(jù)倉庫的數(shù)據(jù)獲取需要經(jīng)過抽?。ǖ臄?shù)據(jù)獲取需要經(jīng)過抽?。‥xtraction)、轉(zhuǎn)換)、轉(zhuǎn)換(Transform)、裝載()、裝載(Load)三個(gè)過程即)三個(gè)過程即ETL過程。過程。 在打造一個(gè)數(shù)據(jù)倉庫的過程中,ETL的實(shí)施是一項(xiàng)繁瑣、冗長而艱巨的任務(wù),因?yàn)樗P(guān)系到數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量問題,如果導(dǎo)入的數(shù)據(jù)漏洞百出,對決策者來說無疑是個(gè)噩耗。 ETL過程是搭建“數(shù)據(jù)倉庫”時(shí)最重要的最重要的和最易誤解最易誤解的的步驟之一。37 ETL過程不僅僅是數(shù)據(jù)的遷移遷移(Migration)或凈化凈化(Cleansin

22、g),也應(yīng)該是企業(yè)數(shù)據(jù)管理策略企業(yè)數(shù)據(jù)管理策略中不可缺少的一部分。 ETL過程的功能是:發(fā)現(xiàn)發(fā)現(xiàn)數(shù)據(jù)倉庫需要的數(shù)據(jù),將其從源系統(tǒng)中抽取抽取出來,并進(jìn)行一定的處理處理,然后裝載裝載到數(shù)據(jù)倉庫中去。 38231 數(shù)據(jù)抽取數(shù)據(jù)抽取(1)確認(rèn)數(shù)據(jù)源)確認(rèn)數(shù)據(jù)源(2)數(shù)據(jù)抽取技術(shù))數(shù)據(jù)抽取技術(shù)391.確認(rèn)數(shù)據(jù)源確認(rèn)數(shù)據(jù)源n列出對事實(shí)表的每一個(gè)數(shù)據(jù)項(xiàng)和事實(shí)列出對事實(shí)表的每一個(gè)數(shù)據(jù)項(xiàng)和事實(shí)n列出每一個(gè)維度屬性列出每一個(gè)維度屬性n對于每個(gè)目標(biāo)數(shù)據(jù)項(xiàng),找出源數(shù)據(jù)項(xiàng)對于每個(gè)目標(biāo)數(shù)據(jù)項(xiàng),找出源數(shù)據(jù)項(xiàng)n一個(gè)數(shù)據(jù)元素有多個(gè)來源,選擇最好的來源一個(gè)數(shù)據(jù)元素有多個(gè)來源,選擇最好的來源n確認(rèn)一個(gè)目標(biāo)字段的多個(gè)源字段,建立合并

23、規(guī)則確認(rèn)一個(gè)目標(biāo)字段的多個(gè)源字段,建立合并規(guī)則n確認(rèn)一個(gè)目標(biāo)字段的多個(gè)源字段,建立分離規(guī)則確認(rèn)一個(gè)目標(biāo)字段的多個(gè)源字段,建立分離規(guī)則n確定默認(rèn)值確定默認(rèn)值n檢查缺失值的源數(shù)據(jù)檢查缺失值的源數(shù)據(jù)402.數(shù)據(jù)抽取技術(shù)數(shù)據(jù)抽取技術(shù)n當(dāng)前值。當(dāng)前值。 源系統(tǒng)中存儲的數(shù)據(jù)都代表了當(dāng)前時(shí)刻的值。源系統(tǒng)中存儲的數(shù)據(jù)都代表了當(dāng)前時(shí)刻的值。當(dāng)商業(yè)交易時(shí),這些數(shù)據(jù)是會發(fā)生變化的。當(dāng)商業(yè)交易時(shí),這些數(shù)據(jù)是會發(fā)生變化的。n周期性的狀態(tài)。周期性的狀態(tài)。 這類數(shù)據(jù)存儲的是每次發(fā)生變化時(shí)的狀態(tài)。這類數(shù)據(jù)存儲的是每次發(fā)生變化時(shí)的狀態(tài)。例如,對于每一保險(xiǎn)索賠,都經(jīng)過索賠開始、例如,對于每一保險(xiǎn)索賠,都經(jīng)過索賠開始、確認(rèn)、評估和

24、解決等步驟,都要考慮有時(shí)間確認(rèn)、評估和解決等步驟,都要考慮有時(shí)間說明。說明。41232 數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換1.數(shù)據(jù)轉(zhuǎn)換的基本功能數(shù)據(jù)轉(zhuǎn)換的基本功能2.數(shù)據(jù)轉(zhuǎn)換類型數(shù)據(jù)轉(zhuǎn)換類型3.數(shù)據(jù)整合和合并數(shù)據(jù)整合和合并4.如何實(shí)施轉(zhuǎn)換如何實(shí)施轉(zhuǎn)換421.數(shù)據(jù)轉(zhuǎn)換的基本功能數(shù)據(jù)轉(zhuǎn)換的基本功能n選擇:選擇:從源系統(tǒng)中選擇整個(gè)記錄或者部分記錄。從源系統(tǒng)中選擇整個(gè)記錄或者部分記錄。 n分離分離/合并:合并:對源系統(tǒng)中的數(shù)據(jù)進(jìn)行分離操作或者合并操作。對源系統(tǒng)中的數(shù)據(jù)進(jìn)行分離操作或者合并操作。n轉(zhuǎn)化:轉(zhuǎn)化:對源系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化和可理解化。對源系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化和可理解化。n匯總:匯總:將最低粒度數(shù)據(jù)進(jìn)行匯總。將最低粒度數(shù)據(jù)進(jìn)

25、行匯總。 n清晰:清晰:對單個(gè)字段數(shù)據(jù)進(jìn)行重新分配和簡化對單個(gè)字段數(shù)據(jù)進(jìn)行重新分配和簡化 。432.數(shù)據(jù)轉(zhuǎn)換類型數(shù)據(jù)轉(zhuǎn)換類型(1)格式修正)格式修正(2)字段的解碼)字段的解碼(3)計(jì)算值和導(dǎo)出值)計(jì)算值和導(dǎo)出值(4)單個(gè)字段的分離)單個(gè)字段的分離(5)信息的合并)信息的合并(6)特征集合轉(zhuǎn)化)特征集合轉(zhuǎn)化(7)度量單位的轉(zhuǎn)化)度量單位的轉(zhuǎn)化(8)關(guān)鍵字重新構(gòu)造)關(guān)鍵字重新構(gòu)造(9)匯總)匯總(10)日期)日期/時(shí)間轉(zhuǎn)化時(shí)間轉(zhuǎn)化443.數(shù)據(jù)整合和合并數(shù)據(jù)整合和合并數(shù)據(jù)整合和合并是將相關(guān)的源數(shù)據(jù)組合數(shù)據(jù)整合和合并是將相關(guān)的源數(shù)據(jù)組合成一致的數(shù)據(jù)結(jié)構(gòu),裝入數(shù)據(jù)倉庫。成一致的數(shù)據(jù)結(jié)構(gòu),裝入數(shù)據(jù)倉庫。

26、(1)實(shí)體識別問題)實(shí)體識別問題 數(shù)據(jù)來源于多個(gè)不同的客戶系統(tǒng),對相同客戶可能分別數(shù)據(jù)來源于多個(gè)不同的客戶系統(tǒng),對相同客戶可能分別有不同的鍵碼,將它們組合成一條單獨(dú)的記錄。有不同的鍵碼,將它們組合成一條單獨(dú)的記錄。 (2)多數(shù)據(jù)源相同屬性不同值的問題)多數(shù)據(jù)源相同屬性不同值的問題 不同系統(tǒng)中得到的值存在一些差別不同系統(tǒng)中得到的值存在一些差別 ,需要給出合理的值。,需要給出合理的值。454.如何實(shí)施轉(zhuǎn)換如何實(shí)施轉(zhuǎn)換n自己編寫程序?qū)崿F(xiàn)數(shù)據(jù)轉(zhuǎn)換自己編寫程序?qū)崿F(xiàn)數(shù)據(jù)轉(zhuǎn)換n使用轉(zhuǎn)換工具使用轉(zhuǎn)換工具46233 數(shù)據(jù)裝載數(shù)據(jù)裝載(1)數(shù)據(jù)裝載方式)數(shù)據(jù)裝載方式(2)數(shù)據(jù)裝載類型)數(shù)據(jù)裝載類型471.數(shù)據(jù)裝載

27、方式數(shù)據(jù)裝載方式n基本裝載基本裝載 按照裝載的目標(biāo)表,將轉(zhuǎn)換過的數(shù)據(jù)輸入到目標(biāo)表中去。按照裝載的目標(biāo)表,將轉(zhuǎn)換過的數(shù)據(jù)輸入到目標(biāo)表中去。 n追加追加 如果目標(biāo)表中已經(jīng)存在數(shù)據(jù),追加過程在保存已有數(shù)據(jù)的基礎(chǔ)如果目標(biāo)表中已經(jīng)存在數(shù)據(jù),追加過程在保存已有數(shù)據(jù)的基礎(chǔ)上增加輸入數(shù)據(jù)。上增加輸入數(shù)據(jù)。 n破壞性合并破壞性合并 用新輸入數(shù)據(jù)更新目標(biāo)記錄數(shù)據(jù)。用新輸入數(shù)據(jù)更新目標(biāo)記錄數(shù)據(jù)。 n建設(shè)性合并建設(shè)性合并 保留已有的記錄,增加輸入的記錄,并標(biāo)記為舊記錄的替代。保留已有的記錄,增加輸入的記錄,并標(biāo)記為舊記錄的替代。482.數(shù)據(jù)裝載類型數(shù)據(jù)裝載類型n最初裝載最初裝載 這是第一次對整個(gè)數(shù)據(jù)倉庫進(jìn)行裝載。這是

28、第一次對整個(gè)數(shù)據(jù)倉庫進(jìn)行裝載。 n增量裝載增量裝載 由于源系統(tǒng)的變化,數(shù)據(jù)倉庫需要裝載變化的數(shù)據(jù)。由于源系統(tǒng)的變化,數(shù)據(jù)倉庫需要裝載變化的數(shù)據(jù)。n完全刷新完全刷新 這種類型的數(shù)據(jù)裝載用于周期性重寫數(shù)據(jù)倉庫。這種類型的數(shù)據(jù)裝載用于周期性重寫數(shù)據(jù)倉庫。 492.3.4 ETL工具工具有有 3 類類 ETL工具:工具:1 . 數(shù)據(jù)轉(zhuǎn)換引擎數(shù)據(jù)轉(zhuǎn)換引擎2 . 代碼生成器代碼生成器3 . 通過復(fù)制捕獲數(shù)據(jù)通過復(fù)制捕獲數(shù)據(jù)5024 元數(shù)據(jù)元數(shù)據(jù)241 元數(shù)據(jù)的重要性元數(shù)據(jù)的重要性242 關(guān)于數(shù)據(jù)源的元數(shù)據(jù)關(guān)于數(shù)據(jù)源的元數(shù)據(jù)243 關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)244 關(guān)于數(shù)據(jù)倉庫映射的元數(shù)據(jù)關(guān)于

29、數(shù)據(jù)倉庫映射的元數(shù)據(jù)245 關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)51241 元數(shù)據(jù)的重要性元數(shù)據(jù)的重要性n最基本的元數(shù)據(jù)相當(dāng)于數(shù)據(jù)庫系統(tǒng)中的最基本的元數(shù)據(jù)相當(dāng)于數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)字典。數(shù)據(jù)字典。n元數(shù)據(jù)定義了數(shù)據(jù)倉庫有什么,指明了元數(shù)據(jù)定義了數(shù)據(jù)倉庫有什么,指明了數(shù)據(jù)倉庫中數(shù)據(jù)的內(nèi)容和位置,刻畫了數(shù)據(jù)倉庫中數(shù)據(jù)的內(nèi)容和位置,刻畫了數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)則,存儲了與數(shù)據(jù)數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)則,存儲了與數(shù)據(jù)倉庫主題有關(guān)的各種商業(yè)信息,而且整倉庫主題有關(guān)的各種商業(yè)信息,而且整個(gè)數(shù)據(jù)倉庫的運(yùn)行都是基于元數(shù)據(jù)的。個(gè)數(shù)據(jù)倉庫的運(yùn)行都是基于元數(shù)據(jù)的。52 這類元數(shù)據(jù)是對不同平臺上的數(shù)據(jù)源的物理結(jié)構(gòu)這類

30、元數(shù)據(jù)是對不同平臺上的數(shù)據(jù)源的物理結(jié)構(gòu)和含義的描述。具體為:和含義的描述。具體為: (1 1)數(shù)據(jù)源中所有物理)數(shù)據(jù)源中所有物理( (存儲)數(shù)據(jù)結(jié)構(gòu),包括存儲)數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項(xiàng)及數(shù)據(jù)類型。所有的數(shù)據(jù)項(xiàng)及數(shù)據(jù)類型。 (2 2)所有數(shù)據(jù)項(xiàng)的業(yè)務(wù)定義。)所有數(shù)據(jù)項(xiàng)的業(yè)務(wù)定義。 (3 3)每個(gè)數(shù)據(jù)項(xiàng)更新的頻率,以及由誰或那個(gè))每個(gè)數(shù)據(jù)項(xiàng)更新的頻率,以及由誰或那個(gè)過程更新的說明。過程更新的說明。 (4 4)每個(gè)數(shù)據(jù)項(xiàng)的有效值。)每個(gè)數(shù)據(jù)項(xiàng)的有效值。2.4.22.4.2關(guān)于數(shù)據(jù)源的元數(shù)據(jù)關(guān)于數(shù)據(jù)源的元數(shù)據(jù)53 這組元數(shù)據(jù)描述了數(shù)據(jù)倉庫中有什么數(shù)據(jù)以及這組元數(shù)據(jù)描述了數(shù)據(jù)倉庫中有什么數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)系,它們是用戶使用管理數(shù)據(jù)倉數(shù)據(jù)之間的關(guān)系,它們是用戶使用管理數(shù)據(jù)倉庫的基礎(chǔ),它是庫的基礎(chǔ),它是數(shù)據(jù)倉庫的字典數(shù)據(jù)倉庫的字典。 這種的元數(shù)據(jù)可以支持用戶從數(shù)據(jù)倉庫中獲這種的元數(shù)據(jù)可以支持用戶從數(shù)據(jù)倉庫中獲取數(shù)據(jù)。取數(shù)據(jù)。 2.4.32.4.3關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)54例如,雇員與技能之間的關(guān)系如圖例如,雇員與技能之間的關(guān)系如圖2.13表示。表示。EmployeeE_NoE_SE_NoS_CodeSkillS_Code121355關(guān)系 I/O 對象I/O Object IDEmploye

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論