第2章 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)與處理_第1頁(yè)
第2章 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)與處理_第2頁(yè)
第2章 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)與處理_第3頁(yè)
第2章 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)與處理_第4頁(yè)
第2章 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)與處理_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第第2 2章章 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)與處理數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)與處理教師:郭榮熙教師:郭榮熙數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第2章 目 錄數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)12數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)特征數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)特征數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETLETL過(guò)程過(guò)程3多維數(shù)據(jù)模型多維數(shù)據(jù)模型4小結(jié)小結(jié)52.1、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)三層數(shù)據(jù)結(jié)構(gòu)2.1、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)各個(gè)組成部分的含義 操作性數(shù)據(jù) :來(lái)源于業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)。 調(diào)和數(shù)據(jù):存儲(chǔ)在企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。 導(dǎo)出數(shù)據(jù):從數(shù)據(jù)倉(cāng)庫(kù)中導(dǎo)出并存儲(chǔ)在各個(gè)數(shù)據(jù)集市中的數(shù)據(jù)。 企業(yè)數(shù)據(jù)模型:企業(yè)組織所需數(shù)據(jù)的整體輪廓。 元數(shù)據(jù) :有關(guān)數(shù)據(jù)的說(shuō)明。第2章

2、 目 錄數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)12數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)特征數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)特征數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETLETL過(guò)程過(guò)程3多維數(shù)據(jù)模型多維數(shù)據(jù)模型4小結(jié)小結(jié)52.2、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)特征 狀態(tài)數(shù)據(jù)與事件數(shù)據(jù) 當(dāng)前數(shù)據(jù)與周期數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)2.2、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)特征狀態(tài)數(shù)據(jù)與事件數(shù)據(jù) 狀態(tài)數(shù)據(jù):描述對(duì)象狀態(tài)的數(shù)據(jù)。 事件數(shù)據(jù):描述對(duì)象發(fā)生的事件的數(shù)據(jù)。 數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的基本數(shù)據(jù)類型是狀態(tài)數(shù)據(jù)。 但是數(shù)據(jù)倉(cāng)庫(kù)中往往還存儲(chǔ)事務(wù)或事件數(shù)據(jù)的匯總。當(dāng)前數(shù)據(jù)與周期數(shù)據(jù) 當(dāng)前數(shù)據(jù)(業(yè)務(wù)系統(tǒng)):保留的最新數(shù)據(jù)。 周期數(shù)據(jù)(數(shù)據(jù)倉(cāng)庫(kù)):保留的歷史數(shù)據(jù)。 數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)中的

3、另一特征。第2章 目 錄數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)12數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)特征數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)特征數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETLETL過(guò)程過(guò)程3多維數(shù)據(jù)模型多維數(shù)據(jù)模型4小結(jié)小結(jié)52.3、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETL過(guò)程 ETL概念 ETL過(guò)程前后數(shù)據(jù)的特征 數(shù)據(jù)的ETL過(guò)程描述 抽?。–apture/Extract) 清洗(Scrub/Cleanse) 轉(zhuǎn)換(Transform) 加載和索引(Load/Index)2.3、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETL過(guò)程 數(shù)據(jù)ETL是用來(lái)實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)集成,即完成數(shù)據(jù)的抓取/抽取(Capture/Extract)、清洗(Scrub or data cleansi

4、ng)、轉(zhuǎn)換(Transform)、裝載與索引(Load and Index)等數(shù)據(jù)調(diào)和工作。 ETL概念2.3、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETL過(guò)程數(shù)據(jù)的ETL過(guò)程描述2.3、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETL過(guò)程數(shù)據(jù)抽取的幾點(diǎn)要求 數(shù)據(jù)源命名的透明度。 源系統(tǒng)實(shí)施的業(yè)務(wù)規(guī)則的完整性和準(zhǔn)確性。 數(shù)據(jù)格式的一致性。SELECTINTO、存儲(chǔ)過(guò)程等方法。2.3、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETL過(guò)程數(shù)據(jù)清洗原因:操作型業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)質(zhì)量很差。 錯(cuò)誤拼寫的名字和地址。 不可能的或錯(cuò)誤的出生日期。 不匹配的地址和電話區(qū)號(hào)。 缺失的數(shù)據(jù)。 重復(fù)的數(shù)據(jù)。 2.3、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETL過(guò)程數(shù)據(jù)轉(zhuǎn)換 在ETL過(guò)程中處于中心位置,又很麻煩。 將經(jīng)

5、過(guò)清洗后的數(shù)據(jù)(源系統(tǒng))轉(zhuǎn)換成裝載對(duì)象(目標(biāo)系統(tǒng))的格式。數(shù)據(jù)加載和索引 將整理好的數(shù)據(jù)添加到數(shù)據(jù)倉(cāng)庫(kù)中。 建立索引。2.3、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETL過(guò)程數(shù)據(jù)ETL過(guò)程的實(shí)施要點(diǎn) ETL過(guò)程是一個(gè)數(shù)據(jù)流動(dòng)的過(guò)程,中間的“T”(轉(zhuǎn)換)是關(guān)鍵 ; ETL工具的選擇非常重要,運(yùn)用合適的工具會(huì)事半功倍 ; 如何保證數(shù)據(jù)質(zhì)量?數(shù)據(jù)質(zhì)量在一定程度上決定了數(shù)據(jù)倉(cāng)庫(kù)的價(jià)值 。第2章 目 錄數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)12數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)特征數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)特征數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETLETL過(guò)程過(guò)程3多維數(shù)據(jù)模型多維數(shù)據(jù)模型4小結(jié)小結(jié)52.4.1多維數(shù)據(jù)模型 多維數(shù)據(jù)模型及其相關(guān)概念 多維數(shù)據(jù)模型的物

6、理實(shí)現(xiàn) 多維建模技術(shù)簡(jiǎn)介 一個(gè)星模式的例子2.4.1多維數(shù)據(jù)模型 有關(guān)多維數(shù)據(jù)模型的幾個(gè)概念:維、維類別、維屬性、度量、粒度及分割等 關(guān)于數(shù)據(jù)綜合級(jí)別與粒度的確定:一般把數(shù)據(jù)分成四個(gè)級(jí)別:早期細(xì)節(jié)級(jí)、當(dāng)前細(xì)節(jié)級(jí)、輕度綜合級(jí)、高度綜合級(jí)多維數(shù)據(jù)模型及其相關(guān)概念 維、維類別、維屬性、度量、粒度及分割等有關(guān)多維數(shù)據(jù)模型的幾個(gè)概念2.4.1多維數(shù)據(jù)模型維的類別即維的分層??煞譃椋?簡(jiǎn)單層次 復(fù)雜層次維類別 西南西南云南云南貴州貴州四川四川西南西南貴州貴州四川四川云南云南貴陽(yáng)市貴陽(yáng)市安順市安順市平壩縣平壩縣復(fù)雜層次復(fù)雜層次2.4.1多維數(shù)據(jù)模型2.4.1多維數(shù)據(jù)模型 維的一個(gè)取值。維屬性 度量即度量值,

7、是多維數(shù)據(jù)空間中的單元格,用以存放數(shù)據(jù),也叫事實(shí)。度量2.4.1多維數(shù)據(jù)模型 數(shù)據(jù)粒度:是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的綜合程度高低的度量。(一般分為四個(gè)級(jí)別:高度綜合級(jí)、輕度綜合級(jí)、當(dāng)前細(xì)節(jié)級(jí)、早期細(xì)節(jié)級(jí)) 分割:將數(shù)據(jù)分散到各自的物理單元中去以便能分別處理,提高數(shù)據(jù)處理效率,數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片。 數(shù)據(jù)分割的標(biāo)準(zhǔn):可按日期、地域、業(yè)務(wù)領(lǐng)域或按多個(gè)分割標(biāo)準(zhǔn)的組合。 數(shù)據(jù)分割的目的:便于進(jìn)行數(shù)據(jù)的重構(gòu)、索引、重組、恢復(fù)、監(jiān)控、掃描。粒度與分割2.4.1多維數(shù)據(jù)模型 一般把數(shù)據(jù)分成四個(gè)級(jí)別:早期細(xì)節(jié)級(jí)、當(dāng)前細(xì)節(jié)級(jí)、輕度綜合級(jí)、高度綜合級(jí) 關(guān)于數(shù)據(jù)綜合級(jí)別與粒度的確定:2.4.1多維數(shù)據(jù)模型一個(gè)典型

8、的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)圖數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)層層后備數(shù)據(jù)后備數(shù)據(jù)后備數(shù)據(jù)高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)每“月”電話呼叫情況信息每“天”電話呼叫情況信息電話呼叫情況信息電話呼叫明細(xì)情況信息2.4.2多維數(shù)據(jù)模型的物理實(shí)現(xiàn) 多維數(shù)據(jù)庫(kù)(MDDB),其數(shù)據(jù)是存儲(chǔ)在大量的多維數(shù)組中,而不是關(guān)系表中 ,與之相對(duì)應(yīng)的是多維聯(lián)機(jī)分析處理(MOLAP) 關(guān)系數(shù)據(jù)庫(kù)是存儲(chǔ)OLAP數(shù)據(jù)的另一種主要方式。與之對(duì)應(yīng)的是關(guān)系聯(lián)機(jī)分析處理(ROLAP)2.4.2多維數(shù)據(jù)模型的物理實(shí)現(xiàn)多維數(shù)據(jù)庫(kù)(MDDB)產(chǎn)品名稱產(chǎn)品名稱銷售地區(qū)銷售地區(qū)銷售數(shù)量銷售數(shù)量電器電器電器電器電器電器服裝服裝服裝服裝服裝服裝江蘇江蘇上海上

9、海北京北京江蘇江蘇上海上海北京北京940450340830350270江蘇江蘇上海上海北京北京電器電器服裝服裝940830450350340270關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)方式關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)方式多維數(shù)據(jù)庫(kù)存儲(chǔ)方式多維數(shù)據(jù)庫(kù)存儲(chǔ)方式2.4.2多維數(shù)據(jù)模型的物理實(shí)現(xiàn)產(chǎn)品名產(chǎn)品名稱稱銷售地銷售地區(qū)區(qū)銷售數(shù)銷售數(shù)量量電器電器電器電器電器電器電器電器服裝服裝服裝服裝服裝服裝服裝服裝匯總匯總匯總匯總匯總匯總匯總匯總江蘇江蘇上海上海北京北京匯總匯總江蘇江蘇上海上海北京北京匯總匯總江蘇江蘇上海上海北京北京匯總匯總9404503401730830350270145017708006103180江蘇江蘇上海上海北京北京匯總匯

10、總電器電器服裝服裝匯總匯總9408301770450350800340270610173014503180具有匯總數(shù)據(jù)項(xiàng)的關(guān)系數(shù)據(jù)庫(kù)具有匯總數(shù)據(jù)項(xiàng)的關(guān)系數(shù)據(jù)庫(kù)具有匯總值的多維數(shù)據(jù)庫(kù)具有匯總值的多維數(shù)據(jù)庫(kù)2.4.2多維數(shù)據(jù)模型的物理實(shí)現(xiàn) 二維數(shù)據(jù)容易理解,但維數(shù)擴(kuò)展到三維或更高的維度時(shí),多維數(shù)據(jù)庫(kù)MDDB就成了一種“超立方”體的結(jié)構(gòu) ,理解就困難多了。 在MDDB中,其數(shù)據(jù)的存儲(chǔ)是由許多類似于數(shù)組的對(duì)象來(lái)完成,對(duì)象中包含了經(jīng)過(guò)高度壓縮的索引和指針,利用這些索引和指針將許多存儲(chǔ)數(shù)據(jù)的單元塊聯(lián)結(jié)在一起 。 實(shí)際組合中往往由于各種原因會(huì)導(dǎo)致某些組合沒有具體的值,或值是空的或者為零。 產(chǎn)生了多維數(shù)據(jù)庫(kù)的

11、稀疏矩陣問(wèn)題。 稀疏矩陣將導(dǎo)致存儲(chǔ)空間的浪費(fèi),所以需要采用壓縮技術(shù)。2.4.2多維數(shù)據(jù)模型的物理實(shí)現(xiàn) 事實(shí)表 維度表關(guān)系數(shù)據(jù)庫(kù)是存儲(chǔ)OLAP數(shù)據(jù)的另一種主要方式。與之對(duì)應(yīng)的是關(guān)系聯(lián)機(jī)分析處理(ROLAP)將數(shù)據(jù)的多維結(jié)構(gòu)劃分為兩類表: 星型模型 雪花模型按照兩種結(jié)構(gòu)設(shè)計(jì):2.4.2多維數(shù)據(jù)模型的物理實(shí)現(xiàn)星型模式在關(guān)系數(shù)據(jù)庫(kù)中的表示星型模式在關(guān)系數(shù)據(jù)庫(kù)中的表示 產(chǎn)品ID 時(shí)間ID 銷售商ID 地址ID產(chǎn)品ID銷售商ID地址ID時(shí)間ID銷售數(shù)量銷售成本總收入銷售商維度表地理位置維表時(shí) 間維表產(chǎn)品維表2.4.2多維數(shù)據(jù)模型的物理實(shí)現(xiàn)雪花模式在關(guān)系數(shù)據(jù)庫(kù)中的表示雪花模式在關(guān)系數(shù)據(jù)庫(kù)中的表示 產(chǎn)品維表

12、產(chǎn)品ID 時(shí)間ID 銷售商ID 地址ID圖5.9雪花模式的關(guān)系數(shù)據(jù)庫(kù)表示地理位置維表時(shí)間維表產(chǎn)品ID產(chǎn)品名稱公司ID公司名稱產(chǎn)品顏色I(xiàn)D產(chǎn)品顏色產(chǎn)品商標(biāo)ID商標(biāo)名稱產(chǎn)品類型ID產(chǎn)品類型名銷售商維度表產(chǎn)品ID銷售商ID地址ID時(shí)間ID銷售數(shù)量銷售成本總收入產(chǎn)品ID公司ID產(chǎn)品顏色I(xiàn)D產(chǎn)品商標(biāo)ID產(chǎn)品類型ID2.4.3多維建模技術(shù) 兩種主流建模技術(shù) :由Inmon提出的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)模型和由Kimball提出的多維模型 ; 基于關(guān)系數(shù)據(jù)庫(kù)的多維數(shù)據(jù)建模,如星型,雪花和事實(shí)星座模式; 關(guān)于事實(shí)表、維表及鍵的設(shè)計(jì) 。2.4.3多維建模技術(shù)星型模型星型模型 事實(shí)表維度表維度表維度表維度表維度表2.4.3多維建模技術(shù)雪花模型雪花模型 事實(shí)表維度表維度表維度表維度表維度表詳細(xì)類別表詳細(xì)類別表2.4.3多維建模技術(shù)一個(gè)星型模式的例子一個(gè)星型模式的例子第2章 目 錄數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)12數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)特征數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論