第2章數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理教學(xué)課件_第1頁
第2章數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理教學(xué)課件_第2頁
第2章數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理教學(xué)課件_第3頁
第2章數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理教學(xué)課件_第4頁
第2章數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理教學(xué)課件_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)存儲與數(shù)據(jù)處理是數(shù)據(jù)倉庫系統(tǒng)實施的三個關(guān)鍵環(huán)節(jié)中的中心環(huán)節(jié)。數(shù)據(jù)存儲結(jié)構(gòu)設(shè)計和數(shù)據(jù)處理技術(shù)的研究在數(shù)據(jù)倉庫理論中占有重要地位。第2章數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理

7/21/20231數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2.1數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)三層數(shù)據(jù)結(jié)構(gòu)7/21/20232數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2.1數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)各個組成部分的含義:操作性數(shù)據(jù):來源于業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)。調(diào)和數(shù)據(jù):存儲在企業(yè)級數(shù)據(jù)倉庫中的數(shù)據(jù)。導(dǎo)出數(shù)據(jù):從數(shù)據(jù)倉庫中導(dǎo)出并存儲在各個數(shù)據(jù)集市中的數(shù)據(jù)。企業(yè)數(shù)據(jù)模型:企業(yè)組織所需數(shù)據(jù)的整體輪廓。元數(shù)據(jù):有關(guān)數(shù)據(jù)的說明。7/21/20233數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2.2數(shù)據(jù)倉庫的數(shù)據(jù)特征狀態(tài)數(shù)據(jù)與事件數(shù)據(jù)當(dāng)前數(shù)據(jù)與周期數(shù)據(jù)數(shù)據(jù)倉庫中的元數(shù)據(jù)7/21/20234數(shù)據(jù)倉庫與數(shù)據(jù)挖掘狀態(tài)數(shù)據(jù)與事件數(shù)據(jù):狀態(tài)數(shù)據(jù):描述對象狀態(tài)的數(shù)據(jù)。事件數(shù)據(jù):描述對象發(fā)生的事件的數(shù)據(jù)。數(shù)據(jù)庫和數(shù)據(jù)倉庫中存儲的基本數(shù)據(jù)類型是狀態(tài)數(shù)據(jù)。但是數(shù)據(jù)倉庫中往往還存儲事務(wù)或事件數(shù)據(jù)的匯總。

7/21/20235數(shù)據(jù)倉庫與數(shù)據(jù)挖掘當(dāng)前數(shù)據(jù)與周期數(shù)據(jù):當(dāng)前數(shù)據(jù)(業(yè)務(wù)系統(tǒng)):保留的最新數(shù)據(jù)。周期數(shù)據(jù)(數(shù)據(jù)倉庫):保留的歷史數(shù)據(jù)。7/21/20236數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫中的元數(shù)據(jù):數(shù)據(jù)倉庫中的另一特征。7/21/20237數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2.3數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程ETL概念ETL過程前后數(shù)據(jù)的特征數(shù)據(jù)的ETL過程描述抽取(Capture/Extract)清洗(Scrub/Cleanse)轉(zhuǎn)換(Transform)加載和索引(Load/Index)7/21/20238數(shù)據(jù)倉庫與數(shù)據(jù)挖掘ETL的概念:數(shù)據(jù)ETL是用來實現(xiàn)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)集成,即完成數(shù)據(jù)的抓取/抽取(Capture/Extract)、清洗(Scrubordatacleansing)、轉(zhuǎn)換(Transform)、裝載與索引(LoadandIndex)等數(shù)據(jù)調(diào)和工作。

7/21/20239數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)的ETL過程描述:7/21/202310數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)抽?。簬c要求:數(shù)據(jù)源命名的透明度。源系統(tǒng)實施的業(yè)務(wù)規(guī)則的完整性和準(zhǔn)確性。數(shù)據(jù)格式的一致性。SELECT……INTO、存儲過程等方法。7/21/202311數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)清洗:原因:操作型業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)質(zhì)量很差。錯誤拼寫的名字和地址。不可能的或錯誤的出生日期。不匹配的地址和電話區(qū)號。缺失的數(shù)據(jù)。重復(fù)的數(shù)據(jù)?!?/21/202312數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)轉(zhuǎn)換:在ETL過程中處于中心位置,又很麻煩。

將經(jīng)過清洗后的數(shù)據(jù)(源系統(tǒng))轉(zhuǎn)換成裝載對象(目標(biāo)系統(tǒng))的格式。7/21/202313數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)加載和索引:將整理好的數(shù)據(jù)添加到數(shù)據(jù)倉庫中。(方法?)建立索引。7/21/202314數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)ETL過程的實施要點:ETL過程是一個數(shù)據(jù)流動的過程,中間的“T”(轉(zhuǎn)換)是關(guān)鍵;ETL工具的選擇非常重要,運用合適的工具會事半功倍;如何保證數(shù)據(jù)質(zhì)量?數(shù)據(jù)質(zhì)量在一定程度上決定了數(shù)據(jù)倉庫的價值。7/21/202315數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2.4多維數(shù)據(jù)模型和星模式多維數(shù)據(jù)模型及其相關(guān)概念多維數(shù)據(jù)模型的物理實現(xiàn)多維建模技術(shù)簡介一個星模式的例子

7/21/202316數(shù)據(jù)倉庫與數(shù)據(jù)挖掘多維數(shù)據(jù)模型及其相關(guān)概念有關(guān)多維數(shù)據(jù)模型的幾個概念:維、維類別、維屬性、度量、粒度及分割等關(guān)于數(shù)據(jù)綜合級別與粒度的確定:一般把數(shù)據(jù)分成四個級別:早期細(xì)節(jié)級、當(dāng)前細(xì)節(jié)級、輕度綜合級、高度綜合級7/21/202317數(shù)據(jù)倉庫與數(shù)據(jù)挖掘有關(guān)多維數(shù)據(jù)模型的幾個概念:維、維類別、維屬性、度量、粒度及分割等7/21/202318數(shù)據(jù)倉庫與數(shù)據(jù)挖掘維的類別即維的分層??煞譃椋汉唵螌哟螐?fù)雜層次全國江蘇北京上海維類別7/21/202319數(shù)據(jù)倉庫與數(shù)據(jù)挖掘全國江蘇北京上海蘇州市揚州市寶應(yīng)縣復(fù)雜層次7/21/202320數(shù)據(jù)倉庫與數(shù)據(jù)挖掘維屬性維的一個取值。7/21/202321數(shù)據(jù)倉庫與數(shù)據(jù)挖掘度量即度量值,是多維數(shù)據(jù)空間中的單元格,用以存放數(shù)據(jù),也叫事實。度量7/21/202322數(shù)據(jù)倉庫與數(shù)據(jù)挖掘粒度與分割數(shù)據(jù)粒度:是對數(shù)據(jù)倉庫中的數(shù)據(jù)的綜合程度高低的度量。(一般分為四個級別:高度綜合級、輕度綜合級、當(dāng)前細(xì)節(jié)級、早期細(xì)節(jié)級)分割:將數(shù)據(jù)分散到各自的物理單元中去以便能分別處理,提高數(shù)據(jù)處理效率,數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片。數(shù)據(jù)分割的標(biāo)準(zhǔn):可按日期、地域、業(yè)務(wù)領(lǐng)域或按多個分割標(biāo)準(zhǔn)的組合。數(shù)據(jù)分割的目的:便于進(jìn)行數(shù)據(jù)的重構(gòu)、索引、重組、恢復(fù)、監(jiān)控、掃描。7/21/202323數(shù)據(jù)倉庫與數(shù)據(jù)挖掘關(guān)于數(shù)據(jù)綜合級別與粒度的確定:一般把數(shù)據(jù)分成四個級別:早期細(xì)節(jié)級、當(dāng)前細(xì)節(jié)級、輕度綜合級、高度綜合級7/21/202324數(shù)據(jù)倉庫與數(shù)據(jù)挖掘一個典型的數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)圖:

數(shù)據(jù)倉庫層后備數(shù)據(jù)后備數(shù)據(jù)后備數(shù)據(jù)高度綜合級輕度綜合級當(dāng)前細(xì)節(jié)級早期細(xì)節(jié)級每“月”電話呼叫情況信息每“天”電話呼叫情況信息電話呼叫情況信息電話呼叫明細(xì)情況信息7/21/202325數(shù)據(jù)倉庫與數(shù)據(jù)挖掘多維數(shù)據(jù)模型的物理實現(xiàn)多維數(shù)據(jù)庫(MDDB),其數(shù)據(jù)是存儲在大量的多維數(shù)組中,而不是關(guān)系表中,與之相對應(yīng)的是多維聯(lián)機(jī)分析處理(MOLAP)關(guān)系數(shù)據(jù)庫是存儲OLAP數(shù)據(jù)的另一種主要方式。與之對應(yīng)的是關(guān)系聯(lián)機(jī)分析處理(ROLAP)7/21/202326數(shù)據(jù)倉庫與數(shù)據(jù)挖掘多維數(shù)據(jù)庫(MDDB)產(chǎn)品名稱銷售地區(qū)銷售數(shù)量電器電器電器服裝服裝服裝江蘇上海北京江蘇上海北京940450340830350270江蘇上海北京電器服裝940830450350340270關(guān)系數(shù)據(jù)庫存儲方式多維數(shù)據(jù)庫存儲方式7/21/202327數(shù)據(jù)倉庫與數(shù)據(jù)挖掘產(chǎn)品名稱銷售地區(qū)銷售數(shù)量電器電器電器電器服裝服裝服裝服裝匯總匯總匯總匯總江蘇上海北京匯總江蘇上海北京匯總江蘇上海北京匯總9404503401730830350270145017708006103180江蘇上海北京匯總電器服裝匯總9408301770450350800340270610173014503180具有匯總數(shù)據(jù)項的關(guān)系數(shù)據(jù)庫具有匯總值的多維數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫中,將“多對多”的關(guān)系轉(zhuǎn)化為多個“一對多”的關(guān)系不直觀直觀7/21/202328數(shù)據(jù)倉庫與數(shù)據(jù)挖掘二維數(shù)據(jù)容易理解,但維數(shù)擴(kuò)展到三維或更高的維度時,多維數(shù)據(jù)庫MDDB就成了一種“超立方”體的結(jié)構(gòu),理解就困難多了。在MDDB中,其數(shù)據(jù)的存儲是由許多類似于數(shù)組的對象來完成,對象中包含了經(jīng)過高度壓縮的索引和指針,利用這些索引和指針將許多存儲數(shù)據(jù)的單元塊聯(lián)結(jié)在一起。實際組合中往往由于各種原因會導(dǎo)致某些組合沒有具體的值,或值是空的或者為零。產(chǎn)生了多維數(shù)據(jù)庫的稀疏矩陣問題。稀疏矩陣將導(dǎo)致存儲空間的浪費,所以需要采用壓縮技術(shù)。7/21/202329數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)?shù)據(jù)的多維結(jié)構(gòu)劃分為兩類表:事實表維度表按照兩種結(jié)構(gòu)設(shè)計:星型模型雪花模型關(guān)系數(shù)據(jù)庫是存儲OLAP數(shù)據(jù)的另一種主要方式。與之對應(yīng)的是關(guān)系聯(lián)機(jī)分析處理(ROLAP)7/21/202330數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

產(chǎn)品ID時間ID銷售商ID地址ID產(chǎn)品ID銷售商ID地址ID時間ID銷售數(shù)量銷售成本總收入銷售商維度表地理位置維表時間維表產(chǎn)品維表1.星型模式在關(guān)系數(shù)據(jù)庫中的表示

7/21/202331數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2.雪花模式在關(guān)系數(shù)據(jù)庫中的表示產(chǎn)品維表

產(chǎn)品ID時間ID 銷售商ID

地址ID圖5.9 雪花模式的關(guān)系數(shù)據(jù)庫表示地理位置維表時間維表產(chǎn)品ID產(chǎn)品名稱公司ID公司名稱產(chǎn)品顏色I(xiàn)D產(chǎn)品顏色產(chǎn)品商標(biāo)ID商標(biāo)名稱產(chǎn)品類型ID產(chǎn)品類型名銷售商維度表產(chǎn)品ID銷售商ID地址ID時間ID銷售數(shù)量銷售成本總收入產(chǎn)品ID公司ID產(chǎn)品顏色I(xiàn)D產(chǎn)品商標(biāo)ID產(chǎn)品類型ID7/21/202332數(shù)據(jù)倉庫與數(shù)據(jù)挖掘多維建模技術(shù)簡介兩種主流建模技術(shù):由Inmon提出的企業(yè)級數(shù)據(jù)倉庫模型和由Kimball提出的多維模型;基于關(guān)系數(shù)據(jù)庫的多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論