第1章-數(shù)據(jù)倉庫的概念與體系結(jié)構(gòu)_第1頁
第1章-數(shù)據(jù)倉庫的概念與體系結(jié)構(gòu)_第2頁
第1章-數(shù)據(jù)倉庫的概念與體系結(jié)構(gòu)_第3頁
第1章-數(shù)據(jù)倉庫的概念與體系結(jié)構(gòu)_第4頁
第1章-數(shù)據(jù)倉庫的概念與體系結(jié)構(gòu)_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1第1章 數(shù)據(jù)倉庫的概念與體系結(jié)構(gòu) 數(shù)理學(xué)院唐志剛2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘21.1 數(shù)據(jù)倉庫的概念、特點(diǎn)與組成數(shù)據(jù)倉庫的概念數(shù)據(jù)倉庫就是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,通常用于輔助決策支持(DDS) 2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘31.1 數(shù)據(jù)倉庫的概念、特點(diǎn)與組成數(shù)據(jù)倉庫的特點(diǎn):面向主題;集成的;相對穩(wěn)定的;反映歷史變化。面向主題操作型數(shù)據(jù)庫中的數(shù)據(jù)針對事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離。

2、數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘4集成操作型數(shù)據(jù)庫通常與某些特定應(yīng)用相關(guān),數(shù)據(jù)庫之間相互獨(dú)立,并且往往是異構(gòu)的;數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)進(jìn)行抽取、清理的基礎(chǔ)上進(jìn)行系統(tǒng)加工、匯總和整理得到的;2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘5相對穩(wěn)定操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化;數(shù)據(jù)倉庫的數(shù)據(jù)主要用于決策分析,對所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢和定期更新,一旦某個(gè)數(shù)據(jù)加載到數(shù)據(jù)倉庫以后,一般情況下將作為數(shù)據(jù)檔案長期保存,幾乎不再做修改和刪除操作2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘6反映歷史變化操作型數(shù)據(jù)庫主要

3、關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù);數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含較久遠(yuǎn)的歷史數(shù)據(jù),因此總是包括一個(gè)時(shí)間維,以便可以研究趨勢和變化;2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘72022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘81.1 數(shù)據(jù)倉庫的概念、特點(diǎn)與組成數(shù)據(jù)倉庫的組成:數(shù)據(jù)倉庫數(shù)據(jù)庫;數(shù)據(jù)抽取工具;元數(shù)據(jù):技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù);訪問工具;數(shù)據(jù)集市(Data Marts);數(shù)據(jù)倉庫管理;信息發(fā)布系統(tǒng)。數(shù)據(jù)倉庫數(shù)據(jù)庫是整個(gè)數(shù)據(jù)倉庫的核心,是數(shù)據(jù)信息存放的地方,對數(shù)據(jù)提供存取和檢索支持;主要特點(diǎn):對海量數(shù)據(jù)的支持和快速檢索技術(shù)2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘9數(shù)據(jù)抽取工具是把數(shù)據(jù)從各種各樣的存儲(chǔ)環(huán)境中提取出來,

4、進(jìn)行必要的轉(zhuǎn)化、整理、再存放到數(shù)據(jù)倉庫內(nèi);數(shù)據(jù)轉(zhuǎn)換主要包括:刪除對決策分析沒有意義的數(shù)據(jù);轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱和定義;計(jì)算統(tǒng)計(jì)和衍生數(shù)據(jù);填補(bǔ)缺失數(shù)據(jù);統(tǒng)一不同的數(shù)據(jù)定義方式;2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘10元數(shù)據(jù)描述數(shù)據(jù)倉庫中的數(shù)據(jù)及其環(huán)境的數(shù)據(jù);在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)機(jī)制主要支持以下五類系統(tǒng)管理功能:(1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中;(2)定義要進(jìn)入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù);(3)記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進(jìn)行的數(shù)據(jù)抽取工作時(shí)間安排;2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘11元數(shù)據(jù)(4)記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況;(5)衡量數(shù)據(jù)質(zhì)量;分為技術(shù)元數(shù)據(jù)和

5、業(yè)務(wù)元數(shù)據(jù),其特點(diǎn)見教材P3頁;2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘12訪問工具是為用戶訪問數(shù)據(jù)倉庫提供的手段2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘13數(shù)據(jù)集市是為了特定的應(yīng)用目的,從數(shù)據(jù)倉庫中獨(dú)立出來的一部分?jǐn)?shù)據(jù),也稱為部門數(shù)據(jù)或主題數(shù)據(jù);在數(shù)據(jù)倉庫實(shí)施過程中往往可以從一個(gè)部門的數(shù)據(jù)集市入手,再用幾個(gè)數(shù)據(jù)集市組成一個(gè)完整的數(shù)據(jù)倉庫;注意:在實(shí)施不同數(shù)據(jù)集市時(shí),相同含義字段的定義一定要相容;2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘14數(shù)據(jù)倉庫管理包括安全與權(quán)限的管理;數(shù)據(jù)更新的跟蹤;數(shù)據(jù)質(zhì)量的檢查;元數(shù)據(jù)的管理與更新;數(shù)據(jù)倉庫使用狀態(tài)的檢測與審計(jì);2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘15信息

6、發(fā)布系統(tǒng)是把數(shù)據(jù)倉庫中的數(shù)據(jù)或其它相關(guān)的數(shù)據(jù)發(fā)送給不同的地點(diǎn)或用戶;目前最常用的是基于web的信息發(fā)布系統(tǒng)2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘162022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘171.2 數(shù)據(jù)挖掘的概念與方法數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘(Data Mining),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識,又被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD) 2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘181.2 數(shù)據(jù)挖掘的概念與方法數(shù)據(jù)挖掘的方法:直接數(shù)據(jù)挖

7、掘間接數(shù)據(jù)挖掘。2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘191.2 數(shù)據(jù)挖掘的概念與方法數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系若將數(shù)據(jù)倉庫(Data Warehouse)比作礦井,那么數(shù)據(jù)挖掘(Data Mining)就是深入礦井采礦的工作 數(shù)據(jù)挖掘是從數(shù)據(jù)倉庫中找出有用信息的一種過程與技術(shù) 2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘201.3 數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品聯(lián)機(jī)事務(wù)處理(OLTP)與聯(lián)機(jī)分析處理(OLAP)的比較;OLAP技術(shù)的有關(guān)概念 :多維數(shù)據(jù)集、維度、度量值和多維分析;OLAP根據(jù)其存儲(chǔ)數(shù)據(jù)的方式可分為三類:ROLAP、MOLAP、HOLAP OLAP工具 2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖

8、掘211.3 數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品數(shù)據(jù)倉庫實(shí)施中的三個(gè)關(guān)鍵環(huán)節(jié)數(shù)據(jù)抽??;數(shù)據(jù)存儲(chǔ)與管理數(shù)據(jù)表現(xiàn) 2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘221.3 數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品數(shù)據(jù)倉庫實(shí)施方法論數(shù)據(jù)倉庫不是簡單的數(shù)據(jù)或產(chǎn)品堆砌,它是一個(gè)綜合集成解決方案和系統(tǒng)工程。在數(shù)據(jù)倉庫的實(shí)施過程中,技術(shù)決策至關(guān)重要,技術(shù)選擇或決策錯(cuò)誤很可能導(dǎo)致項(xiàng)目實(shí)施失敗 2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘231.3 數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品常用數(shù)據(jù)倉庫產(chǎn)品比較常用OLAP工具介紹 ;各數(shù)據(jù)倉庫廠商提供的解決方案 IBM、Oracle、NCR、Microsoft、SAS等2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘24

9、1.4 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)的分類(1)兩層架構(gòu)(Generic Two-Level Architecture)。(2)獨(dú)立型數(shù)據(jù)集市(Independent Data Mart)。(3)依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ)(Dependent Data Mart and Operational Data Store)。(4)邏輯型數(shù)據(jù)集市和實(shí)時(shí)數(shù)據(jù)倉庫(Logical Data Mart and Real-Time Data Warehouse)。2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘251.4 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)兩層數(shù)據(jù)倉庫體系結(jié)構(gòu) 2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)

10、挖掘261.4 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)基于獨(dú)立數(shù)據(jù)集市的數(shù)據(jù)倉庫體系結(jié)構(gòu) 2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘271.4 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)基于依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ)(ODS)的數(shù)據(jù)倉庫體系結(jié)構(gòu) 2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘281.4 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)邏輯型數(shù)據(jù)集市和實(shí)時(shí)數(shù)據(jù)倉庫的體系結(jié)構(gòu) 2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘291.5 數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來數(shù)據(jù)倉庫的產(chǎn)生聯(lián)機(jī)事務(wù)處理系統(tǒng)(業(yè)務(wù)系統(tǒng))剛上線時(shí),查詢不到數(shù)據(jù)是因?yàn)閿?shù)據(jù)太少了,而幾十年后查詢不到有關(guān)數(shù)據(jù)是因?yàn)閿?shù)據(jù)太多了。針對這一問題,人們設(shè)想專門為業(yè)務(wù)數(shù)據(jù)的統(tǒng)計(jì)分析建立一個(gè)數(shù)據(jù)中心,它的數(shù)據(jù)從聯(lián)

11、機(jī)事務(wù)處理系統(tǒng)中來、從異構(gòu)的外部數(shù)據(jù)源來、或從脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中來,這個(gè)數(shù)據(jù)中心也是一個(gè)聯(lián)機(jī)系統(tǒng),它專門為分析統(tǒng)計(jì)和決策支持應(yīng)用服務(wù),通過它可獲取決策支持和聯(lián)機(jī)分析應(yīng)用所需要的一切數(shù)據(jù)。這個(gè)數(shù)據(jù)中心就叫做數(shù)據(jù)倉庫。簡單地說,數(shù)據(jù)倉庫就是一個(gè)作為決策支持和聯(lián)機(jī)分析應(yīng)用系統(tǒng)數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境,數(shù)據(jù)倉庫要研究和解決的問題就是從數(shù)據(jù)庫中獲取信息的問題。 2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘301.5 數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來數(shù)據(jù)倉庫的發(fā)展以報(bào)表為主以分析為主 以預(yù)測模型為主 以營運(yùn)導(dǎo)向?yàn)橹?以實(shí)時(shí)數(shù)據(jù)倉庫、自動(dòng)決策應(yīng)用為主 2022/10/11數(shù)據(jù)倉庫與數(shù)據(jù)挖掘311.5 數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來數(shù)據(jù)倉庫的未來在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)集成化方面。它將互連、轉(zhuǎn)換、復(fù)制、調(diào)度、監(jiān)控納入標(biāo)準(zhǔn)化的統(tǒng)一管理,以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源可能的變化,使系統(tǒng)更便于管理和維護(hù)。在數(shù)據(jù)管理方面,未來的發(fā)展將使數(shù)據(jù)庫廠商明確推出數(shù)據(jù)倉庫引擎,作為數(shù)據(jù)倉庫服務(wù)器產(chǎn)品與

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論