版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第一講
數(shù)據(jù)倉庫基礎(chǔ)姓名:陳令江QQ:453579383電話mail:chenlingjiang@內(nèi)容1、數(shù)據(jù)倉庫的概念、特點與組成2、OLAP的概念、特點與類型3、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)5、數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來6、數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理數(shù)據(jù)倉庫4、數(shù)據(jù)倉庫的實施問題什么是數(shù)據(jù)倉庫?為什么要建數(shù)據(jù)倉庫?建數(shù)據(jù)倉庫能帶來哪些好處?1.1什么是數(shù)據(jù)倉庫數(shù)據(jù)倉庫(DataWarehouse)是一個面向主題的(SubjectOriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策和信息的全局共享。——數(shù)據(jù)倉庫之父[WilliamH.Inmon]1.1.1數(shù)據(jù)倉庫特點(面向主題的)生產(chǎn)系統(tǒng)操作型數(shù)據(jù)庫數(shù)據(jù)倉庫操作型數(shù)據(jù)庫是面向特殊處理任務(wù),各個系統(tǒng)之間各自分離數(shù)據(jù)倉庫是按照一定的主題域進行組織。一個主題通常與多個操作型信息系統(tǒng)相關(guān)銷售系統(tǒng)財務(wù)系統(tǒng)客戶1.1.2數(shù)據(jù)倉庫特點(集成的)面向特定應(yīng)用集成的每一個數(shù)據(jù)庫面向特定的應(yīng)用,各類應(yīng)用(包括其相關(guān)的數(shù)據(jù)庫)之間相互獨立數(shù)據(jù)倉庫中的數(shù)據(jù)面向整個企業(yè)的分析處理,經(jīng)營分析系統(tǒng)中的數(shù)據(jù)是已經(jīng)集成了的,消除了數(shù)據(jù)的不一致性操作型數(shù)據(jù)庫數(shù)據(jù)倉庫1.1.3數(shù)據(jù)倉庫特點(相對穩(wěn)定的)實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化定期加載,加載后的數(shù)據(jù)極少更新,在某個時間段內(nèi)保持相對穩(wěn)定操作型數(shù)據(jù)庫數(shù)據(jù)倉庫modifydeleteinsertupdateLoad/Update1.1.4數(shù)據(jù)倉庫特點(反應(yīng)歷史變化的)主要關(guān)心當(dāng)前數(shù)據(jù)通常包含歷史數(shù)據(jù)操作型數(shù)據(jù)庫數(shù)據(jù)倉庫1.2對數(shù)據(jù)倉庫系統(tǒng)的理解數(shù)據(jù)倉庫系統(tǒng)用于支持管理和決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的面向交易的操作型數(shù)據(jù)庫;數(shù)據(jù)倉庫系統(tǒng)是對多個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù)。與其他數(shù)據(jù)庫應(yīng)用不同的是,數(shù)據(jù)倉庫更像一種過程,對分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程。1.3數(shù)據(jù)倉庫的組成數(shù)據(jù)倉庫數(shù)據(jù)庫;數(shù)據(jù)抽取工具;
OLAP服務(wù)器;元數(shù)據(jù)(Metadata);數(shù)據(jù)展現(xiàn)工具;數(shù)據(jù)集市(DataMarts);數(shù)據(jù)倉庫管理;信息發(fā)布系統(tǒng)。1.3.1數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)庫是整個數(shù)據(jù)倉庫的核心,是數(shù)據(jù)信息存放的地方,對數(shù)據(jù)提供存取和檢索支持。相對于傳統(tǒng)數(shù)據(jù)庫來說,其突出的特點是對海量數(shù)據(jù)的支持和快速的檢索技術(shù)。數(shù)據(jù)庫OracleDB2SQLServerSybaseMySQL……數(shù)據(jù)庫內(nèi)部性能參數(shù)有一些差異:傳統(tǒng)數(shù)據(jù)庫:注重增、刪、改、查的綜合性能。數(shù)據(jù)倉庫:以查詢、統(tǒng)計性能為優(yōu)先重點。1.3.2數(shù)據(jù)抽取工具數(shù)據(jù)抽取工具是把數(shù)據(jù)從各種各樣的存儲環(huán)境中提取出來,進行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉庫內(nèi)。對各種不同數(shù)據(jù)的存儲方式的訪問能力是數(shù)據(jù)抽取工具的關(guān)鍵,可以運用高級語言編寫的程序、操作系統(tǒng)腳本、批命令腳本或SQL腳本等方式,訪問不同的數(shù)據(jù)環(huán)境。數(shù)據(jù)轉(zhuǎn)換通常包括如下內(nèi)容:刪除對決策分析沒有意義的數(shù)據(jù)。轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱和定義。計算統(tǒng)計和衍生數(shù)據(jù)。填補缺失數(shù)據(jù)。統(tǒng)一不同的數(shù)據(jù)定義方式。1.3.3OLAP服務(wù)器OLAP服務(wù)器是用于存儲多“維”數(shù)據(jù)的,存儲結(jié)構(gòu)類似與立方體的結(jié)構(gòu),提供給用戶快速的數(shù)據(jù)分析支持。1.3.4元數(shù)據(jù)元數(shù)據(jù)是描述數(shù)據(jù)倉庫數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),全面描述了數(shù)據(jù)倉庫中有什么數(shù)據(jù),這些數(shù)據(jù)是怎么得到,數(shù)據(jù)的來源是哪里等。簡言之:元數(shù)據(jù)就是數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)是面向設(shè)計和管理人員的,包括數(shù)據(jù)源信息、數(shù)據(jù)結(jié)構(gòu)定義、數(shù)據(jù)轉(zhuǎn)換規(guī)則等。業(yè)務(wù)元數(shù)據(jù)是面向業(yè)務(wù)使用人員的,主要是從業(yè)務(wù)的視角來描述業(yè)務(wù)主題。1.3.5數(shù)據(jù)展現(xiàn)工具數(shù)據(jù)展現(xiàn)工具為用戶訪問數(shù)據(jù)倉庫提供的手段,如:數(shù)據(jù)查詢和報表工具、應(yīng)用開發(fā)工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具等。數(shù)據(jù)分析工具報表展現(xiàn)工具1.3.6數(shù)據(jù)集市數(shù)據(jù)展現(xiàn)工具為用戶訪問數(shù)據(jù)倉庫提供的手段,如:數(shù)據(jù)查詢和報表工具、應(yīng)用開發(fā)工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具等。數(shù)據(jù)集市的劃分有很多中,如按照時間劃分(07年、08年、09年等)按照地域劃分(廣州、深圳、珠海等)按照業(yè)務(wù)劃分(生產(chǎn)、銷售、財務(wù)等)……1.3.7數(shù)據(jù)倉庫管理數(shù)據(jù)倉庫管理包括安全與權(quán)限的管理、數(shù)據(jù)更新的跟蹤、數(shù)據(jù)質(zhì)量的檢查、元數(shù)據(jù)的管理和更新、數(shù)據(jù)倉庫使用狀態(tài)的監(jiān)測與審計、數(shù)據(jù)復(fù)制與刪除、數(shù)據(jù)分割與分發(fā)、數(shù)據(jù)備份與恢復(fù)、數(shù)據(jù)存儲管理等。數(shù)據(jù)倉庫1.3.8信息發(fā)布系統(tǒng)信息發(fā)布系統(tǒng)是把數(shù)據(jù)倉庫中的數(shù)據(jù),或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點或用戶?;赪eb的信息發(fā)布系統(tǒng)是當(dāng)前比較流行的多用戶訪問的最有效方法。數(shù)據(jù)倉庫問題什么是數(shù)據(jù)倉庫?為什么要建數(shù)據(jù)倉庫?數(shù)據(jù)集成問題數(shù)據(jù)動態(tài)集成問題歷史數(shù)據(jù)問題數(shù)據(jù)的綜合問題
建數(shù)據(jù)倉庫能帶來哪些好處?公司領(lǐng)導(dǎo)層:了解公司全貌,輔助進行戰(zhàn)略決策中間管理層:掌控部門業(yè)務(wù)情況,協(xié)助制定管理策略基層管理人員:掌握基層單位或個人績效,實施有效管理內(nèi)容1、數(shù)據(jù)倉庫的概念、特點與組成2、OLAP的概念、特點與類型3、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)5、數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來6、數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理數(shù)據(jù)倉庫4、數(shù)據(jù)倉庫的實施2.1什么是OLAP
OLAP(OnlineAnalysisProcess)是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析。通過對信息(維數(shù)據(jù))的多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行深入觀察。對OLAP的理解OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術(shù)核心是“維”這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。2.2OLAP基礎(chǔ)概念(一)維度(Dimension)人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性,屬性集合構(gòu)成一個維(時間維、地理維等)。量度(Measure)具體的指標(biāo)值,如客戶數(shù)、收入等層次(Hierarchy)人們觀察數(shù)據(jù)的某個特定角度(即某個維)還可以存在細節(jié)程度不同的各個描述方面(時間維:年->季度->月份->日期)。成員(Member)維的一個取值。是數(shù)據(jù)項在某維中位置的描述。2.2OLAP基礎(chǔ)概念(二)多維分析多維分析是只對以“維”形式組織起來的數(shù)據(jù)(多維數(shù)據(jù)集)采取切片(slice)、切塊(dice)、鉆?。╠rilldown和drillup)和旋轉(zhuǎn)(pivot)等各種分析操作,以求剖析數(shù)據(jù),使用戶能從不同角度、不同側(cè)面觀察數(shù)據(jù)倉庫中的數(shù)據(jù),從而深入理解多維數(shù)據(jù)集中的信息。2.3OLTP與OLAP的比較OLTPOLAP用戶操作人員、基層管理人員決策人員、高級管理人員功能日常操作型事務(wù)處理分析決策設(shè)計目標(biāo)面向應(yīng)用面向主題數(shù)據(jù)特點當(dāng)前的、最新的、細節(jié)的、二維的、分立的歷史的、聚集的、維多的、集成的、統(tǒng)一的存取規(guī)模通常一次讀或?qū)憯?shù)十條記錄可能讀取百萬條以上記錄工作單元一個事務(wù)一個復(fù)雜查詢用戶數(shù)通常是成千上萬個用戶可能只有幾十個或上百的用戶數(shù)據(jù)庫大小通常在GB級(100MB~1GB)在TB級(100GB~100TB)2.4OLAP特性快速性用戶對OLAP的快速反應(yīng)能力有很高的要求。系統(tǒng)應(yīng)能在5秒內(nèi)對用戶的大部分分析要求做出反應(yīng)??煞治鲂設(shè)LAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計分析。多維性多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對數(shù)據(jù)的多維視圖和分析,包括對層次維和多重層次維的完全支持。信息性不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲在何處,OLAP系統(tǒng)應(yīng)能及時獲得信息,并且管理大容量信息。2.5OLAP類型ROLAP結(jié)構(gòu)MOLAP結(jié)構(gòu)
ROLAP(RelationOLAP):關(guān)系型OLAP,數(shù)據(jù)存儲在數(shù)據(jù)庫中,查詢方便靈活。
MOLAP(Multi-dimensionOLAP):多維OLAP,數(shù)據(jù)采用立方體的方式,獨立存儲,查詢效率高。
HOLAP(HyperOLAP):混合型OLAP,也就是ROLAP和MOLAP的聯(lián)合體。分為三種類型:ROLAP、MOLAP、HOLAPHOLAP結(jié)構(gòu)2.6ROLTP與MOLAP的比較ROLTPMOLAP優(yōu)點
沒有大小限制現(xiàn)有的關(guān)系數(shù)據(jù)庫的技術(shù)可以沿用可以通過SQL實現(xiàn)詳細數(shù)據(jù)與概要數(shù)據(jù)的存儲現(xiàn)有關(guān)系型數(shù)據(jù)庫已經(jīng)對OLAP做了很多優(yōu)化,包括并行存儲、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL
的OLAP擴展(cube,rollup)等大大提高ROALP的速度
性能好、響應(yīng)速度快專為OLAP所設(shè)計持高性能的決策支持計算復(fù)雜的跨維計算多用戶的讀寫操作行級的計算
缺點
一般比MDD響應(yīng)速度慢不支持有關(guān)預(yù)計算的讀寫操作SQL無法完成部分計算無法完成多行的計算無法完成維之間的計算
增加系統(tǒng)復(fù)雜度,增加系統(tǒng)培訓(xùn)與維護費用受操作系統(tǒng)平臺中文件大小的限制,難以達到TB
級(只能10~20G)需要進行預(yù)計算,可能導(dǎo)致數(shù)據(jù)爆炸
無法支持維的動態(tài)變化缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問的標(biāo)準(zhǔn)
內(nèi)容1、數(shù)據(jù)倉庫的概念、特點與組成2、OLAP的概念、特點與類型3、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)5、數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來6、數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理數(shù)據(jù)倉庫4、數(shù)據(jù)倉庫的實施3.1數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)獨立的數(shù)據(jù)倉庫體系結(jié)構(gòu)獨立的數(shù)據(jù)集市體系結(jié)構(gòu)數(shù)據(jù)倉庫+數(shù)據(jù)集市體系結(jié)構(gòu)實時數(shù)據(jù)倉庫體系結(jié)構(gòu)3.2獨立的數(shù)據(jù)倉庫體系結(jié)構(gòu)3.2獨立的數(shù)據(jù)集市體系結(jié)構(gòu)3.3數(shù)據(jù)倉庫+數(shù)據(jù)集市體系結(jié)構(gòu)3.4實時數(shù)據(jù)倉庫體系結(jié)構(gòu)3.5某實際項目的數(shù)據(jù)倉庫體系結(jié)構(gòu)3.6數(shù)據(jù)倉庫與數(shù)據(jù)集市的比較數(shù)據(jù)倉庫數(shù)據(jù)集市范圍應(yīng)用獨立特定的DSS應(yīng)用集中式、企業(yè)級用戶域的離散化規(guī)劃的可能是臨時組織的(無規(guī)劃)數(shù)據(jù)歷史的、詳細的、概括的一些歷史的、詳細的、概括的輕微不規(guī)范化高度不規(guī)范化主題多個主題用戶關(guān)心的某一個中心主題源多個內(nèi)部和外部源很少的內(nèi)部和外部源其它特征面向數(shù)據(jù)的、長期的、大的面向工程的、短期的、有小到達單一的復(fù)雜結(jié)構(gòu)多、半復(fù)雜性結(jié)構(gòu)內(nèi)容1、數(shù)據(jù)倉庫的概念、特點與組成2、OLAP的概念、特點與類型3、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)5、數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來6、數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理數(shù)據(jù)倉庫4、數(shù)據(jù)倉庫的實施4.1數(shù)據(jù)倉庫系統(tǒng)的實施數(shù)據(jù)倉庫實施中的三個關(guān)鍵環(huán)節(jié)數(shù)據(jù)抽?。粩?shù)據(jù)存儲與管理數(shù)據(jù)表現(xiàn)4.2數(shù)據(jù)倉庫實施方法論數(shù)據(jù)倉庫不是簡單的數(shù)據(jù)或產(chǎn)品堆砌,它是一個綜合集成解決方案和系統(tǒng)工程。在數(shù)據(jù)倉庫的實施過程中,技術(shù)決策至關(guān)重要,技術(shù)選擇或決策錯誤很可能導(dǎo)致項目實施失敗4.3數(shù)據(jù)倉庫實施步驟項目啟動原型應(yīng)用需求分析LDM設(shè)計系統(tǒng)體系結(jié)構(gòu)設(shè)計PDM設(shè)計ETL實現(xiàn)前端展現(xiàn)定制項目關(guān)閉環(huán)境構(gòu)建系統(tǒng)測試系統(tǒng)應(yīng)用需求變更分析設(shè)計實現(xiàn)4.4數(shù)據(jù)倉庫的構(gòu)建方法——自頂向下建造企業(yè)數(shù)據(jù)倉庫建設(shè)中心數(shù)據(jù)模型一次性的完成數(shù)據(jù)的重構(gòu)工作最小化數(shù)據(jù)冗余度和不一致性存儲詳細的歷史數(shù)據(jù)從企業(yè)數(shù)據(jù)倉庫中建造數(shù)據(jù)集市得到大部分的集成數(shù)據(jù)直接依賴于數(shù)據(jù)倉庫的可用性問題:建設(shè)中心數(shù)據(jù)模型的必要性和可能性?投資效益的時間?初始費用?4.5數(shù)據(jù)倉庫的構(gòu)建方法——自底向上建立部門數(shù)據(jù)集市限制在一個主題區(qū)域快速投資收益區(qū)域自治–設(shè)計的可伸縮性強對相關(guān)部門的應(yīng)用容易復(fù)制對每個數(shù)據(jù)集市需要數(shù)據(jù)重構(gòu)存在一定的冗余及不一直性逐步擴展到企業(yè)數(shù)據(jù)倉庫(EDW)把建造EDW作為一個長期的目標(biāo)問題:數(shù)據(jù)集市的數(shù)據(jù)都是可用的嗎?能生成數(shù)據(jù)模型嗎?如何解決不一致性?4.6常用數(shù)據(jù)倉庫產(chǎn)品比較能夠提供完整數(shù)據(jù)倉庫解決方案的廠商主要包括:IBM、Oracle、NCR、Microsoft等。另外,如果考慮到成本因素的話,也可以考慮采用開源方案,但這需要對開源產(chǎn)品非常的熟悉,自行完成解決方案的制定。4.6.1數(shù)據(jù)庫產(chǎn)品比較OracleDB2TeradataSQLServerMySQL硬件平臺兼容性高中低(專用主機)高高軟件平臺兼容性高高低(專用系統(tǒng))低(微軟平臺)高開放性高中高低高極高(開源)性能高高極高中中數(shù)據(jù)規(guī)模大大超大中中小易用性高中高低高高安全性高高高中中建設(shè)成本高高高中極低升級成本低低高低極低市場占有率高中高低低4.6.2ETL產(chǎn)品比較SSISDataStagePowerCenterOWBKettel平臺兼容性低高高高高開放性高高高中(Oracle平臺較高)極高(開源)性能高高中高中高易用性高中高中高使用成本中高高中低自定義函數(shù)/腳本支持中中中高高調(diào)試/監(jiān)控/斷點/日志高中高中高斷點續(xù)傳支持不支持支持不支持支持Email通知支持支持支持支持支持市場占有率低高高低中服務(wù)支持中高高中中4.6.3報表產(chǎn)品比較CrystalBrioSSRSReportNetBirt平臺兼容性高高中高高開放性高中高高高(開源)性能高中高高高易用性高低高中高報表類型BandBandBandBandBand圖表支持好較好好-好腳本支持好好高較好好輸出格式豐富中高豐富豐富使用成本高高中高低市場占有率高中中低中4.6.4OLAP產(chǎn)品比較EssbaseExpressCognosSSASMondrian平臺兼容性高高中中高OLAP類型MOLAPHOLAPMOLAPROLAP/MOLAPROLAP開放性高高中高高(開源)性能高中高中中易用性高低高高高安全性高中高中中使用成本高高高中低市場占有率高低中高中-4.6.5展前產(chǎn)品比較BOBrioCognosMicroStrategyPanteho平臺兼容性高高中中高功能高中高中中高開放性高中中中高(開源)性能高高高中中易用性高低高高高安全性高高高高高使用成本高高高中低市場占有率高中中低-4.6.6其它數(shù)據(jù)挖掘工具
目前市場上數(shù)據(jù)挖掘工具非常多,世界上各大BI廠商都提供了自己的數(shù)據(jù)挖掘工具,不過,從在挖掘領(lǐng)域的影響力和市場占有率來講,無疑是SAS和SPSS兩家獨大,產(chǎn)品也非常豐富,各種常用的挖掘算法和挖掘手段都能提供,主要還是看使用人員的熟練程度以及對業(yè)務(wù)的理解力。另外,開源領(lǐng)域也有一些挖掘工具,如WEKA,是新西蘭大學(xué)的數(shù)據(jù)挖掘產(chǎn)品,具體完整和先進的算法,不足在對于大數(shù)據(jù)量的處理比較慢和對非專業(yè)人員的可用性不好2個方面。
元數(shù)據(jù)管理工具
目前市場上主流的元數(shù)據(jù)管理工具包括:DAG公司的MetaCenter、CA公司的Repository以及Ascential公司的MetaStage等,這些產(chǎn)品的功能都不錯,對日常數(shù)據(jù)管理的絕大部分要求都可以滿足。另外,開源領(lǐng)域有Panteho的Metadata等,功能相對簡單,不過與Panteho平臺結(jié)合的不錯。
內(nèi)容1、數(shù)據(jù)倉庫的概念、特點與組成2、OLAP的概念、特點與類型3、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)5、數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來6、數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理數(shù)據(jù)倉庫4、數(shù)據(jù)倉庫的實施5.1數(shù)據(jù)倉庫的產(chǎn)生聯(lián)機事務(wù)處理系統(tǒng)(業(yè)務(wù)系統(tǒng))剛上線時,查詢不到數(shù)據(jù)是因為數(shù)據(jù)太少了,而幾十年后查詢不到有關(guān)數(shù)據(jù)是因為數(shù)據(jù)太多了。針對這一問題,人們設(shè)想專門為業(yè)務(wù)數(shù)據(jù)的統(tǒng)計分析建立一個數(shù)據(jù)中心,它的數(shù)據(jù)從聯(lián)機事務(wù)處理系統(tǒng)中來、從異構(gòu)的外部數(shù)據(jù)源來、或從脫機的歷史業(yè)務(wù)數(shù)據(jù)中來,這個數(shù)據(jù)中心也是一個聯(lián)機系統(tǒng),它專門為分析統(tǒng)計和決策支持應(yīng)用服務(wù),通過它可獲取決策支持和聯(lián)機分析應(yīng)用所需要的一切數(shù)據(jù)。這個數(shù)據(jù)中心就叫做數(shù)據(jù)倉庫。簡單地說,數(shù)據(jù)倉庫就是一個作為決策支持和聯(lián)機分析應(yīng)用系統(tǒng)數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境,數(shù)據(jù)倉庫要研究和解決的問題就是從數(shù)據(jù)庫中獲取信息的問題。報表為主分析為主預(yù)測模型為主營運導(dǎo)向為主實時數(shù)據(jù)倉庫、自動決策應(yīng)用為主
1996年
1999年
2003年
2006年
2008年5.2數(shù)據(jù)倉庫的發(fā)展5.1數(shù)據(jù)倉庫的未來在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)集成化方面。它將互連、轉(zhuǎn)換、復(fù)制、調(diào)度、監(jiān)控納入標(biāo)準(zhǔn)化的統(tǒng)一管理,以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源可能的變化,使系統(tǒng)更便于管理和維護。在數(shù)據(jù)管理方面,未來的發(fā)展將使數(shù)據(jù)庫廠商明確推出數(shù)據(jù)倉庫引擎,作為數(shù)據(jù)倉庫服務(wù)器產(chǎn)品與數(shù)據(jù)庫服務(wù)器并駕齊驅(qū)。在這一方面,帶有決策支持擴展的并行關(guān)系數(shù)據(jù)庫將最具發(fā)展?jié)摿ΑT跀?shù)據(jù)表現(xiàn)方面,數(shù)理統(tǒng)計的算法和功能將普遍集成到聯(lián)機分析產(chǎn)品中,并與Internet/Web技術(shù)緊密結(jié)合。按行業(yè)應(yīng)用特征細化的數(shù)據(jù)倉庫用戶前端軟件將成為產(chǎn)品作為數(shù)據(jù)倉庫解決方案的一部分。數(shù)據(jù)倉庫實現(xiàn)過程的方法論將更加普及,將成為數(shù)據(jù)庫設(shè)計的一個明確分支,成為管理信息系統(tǒng)設(shè)計的必備。內(nèi)容1、數(shù)據(jù)倉庫的概念、特點與組成2、OLAP的概念、特點與類型3、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)5、數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來6、數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理數(shù)據(jù)倉庫4、數(shù)據(jù)倉庫的實施6.1數(shù)據(jù)倉庫的三層數(shù)據(jù)結(jié)構(gòu)6.2數(shù)據(jù)倉庫(EDW)內(nèi)部結(jié)構(gòu)早期細節(jié)數(shù)據(jù)當(dāng)前細節(jié)數(shù)據(jù)輕度匯總數(shù)據(jù)高度匯總數(shù)據(jù)6.3數(shù)據(jù)倉庫的數(shù)據(jù)特征狀態(tài)數(shù)據(jù)與事件數(shù)據(jù)當(dāng)前數(shù)據(jù)與周期數(shù)據(jù)數(shù)據(jù)倉庫中的元數(shù)據(jù)
6.4數(shù)據(jù)倉庫的數(shù)據(jù)ETLETL:即數(shù)據(jù)抽?。‥xtraction)、轉(zhuǎn)換(Transformation)和裝載(Loading),是數(shù)據(jù)倉庫實現(xiàn)過程中,進行數(shù)據(jù)由數(shù)據(jù)源系統(tǒng)向數(shù)據(jù)倉庫加載的重要環(huán)節(jié)。從功能上看,整個ETL包括三個部分:數(shù)據(jù)抽取,從數(shù)據(jù)源系統(tǒng)抽取數(shù)據(jù)倉庫系統(tǒng)需要的數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換,將從數(shù)據(jù)源獲取的數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)倉庫要求的形式,對數(shù)據(jù)進行變換;數(shù)據(jù)加載,將數(shù)據(jù)裝入數(shù)據(jù)倉庫。6.4.1數(shù)據(jù)抽?。‥xtract)抽取接口典型的數(shù)據(jù)抽取接口包括數(shù)據(jù)庫接口和文件接口。對于不同數(shù)據(jù)平臺、不同源數(shù)據(jù)形式、不同性能要求和業(yè)務(wù)量的業(yè)務(wù)系統(tǒng)以及不同數(shù)據(jù)量的源數(shù)據(jù),將采取不同的數(shù)據(jù)抽取接口。在數(shù)據(jù)抽取時需要重點考慮數(shù)據(jù)抽取的效率,以及對現(xiàn)有業(yè)務(wù)系統(tǒng)性能及安全的影響。抽取策略數(shù)據(jù)的抽取必須能夠充分滿足數(shù)據(jù)倉庫系統(tǒng)分析及決策支持的需要,同時必須保證不能影響業(yè)務(wù)系統(tǒng)的性能,所以進行數(shù)據(jù)抽取時必須充分考慮這些因素,制定相應(yīng)的策略,包括抽取方式、抽取時機、抽取周期等內(nèi)容。
抽取方式:增量抽取、完全抽取等。抽取時機:盡可能避開業(yè)務(wù)系統(tǒng)的高峰時段,比如在夜間業(yè)務(wù)系統(tǒng)比較閑時。抽取周期:對不同類型的數(shù)據(jù)源,應(yīng)綜合考慮業(yè)務(wù)需求和系統(tǒng)代價,制定合理的抽取周期。6.4.2數(shù)據(jù)轉(zhuǎn)換(Transformation
)主要功能數(shù)據(jù)轉(zhuǎn)換主要完成由于以下原因造成的數(shù)據(jù)不一致性問題:源數(shù)據(jù)系統(tǒng)同數(shù)據(jù)倉庫系統(tǒng)在模型上的差異性;源數(shù)據(jù)系統(tǒng)平臺不一致:數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)源可能包括基于不同平臺的數(shù)據(jù)庫的數(shù)據(jù);源數(shù)據(jù)結(jié)構(gòu)的不一致:有些數(shù)據(jù)源由于歷史的原因,導(dǎo)致同一個表在不同的時期數(shù)據(jù)結(jié)構(gòu)不一致;源數(shù)據(jù)定義不規(guī)范導(dǎo)致錯誤數(shù)據(jù);對數(shù)據(jù)的約束不嚴格,導(dǎo)致無意義數(shù)據(jù);存在重復(fù)記錄;由于平臺系統(tǒng)的不同,可能會存在大量的轉(zhuǎn)碼工作。轉(zhuǎn)換策略根據(jù)實際情況,數(shù)據(jù)轉(zhuǎn)換工作一般會在以下幾個環(huán)節(jié)中具體實現(xiàn):在抽
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度特定附屬工程承包協(xié)議范本
- 2024年勞務(wù)分包協(xié)議規(guī)定詳解
- 保健品2024年買賣協(xié)議式
- 2023-2024學(xué)年浙江省湖州、衢州、麗水高考預(yù)測密卷(1)(數(shù)學(xué)試題)試卷
- 2024年專業(yè)記賬代理協(xié)議規(guī)范
- 2024年度公司用車租賃協(xié)議條款綱要
- 2024年隔音室建造協(xié)議格式
- 2024年保健品供應(yīng)協(xié)議模板
- 2024室內(nèi)設(shè)計服務(wù)協(xié)議樣本
- 2024年輕鋼結(jié)構(gòu)建設(shè)協(xié)議模板
- 南仁東和中國天眼課件
- 彩票市場銷售計劃書
- 設(shè)備維保的現(xiàn)場維修與故障處理
- 2024《中央企業(yè)安全生產(chǎn)治本攻堅三年行動方案(2024-2026年)》
- 紀錄片《園林》解說詞
- 紀委監(jiān)督工作培訓(xùn)課件
- 蟲害分析分析報告
- 《民間文學(xué)導(dǎo)論》課件
- 《輸血查對制度》課件
- 湘少版五年級下冊英語全期教案
- 高速公路收費站常見特情處理辦法課件
評論
0/150
提交評論