數(shù)據(jù)倉庫的概念與體系結構課件_第1頁
數(shù)據(jù)倉庫的概念與體系結構課件_第2頁
數(shù)據(jù)倉庫的概念與體系結構課件_第3頁
數(shù)據(jù)倉庫的概念與體系結構課件_第4頁
數(shù)據(jù)倉庫的概念與體系結構課件_第5頁
已閱讀5頁,還剩101頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)倉庫的概念與體系結構數(shù)據(jù)倉庫的概念與體系結構數(shù)據(jù)倉庫的產(chǎn)生聯(lián)機事務處理系統(tǒng)(業(yè)務系統(tǒng))剛上線時,查詢不到數(shù)據(jù)是因為數(shù)據(jù)太少了,而幾十年后查詢不到有關數(shù)據(jù)是因為數(shù)據(jù)太多了。針對這一問題,人們設想專門為業(yè)務數(shù)據(jù)的統(tǒng)計分析建立一個數(shù)據(jù)中心,它的數(shù)據(jù)從聯(lián)機事務處理系統(tǒng)中來、從異構的外部數(shù)據(jù)源來、或從脫機的歷史業(yè)務數(shù)據(jù)中來這個數(shù)據(jù)中心也是一個聯(lián)機系統(tǒng),它專門為分析統(tǒng)計和決策支持應用服務,通過它可獲取決策支持和聯(lián)機分析應用所需要的一切數(shù)據(jù)。這個數(shù)據(jù)中心就叫做數(shù)據(jù)倉庫。簡單地說,數(shù)據(jù)倉庫就是一個作為決策支持和聯(lián)機分析應用系統(tǒng)數(shù)據(jù)源的結構化數(shù)據(jù)環(huán)境,數(shù)據(jù)倉庫要研究和解決的問題就是從數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)倉庫的產(chǎn)生聯(lián)機事務處理系統(tǒng)(業(yè)務系統(tǒng))剛上線時,查詢不到什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫(DataWarehouse,簡寫為DW或DWH)數(shù)據(jù)倉庫的定義很多,但卻很難有一種嚴格的定義數(shù)據(jù)倉庫是一個數(shù)據(jù)庫,它與公司的操作數(shù)據(jù)庫分開維護。允許將各種應用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,對信息處理提供支持數(shù)據(jù)倉庫區(qū)別于其他數(shù)據(jù)存儲系統(tǒng)“數(shù)據(jù)倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過程.”—W.H.Inmon什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫(DataWarehouse,簡寫數(shù)據(jù)倉庫的概念—教材上的定義數(shù)據(jù)倉庫是一個面向主題的(SubjectOriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,通常用于輔助決策支持(DDS)數(shù)據(jù)倉庫的概念—教材上的定義數(shù)據(jù)倉庫是一個面向主題的(Sub數(shù)據(jù)倉庫的發(fā)展以報表為主以分析為主以預測模型為主以營運導向為主以實時數(shù)據(jù)倉庫、自動決策應用為主數(shù)據(jù)倉庫的發(fā)展以報表為主數(shù)據(jù)倉庫的特點面向主題;數(shù)據(jù)集成;反映歷史變化;相對穩(wěn)定的。數(shù)據(jù)倉庫的特點面向主題;數(shù)據(jù)倉庫關鍵特征一——面向主題面向主題,是數(shù)據(jù)倉庫顯著區(qū)別于關系數(shù)據(jù)庫系統(tǒng)的一個特征圍繞一些主題,如顧客、供應商、產(chǎn)品等關注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機構的日常操作和事務處理。排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。數(shù)據(jù)倉庫關鍵特征一——面向主題面向主題,是數(shù)據(jù)倉庫顯著區(qū)別于數(shù)據(jù)倉庫關鍵特征二——數(shù)據(jù)集成一個數(shù)據(jù)倉庫是通過集成多個異種數(shù)據(jù)源來構造的。關系數(shù)據(jù)庫,一般文件,聯(lián)機事務處理記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術。確保命名約定、編碼結構、屬性度量等的一致性。當數(shù)據(jù)被移到數(shù)據(jù)倉庫時,它們要經(jīng)過轉化。數(shù)據(jù)倉庫關鍵特征二——數(shù)據(jù)集成一個數(shù)據(jù)倉庫是通過集成多個異種數(shù)據(jù)倉庫關鍵特征三——隨時間而變化數(shù)據(jù)倉庫是從歷史的角度提供信息數(shù)據(jù)倉庫的時間范圍比操作數(shù)據(jù)庫系統(tǒng)要長的多。操作數(shù)據(jù)庫系統(tǒng):主要保存當前數(shù)據(jù)。數(shù)據(jù)倉庫:從歷史的角度提供信息(比如過去5-10年)數(shù)據(jù)倉庫中的每一個關鍵結構都隱式或顯式地包含時間元素,而操作數(shù)據(jù)庫中的關鍵結構可能就不包括時間元素。數(shù)據(jù)倉庫關鍵特征三——隨時間而變化數(shù)據(jù)倉庫是從歷史的角度提供數(shù)據(jù)倉庫關鍵特征四——數(shù)據(jù)不易丟失盡管數(shù)據(jù)倉庫中的數(shù)據(jù)來自于操作數(shù)據(jù)庫,但他們卻是在物理上分離保存的。操作數(shù)據(jù)庫的更新操作不會出現(xiàn)在數(shù)據(jù)倉庫環(huán)境下不需要事務處理,恢復,和并發(fā)控制等機制只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始轉載和數(shù)據(jù)訪問(讀操作)數(shù)據(jù)倉庫關鍵特征四——數(shù)據(jù)不易丟失盡管數(shù)據(jù)倉庫中的數(shù)據(jù)來自于數(shù)據(jù)倉庫與異種數(shù)據(jù)庫集成比較傳統(tǒng)的異種數(shù)據(jù)庫集成:(查詢驅動)在多個異種數(shù)據(jù)庫上建立包裝程序(wrappers)和中介程序(mediators)查詢驅動方法——當從客戶端傳過來一個查詢時,首先使用元數(shù)據(jù)字典將查詢轉換成相應異種數(shù)據(jù)庫上的查詢;然后,將這些查詢映射和發(fā)送到局部查詢處理器數(shù)據(jù)倉庫:

(更新驅動)將來自多個異種源的信息預先集成,并存儲在數(shù)據(jù)倉庫中,供直接查詢和分析數(shù)據(jù)倉庫與異種數(shù)據(jù)庫集成比較傳統(tǒng)的異種數(shù)據(jù)庫集成:(查詢驅查詢驅動方法和更新驅動方法的比較查詢驅動的方法需要負責信息過濾和集成處理與局部數(shù)據(jù)源上的處理競爭資源對于頻繁的查詢,尤其是涉及聚集(匯總)操作的查詢,開銷很大(決策支持中常見的查詢形式)更新驅動的方法(帶來高性能)數(shù)據(jù)經(jīng)預處理后單獨存儲,對聚集操作提供良好支持不影響局部數(shù)據(jù)源上的處理集成歷史信息,支持負責的多維查詢查詢驅動方法和更新驅動方法的比較查詢驅動的方法數(shù)據(jù)倉庫的組成數(shù)據(jù)庫數(shù)據(jù)抽取工具元數(shù)據(jù)訪問工具數(shù)據(jù)集市數(shù)據(jù)倉庫管理工具信息發(fā)布系統(tǒng)數(shù)據(jù)倉庫的組成數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)倉庫系統(tǒng)中的數(shù)據(jù)庫是整個數(shù)據(jù)倉庫系統(tǒng)的核心,是數(shù)據(jù)信息存放的地方,對數(shù)據(jù)提供存取和檢索支持。相對于傳統(tǒng)數(shù)據(jù)庫來說,它突出的特點是對海量數(shù)據(jù)的支持和快速的檢索技術。數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)倉庫系統(tǒng)中的數(shù)據(jù)庫是整個數(shù)據(jù)倉庫系統(tǒng)的核心數(shù)據(jù)抽取工具數(shù)據(jù)抽取工具把數(shù)據(jù)從各種各樣的存儲環(huán)境中提取出來,進行必要的轉化、整理,再存放到數(shù)據(jù)倉庫中。對各種不同的數(shù)據(jù)存儲方式的訪問能力是數(shù)據(jù)抽取工具的關鍵,數(shù)據(jù)轉換通常包括:刪除對決策分析沒有意義的數(shù)據(jù)轉換成統(tǒng)一的數(shù)據(jù)名稱和定義計算統(tǒng)計和衍生數(shù)據(jù)填補缺失數(shù)據(jù)統(tǒng)一不同的數(shù)據(jù)定義方式數(shù)據(jù)抽取工具數(shù)據(jù)抽取工具把數(shù)據(jù)從各種各樣的存儲環(huán)境中提取出來元數(shù)據(jù)元數(shù)據(jù)是描述數(shù)據(jù)倉庫內數(shù)據(jù)的結構和建立方法的數(shù)據(jù)。元數(shù)據(jù)(Metadata)是描述數(shù)據(jù)的數(shù)據(jù)。在關系數(shù)據(jù)庫中,數(shù)據(jù)是存放在表中的,表結構的定義、關于結構的描述就是元數(shù)據(jù)。在數(shù)據(jù)倉庫中,元數(shù)據(jù)就是定義數(shù)據(jù)倉庫對象的數(shù)據(jù)。元數(shù)據(jù)分為:技術元數(shù)據(jù)業(yè)務元數(shù)據(jù)元數(shù)據(jù)元數(shù)據(jù)是描述數(shù)據(jù)倉庫內數(shù)據(jù)的結構和建立方法的數(shù)據(jù)。元數(shù)技術元數(shù)據(jù)技術元數(shù)據(jù)是系統(tǒng)的開發(fā)和管理人員使用的、描述數(shù)據(jù)的技術細節(jié)的元數(shù)據(jù)。主要包括:數(shù)據(jù)倉庫結構的描述倉庫模式、視圖、維、層次結構、導出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內容操作元數(shù)據(jù)包括數(shù)據(jù)血統(tǒng)(datalineage)、數(shù)據(jù)類別(currencyofdata),以及監(jiān)視信息匯總用的算法由操作環(huán)境到數(shù)據(jù)倉庫的映射關于系統(tǒng)性能的數(shù)據(jù)索引,數(shù)據(jù)刷新、更新或復制事件的調度和定時技術元數(shù)據(jù)技術元數(shù)據(jù)是系統(tǒng)的開發(fā)和管理人員使用的、描述數(shù)據(jù)的數(shù)據(jù)倉庫的組成業(yè)務元數(shù)據(jù)(商務元數(shù)據(jù))從業(yè)務角度描述了系統(tǒng)中的數(shù)據(jù),是介于使用者和真實系統(tǒng)之間的語義層,使得不懂計算機技術的業(yè)務人員也能夠“理解”系統(tǒng)中的數(shù)據(jù)。業(yè)務元數(shù)據(jù)主要包括:用戶的業(yè)務術語和它們表達的數(shù)據(jù)模型信息對象名稱及其屬性數(shù)據(jù)的來源信息和數(shù)據(jù)訪問的規(guī)則信息。商務術語和定義、數(shù)據(jù)擁有者信息、收費政策等數(shù)據(jù)倉庫的組成業(yè)務元數(shù)據(jù)(商務元數(shù)據(jù))元數(shù)據(jù)的作用元數(shù)據(jù)與數(shù)據(jù)一起,構成了數(shù)據(jù)倉庫中的數(shù)據(jù)模型,元數(shù)據(jù)所描述的更多的是這個模型的結構方面的信息。在數(shù)據(jù)倉庫中,元數(shù)據(jù)的主要用途包括:用作目錄,幫助決策支持系統(tǒng)分析者對數(shù)據(jù)倉庫的內容定義作為數(shù)據(jù)倉庫和操作性數(shù)據(jù)庫之間進行數(shù)據(jù)轉換時的映射標準幫助業(yè)務人員和技術人員更好地理解當前業(yè)務和系統(tǒng)數(shù)據(jù)提高系統(tǒng)的管理效率。便于系統(tǒng)集成和可重用元數(shù)據(jù)的作用元數(shù)據(jù)與數(shù)據(jù)一起,構成了數(shù)據(jù)倉庫中的數(shù)據(jù)模型,元訪問工具訪問工具訪問工具是為用戶訪問數(shù)據(jù)倉庫提供手段,如數(shù)據(jù)查詢和報表、應用開發(fā)工具、數(shù)據(jù)挖掘工具和數(shù)據(jù)分析工具。訪問工具訪問工具數(shù)據(jù)集市數(shù)據(jù)集市(DataMart),也叫數(shù)據(jù)市場。數(shù)據(jù)集市是企業(yè)級數(shù)據(jù)倉庫的一個子集,是為了特定的應用目的,從數(shù)據(jù)倉庫中獨立出來的一部分數(shù)據(jù),也稱為部門數(shù)據(jù)或主題數(shù)據(jù)。在分析、內容、表現(xiàn),以及易用性方面迎合專業(yè)用戶群體的特殊需求。在數(shù)據(jù)倉庫的實施過程中,通??梢詮囊粋€部分的數(shù)據(jù)集市著手,再逐漸用幾個數(shù)據(jù)集市組成一個完整的數(shù)據(jù)倉庫(自底向上)。數(shù)據(jù)集市數(shù)據(jù)集市(DataMart),也叫數(shù)據(jù)市場。數(shù)據(jù)倉庫的組成數(shù)據(jù)倉庫管理數(shù)據(jù)倉庫管理包括安全與權限管理、數(shù)據(jù)更新跟蹤、數(shù)據(jù)質量檢查、元數(shù)據(jù)的管理與更新、數(shù)據(jù)倉庫使用狀態(tài)的檢測與審計、數(shù)據(jù)復制與刪除、數(shù)據(jù)分割與分發(fā)、數(shù)據(jù)備份與恢復、數(shù)據(jù)存儲管理等。信息發(fā)布系統(tǒng)信息發(fā)布系統(tǒng)是把數(shù)據(jù)倉庫中的數(shù)據(jù)或其他相關的數(shù)據(jù)發(fā)送給不同的地點和用戶。基于Web的信息發(fā)布系統(tǒng)是當前流行的多用戶訪問的最有效方法。數(shù)據(jù)倉庫的組成數(shù)據(jù)倉庫管理數(shù)據(jù)倉庫的體系結構

數(shù)據(jù)倉庫的體系結構

典型的數(shù)據(jù)倉庫系統(tǒng)結構從系統(tǒng)構建方面來說,一個典型的數(shù)據(jù)倉庫系統(tǒng)通常劃分成四個模塊:數(shù)據(jù)源數(shù)據(jù)存儲和管理(數(shù)據(jù)倉庫服務器)OLAP服務器前端工具與應用典型的數(shù)據(jù)倉庫系統(tǒng)結構從系統(tǒng)構建方面來說,一個典型的數(shù)據(jù)倉庫數(shù)據(jù)倉庫架構數(shù)據(jù)倉庫提取清理轉換裝入刷新OLAP服務器查詢報告分析數(shù)據(jù)挖掘監(jiān)控、整合元數(shù)據(jù)存儲數(shù)據(jù)源前端工具輸出數(shù)據(jù)集市操作數(shù)據(jù)庫其他外部信息源數(shù)據(jù)存儲和管理OLAP服務器數(shù)據(jù)倉庫架構數(shù)據(jù)倉庫提取OLAP服務器查詢報告監(jiān)控、元數(shù)據(jù)數(shù)數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎,即系統(tǒng)的數(shù)據(jù)來源,通常包含企事業(yè)單位的各種內部信息和外部信息。內部信息,例如存于操作型數(shù)據(jù)庫中的各種業(yè)務數(shù)據(jù)和辦公自動化系統(tǒng)中包含的各類文檔數(shù)據(jù);外部數(shù)據(jù),例如各類法律法規(guī)、市場信息、競爭對手的信息以及各類外部統(tǒng)計數(shù)據(jù)及其它有關文檔等。數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎,即系統(tǒng)的數(shù)據(jù)來源,通常包含數(shù)據(jù)的存儲與管理數(shù)據(jù)的存儲與管理是整個數(shù)據(jù)倉庫系統(tǒng)的核心。存儲在現(xiàn)有各業(yè)務系統(tǒng)的基礎上,對數(shù)據(jù)進行抽取、清理、并有效集成,按照主題進行重新組織,最終確定數(shù)據(jù)倉庫的物理存儲結構,同時組織存儲數(shù)據(jù)倉庫的元數(shù)據(jù)(包括數(shù)據(jù)倉庫的數(shù)據(jù)字典、記錄系統(tǒng)定義、數(shù)據(jù)轉換規(guī)則、數(shù)據(jù)加載頻率以及業(yè)務規(guī)則等信息)。

管理對數(shù)據(jù)倉庫系統(tǒng)的管理也就是對其相應數(shù)據(jù)庫系統(tǒng)的管理,通常包括數(shù)據(jù)的安全、歸檔、備份、恢復等維護工作。數(shù)據(jù)的存儲與管理數(shù)據(jù)的存儲與管理是整個數(shù)據(jù)倉庫系統(tǒng)的核心。OLAP服務器OLAP(聯(lián)機分析處理)是針對某個特定的主題進行聯(lián)機數(shù)據(jù)訪問、處理、分析,通過直觀的方式,從多個維度、多種數(shù)據(jù)綜合度進行分析,并將結果呈現(xiàn)給使用者。OLAP讓使用者能夠從多角度對信息進行快速、一致、交互地存取。OLAP服務器OLAP(聯(lián)機分析處理)是針對某個特定的主題進前端工具與應用前端工具主要包括各種數(shù)據(jù)分析工具、報表工具、查詢工具、數(shù)據(jù)挖掘工具(例如關聯(lián)分析、分類、預測等)以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市開發(fā)的應用。其中:數(shù)據(jù)分析工具主要針對OLAP服務器報表工具、數(shù)據(jù)挖掘工具既可以用于數(shù)據(jù)倉庫,也可針對OLAP服務器前端工具與應用前端工具主要包括各種數(shù)據(jù)分析工具、報表工具、查OLTP和OLAP聯(lián)機事務處理OLTP(on-linetransactionprocessing)聯(lián)機分析處理OLAP(On-LineAnalyticalProcessing)。OLTP是傳統(tǒng)的關系型數(shù)據(jù)庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應用,支持復雜的分析操作,側重決策支持,并且提供直觀易懂的查詢結果.OLTP和OLAP聯(lián)機事務處理OLTP(on-linetr背景數(shù)據(jù)庫系統(tǒng)作為數(shù)據(jù)管理手段,主要用于事務處理。在進行事務處理的同時,積累了大量的數(shù)據(jù),傳統(tǒng)決策支持系統(tǒng)一般就建立在這種事務處理環(huán)境上。數(shù)據(jù)庫技術一直在盡量勝任事務處理、批處理到分析處理,雖然在事務處理應用方面取得了成功,但分析處理的支持隨著數(shù)據(jù)的增長越來越無法勝任。結果就是將事務處理系統(tǒng)和分析處理系統(tǒng)分離,建立兩個獨立的系統(tǒng)。背景數(shù)據(jù)庫系統(tǒng)作為數(shù)據(jù)管理手段,主要用于事務處理。在進行事務OLTP與OLAP比較OLTP與OLAP比較OLTPOLTP也稱為面向交易的處理系統(tǒng),其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計算中心進行處理,并在很短的時間內給出處理結果。這樣做的最大優(yōu)點是可以即時隨地處理輸入的數(shù)據(jù),及時回答。也稱為實時系統(tǒng)(RealtimeSystem)。衡量聯(lián)機事務處理系統(tǒng)的一個重要性能指標是系統(tǒng)性能,具體體現(xiàn)為實時響應時間(ResponseTime)

特點OLTP支持大量并發(fā)用戶定期添加和修改數(shù)據(jù)反映隨時變化的單位狀態(tài),但不保存其歷史記錄具有復雜的結構。OLTPOLTP也稱為面向交易的處理系統(tǒng),其基本特征是顧客OLTP系統(tǒng)VS.OLAP系統(tǒng)比較(1)用戶和系統(tǒng)的面向性面向顧客(事務)VS.面向市場(分析)數(shù)據(jù)內容當前的、詳細的數(shù)據(jù)VS.歷史的、匯總的數(shù)據(jù)數(shù)據(jù)庫設計實體-聯(lián)系模型(ER)和面向應用的數(shù)據(jù)庫設計VS.星型/雪花模型和面向主題的數(shù)據(jù)庫設計OLTP系統(tǒng)VS.OLAP系統(tǒng)比較(1)用戶和系統(tǒng)的面OLTP系統(tǒng)VS.OLAP系統(tǒng)比較(2)數(shù)據(jù)視圖當前的、企業(yè)內部的數(shù)據(jù)VS.經(jīng)過演化的、集成的數(shù)據(jù)訪問模式事務操作VS.只讀查詢(但很多是復雜的查詢)任務單位簡短的事務VS.復雜的查詢訪問數(shù)據(jù)量數(shù)十個VS.數(shù)百萬個OLTP系統(tǒng)VS.OLAP系統(tǒng)比較(2)數(shù)據(jù)視圖OLTP系統(tǒng)VS.OLAP系統(tǒng)比較(3)用戶數(shù)數(shù)千個VS.數(shù)百個數(shù)據(jù)庫規(guī)模100M-數(shù)GBVS.100GB-數(shù)TB度量事務吞吐量VS.查詢吞吐量、響應時間OLTP系統(tǒng)VS.OLAP系統(tǒng)比較(3)用戶數(shù)OLAP與數(shù)據(jù)倉庫的區(qū)別OLAP是大多數(shù)數(shù)據(jù)倉庫系統(tǒng)用來呈現(xiàn)數(shù)據(jù)分析結果的方法之一。數(shù)據(jù)倉庫最重要的特性是數(shù)據(jù)集成,目的是有效信息數(shù)據(jù)的呈現(xiàn)。OLAP服務卻不是數(shù)據(jù)集成而設計,但它是一種強大的數(shù)據(jù)呈現(xiàn)方法。典型的OLAP服務常常源自一個或多個專門設計的數(shù)據(jù)集市。OLAP服務應該被看作數(shù)據(jù)倉庫解決方案的一部分。OLAP與數(shù)據(jù)倉庫的區(qū)別OLAP是大多數(shù)數(shù)據(jù)倉庫系統(tǒng)用來呈現(xiàn)OLAP分類OLAP根據(jù)其存儲數(shù)據(jù)的方式分為:ROLAP、MOLAP、HOLAP三類。

ROLAP(關系OLAP)結構:使用關系或擴充關系DBMS存儲并管理數(shù)據(jù)倉庫,OLAP中間件支持其余部分。在接收用戶的請求時,ROLAP服務器將多維查詢轉換成SQL查詢,由數(shù)據(jù)倉庫服務器對以關系形式存放的數(shù)據(jù)執(zhí)行SQL查詢,最終將數(shù)據(jù)返回給終端用戶。MOLAP(多維OLAP)結構:核心是其數(shù)據(jù)存儲采用矩陣(可能是多維方陣)方式,數(shù)據(jù)檢索高效HOLAP(混合OLAP)結構:結合ROLAP和MOLAP技術,在MOLAP立方體中存儲高級別的聚集,在ROLAP中存儲低級別的聚集。OLAP分類OLAP根據(jù)其存儲數(shù)據(jù)的方式分為:ROLAP、數(shù)據(jù)倉庫系統(tǒng)的體系結構數(shù)據(jù)倉庫系統(tǒng)的體系結構根據(jù)應用需求的不同,可以分為四種類型:(1)兩層架構(GenericTwo-LevelArchitecture)。(2)獨立型數(shù)據(jù)集市(IndependentDataMart)。(3)依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(DependentDataMartandOperationalDataStore)。(4)邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉庫(LogicalDataMartandReal-TimeDataWarehouse)。數(shù)據(jù)倉庫系統(tǒng)的體系結構數(shù)據(jù)倉庫系統(tǒng)的體系結構根據(jù)應用需求的不參考書:三種數(shù)據(jù)倉庫模型從體系結構的角度去看,數(shù)據(jù)倉庫模型可以有以下三種:企業(yè)倉庫搜集關于跨越整個組織的主題的所有信息數(shù)據(jù)集市企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的客戶是有用的。其范圍限于選定的主題,比如一個商場的數(shù)據(jù)集市獨立的數(shù)據(jù)集市VS.非獨立的數(shù)據(jù)集市(數(shù)據(jù)來自于企業(yè)數(shù)據(jù)倉庫)虛擬倉庫操作數(shù)據(jù)庫上的一系列視圖只有一些可能的匯總視圖被物化參考書:三種數(shù)據(jù)倉庫模型從體系結構的角度去看,數(shù)據(jù)倉庫模型可獨立的數(shù)據(jù)倉庫系統(tǒng)

(企業(yè)數(shù)據(jù)倉庫)獨立的數(shù)據(jù)倉庫系統(tǒng)

(企業(yè)數(shù)據(jù)倉庫)構造步驟數(shù)據(jù)從各種內部、外部的源系統(tǒng)文件或數(shù)據(jù)庫中抽取,在一個大的組織中可能有幾十或幾百個這樣的文件和數(shù)據(jù)庫系統(tǒng)。不同源系統(tǒng)中的數(shù)據(jù)在加載到數(shù)據(jù)倉庫之前需要轉換和集成,當數(shù)據(jù)分段傳輸發(fā)現(xiàn)錯誤時,還要送回源系統(tǒng)進行校驗糾錯。建立數(shù)據(jù)倉庫。數(shù)據(jù)倉庫中將存儲來自源系統(tǒng)的詳細數(shù)據(jù)和各種綜程度(粒度)的概括數(shù)據(jù)。用戶通過SQL查詢語言或其他分析工具訪問數(shù)據(jù)倉庫,其結果又會反饋到數(shù)據(jù)倉庫和操作型數(shù)據(jù)庫。構造步驟數(shù)據(jù)從各種內部、外部的源系統(tǒng)文件或數(shù)據(jù)庫中抽取,在一ETL簡介數(shù)據(jù)從源系統(tǒng)加載到數(shù)據(jù)庫倉庫之前,需要進行抽取E(Extract)、清洗C(cleaning)、轉換T(transform),最后加載L(load),這就是ETL過程。抽取和加載通常是定期的,每天、每周、或者每月,根據(jù)數(shù)據(jù)倉庫面向的主題而定。ETL過程是一個數(shù)據(jù)流動的過程,中間的“T”(轉換)是關鍵ETL簡介數(shù)據(jù)從源系統(tǒng)加載到數(shù)據(jù)庫倉庫之前,需要進行抽取E(基于獨立數(shù)據(jù)集市的數(shù)據(jù)倉庫系統(tǒng)特點:終端用戶訪問分離的數(shù)據(jù)集市增加了復雜性每一個數(shù)據(jù)集市開發(fā)一個獨立的ETL接口,增加了難度和開銷基于獨立數(shù)據(jù)集市的數(shù)據(jù)倉庫系統(tǒng)特點:終端用戶訪問分離的數(shù)據(jù)集基于依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(ODS)的數(shù)據(jù)倉庫基于依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(ODS)的數(shù)據(jù)倉庫邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉庫系統(tǒng)邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉庫系統(tǒng)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)倉庫的應用數(shù)據(jù)倉庫的三種應用信息處理支持查詢和基本的統(tǒng)計分析,并使用交叉表、表、圖標和圖進行報表處理分析處理對數(shù)據(jù)倉庫中的數(shù)據(jù)進行多維數(shù)據(jù)分析支持基本的OLAP操作,切塊、切片、上卷、下鉆、轉軸等數(shù)據(jù)挖掘從隱藏模式中發(fā)現(xiàn)知識支持關聯(lián)分析,構建分析性模型,分類和預測,并用可視化工具呈現(xiàn)挖掘的結果數(shù)據(jù)倉庫的應用數(shù)據(jù)倉庫的三種應用從聯(lián)機分析處理到聯(lián)機分析挖掘為什么要聯(lián)機分析挖掘數(shù)據(jù)倉庫中有高質量的數(shù)據(jù)數(shù)據(jù)倉庫中存放著整合的、一致的、清理過的數(shù)據(jù)圍繞數(shù)據(jù)倉庫的信息處理結構存取、集成、合并多個異種數(shù)據(jù)庫的轉換,ODBC/OLEDB連接,Web訪問和訪問工具等基于OLAP的探測式數(shù)據(jù)分析使用上卷、下鉆、切片、轉軸等技術進行數(shù)據(jù)挖掘數(shù)據(jù)挖掘功能的聯(lián)機選擇多種數(shù)據(jù)挖掘功能、算法和任務的整合從聯(lián)機分析處理到聯(lián)機分析挖掘為什么要聯(lián)機分析挖掘聯(lián)機分析挖掘的體系結構數(shù)據(jù)倉庫元數(shù)據(jù)多維數(shù)據(jù)庫OLAM引擎OLAP引擎用戶圖形界面API數(shù)據(jù)方體API數(shù)據(jù)庫API數(shù)據(jù)清理數(shù)據(jù)集成第三層OLAP/OLAM第二層多維數(shù)據(jù)庫第一層數(shù)據(jù)存儲第四層用戶界面數(shù)據(jù)的過濾、集成過濾數(shù)據(jù)庫基于約束的數(shù)據(jù)挖掘挖掘結果聯(lián)機分析挖掘的體系結構數(shù)據(jù)倉庫元數(shù)據(jù)多維數(shù)據(jù)庫OLAMOLA數(shù)據(jù)倉庫的設計過程(1)自頂向下法、自底向上法或者兩者的混合方法自頂向下法:由總體設計和規(guī)劃開始在技術成熟、商業(yè)理解透徹的情況下使用自底向上法:以實驗和原型開始常用在模型和技術開發(fā)的初期,可以有效的對使用的技術和模型進行評估,降低風險混合方法:上述兩者的結合從軟件過程的觀點瀑布式方法:在進行下一步前,每一步都進行結構化和系統(tǒng)的分析螺旋式方法:功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間間隔很短數(shù)據(jù)倉庫的設計過程(1)自頂向下法、自底向上法或者兩者的混數(shù)據(jù)倉庫的設計過程(2)典型的數(shù)據(jù)倉庫設計過程選取待建模的商務過程找到所構建的數(shù)據(jù)倉庫的主題,比如:銷售、貨運、訂單等等選取商務過程的顆粒度數(shù)據(jù)起始于多細的顆粒度,比如:記錄每條詳細訂單,或是開始于每日的匯總數(shù)據(jù)選取用于每個事實表記錄的維常用的維有:時間、貨物、客戶、供應商等選取將安放在事實表中的度量常用的數(shù)字度量包括:售價、貨物數(shù)量等數(shù)據(jù)倉庫的設計過程(2)典型的數(shù)據(jù)倉庫設計過程數(shù)據(jù)倉庫開發(fā):困難與方法數(shù)據(jù)倉庫開發(fā)上的困難自頂向下的開發(fā)方法從全系統(tǒng)的角度提供解決方案,使得(模塊)集成的問題最?。坏窃摲椒ㄊ职嘿F,需要對組織進行長期研究和建模分析。自底向上方法提供了更多的開發(fā)靈活性,價格便宜;但往往會遇到集成問題(每個模塊單獨運行都沒有問題,但是一集成就出異常)解決方法:使用遞增性、演化性的開發(fā)方法高層數(shù)據(jù)模型企業(yè)倉庫和數(shù)據(jù)集市并行開發(fā)通過分布式模型集成各數(shù)據(jù)集市多層數(shù)據(jù)倉庫數(shù)據(jù)倉庫開發(fā):困難與方法數(shù)據(jù)倉庫開發(fā)上的困難數(shù)據(jù)倉庫的概念與體系結構數(shù)據(jù)倉庫的概念與體系結構數(shù)據(jù)倉庫的產(chǎn)生聯(lián)機事務處理系統(tǒng)(業(yè)務系統(tǒng))剛上線時,查詢不到數(shù)據(jù)是因為數(shù)據(jù)太少了,而幾十年后查詢不到有關數(shù)據(jù)是因為數(shù)據(jù)太多了。針對這一問題,人們設想專門為業(yè)務數(shù)據(jù)的統(tǒng)計分析建立一個數(shù)據(jù)中心,它的數(shù)據(jù)從聯(lián)機事務處理系統(tǒng)中來、從異構的外部數(shù)據(jù)源來、或從脫機的歷史業(yè)務數(shù)據(jù)中來這個數(shù)據(jù)中心也是一個聯(lián)機系統(tǒng),它專門為分析統(tǒng)計和決策支持應用服務,通過它可獲取決策支持和聯(lián)機分析應用所需要的一切數(shù)據(jù)。這個數(shù)據(jù)中心就叫做數(shù)據(jù)倉庫。簡單地說,數(shù)據(jù)倉庫就是一個作為決策支持和聯(lián)機分析應用系統(tǒng)數(shù)據(jù)源的結構化數(shù)據(jù)環(huán)境,數(shù)據(jù)倉庫要研究和解決的問題就是從數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)倉庫的產(chǎn)生聯(lián)機事務處理系統(tǒng)(業(yè)務系統(tǒng))剛上線時,查詢不到什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫(DataWarehouse,簡寫為DW或DWH)數(shù)據(jù)倉庫的定義很多,但卻很難有一種嚴格的定義數(shù)據(jù)倉庫是一個數(shù)據(jù)庫,它與公司的操作數(shù)據(jù)庫分開維護。允許將各種應用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,對信息處理提供支持數(shù)據(jù)倉庫區(qū)別于其他數(shù)據(jù)存儲系統(tǒng)“數(shù)據(jù)倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過程.”—W.H.Inmon什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫(DataWarehouse,簡寫數(shù)據(jù)倉庫的概念—教材上的定義數(shù)據(jù)倉庫是一個面向主題的(SubjectOriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,通常用于輔助決策支持(DDS)數(shù)據(jù)倉庫的概念—教材上的定義數(shù)據(jù)倉庫是一個面向主題的(Sub數(shù)據(jù)倉庫的發(fā)展以報表為主以分析為主以預測模型為主以營運導向為主以實時數(shù)據(jù)倉庫、自動決策應用為主數(shù)據(jù)倉庫的發(fā)展以報表為主數(shù)據(jù)倉庫的特點面向主題;數(shù)據(jù)集成;反映歷史變化;相對穩(wěn)定的。數(shù)據(jù)倉庫的特點面向主題;數(shù)據(jù)倉庫關鍵特征一——面向主題面向主題,是數(shù)據(jù)倉庫顯著區(qū)別于關系數(shù)據(jù)庫系統(tǒng)的一個特征圍繞一些主題,如顧客、供應商、產(chǎn)品等關注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機構的日常操作和事務處理。排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。數(shù)據(jù)倉庫關鍵特征一——面向主題面向主題,是數(shù)據(jù)倉庫顯著區(qū)別于數(shù)據(jù)倉庫關鍵特征二——數(shù)據(jù)集成一個數(shù)據(jù)倉庫是通過集成多個異種數(shù)據(jù)源來構造的。關系數(shù)據(jù)庫,一般文件,聯(lián)機事務處理記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術。確保命名約定、編碼結構、屬性度量等的一致性。當數(shù)據(jù)被移到數(shù)據(jù)倉庫時,它們要經(jīng)過轉化。數(shù)據(jù)倉庫關鍵特征二——數(shù)據(jù)集成一個數(shù)據(jù)倉庫是通過集成多個異種數(shù)據(jù)倉庫關鍵特征三——隨時間而變化數(shù)據(jù)倉庫是從歷史的角度提供信息數(shù)據(jù)倉庫的時間范圍比操作數(shù)據(jù)庫系統(tǒng)要長的多。操作數(shù)據(jù)庫系統(tǒng):主要保存當前數(shù)據(jù)。數(shù)據(jù)倉庫:從歷史的角度提供信息(比如過去5-10年)數(shù)據(jù)倉庫中的每一個關鍵結構都隱式或顯式地包含時間元素,而操作數(shù)據(jù)庫中的關鍵結構可能就不包括時間元素。數(shù)據(jù)倉庫關鍵特征三——隨時間而變化數(shù)據(jù)倉庫是從歷史的角度提供數(shù)據(jù)倉庫關鍵特征四——數(shù)據(jù)不易丟失盡管數(shù)據(jù)倉庫中的數(shù)據(jù)來自于操作數(shù)據(jù)庫,但他們卻是在物理上分離保存的。操作數(shù)據(jù)庫的更新操作不會出現(xiàn)在數(shù)據(jù)倉庫環(huán)境下不需要事務處理,恢復,和并發(fā)控制等機制只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始轉載和數(shù)據(jù)訪問(讀操作)數(shù)據(jù)倉庫關鍵特征四——數(shù)據(jù)不易丟失盡管數(shù)據(jù)倉庫中的數(shù)據(jù)來自于數(shù)據(jù)倉庫與異種數(shù)據(jù)庫集成比較傳統(tǒng)的異種數(shù)據(jù)庫集成:(查詢驅動)在多個異種數(shù)據(jù)庫上建立包裝程序(wrappers)和中介程序(mediators)查詢驅動方法——當從客戶端傳過來一個查詢時,首先使用元數(shù)據(jù)字典將查詢轉換成相應異種數(shù)據(jù)庫上的查詢;然后,將這些查詢映射和發(fā)送到局部查詢處理器數(shù)據(jù)倉庫:

(更新驅動)將來自多個異種源的信息預先集成,并存儲在數(shù)據(jù)倉庫中,供直接查詢和分析數(shù)據(jù)倉庫與異種數(shù)據(jù)庫集成比較傳統(tǒng)的異種數(shù)據(jù)庫集成:(查詢驅查詢驅動方法和更新驅動方法的比較查詢驅動的方法需要負責信息過濾和集成處理與局部數(shù)據(jù)源上的處理競爭資源對于頻繁的查詢,尤其是涉及聚集(匯總)操作的查詢,開銷很大(決策支持中常見的查詢形式)更新驅動的方法(帶來高性能)數(shù)據(jù)經(jīng)預處理后單獨存儲,對聚集操作提供良好支持不影響局部數(shù)據(jù)源上的處理集成歷史信息,支持負責的多維查詢查詢驅動方法和更新驅動方法的比較查詢驅動的方法數(shù)據(jù)倉庫的組成數(shù)據(jù)庫數(shù)據(jù)抽取工具元數(shù)據(jù)訪問工具數(shù)據(jù)集市數(shù)據(jù)倉庫管理工具信息發(fā)布系統(tǒng)數(shù)據(jù)倉庫的組成數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)倉庫系統(tǒng)中的數(shù)據(jù)庫是整個數(shù)據(jù)倉庫系統(tǒng)的核心,是數(shù)據(jù)信息存放的地方,對數(shù)據(jù)提供存取和檢索支持。相對于傳統(tǒng)數(shù)據(jù)庫來說,它突出的特點是對海量數(shù)據(jù)的支持和快速的檢索技術。數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)倉庫系統(tǒng)中的數(shù)據(jù)庫是整個數(shù)據(jù)倉庫系統(tǒng)的核心數(shù)據(jù)抽取工具數(shù)據(jù)抽取工具把數(shù)據(jù)從各種各樣的存儲環(huán)境中提取出來,進行必要的轉化、整理,再存放到數(shù)據(jù)倉庫中。對各種不同的數(shù)據(jù)存儲方式的訪問能力是數(shù)據(jù)抽取工具的關鍵,數(shù)據(jù)轉換通常包括:刪除對決策分析沒有意義的數(shù)據(jù)轉換成統(tǒng)一的數(shù)據(jù)名稱和定義計算統(tǒng)計和衍生數(shù)據(jù)填補缺失數(shù)據(jù)統(tǒng)一不同的數(shù)據(jù)定義方式數(shù)據(jù)抽取工具數(shù)據(jù)抽取工具把數(shù)據(jù)從各種各樣的存儲環(huán)境中提取出來元數(shù)據(jù)元數(shù)據(jù)是描述數(shù)據(jù)倉庫內數(shù)據(jù)的結構和建立方法的數(shù)據(jù)。元數(shù)據(jù)(Metadata)是描述數(shù)據(jù)的數(shù)據(jù)。在關系數(shù)據(jù)庫中,數(shù)據(jù)是存放在表中的,表結構的定義、關于結構的描述就是元數(shù)據(jù)。在數(shù)據(jù)倉庫中,元數(shù)據(jù)就是定義數(shù)據(jù)倉庫對象的數(shù)據(jù)。元數(shù)據(jù)分為:技術元數(shù)據(jù)業(yè)務元數(shù)據(jù)元數(shù)據(jù)元數(shù)據(jù)是描述數(shù)據(jù)倉庫內數(shù)據(jù)的結構和建立方法的數(shù)據(jù)。元數(shù)技術元數(shù)據(jù)技術元數(shù)據(jù)是系統(tǒng)的開發(fā)和管理人員使用的、描述數(shù)據(jù)的技術細節(jié)的元數(shù)據(jù)。主要包括:數(shù)據(jù)倉庫結構的描述倉庫模式、視圖、維、層次結構、導出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內容操作元數(shù)據(jù)包括數(shù)據(jù)血統(tǒng)(datalineage)、數(shù)據(jù)類別(currencyofdata),以及監(jiān)視信息匯總用的算法由操作環(huán)境到數(shù)據(jù)倉庫的映射關于系統(tǒng)性能的數(shù)據(jù)索引,數(shù)據(jù)刷新、更新或復制事件的調度和定時技術元數(shù)據(jù)技術元數(shù)據(jù)是系統(tǒng)的開發(fā)和管理人員使用的、描述數(shù)據(jù)的數(shù)據(jù)倉庫的組成業(yè)務元數(shù)據(jù)(商務元數(shù)據(jù))從業(yè)務角度描述了系統(tǒng)中的數(shù)據(jù),是介于使用者和真實系統(tǒng)之間的語義層,使得不懂計算機技術的業(yè)務人員也能夠“理解”系統(tǒng)中的數(shù)據(jù)。業(yè)務元數(shù)據(jù)主要包括:用戶的業(yè)務術語和它們表達的數(shù)據(jù)模型信息對象名稱及其屬性數(shù)據(jù)的來源信息和數(shù)據(jù)訪問的規(guī)則信息。商務術語和定義、數(shù)據(jù)擁有者信息、收費政策等數(shù)據(jù)倉庫的組成業(yè)務元數(shù)據(jù)(商務元數(shù)據(jù))元數(shù)據(jù)的作用元數(shù)據(jù)與數(shù)據(jù)一起,構成了數(shù)據(jù)倉庫中的數(shù)據(jù)模型,元數(shù)據(jù)所描述的更多的是這個模型的結構方面的信息。在數(shù)據(jù)倉庫中,元數(shù)據(jù)的主要用途包括:用作目錄,幫助決策支持系統(tǒng)分析者對數(shù)據(jù)倉庫的內容定義作為數(shù)據(jù)倉庫和操作性數(shù)據(jù)庫之間進行數(shù)據(jù)轉換時的映射標準幫助業(yè)務人員和技術人員更好地理解當前業(yè)務和系統(tǒng)數(shù)據(jù)提高系統(tǒng)的管理效率。便于系統(tǒng)集成和可重用元數(shù)據(jù)的作用元數(shù)據(jù)與數(shù)據(jù)一起,構成了數(shù)據(jù)倉庫中的數(shù)據(jù)模型,元訪問工具訪問工具訪問工具是為用戶訪問數(shù)據(jù)倉庫提供手段,如數(shù)據(jù)查詢和報表、應用開發(fā)工具、數(shù)據(jù)挖掘工具和數(shù)據(jù)分析工具。訪問工具訪問工具數(shù)據(jù)集市數(shù)據(jù)集市(DataMart),也叫數(shù)據(jù)市場。數(shù)據(jù)集市是企業(yè)級數(shù)據(jù)倉庫的一個子集,是為了特定的應用目的,從數(shù)據(jù)倉庫中獨立出來的一部分數(shù)據(jù),也稱為部門數(shù)據(jù)或主題數(shù)據(jù)。在分析、內容、表現(xiàn),以及易用性方面迎合專業(yè)用戶群體的特殊需求。在數(shù)據(jù)倉庫的實施過程中,通??梢詮囊粋€部分的數(shù)據(jù)集市著手,再逐漸用幾個數(shù)據(jù)集市組成一個完整的數(shù)據(jù)倉庫(自底向上)。數(shù)據(jù)集市數(shù)據(jù)集市(DataMart),也叫數(shù)據(jù)市場。數(shù)據(jù)倉庫的組成數(shù)據(jù)倉庫管理數(shù)據(jù)倉庫管理包括安全與權限管理、數(shù)據(jù)更新跟蹤、數(shù)據(jù)質量檢查、元數(shù)據(jù)的管理與更新、數(shù)據(jù)倉庫使用狀態(tài)的檢測與審計、數(shù)據(jù)復制與刪除、數(shù)據(jù)分割與分發(fā)、數(shù)據(jù)備份與恢復、數(shù)據(jù)存儲管理等。信息發(fā)布系統(tǒng)信息發(fā)布系統(tǒng)是把數(shù)據(jù)倉庫中的數(shù)據(jù)或其他相關的數(shù)據(jù)發(fā)送給不同的地點和用戶?;赪eb的信息發(fā)布系統(tǒng)是當前流行的多用戶訪問的最有效方法。數(shù)據(jù)倉庫的組成數(shù)據(jù)倉庫管理數(shù)據(jù)倉庫的體系結構

數(shù)據(jù)倉庫的體系結構

典型的數(shù)據(jù)倉庫系統(tǒng)結構從系統(tǒng)構建方面來說,一個典型的數(shù)據(jù)倉庫系統(tǒng)通常劃分成四個模塊:數(shù)據(jù)源數(shù)據(jù)存儲和管理(數(shù)據(jù)倉庫服務器)OLAP服務器前端工具與應用典型的數(shù)據(jù)倉庫系統(tǒng)結構從系統(tǒng)構建方面來說,一個典型的數(shù)據(jù)倉庫數(shù)據(jù)倉庫架構數(shù)據(jù)倉庫提取清理轉換裝入刷新OLAP服務器查詢報告分析數(shù)據(jù)挖掘監(jiān)控、整合元數(shù)據(jù)存儲數(shù)據(jù)源前端工具輸出數(shù)據(jù)集市操作數(shù)據(jù)庫其他外部信息源數(shù)據(jù)存儲和管理OLAP服務器數(shù)據(jù)倉庫架構數(shù)據(jù)倉庫提取OLAP服務器查詢報告監(jiān)控、元數(shù)據(jù)數(shù)數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎,即系統(tǒng)的數(shù)據(jù)來源,通常包含企事業(yè)單位的各種內部信息和外部信息。內部信息,例如存于操作型數(shù)據(jù)庫中的各種業(yè)務數(shù)據(jù)和辦公自動化系統(tǒng)中包含的各類文檔數(shù)據(jù);外部數(shù)據(jù),例如各類法律法規(guī)、市場信息、競爭對手的信息以及各類外部統(tǒng)計數(shù)據(jù)及其它有關文檔等。數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎,即系統(tǒng)的數(shù)據(jù)來源,通常包含數(shù)據(jù)的存儲與管理數(shù)據(jù)的存儲與管理是整個數(shù)據(jù)倉庫系統(tǒng)的核心。存儲在現(xiàn)有各業(yè)務系統(tǒng)的基礎上,對數(shù)據(jù)進行抽取、清理、并有效集成,按照主題進行重新組織,最終確定數(shù)據(jù)倉庫的物理存儲結構,同時組織存儲數(shù)據(jù)倉庫的元數(shù)據(jù)(包括數(shù)據(jù)倉庫的數(shù)據(jù)字典、記錄系統(tǒng)定義、數(shù)據(jù)轉換規(guī)則、數(shù)據(jù)加載頻率以及業(yè)務規(guī)則等信息)。

管理對數(shù)據(jù)倉庫系統(tǒng)的管理也就是對其相應數(shù)據(jù)庫系統(tǒng)的管理,通常包括數(shù)據(jù)的安全、歸檔、備份、恢復等維護工作。數(shù)據(jù)的存儲與管理數(shù)據(jù)的存儲與管理是整個數(shù)據(jù)倉庫系統(tǒng)的核心。OLAP服務器OLAP(聯(lián)機分析處理)是針對某個特定的主題進行聯(lián)機數(shù)據(jù)訪問、處理、分析,通過直觀的方式,從多個維度、多種數(shù)據(jù)綜合度進行分析,并將結果呈現(xiàn)給使用者。OLAP讓使用者能夠從多角度對信息進行快速、一致、交互地存取。OLAP服務器OLAP(聯(lián)機分析處理)是針對某個特定的主題進前端工具與應用前端工具主要包括各種數(shù)據(jù)分析工具、報表工具、查詢工具、數(shù)據(jù)挖掘工具(例如關聯(lián)分析、分類、預測等)以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市開發(fā)的應用。其中:數(shù)據(jù)分析工具主要針對OLAP服務器報表工具、數(shù)據(jù)挖掘工具既可以用于數(shù)據(jù)倉庫,也可針對OLAP服務器前端工具與應用前端工具主要包括各種數(shù)據(jù)分析工具、報表工具、查OLTP和OLAP聯(lián)機事務處理OLTP(on-linetransactionprocessing)聯(lián)機分析處理OLAP(On-LineAnalyticalProcessing)。OLTP是傳統(tǒng)的關系型數(shù)據(jù)庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應用,支持復雜的分析操作,側重決策支持,并且提供直觀易懂的查詢結果.OLTP和OLAP聯(lián)機事務處理OLTP(on-linetr背景數(shù)據(jù)庫系統(tǒng)作為數(shù)據(jù)管理手段,主要用于事務處理。在進行事務處理的同時,積累了大量的數(shù)據(jù),傳統(tǒng)決策支持系統(tǒng)一般就建立在這種事務處理環(huán)境上。數(shù)據(jù)庫技術一直在盡量勝任事務處理、批處理到分析處理,雖然在事務處理應用方面取得了成功,但分析處理的支持隨著數(shù)據(jù)的增長越來越無法勝任。結果就是將事務處理系統(tǒng)和分析處理系統(tǒng)分離,建立兩個獨立的系統(tǒng)。背景數(shù)據(jù)庫系統(tǒng)作為數(shù)據(jù)管理手段,主要用于事務處理。在進行事務OLTP與OLAP比較OLTP與OLAP比較OLTPOLTP也稱為面向交易的處理系統(tǒng),其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計算中心進行處理,并在很短的時間內給出處理結果。這樣做的最大優(yōu)點是可以即時隨地處理輸入的數(shù)據(jù),及時回答。也稱為實時系統(tǒng)(RealtimeSystem)。衡量聯(lián)機事務處理系統(tǒng)的一個重要性能指標是系統(tǒng)性能,具體體現(xiàn)為實時響應時間(ResponseTime)

特點OLTP支持大量并發(fā)用戶定期添加和修改數(shù)據(jù)反映隨時變化的單位狀態(tài),但不保存其歷史記錄具有復雜的結構。OLTPOLTP也稱為面向交易的處理系統(tǒng),其基本特征是顧客OLTP系統(tǒng)VS.OLAP系統(tǒng)比較(1)用戶和系統(tǒng)的面向性面向顧客(事務)VS.面向市場(分析)數(shù)據(jù)內容當前的、詳細的數(shù)據(jù)VS.歷史的、匯總的數(shù)據(jù)數(shù)據(jù)庫設計實體-聯(lián)系模型(ER)和面向應用的數(shù)據(jù)庫設計VS.星型/雪花模型和面向主題的數(shù)據(jù)庫設計OLTP系統(tǒng)VS.OLAP系統(tǒng)比較(1)用戶和系統(tǒng)的面OLTP系統(tǒng)VS.OLAP系統(tǒng)比較(2)數(shù)據(jù)視圖當前的、企業(yè)內部的數(shù)據(jù)VS.經(jīng)過演化的、集成的數(shù)據(jù)訪問模式事務操作VS.只讀查詢(但很多是復雜的查詢)任務單位簡短的事務VS.復雜的查詢訪問數(shù)據(jù)量數(shù)十個VS.數(shù)百萬個OLTP系統(tǒng)VS.OLAP系統(tǒng)比較(2)數(shù)據(jù)視圖OLTP系統(tǒng)VS.OLAP系統(tǒng)比較(3)用戶數(shù)數(shù)千個VS.數(shù)百個數(shù)據(jù)庫規(guī)模100M-數(shù)GBVS.100GB-數(shù)TB度量事務吞吐量VS.查詢吞吐量、響應時間OLTP系統(tǒng)VS.OLAP系統(tǒng)比較(3)用戶數(shù)OLAP與數(shù)據(jù)倉庫的區(qū)別OLAP是大多數(shù)數(shù)據(jù)倉庫系統(tǒng)用來呈現(xiàn)數(shù)據(jù)分析結果的方法之一。數(shù)據(jù)倉庫最重要的特性是數(shù)據(jù)集成,目的是有效信息數(shù)據(jù)的呈現(xiàn)。OLAP服務卻不是數(shù)據(jù)集成而設計,但它是一種強大的數(shù)據(jù)呈現(xiàn)方法。典型的OLAP服務常常源自一個或多個專門設計的數(shù)據(jù)集市。OLAP服務應該被看作數(shù)據(jù)倉庫解決方案的一部分。OLAP與數(shù)據(jù)倉庫的區(qū)別OLAP是大多數(shù)數(shù)據(jù)倉庫系統(tǒng)用來呈現(xiàn)OLAP分類OLAP根據(jù)其存儲數(shù)據(jù)的方式分為:ROLAP、MOLAP、HOLAP三類。

ROLAP(關系OLAP)結構:使用關系或擴充關系DBMS存儲并管理數(shù)據(jù)倉庫,OLAP中間件支持其余部分。在接收用戶的請求時,ROLAP服務器將多維查詢轉換成SQL查詢,由數(shù)據(jù)倉庫服務器對以關系形式存放的數(shù)據(jù)執(zhí)行SQL查詢,最終將數(shù)據(jù)返回給終端用戶。MOLAP(多維OLAP)結構:核心是其數(shù)據(jù)存儲采用矩陣(可能是多維方陣)方式,數(shù)據(jù)檢索高效HOLAP(混合OLAP)結構:結合ROLAP和MOLAP技術,在MOLAP立方體中存儲高級別的聚集,在ROLAP中存儲低級別的聚集。OLAP分類OLAP根據(jù)其存儲數(shù)據(jù)的方式分為:ROLAP、數(shù)據(jù)倉庫系統(tǒng)的體系結構數(shù)據(jù)倉庫系統(tǒng)的體系結構根據(jù)應用需求的不同,可以分為四種類型:(1)兩層架構(GenericTwo-LevelArchitecture)。(2)獨立型數(shù)據(jù)集市(IndependentDataMart)。(3)依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(DependentDataMartandOperationalDataStore)。(4)邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉庫(LogicalDataMartandReal-TimeDataWarehouse)。數(shù)據(jù)倉庫系統(tǒng)的體系結構數(shù)據(jù)倉庫系統(tǒng)的體系結構根據(jù)應用需求的不參考書:三種數(shù)據(jù)倉庫模型從體系結構的角度去看,數(shù)據(jù)倉庫模型可以有以下三種:企業(yè)倉庫搜集關于跨越整個組織的主題的所有信息數(shù)據(jù)集市企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的客戶是有用的。其范圍限于選定的主題,比如一個商場的數(shù)據(jù)集市獨立的數(shù)據(jù)集市VS.非獨立的數(shù)據(jù)集市(數(shù)據(jù)來自于企業(yè)數(shù)據(jù)倉庫)虛擬倉庫操作數(shù)據(jù)庫上的一系列視圖只有一些可能的匯總視圖被物化參考書:三種數(shù)據(jù)倉庫模型從體系結構的角度去看,數(shù)據(jù)倉庫模型可獨立的數(shù)據(jù)倉庫系統(tǒng)

(企業(yè)數(shù)據(jù)倉庫)獨立的數(shù)據(jù)倉庫系統(tǒng)

(企業(yè)數(shù)據(jù)倉庫)構造步驟數(shù)據(jù)從各種內部、外部的源系統(tǒng)文件或數(shù)據(jù)庫中抽取,在一個大的組織中可能有幾十或幾百個這樣的文件和數(shù)據(jù)庫系統(tǒng)。不同源系統(tǒng)中的數(shù)據(jù)在加載到數(shù)據(jù)倉庫之前需要轉換和集成,當數(shù)據(jù)分段傳輸發(fā)現(xiàn)錯誤時,還要送回源系統(tǒng)進行校驗糾錯。建立數(shù)據(jù)倉庫。數(shù)據(jù)倉庫中將存儲來自源系統(tǒng)的詳細數(shù)據(jù)和各種綜程度(粒度)的概括數(shù)據(jù)。用戶通過S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論