




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數據倉庫原理-by zvane1. 數據倉庫概念傳統(tǒng)數據庫以及OLTP(On-Line Transaction Processing 聯機事務處理)在日常的管理事務處理中獲得了巨大的成功,但是對管理人員的決策分析要求卻無法滿足。因為,管理人員常常希望能夠通過對組織中的大量數據進行分析,了解業(yè)務的發(fā)展趨勢。而傳統(tǒng)數據庫只保留了當前的業(yè)務處理信息,缺乏決策分析所需要的大量的歷史信息。 為滿足管理人員的決策分析需要,就需要在數據庫的基礎上產生適應決策分析的數據環(huán)境數據倉庫(Data Warehouse)。1.1 定義William H.Inmon在1993年所寫的論著Building the Dat
2、aWarehouse首先系統(tǒng)地闡述了關于數據倉庫的思想、理論,為數據倉庫的發(fā)展奠定了歷史基石。文中他將數據倉庫定義為:A data warehouse is a subject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions.一個面向主題的、集成的、非易失性的、隨時間變化的數據的集合,以用于支持管理層決策過程。1.2 特性1.2.1 subject-oriented(面向主題性)面向主題表示了數據倉庫中數據組織的基本原則,數據倉庫中的數由
3、數據都是圍繞著某一主題組織展開的。由于數據倉庫的用戶大多是企業(yè)的管理決策者,這些人所面對的往往是一些比較抽象的、層次較高的管理分析對象。例如,企業(yè)中的客戶、產品、供應商等都可以作為主題看待。從信息管理的角度看,主題就是在一個較高的管理層次上對信息系統(tǒng)的數據按照某一具體的管理對象進行綜合、歸類所形成的分析對象。從數據組織的角度看,主題是一些數據集合,這些數據集合對分析對象作了比較完整的、一致的描述,這種描述不僅涉及到數據自身,而且涉及到數據之間的關系。1.2.2 integrated (數據集成性)數據倉庫的集成性是指根據決策分析的要求,將分散于各處的源數據進行抽取、篩選、清理、綜合等工作,使數
4、據倉庫的數據具有集成性。數據倉庫在從業(yè)務處理系統(tǒng)那里獲取數據時,并不能將源數據庫中的數據直接加載到數據倉庫中,而是需要進行一系列的數據預處理,即數據的抽取、篩選、清理、綜合等集成工作。1.2.3 time-variant 數據的時變性數據倉庫的時變性,就是數據應該隨著時間的推移而變化。盡管數據倉庫中的數據并不像業(yè)務數據庫那樣反映業(yè)務處理的實際狀況,但是數據也不能長期不變,如果依據10年前的數據進行決策分析,那決策所帶來的后果將是十分可怕的。因此,數據倉庫必須能夠不斷捕捉主題的變化數據,將那些變化的數據追加到數據倉庫中去,也就是說在數據倉庫中必須不斷的生成主題的新快照,以滿足決策分析的需要。數據
5、新快照生成的間隔,可以根據快照的生成速度和決策分析的需要而定。例如,如果分析企業(yè)近幾年的銷售情況,那快照 可以每隔一個月生成一次;如果分析一個月的暢銷產品,那快照生成間隔就需要每天一次。1.2.4 non-volatile 數據的非易失性數據倉庫的非易失性是指數據倉庫的數據不進行更新處理,而是一旦數據進入數據倉庫以后,就會保持一個相當長的時間。因為數據倉庫中數據大多表示過去某一時刻的數據,主要用于查詢、分析,不像業(yè)務系統(tǒng)中的數據庫那樣,要經常進行修改、添加,除非數據倉庫中的數據是錯誤的。1.3 in support of management decisions 支持決策系統(tǒng)數據倉庫的組織的根
6、本目的在于對決策的支持。高層的企業(yè)決策者、中層的管理者和基層的業(yè)務處理者等不同層次的管理人員均可以利用數據倉庫進行決策分析,提高管理決策的質量。企業(yè)管理人員可以利用數據倉庫進行各種管理決策的分析,利用自己所特有的、敏銳的商業(yè)洞察力和業(yè)務知識從貌似平淡的數據發(fā)現眾多的商機。數據倉庫為管理者利用數據進行管理決策分析提供了極大的便利。1.4 數據倉庫與傳統(tǒng)數據庫的比較對比內容數據庫數據倉庫數據內容當前值歷史的、存檔的、歸納的、計算的數據數據目標面向業(yè)務操作程序、重復處理面向主體域、管理決策分析應用數據特性動態(tài)變化、按字段更新靜態(tài)、不能直接更新、只是定時添加數據結構高度結構化、復雜、市和操作計算簡單、
7、適合分析使用頻率高中到低數據訪問量每個事務只訪問少量記錄有的事務可能要訪問大量記錄對相應時間的要求以秒為單位計量以秒、分鐘、甚至小時為計量單位2. 數據倉庫體系結構3. 數據模型3.1 元數據(Metadata)元數據描述了數據的結構、內容、鍵、索引等項內容。在數據倉庫中,元數據定義了數據倉庫中的許多對象表、列、查詢、商業(yè)規(guī)則或是數據倉庫內部的數據轉移。元數據是數據倉庫的重要構件,是數據倉庫的指示圖(roadmap)。 對于元數據(Metadata)的定義,這個概念非常廣,一般都是這樣定義,“元數據是描述數據的數據(Data about Data)”,這造成一種遞歸定義,就像問小強住在哪里,答
8、,在旺財隔壁。按照這樣的定義,元數據所描述的數據是什么呢?還是元數據。這樣就可能有元元元.元數據。3.1.1 元數據類型數據源的元數據數據模型的元數據數據源與數據倉庫映射的元數據數據倉庫應用的元數據3.1.2 元數據重要性為數據倉庫服務與DSS分析員及高層決策人員服務提供便利 解決操作型環(huán)境和數據倉庫的復雜關系 數據倉庫中數據的管理 3.1.3 元數據在數據倉庫開發(fā)期間的使用確認數據質量 、同步化和刷新 、映射3.1.4 元數據在數據源抽取中的作用資源領域的確定 、跟蹤歷史數據結構變化的過程 、屬性到屬性的映射 、屬性轉換 3.1.5 元數據在數據求精與重構工程上的作用數據的分割 、概括與聚集
9、 、預算與推導 、轉換與再映像 3.1.6 舉例:校訊通2.0統(tǒng)計分析元數據-元數據:列CREATE TABLE DW_COLUMN( COLUMN_ID VARCHAR2(64) PRIMARY KEY, -列ID OWNER VARCHAR2(30) NOT NULL, -用戶名 TABLE_NAME VARCHAR2(30) NOT NULL, -表名 COLUMN_NAME VARCHAR2(30) NOT NULL,-列名 DISPLAY_NAME VARCHAR2(30),-列顯示名 COLUMN_TYPE NUMBER(1),-1.事實字段:2.維度字段 3.虛擬字段 STATE
10、 NUMBER(1), -無效:0;有效:1 -DISPLAY_STATE NUMBER(1), -不顯示:0;顯示:1 ORDER_NUM NUMBER(2), -排序: FK_COLUMN_ID VARCHAR2(64) 外鍵列ID);3.2 星型模型星型模型是最常用的數據倉庫設計結構的實現模式。使數據倉庫形成了一個集成系統(tǒng),為用戶提供分析服務對象。 3.2.1 事實表核心是事實表,圍繞事實表的是維度表。通過事實表將各種不同的維度表連接起來,各個維度表都連接到中央事實表。事實表中一般包含兩部分,一是由主鍵和外鍵所組成的鍵部分,另一是用戶希望在數據倉庫中所了解的數值指標。派生事實主要有兩種,
11、一是可以用同一事實表中其他事實計算得到,還有一類派生事實是非加法性事實。3.2.2 維度表維度:是人們觀察數據的特定角度,是考慮問題時的一類屬性,屬性集合構成一個維(時間維、地理維等)。維的層次:人們觀察數據的某個特定角度(即某個維)還可以存在細節(jié)程度不同的各個描述方面(時間維:日期、月份、季度、年)。維的成員:維的一個取值。是數據項在某維中位置的描述。(“某年某月某日”是在時間維上位置的描述)時間維度表(年Date,月Date,日Date)。地點維度表(省Character20,市Character20,縣Character20,街道Character20)。3.2.3 多維數據模型多維數據
12、模型:是決策分析的支柱,OLAP的核心,有時也稱立方體或者超立方。OLAP展現在用戶面前的是一幅幅多維視圖。多維數據集可以用一個多維數組來表示。3.2.4 舉例:校訊通2.0訂購用戶月統(tǒng)計星型模型3.3 雪花模型雪花模型是對星型模型的擴展,每一個維度都可以向外連接到多個詳細類別表。 雪花模型對星型模型的維度表進一步標準化,對星型模型中的維度表進行了規(guī)范化處理。 3.4 粒度粒度可定義成數據倉庫中數據細節(jié)的最低層次,如事務層次。這種數據層次是高度細節(jié)化的,這樣就能使用戶按所需的任何層次進行匯總。根據粒度的劃分標準可以將數據劃分為:詳細數據、輕度總結、高度總結三級或更多級粒度。粒度的具體劃分將直接
13、影響到數據倉庫中的數據量以及查詢質量。在校訊通2.0統(tǒng)計分析,設計上采用兩層粒度:細粒度:訂購用戶明細表輕度匯總粒度:訂購用戶月度匯總表,按班級匯總,所以說是輕度匯總。4. 數據的ETL:抽取、轉換、加載4.1 抽取4.2 轉換4.3 加載說明:數據的ETL,我們做的不好,還沒有實現公共組件級的抽取、轉換、加載模塊,只是實現了簡單的任務調度,和一些公用的抽取類和載入接口。在做ETL開發(fā)時,剩下的工作還是需要手工完成,主要是寫一些抽取和載入的sql語句。真正的ETL工具,是在元數據的基礎,定義數據抽取的規(guī)則,數據清理的方式,和載入的方式。啟動任務,由系統(tǒng)自動實現整個過程。5. 數據展現5.1 表
14、格例如:統(tǒng)計2010年9月武漢市各行政區(qū)某欄目業(yè)務訂購情況。日期地市區(qū)縣學生總數訂購數取消數合計10005001002010-09武漢市洪山區(qū)600300602010-09武漢市武昌區(qū)40020040表中,藍色字段代表維度,綠色字段代表事實字段。5.2 圖形將數據以直觀圖像的方式展示出來,主要有:柱狀圖、餅圖、線性圖等。6. OLAP數據倉庫是管理決策分析的基礎,要有效地利用數據倉庫的信息資源,必須要有強大的工具對數據倉庫的信息進行分析決策。On-line Analytical Processing(在線分析處理或聯機分析處理)就是一個應用廣泛的數據倉庫使用技術。它可以根據分析人員的要求,迅速
15、靈活地對當量的數據進行復雜的查詢處理,并以直觀的容易理解的形式將查詢結果提供給各種決策人員,使他們能夠迅速準確地掌握企業(yè)的運營情況,了解市場的需求。60年代,關系數據庫之父提出了關系模型,促進了聯機事務處理(OLTP)的發(fā)展(數據以表格的形式而非文件方式存儲)。1993年,提出了OLAP概念,認為OLTP已不能滿足終端用戶對數據庫查詢分析的需要,SQL對大型數據庫進行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關系數據庫進行大量計算才能得到結果,而查詢的結果并不能滿足決策者提出的需求。因此,提出了多維數據庫和多維分析的概念,即OLAP。OLTP數據OLAP數據原始數據導出數據細
16、節(jié)性數據綜合性和提煉性數據當前值數據歷史數據可更新不可更新,但周期性刷新一次處理的數據量小一次處理的數據量大面向應用,事務驅動面向分析,分析驅動面向操作人員,支持日常操作面向決策人員,支持管理需要6.1 定義定義1:OLAP(聯機分析處理)是針對特定問題的聯機數據訪問和分析。通過對信息(維數據)的多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數據進行深入觀察。定義2:OLAP(聯機分析處理)是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數據中轉化出來的、能夠真正為用戶所理解的、并真實反映企業(yè)維特性的信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟件技術。(OLAP委員會的定義)OLAP的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術核心是“維”這個概念,因此OLAP也可以說是多維數據分析工具的集合。6.2 特性1.快速性:用戶對OLAP的快速反應能力有很高的要求。2.可分析性:OLAP系統(tǒng)應能處理與應用有關的邏輯與統(tǒng)計分析。3.多維性:多維性是OLAP的關鍵屬性。系統(tǒng)能夠提供對數據分析的多維視圖和多維分析。4.信息型:不論數據量有多大,也不管數據存儲在何處,OLAP系統(tǒng)應能及時獲得信息,并且管
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度浙江省護師類之主管護師通關試題庫(有答案)
- 2024年度浙江省二級造價工程師之建設工程造價管理基礎知識自測模擬預測題庫
- 美麗的花公雞課件
- DB43-T 2883-2023 切花百合種植技術規(guī)程
- 介紹新加坡的經濟
- 桌面消防演練
- 高考生物核心考點考前沖刺 發(fā)酵工程(含解析)
- 人工公務員面試題及答案
- java對外接口面試題及答案
- 湖北移動面試題及答案
- 2025年不動產登記代理人(地籍調查)考試真題卷(帶答案)
- 銀行安全用卡培訓課件
- 改善患者就醫(yī)體驗服務課件
- (高清版)DB50∕T 689-2016 合成鉆石鑒定技術規(guī)范
- 2025-2030中國智慧社區(qū)行業(yè)市場深度調研及前景趨勢與投資研究報告
- 初中生安全用電課件
- 2025年廣東省地理初中學業(yè)水平模擬練習卷(含答案)
- 心率測定-教學設計-八年級體育健康教育
- 2025年ps cs5操作試題及答案
- 2025年太陽能空調系統(tǒng)合同
- 醫(yī)院護理人文關懷實踐規(guī)范專家共識課件
評論
0/150
提交評論