




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、第二章 數(shù)據(jù)倉庫原理0第二章數(shù)數(shù)據(jù)倉倉庫原理理2.1數(shù)據(jù)倉庫庫定義2.2數(shù)據(jù)倉庫庫特征2.3數(shù)據(jù)庫體體系化環(huán)環(huán)境2.4數(shù)據(jù)倉構(gòu)構(gòu)造模式式2.5數(shù)據(jù)倉庫庫概念結(jié)結(jié)構(gòu)2.6數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)組織織小節(jié)1數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)組織織粒度分區(qū)維度元數(shù)據(jù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織形形式數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)追加2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織2數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)組織織粒度分割維度元數(shù)據(jù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織形形式數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)追加2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織32.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織為了提高高分析和和決策的的效率和和有效性性,分析析型處理理及其數(shù)數(shù)據(jù)必須須與事務務型處理理及其數(shù)數(shù)據(jù)相分分
2、離,把把分析型型處理所所需要的的數(shù)據(jù)從從事務型型處理環(huán)環(huán)境中提提取出來來,按照照分析型型處理的的要求進進行重新新組織,建立單單獨的分分析處理理環(huán)境。數(shù)據(jù)倉庫庫正是構(gòu)構(gòu)建這種種新的分分析處理理環(huán)境而而出現(xiàn)的的一種數(shù)數(shù)據(jù)存儲儲和組織織技術(shù)。42.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織結(jié)結(jié)構(gòu)不同同于一般般的數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng),需要要將從原原有的業(yè)業(yè)務數(shù)據(jù)據(jù)庫中獲獲得的基基本數(shù)據(jù)據(jù)和綜合合數(shù)據(jù)分分成一些些不同的的級別。在數(shù)據(jù)倉倉庫中,數(shù)據(jù)按按照粒度度從小到到大可分分為四個個級別:早期細細節(jié)級、當前細細節(jié)級、輕度細細節(jié)級和和高度細細節(jié)級。從事務型型處理環(huán)環(huán)境中提提取的源源數(shù)據(jù)經(jīng)經(jīng)過綜合合后,首
3、首先進入入當前細細節(jié)級,并根據(jù)據(jù)需要進進行進一一步的綜綜合進入入輕度綜綜合級或或高度5 數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織結(jié)結(jié)構(gòu)元數(shù)據(jù)高度綜合合級輕度綜合合級當前細節(jié)節(jié)級早期細節(jié)節(jié)級2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織6數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)存在在著不同同的綜合合級別早期細節(jié)節(jié)級一般而言言,當前前細節(jié)級級的數(shù)據(jù)據(jù)對于決決策的支支持程度度隨數(shù)據(jù)據(jù)發(fā)生時時間的久久遠而降降低。為了有效效控制數(shù)數(shù)據(jù)倉庫庫中當前前細節(jié)級級數(shù)據(jù)的的規(guī)模,保證系系統(tǒng)的運運行效率率,在設設計數(shù)據(jù)據(jù)倉庫時時,通常常應結(jié)合合業(yè)務的的特點和和系統(tǒng)硬硬件的水水平,設設定一個個合理的的時間閥閥值,將將老化的的數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)為早期期細節(jié)級級的數(shù)據(jù)據(jù),并以以合
4、適的的方式進進行存儲儲。2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織7數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)存在在著不同同的綜合合級別當前細節(jié)節(jié)級來自數(shù)據(jù)據(jù)源的數(shù)數(shù)據(jù),所所反映的的都是當當前的業(yè)業(yè)務情況況,因此此在導入入數(shù)據(jù)倉倉庫之后后,首先先做為當當前細節(jié)節(jié)級數(shù)據(jù)據(jù)進行存存儲。這些數(shù)據(jù)據(jù)規(guī)模較較大,實實時性強強,是數(shù)數(shù)據(jù)倉庫庫用戶感感興趣的的部分。當前細節(jié)節(jié)級的數(shù)數(shù)據(jù)一方方面依據(jù)據(jù)數(shù)據(jù)倉倉庫的既既定規(guī)則則,經(jīng)過過處理,得到情情況度綜綜合級和和高度綜綜合級的的數(shù)據(jù),另一方方面,隨隨時間的的推移,逐漸老老化,成成為歷史史細節(jié)級級數(shù)據(jù)。2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織8數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)存在在著不同同的綜合合級別輕度綜合
5、合級為了有效效控制數(shù)數(shù)據(jù)倉庫庫進行決決策支持持時的系系統(tǒng)開銷銷,對當當前細節(jié)節(jié)級的數(shù)數(shù)據(jù),通通常以一一定的時間段為為單位進行綜合合。這一設定定的時間間段參數(shù)數(shù)又稱為為“粒度度”。以較小的的粒度生生成的綜綜合數(shù)據(jù)據(jù),稱為為“輕度度綜合級級數(shù)據(jù)”,其規(guī)規(guī)模要遠遠遠小于于當前細細節(jié)級數(shù)數(shù)據(jù),因因此,可可以明顯顯提高決決策運算算的效率率。2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織9數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)存在在著不同同的綜合合級別高度綜合合級以較長的的時間段段,即較較大的粒粒度,對對當前細細節(jié)級的的數(shù)據(jù)進進行綜合合而形成成的結(jié)果果,稱為為“高度度綜合級級數(shù)據(jù)”。高度綜合合級的數(shù)數(shù)據(jù)內(nèi)容容十分精精練,可可以認為為是
6、一種種“準決決策數(shù)據(jù)據(jù)”。這里,“高度”和“輕輕度”只只是一種種相對的的概念沒沒有絕對對的界限限。2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織10 數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織結(jié)結(jié)構(gòu)的一一個例子子高度綜合合級輕度綜合合級當前細節(jié)節(jié)級早期細節(jié)節(jié)級1990-2004年年每月銷售售表1996-2004年年每周銷售售表1996-2004年年銷售情況況表1990-1995年年銷售明細細表數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)組織織2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織11數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)組織織粒度分割維度元數(shù)據(jù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織形形式數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)追加2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織12粒度對數(shù)據(jù)倉倉庫中的的數(shù)據(jù)綜合合程度高高
7、低的一一個度量量。例如:一一個簡單單的交易易處于低低粒度級級,而每每月所有有交易的的匯總和和處于一一個高粒粒度級。粒度會深深刻地影影響存放放在數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)量的的大小以以及數(shù)據(jù)據(jù)倉庫所所能夠回回答的查查詢類型型。在數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)量大小小與所能能回答查查詢的細細節(jié)級別別之間要要做出權(quán)權(quán)衡。2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織13粒度一個顧客客一個月月中每次次通話的的細節(jié)一個顧客客一個月月中通話話的綜合合Cass Squire上星期給給他在波波士頓的的女友打打過電話話沒有?能回答,盡管需需要一定定數(shù)量的的檢索根本不能能回答,細節(jié)已已經(jīng)丟失失“上個月,華盛頓頓人平均均打出多多少個電電話?
8、”由此可見見,粒度度級別對對于能回回答什么么問題和和問答問問題所需需資源多多少有深深刻的影影響。2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織14粒度粒度的權(quán)權(quán)衡是固固有的,所以大大多數(shù)企企業(yè)的最最佳解決決方法是是采用多多重粒度度的形式式低粒度高粒度能回答任任何問題題效率低數(shù)據(jù)量大大不能回答答所有問問題效率高數(shù)據(jù)量小小2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織15 粒度分為為兩種形形式:對數(shù)據(jù)倉倉庫中的的數(shù)據(jù)的的綜合程程度高低低的一個個度量粒度越小小,細節(jié)節(jié)程度越越高,綜綜合程度度越低粒度大小小影響數(shù)數(shù)據(jù)倉庫庫效率、能回答答詢問的的種類“張三在在某時某某地是否否給李四四打過電電話?”“張三去去年共打打了幾次次長途
9、電電話”“某地區(qū)區(qū)今年長長途與普普通電話話費用之之比”“今年長長途普普通電話話費用增增長率”“預測未未來長途途普通通電話費費用變化化趨勢”數(shù)據(jù)倉庫庫是多粒粒度的,不同的的粒度回回答不同同的查詢詢2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織16粒度分為為兩種形形式:樣本數(shù)據(jù)據(jù)庫在分析過過程中,有許多多探索的的過程有有時分析析的目的的并不要要求精確確的結(jié)果果,只需需要得到到相對準準確、能能反映趨趨勢的數(shù)數(shù)據(jù),所所以可以以提取出出樣本數(shù)數(shù)據(jù)庫。樣本數(shù)據(jù)據(jù)庫的粒粒度:是是根據(jù)采樣率的的高低來劃分的的,采樣樣粒度不不同的樣樣本數(shù)據(jù)據(jù)庫可以以具有相相同的綜綜合級別別,它是是按一定的的采樣率率從細節(jié)節(jié)數(shù)據(jù)庫庫或輕度度
10、綜合數(shù)數(shù)據(jù)庫中中提取的的一個子子集。樣本數(shù)據(jù)據(jù)庫的抽抽取按照照數(shù)據(jù)的的重要程程度不同同進行,利用樣樣本數(shù)據(jù)據(jù)庫采集集重要數(shù)數(shù)據(jù)進行行分析既既可提高分析析效率,又有助于于抓住主主要因素素和主要要矛盾。2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織17 樣本數(shù)據(jù)據(jù)庫用處:代代替源數(shù)數(shù)據(jù)進行行模擬分分析,適適用于趨趨勢分析析和預測測分析抽樣的方方法:隨隨機抽取取,必要要時可采采用“判判斷樣本本”優(yōu)點:高效率,在啟發(fā)發(fā)式分析析中,源數(shù)據(jù)量量很大的的情況下下,抽樣樣數(shù)據(jù)可可以大大大下降,分析結(jié)果果誤差極極小有助于抓抓住主要要因素和和主要矛矛盾2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織18數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)組織織粒度分區(qū)維
11、度數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織形形式數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)追加2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織19分區(qū)數(shù)據(jù)分區(qū)區(qū)是指把把數(shù)據(jù)分分散到可可獨立處處理的分分離物理理單元中中去。數(shù)數(shù)據(jù)分割割后的數(shù)數(shù)據(jù)單元元稱為分分片。在數(shù)據(jù)倉倉庫中圍圍繞分區(qū)區(qū)的問題題的焦點點不是該該不該分分區(qū)而是是如何去去分區(qū)的的問題。因為運運行維護護人員和和設計者者在管理理小的物物理單元元時比管管理大的的享有更更大的靈靈活性。恰當進行行分區(qū)的的好處:數(shù)據(jù)裝載載、數(shù)據(jù)據(jù)訪問、數(shù)據(jù)存存檔、數(shù)據(jù)刪除除、數(shù)據(jù)據(jù)監(jiān)控、數(shù)據(jù)存存儲、當結(jié)構(gòu)相相似的數(shù)數(shù)據(jù)被分分到多個個數(shù)據(jù)的的物理單單元時,數(shù)據(jù)便便被分區(qū)區(qū)了。任任何給定定的數(shù)據(jù)據(jù)單元屬屬于且僅僅屬于一
12、一個分區(qū)區(qū)。2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織20分區(qū)數(shù)據(jù)分區(qū)區(qū)小的數(shù)據(jù)據(jù)單元易易于:重構(gòu)索引順序掃描描重組恢復監(jiān)控19891990198719911988獨立管理理的數(shù)據(jù)據(jù)單元可可以有不不同的定定義處理設備備A處理設備備B2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織21分區(qū)有多種數(shù)數(shù)據(jù)分區(qū)區(qū)的標準準:時間業(yè)務范圍圍地理位置置組織單位位所有上述述標準數(shù)據(jù)分區(qū)區(qū)的標準準是完全全由開發(fā)發(fā)人員來來決定的的。然而而,在數(shù)數(shù)據(jù)倉庫庫環(huán)境中中,日期期幾乎總總是分區(qū)區(qū)標準中中的一個個必然組組成部分分。2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織22分區(qū)人壽保險險公司選選擇時間間和保險險種類,將數(shù)據(jù)據(jù)分區(qū)為為以下物物理單元元:2
13、000年健康索索賠2001年健康索索賠2002年健康索索賠1999年人壽保保險索賠賠2000年人壽保保險索賠賠2001年人壽保保險索賠賠2002年人壽保保險索賠賠2000年意外傷傷亡索賠賠2001年意外傷傷亡索賠賠2002年意外傷傷亡索賠賠2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織23分區(qū)數(shù)據(jù)分區(qū)區(qū)優(yōu)點:提高系統(tǒng)統(tǒng)性能“1996年家家電類商商品銷售售的季節(jié)節(jié)分布如如何?”“每年的的第一季季度商品品銷售在在各類商商品上的的分布情情況是怎怎樣的?”提高靈活活性修改數(shù)據(jù)據(jù)定義容容易不同年份份的險種種的定義義描述是是相互獨獨立2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織24數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)組織織粒度分區(qū)維度數(shù)據(jù)倉庫
14、庫的數(shù)據(jù)據(jù)組織形形式數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)追加2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織25維度管理人員員可以從從客戶的的角度、產(chǎn)品的的角度或或者從供供應商、地點、渠道、發(fā)生的的時間等等角度來來分析決決策問題題。用戶的這這些決策策分析角角度或決決策分析析出發(fā)點點就是數(shù)數(shù)據(jù)倉庫庫中的維維。數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)就按按照這些些維來組組織,維維也就成成了數(shù)據(jù)據(jù)倉庫中中識別數(shù)數(shù)據(jù)的索索引。同時,數(shù)數(shù)據(jù)倉庫庫中的維維還可以以作為數(shù)數(shù)據(jù)倉庫庫操作過過程的路路經(jīng),這這些路徑徑通常位位于維的的不同層層次結(jié)構(gòu)構(gòu)中。2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織26維度是一個物物理特性性(如時時間、地地點、產(chǎn)產(chǎn)品等),它是是表達數(shù)數(shù)據(jù)倉庫
15、庫中信息息的一個個基本途途徑,可可作為標標識數(shù)據(jù)據(jù)的索引引。通常常的報表表只包含含有行和和列兩維維,但在在數(shù)據(jù)倉倉庫中所所存儲的的數(shù)據(jù)大大多是用用多維(三維或或三維以以上)視視圖表示示的。例如:一個銷售售系統(tǒng)中中的數(shù)據(jù)據(jù)可分為為時間維維、產(chǎn)品品維和地地理位置置維等;2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織27一個數(shù)據(jù)據(jù)立方體體,比如如數(shù)據(jù)倉倉庫sales,允許以多多維對數(shù)數(shù)據(jù)進行行建模和和觀察。例銷售分析析:數(shù)據(jù)倉庫庫sales圍繞商品品銷售量量這個主主題。同同時,銷銷售量涉涉及以下下幾個方方面:time,item,location,branch。有了這這些方面面的信息息,能夠夠記錄商商品的月月銷售
16、,銷售商商品的地地點。2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織28LocationVancouverChicagoTorontoNewYorkTime(季度)ItemQ1Q2Q3Q4605680812927825952102310381431303840051250158085410878188829687468938436238725916829256987281002789784984870家庭娛樂計算機電話安全2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織29維:人們們觀察數(shù)數(shù)據(jù)的特特定角度度。本例中涉涉及time,item,location。每一個維維都有一一個表與之相關(guān)關(guān)聯(lián),稱稱為維表。事實:數(shù)數(shù)據(jù)倉
17、庫庫的主題題,數(shù)值值度量的。本例中中指銷售售量。事實實對應事實表。2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織30A SampleData CubeTotalannualsalesofTVinU.S.A.DateProductCountryAll, All, Allsumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum31基于維的的常見操操作上卷:用戶在數(shù)數(shù)據(jù)倉庫庫的應用用中,從從較低層層次的數(shù)數(shù)據(jù)開始始逐步將將數(shù)據(jù)按按照不同同的層次次進行概概括處理理下鉆:從數(shù)據(jù)倉倉庫中的的高層數(shù)數(shù)據(jù)開始始逐步向向低層數(shù)數(shù)據(jù)探索索,了解解組成概概括數(shù)據(jù)據(jù)的具體體細節(jié)2.6數(shù)
18、數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織32數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)組織織粒度分區(qū)維度元數(shù)據(jù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織形形式數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)追加2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織33數(shù)據(jù)倉庫庫的元數(shù)數(shù)據(jù)與數(shù)數(shù)據(jù)庫管管理系統(tǒng)統(tǒng)中的數(shù)數(shù)據(jù)字典典或數(shù)據(jù)據(jù)目錄相相似。數(shù)據(jù)字典典中保存存了邏輯輯數(shù)據(jù)結(jié)結(jié)構(gòu),文文件和地地址、索索引等信信息。數(shù)據(jù)字典典包含的的是關(guān)于于數(shù)據(jù)庫庫中數(shù)據(jù)據(jù)本身信信息的數(shù)數(shù)據(jù)。2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織342.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織352.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織362.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織將元數(shù)據(jù)據(jù)看作是是電話黃黃頁。你需要當當?shù)厣痰甑甑男畔⑾幔克麄冊谀哪睦?,他?/p>
19、們的名名字是什什么,他他們的專專營是什什么?去去查電話話黃頁吧吧。電話黃頁頁是當?shù)氐夭块T信信息的一一本字典典。元數(shù)據(jù)部部分與電電話黃頁頁的作用用類似,它是數(shù)數(shù)據(jù)倉庫庫內(nèi)容的的一本字字典。37什么是元元數(shù)據(jù)?假設,用用戶希望望在運行行查詢之之前,了了解數(shù)據(jù)據(jù)倉庫中中名叫CUSTOMER的表或?qū)崒嶓w。在元素據(jù)據(jù)存儲庫庫中與CUSTOMER相關(guān)的信信息內(nèi)容容是什么么?2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織38定義:從公司司購買產(chǎn)產(chǎn)品或服服務的一一個人或或者一個個機構(gòu)。備注:客戶實實體包含含了常規(guī)規(guī)的、當當前以及及過去的的客戶;源系統(tǒng):已經(jīng)完完成的產(chǎn)產(chǎn)品訂單單,維護護合同,在線銷銷售建立日期期:1999年
20、1月15日最后更新新日期:2001年1月21日更新周期期:每每周最后的完完全刷新新日期:2000年12月29日完全刷新新周期:每每6個月數(shù)據(jù)質(zhì)量量回顧:2001年1月25日最后的副副本:2001年1月10日計劃歸檔檔:每每6個月負責人:jane brown2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織實體名稱稱:customer別名:Account,Client392.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織數(shù)據(jù)倉庫庫的關(guān)鍵鍵需求:對數(shù)據(jù)倉倉庫使用用的必要要性在訂單處處理程序序中,用用戶通過過系統(tǒng)提提供的圖圖形界面面及預定定義的報報表進行行信息訪訪問;使用數(shù)據(jù)據(jù)倉庫時時,自己己從數(shù)據(jù)據(jù)倉庫中中獲取信信息。需要使用用
21、元數(shù)據(jù)據(jù)。402.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織對構(gòu)建數(shù)數(shù)據(jù)倉庫庫的必要要性數(shù)據(jù)抽取取和數(shù)據(jù)據(jù)轉(zhuǎn)換源系統(tǒng)及及其數(shù)據(jù)據(jù)結(jié)構(gòu)數(shù)據(jù)倉庫庫的結(jié)構(gòu)構(gòu)及數(shù)據(jù)據(jù)內(nèi)容數(shù)據(jù)映射射及數(shù)據(jù)據(jù)轉(zhuǎn)換我們需要要源系統(tǒng)統(tǒng)的元數(shù)數(shù)據(jù),源源系統(tǒng)到到目標系系統(tǒng)的映映射,以以及數(shù)據(jù)據(jù)轉(zhuǎn)換的的規(guī)則。數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)管理員員物理設計計和初始始裝載定期的增增量裝載載需要知道道數(shù)據(jù)庫庫邏輯結(jié)結(jié)構(gòu)的元元數(shù)據(jù),數(shù)據(jù)刷刷新及裝裝載周期期元數(shù)據(jù)據(jù)。412.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織對管理數(shù)數(shù)據(jù)倉庫庫的必要要性數(shù)據(jù)抽取取/轉(zhuǎn)換/裝載如何處理理數(shù)據(jù)的的變化?如何納入入新的源源系統(tǒng)?外部系統(tǒng)統(tǒng)的數(shù)據(jù)據(jù)如何增加加新的外外部數(shù)據(jù)據(jù)源?如何去掉掉某些外
22、外部數(shù)據(jù)據(jù)源?數(shù)據(jù)倉庫庫如何增加加新的匯匯總表?如何控制制查詢?422.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織想象一下下,一個個沒有標標簽和文文件夾的的文件柜柜。如果沒有有元數(shù)據(jù)據(jù),那么么數(shù)據(jù)倉倉庫就像像這個文文件柜;可能裝滿滿了很多多對你的的用戶、開發(fā)者者及管理理者很有有用的信信息,但但是,卻卻沒有任任何簡便便的方法法知道這這些信息息在哪里里,這樣樣一來,數(shù)據(jù)倉倉庫的價價值就很很有限。432.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織元數(shù)據(jù)就就像一個個神經(jīng)中中樞,是是關(guān)于數(shù)數(shù)據(jù)的數(shù)數(shù)據(jù);在構(gòu)建和和管理數(shù)數(shù)據(jù)倉庫庫的過程程中,不不同的過過程都會會產(chǎn)生一一部分元元數(shù)據(jù)。一個過程程創(chuàng)建的的元數(shù)據(jù)據(jù)可以被被其他過過程使
23、用用。在數(shù)據(jù)倉倉庫中,元數(shù)據(jù)據(jù)處于一一個關(guān)鍵鍵的位置置,使不不同的過過程能夠夠相互通通信,是是數(shù)據(jù)倉倉庫的中中樞。442.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織數(shù)據(jù)倉庫庫元素查詢工具具報表工具具OLAP工具數(shù)據(jù)挖掘掘應用程序序外部數(shù)據(jù)據(jù)數(shù)據(jù)裝載載功能轉(zhuǎn)換工具具清晰工具具抽取工具具源系統(tǒng)452.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織元數(shù)據(jù)扮扮演了一一個活躍躍的角色色,輔助助數(shù)據(jù)倉倉庫處理理過程的的自動化化。以下是按按順序排排列的后后端處理理過程的的列表數(shù)據(jù)源結(jié)結(jié)構(gòu)定義義;數(shù)據(jù)抽取??;初始重格格式化/合并初步數(shù)據(jù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換換/合并有效性和和質(zhì)量檢檢查數(shù)據(jù)倉庫庫結(jié)構(gòu)定定義創(chuàng)建裝載載映像462.6數(shù)數(shù)據(jù)據(jù)倉庫中中
24、的數(shù)據(jù)據(jù)組織按照數(shù)據(jù)據(jù)倉庫功功能區(qū)域域劃分的的元數(shù)據(jù)據(jù)類型數(shù)據(jù)源數(shù)數(shù)據(jù)數(shù)據(jù)源存存儲平臺臺數(shù)據(jù)源的的數(shù)據(jù)格格式數(shù)據(jù)源的的業(yè)務內(nèi)內(nèi)容說明明;數(shù)據(jù)源的的所有者者數(shù)據(jù)源的的訪問方方法及使使用限制制;實施數(shù)據(jù)據(jù)抽取的的工具和和其他方方法,及及相應的的參數(shù)設設置;數(shù)據(jù)抽取取的進度度安排;實際數(shù)據(jù)據(jù)抽取的的時間、內(nèi)容及及完成情情況記錄錄;472.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織按照數(shù)據(jù)據(jù)倉庫功功能區(qū)域域劃分的的元數(shù)據(jù)據(jù)類型數(shù)據(jù)的預預處理數(shù)據(jù)抽取取、轉(zhuǎn)換換、裝載載過程中中用到的的各種文文件定義義;從數(shù)據(jù)源源到主題題數(shù)據(jù)實實際視圖圖之間的的數(shù)據(jù)對對應關(guān)系系,有關(guān)關(guān)數(shù)據(jù)凈凈化的詳詳細規(guī)則則;為了滿足足數(shù)據(jù)挖挖掘需要
25、要進行的的數(shù)據(jù)處處理的詳詳細說明明;維表各屬屬性的更更新策略略選擇;代理碼的的分配情情況;數(shù)據(jù)聚集集的定義義;預處理數(shù)數(shù)據(jù)的備備份方法法;482.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織按照數(shù)據(jù)據(jù)倉庫功功能區(qū)域域劃分的的元數(shù)據(jù)據(jù)類型數(shù)據(jù)倉庫庫主題各種數(shù)據(jù)據(jù)庫表或或視圖的的定義數(shù)據(jù)庫分分區(qū)的設設置;索引的建建立方法法;數(shù)據(jù)庫訪訪問權(quán)限限分配;數(shù)據(jù)庫備備份方案案;492.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織按照數(shù)據(jù)據(jù)倉庫功功能區(qū)域域劃分的的元數(shù)據(jù)據(jù)類型查詢服務務數(shù)據(jù)庫表表及表中中數(shù)據(jù)項項的業(yè)務務含義說說明;可視化查查詢結(jié)果果格式的的定義;用戶及其其訪問權(quán)權(quán)限的定定義;數(shù)據(jù)倉庫庫使用情情況的監(jiān)監(jiān)控與統(tǒng)統(tǒng)計;502.
26、6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織也可以將將原數(shù)據(jù)據(jù)分為管管理元數(shù)數(shù)據(jù)和用用戶元數(shù)數(shù)據(jù);管理元數(shù)數(shù)據(jù)用于創(chuàng)建建和維護護數(shù)據(jù)倉倉庫。它它包括數(shù)數(shù)據(jù)源元元數(shù)據(jù)、預處理理數(shù)據(jù)元元數(shù)據(jù)、數(shù)據(jù)倉倉庫主題題數(shù)據(jù)源源數(shù)據(jù)等等;用戶元數(shù)數(shù)據(jù)幫助用戶戶進行查查詢、理理解查詢詢結(jié)果,了解數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)和組織織,其中中主要內(nèi)內(nèi)容是查查詢服務務元數(shù)據(jù)據(jù);51數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)組織織粒度分區(qū)維度元數(shù)據(jù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織形形式數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)追加2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織52數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織形形式簡單堆積積文件它將由數(shù)數(shù)據(jù)庫中中提取并并加工的的數(shù)據(jù)逐逐一積累累存儲輪轉(zhuǎn)綜合合文件數(shù)據(jù)存儲儲單位被被分
27、為若若干個級級別輪轉(zhuǎn)記錄錄-綜綜合優(yōu)點:結(jié)結(jié)構(gòu)簡捷捷,數(shù)據(jù)據(jù)量較簡簡單堆積積結(jié)構(gòu)減減少缺點:損損失數(shù)據(jù)據(jù)細節(jié)。越久遠遠的數(shù)據(jù)據(jù),細節(jié)節(jié)損失越越多2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織53簡單堆積積結(jié)構(gòu)它將每天天從數(shù)據(jù)據(jù)庫中提提取加工工后的數(shù)數(shù)據(jù)逐日日積累的的存儲起起來。按按這種方方式存儲儲的數(shù)據(jù)據(jù)細節(jié)化化程度很很高,可可以應付付多種細細節(jié)查詢詢,但分分析時查查詢的效效率較低低。2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織面向應用用數(shù)據(jù)庫庫每天數(shù)據(jù)據(jù)每天綜合合1月1日1月2日1月3日2月1日2月2日2月3日3月1日3月2日3月3日需要許多多存儲空空間無細節(jié)丟丟失許多處理理與數(shù)據(jù)據(jù)有關(guān)54輪轉(zhuǎn)綜合合結(jié)構(gòu)它將數(shù)據(jù)
28、據(jù)按不同同的期限限輪轉(zhuǎn)地地存儲。2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織非常緊湊湊一些細節(jié)節(jié)丟失提取越久久的數(shù)據(jù)據(jù),越不不詳細55簡單直接接數(shù)據(jù)是從從操作型型環(huán)境直直接裝入入數(shù)據(jù)倉倉庫中,并沒有有任何積積累,只只不過這這種文件件不是在在每天的的基礎上上組織的的,而是是以較長長時間(如一個個星期、一個月月)為單單位的。因此,簡單直直接文件件是按一一定時間間操作型型數(shù)據(jù)庫庫的一個個快照,即按一一定時間間間隔對對數(shù)據(jù)庫庫的采樣樣。J AdamsMain大街P Anderson High大街456號K ApplebyA大街10號LAzimoff被農(nóng)場路路64號面向應用用數(shù)據(jù)庫庫1月份數(shù)據(jù)據(jù)2.6數(shù)數(shù)據(jù)據(jù)倉庫
29、中中的數(shù)據(jù)據(jù)組織56連續(xù)結(jié)構(gòu)構(gòu)它是通過過比較兩兩個連續(xù)續(xù)的簡單單直接文文件的不不同而生生成的另另一種連連續(xù)文件件,生成成的連續(xù)續(xù)文件又又可以和和新的簡簡單直接接文件一一起生成成新的連連續(xù)文件件。J AdamsMain大街P Anderson High大街456號K ApplebyA大街10號LAzimoff被農(nóng)場路路64號J AdamsMain大街WAbraham9號公路12號P AndersonTincup郡14號K ApplebyA大街10號J AdamsMain大街1月今WAbraham9號公路12號2月今P AndersonHigh大街456號1月1月P AndersonTincup郡
30、14號2月今K ApplebyA大街10號1月今2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織57 連續(xù)文件件1)兩兩個連連續(xù)的簡簡單直接接文件比比較較他們的的不同連續(xù)文件件2)連續(xù)文件件+新的簡單單文件新新的的連續(xù)文文件數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織形形式2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織58 一月份顧顧客表數(shù)據(jù)庫快快照操作型數(shù)數(shù)據(jù)圖1-5生生成簡簡化直接接文件姓名顧客號地址張平C960100北京王英C960101天津王賓C960102上海李強C960103重慶2.6數(shù)數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)組織59連續(xù)文件件 兩兩個連續(xù)續(xù)的簡化化直接文文件比比較他他們的不不同連續(xù)文件件 姓 名 顧 客 號地 址 張平 C960
31、100 北京 王英 C960101 天津 王賓 C960102 上海 劉仲 C960104 重慶 姓 名 顧 客 號地 址 張平 C960100 北京 王英 C960101 沈陽 王賓 C960102 上海 劉仲 C960104 大連 姓名 顧客號 時 間 地 址 張平 C960100 1-2月 北京 王英 C960101 1-1月 天津 王英 C960101 2-2月 沈陽 王賓 C960102 1-2月 上海 劉仲 C960104 1-1月 重慶 劉仲 C960104 2-2月 大連1-2月月份顧客客表比較不同同2月份顧顧客表1月份顧顧客表60連續(xù)文件件+新的的簡單文文件新新的的連續(xù)文文件 姓 名 顧 客 號 地 址 張平 C960100 北京 王賓 C960102 上海 劉仲 C960104 大連 姓名 顧
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 乒乓球課題申報書
- 名師支部建設課題申報書
- 振興鄉(xiāng)村教育課題申報書
- 教學課題立項申報書模板
- 思政教研課題申報書模板
- 家庭研究專題課題申報書
- 課題項目申報書模版
- 個人購平房合同范本
- 課題申報書核心觀點
- 作文課題立項申報書范文
- 教學課件-古文陋室銘劉禹錫課件
- 主題班會教學課件:禁毒教育主題班會(共38張)
- 道路、橋梁、隧道、地鐵施工標準化手冊(專業(yè)篇)
- 初中人音版音樂七年級下冊.第二單元長江之歌.(14張)ppt課件
- NancyDrew分析
- 離心式排風機安裝施工方案及技術(shù)措施
- 中西紀年對照表
- 粵勞社[2002]246號關(guān)于職工在機關(guān)事業(yè)單位與企業(yè)之間流動時社會保險關(guān)系處理意見的通知
- 員工晉升審批表
- 通信防雷與接地系統(tǒng)PPT學習教案
- 現(xiàn)代漢語中新興類詞綴淺談
評論
0/150
提交評論