數(shù)據(jù)倉庫環(huán)境-第二章_第1頁
數(shù)據(jù)倉庫環(huán)境-第二章_第2頁
數(shù)據(jù)倉庫環(huán)境-第二章_第3頁
數(shù)據(jù)倉庫環(huán)境-第二章_第4頁
數(shù)據(jù)倉庫環(huán)境-第二章_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)倉庫環(huán)境-第二章數(shù)據(jù)倉庫的定義以1992年出版《BuildingtheDataWarehouse》為標志,數(shù)據(jù)倉庫速度發(fā)展起來,Inmon也被譽為“數(shù)據(jù)倉庫之父”。對數(shù)據(jù)倉庫的定義是:“數(shù)據(jù)倉庫是支持決策過程的、面向主題的、集成的、隨時間變化的、持久的數(shù)據(jù)集合。數(shù)據(jù)倉庫是體系結構化環(huán)境的核心,是決策支持系統(tǒng)DSS處理的基礎數(shù)據(jù)倉庫的特征數(shù)據(jù)倉庫是面向主題

(Subject-Orientation)的;數(shù)據(jù)倉庫是集成(Integration)的;數(shù)據(jù)倉庫是穩(wěn)定/非易失性

(Nonvolatile)的;數(shù)據(jù)倉庫是隨時間變化

(TimeVagrancy)的;數(shù)據(jù)倉庫是信息的概括和聚集。面向主題汽車人壽健康意外傷亡操作型環(huán)境應用顧客保險單保險費索賠數(shù)據(jù)倉庫主題集成

操作型環(huán)境

應用Am,f應用B1,0應用Cx,y應用D男,女

數(shù)據(jù)倉庫

m,f編碼應用A管道cm應用B管道inches應用C管道m(xù)cf應用D管道yds管道cm屬性度量應用A描述應用B描述應用C描述應用D描述應用Achar(10)應用Bdecfixed(9,2)應用Cpic‘9999999’應用Dchar(12)多重信息源描述char(12)沖突的鍵碼集成?操作型環(huán)境數(shù)據(jù)倉庫JJones女1945年7月20日。。。JJones去年有兩張罰單一次大事故。。。JJonesMain大街123號已婚。。。JJones兩個孩子高血壓。。。人壽保險汽車保險房產(chǎn)保險健康保險JJones女1945年7月20日出生去年兩張罰單一次大事故已婚兩個孩子高血壓。。。顧客非易失性插入刪除插入修改刪除訪問修改訪問數(shù)據(jù)的逐個記錄方式處理數(shù)據(jù)的批量載入/訪問操作型環(huán)境數(shù)據(jù)倉庫隨時間變化操作型環(huán)境數(shù)據(jù)倉庫時間期限:當前到60—90天記錄更新鍵碼結構可能包括也可能不包括時間元素時間期限:5—10年數(shù)據(jù)的復雜快照關鍵字結構包括時間元素數(shù)據(jù)倉庫的結構元數(shù)據(jù)高度綜合級輕度綜合級(數(shù)據(jù)集市)銷售細節(jié)級2000-2001操作型轉換早期細節(jié)級每月銷售1994-2001每周銷售1994-2001當前細節(jié)級銷售細節(jié)級1994-1999面向主題數(shù)據(jù)倉庫面向在高層企業(yè)數(shù)據(jù)模型中已定義好的企業(yè)主題域每個主要主題域都是以一組相關的表來具體實現(xiàn)的,一般通過一個公共關鍵字聯(lián)系起來數(shù)據(jù)倉庫中可能有多個DBMS對數(shù)據(jù)進行管理,或根本沒有DBMS管理GIS中表現(xiàn)為:河流、宗地、土地利用圖斑、地形等面向主題---“顧客”主題主題可能包含不同介質上的數(shù)據(jù)每個表都有時間元素粒度粒度——是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。粒度是設計數(shù)據(jù)倉庫最重要的方面。細化程度越高,粒度級就越??;

細化程度越低,粒度級就越大。粒度——細節(jié)的級別粒度的劃分決定了數(shù)據(jù)倉庫中數(shù)據(jù)量的大小和查詢的詳細程度。多重粒度:圖幅比例尺大小、投影方式、數(shù)據(jù)采集的精度、數(shù)據(jù)的時間和空間分辨力、系統(tǒng)功能等來合理劃分不同的粒度。粒度——細節(jié)的級別高細化——低粒度例如:一個顧客一個月內(nèi)的每個的細節(jié)低細化——高粒度例如:一個顧客一個月內(nèi)的的綜合數(shù)據(jù)倉庫中粒度化的數(shù)據(jù)是重用性的關鍵可利用數(shù)據(jù)倉庫對數(shù)據(jù)一致性進行協(xié)調(diào)粒度數(shù)據(jù)包含了整個企業(yè)的活動和事件歷史可以預測將來未知的需求低粒度化數(shù)據(jù)的優(yōu)點:可由多個用戶以不同的方式使用低級別粒度具有更高的靈活性不足:粒度級別低會占用更多的存儲空間粒度級別低會降低數(shù)據(jù)的訪問能力粒度級別低需要更多的索引項高粒度化數(shù)據(jù)的優(yōu)點:如果數(shù)據(jù)倉庫空間有限,高粒度表示數(shù)據(jù)將比用低粒度級表示效率高很多高粒度級只需要較少的字節(jié)表示,而且只需較少的索引數(shù)據(jù)壓縮在數(shù)據(jù)倉庫中很有用不足:高粒度的數(shù)據(jù)回答細節(jié)查詢的能力較低DSS中對單個事件查詢很少數(shù)據(jù)倉庫設計必須滿足實體需要的最低粒度級鑒于費用,效率,訪問的便利和能夠回答任何可以回答的查詢的能力,數(shù)據(jù)雙重粒度級是大多數(shù)機構建造數(shù)據(jù)倉庫細節(jié)級的最好的體系結構選擇.只有當一個機構的數(shù)據(jù)倉庫環(huán)境中數(shù)據(jù)相對較少時,才能嘗試采用數(shù)據(jù)粒度的單一級別多重粒度級在該時間倉庫中包括兩種類型數(shù)據(jù):輕度綜合數(shù)據(jù)和細節(jié)數(shù)據(jù)大部分處理針對輕度綜合數(shù)據(jù)針對更大細節(jié)數(shù)據(jù)可以深入真實檔案層(<5%)活樣本數(shù)據(jù)庫活樣本數(shù)據(jù)庫是從數(shù)據(jù)倉庫中取得的真實檔案數(shù)據(jù)或輕度綜合數(shù)據(jù)的一個子集.“活”是指這個數(shù)據(jù)庫需要進行周期性的刷新.在某些情況下,使用活樣本數(shù)據(jù)庫可以節(jié)約大量資源活樣本數(shù)據(jù)庫不是通用的數(shù)據(jù)庫,主要適于作統(tǒng)計分析和觀察發(fā)展趨勢數(shù)據(jù)裝載—用一個抽取/選擇程序搜索一個大規(guī)模的數(shù)據(jù)庫,選擇其中部分記錄送到活樣本數(shù)據(jù)庫對活樣本中記錄的選取一般是隨機的,必要時可采用一個判斷樣本最大的好處—存取效率非常高,誤差在可接受范圍在活樣本數(shù)據(jù)庫中要想取得高精度的統(tǒng)計結果,需要將要求形式化,并在活樣本數(shù)據(jù)庫上進行反復處理分區(qū)設計方法數(shù)據(jù)分區(qū)是指把數(shù)據(jù)分散到可獨立處理的分離物理單元中.數(shù)據(jù)分區(qū)的優(yōu)點:數(shù)據(jù)裝載數(shù)據(jù)訪問數(shù)據(jù)存檔數(shù)據(jù)刪除數(shù)據(jù)監(jiān)控數(shù)據(jù)存儲分區(qū)的目的—把數(shù)據(jù)劃分成小的可管理的物理單元任何給定的數(shù)據(jù)單元屬于且僅屬于一個分區(qū)分區(qū)設計方法數(shù)據(jù)分區(qū)的標準:時間業(yè)務范圍地理位置組織單位所有上述標準其中,日期幾乎總是分區(qū)標準中的一個必然組成部分分區(qū)方式:系統(tǒng)層上分區(qū)—一定程度上指某些DBMS和操作系統(tǒng)的功能應用層上分區(qū)—由設計的應用程序完成,并由開發(fā)者和程序員嚴格控制應用層上分區(qū)相對更有意義,因為每年的數(shù)據(jù)可以有不同的定義,而且數(shù)據(jù)從一個物理設備轉到另一個物理設備不會有問題數(shù)據(jù)倉庫的數(shù)據(jù)組織簡單堆積數(shù)據(jù)輪轉綜合數(shù)據(jù)簡化直接數(shù)據(jù)連續(xù)數(shù)據(jù)簡單堆積文件1月1日1月2日1月3日……2月1日2月2日2月3日……3月1日3月2日3月3日……………………輪轉綜合文件星期一星期二……星期天第一周第二周……第五周一月二月……十二月

………………輪轉綜合文件與簡單堆積結構的比較簡單直接文件數(shù)據(jù)庫快照姓名顧客號地址張平C960100北京王珂C960101上海劉輝C960102天津李強C960103成都

...

一月份顧客表操作型數(shù)據(jù)生成簡化直接文件連續(xù)文件姓名顧客號地址張平C020100北京王珂C020101上海張順C020102天津李強C020103成都姓名顧客號地址張平C020100北京王珂C020101上海張順C020101廣州李強C020103成都劉誠C020105杭州姓名顧客號日期地址張平C0201001-2月北京王珂C0201011-2月上海張順C0201031月天津張順C0201032月廣州李強C0201031-2月成都劉誠C0201052月杭州1月份顧客表2月份顧客表1-2月份顧客表審計與數(shù)據(jù)倉庫能對數(shù)據(jù)倉庫進行審計,但不該審計,原因在于:原先在數(shù)據(jù)倉庫中沒有的數(shù)據(jù)會突然出現(xiàn)當需要審計能力時,數(shù)據(jù)進入數(shù)據(jù)倉庫的時間標定過程會發(fā)生急劇變化當需要審計能力時,數(shù)據(jù)倉庫的備份和恢復限制會發(fā)生急劇變化會使數(shù)據(jù)粒度處于最低的級別上數(shù)據(jù)的同構/異構數(shù)據(jù)倉庫中的數(shù)據(jù)是異構的第一次劃分是按企業(yè)主要主題進行的,但每一個主題域還有更細的劃分,主題域中的數(shù)據(jù)又劃分到多個表中。數(shù)據(jù)的同構/異構數(shù)據(jù)倉庫中的數(shù)據(jù)按下列標準劃分:主題域表數(shù)據(jù)在表中的位置基于數(shù)據(jù)倉庫數(shù)據(jù)建立的體系結構,數(shù)據(jù)的各個部分非常容易理解和訪問。數(shù)據(jù)倉庫中的錯誤數(shù)據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)出錯時,具有多種解決方案.但每種方法都是優(yōu)勢與劣執(zhí)共存,沒有一種是絕對正確或錯誤的.只是在某種條件下一種占優(yōu).例:假設7月1日在操作型系統(tǒng)中,賬戶ABC加入了一條5000美元的賬目。7月2日在數(shù)據(jù)倉庫中為賬戶ABC產(chǎn)生了這5000美元賬目的一個快照。接著,在8月15日發(fā)現(xiàn)錯誤。這個賬目不是5000美元,而是750美元。那么,該如何糾正這個錯誤呢?數(shù)據(jù)倉庫中的錯誤數(shù)據(jù)修正方法一:直接將7月2日的數(shù)據(jù)5000修改為750,問題:數(shù)據(jù)集成破壞更新必須在數(shù)據(jù)倉庫環(huán)境中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論