商務(wù)智能教學(xué)課件:03 Data Warehouse 2_第1頁
商務(wù)智能教學(xué)課件:03 Data Warehouse 2_第2頁
商務(wù)智能教學(xué)課件:03 Data Warehouse 2_第3頁
商務(wù)智能教學(xué)課件:03 Data Warehouse 2_第4頁
商務(wù)智能教學(xué)課件:03 Data Warehouse 2_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫Data Warehouse數(shù)據(jù)倉庫從數(shù)據(jù)庫到數(shù)據(jù)倉庫數(shù)據(jù)倉庫及其四大特征數(shù)據(jù)倉庫的基本結(jié)構(gòu)數(shù)據(jù)集市與數(shù)據(jù)倉庫數(shù)據(jù)倉庫的應(yīng)用23數(shù)據(jù)倉庫的結(jié)構(gòu)4數(shù)據(jù)倉庫的關(guān)鍵技術(shù)數(shù)據(jù)的ETL(抽取、轉(zhuǎn)換、裝載)從數(shù)據(jù)源.到數(shù)據(jù)目標(biāo).的映射存儲和管理數(shù)據(jù)的訪問和表現(xiàn)元數(shù)據(jù)5數(shù)據(jù)源(1/3)多數(shù)據(jù)源數(shù)據(jù)倉庫的數(shù)據(jù)來源于多個數(shù)據(jù)源。不同格式的數(shù)據(jù):由于企業(yè)在長期事務(wù)處理過程中隨數(shù)據(jù)庫管理系統(tǒng)本身發(fā)展,形成了企業(yè)內(nèi)從簡單到復(fù)雜、從小型到大型的各種數(shù)據(jù)庫系統(tǒng),其中有大型關(guān)系數(shù)據(jù)庫、對象數(shù)據(jù)庫、桌面數(shù)據(jù)庫、各種非格式化的數(shù)據(jù)文件等。不同的數(shù)據(jù)操作平臺不同的物理位置6數(shù)據(jù)源(2/3)數(shù)據(jù)源可以是遞歸的數(shù)據(jù)倉庫的數(shù)據(jù)

2、源可以是另外一個數(shù)據(jù)倉庫(或數(shù)據(jù)集市)基于本數(shù)據(jù)倉庫的分析型應(yīng)用。數(shù)據(jù)源的抽取數(shù)據(jù)抽取軟件7數(shù)據(jù)源(3/3)常見的數(shù)據(jù)源有:流行的關(guān)系數(shù)據(jù)庫系統(tǒng): Oracle, Sybase, SQL Server, DB2等面向?qū)ο髷?shù)據(jù)庫系統(tǒng):Objectstore等傳統(tǒng)的桌面數(shù)據(jù)庫系統(tǒng): foxbase, foxpro等文件系統(tǒng)中的數(shù)據(jù)文件: UNIX, WINDOWS等其它數(shù)據(jù)源: word, excel等8數(shù)據(jù)目標(biāo)原子層(Atomic layer)和集成數(shù)據(jù)數(shù)據(jù)集市(Data market) 操作數(shù)據(jù)存儲(Operational Data Storage, ODS)緩沖區(qū)(Staging area)

3、原子層和集成數(shù)據(jù)以及數(shù)據(jù)集市,將作為數(shù)據(jù)倉庫的主要數(shù)據(jù)存儲,在以后的環(huán)節(jié)中進(jìn)行介紹9操作數(shù)據(jù)存儲操作數(shù)據(jù)存儲在企業(yè)范圍內(nèi),針對特定主題區(qū)域,用于支持戰(zhàn)術(shù)決策支持( tactics decision-making)的綜合數(shù)據(jù)的更新集合具有以下特點(diǎn)面向特定分析應(yīng)用完整性當(dāng)前有效可變的詳盡的10DB-ODS-DW11緩沖區(qū)數(shù)據(jù)流的中間站白板式(White-board),無特定結(jié)構(gòu)系統(tǒng)中可能存在多處緩沖區(qū)12ETL過程13數(shù)據(jù)的抽取與刷新數(shù)據(jù)抽取數(shù)據(jù)倉庫中的數(shù)據(jù)來源于數(shù)據(jù)源,將數(shù)據(jù)源中數(shù)據(jù)通過網(wǎng)絡(luò)進(jìn)行抽取,并經(jīng)加工、轉(zhuǎn)換、綜合后形成數(shù)據(jù)倉庫中的數(shù)據(jù),這就是數(shù)據(jù)倉庫的數(shù)據(jù)抽取。數(shù)據(jù)刷新經(jīng)過抽取進(jìn)入數(shù)據(jù)倉

4、庫的數(shù)據(jù),在經(jīng)過一段時間后要重新修正,修改那些過時的數(shù)據(jù),保存那些不變的數(shù)據(jù),此種動作稱為數(shù)據(jù)倉庫的數(shù)據(jù)刷新。數(shù)據(jù)刷新的過程與抽取類似,但刷新的數(shù)據(jù)量往往小于抽取的數(shù)據(jù)量。由于僅需要對修改過的數(shù)據(jù)進(jìn)行刷新,因而其實(shí)現(xiàn)難度與復(fù)雜性要大于數(shù)據(jù)抽取。數(shù)據(jù)抽取數(shù)據(jù)抽取的重要性數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。在數(shù)據(jù)倉庫層次結(jié)構(gòu)中,數(shù)據(jù)抽取工作占非常重要的地位,它必須屏蔽底層數(shù)據(jù)的結(jié)構(gòu)復(fù)雜性和物理位置的復(fù)雜性,同時還要實(shí)現(xiàn)對數(shù)據(jù)倉庫中數(shù)據(jù)的自動刷新,要對數(shù)據(jù)倉庫的元數(shù)據(jù)和數(shù)據(jù)進(jìn)行維護(hù)

5、。數(shù)據(jù)抽取的實(shí)現(xiàn)方法考慮到不同數(shù)據(jù)源的數(shù)據(jù)格式和物理位置的復(fù)雜性,不同的數(shù)據(jù)源可能需要采用不同的數(shù)據(jù)抽取方法。1415轉(zhuǎn)換和集成的復(fù)雜性(1/4)數(shù)據(jù)從操作型環(huán)境到數(shù)據(jù)倉庫的傳遞需要完成以下功能:從操作型環(huán)境到數(shù)據(jù)倉庫環(huán)境的數(shù)據(jù)抽取要實(shí)現(xiàn)技術(shù)上的變化。這種變化不僅指一種DBMS的變化,還可能包含源于操作系統(tǒng)的變化,硬件的變化,甚至源于基于硬件的數(shù)據(jù)結(jié)構(gòu)的變化要求盡量避免從在線窗口進(jìn)行數(shù)據(jù)抽取來自于操作型環(huán)境中的輸入關(guān)鍵字在輸出到數(shù)據(jù)倉庫之前往往需要被重建和轉(zhuǎn)換。簡單情況下可能需要加入時間非關(guān)鍵字?jǐn)?shù)據(jù)在從操作型環(huán)境轉(zhuǎn)移到數(shù)據(jù)倉庫環(huán)境時要重新格式化。例如日期格式的轉(zhuǎn)換等16轉(zhuǎn)換和集成的復(fù)雜性(2/

6、4)要進(jìn)行數(shù)據(jù)清理以保持輸入數(shù)據(jù)的正確性。數(shù)據(jù)清理常用形式有:取值范圍檢查、交叉記錄檢驗、以及簡單的格式檢驗因為存在多個輸入數(shù)據(jù)源,當(dāng)其中的數(shù)據(jù)傳入到數(shù)據(jù)倉庫時要進(jìn)行合并當(dāng)存在多個輸入記錄時,進(jìn)行記錄合并之前要先進(jìn)行關(guān)鍵字解析。如果不同的記錄采用不同的關(guān)鍵字結(jié)構(gòu),那么,完成記錄合并的程序必須提供關(guān)鍵字解析功能當(dāng)存在多個輸入記錄時,這些記錄的順序可能不相同。在這種情況下需要對輸入記錄進(jìn)行重新排序可能會產(chǎn)生多個輸出結(jié)果,同一個傳遞過程可能會產(chǎn)生不同綜合層次的結(jié)果需要提供缺省值。有時候數(shù)據(jù)倉庫的一個輸出值沒有對應(yīng)的數(shù)據(jù)源,這時,必須提供缺省值轉(zhuǎn)換和集成的復(fù)雜性(3/4)為抽取過程選擇輸入的數(shù)據(jù)時,其

7、效率通常是一個問題。例如:如果無法將需要抽取的操作型數(shù)據(jù)和不需要抽取的操作型數(shù)據(jù)區(qū)別開來,就必須讀取整個記錄,從而導(dǎo)致在線環(huán)境一直處于忙碌狀態(tài),進(jìn)而擠掉其它的處理活動經(jīng)常需要進(jìn)行數(shù)據(jù)的匯總。多個操作型記錄被合成單個簡單的記錄,那些需要匯總的詳細(xì)的輸入記錄必須進(jìn)行正確的排序。當(dāng)把不同類型的記錄匯總為一個數(shù)據(jù)倉庫記錄時,必須對這些不同輸入記錄類型的到達(dá)次序進(jìn)行協(xié)調(diào),以便產(chǎn)生一個單一記錄在數(shù)據(jù)元素從操作型環(huán)境轉(zhuǎn)移到數(shù)據(jù)倉庫的過程中,應(yīng)該對數(shù)據(jù)元素的重命名操作進(jìn)行跟蹤。需要讀取的輸入記錄常常具有不常見的或非標(biāo)準(zhǔn)的格式,在進(jìn)入數(shù)據(jù)倉庫時必須要對它們進(jìn)行轉(zhuǎn)換。必須指定轉(zhuǎn)換邏輯,轉(zhuǎn)換機(jī)制(轉(zhuǎn)換前后看上去應(yīng)該

8、是什么樣子)1718轉(zhuǎn)換和集成的復(fù)雜性(4/4)必須理解并弄清楚建立在操作性應(yīng)用程序邏輯中的數(shù)據(jù)之間的關(guān)系,這樣這些數(shù)據(jù)記錄才可以用來作為輸入。而這些關(guān)系常常是深奧難懂的,并且沒有可供參考的文檔資料。但是當(dāng)數(shù)據(jù)轉(zhuǎn)移到數(shù)據(jù)倉庫時,必須弄清楚這些關(guān)系。必須要進(jìn)行數(shù)據(jù)編碼的轉(zhuǎn)換,如EBCDIC到ASCII的轉(zhuǎn)換(或反過來)。數(shù)據(jù)倉庫的設(shè)計必須符合企業(yè)的數(shù)據(jù)模型。當(dāng)數(shù)據(jù)從操作型環(huán)境(反映當(dāng)前)轉(zhuǎn)移到數(shù)據(jù)倉庫(反映歷史)中,可能需要加入時間元素。數(shù)據(jù)倉庫著眼于企業(yè)信息化,操作型數(shù)據(jù)環(huán)境著眼于事務(wù)。必須考慮將要進(jìn)入數(shù)據(jù)倉庫的新創(chuàng)建記錄的輸出問題。19數(shù)據(jù)刷新數(shù)據(jù)倉庫系統(tǒng)必須能夠感知到在OLTP數(shù)據(jù)庫中數(shù)據(jù)

9、的變化情況,并及時有效地把這些變化反映到數(shù)據(jù)倉庫中去,以使得數(shù)據(jù)倉庫中的數(shù)據(jù)能真實(shí)地反映實(shí)際情況,因此必須對數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)刷新。一般數(shù)據(jù)刷新的方法包括: 時間戳 DELTA文件 建立映象文件 日志文件在一個數(shù)據(jù)倉庫系統(tǒng)中,可以同時采用上述的四種數(shù)據(jù)刷新方式,以滿足不同數(shù)據(jù)源的數(shù)據(jù)刷新需要。20DELTA文件適用情況有些基于OLTP數(shù)據(jù)庫的操作型應(yīng)用程序在工作過程中會形成一些DELTA文件以記錄該應(yīng)用所作的數(shù)據(jù)修改操作,可根據(jù)該DELTA文件進(jìn)行數(shù)據(jù)刷新。優(yōu)點(diǎn)采用此方法可避免對整個數(shù)據(jù)庫的對比掃描,具有較高的刷新效率。缺點(diǎn)這樣的應(yīng)用程序并不普遍,修改現(xiàn)有的應(yīng)用程序的工作量又太大。21建立映象文

10、件實(shí)現(xiàn)方法在上一次數(shù)據(jù)刷新后對數(shù)據(jù)庫作一次快照在本次刷新之前再對數(shù)據(jù)庫作一次快照比較兩個快照的不同,從而確定數(shù)據(jù)倉庫的數(shù)據(jù)刷新操作優(yōu)點(diǎn)對于數(shù)據(jù)庫和操作型應(yīng)用無特別要求缺點(diǎn)需要占用大量的系統(tǒng)資源可能較大地影響原有數(shù)據(jù)庫系統(tǒng)的性能22日志文件實(shí)現(xiàn)方法一般來說,現(xiàn)代OLTP數(shù)據(jù)庫都有日志文件,可根據(jù)OLTP數(shù)據(jù)庫的日志信息來實(shí)現(xiàn)數(shù)據(jù)倉庫的數(shù)據(jù)刷新。優(yōu)點(diǎn)日志是OLTP數(shù)據(jù)庫的固有機(jī)制不會影響原有OLTP數(shù)據(jù)庫的性能具有比DELTA文件和建立映象文件更高的刷新效率缺點(diǎn)無法應(yīng)用于無日志文件機(jī)制的遺留數(shù)據(jù)庫系統(tǒng)等23數(shù)據(jù)周期所謂數(shù)據(jù)周期是指從操作型環(huán)境中的數(shù)據(jù)發(fā)生變化起,到這個變化反映到數(shù)據(jù)倉庫中所用到的時

11、間。通常,數(shù)據(jù)周期應(yīng)該不低于24個小時,因為:操作型環(huán)境與數(shù)據(jù)倉庫環(huán)境結(jié)合得越緊密,那么所需技術(shù)也就越昂貴越復(fù)雜。一個更有說服力的原因是:時間間隔給環(huán)境附加了一個特殊的限制。間隔24小時,使得不必要在數(shù)據(jù)倉庫環(huán)境中做操作性處理;也不必在操作型環(huán)境做數(shù)據(jù)倉庫處理,間隔如果太短了可能會達(dá)不到這種效果。時間間隔的一個好處是能夠保證在轉(zhuǎn)入到數(shù)據(jù)倉庫之前,數(shù)據(jù)可以達(dá)到穩(wěn)定。數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前進(jìn)行調(diào)整十分簡單。而如果數(shù)據(jù)被送到數(shù)據(jù)倉庫中之后,一旦發(fā)現(xiàn)必須對這些數(shù)據(jù)進(jìn)行調(diào)整,就必須在操作型環(huán)境和數(shù)據(jù)倉庫中同時調(diào)整。24ETL工具抽取/轉(zhuǎn)換/裝載工具(ETL)的出現(xiàn),通常分為兩類:產(chǎn)生源代碼的軟件產(chǎn)生參數(shù)

12、化的運(yùn)行時模塊的軟件產(chǎn)生源代碼的軟件比運(yùn)行時軟件要強(qiáng)大,它可以以原有數(shù)據(jù)的格式對它們進(jìn)行訪問而運(yùn)行時軟件則需要首先對原有數(shù)據(jù)格式進(jìn)行統(tǒng)一。進(jìn)行了統(tǒng)一之后,運(yùn)行時模塊就可以訪問原有數(shù)據(jù)。不幸的是,對原有數(shù)據(jù)格式進(jìn)行統(tǒng)一的過程頗費(fèi)心思在兩種情況下,ETL軟件都可以使得轉(zhuǎn)換、重新格式化、從多個傳統(tǒng)操作型數(shù)據(jù)源中集成數(shù)據(jù)的過程自動進(jìn)行數(shù)據(jù)倉庫中的數(shù)據(jù)及數(shù)據(jù)管理數(shù)據(jù)倉庫中的數(shù)據(jù)數(shù)據(jù)倉庫為企業(yè)管理人員的分析、決策操作提供統(tǒng)一、集成的基礎(chǔ)數(shù)據(jù),包括:企業(yè)內(nèi)部各個部門當(dāng)前及其歷史上的細(xì)節(jié)性業(yè)務(wù)數(shù)據(jù)以及為了進(jìn)行分析決策操作而生成的分析型數(shù)據(jù)對數(shù)據(jù)倉庫中數(shù)據(jù)的管理數(shù)據(jù)倉庫中的數(shù)據(jù)是一個統(tǒng)一、集成、單一的龐大數(shù)據(jù)集

13、合,需要借助成熟的數(shù)據(jù)庫技術(shù)對其進(jìn)行存儲管理,即利用改造過的關(guān)系數(shù)據(jù)庫系統(tǒng)來組織和管理數(shù)據(jù)倉庫中的數(shù)據(jù)。2526原子層數(shù)據(jù)倉庫的基礎(chǔ), 上層分析型應(yīng)用的數(shù)據(jù)來源,所有戰(zhàn)略分析型數(shù)據(jù)的基礎(chǔ)。具有以下特點(diǎn)原子層保持歷史集成性原子層擁有數(shù)據(jù)倉庫的最低細(xì)節(jié)(粒度)數(shù)據(jù)原子層的構(gòu)建是迭代的原子層的數(shù)據(jù)結(jié)構(gòu)是面向企業(yè)的原子層可以是集成的原子層是靜態(tài)的27歷史完整性28粒度(1/4)粒度對數(shù)據(jù)倉庫中的數(shù)據(jù)的綜合程度的一個度量既影響數(shù)據(jù)倉庫中數(shù)據(jù)量的多少也影響數(shù)據(jù)倉庫能夠回答詢問的種類粒度小細(xì)節(jié)程度高綜合程度低回答查詢種類多查詢效率低粒度大細(xì)節(jié)程度低綜合程度高回答查詢種類少查詢效率高29粒度(2/4)樣本數(shù)據(jù)

14、庫從數(shù)據(jù)倉庫中取得的真實(shí)檔案數(shù)據(jù)或輕度綜合數(shù)據(jù)的一個子集倉庫中的一部分?jǐn)?shù)據(jù)子集周期性刷新不能用于一般的分析目的張三是不是我的顧客?只能用于分析統(tǒng)計在顧客中,多少是具有大學(xué)學(xué)歷的未婚男性?30粒度(3/4)樣本數(shù)據(jù)庫粒度級別根據(jù)采樣率的高低來劃分采樣粒度不同的數(shù)據(jù)庫可能具有相同綜合級別按照1/100對客戶記錄進(jìn)行抽樣按照1/1000對客戶進(jìn)行抽樣按照1/10000對客戶進(jìn)行抽樣31粒度(4/4)采購表(商品號,供應(yīng)商號,供應(yīng)日期,供應(yīng)價,)采購表H1(商品號,時間段1,采購總量,)采購表Hn(商品號,時間段n,采購總量,)銷售表(商品號,顧客號,銷售日期,售價,銷售量,)銷售表1(商品號,時間段

15、1,銷售總量,)銷售表n(商品號,時間段n,銷售總量,)庫存表(商品號,庫房號,庫存量,日期,)庫存表1(商品號,庫房號,庫存量,星期,)庫存表n(商品號,庫房號,庫存量,年份,)32多重粒度(1/3)33多重粒度(2/3)34多重粒度(3/3)應(yīng)對不同級別的粒度要求大粒度數(shù)據(jù)快速存儲設(shè)備提高性能小粒度數(shù)據(jù)低速存儲設(shè)備滿足細(xì)節(jié)查詢35多維度,多層次數(shù)據(jù)倉庫是多維度多層次的維度是觀察數(shù)據(jù)對象的角度層次是數(shù)據(jù)對象的綜合程度36數(shù)據(jù)倉庫的數(shù)據(jù)組織形式簡單堆積文件輪轉(zhuǎn)綜合文件簡化直接文件連續(xù)文件37簡單堆積文件38輪轉(zhuǎn)綜合文件39簡化直接文件類似簡單堆積文件,間隔一定時間的數(shù)據(jù)庫快照40連續(xù)文件41數(shù)

16、據(jù)倉庫中的快照(1/3)數(shù)據(jù)倉庫內(nèi)部以一種稱之為“快照”的數(shù)據(jù)結(jié)構(gòu)為中心來組織。數(shù)據(jù)倉庫中的數(shù)據(jù)記錄是某一時刻生成的快照,包含多種數(shù)據(jù)類型,通常包括:關(guān)鍵字,標(biāo)志快照的關(guān)鍵字時間,標(biāo)志事件發(fā)生的時間單元非關(guān)鍵字的主要數(shù)據(jù),與關(guān)鍵字相關(guān)連的主要非關(guān)鍵字?jǐn)?shù)據(jù)二級數(shù)據(jù)。在形成快照時偶然捕獲并被置入快照中的數(shù)據(jù)當(dāng)數(shù)據(jù)量不是太大,數(shù)據(jù)穩(wěn)定,并且需要詳細(xì)記錄歷史時,通過存儲已發(fā)生的每次活動的詳細(xì)情況,數(shù)據(jù)倉庫可以跟蹤每一件業(yè)務(wù)事件。否則,需要存放集成數(shù)據(jù)數(shù)據(jù)倉庫中的快照(2/3)快照的生成由一些離散活動的發(fā)生而觸發(fā),或由規(guī)律性的時間推移而觸發(fā)引發(fā)快照的業(yè)務(wù)事件可能是一個重要活動的發(fā)生例如,填寫支票、打電話

17、、收到貨物等在離散活動的情況下,一般是出現(xiàn)了一些業(yè)務(wù)活動需要記錄下來離散活動是隨機(jī)發(fā)生的一種快照觸發(fā)器是時間例如一天的結(jié)束、一周的結(jié)束、一個月的結(jié)束與時間相關(guān)的快照的建立是有規(guī)律的并且是可以預(yù)知的一些例子每當(dāng)一個顧客搬遷(地址發(fā)生改變)時,數(shù)據(jù)倉庫就會相應(yīng)改變,而且一個連續(xù)的顧客歷史記錄就會寫入數(shù)據(jù)倉庫假設(shè)保險金按每半年支付一次,那么,每隔六個月,就會在數(shù)據(jù)倉庫中創(chuàng)建一個快照記錄,用來描述保險金的支付情況,包括支付時間、支付金額4243數(shù)據(jù)倉庫中的快照(3/3)快照由四個基本的組成部分:關(guān)鍵字可以唯一也可以是不唯一的,通常是復(fù)合關(guān)鍵字,用來識別記錄和主要數(shù)據(jù)時間單元通常是指快照所描述事情發(fā)生的

18、時刻,有時,時間單元指的是捕獲數(shù)據(jù)的時刻。(在有些情況下,會對事情發(fā)生的時刻和捕獲時間信息的時刻加以區(qū)別,而在有些情況下則不對它們進(jìn)行區(qū)別。)在由時間推移觸發(fā)事件的情況下,時間元素可以暗含于而不是直接附于快照中主要數(shù)據(jù)是與記錄的關(guān)鍵字直接相關(guān)的非關(guān)鍵字?jǐn)?shù)據(jù)。例如,假設(shè)關(guān)鍵字標(biāo)識產(chǎn)品的銷售,時間元素描述的是銷售活動終結(jié)的時刻,主要數(shù)據(jù)描述的是銷售什么產(chǎn)品以及銷售的價格、條件、地點(diǎn)和代理等作為快照一部分而被捕獲的,但與主要數(shù)據(jù)和關(guān)鍵字都無直接關(guān)系的二級數(shù)據(jù)(可選)。二級數(shù)據(jù)表示快照記錄創(chuàng)建時捕獲的外來信息。如與銷售相關(guān)的二級數(shù)據(jù)是關(guān)于被售產(chǎn)品的一些附帶信息。將來可能會在DSS處理過程中使用到的任何

19、附帶信息都可以加入到數(shù)據(jù)倉庫記錄中去44元數(shù)據(jù)(1/2)關(guān)于數(shù)據(jù)的數(shù)據(jù),描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、編碼、索引等內(nèi)容通過元數(shù)據(jù)可以將數(shù)據(jù)倉庫和復(fù)雜的數(shù)據(jù)源系統(tǒng)的變化隔離,是數(shù)據(jù)倉庫開發(fā)和維護(hù)的一個關(guān)鍵因素,也是保證數(shù)據(jù)抽取質(zhì)量的依據(jù)。種類關(guān)于數(shù)據(jù)源的元數(shù)據(jù)關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)關(guān)于數(shù)據(jù)倉庫映射的元數(shù)據(jù)關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)45元數(shù)據(jù)(2/2)元數(shù)據(jù)是數(shù)據(jù)倉庫的一個重要組成部分,處于數(shù)據(jù)倉庫的上層,并且記錄數(shù)據(jù)倉庫中對象的位置。一般,元數(shù)據(jù)存儲記錄了以下內(nèi)容:數(shù)據(jù)倉庫程序員所知道的數(shù)據(jù)結(jié)構(gòu)。DSS分析員所知道的數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)倉庫的源數(shù)據(jù)。數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫時發(fā)生的轉(zhuǎn)換。數(shù)據(jù)模型。數(shù)據(jù)模型和數(shù)據(jù)倉庫的關(guān)

20、系。抽取數(shù)據(jù)的歷史記錄。46關(guān)于數(shù)據(jù)源的元數(shù)據(jù)它是現(xiàn)有的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源的描述信息。這類元數(shù)據(jù)是對不同平臺上的數(shù)據(jù)源的物理結(jié)構(gòu)和含義的描述。具體為:數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu)所有數(shù)據(jù)項的業(yè)務(wù)定義每個數(shù)據(jù)項更新的頻率每個數(shù)據(jù)項的有效值其它系統(tǒng)中具有相同業(yè)務(wù)含義的數(shù)據(jù)項的清單關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)描述了數(shù)據(jù)倉庫中有什么數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)系。它們是用戶使用、管理數(shù)據(jù)倉庫的基礎(chǔ)可以支持用戶從數(shù)據(jù)倉庫中獲取數(shù)據(jù)4748與數(shù)據(jù)倉庫映射相關(guān)的元數(shù)據(jù)由數(shù)據(jù)源中的數(shù)據(jù)到數(shù)據(jù)倉庫中的數(shù)據(jù)的轉(zhuǎn)換過程,是需要按照一定的規(guī)則來進(jìn)行的,這種規(guī)則往往是用一定的表達(dá)式或算法形式表示,它們是數(shù)據(jù)倉庫系統(tǒng)的元數(shù)據(jù)的重要組成部分。這

21、類元數(shù)據(jù)用于支持?jǐn)?shù)據(jù)的抽取和訪問操作。記錄的信息包括:數(shù)據(jù)源系統(tǒng):數(shù)據(jù)存取的規(guī)范、數(shù)據(jù)庫文檔、信息描述、安全性、數(shù)據(jù)所有者權(quán)限等;數(shù)據(jù)處理過程:數(shù)據(jù)的抽取、加載、清洗、過濾、協(xié)調(diào)及完成處理所需遵守的規(guī)則;數(shù)據(jù)的刷新:數(shù)據(jù)刷新方式、刷新頻率等信息。 關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)這類元數(shù)據(jù)是數(shù)據(jù)倉庫中信息使用情況的描述數(shù)據(jù)倉庫的用戶最關(guān)心兩類元數(shù)據(jù):元數(shù)據(jù)告訴數(shù)據(jù)倉庫中有什么數(shù)據(jù),它們是從哪兒來的,即如何按主題查看數(shù)據(jù)倉庫的內(nèi)容;元數(shù)據(jù)提供已有的可重復(fù)利用的查詢語言信息。關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)能幫助用戶到數(shù)據(jù)倉庫查詢所需要的信息,用以解決企業(yè)問題4950元數(shù)據(jù)的作用BusinessInformationAdministrationTransformation ToolsBusiness Subject AreasBusiness ViewsMetadataElementsMappingsBusiness ViewsTem

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論