版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)1.2.1 ETL1.2.2 元數(shù)據(jù)元數(shù)據(jù)1.2.3 外部數(shù)據(jù)外部數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)1.2.1 ETL一、一、ETL的概念的概念 數(shù)據(jù)倉庫的數(shù)據(jù)倉庫的ETL系統(tǒng)是數(shù)據(jù)倉庫中數(shù)據(jù)整理階系統(tǒng)是數(shù)據(jù)倉庫中數(shù)據(jù)整理階段的一個(gè)主要工具,它與元數(shù)據(jù)管理相結(jié)合,提供段的一個(gè)主要工具,它與元數(shù)據(jù)管理相結(jié)合,提供對(duì)不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗、裝載對(duì)不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗、裝載的功能。的功能。 通常而言,開發(fā)一個(gè)數(shù)據(jù)倉庫項(xiàng)目包括了通常而言,開發(fā)一個(gè)數(shù)據(jù)倉庫項(xiàng)目
2、包括了3個(gè)個(gè)主要步驟:需求主要步驟:需求/建模,建模,ETL開發(fā),最后的前端開開發(fā),最后的前端開發(fā)。發(fā)。第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.1 ETL一、一、ETL的概念(續(xù))的概念(續(xù))數(shù)數(shù)據(jù)據(jù)源源 ETL數(shù)數(shù)據(jù)據(jù)抽抽取取數(shù)數(shù)據(jù)據(jù)轉(zhuǎn)轉(zhuǎn)換換數(shù)數(shù)據(jù)據(jù)裝裝載載數(shù)據(jù)倉庫數(shù)據(jù)倉庫OLAP數(shù)據(jù)挖掘數(shù)據(jù)挖掘客戶端客戶端1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.1 ETL一、一、ETL的概念(續(xù))的概念(續(xù)) 可以看出可以看出ETL是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),同是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),同時(shí)也是構(gòu)建數(shù)據(jù)倉庫的基礎(chǔ)與前提,是數(shù)據(jù)倉庫從時(shí)也是構(gòu)建
3、數(shù)據(jù)倉庫的基礎(chǔ)與前提,是數(shù)據(jù)倉庫從業(yè)務(wù)系統(tǒng)獲得數(shù)據(jù)的必經(jīng)之路。用戶從數(shù)據(jù)源抽取業(yè)務(wù)系統(tǒng)獲得數(shù)據(jù)的必經(jīng)之路。用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)裝載到數(shù)據(jù)倉庫中去。好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)裝載到數(shù)據(jù)倉庫中去。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.1 ETL一、一、ETL的概念的概念 數(shù)據(jù)抽取是數(shù)據(jù)源接口,從業(yè)務(wù)系統(tǒng)中抽取數(shù)數(shù)據(jù)抽取是數(shù)據(jù)源接口,從業(yè)務(wù)系統(tǒng)中抽取數(shù)據(jù),為數(shù)據(jù)倉庫輸入數(shù)據(jù)。據(jù),為數(shù)據(jù)倉庫輸入數(shù)據(jù)。 典型的數(shù)據(jù)抽取接口包括數(shù)據(jù)庫接口和
4、文件典型的數(shù)據(jù)抽取接口包括數(shù)據(jù)庫接口和文件接口,對(duì)于不同的數(shù)據(jù)平臺(tái)、不同源數(shù)據(jù)形式、不接口,對(duì)于不同的數(shù)據(jù)平臺(tái)、不同源數(shù)據(jù)形式、不同性能要求和業(yè)務(wù)量的業(yè)務(wù)系統(tǒng)以及不同數(shù)據(jù)量的同性能要求和業(yè)務(wù)量的業(yè)務(wù)系統(tǒng)以及不同數(shù)據(jù)量的源數(shù)據(jù),采取不同的數(shù)據(jù)抽取接口。源數(shù)據(jù),采取不同的數(shù)據(jù)抽取接口。 1、數(shù)據(jù)抽取、數(shù)據(jù)抽取1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.1 ETL一、一、ETL的概念的概念1、數(shù)據(jù)抽?。ɡm(xù))、數(shù)據(jù)抽?。ɡm(xù)) 在數(shù)據(jù)抽取時(shí),需要重點(diǎn)考慮數(shù)據(jù)抽取的效在數(shù)據(jù)抽取時(shí),需要重點(diǎn)考慮數(shù)據(jù)抽取的效率,以及對(duì)現(xiàn)有業(yè)務(wù)系統(tǒng)性能及安全的影響。數(shù)率,
5、以及對(duì)現(xiàn)有業(yè)務(wù)系統(tǒng)性能及安全的影響。數(shù)據(jù)的抽取須既能滿足決策的需要,又不影響業(yè)務(wù)據(jù)的抽取須既能滿足決策的需要,又不影響業(yè)務(wù)系統(tǒng)的性能,所以進(jìn)行數(shù)據(jù)抽取時(shí)應(yīng)制定相應(yīng)的系統(tǒng)的性能,所以進(jìn)行數(shù)據(jù)抽取時(shí)應(yīng)制定相應(yīng)的策略,包括策略,包括抽取方式抽取方式、抽取時(shí)機(jī)抽取時(shí)機(jī)、抽取周期抽取周期等內(nèi)等內(nèi)容。容。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.1 ETL一、一、ETL的概念的概念2、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗 數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗是指對(duì)從業(yè)務(wù)系統(tǒng)中抽數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗是指對(duì)從業(yè)務(wù)系統(tǒng)中抽取的數(shù)據(jù)根據(jù)數(shù)據(jù)倉庫系統(tǒng)模型的要求,進(jìn)行數(shù)取的數(shù)據(jù)
6、根據(jù)數(shù)據(jù)倉庫系統(tǒng)模型的要求,進(jìn)行數(shù)據(jù)的轉(zhuǎn)換、清洗、拆分、匯總等處理,保證來自據(jù)的轉(zhuǎn)換、清洗、拆分、匯總等處理,保證來自不同系統(tǒng)、不同格式的數(shù)據(jù)具有一致性和完整性,不同系統(tǒng)、不同格式的數(shù)據(jù)具有一致性和完整性,并按要求裝入數(shù)據(jù)倉庫。并按要求裝入數(shù)據(jù)倉庫。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.1 ETL一、一、ETL的概念的概念2、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗(續(xù))、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗(續(xù))數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗主要完成如下數(shù)據(jù)不一致:數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗主要完成如下數(shù)據(jù)不一致:1)源數(shù)據(jù)庫系統(tǒng)同數(shù)據(jù)倉庫系統(tǒng)在模型上的差異。)源數(shù)據(jù)庫系統(tǒng)同數(shù)據(jù)倉庫系統(tǒng)在
7、模型上的差異。2)源數(shù)據(jù)庫系統(tǒng)不一致。)源數(shù)據(jù)庫系統(tǒng)不一致。3)源數(shù)據(jù)結(jié)構(gòu)不一致。)源數(shù)據(jù)結(jié)構(gòu)不一致。4)源數(shù)據(jù)定義不規(guī)范導(dǎo)致錯(cuò)誤數(shù)據(jù)。)源數(shù)據(jù)定義不規(guī)范導(dǎo)致錯(cuò)誤數(shù)據(jù)。5)對(duì)數(shù)據(jù)的約束不嚴(yán)格,導(dǎo)致無意義數(shù)據(jù)。)對(duì)數(shù)據(jù)的約束不嚴(yán)格,導(dǎo)致無意義數(shù)據(jù)。6)存在重復(fù)數(shù)據(jù)。)存在重復(fù)數(shù)據(jù)。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.1 ETL一、一、ETL的概念的概念2、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換、清洗工作一般會(huì)有以下幾種實(shí)現(xiàn)方法:數(shù)據(jù)轉(zhuǎn)換、清洗工作一般會(huì)有以下幾種實(shí)現(xiàn)方法:1)在數(shù)據(jù)抽取過程中進(jìn)行數(shù)據(jù)處理。)在數(shù)據(jù)抽取過程中進(jìn)
8、行數(shù)據(jù)處理。2)使用異步數(shù)據(jù)裝載,以文件的方式處理。)使用異步數(shù)據(jù)裝載,以文件的方式處理。3)在數(shù)據(jù)裝載過程中進(jìn)行數(shù)據(jù)處理。)在數(shù)據(jù)裝載過程中進(jìn)行數(shù)據(jù)處理。4)進(jìn)入數(shù)據(jù)倉庫以后再進(jìn)行數(shù)據(jù)處理。)進(jìn)入數(shù)據(jù)倉庫以后再進(jìn)行數(shù)據(jù)處理。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.1 ETL一、一、ETL的概念的概念3、數(shù)據(jù)裝載、數(shù)據(jù)裝載 數(shù)據(jù)裝載就是將從數(shù)據(jù)源系統(tǒng)中抽取、轉(zhuǎn)換、數(shù)據(jù)裝載就是將從數(shù)據(jù)源系統(tǒng)中抽取、轉(zhuǎn)換、清洗后的數(shù)據(jù)裝載到數(shù)據(jù)倉庫系統(tǒng)中。清洗后的數(shù)據(jù)裝載到數(shù)據(jù)倉庫系統(tǒng)中。主要的數(shù)據(jù)裝載技術(shù)有兩種:主要的數(shù)據(jù)裝載技術(shù)有兩種: 1)使用數(shù)據(jù)
9、倉庫引擎廠商提供的數(shù)據(jù)裝載)使用數(shù)據(jù)倉庫引擎廠商提供的數(shù)據(jù)裝載工具進(jìn)行數(shù)據(jù)裝載。工具進(jìn)行數(shù)據(jù)裝載。 2)通過數(shù)據(jù)倉庫引擎廠商提供的)通過數(shù)據(jù)倉庫引擎廠商提供的API編程進(jìn)編程進(jìn)行數(shù)據(jù)裝載。行數(shù)據(jù)裝載。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.1 ETL一、一、ETL的概念的概念3、數(shù)據(jù)裝載(續(xù))、數(shù)據(jù)裝載(續(xù)) 數(shù)據(jù)裝載策略要考慮裝載周期以及數(shù)據(jù)追加數(shù)據(jù)裝載策略要考慮裝載周期以及數(shù)據(jù)追加策略兩方面的內(nèi)容。策略兩方面的內(nèi)容。 裝載周期要綜合考慮業(yè)務(wù)分析需求和系統(tǒng)裝裝載周期要綜合考慮業(yè)務(wù)分析需求和系統(tǒng)裝載的代價(jià),對(duì)不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采用不同
10、的數(shù)載的代價(jià),對(duì)不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采用不同的數(shù)據(jù)裝載周期。但必須保持同一時(shí)間業(yè)務(wù)數(shù)據(jù)的完據(jù)裝載周期。但必須保持同一時(shí)間業(yè)務(wù)數(shù)據(jù)的完整性。整性。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.1 ETL一、一、ETL的概念的概念3、數(shù)據(jù)裝載(續(xù))、數(shù)據(jù)裝載(續(xù)) 數(shù)據(jù)的追加策略根據(jù)數(shù)據(jù)的抽取策略以及業(yè)數(shù)據(jù)的追加策略根據(jù)數(shù)據(jù)的抽取策略以及業(yè)務(wù)規(guī)則確定,一般有務(wù)規(guī)則確定,一般有3種類型:種類型: 1)直接追加;)直接追加; 2)全部覆蓋;)全部覆蓋; 3)更新追加。)更新追加。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)
11、倉庫原理數(shù)據(jù)倉庫原理1.2.1 ETL二、二、ETL的作用的作用1、解決數(shù)據(jù)分散問題、解決數(shù)據(jù)分散問題2、解決數(shù)據(jù)不清潔問題、解決數(shù)據(jù)不清潔問題3、方便企業(yè)各部門構(gòu)筑數(shù)據(jù)集市、方便企業(yè)各部門構(gòu)筑數(shù)據(jù)集市1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.1 ETL三、三、ETL工具工具1、ETL工具分類工具分類(1)專業(yè))專業(yè)ETL廠商和產(chǎn)品廠商和產(chǎn)品 這類產(chǎn)品一般都有較完善的體系結(jié)構(gòu),并且久這類產(chǎn)品一般都有較完善的體系結(jié)構(gòu),并且久經(jīng)市場(chǎng)考驗(yàn),產(chǎn)品功能的復(fù)雜和詳盡程度往往能經(jīng)市場(chǎng)考驗(yàn),產(chǎn)品功能的復(fù)雜和詳盡程度往往能令初次接觸的人瞪目,但其高昂的價(jià)
12、格也會(huì)使一令初次接觸的人瞪目,但其高昂的價(jià)格也會(huì)使一般用戶望而卻步。般用戶望而卻步。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.1 ETL三、三、ETL工具工具1、ETL工具分類(續(xù))工具分類(續(xù))(2)整體方案提供商和產(chǎn)品)整體方案提供商和產(chǎn)品 這類產(chǎn)品在提供數(shù)據(jù)倉庫存儲(chǔ)、設(shè)計(jì)、展現(xiàn)這類產(chǎn)品在提供數(shù)據(jù)倉庫存儲(chǔ)、設(shè)計(jì)、展現(xiàn)工具的同時(shí)也提供相應(yīng)的工具的同時(shí)也提供相應(yīng)的ETL工具,它們一般對(duì)工具,它們一般對(duì)自己廠商的相關(guān)產(chǎn)品有很好的支持并能發(fā)揮出最自己廠商的相關(guān)產(chǎn)品有很好的支持并能發(fā)揮出最大效率,但結(jié)構(gòu)相對(duì)封閉,對(duì)其他廠商產(chǎn)品的支大效率,但結(jié)
13、構(gòu)相對(duì)封閉,對(duì)其他廠商產(chǎn)品的支持有限。持有限。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.1 ETL三、三、ETL工具工具2、ETL工具比較工具比較1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理數(shù)據(jù)庫廠商數(shù)據(jù)庫廠商ETL工具工具優(yōu)點(diǎn)優(yōu)點(diǎn)缺點(diǎn)缺點(diǎn)IBMWa r e h o u s e Manager數(shù)據(jù)源廣泛,在大數(shù)據(jù)量的抽取中具數(shù)據(jù)源廣泛,在大數(shù)據(jù)量的抽取中具有速度優(yōu)勢(shì),提供編程接口和調(diào)用外有速度優(yōu)勢(shì),提供編程接口和調(diào)用外部程序的功能;提供部程序的功能;提供agent把數(shù)據(jù)抽把數(shù)據(jù)抽取分布到工
14、作站、小型機(jī)、大型機(jī)等取分布到工作站、小型機(jī)、大型機(jī)等各種平臺(tái)各種平臺(tái)界面不太友好,在處理界面不太友好,在處理復(fù)雜的數(shù)據(jù)源時(shí)面臨較復(fù)雜的數(shù)據(jù)源時(shí)面臨較多的工作量多的工作量ORACLEO r a c l e Wa r e h o u s e Builder提供的躬耕包括:模型構(gòu)造和設(shè)計(jì);提供的躬耕包括:模型構(gòu)造和設(shè)計(jì);數(shù)據(jù)提取、移動(dòng)和元數(shù)據(jù)管理;分析數(shù)據(jù)提取、移動(dòng)和元數(shù)據(jù)管理;分析工具整合;數(shù)據(jù)倉庫管理;具有開放工具整合;數(shù)據(jù)倉庫管理;具有開放可延伸的框架可延伸的框架不能把數(shù)據(jù)抽取擴(kuò)充到不能把數(shù)據(jù)抽取擴(kuò)充到Unix工作站、小型機(jī)、工作站、小型機(jī)、大型機(jī),流程繁瑣,不大型機(jī),流程繁瑣,不易使用易使
15、用MICROSOFTDTS從廣泛的數(shù)據(jù)源抽取數(shù)據(jù),提供市場(chǎng)從廣泛的數(shù)據(jù)源抽取數(shù)據(jù),提供市場(chǎng)上最有效的編程方式,以及工作流的上最有效的編程方式,以及工作流的任務(wù)處理方式;提供調(diào)用外部吧程序任務(wù)處理方式;提供調(diào)用外部吧程序的功能和強(qiáng)大、豐富的外部程序調(diào)用的功能和強(qiáng)大、豐富的外部程序調(diào)用的對(duì)象庫;按計(jì)劃自動(dòng)執(zhí)行數(shù)據(jù)抽取的對(duì)象庫;按計(jì)劃自動(dòng)執(zhí)行數(shù)據(jù)抽取就數(shù)據(jù)倉庫環(huán)境而言,就數(shù)據(jù)倉庫環(huán)境而言,處理數(shù)據(jù)的量是有限的處理數(shù)據(jù)的量是有限的INFORMIXA r d e n t DateStage提供工作流的方式,可以實(shí)現(xiàn)內(nèi)部編提供工作流的方式,可以實(shí)現(xiàn)內(nèi)部編程程數(shù)據(jù)抽取功能的處理方數(shù)據(jù)抽取功能的處理方式過于簡(jiǎn)
16、單,程序的高式過于簡(jiǎn)單,程序的高效性和準(zhǔn)確性方面的保效性和準(zhǔn)確性方面的保證措施太少證措施太少CAInforbump 抽取速度比較快抽取速度比較快采用非工作流的工作方采用非工作流的工作方式,用戶面臨過大的工式,用戶面臨過大的工作量,程序的高效性和作量,程序的高效性和準(zhǔn)確性方面的保證措施準(zhǔn)確性方面的保證措施太少太少1.2.1 ETL三、三、ETL工具工具3、ETL工具選擇工具選擇ETL工具的功能可以概括為:工具的功能可以概括為:1)對(duì)平臺(tái)的支持;)對(duì)平臺(tái)的支持;2)對(duì)數(shù)據(jù)源的支持;)對(duì)數(shù)據(jù)源的支持;3)數(shù)據(jù)轉(zhuǎn)換功能;)數(shù)據(jù)轉(zhuǎn)換功能;4)管理和調(diào)度功能;)管理和調(diào)度功能;5)集成和開放性;)集成和開
17、放性;6)對(duì)元數(shù)據(jù)的管理。)對(duì)元數(shù)據(jù)的管理。 在工具的選擇時(shí),用戶重點(diǎn)考慮這些可能影在工具的選擇時(shí),用戶重點(diǎn)考慮這些可能影響響ETL工具的要素。工具的要素。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.1 ETL三、三、ETL工具工具3、ETL工具選擇(續(xù))工具選擇(續(xù))性能性能ETL工具工具手工編碼手工編碼靈活性靈活性比較靈活比較靈活最靈活最靈活難易程度難易程度相對(duì)容易相對(duì)容易要求一定的技術(shù)水平要求一定的技術(shù)水平管理和維護(hù)管理和維護(hù)容易容易較難較難性能和效率性能和效率較高較高取決于編寫者水平取決于編寫者水平開發(fā)周期開發(fā)周期較短較短較長(zhǎng)較長(zhǎng)
18、工作量工作量中等中等較重較重價(jià)格價(jià)格較高較高相對(duì)較低相對(duì)較低1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù) 數(shù)據(jù)倉庫環(huán)境中一個(gè)重要方面是數(shù)據(jù)倉庫環(huán)境中一個(gè)重要方面是元數(shù)據(jù)元數(shù)據(jù)。簡(jiǎn)。簡(jiǎn)單地說,元數(shù)據(jù)就是單地說,元數(shù)據(jù)就是“關(guān)于數(shù)據(jù)的數(shù)據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù)”。只要。只要有程序和數(shù)據(jù),元數(shù)據(jù)就是信息處理環(huán)境的一部有程序和數(shù)據(jù),元數(shù)據(jù)就是信息處理環(huán)境的一部分。在數(shù)據(jù)倉庫中,元數(shù)據(jù)扮演一個(gè)新的重要角分。在數(shù)據(jù)倉庫中,元數(shù)據(jù)扮演一個(gè)新的重要角色。也正因?yàn)橛辛嗽獢?shù)據(jù),用戶才可以最有效地色。也正因?yàn)橛辛嗽獢?shù)據(jù),用戶才可以最有效地利用數(shù)據(jù)倉庫。
19、利用數(shù)據(jù)倉庫。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)元數(shù)據(jù)使得用戶可以掌握數(shù)據(jù)歷史,如:元數(shù)據(jù)使得用戶可以掌握數(shù)據(jù)歷史,如: 1)數(shù)據(jù)從哪里來?)數(shù)據(jù)從哪里來? 2)流通時(shí)間有多長(zhǎng)?)流通時(shí)間有多長(zhǎng)? 3)更新頻率是多大?)更新頻率是多大? 3)數(shù)據(jù)元素的含義是什么?)數(shù)據(jù)元素的含義是什么? 5)對(duì)數(shù)據(jù)已經(jīng)進(jìn)行了哪些計(jì)算、轉(zhuǎn)換和篩選)對(duì)數(shù)據(jù)已經(jīng)進(jìn)行了哪些計(jì)算、轉(zhuǎn)換和篩選等。等。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù) 在需求不確定情況下,在瞬
20、間萬變的商業(yè)環(huán)境在需求不確定情況下,在瞬間萬變的商業(yè)環(huán)境下,元數(shù)據(jù)可以更好的支持需求變化,降低項(xiàng)目風(fēng)下,元數(shù)據(jù)可以更好的支持需求變化,降低項(xiàng)目風(fēng)險(xiǎn)。事實(shí)上,元數(shù)據(jù)貫穿于建立數(shù)據(jù)倉庫的整個(gè)過險(xiǎn)。事實(shí)上,元數(shù)據(jù)貫穿于建立數(shù)據(jù)倉庫的整個(gè)過程之中,是數(shù)據(jù)倉庫構(gòu)建過程中的一個(gè)重要部分,程之中,是數(shù)據(jù)倉庫構(gòu)建過程中的一個(gè)重要部分,起著至關(guān)重要的作用。起著至關(guān)重要的作用。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)1、元數(shù)據(jù)的概念、元數(shù)據(jù)的概念 在數(shù)據(jù)倉庫系統(tǒng)中,在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)元數(shù)據(jù)是關(guān)于數(shù)據(jù)倉
21、庫是關(guān)于數(shù)據(jù)倉庫的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義、目標(biāo)定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)源定義、目標(biāo)定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù),同時(shí)元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信數(shù)據(jù),同時(shí)元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息。息。 元數(shù)據(jù)元數(shù)據(jù)可以幫助數(shù)據(jù)倉庫管理員和數(shù)據(jù)倉庫可以幫助數(shù)據(jù)倉庫管理員和數(shù)據(jù)倉庫的開發(fā)人員非常方便地找到他們所關(guān)心的數(shù)據(jù)。的開發(fā)人員非常方便地找到他們所關(guān)心的數(shù)據(jù)。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)1、元數(shù)據(jù)的概
22、念(續(xù))、元數(shù)據(jù)的概念(續(xù)) 元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),對(duì)這些信息妥善保存,并很好地管理方法的數(shù)據(jù),對(duì)這些信息妥善保存,并很好地管理將為數(shù)據(jù)倉庫的發(fā)展和使用提供方便,使得最終用將為數(shù)據(jù)倉庫的發(fā)展和使用提供方便,使得最終用戶和戶和DSS分析員能夠探索各種可能性。分析員能夠探索各種可能性。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)2、元數(shù)據(jù)的分類、元數(shù)據(jù)的分類 按照用途按照用途對(duì)元數(shù)據(jù)進(jìn)行分類是最常見的分類對(duì)元數(shù)據(jù)進(jìn)行分類是最常見的
23、分類方法,可將其分為兩類:方法,可將其分為兩類: (1)管理元數(shù)據(jù))管理元數(shù)據(jù) (2)用戶元數(shù)據(jù))用戶元數(shù)據(jù)1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)2、元數(shù)據(jù)的分類(續(xù))、元數(shù)據(jù)的分類(續(xù)) 管理元數(shù)據(jù)管理元數(shù)據(jù)是存儲(chǔ)關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細(xì)是存儲(chǔ)關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它主要包括以下信息:據(jù),它主要包括以下信息: 1)數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視)數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、層次
24、結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容。集市的位置和內(nèi)容。 2)業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié))業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式。構(gòu)和模式。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)2、元數(shù)據(jù)的分類(續(xù))、元數(shù)據(jù)的分類(續(xù)) 3)匯總數(shù)據(jù)用的算法,包括度量和維定義)匯總數(shù)據(jù)用的算法,包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚集、匯總、預(yù)定算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚集、匯總、預(yù)定義的查詢和報(bào)告。義的查詢和報(bào)告。 4)由操
25、作環(huán)境到數(shù)據(jù)倉庫環(huán)境的映射,包)由操作環(huán)境到數(shù)據(jù)倉庫環(huán)境的映射,包括源數(shù)據(jù)和它們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、括源數(shù)據(jù)和它們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清理、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則、安全。清理、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則、安全。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)2、元數(shù)據(jù)的分類(續(xù))、元數(shù)據(jù)的分類(續(xù)) 用戶元數(shù)據(jù)用戶元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉庫中的從業(yè)務(wù)角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),它提供了介于使用者和實(shí)際系統(tǒng)之間的語數(shù)據(jù),它提供了介于使用者和實(shí)際系統(tǒng)之間的語義層,使得不懂計(jì)算機(jī)技術(shù)的
26、業(yè)務(wù)人員也能夠義層,使得不懂計(jì)算機(jī)技術(shù)的業(yè)務(wù)人員也能夠“讀懂讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。用戶元數(shù)據(jù)是從最數(shù)據(jù)倉庫中的數(shù)據(jù)。用戶元數(shù)據(jù)是從最終用戶角度來描述數(shù)據(jù)倉庫。通過用戶元數(shù)據(jù),終用戶角度來描述數(shù)據(jù)倉庫。通過用戶元數(shù)據(jù),用戶可以了解:用戶可以了解: 1)應(yīng)該如何連接數(shù)據(jù)倉庫。)應(yīng)該如何連接數(shù)據(jù)倉庫。 2)可以訪問數(shù)據(jù)倉庫的哪些部分。)可以訪問數(shù)據(jù)倉庫的哪些部分。 3)所需要的數(shù)據(jù)來自哪一個(gè)源系統(tǒng)。)所需要的數(shù)據(jù)來自哪一個(gè)源系統(tǒng)。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)2、元數(shù)據(jù)的分類、元數(shù)
27、據(jù)的分類按照元數(shù)據(jù)的來源按照元數(shù)據(jù)的來源,元數(shù)據(jù)可以分為:,元數(shù)據(jù)可以分為: 1)數(shù)據(jù)源的元數(shù)據(jù))數(shù)據(jù)源的元數(shù)據(jù) 2)數(shù)據(jù)模型的元數(shù)據(jù))數(shù)據(jù)模型的元數(shù)據(jù) 3)數(shù)據(jù)源與數(shù)據(jù)倉庫映射的元數(shù)據(jù))數(shù)據(jù)源與數(shù)據(jù)倉庫映射的元數(shù)據(jù) 4)數(shù)據(jù)倉庫應(yīng)用的元數(shù)據(jù))數(shù)據(jù)倉庫應(yīng)用的元數(shù)據(jù)1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)2、元數(shù)據(jù)的分類(續(xù))、元數(shù)據(jù)的分類(續(xù)) 按照元數(shù)據(jù)生成按照元數(shù)據(jù)生成/ 使用的時(shí)間使用的時(shí)間進(jìn)行分類,可以進(jìn)行分類,可以分為:分為: 1)設(shè)計(jì)時(shí)收集)設(shè)計(jì)時(shí)收集/使用的元數(shù)據(jù)使用的元數(shù)
28、據(jù) 2)構(gòu)建時(shí)生成)構(gòu)建時(shí)生成/使用的元數(shù)據(jù)使用的元數(shù)據(jù) 3)運(yùn)行時(shí)生成)運(yùn)行時(shí)生成/使用的元數(shù)據(jù)使用的元數(shù)據(jù)1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)2、元數(shù)據(jù)的分類、元數(shù)據(jù)的分類 按照數(shù)據(jù)倉庫功能區(qū)域按照數(shù)據(jù)倉庫功能區(qū)域的劃分,對(duì)元數(shù)據(jù)可的劃分,對(duì)元數(shù)據(jù)可以分為:以分為: 1)數(shù)據(jù)獲取元數(shù)據(jù))數(shù)據(jù)獲取元數(shù)據(jù) 2)數(shù)據(jù)存儲(chǔ)元數(shù)據(jù))數(shù)據(jù)存儲(chǔ)元數(shù)據(jù) 3)信息傳遞元數(shù)據(jù))信息傳遞元數(shù)據(jù)1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)
29、元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)2、元數(shù)據(jù)的分類、元數(shù)據(jù)的分類 按照元數(shù)據(jù)在數(shù)據(jù)倉庫中所承擔(dān)的任務(wù)按照元數(shù)據(jù)在數(shù)據(jù)倉庫中所承擔(dān)的任務(wù),可,可以元數(shù)據(jù)分為:以元數(shù)據(jù)分為: 1)靜態(tài)元數(shù)據(jù))靜態(tài)元數(shù)據(jù) 2)動(dòng)態(tài)元數(shù)據(jù))動(dòng)態(tài)元數(shù)據(jù)1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)3、元數(shù)據(jù)的作用、元數(shù)據(jù)的作用RDBMS外部數(shù)據(jù)源數(shù)據(jù)倉庫企業(yè)數(shù)據(jù)模型、多維數(shù)據(jù)模型即席查詢OLAP分析數(shù)據(jù)挖掘管理元數(shù)據(jù)用戶元數(shù)據(jù)元數(shù)據(jù)知識(shí)庫操作環(huán)境層數(shù)據(jù)倉庫層業(yè)務(wù)層1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)
30、據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)3、元數(shù)據(jù)的作用、元數(shù)據(jù)的作用 上圖中左邊的部分是元數(shù)據(jù),它起到了承上上圖中左邊的部分是元數(shù)據(jù),它起到了承上啟下的作用,具體體現(xiàn)在:?jiǎn)⑾碌淖饔?,具體體現(xiàn)在: (1)元數(shù)據(jù)是進(jìn)行數(shù)據(jù)集成所必須的)元數(shù)據(jù)是進(jìn)行數(shù)據(jù)集成所必須的 數(shù)據(jù)倉庫最大的特點(diǎn)就是它的集成性。這一數(shù)據(jù)倉庫最大的特點(diǎn)就是它的集成性。這一特點(diǎn)不僅體現(xiàn)在它所包含的數(shù)據(jù)上,還體現(xiàn)在實(shí)特點(diǎn)不僅體現(xiàn)在它所包含的數(shù)據(jù)上,還體現(xiàn)在實(shí)施數(shù)據(jù)倉庫項(xiàng)目的過程中。施數(shù)據(jù)倉庫項(xiàng)目的過程中。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)
31、倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)3、元數(shù)據(jù)的作用(續(xù))、元數(shù)據(jù)的作用(續(xù)) 一方面,從各個(gè)數(shù)據(jù)源中抽取的數(shù)據(jù)要按照一方面,從各個(gè)數(shù)據(jù)源中抽取的數(shù)據(jù)要按照一定的模式存入數(shù)據(jù)倉庫中,這些數(shù)據(jù)源與數(shù)據(jù)一定的模式存入數(shù)據(jù)倉庫中,這些數(shù)據(jù)源與數(shù)據(jù)倉庫中數(shù)據(jù)的對(duì)應(yīng)關(guān)系及轉(zhuǎn)換規(guī)則都要存儲(chǔ)在元倉庫中數(shù)據(jù)的對(duì)應(yīng)關(guān)系及轉(zhuǎn)換規(guī)則都要存儲(chǔ)在元數(shù)據(jù)知識(shí)庫中。數(shù)據(jù)知識(shí)庫中。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)3、元數(shù)據(jù)的作用(續(xù))、元數(shù)據(jù)的作用(續(xù)) 另一方面,在數(shù)據(jù)
32、倉庫項(xiàng)目實(shí)施過程中,直另一方面,在數(shù)據(jù)倉庫項(xiàng)目實(shí)施過程中,直接建立數(shù)據(jù)倉庫往往費(fèi)時(shí)、費(fèi)力,因此在實(shí)踐當(dāng)中,接建立數(shù)據(jù)倉庫往往費(fèi)時(shí)、費(fèi)力,因此在實(shí)踐當(dāng)中,人們可能會(huì)按照統(tǒng)一的數(shù)據(jù)模型,首先建立數(shù)據(jù)集人們可能會(huì)按照統(tǒng)一的數(shù)據(jù)模型,首先建立數(shù)據(jù)集市,然后在各個(gè)數(shù)據(jù)集市的基礎(chǔ)上再建設(shè)數(shù)據(jù)倉庫。市,然后在各個(gè)數(shù)據(jù)集市的基礎(chǔ)上再建設(shè)數(shù)據(jù)倉庫。不過,當(dāng)數(shù)據(jù)集市數(shù)量增多時(shí)很容易形成不過,當(dāng)數(shù)據(jù)集市數(shù)量增多時(shí)很容易形成“蜘蛛網(wǎng)蜘蛛網(wǎng)”現(xiàn)象,而元數(shù)據(jù)管理是解決現(xiàn)象,而元數(shù)據(jù)管理是解決“蜘蛛網(wǎng)蜘蛛網(wǎng)”的關(guān)鍵的關(guān)鍵 。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.
33、2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)3、元數(shù)據(jù)的作用(續(xù))、元數(shù)據(jù)的作用(續(xù))2)元數(shù)據(jù)定義的語義層可以幫助最終用戶理解數(shù))元數(shù)據(jù)定義的語義層可以幫助最終用戶理解數(shù)據(jù)倉庫中的數(shù)據(jù)。據(jù)倉庫中的數(shù)據(jù)。 最終用戶不可能像數(shù)據(jù)倉庫系統(tǒng)管理員或開最終用戶不可能像數(shù)據(jù)倉庫系統(tǒng)管理員或開發(fā)人員那樣熟悉數(shù)據(jù)倉庫技術(shù),因此迫切需要有發(fā)人員那樣熟悉數(shù)據(jù)倉庫技術(shù),因此迫切需要有一個(gè)一個(gè)“翻譯翻譯”,能夠使他們清晰地理解數(shù)據(jù)倉庫,能夠使他們清晰地理解數(shù)據(jù)倉庫中數(shù)據(jù)的含義。元數(shù)據(jù)可以實(shí)現(xiàn)業(yè)務(wù)模型與數(shù)據(jù)中數(shù)據(jù)的含義。元數(shù)據(jù)可以實(shí)現(xiàn)業(yè)務(wù)模型與數(shù)據(jù)模型之間的映射,因而可以把數(shù)據(jù)以用戶需要的模型之間的映射,因而可以
34、把數(shù)據(jù)以用戶需要的方式方式“翻譯翻譯”出來,從而幫助最終用戶理解和使出來,從而幫助最終用戶理解和使用數(shù)據(jù)。用數(shù)據(jù)。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)3、元數(shù)據(jù)的作用(續(xù))、元數(shù)據(jù)的作用(續(xù))(3)元數(shù)據(jù)是保證數(shù)據(jù)質(zhì)量的關(guān)鍵。)元數(shù)據(jù)是保證數(shù)據(jù)質(zhì)量的關(guān)鍵。 數(shù)據(jù)倉庫或數(shù)據(jù)集市建立好之后,使用者在使用數(shù)據(jù)倉庫或數(shù)據(jù)集市建立好之后,使用者在使用的時(shí)候,常常會(huì)產(chǎn)生對(duì)數(shù)據(jù)的懷疑。這些懷疑往往是的時(shí)候,常常會(huì)產(chǎn)生對(duì)數(shù)據(jù)的懷疑。這些懷疑往往是由于低層的數(shù)據(jù)對(duì)于用戶來說是不由于低層的數(shù)據(jù)對(duì)于用戶來
35、說是不“透明透明”的,使用的,使用者很自然地對(duì)結(jié)果產(chǎn)生懷疑。而借助元數(shù)據(jù)管理系統(tǒng),者很自然地對(duì)結(jié)果產(chǎn)生懷疑。而借助元數(shù)據(jù)管理系統(tǒng),最終使用者對(duì)各個(gè)數(shù)據(jù)的來龍去脈以及數(shù)據(jù)抽取和轉(zhuǎn)最終使用者對(duì)各個(gè)數(shù)據(jù)的來龍去脈以及數(shù)據(jù)抽取和轉(zhuǎn)換規(guī)則都會(huì)很方便地得到,這樣他們自然會(huì)對(duì)數(shù)據(jù)具換規(guī)則都會(huì)很方便地得到,這樣他們自然會(huì)對(duì)數(shù)據(jù)具有信心。有信心。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)3、元數(shù)據(jù)的作用(續(xù))、元數(shù)據(jù)的作用(續(xù))(4)元數(shù)據(jù)可以支持需求變化。)元數(shù)據(jù)可以支持需求變化。 如何構(gòu)造一個(gè)隨著需求改
36、變而平滑變化的軟如何構(gòu)造一個(gè)隨著需求改變而平滑變化的軟件系統(tǒng),是軟件工程領(lǐng)域中的一個(gè)重要問題。傳統(tǒng)件系統(tǒng),是軟件工程領(lǐng)域中的一個(gè)重要問題。傳統(tǒng)的信息系統(tǒng)往往是通過文檔來適應(yīng)需求變化,但是的信息系統(tǒng)往往是通過文檔來適應(yīng)需求變化,但是僅僅依靠文檔是遠(yuǎn)遠(yuǎn)不夠的。成功的元數(shù)據(jù)管理系僅僅依靠文檔是遠(yuǎn)遠(yuǎn)不夠的。成功的元數(shù)據(jù)管理系統(tǒng)可以把整個(gè)業(yè)務(wù)的工作流、數(shù)據(jù)流和信息流有效統(tǒng)可以把整個(gè)業(yè)務(wù)的工作流、數(shù)據(jù)流和信息流有效地管理起來,使得系統(tǒng)不依賴特定的開發(fā)人員,從地管理起來,使得系統(tǒng)不依賴特定的開發(fā)人員,從而提高系統(tǒng)的可擴(kuò)展性。而提高系統(tǒng)的可擴(kuò)展性。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第
37、一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)4、元數(shù)據(jù)的來源、元數(shù)據(jù)的來源 元數(shù)據(jù)存在于數(shù)據(jù)倉庫過程中的每個(gè)步驟,元數(shù)據(jù)存在于數(shù)據(jù)倉庫過程中的每個(gè)步驟,在不同的數(shù)據(jù)倉庫處理過程中都會(huì)產(chǎn)生一些新的在不同的數(shù)據(jù)倉庫處理過程中都會(huì)產(chǎn)生一些新的元數(shù)據(jù)。這些過程包括源系統(tǒng)、數(shù)據(jù)抽取、數(shù)據(jù)元數(shù)據(jù)。這些過程包括源系統(tǒng)、數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)裝載、數(shù)據(jù)存儲(chǔ)、信息傳清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)裝載、數(shù)據(jù)存儲(chǔ)、信息傳遞等。遞等。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是
38、元數(shù)據(jù)4、元數(shù)據(jù)的來源、元數(shù)據(jù)的來源(1)源系統(tǒng))源系統(tǒng) 在源系統(tǒng)中,元數(shù)據(jù)的內(nèi)容包括對(duì)操作型數(shù)在源系統(tǒng)中,元數(shù)據(jù)的內(nèi)容包括對(duì)操作型數(shù)據(jù)模型、系統(tǒng)文件的數(shù)據(jù)元素定義、物理文件布據(jù)模型、系統(tǒng)文件的數(shù)據(jù)元素定義、物理文件布局以及字段定義、外部數(shù)據(jù)來源的文件布局和字局以及字段定義、外部數(shù)據(jù)來源的文件布局和字段定義等內(nèi)容的描述。段定義等內(nèi)容的描述。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)4、元數(shù)據(jù)的來源、元數(shù)據(jù)的來源(2)數(shù)據(jù)抽取階段)數(shù)據(jù)抽取階段 在數(shù)據(jù)抽取階段,產(chǎn)生的元數(shù)據(jù)包含有所選在數(shù)據(jù)抽
39、取階段,產(chǎn)生的元數(shù)據(jù)包含有所選擇的數(shù)據(jù)源的布局和定義、用于抽取的字段的定擇的數(shù)據(jù)源的布局和定義、用于抽取的字段的定義、標(biāo)準(zhǔn)化字段類型與長(zhǎng)度的規(guī)則、數(shù)據(jù)抽取計(jì)義、標(biāo)準(zhǔn)化字段類型與長(zhǎng)度的規(guī)則、數(shù)據(jù)抽取計(jì)劃等內(nèi)容。劃等內(nèi)容。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)4、元數(shù)據(jù)的來源、元數(shù)據(jù)的來源(3)數(shù)據(jù)清洗和轉(zhuǎn)換階段)數(shù)據(jù)清洗和轉(zhuǎn)換階段 該階段中元數(shù)據(jù)描述文件的轉(zhuǎn)換規(guī)則、字段該階段中元數(shù)據(jù)描述文件的轉(zhuǎn)換規(guī)則、字段的默認(rèn)值、有效性檢查的規(guī)則、分類及重排序安排的默認(rèn)值、有效性檢查的規(guī)則、分類及重排
40、序安排等內(nèi)容。等內(nèi)容。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)4、元數(shù)據(jù)的來源、元數(shù)據(jù)的來源(4)數(shù)據(jù)裝載階段)數(shù)據(jù)裝載階段 在數(shù)據(jù)裝載過程中,元數(shù)據(jù)記錄為文件分配在數(shù)據(jù)裝載過程中,元數(shù)據(jù)記錄為文件分配鍵的分配規(guī)則、完全刷新的計(jì)劃、增量裝載的計(jì)鍵的分配規(guī)則、完全刷新的計(jì)劃、增量裝載的計(jì)劃等內(nèi)容。劃等內(nèi)容。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)4、元數(shù)據(jù)的來源、元數(shù)據(jù)的來源(5)數(shù)
41、據(jù)存儲(chǔ)階段)數(shù)據(jù)存儲(chǔ)階段 在數(shù)據(jù)存儲(chǔ)階段,元數(shù)據(jù)包含有對(duì)數(shù)據(jù)倉庫在數(shù)據(jù)存儲(chǔ)階段,元數(shù)據(jù)包含有對(duì)數(shù)據(jù)倉庫的數(shù)據(jù)模型、物理文件、表和列的定義、有效性的數(shù)據(jù)模型、物理文件、表和列的定義、有效性檢查的規(guī)則等內(nèi)容的描述。檢查的規(guī)則等內(nèi)容的描述。1.2.2 元數(shù)據(jù)元數(shù)據(jù)一、什么是元數(shù)據(jù)一、什么是元數(shù)據(jù)4、元數(shù)據(jù)的來源、元數(shù)據(jù)的來源(6)信息傳遞階段)信息傳遞階段 此階段的元數(shù)據(jù)需要描述預(yù)定義查詢和報(bào)表此階段的元數(shù)據(jù)需要描述預(yù)定義查詢和報(bào)表的列表、特殊的列表、特殊OLAP數(shù)據(jù)庫的數(shù)據(jù)模型以及為數(shù)據(jù)庫的數(shù)據(jù)模型以及為OLAP檢索數(shù)據(jù)的計(jì)劃。檢索數(shù)據(jù)的計(jì)劃。1.2.2 元數(shù)據(jù)元數(shù)據(jù)二、元數(shù)據(jù)的標(biāo)準(zhǔn)化二、元數(shù)據(jù)的
42、標(biāo)準(zhǔn)化 沒有規(guī)矩不成方圓。為了更好地發(fā)揮元數(shù)據(jù)沒有規(guī)矩不成方圓。為了更好地發(fā)揮元數(shù)據(jù)在數(shù)據(jù)倉庫中的作用,必須對(duì)其進(jìn)行有效的管理,在數(shù)據(jù)倉庫中的作用,必須對(duì)其進(jìn)行有效的管理,而一個(gè)統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)是元數(shù)據(jù)管理的前提。但而一個(gè)統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)是元數(shù)據(jù)管理的前提。但目前缺乏全行業(yè)內(nèi)統(tǒng)一的標(biāo)準(zhǔn)。在這種情況下,各目前缺乏全行業(yè)內(nèi)統(tǒng)一的標(biāo)準(zhǔn)。在這種情況下,各公司的元數(shù)據(jù)管理解決方案各不相同。公司的元數(shù)據(jù)管理解決方案各不相同。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)二、元數(shù)據(jù)的標(biāo)準(zhǔn)化(續(xù))二、元數(shù)據(jù)的標(biāo)準(zhǔn)化(續(xù)) 近幾年,隨著元數(shù)據(jù)
43、聯(lián)盟近幾年,隨著元數(shù)據(jù)聯(lián)盟MDC(meta data coalition)和開放信息模型)和開放信息模型OMI(open information model)和)和OMG組織組織(Object Management Group,對(duì)象管理組織),對(duì)象管理組織)的公共倉的公共倉庫模型庫模型CWM(common warehouse model)標(biāo))標(biāo)準(zhǔn)的逐漸完善,以及準(zhǔn)的逐漸完善,以及MDC和和OMG組織的合并,組織的合并,將為數(shù)據(jù)倉庫廠商提供統(tǒng)一的標(biāo)準(zhǔn),從而為元數(shù)將為數(shù)據(jù)倉庫廠商提供統(tǒng)一的標(biāo)準(zhǔn),從而為元數(shù)據(jù)管理鋪平道路。據(jù)管理鋪平道路。 目前,在數(shù)據(jù)倉庫領(lǐng)域中有兩個(gè)最主要的元目前,在數(shù)據(jù)倉庫領(lǐng)域中
44、有兩個(gè)最主要的元數(shù)據(jù)標(biāo)準(zhǔn):數(shù)據(jù)標(biāo)準(zhǔn):MDC的的OIM標(biāo)準(zhǔn),標(biāo)準(zhǔn),OMG的的CWM標(biāo)準(zhǔn)。標(biāo)準(zhǔn)。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)三、數(shù)據(jù)倉庫中的元數(shù)據(jù)管理三、數(shù)據(jù)倉庫中的元數(shù)據(jù)管理1、元數(shù)據(jù)管理的具體內(nèi)容、元數(shù)據(jù)管理的具體內(nèi)容(1)獲取并存儲(chǔ)元數(shù)據(jù))獲取并存儲(chǔ)元數(shù)據(jù) 數(shù)據(jù)倉庫中數(shù)據(jù)的時(shí)間跨度較長(zhǎng)。此間,數(shù)據(jù)倉庫中數(shù)據(jù)的時(shí)間跨度較長(zhǎng)。此間,源系統(tǒng)可能會(huì)發(fā)生變化,則與之對(duì)應(yīng)的數(shù)據(jù)抽取源系統(tǒng)可能會(huì)發(fā)生變化,則與之對(duì)應(yīng)的數(shù)據(jù)抽取方法、數(shù)據(jù)轉(zhuǎn)換算法以及數(shù)據(jù)倉庫本身的結(jié)構(gòu)和方法、數(shù)據(jù)轉(zhuǎn)換算法以及數(shù)據(jù)倉庫本身的結(jié)構(gòu)和內(nèi)容也有可能
45、變化。因此,數(shù)據(jù)倉庫環(huán)境中的元內(nèi)容也有可能變化。因此,數(shù)據(jù)倉庫環(huán)境中的元數(shù)據(jù)必須具有跟蹤這些變化的能力。這也意味著數(shù)據(jù)必須具有跟蹤這些變化的能力。這也意味著元數(shù)據(jù)管理必須提供按照合適的版本來獲取和存元數(shù)據(jù)管理必須提供按照合適的版本來獲取和存儲(chǔ)元數(shù)據(jù)的方法使元數(shù)據(jù)可以隨時(shí)間變化。儲(chǔ)元數(shù)據(jù)的方法使元數(shù)據(jù)可以隨時(shí)間變化。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)三、數(shù)據(jù)倉庫中的元數(shù)據(jù)管理三、數(shù)據(jù)倉庫中的元數(shù)據(jù)管理1、元數(shù)據(jù)管理的具體內(nèi)容(續(xù))、元數(shù)據(jù)管理的具體內(nèi)容(續(xù))(2)元數(shù)據(jù)的集成)元數(shù)據(jù)的集成 不論是管理元數(shù)據(jù)和用戶元
46、數(shù)據(jù),還是來自不論是管理元數(shù)據(jù)和用戶元數(shù)據(jù),還是來自源系統(tǒng)數(shù)據(jù)模型的元數(shù)據(jù)和來自數(shù)據(jù)倉庫數(shù)據(jù)模型源系統(tǒng)數(shù)據(jù)模型的元數(shù)據(jù)和來自數(shù)據(jù)倉庫數(shù)據(jù)模型的元數(shù)據(jù),都必須以一種用戶能夠理解的統(tǒng)一方式的元數(shù)據(jù),都必須以一種用戶能夠理解的統(tǒng)一方式集成。元數(shù)據(jù)集成是元數(shù)據(jù)管理中的難點(diǎn)。集成。元數(shù)據(jù)集成是元數(shù)據(jù)管理中的難點(diǎn)。1.2.2 元數(shù)據(jù)元數(shù)據(jù)三、數(shù)據(jù)倉庫中的元數(shù)據(jù)管理三、數(shù)據(jù)倉庫中的元數(shù)據(jù)管理1、元數(shù)據(jù)管理的具體內(nèi)容、元數(shù)據(jù)管理的具體內(nèi)容(3)元數(shù)據(jù)的標(biāo)準(zhǔn)化)元數(shù)據(jù)的標(biāo)準(zhǔn)化 每一個(gè)工具都有自己專用的元數(shù)據(jù),不同的每一個(gè)工具都有自己專用的元數(shù)據(jù),不同的工具中存儲(chǔ)的同一種元數(shù)據(jù)必須用同一種方式表工具中存儲(chǔ)的同一種
47、元數(shù)據(jù)必須用同一種方式表示,不同工具之間也應(yīng)該可以自由、容易地交換示,不同工具之間也應(yīng)該可以自由、容易地交換元數(shù)據(jù)。元數(shù)據(jù)標(biāo)準(zhǔn)化是對(duì)元數(shù)據(jù)管理提出的另元數(shù)據(jù)。元數(shù)據(jù)標(biāo)準(zhǔn)化是對(duì)元數(shù)據(jù)管理提出的另一個(gè)巨大挑戰(zhàn),目前尚未形成全行業(yè)內(nèi)統(tǒng)一的標(biāo)一個(gè)巨大挑戰(zhàn),目前尚未形成全行業(yè)內(nèi)統(tǒng)一的標(biāo)準(zhǔn)。準(zhǔn)。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)三、數(shù)據(jù)倉庫中的元數(shù)據(jù)管理三、數(shù)據(jù)倉庫中的元數(shù)據(jù)管理1、元數(shù)據(jù)管理的具體內(nèi)容(續(xù))、元數(shù)據(jù)管理的具體內(nèi)容(續(xù))(4)保持元數(shù)據(jù)同步)保持元數(shù)據(jù)同步 關(guān)于數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)元素、事件、規(guī)則的元關(guān)于數(shù)據(jù)結(jié)構(gòu)、
48、數(shù)據(jù)元素、事件、規(guī)則的元數(shù)據(jù)必須在任何時(shí)間在整個(gè)數(shù)據(jù)倉庫中保持同步。數(shù)據(jù)必須在任何時(shí)間在整個(gè)數(shù)據(jù)倉庫中保持同步。同時(shí),如果數(shù)據(jù)或規(guī)則變化導(dǎo)致元數(shù)據(jù)發(fā)生變化同時(shí),如果數(shù)據(jù)或規(guī)則變化導(dǎo)致元數(shù)據(jù)發(fā)生變化時(shí),這個(gè)變化也要反映到數(shù)據(jù)倉庫中。在數(shù)據(jù)倉時(shí),這個(gè)變化也要反映到數(shù)據(jù)倉庫中。在數(shù)據(jù)倉庫中保持統(tǒng)一的元數(shù)據(jù)版本控制的工作是十分繁庫中保持統(tǒng)一的元數(shù)據(jù)版本控制的工作是十分繁重的。重的。1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)三、數(shù)據(jù)倉庫中的元數(shù)據(jù)管理三、數(shù)據(jù)倉庫中的元數(shù)據(jù)管理1、元數(shù)據(jù)管理的具體內(nèi)容(續(xù))、元數(shù)據(jù)管理的具體內(nèi)容(續(xù)
49、) 目前,實(shí)施對(duì)元數(shù)據(jù)管理的方法主要有兩種:目前,實(shí)施對(duì)元數(shù)據(jù)管理的方法主要有兩種: 對(duì)于相對(duì)簡(jiǎn)單的環(huán)境,按照通用的元數(shù)據(jù)管對(duì)于相對(duì)簡(jiǎn)單的環(huán)境,按照通用的元數(shù)據(jù)管理標(biāo)準(zhǔn)建立一個(gè)集中式的元數(shù)據(jù)知識(shí)庫;對(duì)于比理標(biāo)準(zhǔn)建立一個(gè)集中式的元數(shù)據(jù)知識(shí)庫;對(duì)于比較復(fù)雜的環(huán)境,分別建立各部分的元數(shù)據(jù)管理系較復(fù)雜的環(huán)境,分別建立各部分的元數(shù)據(jù)管理系統(tǒng),形成分布式元數(shù)據(jù)知識(shí)庫,然后,通過建立統(tǒng),形成分布式元數(shù)據(jù)知識(shí)庫,然后,通過建立標(biāo)準(zhǔn)的元數(shù)據(jù)交換格式,實(shí)現(xiàn)元數(shù)據(jù)的集成管理。標(biāo)準(zhǔn)的元數(shù)據(jù)交換格式,實(shí)現(xiàn)元數(shù)據(jù)的集成管理。1.2.2 元數(shù)據(jù)元數(shù)據(jù)三、數(shù)據(jù)倉庫中的元數(shù)據(jù)管理三、數(shù)據(jù)倉庫中的元數(shù)據(jù)管理2、元數(shù)據(jù)管理工具、元
50、數(shù)據(jù)管理工具與元數(shù)據(jù)相關(guān)的數(shù)據(jù)倉庫工具大致可分為四類:與元數(shù)據(jù)相關(guān)的數(shù)據(jù)倉庫工具大致可分為四類: (1)數(shù)據(jù)抽取工具)數(shù)據(jù)抽取工具 (2)前端展示工具)前端展示工具 (3)建模工具)建模工具 (4)元數(shù)據(jù)存儲(chǔ)工具)元數(shù)據(jù)存儲(chǔ)工具1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)三、數(shù)據(jù)倉庫中的元數(shù)據(jù)管理三、數(shù)據(jù)倉庫中的元數(shù)據(jù)管理2、元數(shù)據(jù)管理工具、元數(shù)據(jù)管理工具元數(shù)據(jù)管理元數(shù)據(jù)管理數(shù)據(jù)抽取工具:數(shù)據(jù)抽取工具:*DataStage*Decision Base*Extract前端展現(xiàn)工具:前端展現(xiàn)工具:*Bo*Brio*cognos
51、*DSS Agent建模工具:建模工具:*Erwin*Power Designer*Rose元數(shù)據(jù)存儲(chǔ)工具:元數(shù)據(jù)存儲(chǔ)工具:*Repository*MetaStage*WCC1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.2 元數(shù)據(jù)元數(shù)據(jù)四、在數(shù)據(jù)倉庫項(xiàng)目中使用元數(shù)據(jù)的建議四、在數(shù)據(jù)倉庫項(xiàng)目中使用元數(shù)據(jù)的建議(1)ETL/元數(shù)據(jù)配合整體的建設(shè)策略元數(shù)據(jù)配合整體的建設(shè)策略(2)從簡(jiǎn)單元數(shù)據(jù)管理做起,規(guī)范)從簡(jiǎn)單元數(shù)據(jù)管理做起,規(guī)范ETL設(shè)計(jì)設(shè)計(jì)(3)讓業(yè)務(wù)人員盡早的使用元數(shù)據(jù))讓業(yè)務(wù)人員盡早的使用元數(shù)據(jù)(4)盡量使用元數(shù)據(jù)維護(hù)數(shù)據(jù)倉庫)盡量使用
52、元數(shù)據(jù)維護(hù)數(shù)據(jù)倉庫(5)采用合適的管理方法)采用合適的管理方法(6)建立元數(shù)據(jù)庫)建立元數(shù)據(jù)庫1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理第二章第二章 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)1.2.3 外部數(shù)據(jù)外部數(shù)據(jù) 來自企業(yè)外,描述企業(yè)外部環(huán)境的數(shù)據(jù)稱為來自企業(yè)外,描述企業(yè)外部環(huán)境的數(shù)據(jù)稱為外部數(shù)據(jù)。外部數(shù)據(jù)。一、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)一、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù) 外部數(shù)據(jù)的另一種來源是無法用數(shù)字或統(tǒng)一外部數(shù)據(jù)的另一種來源是無法用數(shù)字或統(tǒng)一的結(jié)構(gòu)表示的數(shù)據(jù)類,即非結(jié)構(gòu)化數(shù)據(jù)。的結(jié)構(gòu)表示的數(shù)據(jù)類,即非結(jié)構(gòu)化數(shù)據(jù)。 非結(jié)構(gòu)化數(shù)據(jù)的兩種最常見
53、的類型是圖像和非結(jié)構(gòu)化數(shù)據(jù)的兩種最常見的類型是圖像和聲音。聲音。1.2.3 外部數(shù)據(jù)外部數(shù)據(jù)一、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)一、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù) 在數(shù)據(jù)倉庫中存在一些與外部數(shù)據(jù)在數(shù)據(jù)倉庫中存在一些與外部數(shù)據(jù)/非結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)的使用、存儲(chǔ)相關(guān)的問題。表現(xiàn)如下:數(shù)據(jù)的使用、存儲(chǔ)相關(guān)的問題。表現(xiàn)如下: 1)訪問的頻率)訪問的頻率/可用頻率可用頻率 2)數(shù)據(jù)的形式)數(shù)據(jù)的形式 3)不可預(yù)測(cè)性)不可預(yù)測(cè)性1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.3 外部數(shù)據(jù)外部數(shù)據(jù)二、元數(shù)據(jù)和外部數(shù)據(jù)二、元數(shù)據(jù)和外部數(shù)據(jù) 由于在數(shù)據(jù)倉庫環(huán)境中正是通過元數(shù)據(jù)來
54、對(duì)由于在數(shù)據(jù)倉庫環(huán)境中正是通過元數(shù)據(jù)來對(duì)外部數(shù)據(jù)進(jìn)行注冊(cè)、訪問與控制的,因此元數(shù)據(jù)外部數(shù)據(jù)進(jìn)行注冊(cè)、訪問與控制的,因此元數(shù)據(jù)對(duì)存儲(chǔ)和管理外部數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)起著重要對(duì)存儲(chǔ)和管理外部數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)起著重要的作用。的作用。 (見下圖)(見下圖)1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.3 外部數(shù)據(jù)外部數(shù)據(jù)二、元數(shù)據(jù)和外部數(shù)據(jù)二、元數(shù)據(jù)和外部數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)倉庫元數(shù)據(jù)元數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)外部數(shù)據(jù)外部數(shù)據(jù)元數(shù)據(jù):元數(shù)據(jù):l文件標(biāo)識(shí)符文件標(biāo)識(shí)符l進(jìn)入日期進(jìn)入日期l文件描述文件描述l文件來源文件來源l文件的分類文件的分類l索引字索引字l清理日期清理日期l物理地址引用物理地址引用l文件長(zhǎng)度文件長(zhǎng)度l相關(guān)參考相關(guān)參考1.2 數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的ETL和元數(shù)據(jù)和元數(shù)據(jù)第一章第一章 數(shù)據(jù)倉庫原理數(shù)據(jù)倉庫原理1.2.3 外部數(shù)據(jù)外部數(shù)據(jù)二、元數(shù)據(jù)和外部數(shù)據(jù)二、元數(shù)據(jù)和外部數(shù)據(jù) 如果對(duì)元數(shù)據(jù)進(jìn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- SMTP服務(wù)器租賃合同范本
- 教育設(shè)施愛心基金管理辦法
- 能源企業(yè)隔音墻施工合同
- 人工智能項(xiàng)目投資擔(dān)保人還款協(xié)議
- 教育咨詢高級(jí)顧問聘用合同樣本
- 旅游設(shè)施施工合同備案說明
- 園林綠化施工管理合同樣本
- 教育公益捐贈(zèng)管理辦法
- 環(huán)保設(shè)施清潔施工合同建筑膜
- 體育館化糞池建設(shè)協(xié)議
- 行為矯正治療記錄單
- 裝載機(jī)零件目錄(以徐工lw500kn為例)
- 行政事業(yè)單位經(jīng)濟(jì)責(zé)任審計(jì)報(bào)告范文
- 泵蓋鑄造工藝課程設(shè)計(jì)
- 無損檢測(cè)Ⅱ級(jí)人員超聲(UT)鍛件門類專業(yè)知識(shí)試題及詳解
- 銷售大戶監(jiān)管辦法
- 小型裝配式冷庫設(shè)計(jì)(全套圖紙)
- 電動(dòng)汽車無線充電技術(shù)
- 審計(jì)工作手冊(cè)
- 防蛇安全教育培訓(xùn)
- 胰腺癌一病一品知識(shí)分享
評(píng)論
0/150
提交評(píng)論