版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)倉庫之路
FAQ
FAQ目錄
一、與數(shù)據(jù)倉庫有關(guān)的幾個(gè)概念.....................3
1.1目錄.........................................3
二、數(shù)據(jù)倉庫產(chǎn)生的原因...........................8
三、數(shù)據(jù)倉庫體系結(jié)構(gòu)圖..........................11
四、數(shù)據(jù)倉庫設(shè)計(jì)................................12
4.1數(shù)據(jù)倉庫的建模..............................12
4.2數(shù)據(jù)倉庫建模的十條戒律:....................13
五、數(shù)據(jù)倉庫開發(fā)過程............................14
5.1數(shù)據(jù)模型的內(nèi)容..............................14
5.2數(shù)據(jù)模型轉(zhuǎn)變到數(shù)據(jù)倉庫......................14
5.3數(shù)據(jù)倉庫開發(fā)成功的關(guān)鍵......................15
六、數(shù)據(jù)倉庫的數(shù)據(jù)采集..........................16
6.1后臺(tái)處理....................................17
6.2中間處理....................................17
6.3前臺(tái)處理....................................18
6.4數(shù)據(jù)倉庫的技術(shù)體系結(jié)構(gòu)......................18
6.5數(shù)據(jù)的有效性檢查............................20
6.6清除和轉(zhuǎn)換數(shù)據(jù)..............................20
6.7簡(jiǎn)單變換....................................22
6.8清潔和刷洗..................................24
6.9集成........................................25
6.10聚集和概括..................................27
6.11移動(dòng)數(shù)據(jù)....................................27
七、如何建立數(shù)據(jù)倉庫............................30
7.1數(shù)據(jù)倉庫設(shè)計(jì)................................31
7.2數(shù)據(jù)抽取模塊................................32
7.3數(shù)據(jù)維護(hù)模塊................................33
一、與數(shù)據(jù)倉庫有關(guān)的幾個(gè)概念
1.1目錄
□Datawarehouse
□Datamart
□OLAP
□ROLAP
□MOLAP
□ClientOLAP
□DSS
□ETL
口Adhocquery
□EIS
□BPR
口BI
□Datamining
□CRM
□MetaData
Datawarehouse
本世紀(jì)80年代中期,“數(shù)據(jù)倉庫之父"WilliamH.Inmon先生在其《建立數(shù)據(jù)
倉庫》一書中定義了數(shù)據(jù)倉庫的概念,隨后又給出了更為精確的定義:數(shù)據(jù)倉
庫是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)
據(jù)集合。與其他數(shù)據(jù)庫應(yīng)用不同的是,數(shù)據(jù)倉庫更像一種過程,對(duì)分布在企業(yè)
內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程。而不是一種可以購買的產(chǎn)品。
Datamart
即數(shù)據(jù)集市,或者叫做“小數(shù)據(jù)倉庫”。如果說數(shù)據(jù)倉庫是建立在企業(yè)級(jí)的數(shù)
據(jù)模型之上的話。那么數(shù)據(jù)集市就是企業(yè)級(jí)數(shù)據(jù)倉庫的一個(gè)子集,他主要面向
部門級(jí)業(yè)務(wù),并且只面向某個(gè)特定的主題。數(shù)據(jù)集市可以在一定程度上緩解訪
問數(shù)據(jù)倉庫的瓶頸。
OLAP
聯(lián)機(jī)分析處理(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出
的。當(dāng)時(shí),Codd認(rèn)為聯(lián)機(jī)事務(wù)處理(OLTP)已不能滿足終端用戶對(duì)數(shù)據(jù)庫查詢分
析的需要,SQL對(duì)大數(shù)據(jù)庫進(jìn)行的簡(jiǎn)單查詢也不能滿足用戶分析的需求。用戶
的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢的結(jié)果并不
能滿足決策者提出的需求。因此Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即
OLAPoCodd提出OLAP的12條準(zhǔn)則來描述OLAP系統(tǒng):
準(zhǔn)則1OLAP模型必須提供多維概念視圖
準(zhǔn)則2透明性準(zhǔn)則
準(zhǔn)則3存取能力推測(cè)
準(zhǔn)則4穩(wěn)定的報(bào)表能力
準(zhǔn)則5客戶/服務(wù)器體系結(jié)構(gòu)
準(zhǔn)則6維的等同性準(zhǔn)則
準(zhǔn)則7動(dòng)態(tài)的稀疏矩陣處理準(zhǔn)則
準(zhǔn)則8多用戶支持能力準(zhǔn)則
準(zhǔn)則9非受限的跨維操作
準(zhǔn)則10直觀的數(shù)據(jù)操縱
準(zhǔn)則11靈活的報(bào)表生成
準(zhǔn)則12不受限的維與聚集層次
ROLAP
基于Codd的12條準(zhǔn)則,各個(gè)軟件開發(fā)廠家見仁見智,其中一個(gè)流派,認(rèn)為可
以沿用關(guān)系型數(shù)據(jù)庫來存儲(chǔ)多維數(shù)據(jù),于是,基于稀疏矩陣表示方法的星型結(jié)
構(gòu)(starschema)就出現(xiàn)了。后來又演化出雪花結(jié)構(gòu)。為了與多維數(shù)據(jù)庫相區(qū)
別,則把基于關(guān)系型數(shù)據(jù)庫的OLAP稱為RelationalOLAP,簡(jiǎn)稱ROLAP。代
表產(chǎn)品有InformixMetacube>MicrosoftSQLServer
OLAPServices.
MOLAP
嚴(yán)格遵照Codd的定義,自行建立了多維數(shù)據(jù)庫,來存放聯(lián)機(jī)分析系統(tǒng)數(shù)據(jù)的
ArborSoftware,開創(chuàng)了多維數(shù)據(jù)存儲(chǔ)的先河,后來的很多家公司紛紛采用多維
數(shù)據(jù)存儲(chǔ)。被人們稱為MuiltDimensionOLAP,簡(jiǎn)稱MOLAP,代表產(chǎn)品有
Hyperion(原Arborsoftware)Essbase、ShowcaseSTRATEGY等。
ClientOLAP
相對(duì)于ServerOLAP而言。部分分析工具廠家建議把部分?jǐn)?shù)據(jù)下載到本地,為
用戶提供本地的多維分析。代表產(chǎn)品有BrioDesigner,BusinessObject.
DSS
決策支持系統(tǒng)(DecisionSupportsystem),相當(dāng)于基于數(shù)據(jù)倉庫的應(yīng)用。決策
支持就是在收集所有有關(guān)數(shù)據(jù)和信息,經(jīng)過加工整理,來為企業(yè)決策管理層提
供信息,為決策者的決策提供依據(jù)。
ETL
數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、清洗(Cleansing)、裝載(Load)
的過程。構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)
據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。
Adhocquery
即席查詢,數(shù)據(jù)庫應(yīng)用最普遍的一種查詢,利用數(shù)據(jù)倉庫技術(shù),可以讓用戶隨
時(shí)可以面對(duì)數(shù)據(jù)庫,獲取所希望的數(shù)據(jù)。
EIS
領(lǐng)導(dǎo)信息系統(tǒng)(ExecutiveInformationSystem),指為了滿足無法專注于計(jì)算機(jī)
技術(shù)的領(lǐng)導(dǎo)人員的信息查詢需求,而特意制定的以簡(jiǎn)單的圖形界面訪問數(shù)據(jù)倉
庫的一種應(yīng)用。
BPR
業(yè)務(wù)流程重整(BusinessProcessReengineering),指利用數(shù)據(jù)倉庫技術(shù),發(fā)現(xiàn)并
糾正企業(yè)業(yè)務(wù)流程中的弊端的一項(xiàng)工作。數(shù)據(jù)倉庫的重要作用之一。
BI
商業(yè)智能(BusinessIntelligence),指數(shù)據(jù)倉庫相關(guān)技術(shù)與應(yīng)用的通稱。指利用
各種智能技術(shù),來提升企業(yè)的商業(yè)競(jìng)爭(zhēng)力。
Datamining
數(shù)據(jù)挖掘,DataMining是一種決策支持過程,它主要基于AI、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)
學(xué)等技術(shù),高度自動(dòng)化地分析企業(yè)原有的數(shù)據(jù),作出歸納性的推理,從中挖掘
出潛在的模式,預(yù)測(cè)客戶的行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),
作出正確的決策
CRM
客戶關(guān)系管理(CustomerRelationshipmanagement),數(shù)據(jù)倉庫是以數(shù)據(jù)庫技術(shù)
為基礎(chǔ)但又與傳統(tǒng)的數(shù)據(jù)庫應(yīng)用有著本質(zhì)區(qū)別的新技術(shù),CRM就是基于數(shù)據(jù)
倉庫技術(shù)的一種新應(yīng)用。但是,從商業(yè)運(yùn)作的角度來講,CRM其實(shí)應(yīng)該算是
一個(gè)古老的"應(yīng)用"了。比如,酒店對(duì)客人信息的管理,如果某個(gè)客人是某酒店
的老主顧,那么該酒店很自然地會(huì)知道這位客人的某些習(xí)慣和喜好,如是否喜
歡靠路邊,是否吸煙,是否喜歡大床,喜歡什么樣的早餐,等等。當(dāng)客人再次
光臨時(shí),不用客人自己提出來,酒店就會(huì)提供客人所喜歡的房間和服務(wù)。這就
是一種CRM.
MetaData
元數(shù)據(jù),關(guān)于數(shù)據(jù)倉庫的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)
據(jù)源定義,目標(biāo)定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時(shí)元數(shù)據(jù)還包含關(guān)于數(shù)
據(jù)含義的商業(yè)信息,所有這些信息都應(yīng)當(dāng)妥善保存,并很好地管理。為數(shù)據(jù)倉
庫的發(fā)展和使用提供方便。
二、數(shù)據(jù)倉庫產(chǎn)生的原因
事務(wù)處理環(huán)境不適宜DSS應(yīng)用的原因主要有以下五條:
(1)事務(wù)處理和分析處理的性能特性不同。
在事務(wù)處理環(huán)境中,用戶的行為特點(diǎn)是數(shù)據(jù)的存取操作頻率高而每次操作處
理的時(shí)間短;在分析處理環(huán)境中,用戶的行為模式與此完全不同,某個(gè)DSS應(yīng)用
程序可能需要連續(xù)幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。將具有如此不同處理性
能的兩種應(yīng)用放在同一個(gè)環(huán)境中運(yùn)行顯然是不適當(dāng)?shù)摹?/p>
(2)數(shù)據(jù)集成問題。
DSS需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效的分析和決策的首要前提,
相關(guān)數(shù)據(jù)收集得越完整,得到的結(jié)果就越可靠。當(dāng)前絕大多數(shù)企業(yè)內(nèi)數(shù)據(jù)的真正
狀況是分散而非集成的。造成這種分散的原因有多種,主要有事務(wù)處理應(yīng)用分散、
“蜘蛛網(wǎng)”問題、數(shù)據(jù)不一致問題、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
(3)數(shù)據(jù)動(dòng)態(tài)集成問題。
靜態(tài)集成的最大缺點(diǎn)在于,如果在數(shù)據(jù)集成后數(shù)據(jù)源中數(shù)據(jù)發(fā)生了變化,這
些變化將不能反映給決策者,導(dǎo)致決策者使用的是過時(shí)的數(shù)據(jù)。集成數(shù)據(jù)必須
以一定的周期(例如24小時(shí))進(jìn)行刷新,我們稱其為動(dòng)態(tài)集成。顯然,事務(wù)處
理系統(tǒng)不具備動(dòng)態(tài)集成的能力。
(4)歷史數(shù)據(jù)問題。
事務(wù)處理一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫中一般也是存儲(chǔ)短期數(shù)據(jù),切不同
數(shù)據(jù)的保存期限也不一樣,即使有一些歷史數(shù)據(jù)保存下來了,也被束之高閣,未
得到充分利用。但對(duì)于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必
須一大量的歷史數(shù)據(jù)為依托。沒有歷史數(shù)據(jù)的詳細(xì)分析,是難以把握企業(yè)的發(fā)展
趨勢(shì)的。DSS對(duì)數(shù)據(jù)在空間和時(shí)間的廣度上都有了更高的要求,而事務(wù)處理環(huán)境
難以滿足這些要求。
(5)數(shù)據(jù)的綜合問題。
在事務(wù)處理系統(tǒng)中積累了大量的細(xì)節(jié)數(shù)據(jù),一般而言,DSS并不對(duì)這些細(xì)節(jié)
數(shù)據(jù)進(jìn)行分析。在分析前,往往需要對(duì)細(xì)節(jié)數(shù)據(jù)進(jìn)行不同程度的綜合。而事務(wù)處
理系統(tǒng)不具備這種綜合能力,根據(jù)規(guī)范化理論,這種綜合還往往因?yàn)槭且环N數(shù)據(jù)
冗余而加以限制。
要提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及
其數(shù)據(jù)相分離。必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按照DSS處理的
需要進(jìn)行重新組織,建立單獨(dú)的分析處理環(huán)境,數(shù)據(jù)倉庫正是為了構(gòu)建這種新的
分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。
三、數(shù)據(jù)倉庫體系結(jié)構(gòu)圖
中6
鼓
番
倉
方
OWEA
■拄用戶
DWLA
敬■
清
度
工
具?幅
XA
改第臬#RM5M
“分場(chǎng)
數(shù)據(jù)倉庫結(jié)構(gòu)的元件
E/UikingUsing
DataWarehouseDesignDataMartDesign
k
o
pEnd-UserTools
o
OperationalDatai
DataMartsq
DataTransformations£
£
DBSchemaTransformationSchedulingOLAP
MicrosoftReposHoi
DataWarehouseManagement
DataFlow
四、數(shù)據(jù)倉庫設(shè)計(jì)
4.1數(shù)據(jù)倉庫的建模
□數(shù)據(jù)模型
1)所有的實(shí)體都是平等關(guān)系。
2)僅僅從數(shù)據(jù)模型的角度來著手設(shè)計(jì)數(shù)據(jù)倉庫會(huì)產(chǎn)生一種“平面”效應(yīng)。
□星型連接
1)事實(shí)表:位于星型連接的中央,它是被大量載入數(shù)據(jù)的實(shí)體。
2)維表:周圍的其它實(shí)體。
3)在很多情況下:文本數(shù)據(jù)與數(shù)值數(shù)據(jù)是分離開的。
通過數(shù)據(jù)預(yù)連接和建立有選擇的數(shù)據(jù)冗余,設(shè)計(jì)者為訪問和分析過程大大簡(jiǎn)化了
數(shù)據(jù)。
星型連接應(yīng)用于設(shè)計(jì)數(shù)據(jù)倉庫中很大的實(shí)體,而數(shù)據(jù)模型則應(yīng)用于數(shù)據(jù)倉庫中較
小的實(shí)體。
4.2數(shù)據(jù)倉庫建模的十條戒律:
1)必須回答緊迫的問題;
2)必須有正確的事實(shí)表;
3)將有正確的維表,描述必須按最終用戶的業(yè)務(wù)術(shù)語表達(dá);
4)必須理解數(shù)據(jù)倉庫所影響的公司過程或影響數(shù)據(jù)倉庫的公司過程;
5)對(duì)于事實(shí)表,應(yīng)該有正確的“粒度”;
6)根據(jù)需要存儲(chǔ)正確長(zhǎng)度的公司歷史數(shù)據(jù);
7)以一種對(duì)于公司有意義的方式來集成所有必要的數(shù)據(jù);
8)創(chuàng)建必要的總結(jié)表;
9)創(chuàng)建必要的索引;
10)能夠加載數(shù)據(jù)倉庫數(shù)據(jù)庫并使它以一種適宜的方式可用。
五、數(shù)據(jù)倉庫開發(fā)過程
□建立或獲得企業(yè)的數(shù)據(jù)模型;
□定義記錄系統(tǒng);
□設(shè)計(jì)數(shù)據(jù)倉庫并按主題領(lǐng)域進(jìn)行組織;
□設(shè)計(jì)和建立操作型環(huán)境中的記錄系統(tǒng)和數(shù)據(jù)倉庫之間的接口,這些接口
能保證數(shù)據(jù)倉庫的載入工作能有序的進(jìn)行;
□開始載入第一個(gè)主題領(lǐng)域,進(jìn)入載入和反饋過程,數(shù)據(jù)倉庫中的數(shù)據(jù)在
此過程中也在不斷地改變。
5.1數(shù)據(jù)模型的內(nèi)容
□標(biāo)識(shí)主要主題領(lǐng)域。
口各個(gè)主要主題之間的各種關(guān)系。
口清晰地定義模型的邊界。
□把原始數(shù)據(jù)和導(dǎo)出數(shù)據(jù)分離。
□每個(gè)主題領(lǐng)域需要標(biāo)識(shí)
/鍵碼
,屬性
/屬性分組之間的關(guān)系
,多重出現(xiàn)的數(shù)據(jù)
/數(shù)據(jù)的類型
5.2數(shù)據(jù)模型轉(zhuǎn)變到數(shù)據(jù)倉庫
□如果原先沒有時(shí)間元素的話,時(shí)間元素必須加入到鍵碼結(jié)構(gòu)中
□必須清除所有的純操作型數(shù)據(jù)
□需要將參照完整性關(guān)系轉(zhuǎn)換成“人工關(guān)系”
□將經(jīng)常需要用到的到處數(shù)據(jù)假如到設(shè)計(jì)中
□對(duì)數(shù)據(jù)的結(jié)構(gòu)進(jìn)行調(diào)整
/增加數(shù)據(jù)陣列
/增加數(shù)據(jù)冗余
/在合適的情況下進(jìn)一步分離數(shù)據(jù)
/在合適的時(shí)候合并數(shù)據(jù)表
□需要做數(shù)據(jù)的穩(wěn)定性分析
5.3數(shù)據(jù)倉庫開發(fā)成功的關(guān)鍵
關(guān)鍵:是數(shù)據(jù)體系結(jié)構(gòu)設(shè)計(jì)者和DSS分析者之間的反饋循環(huán)。有幾點(diǎn)觀
察結(jié)果對(duì)數(shù)據(jù)倉庫環(huán)境的成功建立是至關(guān)重要的問題:
nDSS分析人員一定要嚴(yán)格遵循“給我我所要的東西,然后我能告訴你我
真正需要的東西”的工作模式;
□反饋循環(huán)的周期越短,越有可能成功;
□需要調(diào)整的數(shù)據(jù)量越大,反饋循環(huán)所需要的周期就越長(zhǎng)
六、數(shù)據(jù)倉庫的數(shù)據(jù)采集
許多部件構(gòu)成了數(shù)據(jù)倉庫系統(tǒng)。這個(gè)系統(tǒng)從現(xiàn)有的操作系統(tǒng)開始,一部分為支
持?jǐn)?shù)據(jù)倉庫而設(shè)的后臺(tái)處理,以訪問和運(yùn)用數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的用戶工具而結(jié)束。
在中間是個(gè)分散過程,它使數(shù)據(jù)以一種局部而不是集中的方式來支持用戶。至于
其他系統(tǒng),則是覆蓋這些處理過程技術(shù)的基礎(chǔ),如安全系統(tǒng),它不僅控制著在終
端數(shù)據(jù)倉庫的輸入過程,還控制著用戶在數(shù)據(jù)倉庫的前臺(tái)訪問能力。數(shù)據(jù)倉庫處
理的部件如圖:
6.1后臺(tái)處理
數(shù)據(jù)倉庫系統(tǒng)的后臺(tái)處理利用了操作系統(tǒng)的數(shù)據(jù)存儲(chǔ)器,以進(jìn)入數(shù)據(jù)倉庫內(nèi)占
有活動(dòng)區(qū)域:這個(gè)處理包括以下幾個(gè)部分:
□數(shù)據(jù)處理為數(shù)據(jù)倉庫收集數(shù)據(jù)的過程是從當(dāng)前操作系統(tǒng)開始的。該數(shù)據(jù)
倉庫的后臺(tái)處理需要被分成可管理的幾個(gè)處理模塊。操作系統(tǒng)生成必須處
理和輸入到數(shù)據(jù)倉庫的事務(wù)。在數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)內(nèi)必須有一種方法來
截取和收集那些在操作系統(tǒng)內(nèi)已改變的數(shù)據(jù),主要用于數(shù)據(jù)倉庫的輸入處
理。
□數(shù)據(jù)采集在收集到操作數(shù)據(jù)存儲(chǔ)器內(nèi)的變化后,數(shù)據(jù)倉庫的后臺(tái)處理必
須采集所有同以前收集的事務(wù)相關(guān)的數(shù)據(jù)。數(shù)據(jù)采集過程通常僅僅獲取驅(qū)
動(dòng)數(shù)據(jù)采集過程的關(guān)鍵信息。
數(shù)據(jù)制備成事務(wù)庫并用I條更新和供給數(shù)據(jù)倉庫系統(tǒng)。這個(gè)過程在整個(gè)數(shù)
據(jù)倉庫系統(tǒng)中是最復(fù)雜的,因?yàn)橛脩粽幚矶喾N遺留數(shù)據(jù)源。這些數(shù)據(jù)源中的一
些較為容易使用,而大部分則不是這樣。
6.2中間處理
數(shù)據(jù)倉庫系統(tǒng)的中間處理利用了一個(gè)登臺(tái)區(qū)域來完成在數(shù)據(jù)倉庫中對(duì)用戶游
泳的數(shù)據(jù)。登臺(tái)區(qū)域有時(shí)被叫正式地指定為操作數(shù)據(jù)存儲(chǔ)器。
□數(shù)據(jù)清理在收集到所有從操作系統(tǒng)存儲(chǔ)器得來的相關(guān)信息后,數(shù)據(jù)必須
在放入數(shù)據(jù)倉庫之前進(jìn)行清理,以獲得一個(gè)適當(dāng)?shù)慕y(tǒng)一的格式和定義。
□數(shù)據(jù)的放置和分發(fā)當(dāng)完成數(shù)據(jù)清理后,數(shù)據(jù)就必須放置到數(shù)據(jù)倉庫中。
□標(biāo)準(zhǔn)報(bào)表的編譯和索引在數(shù)據(jù)已放入數(shù)據(jù)倉庫數(shù)據(jù)存儲(chǔ)器之后,對(duì)包含于
數(shù)據(jù)倉庫系統(tǒng)內(nèi)的標(biāo)準(zhǔn)報(bào)表必須進(jìn)行編譯和索引。在這個(gè)過程結(jié)束后,報(bào)
表很像數(shù)據(jù)倉庫內(nèi)的原始數(shù)據(jù),將讓用戶在線有用,不必用紙張的形式發(fā)
送。
中間處理更新了數(shù)據(jù)倉庫中登臺(tái)區(qū)域的數(shù)據(jù),并使之成為可供最終客戶,也就
是數(shù)據(jù)倉庫系統(tǒng)的用戶使用的信息庫。
6.3前臺(tái)處理
前臺(tái)處理過程涉及到允許用戶對(duì)數(shù)據(jù)倉庫所包含的信息進(jìn)行正確的訪問,及提
供用戶工具集所需的目錄和中間數(shù)據(jù)信息。大多數(shù)數(shù)據(jù)倉庫項(xiàng)目的目標(biāo)應(yīng)當(dāng)是驅(qū)
使這一過程進(jìn)入強(qiáng)大的用戶領(lǐng)域,并脫離信息系統(tǒng)空間。然而,需要構(gòu)造幾個(gè)關(guān)
鍵的應(yīng)用程序以用于經(jīng)驗(yàn)不足的數(shù)據(jù)倉庫用戶。該過程的任務(wù)包括用新的信息內(nèi)
容來更新訪問數(shù)據(jù)倉庫的應(yīng)用程序,通過適當(dāng)?shù)挠脩艄ぞ呓M內(nèi)的視圖或分類定義
來提高訪問能力。
6.4數(shù)據(jù)倉庫的技術(shù)體系結(jié)構(gòu)
雖然普遍認(rèn)為數(shù)據(jù)倉庫系統(tǒng)能夠改善最終用戶查詢、報(bào)表生成和DSS能力,
而且能幫助組織投入公司數(shù)據(jù)以獲取市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì),但在數(shù)據(jù)倉庫系統(tǒng)構(gòu)成方面
看法卻不盡相同。數(shù)據(jù)倉庫的技術(shù)體系結(jié)構(gòu)如下圖:
夕陪[幽據(jù)
□設(shè)計(jì)模塊:用于設(shè)計(jì)數(shù)據(jù)倉庫數(shù)據(jù)庫
□數(shù)據(jù)獲取模塊:用于從源文件和源數(shù)據(jù)庫中獲取數(shù)據(jù),并進(jìn)行清潔、傳輸,
將它加到數(shù)據(jù)倉庫數(shù)據(jù)庫中
□管理模塊:用于管理數(shù)據(jù)倉庫的運(yùn)行
□信息目錄模塊:用于為管理者和企業(yè)用戶提供有關(guān)存儲(chǔ)在數(shù)據(jù)倉庫數(shù)據(jù)庫
中的數(shù)據(jù)的內(nèi)容和含義信息
□數(shù)據(jù)訪問模塊:用于為企業(yè)的最終用戶提供訪問和分析數(shù)據(jù)倉庫數(shù)據(jù)的工
具
□中間件模塊:用于最終用戶工具提供訪問數(shù)據(jù)倉庫數(shù)據(jù)庫的方法
□數(shù)據(jù)傳遞模塊:用于向其他倉庫和外部系統(tǒng)中分配數(shù)據(jù)倉庫數(shù)據(jù)
數(shù)據(jù)倉庫的三個(gè)重要組成部分,專家們一般把整個(gè)數(shù)據(jù)倉庫的建設(shè)按照其不
同性質(zhì),把它分為三個(gè)截然不同的部分,分別是:源數(shù)據(jù)、數(shù)據(jù)準(zhǔn)備、以及數(shù)據(jù)
呈現(xiàn)?,F(xiàn)在講的最多的OLAP分析和決策支持等,都是屬于數(shù)據(jù)呈現(xiàn)的部分,下
面我們來講一講數(shù)據(jù)準(zhǔn)備階段的問題。
6.5數(shù)據(jù)的有效性檢查
為避免數(shù)據(jù)冗余,要認(rèn)識(shí)到數(shù)據(jù)裝入數(shù)據(jù)倉庫之前,應(yīng)該對(duì)數(shù)據(jù)進(jìn)行有效性檢
查,這是很重要的。如果沒有進(jìn)行刃具的有效性檢查,就有可能破壞依賴于數(shù)據(jù)
倉庫的商務(wù)分析的完整性,幫助檢查數(shù)據(jù)的有效性的最好方法是源系統(tǒng)專家。源
系統(tǒng)專家包括具有技術(shù)專業(yè)知識(shí)和非技術(shù)知識(shí)的人士。
檢查數(shù)據(jù)倉庫中數(shù)據(jù)的有效性是一個(gè)非常耗時(shí)但必不可少的過程。建議該過程
應(yīng)高度自動(dòng)化。SQLServer7中有許多內(nèi)置功能,可自動(dòng)進(jìn)行數(shù)據(jù)有效性檢查。
6.6清除和轉(zhuǎn)換數(shù)據(jù)
有效性檢查是決定是否符合給定標(biāo)準(zhǔn)的過程。標(biāo)準(zhǔn)是依賴于安裝的,為某個(gè)站
點(diǎn)開發(fā)和執(zhí)行的標(biāo)準(zhǔn)可能在其他地方毫無意義。如果數(shù)據(jù)不在給定的界限之內(nèi),
它就成為我們稱作scrubbing(清除)過程的對(duì)象。清除數(shù)據(jù)包括對(duì)那些在給定范
圍之外的數(shù)據(jù)采取糾正措施。
數(shù)據(jù)倉庫中的數(shù)據(jù)來自于多種業(yè)務(wù)數(shù)據(jù)源,這些數(shù)據(jù)源可能是在不同的硬件平
臺(tái)上,使用不同的操作系統(tǒng),因而數(shù)據(jù)以不同的格式存在不同的數(shù)據(jù)庫中。如何
向數(shù)據(jù)倉庫中加載這些數(shù)量大、種類多的數(shù)據(jù),已成為建立數(shù)據(jù)倉庫所面臨的一
個(gè)關(guān)鍵問題。
在數(shù)據(jù)遷移的過程中,通常需要將操作數(shù)據(jù)轉(zhuǎn)換成另一種格式以更加適用于數(shù)
據(jù)倉庫設(shè)計(jì)%在太多數(shù)情況下,轉(zhuǎn)換是將數(shù)據(jù)匯總,以使它更有意義。
在轉(zhuǎn)換結(jié)構(gòu)中,確保能找出一種最好的方法保證數(shù)據(jù)從傳統(tǒng)的數(shù)據(jù)存儲(chǔ)器到
數(shù)據(jù)倉庫的同步。同步結(jié)構(gòu)應(yīng)當(dāng)把重點(diǎn)放在轉(zhuǎn)換語言的標(biāo)準(zhǔn)化、數(shù)據(jù)移動(dòng)平臺(tái)、
通信策略和支持策略方面。數(shù)據(jù)倉庫與操作數(shù)據(jù)存儲(chǔ)器之間的同步過程能夠采取
不同的結(jié)構(gòu)。
除尋找自動(dòng)化轉(zhuǎn)換操作的工具之外,還應(yīng)估計(jì)數(shù)據(jù)轉(zhuǎn)換的復(fù)雜性。大多數(shù)傳
統(tǒng)的數(shù)據(jù)存儲(chǔ)方法缺乏標(biāo)準(zhǔn),常常有些不規(guī)則的東西讓開發(fā)員摸不著頭腦。工具
正在不斷改進(jìn)以有助于轉(zhuǎn)換過程的自動(dòng)化,包括復(fù)雜問題,如掩匿的數(shù)據(jù)、傳統(tǒng)
標(biāo)準(zhǔn)的缺乏及不統(tǒng)一的關(guān)鍵數(shù)據(jù)。
提取處理是數(shù)據(jù)倉庫成功的關(guān)鍵。在提取過程中,數(shù)據(jù)會(huì)被格式化,并分發(fā)給
需要從操作環(huán)境中共享數(shù)據(jù)的資源。元數(shù)據(jù)存儲(chǔ)的工作是定義和解釋數(shù)據(jù)資源和
數(shù)據(jù)標(biāo)準(zhǔn)。因此,在操作數(shù)據(jù)上執(zhí)行的轉(zhuǎn)換過程應(yīng)該用元數(shù)據(jù)存儲(chǔ)中定義的標(biāo)準(zhǔn)
數(shù)據(jù)格式放置數(shù)據(jù)。
我們可以定義數(shù)據(jù)變換的幾個(gè)基本類型,每一類都有自己的特點(diǎn)和表現(xiàn)形式:
□簡(jiǎn)單變換
單變換是所有數(shù)據(jù)變換的基本構(gòu)成單元。這一類中包括的數(shù)據(jù)處理一次只
針對(duì)一個(gè)字段,而不是考慮相關(guān)字段的值。
□清潔和刷洗
目的是為了保證前后一致地格式化和使用某一字段或相關(guān)的字段群。
O集成
集成是將業(yè)務(wù)數(shù)據(jù)從一個(gè)或幾個(gè)來源中取出,并逐字段地將數(shù)據(jù)影射到數(shù)據(jù)
倉庫的新數(shù)據(jù)結(jié)構(gòu)上。
□聚集和概括
聚集和概括是把業(yè)務(wù)環(huán)境中找到的零星數(shù)據(jù)壓縮成數(shù)據(jù)倉庫環(huán)境中的較少數(shù)
據(jù)塊,有時(shí)進(jìn)行聚集中的細(xì)節(jié)數(shù)據(jù)是為了避免倉庫存入業(yè)務(wù)環(huán)境中的那樣具體的
數(shù)據(jù),有時(shí)則是為了建立包括倉庫的聚集副本或概括副本的數(shù)據(jù)商場(chǎng)。
6.7簡(jiǎn)單變換
顧名思義,它是數(shù)據(jù)變換中最簡(jiǎn)單的形式,這些變換一次改變一個(gè)數(shù)據(jù)屬性而
不考慮該屬性的背景或與它相關(guān)的其他信息。
□數(shù)據(jù)類型轉(zhuǎn)換
最常見的簡(jiǎn)單變換是轉(zhuǎn)換一個(gè)數(shù)據(jù)元的類型。當(dāng)現(xiàn)有應(yīng)用程序存儲(chǔ)某個(gè)類型的
數(shù)據(jù)只在該應(yīng)用程序的背景下有意義,在企業(yè)水平上卻沒有意義時(shí),就常常要求
進(jìn)行這類變換。
這類轉(zhuǎn)換可以通過編碼程序中的簡(jiǎn)單程序邏輯完成,或者運(yùn)用數(shù)據(jù)倉庫數(shù)據(jù)變
換工具完成。
□日期/時(shí)間格式的轉(zhuǎn)換
□因?yàn)榇蠖鄶?shù)業(yè)務(wù)環(huán)境都有許多不同的日期和時(shí)間類型,所以幾乎每個(gè)數(shù)據(jù)
倉庫的實(shí)現(xiàn)都必須將日期和時(shí)間變換成標(biāo)準(zhǔn)的倉庫格式。這可以通過手工
程序編碼來完成。它能把一個(gè)日期或時(shí)間字段拆成幾個(gè)子部分,然后再將
它們拼成想要的字段。然而市場(chǎng)上的大多數(shù)數(shù)據(jù)變換工具只提供了日期和
時(shí)間格式之間迅速進(jìn)行簡(jiǎn)單轉(zhuǎn)換的設(shè)施,而手工編碼上下的功夫要少得多。
□字段解碼
簡(jiǎn)單地說,數(shù)據(jù)一般不應(yīng)該以編碼的格式放在數(shù)據(jù)倉庫中。我們?cè)跇I(yè)務(wù)數(shù)據(jù)庫
中建立代碼是為了節(jié)省數(shù)據(jù)庫存儲(chǔ)空間。雖然人不理解這些代碼,但這并不是大
問題,因?yàn)槲覀兣c那些代碼的交互作用是由應(yīng)用程序管理的。這些程序在必要的
時(shí)候會(huì)成為我們破解那些值的代碼。
在數(shù)據(jù)倉庫環(huán)境中,情況就大不一樣了。因?yàn)閾碜o(hù)可能來自公司的任何部門,
所以倉庫的所有用戶不可能都有足夠的背景知識(shí)和培訓(xùn),使他們能夠理解在業(yè)務(wù)
數(shù)據(jù)庫中使用的編碼值。
因此,業(yè)務(wù)系統(tǒng)和外部數(shù)據(jù)中的編碼值在存入數(shù)據(jù)倉庫之前,應(yīng)該轉(zhuǎn)換為經(jīng)過
解碼的、易于理解的相應(yīng)值。一方面,我們想把編碼值充分?jǐn)U展,使它們?yōu)樽畲?/p>
多數(shù)的用戶理解;另一方面,把一個(gè)值擴(kuò)展得太多要占用額外的存儲(chǔ)空間,而且
把該值當(dāng)作查詢中的檢索標(biāo)準(zhǔn)也很困難。由于顧客情況代碼不被普遍理解,所以
應(yīng)該擴(kuò)展為一個(gè)有意義的、易于理解的值,以便倉庫用戶能夠認(rèn)出它。用到的準(zhǔn)
則是:必須長(zhǎng)到足以被大多數(shù)倉庫用戶理解。
從技術(shù)角度看,字段解碼是個(gè)非常易于實(shí)現(xiàn)的過程,它可以很容易地結(jié)合到變
換程序中去,也可以在數(shù)據(jù)轉(zhuǎn)換工具中輕松地完成,然而,確定應(yīng)該進(jìn)行多少解
碼工作是很難的。但一個(gè)好的解決方法往往提供了足夠的解碼,這樣即使普遍用
戶也可以理解字段值的含義,并且可以用全面理解數(shù)據(jù)元值及其用法的元數(shù)據(jù)加
深他的理解。
6.8清潔和刷洗
清潔和刷洗是兩個(gè)可互換的術(shù)語,指的是比簡(jiǎn)單變換更復(fù)雜的一種數(shù)據(jù)變換。
在這種變換中,要檢查的是字段或字段組的實(shí)際內(nèi)容而不僅是存儲(chǔ)格式。一種清
潔是檢查數(shù)據(jù)字段中的有效值。這可以通過范圍檢驗(yàn)、枚舉清單和相關(guān)檢驗(yàn)來完
成。
□有效值
范圍檢驗(yàn)是數(shù)據(jù)刷洗的最簡(jiǎn)單形式,它是指檢驗(yàn)一個(gè)字段中的數(shù)據(jù)以保證它落
在預(yù)期范圍之內(nèi),通常是數(shù)字范圍或日期范圍。
枚舉清單也相對(duì)容易實(shí)現(xiàn)。這種方法是對(duì)照數(shù)據(jù)字段可接受值的清單檢驗(yàn)該字
段的值。
相關(guān)檢驗(yàn)稍微復(fù)雜一些,因?yàn)樗髮⒁粋€(gè)字段中的值與另一個(gè)字段中的值進(jìn)
行對(duì)比。
當(dāng)然,數(shù)據(jù)清潔規(guī)則往往是這些不同方法的結(jié)合。
□復(fù)雜的重新格式化
數(shù)據(jù)刷洗的另一主要類型是重新格式化某些類型的數(shù)據(jù),這種方法適用于可以
用許多不同方式存儲(chǔ)在不同數(shù)據(jù)來源中的信息,必須在數(shù)據(jù)倉庫中把這類信息轉(zhuǎn)
換成一種統(tǒng)一的表示方式。最需要格式化的信息之一是地址信息,由于沒有一種
獲取地址的標(biāo)準(zhǔn)方式,所以同一個(gè)地址可以用許多不同方式表達(dá)出來。這就要求
將地址解析成幾個(gè)組成部分,然后將這些組成部分進(jìn)行轉(zhuǎn)換并重新排列成一個(gè)同
意的格式。
6.9集成
要把從全然不同的數(shù)據(jù)源中得到的業(yè)務(wù)數(shù)據(jù)結(jié)合在一起,真正的困難在于將它
們集成為一個(gè)緊密結(jié)合的數(shù)據(jù)模型。這是因?yàn)閿?shù)據(jù)必須從多個(gè)數(shù)據(jù)源中提取出
來,并結(jié)合成為一個(gè)新的實(shí)體。這些數(shù)據(jù)來源往往遵守的不是同一套業(yè)務(wù)規(guī)則,
在生成新數(shù)據(jù)時(shí),必須考慮到這一差異。
□字段水平的簡(jiǎn)單影射
字段水平的簡(jiǎn)單映射在必須執(zhí)行的數(shù)據(jù)變換總量中站去了大部分。這種映射的
定義是指數(shù)據(jù)中的一個(gè)字段被轉(zhuǎn)移到目標(biāo)數(shù)據(jù)字段中的過程。在這過程中,這個(gè)
字段可以利用前面討論過的任何一種簡(jiǎn)單變換進(jìn)行變換,它可以被刷洗或重新格
式化。
□復(fù)雜集成
在一般的數(shù)據(jù)倉庫中,數(shù)據(jù)轉(zhuǎn)移和集成中的10%?20%要比從源字段到目標(biāo)字
段的簡(jiǎn)單移動(dòng)復(fù)雜一些。為了將源數(shù)據(jù)變換為目標(biāo)數(shù)據(jù),這些復(fù)雜集成必須做更
多的分析。
□通用標(biāo)識(shí)符問題
通用標(biāo)識(shí)符問題是許多公司在建立數(shù)據(jù)倉庫時(shí)所遇到的最困難的集成問題之
-0當(dāng)同一業(yè)務(wù)實(shí)體存在于多個(gè)系統(tǒng)源,并且沒有明確的辦法確認(rèn)這些實(shí)體其實(shí)
是同一實(shí)體的時(shí)候,往往會(huì)發(fā)生這個(gè)問題。
這個(gè)問題往往很難用自動(dòng)化方法解決,通常要求復(fù)雜的算法配對(duì)可能的匹配。
有時(shí)在倉庫中存入可能的匹配是可以接受的,但有時(shí)這些匹配在存入數(shù)據(jù)倉庫之
前必須先由人來檢驗(yàn)。很多公司實(shí)行一種兩階段戰(zhàn)略來處理該問題。第一階段是
隔離,在這一階段中,我們?cè)噲D保證實(shí)體的每次出現(xiàn)都指派一個(gè)唯一標(biāo)識(shí)符;第
二階段是調(diào)和,我們開始確認(rèn)哪些實(shí)體其實(shí)是相同的,并且將該實(shí)體的各次出現(xiàn)
合并在一起。
□目標(biāo)元素的多個(gè)來源
當(dāng)同一個(gè)目標(biāo)數(shù)據(jù)元有多個(gè)來源時(shí),會(huì)出現(xiàn)另一個(gè)復(fù)雜的數(shù)據(jù)集成問題,即很
難保證該元素的各個(gè)來源總能保持一致。實(shí)際上,這樣的數(shù)據(jù)元存在矛盾值比不
同來源中的值相同更為普遍。解決沖突的簡(jiǎn)單辦法是指定某一系統(tǒng)在沖突中占據(jù)
主導(dǎo)地位。
□數(shù)據(jù)丟失問題
數(shù)值沒有值的問題與一個(gè)數(shù)據(jù)元有多個(gè)沖突值的問題一樣困難。有時(shí)為一個(gè)丟
失的元素把空白或空值賦進(jìn)倉庫中也是可以接受的,而有時(shí)數(shù)據(jù)元必須有值,對(duì)
該表格所做的查詢才會(huì)有效。必須為該數(shù)據(jù)賦一些估計(jì)值。如果是業(yè)務(wù)系統(tǒng),數(shù)
據(jù)庫中有這種明知不準(zhǔn)確的值是沒有意義的,但對(duì)數(shù)據(jù)倉庫來說,有估計(jì)值比根
本沒有值可能要好得多。因此,對(duì)于倉庫中的每種數(shù)據(jù)類型,設(shè)計(jì)人員必須在存
入估計(jì)數(shù)據(jù)的內(nèi)在風(fēng)險(xiǎn)和數(shù)據(jù)丟失所造成的誤解的風(fēng)險(xiǎn)之間進(jìn)行權(quán)衡。
用于這一目的最普遍技術(shù)是生成使曲線平滑的數(shù)據(jù)。然而,很多企業(yè)都有非常
復(fù)雜的數(shù)據(jù)估計(jì)方法。這些方法能夠調(diào)節(jié)許多變量,為丟失的數(shù)據(jù)生成一個(gè)非常
接近實(shí)際的值。
□衍生數(shù)據(jù)/計(jì)算數(shù)據(jù)
數(shù)據(jù)變換的最常見形式之一就是計(jì)算和生成衍生數(shù)據(jù)元或計(jì)算數(shù)據(jù)元。它包括
平均值、總和或統(tǒng)計(jì)計(jì)算,還包括復(fù)雜的業(yè)務(wù)計(jì)算。衍生數(shù)據(jù)字段通常是冗余的,
因?yàn)橛?jì)算中涉及的數(shù)據(jù)也存儲(chǔ)在倉庫中,然而,它能大大簡(jiǎn)化查詢,保證存入倉
庫中的這些衍生值的正確性和一致性,這樣,在查詢中可以選用它們,而不必在
用戶需要時(shí)都計(jì)算一次。在這方面,數(shù)據(jù)變換工具是很有用的,因?yàn)檫@些工具能
迅速而輕松地進(jìn)行各種計(jì)算,無需擔(dān)心編程員是否正確地編寫了計(jì)算邏輯。
6.10聚集和概括
大多數(shù)數(shù)據(jù)倉庫都要用到數(shù)據(jù)的某種聚集和概括。這通常有助于將某一實(shí)體的
實(shí)例數(shù)目減少到易于駕馭的水平,也有助于預(yù)先計(jì)算出廣泛應(yīng)用的概括數(shù)字,以
使每個(gè)查詢不必計(jì)算它們。概括是指按照一個(gè)或幾個(gè)業(yè)務(wù)維將相近的數(shù)值加在一
起。聚集指將不同業(yè)務(wù)元素加在一起或?yàn)橐粋€(gè)公共總數(shù)。在數(shù)據(jù)倉庫中它們是以
相同的方式進(jìn)行的。
數(shù)據(jù)倉庫中存放的最具體的數(shù)據(jù)不與業(yè)務(wù)系統(tǒng)中存放的細(xì)節(jié)數(shù)據(jù)一樣聚集。這
時(shí),就有必要在變換業(yè)務(wù)數(shù)據(jù)的過程中加入一些數(shù)據(jù)聚集功能。這可以減少存儲(chǔ)
在數(shù)據(jù)倉庫中的行數(shù)。
聚集還可以去除數(shù)據(jù)倉庫中的過時(shí)細(xì)節(jié)。在許多情況下,數(shù)據(jù)在一定時(shí)期內(nèi)要
以很具體的水平存放著,一旦數(shù)據(jù)到了某一時(shí)限,對(duì)所有這些細(xì)節(jié)的需求就大大
減弱了。此時(shí),這些非常具體的數(shù)據(jù)應(yīng)該傳送到離線存儲(chǔ)器或近線存儲(chǔ)器中,而
數(shù)據(jù)的概括形式則可以存放在數(shù)據(jù)倉庫中。
目前可以得到的數(shù)據(jù)刷洗工具中,許多都已內(nèi)置了概括功能,尤其是在時(shí)間維
上進(jìn)行聚集的功能。當(dāng)然,不管如何做到這一點(diǎn),重要的是用戶能夠輕松地訪問
元數(shù)據(jù),了解生成總和數(shù)據(jù)所用的標(biāo)準(zhǔn)。
6.11移動(dòng)數(shù)據(jù)
將數(shù)據(jù)移出操作系統(tǒng)一般包括:在數(shù)據(jù)最終復(fù)制到數(shù)據(jù)倉庫之前,將它們
拷貝到一個(gè)中間位置。理想狀況下,拷貝數(shù)據(jù)的過程應(yīng)該在操作系統(tǒng)不忙時(shí)進(jìn)行。
確保了解自己的商務(wù)及其支持系統(tǒng)。如果還未完成大量的更新,就不應(yīng)該移動(dòng)數(shù)
據(jù)。如果數(shù)據(jù)倉庫中的數(shù)據(jù)來自多個(gè)相互關(guān)聯(lián)的操作系統(tǒng),就應(yīng)該保證在這些系
統(tǒng)同步工作時(shí)移動(dòng)數(shù)據(jù)。
廣義的數(shù)據(jù)準(zhǔn)備,覆蓋面很廣泛,包含了從數(shù)據(jù)源抽取數(shù)據(jù),一直到最終數(shù)
據(jù)呈現(xiàn)在用戶面前之間的所有工作,這其中的最主要的工作就是數(shù)據(jù)的抽取、轉(zhuǎn)
換、清洗、裝載等一系列工作。在最初的數(shù)據(jù)倉庫實(shí)現(xiàn)之前所有的這些工作都是
用程序手工實(shí)現(xiàn)的。這樣就造成了一個(gè)非常嚴(yán)重的問題,就是數(shù)據(jù)倉庫的持續(xù)發(fā)
展問題,因?yàn)槔贸绦驅(qū)崿F(xiàn)每一個(gè)數(shù)據(jù)抽取過程,導(dǎo)致所有的數(shù)據(jù)邏輯都隱藏在
程序內(nèi)部,當(dāng)數(shù)據(jù)倉庫進(jìn)一步發(fā)展時(shí),這些程序的管理和修改,將成為阻礙數(shù)據(jù)
倉庫發(fā)展的最大的障礙。
經(jīng)過一段時(shí)間的發(fā)展,人們最終認(rèn)識(shí)到ETL工具的重要性,于是相關(guān)的ETL
工具也紛紛出臺(tái),其中比較著名的是IBM的Visualwarehouse,Ardent公司的
datastage等等。如何判斷一個(gè)ETL工具的優(yōu)略呢,一般而言,主要有一下幾個(gè)
因素:
1OPENdatasource就是說這種工具必須從
Thetoolsmustextractdatafrommostkindof很多不同的數(shù)據(jù)源抽取
datasourceuse數(shù)據(jù),并盡可能地使用數(shù)
NativedatabaseDriver據(jù)源本身提供的驅(qū)動(dòng)程
序來提高使用效率
2OPENtargetDatabase要支持不同的數(shù)據(jù)庫作
TheToolsmustcanUsemostdatabaselike為數(shù)據(jù)倉庫的載體
(DB2,ORACLE.ETC.)asTargetdatabase.
3Schedulejob可以定時(shí)進(jìn)行數(shù)據(jù)的更
新的整理
4HighPerformance較高的工作效率
5Metadatamanagement完善的元數(shù)據(jù)管理,可以
對(duì)整個(gè)ETL過程中產(chǎn)生
的元數(shù)據(jù)進(jìn)行管理
6Parallelsupport支持并行數(shù)據(jù)抽取
7VisualizeUI可視化的工作界面
8Customdefineprogram可以支持用戶自定義的
程序做一些普通SQL語
句無法完成的工作
9Security支持多用戶和多用戶組
Supportmultiuserandusergroup的工作方式
10Incrementdataextractsupport可以實(shí)現(xiàn)數(shù)據(jù)的增量抽
取
11UsesubjecttomanageETLJob用戶可以對(duì)所有進(jìn)程按
照主題進(jìn)行管理
12EnableComplexcleansingandtransform支持復(fù)雜的數(shù)據(jù)清洗工
AutomaticgenerateSQL,CustomSQL作,自動(dòng)生成SQL語句,
support用戶自定義SQL
13SupportMDDdataload可以支持多維數(shù)據(jù)庫的
數(shù)據(jù)加載
14SupportTBdataextractandload可以支持TB級(jí)別的數(shù)據(jù)
加載
15Datamodelexportandimport現(xiàn)有設(shè)置可以進(jìn)行
Export和import
七、如何建立數(shù)據(jù)倉庫
數(shù)據(jù)倉庫的實(shí)現(xiàn)主要以關(guān)系數(shù)據(jù)庫(RDB)技術(shù)為基礎(chǔ),因?yàn)殛P(guān)系數(shù)據(jù)庫的
數(shù)據(jù)存儲(chǔ)和管理技術(shù)發(fā)展得較為成熟,其成本和復(fù)雜性較低,已開發(fā)成功的大
型事務(wù)數(shù)據(jù)庫多為關(guān)系數(shù)據(jù)庫,但關(guān)系數(shù)據(jù)庫系統(tǒng)并不能滿足數(shù)據(jù)倉庫的數(shù)據(jù)
存儲(chǔ)要求,需要通過使用一些技術(shù),如動(dòng)態(tài)分區(qū)、位圖索引、優(yōu)化查詢等,使
關(guān)系數(shù)據(jù)庫管理系統(tǒng)在數(shù)據(jù)倉庫應(yīng)用環(huán)境中的性能得到大幅度的提高。
數(shù)據(jù)倉庫在構(gòu)建之初應(yīng)明確其主題,主題是一個(gè)在較高層次將數(shù)據(jù)歸類的標(biāo)
準(zhǔn),每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域,針對(duì)具體決策需求可細(xì)化為多個(gè)主
題表,具體來說就是確定決策涉及的范圍和所要解決的問題。但是主
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 年度基礎(chǔ)地質(zhì)勘查服務(wù)競(jìng)爭(zhēng)策略分析報(bào)告
- 二零二五年度違約民事起訴狀合同起草技巧與法律適用3篇
- 2024-2025學(xué)年新教材高中數(shù)學(xué)第十章概率單元質(zhì)量評(píng)估含解析新人教A版必修第二冊(cè)
- 2025年度文化旅游項(xiàng)目招投標(biāo)與合同管理規(guī)范解讀3篇
- 2024金融行業(yè)拓展訓(xùn)練合同
- 2025年度新能源居間服務(wù)合同范本英文版3篇
- 二零二五年度留守兒童特殊教育需求與個(gè)性化支持服務(wù)合同4篇
- 2025年度高科技企業(yè)派遣研發(fā)人員合同范本
- 2025版高性能鋁合金模板制造與租賃服務(wù)合同詳盡條款全文4篇
- 2025年度家庭經(jīng)濟(jì)困難子女撫養(yǎng)費(fèi)減免專項(xiàng)合同
- 長(zhǎng)亭送別完整版本
- 《鐵路軌道維護(hù)》課件-更換道岔尖軌作業(yè)
- 股份代持協(xié)議書簡(jiǎn)版wps
- 職業(yè)學(xué)校視頻監(jiān)控存儲(chǔ)系統(tǒng)解決方案
- 《銷售心理學(xué)培訓(xùn)》課件
- 智能養(yǎng)老院視頻監(jiān)控技術(shù)方案
- 2024年安徽省公務(wù)員錄用考試《行測(cè)》真題及解析
- 你比我猜題庫課件
- 豐順縣鄉(xiāng)鎮(zhèn)集中式飲用水水源地基礎(chǔ)狀況調(diào)查和風(fēng)險(xiǎn)評(píng)估報(bào)告
- 無人駕駛航空器安全操作理論復(fù)習(xí)測(cè)試附答案
- 2024年山東省青島市中考語文試卷(附答案)
評(píng)論
0/150
提交評(píng)論