版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第6章
CRM與數(shù)據(jù)倉(cāng)庫(kù)
第6章
CRM與數(shù)據(jù)倉(cāng)庫(kù)
1第6章CRM與數(shù)據(jù)倉(cāng)庫(kù)6.1數(shù)據(jù)倉(cāng)庫(kù)概述 6.1.1數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生 6.1.2數(shù)據(jù)倉(cāng)庫(kù)概念及特征6.1.3數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容6.1.3數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)6.2客戶關(guān)系管理中的數(shù)據(jù)倉(cāng)庫(kù)
6.2.1客戶關(guān)系管理需要數(shù)據(jù)倉(cāng)庫(kù)6.2.2客戶關(guān)系管理中數(shù)據(jù)倉(cāng)庫(kù)的作用6.2.3客戶關(guān)系管理數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)6.3客戶關(guān)系管理數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施6.4客戶關(guān)系管理數(shù)據(jù)倉(cāng)庫(kù)試驗(yàn)6.4.1客戶關(guān)系管理數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)試驗(yàn)6.4.2客戶關(guān)系管理數(shù)據(jù)倉(cāng)庫(kù)使用試驗(yàn)第6章CRM與數(shù)據(jù)倉(cāng)庫(kù)6.1數(shù)據(jù)倉(cāng)庫(kù)概述 26.1數(shù)據(jù)倉(cāng)庫(kù)概述
數(shù)據(jù)倉(cāng)庫(kù)與CRM有著難以割舍的密切關(guān)系,客戶關(guān)系管理很多工作都是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)展開(kāi)的。從某種意義上說(shuō),數(shù)據(jù)倉(cāng)庫(kù)是客戶關(guān)系管理的靈魂。利用數(shù)據(jù)倉(cāng)庫(kù),企業(yè)可以對(duì)客戶行為的分析與預(yù)測(cè),從而制定準(zhǔn)確的市場(chǎng)策略、發(fā)現(xiàn)企業(yè)的重點(diǎn)客戶和評(píng)價(jià)市場(chǎng)性能,并通過(guò)銷售和服務(wù)等部門與客戶交流,實(shí)現(xiàn)企業(yè)利潤(rùn)的提高。對(duì)于客戶量大、市場(chǎng)策略對(duì)企業(yè)影響較大的企業(yè)來(lái)說(shuō),必須在客戶關(guān)系管理系統(tǒng)中包含數(shù)據(jù)倉(cāng)庫(kù)。6.1數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)倉(cāng)庫(kù)與CRM有著難以割舍的36.1.1數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生早期的數(shù)據(jù)庫(kù)主要支持聯(lián)機(jī)事務(wù)處理決策支持對(duì)數(shù)據(jù)分析的需求傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)不適宜DSS事務(wù)處理和分析處理的性能特性不同數(shù)據(jù)集成問(wèn)題數(shù)據(jù)動(dòng)態(tài)集成問(wèn)題歷史數(shù)據(jù)問(wèn)題數(shù)據(jù)的綜合問(wèn)題操作繁簡(jiǎn)問(wèn)題6.1.1數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生早期的數(shù)據(jù)庫(kù)主要支持聯(lián)機(jī)事務(wù)處理4(1)事務(wù)處理和分析處理的性能特性不同所有聯(lián)機(jī)事務(wù)處理強(qiáng)調(diào)的是數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性,并不關(guān)心數(shù)據(jù)查詢的方便與快捷。在事務(wù)處理環(huán)境中,用戶的行為特點(diǎn)是數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短。在分析處理環(huán)境中,用戶的行為模式與此完全不同,強(qiáng)調(diào)的是數(shù)據(jù)處理和分析的能力。在傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)基礎(chǔ)上的DSS應(yīng)用程序可能需要連續(xù)幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。聯(lián)機(jī)分析和事務(wù)處理對(duì)系統(tǒng)的要求不同,同一個(gè)數(shù)據(jù)庫(kù)在理論上難以做到兩全,將具有如此不同處理性能的兩種應(yīng)用放在同一個(gè)環(huán)境中運(yùn)行顯然是不適當(dāng)?shù)?。?)事務(wù)處理和分析處理的性能特性不同5(2)數(shù)據(jù)集成問(wèn)題。DSS需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效的分析和決策的首要前提,相關(guān)數(shù)據(jù)收集得越完整,得到的結(jié)果就越可靠。當(dāng)前絕大多數(shù)企業(yè)內(nèi)數(shù)據(jù)的真正狀況是分散而非集成的。造成這種分散的原因有多種,主要有事務(wù)處理應(yīng)用分散、“蜘蛛網(wǎng)”問(wèn)題、數(shù)據(jù)不一致問(wèn)題、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。(2)數(shù)據(jù)集成問(wèn)題。6(3)數(shù)據(jù)動(dòng)態(tài)集成問(wèn)題靜態(tài)集成的最大缺點(diǎn)在于,如果在數(shù)據(jù)集成后數(shù)據(jù)源中數(shù)據(jù)發(fā)生了變化,這些
變化將不能反映給決策者,導(dǎo)致決策者使用的是過(guò)時(shí)的數(shù)據(jù)。集成數(shù)據(jù)必須以一定的周期(例如24小時(shí))進(jìn)行刷新,我們稱其為動(dòng)態(tài)集成。顯然,事務(wù)處理系統(tǒng)不具備動(dòng)態(tài)集成的能力。(3)數(shù)據(jù)動(dòng)態(tài)集成問(wèn)題7(4)歷史數(shù)據(jù)問(wèn)題事務(wù)處理一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫(kù)中一般也是存儲(chǔ)短期數(shù)據(jù),不同數(shù)據(jù)的保存期限也不一樣,即使有一些歷史數(shù)據(jù)保存下來(lái)了,也被束之高閣,未得到充分利用。但對(duì)于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須一大量的歷史數(shù)據(jù)為依托。沒(méi)有歷史數(shù)據(jù)的詳細(xì)分析,是難以把握企業(yè)的發(fā)展趨勢(shì)的。DSS對(duì)數(shù)據(jù)在空間和時(shí)間的廣度上都有了更高的要求,而事務(wù)處理環(huán)境難以滿足這些要求。(4)歷史數(shù)據(jù)問(wèn)題8(5)數(shù)據(jù)的綜合問(wèn)題在事務(wù)處理系統(tǒng)中積累了大量的細(xì)節(jié)數(shù)據(jù),一般而言,DSS并不對(duì)這些細(xì)節(jié)數(shù)據(jù)進(jìn)行分析。在分析前,往往需要對(duì)細(xì)節(jié)數(shù)據(jù)進(jìn)行不同程度的綜合。而事務(wù)處理系統(tǒng)不具備這種綜合能力,根據(jù)規(guī)范化理論,這種綜合還往往因?yàn)槭且环N數(shù)據(jù)冗余而加以限制。(5)數(shù)據(jù)的綜合問(wèn)題9(6)操作繁簡(jiǎn)問(wèn)題業(yè)務(wù)數(shù)據(jù)的模式是針對(duì)事務(wù)處理系統(tǒng)而設(shè)計(jì)的,數(shù)據(jù)的格式和描述方式并不適合非計(jì)算機(jī)專業(yè)人員進(jìn)行業(yè)務(wù)上的分析和統(tǒng)計(jì)。(6)操作繁簡(jiǎn)問(wèn)題10有人感嘆:20年前查詢不到數(shù)據(jù)是因?yàn)閿?shù)據(jù)太少了,而今天查詢不到數(shù)據(jù)是因?yàn)閿?shù)據(jù)太多了。要提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離。必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來(lái),按照DSS處理的需要進(jìn)行重新組織,建立單獨(dú)的分析處理環(huán)境,數(shù)據(jù)倉(cāng)庫(kù)正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。有人感嘆:20年前查詢不到數(shù)據(jù)是因?yàn)閿?shù)據(jù)太少了,而今天查詢不11數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)從聯(lián)機(jī)的事務(wù)處理系統(tǒng)、異構(gòu)的外部數(shù)據(jù)源、脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中得到。它是一個(gè)聯(lián)機(jī)的系統(tǒng),專門為分析統(tǒng)計(jì)和決策支持應(yīng)用服務(wù),通過(guò)它可滿足決策支持和聯(lián)機(jī)分析應(yīng)用所要求的一切。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)從聯(lián)機(jī)的事務(wù)處理系統(tǒng)、異構(gòu)的外部數(shù)據(jù)源、脫機(jī)的126.1.2數(shù)據(jù)倉(cāng)庫(kù)的概念和特征目前,數(shù)據(jù)倉(cāng)庫(kù)一詞尚沒(méi)有一個(gè)統(tǒng)一的定義。著名的數(shù)據(jù)倉(cāng)庫(kù)專家W.H.Inmon在其著作《BuildingtheDataWarehouse》一書(shū)中給予如下描述:數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)是一個(gè)面向主題的(SubjectOriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策。6.1.2數(shù)據(jù)倉(cāng)庫(kù)的概念和特征目前,數(shù)據(jù)倉(cāng)庫(kù)一詞尚沒(méi)有一個(gè)13數(shù)據(jù)倉(cāng)庫(kù)概念的兩個(gè)層次功能上:數(shù)據(jù)倉(cāng)庫(kù)用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫(kù);內(nèi)容和特征上:數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般不再修改。數(shù)據(jù)倉(cāng)庫(kù)概念的兩個(gè)層次功能上:數(shù)據(jù)倉(cāng)庫(kù)用于支持決策,面向分析14數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-面向主題傳統(tǒng)的數(shù)據(jù)庫(kù)是面向應(yīng)用而進(jìn)行數(shù)據(jù)組織的,其抽象程度不夠高,沒(méi)有完全實(shí)現(xiàn)數(shù)據(jù)與應(yīng)用的分離。但這種方式能較好地將企業(yè)業(yè)務(wù)活動(dòng)與數(shù)據(jù)庫(kù)模式相對(duì)應(yīng),利于從手工處理向計(jì)算機(jī)處理過(guò)渡,因而具有較好的可操作性;數(shù)據(jù)倉(cāng)庫(kù)是面向主題而進(jìn)行數(shù)據(jù)組織的。主題是一個(gè)在較高層次上對(duì)數(shù)據(jù)的抽象,在邏輯意義上,它是對(duì)企業(yè)中某一宏觀領(lǐng)域所涉及的分析對(duì)象,即將數(shù)據(jù)組織成主題域。例如,在銀行經(jīng)營(yíng)運(yùn)作中,業(yè)務(wù)(存款、貸款、匯兌)、貨幣、客戶、機(jī)構(gòu)、會(huì)計(jì)科目是其主要構(gòu)架或方向,因此在銀行業(yè)務(wù)數(shù)據(jù)倉(cāng)庫(kù)中,選擇業(yè)務(wù)、貨幣、客戶、機(jī)構(gòu)、會(huì)計(jì)科目五個(gè)主題,并將會(huì)計(jì)科目作為連接其他四個(gè)主題的交易主題進(jìn)行處理。數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-面向主題傳統(tǒng)的數(shù)據(jù)庫(kù)是面向應(yīng)用而進(jìn)行數(shù)據(jù)組15面向主題可以獨(dú)立于數(shù)據(jù)處理邏輯,適用于分析型數(shù)據(jù)環(huán)境,適用于建設(shè)企業(yè)全局?jǐn)?shù)據(jù)庫(kù);數(shù)據(jù)倉(cāng)庫(kù)中目前仍采用關(guān)系數(shù)據(jù)庫(kù)技術(shù)來(lái)實(shí)現(xiàn),其面向主題所作較高程度上的抽象,應(yīng)強(qiáng)調(diào)其邏輯意義。面向主題可以獨(dú)立于數(shù)據(jù)處理邏輯,適用于分析型數(shù)據(jù)環(huán)境,適用于16數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-集成的面向事務(wù)處理的操作型數(shù)據(jù)庫(kù)通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫(kù)之間相互獨(dú)立,并且往往是異構(gòu)。在數(shù)據(jù)倉(cāng)庫(kù)的所有特性之中,這是最重要的。應(yīng)用問(wèn)題的設(shè)計(jì)人員歷經(jīng)多年制定出來(lái)的不同的設(shè)計(jì)決策有很多很多種不同的表示方法,沒(méi)有什么應(yīng)用在編碼、命名習(xí)慣、實(shí)際屬性、屬性度量等方面是一致的,各個(gè)應(yīng)用問(wèn)題設(shè)計(jì)員自由地做出他或她自己的設(shè)計(jì)決策。數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-集成的面向事務(wù)處理的操作型數(shù)據(jù)庫(kù)通常與某些17數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是集成的。而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中,這是最關(guān)鍵最復(fù)雜的一個(gè)步驟,主要工作有:一是,進(jìn)行數(shù)據(jù)的綜合和計(jì)算;二是,統(tǒng)一源數(shù)據(jù)中所有不一致和矛盾的地方(如同名異義、異名同義、字長(zhǎng)不一致、單位不一致等)。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是集成的。而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的18CRM與數(shù)據(jù)倉(cāng)庫(kù)課件19數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-相對(duì)穩(wěn)定的操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-相對(duì)穩(wěn)定的操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常實(shí)時(shí)更新20數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-相對(duì)穩(wěn)定的數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-相對(duì)穩(wěn)定的21數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-反映歷史變化操作型數(shù)據(jù)庫(kù)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)(如開(kāi)始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)時(shí)間期限要遠(yuǎn)遠(yuǎn)長(zhǎng)于操作型系統(tǒng)中的數(shù)據(jù)時(shí)間期限。操作型系統(tǒng)的時(shí)間期限一般是60~90天,而數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的時(shí)間期限通常是6~10年。數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-反映歷史變化操作型數(shù)據(jù)庫(kù)主要關(guān)心當(dāng)前某一個(gè)22操作型數(shù)據(jù)庫(kù)含有“當(dāng)前值”的數(shù)據(jù),這些數(shù)據(jù)的準(zhǔn)確性在訪問(wèn)時(shí)是有效的,同樣當(dāng)前值的數(shù)據(jù)能被更新。而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)僅僅是一系列某一時(shí)刻生成的復(fù)雜的快照。操作型數(shù)據(jù)的鍵碼結(jié)構(gòu)可能包含也可能不包含時(shí)間元素,如年、月、日等。而數(shù)據(jù)倉(cāng)庫(kù)的鍵碼結(jié)構(gòu)總是包含某時(shí)間元素。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)碼鍵都包含時(shí)間項(xiàng),用作標(biāo)明數(shù)據(jù)的歷史時(shí)期。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)包含有大量綜合數(shù)據(jù),很多與時(shí)間有關(guān),如按時(shí)間段進(jìn)行綜合或隔時(shí)間片進(jìn)行抽樣。隨著時(shí)間變化,數(shù)據(jù)倉(cāng)庫(kù)需要不斷增加新數(shù)據(jù)、刪去舊數(shù)據(jù)。操作型數(shù)據(jù)庫(kù)含有“當(dāng)前值”的數(shù)據(jù),這些數(shù)據(jù)的準(zhǔn)確性在訪問(wèn)時(shí)是23數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-反映歷史變化數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-反映歷史變化24數(shù)據(jù)倉(cāng)庫(kù)本質(zhì)數(shù)據(jù)倉(cāng)庫(kù)實(shí)際上是一個(gè)“以大型數(shù)據(jù)管理信息系統(tǒng)為基礎(chǔ)的、附加在這個(gè)數(shù)據(jù)庫(kù)系統(tǒng)之上的、存儲(chǔ)了從企業(yè)所有業(yè)務(wù)數(shù)據(jù)庫(kù)中獲取的綜合數(shù)據(jù)的、并能利用這些綜合數(shù)據(jù)為用戶提供經(jīng)過(guò)處理后的有用信息的應(yīng)用系統(tǒng)”。如果說(shuō)傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)的重點(diǎn)與要求是快速、準(zhǔn)確、安全、可靠地將數(shù)據(jù)存進(jìn)數(shù)據(jù)庫(kù)中的話,那么數(shù)據(jù)倉(cāng)庫(kù)的重點(diǎn)與要求就是能夠準(zhǔn)確、安全、可靠地從數(shù)據(jù)庫(kù)中取出數(shù)據(jù),經(jīng)過(guò)加工轉(zhuǎn)換成有規(guī)律信息之后,再供管理人員進(jìn)行分析使用。數(shù)據(jù)倉(cāng)庫(kù)所要研究和解決的問(wèn)題就是從數(shù)據(jù)庫(kù)中獲取信息。
數(shù)據(jù)倉(cāng)庫(kù)本質(zhì)數(shù)據(jù)倉(cāng)庫(kù)實(shí)際上是一個(gè)“以大型數(shù)據(jù)管理信息系統(tǒng)為基256.1.3數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容數(shù)據(jù)倉(cāng)庫(kù)并沒(méi)有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),也沒(méi)有成熟的基本模式,且更偏向于工程,具有強(qiáng)烈的工程性。因此,在技術(shù)上人們習(xí)慣于從工作過(guò)程等方面來(lái)分析,并按其關(guān)鍵技術(shù)部份分為數(shù)據(jù)的抽取、存儲(chǔ)與管理以及數(shù)據(jù)的表現(xiàn)等三個(gè)基本方面。6.1.3數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容數(shù)據(jù)倉(cāng)庫(kù)并沒(méi)有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),26數(shù)據(jù)的抽取數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過(guò)抽取過(guò)程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等方面。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)并不要求與聯(lián)機(jī)事務(wù)處理系統(tǒng)保持實(shí)時(shí)同步,因此數(shù)據(jù)抽取可以定時(shí)進(jìn)行,但多個(gè)抽取操作執(zhí)行的時(shí)間、相互的順序、成敗對(duì)數(shù)據(jù)倉(cāng)庫(kù)中信息的有效性則至關(guān)重要。數(shù)據(jù)的抽取數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)27存儲(chǔ)和管理數(shù)據(jù)倉(cāng)庫(kù)的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù),同時(shí)也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來(lái)建立數(shù)據(jù)倉(cāng)庫(kù)的核心,則需要從數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)特點(diǎn)著手分析。針對(duì)現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉(cāng)庫(kù)按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)和部門級(jí)數(shù)據(jù)倉(cāng)庫(kù)(通常稱為數(shù)據(jù)集市)。存儲(chǔ)和管理數(shù)據(jù)倉(cāng)庫(kù)的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉(cāng)庫(kù)的組28數(shù)據(jù)的表現(xiàn)數(shù)據(jù)表現(xiàn)實(shí)際上相當(dāng)于數(shù)據(jù)倉(cāng)庫(kù)的門面,其性能主要集中在多維分析、數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘方面。而多維分析又是數(shù)據(jù)倉(cāng)庫(kù)的重要表現(xiàn)形式,近幾年來(lái)由于互聯(lián)網(wǎng)的發(fā)展,使得多維分析領(lǐng)域的工具和產(chǎn)品更加注重提供基于Web前端聯(lián)機(jī)分析界面,而不僅僅是在網(wǎng)上發(fā)布數(shù)據(jù)。
數(shù)據(jù)的表現(xiàn)數(shù)據(jù)表現(xiàn)實(shí)際上相當(dāng)于數(shù)據(jù)倉(cāng)庫(kù)的門面,其性能主要集中296.1.4數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)體系結(jié)構(gòu)6.1.4數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)體系結(jié)構(gòu)30數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場(chǎng)信息和競(jìng)爭(zhēng)對(duì)手的信息等等。
數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常31OLAP服務(wù)器OLAP服務(wù)器對(duì)分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢(shì)。其具體實(shí)現(xiàn)可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫(kù)中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫(kù)中。OLAP服務(wù)器OLAP服務(wù)器對(duì)分析需要的數(shù)據(jù)進(jìn)行有效集成,按32前端工具前端工具主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的應(yīng)用開(kāi)發(fā)工具。其中數(shù)據(jù)分析工具主要針對(duì)OLAP服務(wù)器,報(bào)表工具、數(shù)據(jù)挖掘工具主要針對(duì)數(shù)據(jù)倉(cāng)庫(kù)。
前端工具前端工具主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具33數(shù)據(jù)倉(cāng)庫(kù)概述小結(jié)6.1.1數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生 6.1.2數(shù)據(jù)倉(cāng)庫(kù)概念及特征 6.1.3數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容6.1.4數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)概述小結(jié)6.1.1數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生 34數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目實(shí)施數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一種解決問(wèn)題的過(guò)程,而不是一個(gè)可以買到的現(xiàn)成產(chǎn)品。不同企業(yè)會(huì)有不同的數(shù)據(jù)倉(cāng)庫(kù)。企業(yè)人員往往不懂如何建立和利用數(shù)據(jù)倉(cāng)庫(kù),發(fā)揮其決策支持的作用,而數(shù)據(jù)倉(cāng)庫(kù)公司人員又不懂業(yè)務(wù),不知道建立哪些決策主題,從數(shù)據(jù)源中抽取哪些數(shù)據(jù)。這需要雙方互相溝通,共同協(xié)商開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù),因此是一個(gè)不斷往復(fù)前進(jìn)的過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目實(shí)施數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一種解決問(wèn)題的過(guò)程,而不是一35數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)是一個(gè)系統(tǒng)工程,是一個(gè)不斷建立、發(fā)展、完善的過(guò)程,通常需要較長(zhǎng)的時(shí)間。這就要求各企業(yè)對(duì)整個(gè)系統(tǒng)的建設(shè)提出一個(gè)全面、清晰的遠(yuǎn)景規(guī)劃及技術(shù)實(shí)施藍(lán)圖,將整個(gè)項(xiàng)目的實(shí)施分成若干個(gè)階段,以“總體規(guī)劃、分步實(shí)施、步步見(jiàn)效”為原則,不僅可迅速?gòu)漠?dāng)前投資中獲得收益,而且可以在已有的基礎(chǔ)上,結(jié)合其他已有的業(yè)務(wù)系統(tǒng),逐步構(gòu)建起完整、健壯的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。
數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)是一個(gè)系統(tǒng)工程,是一個(gè)不斷建立、發(fā)展、完善的過(guò)36數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目實(shí)施數(shù)據(jù)倉(cāng)庫(kù)提供了有效地存取和管理大量數(shù)據(jù)的理想環(huán)境,而數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的建立是一個(gè)由數(shù)據(jù)驅(qū)動(dòng)、以技術(shù)支撐并滿足應(yīng)用需求的不斷增長(zhǎng)和完善的開(kāi)發(fā)過(guò)程。因此數(shù)據(jù)倉(cāng)庫(kù)的建立可以從數(shù)據(jù)、技術(shù)和應(yīng)用三方面展開(kāi)。數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目實(shí)施數(shù)據(jù)倉(cāng)庫(kù)提供了有效地存取和管理大量數(shù)據(jù)的理37數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目實(shí)施數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目實(shí)施38項(xiàng)目計(jì)劃
項(xiàng)目計(jì)劃是指定義創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目目標(biāo)和確定項(xiàng)目范圍,包括對(duì)項(xiàng)目計(jì)劃的評(píng)估和流程的調(diào)整。數(shù)據(jù)倉(cāng)庫(kù)在構(gòu)建之初應(yīng)明確其主題,主題是一個(gè)在較高層次將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域,針對(duì)具體決策需求可細(xì)化為多個(gè)主題表,具體來(lái)說(shuō)就是確定決策涉及的范圍和所要解決的問(wèn)題。項(xiàng)目計(jì)劃項(xiàng)目計(jì)劃是指定義創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目目標(biāo)和確定項(xiàng)目范39確定范圍的主要任務(wù)包括了解方向性分析處理需求,確定信息需求,確定數(shù)據(jù)覆蓋范圍。方向性需求包括:決策類型、決策者感興趣的問(wèn)題(或?qū)ο螅┑取T诖_定范圍時(shí)應(yīng)該重視的因素是必須用戶驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)相結(jié)合,同時(shí)可以借鑒國(guó)內(nèi)外已有的成功經(jīng)驗(yàn)。
確定范圍的主要任務(wù)包括了解方向性分析處理需求,確定信息需求,40業(yè)務(wù)需求分析
業(yè)務(wù)需求分析是數(shù)據(jù)倉(cāng)庫(kù)中一個(gè)很重要的階段,好的業(yè)務(wù)需求分析會(huì)使項(xiàng)目成功的機(jī)率大大增加。分析階段主要包括兩個(gè)方面的任務(wù)是深入了解數(shù)據(jù)源和分析數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)所包含的主題域及其相互之間的關(guān)系。分析階段必須堅(jiān)持用戶參與,并且與原有系統(tǒng)開(kāi)發(fā)或維護(hù)人員進(jìn)行深入的溝通。
業(yè)務(wù)需求分析業(yè)務(wù)需求分析是數(shù)據(jù)倉(cāng)庫(kù)中一個(gè)很重要的階段,好的41數(shù)據(jù)線
數(shù)據(jù)線的實(shí)施可以分為模型設(shè)計(jì)、物理設(shè)計(jì)、數(shù)據(jù)預(yù)處理三個(gè)步驟,用以滿足對(duì)數(shù)據(jù)的有效組織和管理。
數(shù)據(jù)線數(shù)據(jù)線的實(shí)施可以分為模型設(shè)計(jì)、物理設(shè)計(jì)、數(shù)據(jù)預(yù)處理三42數(shù)據(jù)線-模型設(shè)計(jì)需求分析已經(jīng)確定了用戶業(yè)務(wù)分析所需要的數(shù)據(jù)。模型設(shè)計(jì)階段將確定數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)將來(lái)的藍(lán)圖。數(shù)據(jù)倉(cāng)庫(kù)的邏輯設(shè)計(jì)一般采用星型模型和雪花模型設(shè)計(jì)其數(shù)據(jù)模型。包括選擇合適的主題,確定事實(shí)表、相關(guān)的維、屬性和粒度劃分,設(shè)計(jì)正確的表結(jié)構(gòu)和主鍵、外鍵關(guān)系等。模型設(shè)計(jì)主要包括四個(gè)基本步驟:確定合適的主題、劃分粒度層次、設(shè)計(jì)維表和設(shè)計(jì)事實(shí)表。
數(shù)據(jù)線-模型設(shè)計(jì)需求分析已經(jīng)確定了用戶業(yè)務(wù)分析所需要的數(shù)據(jù)。43數(shù)據(jù)線-模型設(shè)計(jì)ER圖數(shù)據(jù)線-模型設(shè)計(jì)ER圖44數(shù)據(jù)線-模型設(shè)計(jì)三維透視圖數(shù)據(jù)線-模型設(shè)計(jì)三維透視圖45數(shù)據(jù)線-模型設(shè)計(jì)ER圖中所示的數(shù)據(jù)模型中有四個(gè)相互關(guān)聯(lián)的簡(jiǎn)單實(shí)體。如果數(shù)據(jù)庫(kù)設(shè)計(jì)只需要考慮數(shù)據(jù)模型的話,可以推斷所有的實(shí)體都是平等關(guān)系。換言之,從數(shù)據(jù)模型的設(shè)計(jì)角度來(lái)看,所有的實(shí)體之間的關(guān)系是對(duì)等的。僅僅從數(shù)據(jù)模型的角度來(lái)著手設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)會(huì)產(chǎn)生一種“平面”效應(yīng)。實(shí)際上,由于種種原因,數(shù)據(jù)倉(cāng)庫(kù)的實(shí)體絕不會(huì)是相互對(duì)等的。一些實(shí)體,要求有它們自己的特別處理。數(shù)據(jù)線-模型設(shè)計(jì)ER圖中所示的數(shù)據(jù)模型中有四個(gè)相互關(guān)聯(lián)的簡(jiǎn)單46為了明確為什么從數(shù)據(jù)模型的角度看一個(gè)組織中的數(shù)據(jù)和關(guān)系會(huì)發(fā)生失真,根據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中建立實(shí)體時(shí)將載入數(shù)據(jù)實(shí)體的數(shù)據(jù)量,我們來(lái)考慮數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的一種三維透視。三維透視圖表明了這種三維透視。代表供應(yīng)商、客戶、產(chǎn)品、發(fā)貨的實(shí)體被稀疏地載入,而代表訂單的實(shí)體則大量地載入。將會(huì)有大量的數(shù)據(jù)載入代表訂單實(shí)體的表中,而在代表別的實(shí)體的表中載入的數(shù)據(jù)量則相對(duì)較少。由于大量的數(shù)據(jù)要載入訂單實(shí)體,因此需要一種不同的設(shè)計(jì)處理方式。為了明確為什么從數(shù)據(jù)模型的角度看一個(gè)組織中的數(shù)據(jù)和關(guān)系會(huì)發(fā)生47數(shù)據(jù)線-模型設(shè)計(jì)用來(lái)管理數(shù)據(jù)倉(cāng)庫(kù)中載入某個(gè)實(shí)體的大量數(shù)據(jù)的設(shè)計(jì)結(jié)構(gòu)通常用“星型連接”。首先確立主題,訂單是有大量數(shù)據(jù)的重要主題,那么“訂單”位于星型連接的中央。在其周圍分別是“產(chǎn)品”、“客戶”、“供應(yīng)商”和“發(fā)貨”實(shí)體。這些實(shí)體僅僅會(huì)產(chǎn)生不大的數(shù)據(jù)量。數(shù)據(jù)線-模型設(shè)計(jì)用來(lái)管理數(shù)據(jù)倉(cāng)庫(kù)中載入某個(gè)實(shí)體的大量數(shù)據(jù)的設(shè)48星型連接中央的“訂單”被稱作是“事實(shí)表”,而其周圍的其他實(shí)體—“產(chǎn)品”、“客戶”、“供應(yīng)商”和“發(fā)貨”則被稱為“維表”。事實(shí)表包含了“訂單”獨(dú)有的標(biāo)識(shí)數(shù)據(jù),也包含了訂單本身的獨(dú)有數(shù)據(jù)。事實(shí)表還包含了指向其周圍的表—維表的外鍵。星型連接中央的“訂單”被稱作是“事實(shí)表”,而其周圍的其他實(shí)體49數(shù)據(jù)線-模型設(shè)計(jì)數(shù)據(jù)線-模型設(shè)計(jì)50數(shù)據(jù)線-模型設(shè)計(jì)創(chuàng)建和使用星型連接的一個(gè)有趣的方面是,在很多情況下,文本數(shù)據(jù)與數(shù)值數(shù)據(jù)是分離開(kāi)的。文本數(shù)據(jù)常出現(xiàn)在維表中,數(shù)值數(shù)據(jù)常出現(xiàn)在事實(shí)表中,這種劃分似乎在所有情況都會(huì)發(fā)生。數(shù)據(jù)線-模型設(shè)計(jì)創(chuàng)建和使用星型連接的一個(gè)有趣的方面是,在很多51數(shù)據(jù)線-模型設(shè)計(jì)數(shù)據(jù)線-模型設(shè)計(jì)52數(shù)據(jù)線-模型設(shè)計(jì)創(chuàng)建和使用星型連接的好處是可以為決策支持系統(tǒng)的處理優(yōu)化數(shù)據(jù)。通過(guò)數(shù)據(jù)預(yù)連接和建立有選擇的數(shù)據(jù)冗余,設(shè)計(jì)者為訪問(wèn)和分析過(guò)程大大簡(jiǎn)化了數(shù)據(jù),這正是數(shù)據(jù)倉(cāng)庫(kù)所需要的。如果不是在決策支持系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中使用星型連接,則會(huì)有很多的缺點(diǎn)。在決策支持系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境以外,常有數(shù)據(jù)更新,而且數(shù)據(jù)關(guān)系的管理要在秒的一級(jí)上進(jìn)行。在這種情況下星型連接在創(chuàng)建和維護(hù)上就是很麻煩的數(shù)據(jù)結(jié)構(gòu)。但是由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)裝載—訪問(wèn)環(huán)境,它包括很多歷史數(shù)據(jù),且有大量的數(shù)據(jù)要管理,因此,星型連接的數(shù)據(jù)結(jié)構(gòu)是十分理想的。數(shù)據(jù)線-模型設(shè)計(jì)創(chuàng)建和使用星型連接的好處是可以為決策支持系統(tǒng)53數(shù)據(jù)線-模型設(shè)計(jì)雪花模型。雪花模型是對(duì)星型模型的擴(kuò)展,每個(gè)維表都可以向外連接到多個(gè)詳細(xì)類別表。雪花模型對(duì)星型模型的維表進(jìn)一步層次化,原有的各維表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的“層次”區(qū)域。在維表上連接對(duì)事實(shí)表進(jìn)行詳細(xì)描述的詳細(xì)類別表,達(dá)到了縮小事實(shí)表,提高查詢效率的目的。數(shù)據(jù)線-模型設(shè)計(jì)雪花模型。雪花模型是對(duì)星型模型的擴(kuò)展,每個(gè)54數(shù)據(jù)線-模型設(shè)計(jì)數(shù)據(jù)線-模型設(shè)計(jì)55數(shù)據(jù)線-模型設(shè)計(jì)雪花模型的優(yōu)點(diǎn)是:通過(guò)最大限度的減少數(shù)據(jù)存儲(chǔ)量以及聯(lián)合較小的維表來(lái)改善查詢性能。雪花模型增加了用戶必須處理的表數(shù)量,增加了某些查詢的復(fù)雜性,但這種方式可以使系統(tǒng)進(jìn)一步專業(yè)化和實(shí)用化,同時(shí)降低了系統(tǒng)的通用程度。
數(shù)據(jù)線-模型設(shè)計(jì)雪花模型的優(yōu)點(diǎn)是:通過(guò)最大限度的減少數(shù)據(jù)存儲(chǔ)56數(shù)據(jù)線-物理設(shè)計(jì)物理設(shè)計(jì)的主要任務(wù)是定義支持模型設(shè)計(jì)必需的物理結(jié)構(gòu)。其過(guò)程包括以下三個(gè)方面:1)確定物理存儲(chǔ)結(jié)構(gòu);2)確定索引策略;3)確定存儲(chǔ)分配。
數(shù)據(jù)線-物理設(shè)計(jì)物理設(shè)計(jì)的主要任務(wù)是定義支持模型設(shè)計(jì)必需的物57數(shù)據(jù)線-數(shù)據(jù)處理(1)數(shù)據(jù)預(yù)處理。它是數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)工程中非常重要的過(guò)程,它由三個(gè)主要步驟組成:抽?。‥xtraction)、轉(zhuǎn)換(Transformation)、加載(Load),簡(jiǎn)稱ETL。
數(shù)據(jù)線-數(shù)據(jù)處理(1)數(shù)據(jù)預(yù)處理。它是數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)工程中非常58根據(jù)元數(shù)據(jù)庫(kù)中的主題表定義、數(shù)據(jù)源定義、數(shù)據(jù)抽取規(guī)則定義對(duì)異地異構(gòu)數(shù)據(jù)源(包括各平臺(tái)的數(shù)據(jù)庫(kù)、文本文件、HTML文件、知識(shí)庫(kù)等)進(jìn)行清理、轉(zhuǎn)換,對(duì)數(shù)據(jù)進(jìn)行重新組織和加工,裝載到數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)庫(kù)中。在組織不同來(lái)源的數(shù)據(jù)過(guò)程中,先將數(shù)據(jù)轉(zhuǎn)換成一種中間模式,再把它移至臨時(shí)工作區(qū)。加工數(shù)據(jù)是保證目標(biāo)數(shù)據(jù)庫(kù)中數(shù)據(jù)的完整性、一致性。例如,有兩個(gè)數(shù)據(jù)源存儲(chǔ)與人員有關(guān)的信息,在定義數(shù)據(jù)組成的人員編碼類型時(shí),可能一個(gè)是字符型,一個(gè)是整型;在定義人員性別這一屬性的類型時(shí),一個(gè)可能是char(2)存儲(chǔ)的數(shù)據(jù)值為“男”和“女”,而另一個(gè)屬性類型為char(1),數(shù)據(jù)值為“F”和“M”。這兩個(gè)數(shù)據(jù)源的值都是正確的,但對(duì)于目標(biāo)數(shù)據(jù)來(lái)說(shuō),必須加工為一種統(tǒng)一的方法來(lái)表示該屬性值,然后交由最終用戶進(jìn)行驗(yàn)證,這樣才能保證數(shù)據(jù)的質(zhì)量。在數(shù)據(jù)抽取過(guò)程中,必須在最終用戶的密切配合下,才能實(shí)現(xiàn)數(shù)據(jù)的真正統(tǒng)一。根據(jù)元數(shù)據(jù)庫(kù)中的主題表定義、數(shù)據(jù)源定義、數(shù)據(jù)抽取59(2)數(shù)據(jù)使用。(3)數(shù)據(jù)維護(hù)。數(shù)據(jù)倉(cāng)庫(kù)規(guī)模一般都很大,從建立之初就要保證它的可管理性,一個(gè)企業(yè)可能建立幾個(gè)數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市,但他們可共用一個(gè)元數(shù)據(jù)庫(kù)對(duì)其進(jìn)行管理。首先從元數(shù)據(jù)庫(kù)查詢所需元數(shù)據(jù),然后進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)更新作業(yè),更新結(jié)束后,將更新情況記錄于元數(shù)據(jù)庫(kù)中。當(dāng)數(shù)據(jù)源的運(yùn)行環(huán)境、結(jié)構(gòu)及目標(biāo)數(shù)據(jù)的維護(hù)計(jì)劃發(fā)生變化時(shí),需要修改元數(shù)據(jù)。元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的重要組成部分,元數(shù)據(jù)的質(zhì)量決定整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的質(zhì)量。
(2)數(shù)據(jù)使用。60技術(shù)線
技術(shù)線的實(shí)施分為技術(shù)選擇和產(chǎn)品選擇兩個(gè)步驟。如何采用合理有效的技術(shù)是實(shí)現(xiàn)一個(gè)好的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基本條件。在數(shù)據(jù)倉(cāng)庫(kù)建立的過(guò)程中會(huì)遇到一些新的特定的問(wèn)題,如管理大量數(shù)據(jù)的需求,如何對(duì)數(shù)據(jù)進(jìn)行快速和方便的訪問(wèn)等。為解決這些問(wèn)題人們采用了新的技術(shù)。技術(shù)體系選擇必須從為這些技術(shù)建立全局的結(jié)構(gòu)框架和視角出發(fā),選擇中需要同時(shí)考慮三個(gè)因素:商業(yè)需求、當(dāng)前的技術(shù)環(huán)境、計(jì)劃的策略技術(shù)方向。技術(shù)線技術(shù)線的實(shí)施分為技術(shù)選擇和產(chǎn)品選擇兩個(gè)步驟。如何采用61技術(shù)體系確定以后需要選擇實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的各種產(chǎn)品,包括硬件平臺(tái)、ETL工具、OLAP服務(wù)器、數(shù)據(jù)展現(xiàn)工具等,并進(jìn)行產(chǎn)品的安裝和測(cè)試。技術(shù)體系確定以后需要選擇實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的各種產(chǎn)品,包括硬件62應(yīng)用線
應(yīng)用線的實(shí)施分為應(yīng)用設(shè)計(jì)和應(yīng)用開(kāi)發(fā)兩個(gè)步驟。數(shù)據(jù)倉(cāng)庫(kù)的建立最終是為應(yīng)用服務(wù)的,所以需要對(duì)應(yīng)用進(jìn)行設(shè)計(jì)和開(kāi)發(fā),以更好地滿足用戶的需要。數(shù)據(jù)倉(cāng)庫(kù)的建立是為滿足用戶的不同查詢需求服務(wù)的,用戶的需求可能是只訪問(wèn)一些預(yù)定義的查詢、生成報(bào)表等簡(jiǎn)單操作,也可能是自己定義復(fù)雜的查詢,直接分析數(shù)據(jù)倉(cāng)庫(kù)中存放的各種數(shù)據(jù)。因此,需要設(shè)計(jì)合適的應(yīng)用工具,為不同的用戶提供友好的用戶界面。應(yīng)用線應(yīng)用線的實(shí)施分為應(yīng)用設(shè)計(jì)和應(yīng)用開(kāi)發(fā)兩個(gè)步驟。數(shù)據(jù)倉(cāng)庫(kù)63應(yīng)用設(shè)計(jì)和開(kāi)發(fā)的一個(gè)有效辦法是針對(duì)不同的用戶需求,設(shè)計(jì)和實(shí)現(xiàn)標(biāo)準(zhǔn)的用戶應(yīng)用模板,提供給用戶高效的接入方式。應(yīng)用設(shè)計(jì)的任務(wù)是設(shè)計(jì)標(biāo)準(zhǔn)的用戶應(yīng)用模板。應(yīng)用設(shè)計(jì)的過(guò)程一般包括:確定初始的模板集、設(shè)計(jì)模板的標(biāo)準(zhǔn)、設(shè)計(jì)詳細(xì)模板、最后通過(guò)用戶反饋進(jìn)行改進(jìn)。應(yīng)用開(kāi)發(fā)是通過(guò)應(yīng)用設(shè)計(jì)說(shuō)明書(shū),按照標(biāo)準(zhǔn)的軟件開(kāi)發(fā)流程,實(shí)現(xiàn)模板的設(shè)計(jì)。應(yīng)用開(kāi)發(fā)的一般過(guò)程是選擇實(shí)現(xiàn)的方法,然后進(jìn)行模板的實(shí)現(xiàn)、測(cè)試和數(shù)據(jù)驗(yàn)證,最后是應(yīng)用模板的維護(hù)。應(yīng)用設(shè)計(jì)和開(kāi)發(fā)的一個(gè)有效辦法是針對(duì)不同的用戶需求,設(shè)計(jì)和實(shí)現(xiàn)64系統(tǒng)運(yùn)行維護(hù)
數(shù)據(jù)倉(cāng)庫(kù)建成后就進(jìn)入運(yùn)行維護(hù),在運(yùn)行中要不斷驗(yàn)證評(píng)價(jià)分析設(shè)計(jì)是否符合用戶需求,產(chǎn)生出新的分析要求及時(shí)反饋回需求分析,進(jìn)行系統(tǒng)設(shè)計(jì)的改進(jìn)。運(yùn)行維護(hù)分為目標(biāo)數(shù)據(jù)維護(hù)和元數(shù)據(jù)維護(hù)兩方面。系統(tǒng)運(yùn)行維護(hù)數(shù)據(jù)倉(cāng)庫(kù)建成后就進(jìn)入運(yùn)行維護(hù),在運(yùn)行中要不斷驗(yàn)65目標(biāo)數(shù)據(jù)維護(hù)是根據(jù)元數(shù)據(jù)庫(kù)所定義的更新頻率、更新數(shù)據(jù)項(xiàng)等更新計(jì)劃任務(wù)來(lái)刷新數(shù)據(jù)倉(cāng)庫(kù),以反映數(shù)據(jù)源的變化,且對(duì)時(shí)間相關(guān)性進(jìn)行處理。更新操作有兩種情況,即在倉(cāng)庫(kù)的原有數(shù)據(jù)表中進(jìn)行某些數(shù)據(jù)的更新和產(chǎn)生一個(gè)新的時(shí)間區(qū)間的數(shù)據(jù),因?yàn)閰R總數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)中的許多信息元素有關(guān)系,必需完整地匯總,這樣才能保證全體信息的一致性。
目標(biāo)數(shù)據(jù)維護(hù)是根據(jù)元數(shù)據(jù)庫(kù)所定義的更新頻率、更新數(shù)據(jù)項(xiàng)等更新66數(shù)據(jù)倉(cāng)庫(kù)實(shí)施總的來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施是為了建立一個(gè)良好的數(shù)據(jù)組織和管理環(huán)境,以滿足決策支持的需要。數(shù)據(jù)倉(cāng)庫(kù)包含了數(shù)據(jù)、技術(shù)、應(yīng)用三方面的要求,所以只有把良好的數(shù)據(jù)模型、合理的技術(shù)和準(zhǔn)確的應(yīng)用設(shè)計(jì)結(jié)合起來(lái),形成一套有效的方法,才能建立起一個(gè)成功的數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)實(shí)施總的來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施是為了建立一個(gè)良好的數(shù)據(jù)67數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的設(shè)計(jì)是一個(gè)動(dòng)態(tài)反饋和循環(huán)的過(guò)程,以上只完成了數(shù)據(jù)倉(cāng)庫(kù)建立的一個(gè)生命周期。在實(shí)際建立的過(guò)程中,一方面數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)內(nèi)容、結(jié)構(gòu)、粒度和其他物理設(shè)計(jì)需要根據(jù)用戶的反饋信息不斷地調(diào)整完善;另一方面,應(yīng)用環(huán)境發(fā)生重大變化或者新技術(shù)出現(xiàn),都有可能導(dǎo)致用戶的應(yīng)用需求發(fā)生重大變化,使現(xiàn)有系統(tǒng)不能滿足用戶要求,需要重新設(shè)計(jì)系統(tǒng),開(kāi)始一個(gè)新的生命周期。因此,數(shù)據(jù)倉(cāng)庫(kù)的建立是運(yùn)用一套有效的數(shù)據(jù)倉(cāng)庫(kù)建立方法不斷反復(fù)循環(huán)的過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的設(shè)計(jì)是一個(gè)動(dòng)態(tài)反饋和循環(huán)的過(guò)程,以上只完成了數(shù)68粒度問(wèn)題粒度問(wèn)題是設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)最重要方面。粒度是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越??;相反,細(xì)化程度越低,粒度級(jí)就越大。在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中粒度之所以是主要的設(shè)計(jì)問(wèn)題,是因?yàn)樗钌畹赜绊懘娣旁跀?shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉(cāng)庫(kù)所能回答的查詢類型。在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量大小與查詢的詳細(xì)程度之間要作出權(quán)衡。粒度問(wèn)題粒度問(wèn)題是設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)最重要方面。69粒度級(jí)別低粒度級(jí),每個(gè)活動(dòng)(如一次電話)被詳細(xì)記錄下來(lái)。高粒度級(jí)。數(shù)據(jù)代表一位顧客一個(gè)月的綜合信息,每位顧客一個(gè)月只有一個(gè)記錄。粒度級(jí)別低粒度級(jí),每個(gè)活動(dòng)(如一次電話)被詳細(xì)記錄下來(lái)。70粒度級(jí)別比較低粒度級(jí),每個(gè)活動(dòng)(如一次電話)被詳細(xì)記錄下來(lái),數(shù)據(jù)的格式如圖所示。到月底每個(gè)顧客平均有200條記錄(全月中每個(gè)電話都記錄一次),因而總共需要40000個(gè)字節(jié)。高粒度級(jí)。數(shù)據(jù)代表一位顧客一個(gè)月的綜合信息,每位顧客一個(gè)月只有一個(gè)記錄,這樣的記錄大約只需200個(gè)字節(jié)。顯然,如果數(shù)據(jù)倉(cāng)庫(kù)的空間很有限的話(數(shù)據(jù)量總是數(shù)據(jù)倉(cāng)庫(kù)中的首要問(wèn)題),用高粒度級(jí)表示數(shù)據(jù)將比用低粒度級(jí)表示數(shù)據(jù)的效率要高得多。高粒度級(jí)不僅只需要少得多的字節(jié)存放數(shù)據(jù),而且只需要較少的索引項(xiàng)。然而數(shù)據(jù)量大小和原始空間問(wèn)題不是僅有的應(yīng)考慮的問(wèn)題。為了訪問(wèn)大量數(shù)據(jù),其處理能力的大小同樣也是應(yīng)考慮的一個(gè)因素。粒度級(jí)別比較低粒度級(jí),每個(gè)活動(dòng)(如一次電話)被詳細(xì)記錄下來(lái),71粒度的權(quán)衡粒度的權(quán)衡72粒度的雙重級(jí)別企業(yè)既需要提高存儲(chǔ)與訪問(wèn)數(shù)據(jù)的效率,又需要非常詳細(xì)地分析數(shù)據(jù)的能力。當(dāng)一個(gè)企業(yè)或組織的數(shù)據(jù)倉(cāng)庫(kù)中擁有大量數(shù)據(jù)時(shí),在數(shù)據(jù)倉(cāng)庫(kù)的細(xì)節(jié)部分考慮雙重(或多重)粒度級(jí)是很有意義的。企業(yè)需要多個(gè)粒度級(jí)而不是一個(gè)粒度級(jí)的需求,是因?yàn)榱6燃?jí)設(shè)計(jì)采用雙重級(jí)別應(yīng)該是幾乎每個(gè)機(jī)構(gòu)默認(rèn)的選擇。數(shù)據(jù)倉(cāng)庫(kù)包括兩種類型的數(shù)據(jù):輕度綜合數(shù)據(jù)和“真實(shí)檔案”細(xì)節(jié)數(shù)據(jù)?!罢鎸?shí)檔案”細(xì)節(jié)數(shù)據(jù)。在操作層是大量的細(xì)節(jié)數(shù)據(jù),其中大部分細(xì)節(jié)是為了滿足結(jié)帳系統(tǒng)的需求。多達(dá)30多天的細(xì)節(jié)存放在這種操作層中。粒度的雙重級(jí)別企業(yè)既需要提高存儲(chǔ)與訪問(wèn)數(shù)據(jù)的效率,又需要非常73輕度綜合數(shù)據(jù)庫(kù)中的數(shù)據(jù)量比細(xì)節(jié)數(shù)據(jù)庫(kù)中的數(shù)據(jù)量少得多。大部分DSS處理是針對(duì)被壓縮的、存取效率高的輕度綜合級(jí)數(shù)據(jù)進(jìn)行的。如果什么時(shí)候需要分析更低的細(xì)節(jié)級(jí)(6%時(shí)間或更少的可能),可以到數(shù)據(jù)的真實(shí)檔案層。鑒于費(fèi)用、效率、訪問(wèn)便利和能夠回答任何可以回答的查詢的能力,數(shù)據(jù)雙重粒度級(jí)是大多數(shù)機(jī)構(gòu)建造數(shù)據(jù)倉(cāng)庫(kù)細(xì)節(jié)級(jí)的最好選擇。輕度綜合數(shù)據(jù)庫(kù)中的數(shù)據(jù)量比細(xì)節(jié)數(shù)據(jù)庫(kù)中的數(shù)據(jù)量少得多。74CRM與數(shù)據(jù)倉(cāng)庫(kù)課件75CRM與數(shù)據(jù)倉(cāng)庫(kù)課件76數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織簡(jiǎn)單堆積。輪轉(zhuǎn)綜合。簡(jiǎn)單直接。連續(xù)。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織簡(jiǎn)單堆積。77簡(jiǎn)單堆積結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)中最簡(jiǎn)單最常用的數(shù)據(jù)組織形式也許是簡(jiǎn)單堆積結(jié)構(gòu)。從操作型環(huán)境中取出每天的事務(wù)處理,然后綜合成數(shù)據(jù)倉(cāng)庫(kù)記錄,這個(gè)綜合可根據(jù)顧客、帳目或者任何組織到數(shù)據(jù)倉(cāng)庫(kù)的主題領(lǐng)域來(lái)進(jìn)行。這里的事務(wù)處理是以天來(lái)進(jìn)行綜合。換句話說(shuō),對(duì)一個(gè)顧客的一個(gè)帳號(hào)的每天的所有活動(dòng)進(jìn)行合計(jì),并在一天一天的基礎(chǔ)上輸入數(shù)據(jù)倉(cāng)庫(kù)。簡(jiǎn)單堆積結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)中最簡(jiǎn)單最常用的數(shù)據(jù)組織形式也許是簡(jiǎn)單堆78輪轉(zhuǎn)綜合數(shù)據(jù)存儲(chǔ)數(shù)據(jù)先用與前面相同的處理方法從操作型環(huán)境輸入到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中。然后定期進(jìn)行輪轉(zhuǎn)綜合。第一周的七天中的活動(dòng)被逐一綜合到七個(gè)每日相應(yīng)的位置,到第八天,將七個(gè)每日位置的數(shù)據(jù)加到一起,并放入第一周的數(shù)據(jù)位置中。然后,第八天的每日總計(jì)加到第一個(gè)每日數(shù)據(jù)位置。月底將每周位置的數(shù)據(jù)加到一起,并放入第一個(gè)每月相應(yīng)的數(shù)據(jù)位置處,然后每周數(shù)據(jù)位置清零。到了年底,將每月位置數(shù)據(jù)加到一起,放入第一個(gè)年度相應(yīng)的數(shù)據(jù)位置處,然后每月數(shù)據(jù)位置清零。輪轉(zhuǎn)綜合數(shù)據(jù)存儲(chǔ)數(shù)據(jù)先用與前面相同的處理方法從操作型環(huán)境輸入79輪轉(zhuǎn)綜合數(shù)據(jù)存儲(chǔ)輪轉(zhuǎn)綜合數(shù)據(jù)存儲(chǔ)80簡(jiǎn)單堆積vs輪轉(zhuǎn)綜合簡(jiǎn)單堆積vs輪轉(zhuǎn)綜合81簡(jiǎn)單直接文件數(shù)據(jù)僅僅是從操作型環(huán)境拖入數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,并沒(méi)有任何累積。簡(jiǎn)單直接文件不是在每天的基礎(chǔ)上組織的,而是以較長(zhǎng)時(shí)間為單位的,比如一個(gè)星期或一個(gè)月。簡(jiǎn)單直接文件是間隔一定時(shí)間的操作型數(shù)據(jù)的一個(gè)快照。簡(jiǎn)單直接文件數(shù)據(jù)僅僅是從操作型環(huán)境拖入數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,并沒(méi)有82連續(xù)文件依據(jù)兩個(gè)或更多的簡(jiǎn)單直接文件能生成一種連續(xù)文件。把1月份和2月份的兩個(gè)數(shù)據(jù)快照合并,創(chuàng)建數(shù)據(jù)的一個(gè)連續(xù)文件。連續(xù)文件中的數(shù)據(jù)代表從第一個(gè)月到最后一個(gè)月的連續(xù)數(shù)據(jù)。當(dāng)然,連續(xù)文件也可以通過(guò)把一個(gè)快照追加到一個(gè)以前生成的連續(xù)文件上來(lái)創(chuàng)建。連續(xù)文件依據(jù)兩個(gè)或更多的簡(jiǎn)單直接文件能生成一種連續(xù)文件。把183從直接文件創(chuàng)建一個(gè)連續(xù)文件從直接文件創(chuàng)建一個(gè)連續(xù)文件84簡(jiǎn)單直接文件追加到連續(xù)文件簡(jiǎn)單直接文件追加到連續(xù)文件85數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的元數(shù)據(jù)元數(shù)據(jù)作為數(shù)據(jù)的數(shù)據(jù),可對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的各種數(shù)據(jù)進(jìn)行詳細(xì)的描述與說(shuō)明,說(shuō)明每個(gè)數(shù)據(jù)的上下文關(guān)系,使每個(gè)數(shù)據(jù)具有符合現(xiàn)實(shí)的真實(shí)含義,使最終用戶了解這些數(shù)據(jù)之間的關(guān)系。在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的元數(shù)據(jù)所扮演的角色和在操作型環(huán)境中數(shù)據(jù)所扮演的角色是不同的。在操作型環(huán)境中,元數(shù)據(jù)幾乎被當(dāng)成文檔來(lái)處理并且降低到同樣的重要性級(jí)別。然而,在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,元數(shù)據(jù)的重要性提高了。數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的元數(shù)據(jù)元數(shù)據(jù)作為數(shù)據(jù)的數(shù)據(jù),可對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的86數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的元數(shù)據(jù)操作型數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)服務(wù)于兩類不同的群體,操作型數(shù)據(jù)由IT專業(yè)人員使用,許多年來(lái)IT人員都是偶然地使用元數(shù)據(jù)。IT專業(yè)人員不僅懂計(jì)算機(jī),而且由于學(xué)歷背景和所受的培訓(xùn),他們會(huì)在系統(tǒng)中找到他們自己的方法。數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的元數(shù)據(jù)操作型數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)服務(wù)于兩類87然而,數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)是給DSS分析者用的。DSS分析人員通常首先是專業(yè)人員,他們通常沒(méi)有很高的計(jì)算機(jī)水平。為了能夠有效地使用數(shù)據(jù)倉(cāng)庫(kù)環(huán)境,DSS分析人員需要盡量多的幫助,而元數(shù)據(jù)恰能很好地幫助他們。另外,在DSS分析者計(jì)劃該怎樣去做信息型/分析型處理時(shí),他們要首先去看元數(shù)據(jù)。由于所服務(wù)的人員的種類不同,以及元數(shù)據(jù)在每天的工作中所起的作用不同,元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中比在操作型環(huán)境中重要得多。然而,數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)是給DSS分析者用的。DSS分析人88元數(shù)據(jù)的類型-按類型分類
(1)關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)?;緮?shù)據(jù):數(shù)據(jù)源、DW、數(shù)據(jù)集市、和應(yīng)用程序管理的所有數(shù)據(jù)。基本數(shù)據(jù)元數(shù)據(jù):包括定義、結(jié)構(gòu)的所有描述。(2)用于數(shù)據(jù)處理的元數(shù)據(jù)對(duì)數(shù)據(jù)裝載、更新處理、分析處理、管理方面的信息,如數(shù)據(jù)抽取、轉(zhuǎn)換、聚合規(guī)則等的描述。(3)關(guān)于企業(yè)的組織結(jié)構(gòu)的元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息,如用戶訪問(wèn)DW、數(shù)據(jù)源、數(shù)據(jù)集市的權(quán)限信息等等。
元數(shù)據(jù)的類型-按類型分類(1)關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)。89元數(shù)據(jù)的類型-按抽象級(jí)別分類(1)概念級(jí):包括業(yè)務(wù)的全部描述,如定義主要的業(yè)務(wù)實(shí)體、特征及其相互關(guān)系。系統(tǒng)的使用方法,已定義的查詢,視圖和現(xiàn)有的應(yīng)用等相關(guān)的信息。(2)邏輯級(jí):包括數(shù)據(jù)庫(kù)的關(guān)系方案,邏輯多維模型等一般用偽碼或數(shù)學(xué)語(yǔ)言描述數(shù)據(jù)抽取/轉(zhuǎn)換規(guī)則等。(3)物理級(jí):包括業(yè)務(wù)規(guī)則相應(yīng)的SQL代碼、關(guān)系的索引文件、分析應(yīng)用的代碼。元數(shù)據(jù)的類型-按抽象級(jí)別分類(1)概念級(jí):包括業(yè)務(wù)的全部描述90元數(shù)據(jù)的類型-按承擔(dān)任務(wù)分類靜態(tài)元數(shù)據(jù)。靜態(tài)元數(shù)據(jù)主要與數(shù)據(jù)結(jié)構(gòu)有關(guān)。名稱類——用于為系統(tǒng)提供標(biāo)識(shí)時(shí),區(qū)分?jǐn)?shù)據(jù)的符號(hào)。描述類——對(duì)DW中的多種數(shù)據(jù)元素進(jìn)行說(shuō)明。格式類——提供DW中數(shù)據(jù)的表達(dá)規(guī)則。數(shù)據(jù)類型——DW中數(shù)據(jù)所持有的類型。關(guān)系類——說(shuō)明DW中多種數(shù)據(jù)對(duì)像之間的關(guān)系,例如客戶與商品之間有購(gòu)買關(guān)系。域類——用于說(shuō)明DW中數(shù)據(jù)的有效值范圍。業(yè)務(wù)規(guī)則類——用于說(shuō)明DW中數(shù)據(jù)在業(yè)務(wù)處理中所要遵守的規(guī)則。例如Customer_ID表示客戶的編號(hào),開(kāi)頭字母為A表示集體客戶,B為個(gè)人客戶。元數(shù)據(jù)的類型-按承擔(dān)任務(wù)分類靜態(tài)元數(shù)據(jù)。靜態(tài)元數(shù)據(jù)主要與數(shù)91動(dòng)態(tài)元數(shù)據(jù)。動(dòng)態(tài)元數(shù)據(jù)主要與數(shù)據(jù)的狀態(tài)與使用方法有關(guān)。數(shù)據(jù)質(zhì)量表——用于描述數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的精確度、完整性、一致性和有效性。統(tǒng)計(jì)信息類——統(tǒng)計(jì)數(shù)據(jù)訪問(wèn)的用戶,訪問(wèn)時(shí)間和訪問(wèn)次數(shù)。這些統(tǒng)計(jì)信息對(duì)于數(shù)據(jù)倉(cāng)庫(kù)性能的提高具有較高的參考價(jià)值。狀態(tài)類——用于跟蹤DW的運(yùn)行情況,例如,數(shù)據(jù)最近一次的備份時(shí)間,備份所需要的時(shí)間,出現(xiàn)的錯(cuò)誤情況等狀況。這些系統(tǒng)運(yùn)行中的狀況有助于DW管理人員對(duì)DW性能的了解。處理類——描述DW系統(tǒng)的使用方法和管理的特性,例如數(shù)據(jù)的使用方法概括數(shù)據(jù)的概括公式等。
動(dòng)態(tài)元數(shù)據(jù)。動(dòng)態(tài)元數(shù)據(jù)主要與數(shù)據(jù)的狀態(tài)與使用方法有關(guān)。92元數(shù)據(jù)的內(nèi)容
數(shù)據(jù)源的元數(shù)據(jù)
數(shù)據(jù)模型的元數(shù)據(jù)
數(shù)據(jù)準(zhǔn)備區(qū)元數(shù)據(jù)
DBMS元數(shù)據(jù)
前臺(tái)元數(shù)據(jù)
元數(shù)據(jù)的內(nèi)容數(shù)據(jù)源的元數(shù)據(jù)93元數(shù)據(jù)的內(nèi)容-數(shù)據(jù)源的元數(shù)據(jù)
每個(gè)來(lái)源的所有者描述信息每個(gè)來(lái)源的業(yè)務(wù)描述信息原始來(lái)源的更新頻率每個(gè)來(lái)源使用的法律約束存取方法、存取權(quán)利、特權(quán),以及來(lái)源的存取口令用來(lái)實(shí)現(xiàn)抽取過(guò)程的程序代碼自動(dòng)抽取工具設(shè)置特定抽取作業(yè)的結(jié)果信息,包括抽取時(shí)間、抽取內(nèi)容以及完成情況元數(shù)據(jù)的內(nèi)容-數(shù)據(jù)源的元數(shù)據(jù)每個(gè)來(lái)源的所有者描述信息94元數(shù)據(jù)內(nèi)容-數(shù)據(jù)模型的元數(shù)據(jù)
企業(yè)概念模型DW數(shù)據(jù)模型數(shù)據(jù)源到目標(biāo)的映射
元數(shù)據(jù)內(nèi)容-數(shù)據(jù)模型的元數(shù)據(jù)企業(yè)概念模型95數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的元數(shù)據(jù)從操作型環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的映射需要數(shù)據(jù)轉(zhuǎn)換元數(shù)據(jù),沒(méi)有這種映射,對(duì)接口進(jìn)行控制是非常困難的。數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的元數(shù)據(jù)從操作型環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的映射需要數(shù)96元數(shù)據(jù)的內(nèi)容-數(shù)據(jù)準(zhǔn)備區(qū)元數(shù)據(jù)
(1)
數(shù)據(jù)傳輸調(diào)度以及特定傳輸?shù)慕Y(jié)果(2)
數(shù)據(jù)準(zhǔn)備區(qū)文件使用情況(3)
用于連接來(lái)源、刪除字段、查找屬性的作業(yè)規(guī)范(4)
數(shù)據(jù)清洗規(guī)范(6)
數(shù)據(jù)增強(qiáng)和映射轉(zhuǎn)換(6)
DM所要求的轉(zhuǎn)換(比如解釋空值的度量值)(7)
目標(biāo)模式設(shè)計(jì)、來(lái)源到目標(biāo)系統(tǒng)的數(shù)據(jù)流,目標(biāo)數(shù)據(jù)的所有者元數(shù)據(jù)的內(nèi)容-數(shù)據(jù)準(zhǔn)備區(qū)元數(shù)據(jù)(1)
數(shù)據(jù)傳輸調(diào)度以97(8)
聚集定義、聚集使用統(tǒng)計(jì)、基本表使用統(tǒng)計(jì)(9)
數(shù)據(jù)來(lái)源情況和審核檢查記錄(該記錄真正來(lái)自何地、何時(shí))(10)數(shù)據(jù)轉(zhuǎn)換運(yùn)行時(shí)間(11)數(shù)據(jù)轉(zhuǎn)換軟件的版本號(hào)(12)數(shù)據(jù)抽取處理的業(yè)務(wù)描述(13)有關(guān)抽取文件、軟件以及元數(shù)據(jù)的安全性設(shè)置(14)數(shù)據(jù)傳輸?shù)陌踩栽O(shè)置(16)數(shù)據(jù)準(zhǔn)備區(qū)的存檔日志和恢復(fù)程序(16)數(shù)據(jù)準(zhǔn)備區(qū)存檔的安全性設(shè)置(8)
聚集定義、聚集使用統(tǒng)計(jì)、基本表使用統(tǒng)計(jì)98元數(shù)據(jù)的內(nèi)容-DBMS元數(shù)據(jù)
(1)
分區(qū)設(shè)置(2)
索引(3)
DBMS層次的安全性特權(quán)與授權(quán)(4)
視圖定義(6)
存儲(chǔ)過(guò)程與SQL管理腳本(6)DBMS備份狀態(tài)、備份程序以及備份安全性
元數(shù)據(jù)的內(nèi)容-DBMS元數(shù)據(jù)(1)
分區(qū)設(shè)置99數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的元數(shù)據(jù)對(duì)于數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的元數(shù)據(jù)需要細(xì)致管理有另外一個(gè)重要原因,倉(cāng)庫(kù)中數(shù)據(jù)會(huì)存在一段很長(zhǎng)的時(shí)間—從6年到10年。而在6年到10年這么長(zhǎng)的時(shí)間段內(nèi),數(shù)據(jù)倉(cāng)庫(kù)改變它的結(jié)構(gòu)是很正常的。換句話說(shuō),一個(gè)數(shù)據(jù)結(jié)構(gòu)能在6到10年內(nèi)保持不變是很不平常的。那么,隨著時(shí)間的流逝來(lái)跟蹤數(shù)據(jù)結(jié)構(gòu)的變化,則是數(shù)據(jù)倉(cāng)庫(kù)中元數(shù)據(jù)很自然的一項(xiàng)任務(wù)。數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的元數(shù)據(jù)對(duì)于數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的元數(shù)據(jù)需要細(xì)致管理100數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的元數(shù)據(jù)101元數(shù)據(jù)的內(nèi)容-前臺(tái)元數(shù)據(jù)(1)
業(yè)務(wù)名稱和有關(guān)列、表以及分組的描述(2)
現(xiàn)有的查詢和和報(bào)告定義(3)
連接規(guī)范工具設(shè)置(4)
打印工具規(guī)范(6)
最終用戶文檔(6)
網(wǎng)絡(luò)安全性用戶特權(quán)概況(7)
網(wǎng)絡(luò)安全性身份驗(yàn)證證書(shū)(8)
網(wǎng)絡(luò)安全性使用統(tǒng)計(jì),包括登錄嘗試、存取嘗試以及按位置報(bào)告的用戶標(biāo)識(shí)符(9)
個(gè)人用戶概況(10)有關(guān)數(shù)據(jù)源、表、視圖以及報(bào)告的使用及存取映射
元數(shù)據(jù)的內(nèi)容-前臺(tái)元數(shù)據(jù)(1)
業(yè)務(wù)名稱和有關(guān)列、表以102元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的作用
元數(shù)據(jù)實(shí)際上是要解決人在何時(shí)、何地、何因、如何使用DW的問(wèn)題。⑴為數(shù)據(jù)倉(cāng)庫(kù)服務(wù)與DSS分析員機(jī)高層決策人員服務(wù)提供便利。DW元數(shù)據(jù)的廣義索引中存有每次數(shù)據(jù)裝載時(shí)產(chǎn)生的有關(guān)決策的數(shù)據(jù),在做決策時(shí),可以先查詢?cè)摬糠謹(jǐn)?shù)據(jù),再?zèng)Q定是否進(jìn)行進(jìn)一步的搜索。⑵解決操作型環(huán)境和DW的復(fù)雜關(guān)系。從OLTP到DW的轉(zhuǎn)換是復(fù)雜的多方面的。元數(shù)據(jù)應(yīng)包括對(duì)這種轉(zhuǎn)換的描述。并清晰的表示出來(lái),管理起來(lái)。既保證這種轉(zhuǎn)換是正確的、合理的,又要使其是可變的、靈活的。元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的作用元數(shù)據(jù)實(shí)際上是要解決人在何時(shí)、何地103元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的作用
元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)期間的使用。數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)過(guò)程是一個(gè)構(gòu)造工程的過(guò)程,必須提供清晰的文檔。這個(gè)過(guò)程產(chǎn)生的元數(shù)據(jù)主要用于DW的應(yīng)用管理目的。描述DW目錄表的每個(gè)運(yùn)作的模式,還須捕獲用于數(shù)據(jù)的轉(zhuǎn)化、凈化、轉(zhuǎn)移、概括和聚集的商業(yè)規(guī)則與處理規(guī)則。元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的作用元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)期間的使用。104元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的作用
元數(shù)據(jù)在數(shù)據(jù)源抽取中的作用。元數(shù)據(jù)對(duì)多個(gè)來(lái)源的數(shù)據(jù)集成發(fā)揮著關(guān)鍵作用。⑴資源領(lǐng)域的確定。利用元數(shù)據(jù)可以確定將數(shù)據(jù)元的哪些資源加載到DW中。⑵跟蹤歷史數(shù)據(jù)結(jié)構(gòu)變化過(guò)程。⑶屬性到屬性的映射。⑷屬性轉(zhuǎn)換。元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的作用元數(shù)據(jù)在數(shù)據(jù)源抽取中的作用。元數(shù)據(jù)105元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的作用
元數(shù)據(jù)在數(shù)據(jù)求精與重構(gòu)工程上的應(yīng)用。數(shù)據(jù)求精與重構(gòu)工程負(fù)責(zé)凈化資源中的數(shù)據(jù)、增加資源戳和時(shí)間戳,將數(shù)據(jù)轉(zhuǎn)換為符合數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)格式,預(yù)算概括和衍生數(shù)據(jù)的值。
元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的作用元數(shù)據(jù)在數(shù)據(jù)求精與重構(gòu)工程上的應(yīng)用106數(shù)據(jù)倉(cāng)庫(kù)主要應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)直接訪問(wèn)使用瀏覽分析工具在DW中尋找有用的信息數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)支持在DW上的應(yīng)用,形成決策支持系統(tǒng)(DSS)數(shù)據(jù)倉(cāng)庫(kù)主要應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)直接訪問(wèn)107數(shù)據(jù)倉(cāng)庫(kù)主要應(yīng)用在證券業(yè)的應(yīng)用:可處理客戶分析、帳戶分析、證券交易數(shù)據(jù)分析、非資金交易分析等多個(gè)業(yè)界關(guān)心的主題,為客戶提供針對(duì)其個(gè)人習(xí)慣、投資組合的投資建議,從而真正作到對(duì)客戶的貼心服務(wù)。在銀行領(lǐng)域的應(yīng)用:防范銀行的經(jīng)營(yíng)風(fēng)險(xiǎn)、實(shí)現(xiàn)科學(xué)管理以及進(jìn)行決策。在稅務(wù)領(lǐng)域的應(yīng)用:可以解決三個(gè)方面的問(wèn)題:一是查出應(yīng)稅未報(bào)者和瞞稅漏稅者,并對(duì)其進(jìn)行跟蹤;二是對(duì)不同行業(yè)、產(chǎn)品和市場(chǎng)中納稅人的行為特性進(jìn)行描述,找出普遍規(guī)律,謀求因勢(shì)利導(dǎo)的稅務(wù)征稽策略;三是對(duì)不同行業(yè)、產(chǎn)品和市場(chǎng)應(yīng)收稅款進(jìn)行預(yù)測(cè),制定最有效的征收計(jì)劃。
數(shù)據(jù)倉(cāng)庫(kù)主要應(yīng)用在證券業(yè)的應(yīng)用:可處理客戶分析、帳戶分析、證108在保險(xiǎn)業(yè)的應(yīng)用:滿足保險(xiǎn)行業(yè)日益增長(zhǎng)的各種查詢、統(tǒng)計(jì)、報(bào)表以及分析的需求,提高防范和化解經(jīng)營(yíng)風(fēng)險(xiǎn)的能力,有效利用這些數(shù)據(jù)來(lái)實(shí)現(xiàn)經(jīng)營(yíng)目標(biāo),預(yù)測(cè)保險(xiǎn)業(yè)的發(fā)展趨勢(shì),甚至利用這些數(shù)據(jù)來(lái)設(shè)計(jì)保險(xiǎn)企業(yè)的發(fā)展宏圖,在激烈的競(jìng)爭(zhēng)中贏得先機(jī)。在客戶服務(wù)及營(yíng)銷方面的應(yīng)用:CRM在保健領(lǐng)域的應(yīng)用:揭示出如何以較低費(fèi)用獲取較高質(zhì)量的治療策略趨勢(shì)和模式.在保險(xiǎn)業(yè)的應(yīng)用:滿足保險(xiǎn)行業(yè)日益增長(zhǎng)的各種查詢、統(tǒng)計(jì)、報(bào)表以1096.2數(shù)據(jù)倉(cāng)庫(kù)與客戶關(guān)系管理
一、數(shù)據(jù)倉(cāng)庫(kù)概念及特征以大型數(shù)據(jù)管理信息系統(tǒng)為基礎(chǔ)的、附加在這個(gè)數(shù)據(jù)庫(kù)系統(tǒng)之上的、除了從企業(yè)所有業(yè)務(wù)數(shù)據(jù)庫(kù)中獲取的綜合數(shù)據(jù)的、并能利用這些綜合數(shù)據(jù)為用戶提供經(jīng)過(guò)處理后的有用信息的應(yīng)用系統(tǒng)。
特點(diǎn):1面向主題
2集成的
3相對(duì)穩(wěn)定的
4反映歷史變化6.2數(shù)據(jù)倉(cāng)庫(kù)與客戶關(guān)系管理
一、數(shù)據(jù)倉(cāng)庫(kù)概念及特征110二、CRM中的數(shù)據(jù)倉(cāng)庫(kù)1CRM的業(yè)務(wù)整合需要數(shù)據(jù)倉(cāng)庫(kù)2數(shù)據(jù)清潔與集中需要數(shù)據(jù)倉(cāng)庫(kù)
客戶信息分散、不真實(shí)3數(shù)據(jù)分析需要數(shù)據(jù)倉(cāng)庫(kù)
CRM目的是根據(jù)不同客戶不同時(shí)期采取不同策略提高客戶忠誠(chéng)二、CRM中的數(shù)據(jù)倉(cāng)庫(kù)1CRM的業(yè)務(wù)整合需要數(shù)據(jù)倉(cāng)庫(kù)111三、數(shù)據(jù)倉(cāng)庫(kù)作用1客戶行為分析
整體行為分析——所有客戶行為規(guī)律群體行為分析——行為分組、交叉分析2重點(diǎn)客戶發(fā)現(xiàn)
潛在客戶,交叉銷售,增量銷售,客戶保持3個(gè)性化服務(wù)
信息不對(duì)稱減弱,產(chǎn)品同質(zhì)化嚴(yán)重、個(gè)性化加強(qiáng)4市場(chǎng)性能評(píng)估
客戶反饋?zhàn)詣?dòng)輸入三、數(shù)據(jù)倉(cāng)庫(kù)作用1客戶行為分析112四、CRM數(shù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)客戶信息客戶行為生產(chǎn)系統(tǒng)客戶分析數(shù)據(jù)集市數(shù)據(jù)倉(cāng)庫(kù)其他相關(guān)數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)OLAP&Report客戶行為分析重點(diǎn)客戶發(fā)現(xiàn)性能評(píng)估分析數(shù)據(jù)準(zhǔn)備OLAP&Report數(shù)據(jù)源數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)CRM分析系統(tǒng)四、CRM數(shù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)客戶信息客戶行為生產(chǎn)系統(tǒng)客戶分析數(shù)113五、數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施項(xiàng)目計(jì)劃業(yè)務(wù)需求分析數(shù)據(jù)線
a數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)b數(shù)據(jù)預(yù)處理c數(shù)據(jù)維護(hù)技術(shù)線
分技術(shù)選擇和產(chǎn)品選擇兩部分;技術(shù)選擇考慮商業(yè)需求、當(dāng)前的技術(shù)環(huán)境、計(jì)劃的策略技術(shù)方向應(yīng)用線
分為應(yīng)用設(shè)計(jì)和應(yīng)用開(kāi)發(fā);針對(duì)不同的用戶需求,設(shè)計(jì)和實(shí)現(xiàn)標(biāo)準(zhǔn)的用戶應(yīng)用模版,提供給用戶高效的接入方式系統(tǒng)運(yùn)行維護(hù)五、數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施項(xiàng)目計(jì)劃114數(shù)據(jù)倉(cāng)庫(kù)建立的基本框架應(yīng)用開(kāi)發(fā)應(yīng)用設(shè)計(jì)產(chǎn)品選擇運(yùn)行維護(hù)模型設(shè)計(jì)項(xiàng)目管理需求分析數(shù)據(jù)處理物理設(shè)計(jì)技術(shù)選擇項(xiàng)目計(jì)劃數(shù)據(jù)線技術(shù)線應(yīng)用線數(shù)據(jù)倉(cāng)庫(kù)建立的基本框架應(yīng)用開(kāi)發(fā)應(yīng)用設(shè)計(jì)產(chǎn)品選擇運(yùn)行維護(hù)模型設(shè)115
第6章
CRM與數(shù)據(jù)倉(cāng)庫(kù)
第6章
CRM與數(shù)據(jù)倉(cāng)庫(kù)
116第6章CRM與數(shù)據(jù)倉(cāng)庫(kù)6.1數(shù)據(jù)倉(cāng)庫(kù)概述 6.1.1數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生 6.1.2數(shù)據(jù)倉(cāng)庫(kù)概念及特征6.1.3數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容6.1.3數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)6.2客戶關(guān)系管理中的數(shù)據(jù)倉(cāng)庫(kù)
6.2.1客戶關(guān)系管理需要數(shù)據(jù)倉(cāng)庫(kù)6.2.2客戶關(guān)系管理中數(shù)據(jù)倉(cāng)庫(kù)的作用6.2.3客戶關(guān)系管理數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)6.3客戶關(guān)系管理數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施6.4客戶關(guān)系管理數(shù)據(jù)倉(cāng)庫(kù)試驗(yàn)6.4.1客戶關(guān)系管理數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)試驗(yàn)6.4.2客戶關(guān)系管理數(shù)據(jù)倉(cāng)庫(kù)使用試驗(yàn)第6章CRM與數(shù)據(jù)倉(cāng)庫(kù)6.1數(shù)據(jù)倉(cāng)庫(kù)概述 1176.1數(shù)據(jù)倉(cāng)庫(kù)概述
數(shù)據(jù)倉(cāng)庫(kù)與CRM有著難以割舍的密切關(guān)系,客戶關(guān)系管理很多工作都是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)展開(kāi)的。從某種意義上說(shuō),數(shù)據(jù)倉(cāng)庫(kù)是客戶關(guān)系管理的靈魂。利用數(shù)據(jù)倉(cāng)庫(kù),企業(yè)可以對(duì)客戶行為的分析與預(yù)測(cè),從而制定準(zhǔn)確的市場(chǎng)策略、發(fā)現(xiàn)企業(yè)的重點(diǎn)客戶和評(píng)價(jià)市場(chǎng)性能,并通過(guò)銷售和服務(wù)等部門與客戶交流,實(shí)現(xiàn)企業(yè)利潤(rùn)的提高。對(duì)于客戶量大、市場(chǎng)策略對(duì)企業(yè)影響較大的企業(yè)來(lái)說(shuō),必須在客戶關(guān)系管理系統(tǒng)中包含數(shù)據(jù)倉(cāng)庫(kù)。6.1數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)倉(cāng)庫(kù)與CRM有著難以割舍的1186.1.1數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生早期的數(shù)據(jù)庫(kù)主要支持聯(lián)機(jī)事務(wù)處理決策支持對(duì)數(shù)據(jù)分析的需求傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)不適宜DSS事務(wù)處理和分析處理的性能特性不同數(shù)據(jù)集成問(wèn)題數(shù)據(jù)動(dòng)態(tài)集成問(wèn)題歷史數(shù)據(jù)問(wèn)題數(shù)據(jù)的綜合問(wèn)題操作繁簡(jiǎn)問(wèn)題6.1.1數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生早期的數(shù)據(jù)庫(kù)主要支持聯(lián)機(jī)事務(wù)處理119(1)事務(wù)處理和分析處理的性能特性不同所有聯(lián)機(jī)事務(wù)處理強(qiáng)調(diào)的是數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性,并不關(guān)心數(shù)據(jù)查詢的方便與快捷。在事務(wù)處理環(huán)境中,用戶的行為特點(diǎn)是數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短。在分析處理環(huán)境中,用戶的行為模式與此完全不同,強(qiáng)調(diào)的是數(shù)據(jù)處理和分析的能力。在傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)基礎(chǔ)上的DSS應(yīng)用程序可能需要連續(xù)幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。聯(lián)機(jī)分析和事務(wù)處理對(duì)系統(tǒng)的要求不同,同一個(gè)數(shù)據(jù)庫(kù)在理論上難以做到兩全,將具有如此不同處理性能的兩種應(yīng)用放在同一個(gè)環(huán)境中運(yùn)行顯然是不適當(dāng)?shù)摹#?)事務(wù)處理和分析處理的性能特性不同120(2)數(shù)據(jù)集成問(wèn)題。DSS需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效的分析和決策的首要前提,相關(guān)數(shù)據(jù)收集得越完整,得到的結(jié)果就越可靠。當(dāng)前絕大多數(shù)企業(yè)內(nèi)數(shù)據(jù)的真正狀況是分散而非集成的。造成這種分散的原因有多種,主要有事務(wù)處理應(yīng)用分散、“蜘蛛網(wǎng)”問(wèn)題、數(shù)據(jù)不一致問(wèn)題、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。(2)數(shù)據(jù)集成問(wèn)題。121(3)數(shù)據(jù)動(dòng)態(tài)集成問(wèn)題靜態(tài)集成的最大缺點(diǎn)在于,如果在數(shù)據(jù)集成后數(shù)據(jù)源中數(shù)據(jù)發(fā)生了變化,這些
變化將不能反映給決策者,導(dǎo)致決策者使用的是過(guò)時(shí)的數(shù)據(jù)。集成數(shù)據(jù)必須以一定的周期(例如24小時(shí))進(jìn)行刷新,我們稱其為動(dòng)態(tài)集成。顯然,事務(wù)處理系統(tǒng)不具備動(dòng)態(tài)集成的能力。(3)數(shù)據(jù)動(dòng)態(tài)集成問(wèn)題122(4)歷史數(shù)據(jù)問(wèn)題事務(wù)處理一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫(kù)中一般也是存儲(chǔ)短期數(shù)據(jù),不同數(shù)據(jù)的保存期限也不一樣,即使有一些歷史數(shù)據(jù)保存下來(lái)了,也被束之高閣,未得到充分利用。但對(duì)于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須一大量的歷史數(shù)據(jù)為依托。沒(méi)有歷史數(shù)據(jù)的詳細(xì)分析,是難以把握企業(yè)的發(fā)展趨勢(shì)的。DSS對(duì)數(shù)據(jù)在空間和時(shí)間的廣度上都有了更高的要求,而事務(wù)處理環(huán)境難以滿足這些要求。(4)歷史數(shù)據(jù)問(wèn)題123(5)數(shù)據(jù)的綜合問(wèn)題在事務(wù)處理系統(tǒng)中積累了大量的細(xì)節(jié)數(shù)據(jù),一般而言,DSS并不對(duì)這些細(xì)節(jié)數(shù)據(jù)進(jìn)行分析。在分析前,往往需要對(duì)細(xì)節(jié)數(shù)據(jù)進(jìn)行不同程度的綜合。而事務(wù)處理系統(tǒng)不具備這種綜合能力,根據(jù)規(guī)范化理論,這種綜合還往往因?yàn)槭且环N數(shù)據(jù)冗余而加以限制。(5)數(shù)據(jù)的綜合問(wèn)題124(6)操作繁簡(jiǎn)問(wèn)題業(yè)務(wù)數(shù)據(jù)的模式是針對(duì)事務(wù)處理系統(tǒng)而設(shè)計(jì)的,數(shù)據(jù)的格式和描述方式并不適合非計(jì)算機(jī)專業(yè)人員進(jìn)行業(yè)務(wù)上的分析和統(tǒng)計(jì)。(6)操作繁簡(jiǎn)問(wèn)題125有人感嘆:20年前查詢不到數(shù)據(jù)是因?yàn)閿?shù)據(jù)太少了,而今天查詢不到數(shù)據(jù)是因?yàn)閿?shù)據(jù)太多了。要提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離。必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來(lái),按照DSS處理的需要進(jìn)行重新組織,建立單獨(dú)的分析處理環(huán)境,數(shù)據(jù)倉(cāng)庫(kù)正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。有人感嘆:20年前查詢不到數(shù)據(jù)是因?yàn)閿?shù)據(jù)太少了,而今天查詢不126數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)從聯(lián)機(jī)的事務(wù)處理系統(tǒng)、異構(gòu)的外部數(shù)據(jù)源、脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中得到。它是一個(gè)聯(lián)機(jī)的系統(tǒng),專門為分析統(tǒng)計(jì)和決策支持應(yīng)用服務(wù),通過(guò)它可滿足決策支持和聯(lián)機(jī)分析應(yīng)用所要求的一切。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)從聯(lián)機(jī)的事務(wù)處理系統(tǒng)、異構(gòu)的外部數(shù)據(jù)源、脫機(jī)的1276.1.2數(shù)據(jù)倉(cāng)庫(kù)的概念和特征目前,數(shù)據(jù)倉(cāng)庫(kù)一詞尚沒(méi)有一個(gè)統(tǒng)一的定義。著名的數(shù)據(jù)倉(cāng)庫(kù)專家W.H.Inmon在其著作《BuildingtheDataWarehouse》一書(shū)中給予如下描述:數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)是一個(gè)面向主題的(SubjectOriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策。6.1.2數(shù)據(jù)倉(cāng)庫(kù)的概念和特征目前,數(shù)據(jù)倉(cāng)庫(kù)一詞尚沒(méi)有一個(gè)128數(shù)據(jù)倉(cāng)庫(kù)概念的兩個(gè)層次功能上:數(shù)據(jù)倉(cāng)庫(kù)用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫(kù);內(nèi)容和特征上:數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般不再修改。數(shù)據(jù)倉(cāng)庫(kù)概念的兩個(gè)層次功能上:數(shù)據(jù)倉(cāng)庫(kù)用于支持決策,面向分析129數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-面向主題傳統(tǒng)的數(shù)據(jù)庫(kù)是面向應(yīng)用而進(jìn)行數(shù)據(jù)組織的,其抽象程度不夠高,沒(méi)有完全實(shí)現(xiàn)數(shù)據(jù)與應(yīng)用的分離。但這種方式能較好地將企業(yè)業(yè)務(wù)活動(dòng)與數(shù)據(jù)庫(kù)模式相對(duì)應(yīng),利于從手工處理向計(jì)算機(jī)處理過(guò)渡,因而具有較好的可操作性;數(shù)據(jù)倉(cāng)庫(kù)是面向主題而進(jìn)行數(shù)據(jù)組織的。主題是一個(gè)在較高層次上對(duì)數(shù)據(jù)的抽象,在邏輯意義上,它是對(duì)企業(yè)中某一宏觀領(lǐng)域所涉及的分析對(duì)象,即將數(shù)據(jù)組織成主題域。例如,在銀行經(jīng)營(yíng)運(yùn)作中,業(yè)務(wù)(存款、貸款、匯兌)、貨幣、客戶、機(jī)構(gòu)、會(huì)計(jì)科目是其主要構(gòu)架或方向,因此在銀行業(yè)務(wù)數(shù)據(jù)倉(cāng)庫(kù)中,選擇業(yè)務(wù)、貨幣、客戶、機(jī)構(gòu)、會(huì)計(jì)科目五個(gè)主題,并將會(huì)計(jì)科目作為連接其他四個(gè)主題的交易主題進(jìn)行處理。數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-面向主題傳統(tǒng)的數(shù)據(jù)庫(kù)是面向應(yīng)用而進(jìn)行數(shù)據(jù)組130面向主題可以獨(dú)立于數(shù)據(jù)處理邏輯,適用于分析型數(shù)據(jù)環(huán)境,適用于建設(shè)企業(yè)全局?jǐn)?shù)據(jù)庫(kù);數(shù)據(jù)倉(cāng)庫(kù)中目前仍采用關(guān)系數(shù)據(jù)庫(kù)技術(shù)來(lái)實(shí)現(xiàn),其面向主題所作較高程度上的抽象,應(yīng)強(qiáng)調(diào)其邏輯意義。面向主題可以獨(dú)立于數(shù)據(jù)處理邏輯,適用于分析型數(shù)據(jù)環(huán)境,適用于131數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-集成的面向事務(wù)處理的操作型數(shù)據(jù)庫(kù)通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫(kù)之間相互獨(dú)立,并且往往是異構(gòu)。在數(shù)據(jù)倉(cāng)庫(kù)的所有特性之中,這是最重要的。應(yīng)用問(wèn)題的設(shè)計(jì)人員歷經(jīng)多年制定出來(lái)的不同的設(shè)計(jì)決策有很多很多種不同的表示方法,沒(méi)有什么應(yīng)用在編碼、命名習(xí)慣、實(shí)際屬性、屬性度量等方面是一致的,各個(gè)應(yīng)用問(wèn)題設(shè)計(jì)員自由地做出他或她自己的設(shè)計(jì)決策。數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-集成的面向事務(wù)處理的操作型數(shù)據(jù)庫(kù)通常與某些132數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是集成的。而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中,這是最關(guān)鍵最復(fù)雜的一個(gè)步驟,主要工作有:一是,進(jìn)行數(shù)據(jù)的綜合和計(jì)算;二是,統(tǒng)一源數(shù)據(jù)中所有不一致和矛盾的地方(如同名異義、異名同義、字長(zhǎng)不一致、單位不一致等)。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是集成的。而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的133CRM與數(shù)據(jù)倉(cāng)庫(kù)課件134數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-相對(duì)穩(wěn)定的操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-相對(duì)穩(wěn)定的操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常實(shí)時(shí)更新135數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-相對(duì)穩(wěn)定的數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-相對(duì)穩(wěn)定的136數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-反映歷史變化操作型數(shù)據(jù)庫(kù)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)(如開(kāi)始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)時(shí)間期限要遠(yuǎn)遠(yuǎn)長(zhǎng)于操作型系統(tǒng)中的數(shù)據(jù)時(shí)間期限。操作型系統(tǒng)的時(shí)間期限一般是60~90天,而數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的時(shí)間期限通常是6~10年。數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-反映歷史變化操作型數(shù)據(jù)庫(kù)主要關(guān)心當(dāng)前某一個(gè)137操作型數(shù)據(jù)庫(kù)含有“當(dāng)前值”的數(shù)據(jù),這些數(shù)據(jù)的準(zhǔn)確性在訪問(wèn)時(shí)是有效的,同樣當(dāng)前值的數(shù)據(jù)能被更新。而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)僅僅是一系列某一時(shí)刻生成的復(fù)雜的快照。操作型數(shù)據(jù)的鍵碼結(jié)構(gòu)可能包含也可能不包含時(shí)間元素,如年、月、日等。而數(shù)據(jù)倉(cāng)庫(kù)的鍵碼結(jié)構(gòu)總是包含某時(shí)間元素。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)碼鍵都包含時(shí)間項(xiàng),用作標(biāo)明數(shù)據(jù)的歷史時(shí)期。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)包含有大量綜合數(shù)據(jù),很多與時(shí)間有關(guān),如按時(shí)間段進(jìn)行綜合或隔時(shí)間片進(jìn)行抽樣。隨著時(shí)間變化,數(shù)據(jù)倉(cāng)庫(kù)需要不斷增加新數(shù)據(jù)、刪去舊數(shù)據(jù)。操作型數(shù)據(jù)庫(kù)含有“當(dāng)前值”的數(shù)據(jù),這些數(shù)據(jù)的準(zhǔn)確性在訪問(wèn)時(shí)是138數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-反映歷史變化數(shù)據(jù)倉(cāng)庫(kù)四個(gè)特點(diǎn)-反映歷史變化139數(shù)據(jù)倉(cāng)庫(kù)本質(zhì)數(shù)據(jù)倉(cāng)庫(kù)實(shí)際上是一個(gè)“以大型數(shù)據(jù)管理信息系統(tǒng)為基礎(chǔ)的、附加在這個(gè)數(shù)據(jù)庫(kù)系統(tǒng)之上的、存儲(chǔ)了從企業(yè)所有業(yè)務(wù)數(shù)據(jù)庫(kù)中獲取的綜合數(shù)據(jù)的、并能利用這些綜合數(shù)據(jù)為用戶提供經(jīng)過(guò)處理后的有用信息的應(yīng)用系統(tǒng)”。如果說(shuō)傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)的重點(diǎn)與要求是快速、準(zhǔn)確、安全、可靠地將數(shù)據(jù)存進(jìn)數(shù)據(jù)庫(kù)中的話,那么數(shù)據(jù)倉(cāng)庫(kù)的重點(diǎn)與要求就是能夠準(zhǔn)確、安全、可靠地從數(shù)據(jù)庫(kù)中取出數(shù)據(jù),經(jīng)過(guò)加工轉(zhuǎn)換成有規(guī)律信息之后,再供管理人員進(jìn)行分析使用。數(shù)據(jù)倉(cāng)庫(kù)所要研究和解決的問(wèn)題就是從數(shù)據(jù)庫(kù)中獲取信息。
數(shù)據(jù)倉(cāng)庫(kù)本質(zhì)數(shù)據(jù)倉(cāng)庫(kù)實(shí)際上是一個(gè)“以大型數(shù)據(jù)管理信息系統(tǒng)為基1406.1.3數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容數(shù)據(jù)倉(cāng)庫(kù)并沒(méi)有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),也沒(méi)有成熟的基本模式,且更偏向于工程,具有強(qiáng)烈的工程性。因此,在技術(shù)上人們習(xí)慣于從工作過(guò)程等方面來(lái)分析,并按其關(guān)鍵技術(shù)部份分為數(shù)據(jù)的抽取、存儲(chǔ)與管理以及數(shù)據(jù)的表現(xiàn)等三個(gè)基本方面。6.1.3數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容數(shù)據(jù)倉(cāng)庫(kù)并沒(méi)有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),141數(shù)據(jù)的抽取數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過(guò)抽取過(guò)程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等方面。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)并不要求與聯(lián)機(jī)事務(wù)處理系統(tǒng)保持實(shí)時(shí)同步,因此數(shù)據(jù)抽取可以定時(shí)進(jìn)行,但多個(gè)抽取操作執(zhí)行的時(shí)間、相互的順序、成敗對(duì)數(shù)據(jù)倉(cāng)庫(kù)中信息的有效性則至關(guān)重要。數(shù)據(jù)的抽取數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)142存儲(chǔ)和管理數(shù)據(jù)倉(cāng)庫(kù)的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù),同時(shí)也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來(lái)建立數(shù)據(jù)倉(cāng)庫(kù)的核心,則需要從數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)特點(diǎn)著手分析。針對(duì)現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉(cāng)庫(kù)按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)和部門級(jí)數(shù)據(jù)倉(cāng)庫(kù)(通常稱為數(shù)據(jù)集市)。存儲(chǔ)和管理數(shù)據(jù)倉(cāng)庫(kù)的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉(cāng)庫(kù)的組143數(shù)據(jù)的表現(xiàn)數(shù)據(jù)表現(xiàn)實(shí)際上相當(dāng)于數(shù)據(jù)倉(cāng)庫(kù)的門面,其性能主要集中在多維分析、數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘方面。而多維分析又是數(shù)據(jù)倉(cāng)庫(kù)的重要表現(xiàn)形式,近幾年來(lái)由于互聯(lián)網(wǎng)的發(fā)展,使得多維分析領(lǐng)域的工具和產(chǎn)品更加注重提供基于Web前端聯(lián)機(jī)分析界面,而不僅僅是在網(wǎng)上發(fā)布數(shù)據(jù)。
數(shù)據(jù)的表現(xiàn)數(shù)據(jù)表現(xiàn)實(shí)際上相當(dāng)于數(shù)據(jù)倉(cāng)庫(kù)的門面,其性能主要集中1446.1.4數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)體系結(jié)構(gòu)6.1.4數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)體系結(jié)構(gòu)145數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場(chǎng)信息和競(jìng)爭(zhēng)對(duì)手的信息等等。
數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常146OLAP服務(wù)器OLAP服務(wù)器對(duì)分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢(shì)。其具體實(shí)現(xiàn)可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫(kù)中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫(kù)中。OLAP服務(wù)器OLAP服務(wù)器對(duì)分析需要的數(shù)據(jù)進(jìn)行有效集成,按147前端工具前端工具主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的應(yīng)用開(kāi)發(fā)工具。其中數(shù)據(jù)分析工具主要針對(duì)OLAP服務(wù)器,報(bào)表工具、數(shù)據(jù)挖掘工具主要針對(duì)數(shù)據(jù)倉(cāng)庫(kù)。
前端工具前端工具主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具148數(shù)據(jù)倉(cāng)庫(kù)概述小結(jié)6.1.1數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生 6.1.2數(shù)據(jù)倉(cāng)庫(kù)概念及特征 6.1.3數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容6.1.4數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)概述小結(jié)6.1.1數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生 149數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目實(shí)施數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一種解決問(wèn)題的過(guò)程,而不是一個(gè)可以買到的現(xiàn)成產(chǎn)品。不同企業(yè)會(huì)有不同的數(shù)據(jù)倉(cāng)庫(kù)。企業(yè)人員往往不懂如何建立和利用數(shù)據(jù)倉(cāng)庫(kù),發(fā)揮其決策支持的作用,而數(shù)據(jù)倉(cāng)庫(kù)公司人員又不懂業(yè)務(wù),不知道建立哪些決策主題,從數(shù)據(jù)源中抽取哪些數(shù)據(jù)。這需要雙方互相溝通,共同協(xié)商開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù),因此是一個(gè)不斷往復(fù)前進(jìn)的過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目實(shí)施數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一種解決問(wèn)題的過(guò)程,而不是一150數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)是一個(gè)系統(tǒng)工程,是一個(gè)不斷建立、發(fā)展、完善的過(guò)程,通常需要較長(zhǎng)的時(shí)間。這就要求各企業(yè)對(duì)整個(gè)系統(tǒng)的建設(shè)提出一個(gè)全面、清晰的遠(yuǎn)景規(guī)劃及技術(shù)實(shí)施藍(lán)圖,將整個(gè)項(xiàng)目的實(shí)施分成若干個(gè)階段,以“總體規(guī)劃、分步實(shí)施、步步見(jiàn)效”為原則,不僅可迅速?gòu)漠?dāng)前投資中獲得收益,而且可以在已有的基礎(chǔ)上,結(jié)合其他已有的業(yè)務(wù)系統(tǒng),逐步構(gòu)建起完整、健壯的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。
數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)是一個(gè)系統(tǒng)工程,是一個(gè)不斷建立、發(fā)展、完善的過(guò)151數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目實(shí)施數(shù)據(jù)倉(cāng)庫(kù)提供了有效地存取和管理大量數(shù)據(jù)的理想環(huán)境,而數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的建立是一個(gè)由數(shù)據(jù)驅(qū)動(dòng)、以技術(shù)支撐并滿足應(yīng)用需求的不斷增長(zhǎng)和完善的開(kāi)發(fā)過(guò)程。因此數(shù)據(jù)倉(cāng)庫(kù)的建立可以從數(shù)據(jù)、技術(shù)和應(yīng)用三方面展開(kāi)。數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目實(shí)施數(shù)據(jù)倉(cāng)庫(kù)提供了有效地存取和管理大量數(shù)據(jù)的理152數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目實(shí)施數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目實(shí)施153項(xiàng)目計(jì)劃
項(xiàng)目計(jì)劃是指定義創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目目標(biāo)和確定項(xiàng)目范圍,包括對(duì)項(xiàng)目計(jì)劃的評(píng)估和流程的調(diào)整。數(shù)據(jù)倉(cāng)庫(kù)在構(gòu)建之初應(yīng)明確其主題,主題是一個(gè)在較高層次將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域,針對(duì)具體決策需求可細(xì)化為多個(gè)主題表,具體來(lái)說(shuō)就是確定決策涉及的范圍和所要解決的問(wèn)題。項(xiàng)目計(jì)劃項(xiàng)目計(jì)劃是指定義創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目目標(biāo)和確定項(xiàng)目范154確定范圍的主要任務(wù)包括了解方向性分析處理需求,確定信息需求,確定數(shù)據(jù)覆蓋范圍。方向性需求包括:決策類型、決策者感興趣的問(wèn)題(或?qū)ο螅┑取T诖_定范圍時(shí)應(yīng)該重視的因素是必須用戶驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)相結(jié)合,同時(shí)可以借鑒國(guó)內(nèi)外已有的成功經(jīng)驗(yàn)。
確定范圍的主要任務(wù)包括了解方向性分析處理需求,確定信息需求,155業(yè)務(wù)需求分析
業(yè)務(wù)需求分析是數(shù)據(jù)倉(cāng)庫(kù)中一個(gè)很重要的階段,好的業(yè)務(wù)需求分析會(huì)使項(xiàng)目成功的機(jī)率大大增加。分析階段主要包括兩個(gè)方面的任務(wù)是深入了解數(shù)據(jù)源和分析數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)所包含的主題域及其相互之間的關(guān)系。分析階段必須堅(jiān)持用戶參與,并且與原有系統(tǒng)開(kāi)發(fā)或維護(hù)人員進(jìn)行深入的溝通。
業(yè)務(wù)需求分析業(yè)務(wù)需求分析是數(shù)據(jù)倉(cāng)庫(kù)中一個(gè)很重要的階段,好的156數(shù)據(jù)線
數(shù)據(jù)線的實(shí)施可以分為模型設(shè)計(jì)、物理設(shè)計(jì)、數(shù)據(jù)預(yù)處理三個(gè)步驟,用以滿足對(duì)數(shù)據(jù)的有效組織和管理。
數(shù)據(jù)線數(shù)據(jù)線的實(shí)施可以分為模型設(shè)計(jì)、物理設(shè)計(jì)、數(shù)據(jù)預(yù)處理三157數(shù)據(jù)線-模型設(shè)計(jì)需求分析已經(jīng)確定了用戶業(yè)務(wù)分析所需要的數(shù)據(jù)。模型設(shè)計(jì)階段將確定數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)將來(lái)的藍(lán)圖。數(shù)據(jù)倉(cāng)庫(kù)的邏輯設(shè)計(jì)一般采用星型模型和雪花模型設(shè)計(jì)其數(shù)據(jù)模型。包括選擇合適的主題,確定事實(shí)表、相關(guān)的維、屬性和粒度劃分,設(shè)計(jì)正確的表結(jié)構(gòu)和主鍵、外鍵關(guān)系等。模型設(shè)計(jì)主要包括四個(gè)基本步驟:確定合適的主題、劃分粒度層次、設(shè)計(jì)維表和設(shè)計(jì)事實(shí)表。
數(shù)據(jù)線-模型設(shè)計(jì)需求分析已經(jīng)確定了用戶業(yè)務(wù)分析所需要的數(shù)據(jù)。158數(shù)據(jù)線-模型設(shè)計(jì)ER圖數(shù)據(jù)線-模型設(shè)計(jì)ER圖159數(shù)據(jù)線-模型設(shè)計(jì)三維透視圖數(shù)據(jù)線-模型設(shè)計(jì)三維透視圖160數(shù)據(jù)線-模型設(shè)計(jì)ER圖中所示的數(shù)據(jù)模型中有四個(gè)相互關(guān)聯(lián)的簡(jiǎn)單實(shí)體。如果數(shù)據(jù)庫(kù)設(shè)計(jì)只需要考慮數(shù)據(jù)模型的話,可以推斷所有的實(shí)體都是平等關(guān)系。換言之,從數(shù)據(jù)模型的設(shè)計(jì)角度來(lái)看,所有的實(shí)體之間的關(guān)系是對(duì)等的。僅僅從數(shù)據(jù)模型的角度來(lái)著手設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)會(huì)產(chǎn)生一種“平面”效應(yīng)。實(shí)際上,由于種種原因,數(shù)據(jù)倉(cāng)庫(kù)的實(shí)體絕不會(huì)是相互對(duì)等的。一些實(shí)體,要求有它們自己的特別處理。數(shù)據(jù)線-模型設(shè)計(jì)ER圖中所示的數(shù)據(jù)模型中有四個(gè)相互關(guān)聯(lián)的簡(jiǎn)單161為了明
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 汽車配件訂購(gòu)協(xié)議
- 疫情防治藥品緊急采購(gòu)協(xié)議
- 婚慶策劃合作細(xì)則
- 用功學(xué)習(xí)保證書(shū)
- 房屋買賣意向書(shū)簽訂注意事項(xiàng)詳解
- 采購(gòu)代表合同樣式
- 生態(tài)休閑農(nóng)業(yè)項(xiàng)目規(guī)劃案
- 外墻裂紋修補(bǔ)涂料樣本
- 標(biāo)準(zhǔn)貸款合同格式
- 鋁合金建筑材料購(gòu)銷協(xié)議
- 《認(rèn)識(shí)地球(第1課時(shí))》示范課教學(xué)設(shè)計(jì)【湘教版七年級(jí)地理上冊(cè)】
- 學(xué)?!敖景藗€(gè)一”臺(tái)賬目錄
- 心律失常PPT醫(yī)學(xué)課件
- 陜西省咸陽(yáng)市秦都區(qū)2023-2024學(xué)年八年級(jí)上學(xué)期1月期末考試語(yǔ)文試題
- 校園眼鏡店 項(xiàng)目招商引資方案
- 高中語(yǔ)文統(tǒng)編版(部編版)必修 上冊(cè)第二單元4《喜看稻菽千重浪》《心有一團(tuán)火 溫暖中人心》《“探界者”鐘揚(yáng)》群文閱讀
- 生物制藥行業(yè)的經(jīng)營(yíng)管理制度
- HACCP計(jì)劃年度評(píng)審報(bào)告
- 中職語(yǔ)文教案:高爾基(節(jié)選)教案
- 駕駛服務(wù)外包投標(biāo)方案(完整版)
- 大學(xué)課件-機(jī)電傳動(dòng)控制(完整)
評(píng)論
0/150
提交評(píng)論