




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第5章
CRM與數(shù)據(jù)倉庫
邵兵家于同奎第5章CRM與數(shù)據(jù)倉庫5.1數(shù)據(jù)倉庫概述 5.1.1數(shù)據(jù)倉庫的產(chǎn)生 5.1.2數(shù)據(jù)倉庫概念及特征5.1.3數(shù)據(jù)倉庫的內(nèi)容5.1.3數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)5.2客戶關(guān)系管理中的數(shù)據(jù)倉庫
5.2.1客戶關(guān)系管理需要數(shù)據(jù)倉庫5.2.2客戶關(guān)系管理中數(shù)據(jù)倉庫的作用客戶關(guān)系管理數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.3客戶關(guān)系管理數(shù)據(jù)倉庫的實(shí)施5.4客戶關(guān)系管理數(shù)據(jù)倉庫試驗(yàn)5.4.1客戶關(guān)系管理數(shù)據(jù)倉庫設(shè)計(jì)試驗(yàn)5.4.2客戶關(guān)系管理數(shù)據(jù)倉庫使用試驗(yàn)5.1數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫與CRM有著難以割舍的密切關(guān)系,客戶關(guān)系管理的很多工作都是以數(shù)據(jù)倉庫為基礎(chǔ)展開的。從某種意義上說,數(shù)據(jù)倉庫是客戶關(guān)系管理的靈魂。利用數(shù)據(jù)倉庫,企業(yè)可以對(duì)客戶行為的分析與預(yù)測,從而制定準(zhǔn)確的市場策略、發(fā)現(xiàn)企業(yè)的重點(diǎn)客戶和評(píng)價(jià)市場性能,并通過銷售和服務(wù)等部門與客戶交流,實(shí)現(xiàn)企業(yè)利潤的提高。對(duì)于客戶量大、市場策略對(duì)企業(yè)影響較大的企業(yè)來說,必須在客戶關(guān)系管理系統(tǒng)中包含數(shù)據(jù)倉庫。5.1.1數(shù)據(jù)倉庫的產(chǎn)生早期的數(shù)據(jù)庫主要支持聯(lián)機(jī)事務(wù)處理決策支持對(duì)數(shù)據(jù)分析的需求傳統(tǒng)數(shù)據(jù)庫系統(tǒng)不適宜DSS事務(wù)處理和分析處理的性能特性不同數(shù)據(jù)集成問題數(shù)據(jù)動(dòng)態(tài)集成問題歷史數(shù)據(jù)問題數(shù)據(jù)的綜合問題操作繁簡問題(1)事務(wù)處理和分析處理的性能特性不同。所有聯(lián)機(jī)事務(wù)處理強(qiáng)調(diào)的是數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性,并不關(guān)心數(shù)據(jù)查詢的方便與快捷。在事務(wù)處理環(huán)境中,用戶的行為特點(diǎn)是數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短。在分析處理環(huán)境中,用戶的行為模式與此完全不同,強(qiáng)調(diào)的是數(shù)據(jù)處理和分析的能力。在傳統(tǒng)數(shù)據(jù)庫系統(tǒng)基礎(chǔ)上的DSS應(yīng)用程序可能需要連續(xù)幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。聯(lián)機(jī)分析和事務(wù)處理對(duì)系統(tǒng)的要求不同,同一個(gè)數(shù)據(jù)庫在理論上難以做到兩全,將具有如此不同處理性能的兩種應(yīng)用放在同一個(gè)環(huán)境中運(yùn)行顯然是不適當(dāng)?shù)?。?)數(shù)據(jù)集成問題。DSS需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效的分析和決策的首要前提,相關(guān)數(shù)據(jù)收集得越完整,得到的結(jié)果就越可靠。當(dāng)前絕大多數(shù)企業(yè)內(nèi)數(shù)據(jù)的真正狀況是分散而非集成的。造成這種分散的原因有多種,主要有事務(wù)處理應(yīng)用分散、“蜘蛛網(wǎng)”問題、數(shù)據(jù)不一致問題、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。(3)數(shù)據(jù)動(dòng)態(tài)集成問題。靜態(tài)集成的最大缺點(diǎn)在于,如果在數(shù)據(jù)集成后數(shù)據(jù)源中數(shù)據(jù)發(fā)生了變化,這些
變化將不能反映給決策者,導(dǎo)致決策者使用的是過時(shí)的數(shù)據(jù)。集成數(shù)據(jù)必須以一定的周期(例如24小時(shí))進(jìn)行刷新,我們稱其為動(dòng)態(tài)集成。顯然,事務(wù)處理系統(tǒng)不具備動(dòng)態(tài)集成的能力。(4)歷史數(shù)據(jù)問題。事務(wù)處理一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫中一般也是存儲(chǔ)短期數(shù)據(jù),切不同數(shù)據(jù)的保存期限也不一樣,即使有一些歷史數(shù)據(jù)保存下來了,也被束之高閣,未得到充分利用。但對(duì)于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須一大量的歷史數(shù)據(jù)為依托。沒有歷史數(shù)據(jù)的詳細(xì)分析,是難以把握企業(yè)的發(fā)展趨勢(shì)的。DSS對(duì)數(shù)據(jù)在空間和時(shí)間的廣度上都有了更高的要求,而事務(wù)處理環(huán)境難以滿足這些要求。(5)數(shù)據(jù)的綜合問題。在事務(wù)處理系統(tǒng)中積累了大量的細(xì)節(jié)數(shù)據(jù),一般而言,DSS并不對(duì)這些細(xì)節(jié)數(shù)據(jù)進(jìn)行分析。在分析前,往往需要對(duì)細(xì)節(jié)數(shù)據(jù)進(jìn)行不同程度的綜合。而事務(wù)處理系統(tǒng)不具備這種綜合能力,根據(jù)規(guī)范化理論,這種綜合還往往因?yàn)槭且环N數(shù)據(jù)冗余而加以限制。(6)操作繁簡問題。業(yè)務(wù)數(shù)據(jù)的模式是針對(duì)事務(wù)處理系統(tǒng)而設(shè)計(jì)的,數(shù)據(jù)的格式和描述方式并不適合非計(jì)算機(jī)專業(yè)人員進(jìn)行業(yè)務(wù)上的分析和統(tǒng)計(jì)。有人感嘆:20年前查詢不到到數(shù)據(jù)是因?yàn)闉閿?shù)據(jù)太少了了,而今天查查詢不到數(shù)據(jù)據(jù)是因?yàn)閿?shù)據(jù)據(jù)太多了。要提高分析和和決策的效率率和有效性,,分析型處理理及其數(shù)據(jù)必必須與操作型型處理及其數(shù)數(shù)據(jù)相分離。。必須把分析析型數(shù)據(jù)從事事務(wù)處理環(huán)境境中提取出來來,按照DSS處理的需要進(jìn)進(jìn)行重新組織織,建立單獨(dú)獨(dú)的分析處理理環(huán)境,數(shù)據(jù)據(jù)倉庫正是為為了構(gòu)建這種種新的分析處處理環(huán)境而出出現(xiàn)的一種數(shù)數(shù)據(jù)存儲(chǔ)和組組織技術(shù)。數(shù)據(jù)倉庫的數(shù)數(shù)據(jù)從聯(lián)機(jī)的的事務(wù)處理系系統(tǒng)、異構(gòu)的的外部數(shù)據(jù)源源、脫機(jī)的歷歷史業(yè)務(wù)數(shù)據(jù)據(jù)中得到。它它是一個(gè)聯(lián)機(jī)機(jī)的系統(tǒng),專專門為分析統(tǒng)統(tǒng)計(jì)和決策支支持應(yīng)用服務(wù)務(wù),通過它可可滿足決策支支持和聯(lián)機(jī)分分析應(yīng)用所要要求的一切。。數(shù)據(jù)倉庫的概概念和特征目前,數(shù)據(jù)倉倉庫一詞尚沒沒有一個(gè)統(tǒng)一一的定義。著名的數(shù)據(jù)倉倉庫專家在其著作《BuildingtheDataWarehouse》一書中給予如如下描述:數(shù)據(jù)倉庫(DataWarehouse)是一個(gè)面向向主題的(SubjectOriented)、集成的((Integrate)、相對(duì)穩(wěn)定定的(Non-Volatile)、反映歷史史變化(TimeVariant)的數(shù)據(jù)集合合,用于支持持管理決策。。數(shù)據(jù)倉庫概念念的兩個(gè)層次次功能上:數(shù)據(jù)據(jù)倉庫用于支支持決策,面面向分析型數(shù)數(shù)據(jù)處理,它它不同于企業(yè)業(yè)現(xiàn)有的操作作型數(shù)據(jù)庫;;內(nèi)容和特征上上:數(shù)據(jù)倉庫庫是對(duì)多個(gè)異異構(gòu)的數(shù)據(jù)源源有效集成,,集成后按照照主題進(jìn)行了了重組,并包包含歷史數(shù)據(jù)據(jù),而且存放放在數(shù)據(jù)倉庫庫中的數(shù)據(jù)一一般不再修改改。數(shù)據(jù)倉庫四個(gè)個(gè)特點(diǎn)-面向主題傳統(tǒng)的數(shù)據(jù)庫庫是面向應(yīng)用用而進(jìn)行數(shù)據(jù)據(jù)組織的,其其抽象程度不不夠高,沒有有完全實(shí)現(xiàn)數(shù)數(shù)據(jù)與應(yīng)用的的分離。但這這種方式能較較好地將企業(yè)業(yè)業(yè)務(wù)活動(dòng)與與數(shù)據(jù)庫模式式相對(duì)應(yīng),利利于從手工處處理向計(jì)算機(jī)機(jī)處理過渡,,因而具有較較好的可操作作性;數(shù)據(jù)倉倉庫是面向主主題而進(jìn)行數(shù)數(shù)據(jù)組織的。。主題是一個(gè)個(gè)在較高層次次上對(duì)數(shù)據(jù)的的抽象,在邏邏輯意義上,,它是對(duì)企業(yè)業(yè)中某一宏觀觀領(lǐng)域所涉及及的分析對(duì)象象,即將數(shù)據(jù)據(jù)組織成主題題域。例如,,在銀行經(jīng)營營運(yùn)作中,業(yè)業(yè)務(wù)(存款、貸款、、匯兌)、貨幣、客戶戶、機(jī)構(gòu)、會(huì)會(huì)計(jì)科目是其其主要構(gòu)架或或方向,因此此在銀行業(yè)務(wù)務(wù)數(shù)據(jù)倉庫中中,選擇業(yè)務(wù)務(wù)、貨幣、客客戶、機(jī)構(gòu)、、會(huì)計(jì)科目五五個(gè)主題,并并將會(huì)計(jì)科目目作為連接其其他四個(gè)主題題的交易主題題進(jìn)行處理。。面向主題可以以獨(dú)立于數(shù)據(jù)據(jù)處理邏輯,,適用于分析析型數(shù)據(jù)環(huán)境境,適用于建建設(shè)企業(yè)全局局?jǐn)?shù)據(jù)庫;數(shù)數(shù)據(jù)倉庫中目目前仍采用關(guān)關(guān)系數(shù)據(jù)庫技技術(shù)來實(shí)現(xiàn),,其面向主題題所作較高程程度上的抽象象,應(yīng)強(qiáng)調(diào)其其邏輯意義。。數(shù)據(jù)倉庫四個(gè)個(gè)特點(diǎn)-集成的面向事務(wù)處理理的操作型數(shù)數(shù)據(jù)庫通常與與某些特定的的應(yīng)用相關(guān),,數(shù)據(jù)庫之間間相互獨(dú)立,,并且往往是是異構(gòu)的。在數(shù)據(jù)倉庫的所所有特性之中中,這是最重重要的。應(yīng)用用問題的設(shè)計(jì)計(jì)人員歷經(jīng)多多年制定出來來的不同的設(shè)設(shè)計(jì)決策有很很多很多種不不同的表示方方法,沒有什什么應(yīng)用在編編碼、命名習(xí)習(xí)慣、實(shí)際屬屬性、屬性度度量等方面是是一致的,各各個(gè)應(yīng)用問題題設(shè)計(jì)員自由由地做出他或或她自己的設(shè)設(shè)計(jì)決策。數(shù)據(jù)倉庫中中的數(shù)據(jù)是是集成的。。而數(shù)據(jù)倉倉庫中的數(shù)數(shù)據(jù)是在對(duì)對(duì)原有分散散的數(shù)據(jù)庫庫數(shù)據(jù)抽取取、清理的的基礎(chǔ)上經(jīng)經(jīng)過系統(tǒng)加加工、匯總總和整理得得到的,必必須消除源源數(shù)據(jù)中的的不一致性性,以保證證數(shù)據(jù)倉庫庫內(nèi)的信息息是關(guān)于整整個(gè)企業(yè)的的一致的全全局信息。。在數(shù)據(jù)倉倉庫建設(shè)中中,這是最最關(guān)鍵最復(fù)復(fù)雜的一個(gè)個(gè)步驟,主主要工作有有:一是,,進(jìn)行數(shù)據(jù)據(jù)的綜合和和計(jì)算;二二是,統(tǒng)一一源數(shù)據(jù)中中所有不一一致和矛盾盾的地方(如同名異義義、異名同同義、字長長不一致、、單位不一一致等)。數(shù)據(jù)倉庫四四個(gè)特點(diǎn)-相對(duì)穩(wěn)定的的操作型數(shù)據(jù)據(jù)庫中的數(shù)數(shù)據(jù)通常實(shí)實(shí)時(shí)更新,,數(shù)據(jù)根據(jù)據(jù)需要及時(shí)時(shí)發(fā)生變化化。數(shù)據(jù)倉倉庫的數(shù)據(jù)據(jù)主要供企企業(yè)決策分分析之用,,所涉及的的數(shù)據(jù)操作作主要是數(shù)數(shù)據(jù)查詢,,一旦某個(gè)個(gè)數(shù)據(jù)進(jìn)入入數(shù)據(jù)倉庫庫以后,一一般情況下下將被長期期保留,也也就是數(shù)據(jù)據(jù)倉庫中一一般有大量量的查詢操操作,但修修改和刪除除操作很少少,通常只只需要定期期的加載、、刷新。數(shù)據(jù)倉庫四四個(gè)特點(diǎn)-相對(duì)穩(wěn)定的的數(shù)據(jù)倉庫四四個(gè)特點(diǎn)-反映歷史變變化操作型數(shù)據(jù)據(jù)庫主要關(guān)關(guān)心當(dāng)前某某一個(gè)時(shí)間間段內(nèi)的數(shù)數(shù)據(jù),而數(shù)數(shù)據(jù)倉庫中中的數(shù)據(jù)通通常包含歷歷史信息,,系統(tǒng)記錄錄了企業(yè)從從過去某一一時(shí)點(diǎn)(如開始應(yīng)用用數(shù)據(jù)倉庫庫的時(shí)點(diǎn))到目前的各各個(gè)階段的的信息,通通過這些信信息,可以以對(duì)企業(yè)的的發(fā)展歷程程和未來趨趨勢(shì)做出定定量分析和和預(yù)測。數(shù)據(jù)倉庫中中的數(shù)據(jù)時(shí)時(shí)間期限要要遠(yuǎn)遠(yuǎn)長于于操作型系系統(tǒng)中的數(shù)數(shù)據(jù)時(shí)間期期限。操作作型系統(tǒng)的的時(shí)間期限限一般是60~90天,而數(shù)據(jù)據(jù)倉庫中數(shù)數(shù)據(jù)的時(shí)間間期限通常常是5~10年。操作型數(shù)據(jù)據(jù)庫含有““當(dāng)前值””的數(shù)據(jù),,這些數(shù)據(jù)據(jù)的準(zhǔn)確性性在訪問時(shí)時(shí)是有效的的,同樣當(dāng)當(dāng)前值的數(shù)數(shù)據(jù)能被更更新。而數(shù)數(shù)據(jù)倉庫中中的數(shù)據(jù)僅僅僅是一系系列某一時(shí)時(shí)刻生成的的復(fù)雜的快快照。操作型數(shù)據(jù)據(jù)的鍵碼結(jié)結(jié)構(gòu)可能包包含也可能能不包含時(shí)時(shí)間元素,,如年、月月、日等。。而數(shù)據(jù)倉倉庫的鍵碼碼結(jié)構(gòu)總是是包含某時(shí)時(shí)間元素。。數(shù)據(jù)倉庫庫的數(shù)據(jù)碼碼鍵都包含含時(shí)間項(xiàng),,用作標(biāo)明明數(shù)據(jù)的歷歷史時(shí)期。。數(shù)據(jù)倉庫庫中的數(shù)據(jù)據(jù)包含有大大量綜合數(shù)數(shù)據(jù),很多多與時(shí)間有有關(guān),如按按時(shí)間段進(jìn)進(jìn)行綜合或或隔時(shí)間片片進(jìn)行抽樣樣。隨著時(shí)時(shí)間變化,,數(shù)據(jù)倉庫庫需要不斷斷增加新數(shù)數(shù)據(jù)、刪去去舊數(shù)據(jù)。。數(shù)據(jù)倉庫四四個(gè)特點(diǎn)-反映歷史變變化數(shù)據(jù)倉庫本本質(zhì)數(shù)據(jù)倉庫實(shí)實(shí)際上是一一個(gè)“以大型數(shù)據(jù)據(jù)管理信息息系統(tǒng)為基基礎(chǔ)的、附附加在這個(gè)個(gè)數(shù)據(jù)庫系系統(tǒng)之上的的、存儲(chǔ)了了從企業(yè)所所有業(yè)務(wù)數(shù)數(shù)據(jù)庫中獲獲取的綜合合數(shù)據(jù)的、、并能利用用這些綜合合數(shù)據(jù)為用用戶提供經(jīng)經(jīng)過處理后后的有用信信息的應(yīng)用用系統(tǒng)”。如果說傳統(tǒng)統(tǒng)數(shù)據(jù)庫系系統(tǒng)的重點(diǎn)點(diǎn)與要求是是快速、準(zhǔn)準(zhǔn)確、安全全、可靠地地將數(shù)據(jù)存存進(jìn)數(shù)據(jù)庫庫中的話,,那么數(shù)據(jù)據(jù)倉庫的重重點(diǎn)與要求求就是能夠夠準(zhǔn)確、安安全、可靠靠地從數(shù)據(jù)據(jù)庫中取出出數(shù)據(jù),經(jīng)經(jīng)過加工轉(zhuǎn)轉(zhuǎn)換成有規(guī)規(guī)律信息之之后,再供供管理人員員進(jìn)行分析析使用。數(shù)據(jù)倉庫所所要研究和和解決的問問題就是從從數(shù)據(jù)庫中中獲取信息息。數(shù)據(jù)倉庫的的內(nèi)容數(shù)據(jù)倉庫并并沒有嚴(yán)格格的數(shù)學(xué)理理論基礎(chǔ),,也沒有成成熟的基本本模式,且且更偏向于于工程,具具有強(qiáng)烈的的工程性。。因此,在在技術(shù)上人人們習(xí)慣于于從工作過過程等方面面來分析,,并按其關(guān)關(guān)鍵技術(shù)部部份分為數(shù)數(shù)據(jù)的抽取取、存儲(chǔ)與與管理以及及數(shù)據(jù)的表表現(xiàn)等三個(gè)個(gè)基本方面面。數(shù)據(jù)的抽取取數(shù)據(jù)的抽取取是數(shù)據(jù)進(jìn)進(jìn)入倉庫的的入口。由由于數(shù)據(jù)倉倉庫是一個(gè)個(gè)獨(dú)立的數(shù)數(shù)據(jù)環(huán)境,,它需要通通過抽取過過程將數(shù)據(jù)據(jù)從聯(lián)機(jī)事事務(wù)處理系系統(tǒng)、外部部數(shù)據(jù)源、、脫機(jī)的數(shù)數(shù)據(jù)存儲(chǔ)介介質(zhì)中導(dǎo)入入到數(shù)據(jù)倉倉庫。數(shù)據(jù)據(jù)抽取在技技術(shù)上主要要涉及互連連、復(fù)制、、增量、轉(zhuǎn)轉(zhuǎn)換、調(diào)度度和監(jiān)控等等方面。數(shù)數(shù)據(jù)倉庫中中的數(shù)據(jù)并并不要求與與聯(lián)機(jī)事務(wù)務(wù)處理系統(tǒng)統(tǒng)保持實(shí)時(shí)時(shí)同步,因因此數(shù)據(jù)抽抽取可以定定時(shí)進(jìn)行,,但多個(gè)抽抽取操作執(zhí)執(zhí)行的時(shí)間間、相互的的順序、成成敗對(duì)數(shù)據(jù)據(jù)倉庫中信信息的有效效性則至關(guān)關(guān)重要。存儲(chǔ)和管理理數(shù)據(jù)倉庫的的真正關(guān)鍵鍵是數(shù)據(jù)的的存儲(chǔ)和管管理。數(shù)據(jù)據(jù)倉庫的組組織管理方方式?jīng)Q定了了它有別于于傳統(tǒng)數(shù)據(jù)據(jù)庫,同時(shí)時(shí)也決定了了其對(duì)外部部數(shù)據(jù)的表表現(xiàn)形式。。要決定采采用什么產(chǎn)產(chǎn)品和技術(shù)術(shù)來建立數(shù)數(shù)據(jù)倉庫的的核心,則則需要從數(shù)數(shù)據(jù)倉庫的的技術(shù)特點(diǎn)點(diǎn)著手分析析。數(shù)據(jù)的表現(xiàn)現(xiàn)數(shù)據(jù)表現(xiàn)實(shí)實(shí)際上相當(dāng)當(dāng)于數(shù)據(jù)倉倉庫的門面面,其性能能主要集中中在多維分分析、數(shù)理理統(tǒng)計(jì)和數(shù)數(shù)據(jù)挖掘方方面。而多多維分析又又是數(shù)據(jù)倉倉庫的重要要表現(xiàn)形式式,近幾年年來由于互互聯(lián)網(wǎng)的發(fā)發(fā)展,使得得多維分析析領(lǐng)域的工工具和產(chǎn)品品更加注重重提供基于于Web前端聯(lián)機(jī)分分析界面,,而不僅僅僅是在網(wǎng)上上發(fā)布數(shù)據(jù)據(jù)。數(shù)據(jù)倉庫系系統(tǒng)體系結(jié)結(jié)構(gòu)數(shù)據(jù)源數(shù)據(jù)源是數(shù)數(shù)據(jù)倉庫系系統(tǒng)的基礎(chǔ)礎(chǔ),是整個(gè)個(gè)系統(tǒng)的數(shù)數(shù)據(jù)源泉。。通常包括括企業(yè)內(nèi)部部信息和外外部信息。。內(nèi)部信息息包括各種種業(yè)務(wù)處理理數(shù)據(jù)和各各類文檔數(shù)數(shù)據(jù)。外部部信息包括括各類法律律法規(guī)、市市場信息和和競爭對(duì)手手的信息等等等。數(shù)據(jù)的存儲(chǔ)儲(chǔ)與管理數(shù)據(jù)的存儲(chǔ)儲(chǔ)與管理是是整個(gè)數(shù)據(jù)據(jù)倉庫系統(tǒng)統(tǒng)的核心。。數(shù)據(jù)倉庫庫的真正關(guān)關(guān)鍵是數(shù)據(jù)據(jù)的存儲(chǔ)和和管理。數(shù)數(shù)據(jù)倉庫的的組織管理理方式?jīng)Q定定了它有別別于傳統(tǒng)數(shù)數(shù)據(jù)庫,同同時(shí)也決定定了其對(duì)外外部數(shù)據(jù)的的表現(xiàn)形式式。要決定定采用什么么產(chǎn)品和技技術(shù)來建立立數(shù)據(jù)倉庫庫的核心,,則需要從從數(shù)據(jù)倉庫庫的技術(shù)特特點(diǎn)著手分分析。針對(duì)對(duì)現(xiàn)有各業(yè)業(yè)務(wù)系統(tǒng)的的數(shù)據(jù),進(jìn)進(jìn)行抽取、、清理,并并有效集成成,按照主主題進(jìn)行組組織。數(shù)據(jù)據(jù)倉庫按照照數(shù)據(jù)的覆覆蓋范圍可可以分為企企業(yè)級(jí)數(shù)據(jù)據(jù)倉庫和部部門級(jí)數(shù)據(jù)據(jù)倉庫(通通常稱為數(shù)數(shù)據(jù)集市))。OLAP服務(wù)器OLAP服務(wù)器對(duì)分分析需要的的數(shù)據(jù)進(jìn)行行有效集成成,按多維維模型予以以組織,以以便進(jìn)行多多角度、多多層次的分分析,并發(fā)發(fā)現(xiàn)趨勢(shì)。。其具體實(shí)實(shí)現(xiàn)可以分分為:ROLAP、MOLAP和HOLAP。ROLAP基本數(shù)據(jù)和和聚合數(shù)據(jù)據(jù)均存放在在RDBMS之中;MOLAP基本數(shù)據(jù)和和聚合數(shù)據(jù)據(jù)均存放于于多維數(shù)據(jù)據(jù)庫中;HOLAP基本數(shù)據(jù)存存放于RDBMS之中,聚合合數(shù)據(jù)存放放于多維數(shù)數(shù)據(jù)庫中。。前端工具前端工具主主要包括各各種報(bào)表工工具、查詢?cè)児ぞ?、?shù)數(shù)據(jù)分析工工具、數(shù)據(jù)據(jù)挖掘工具具以及各種種基于數(shù)據(jù)據(jù)倉庫或數(shù)數(shù)據(jù)集市的的應(yīng)用開發(fā)發(fā)工具。其其中數(shù)據(jù)分分析工具主主要針對(duì)OLAP服務(wù)器,報(bào)報(bào)表工具、、數(shù)據(jù)挖掘掘工具主要要針對(duì)數(shù)據(jù)據(jù)倉庫。數(shù)據(jù)倉庫概概述小結(jié)數(shù)據(jù)倉庫的的產(chǎn)生數(shù)據(jù)倉庫概概念及特征征數(shù)據(jù)倉庫的的內(nèi)容數(shù)據(jù)倉庫系系統(tǒng)的體系系結(jié)構(gòu)數(shù)據(jù)倉庫的的項(xiàng)目實(shí)施數(shù)據(jù)倉庫系系統(tǒng)是一種種解決問題題的過程,,而不是一一個(gè)可以買買到的現(xiàn)成成產(chǎn)品。不不同企業(yè)會(huì)會(huì)有不同的的數(shù)據(jù)倉庫庫。企業(yè)人人員往往不不懂如何建建立和利用用數(shù)據(jù)倉庫庫,發(fā)揮其其決策支持持的作用,,而數(shù)據(jù)倉倉庫公司人人員又不懂懂業(yè)務(wù),不不知道建立立哪些決策策主題,從從數(shù)據(jù)源中中抽取哪些些數(shù)據(jù)。這這需要雙方方互相溝通通,共同協(xié)協(xié)商開發(fā)數(shù)數(shù)據(jù)倉庫,,因此是一一個(gè)不斷往往復(fù)前進(jìn)的的過程。數(shù)據(jù)倉庫的的建設(shè)是一一個(gè)系統(tǒng)工工程,是一一個(gè)不斷建建立、發(fā)展展、完善的的過程,通通常需要較較長的時(shí)間間。這就要要求各企業(yè)業(yè)對(duì)整個(gè)系系統(tǒng)的建設(shè)設(shè)提出一個(gè)個(gè)全面、清清晰的遠(yuǎn)景景規(guī)劃及技技術(shù)實(shí)施藍(lán)藍(lán)圖,將整整個(gè)項(xiàng)目的的實(shí)施分成成若干個(gè)階階段,以““總體規(guī)劃劃、分步實(shí)實(shí)施、步步步見效”為為原則,不不僅可迅速速從當(dāng)前投投資中獲得得收益,而而且可以在在已有的基基礎(chǔ)上,結(jié)結(jié)合其他已已有的業(yè)務(wù)務(wù)系統(tǒng),逐逐步構(gòu)建起起完整、健健壯的數(shù)據(jù)據(jù)倉庫系統(tǒng)統(tǒng)。數(shù)據(jù)據(jù)倉倉庫庫的的項(xiàng)目目實(shí)實(shí)施施數(shù)據(jù)據(jù)倉倉庫庫提提供供了了有有效效地地存數(shù)據(jù)據(jù)倉倉庫庫的的項(xiàng)目目實(shí)實(shí)施施項(xiàng)目目計(jì)計(jì)劃劃項(xiàng)目目計(jì)計(jì)劃劃是是指確定范圍的主要任務(wù)包括了解方向性分析處理需求,確定信息需求,確定數(shù)據(jù)覆蓋范圍。方向性需求包括:決策類型、決策者感興趣的問題(或?qū)ο螅┑?。在確定范圍時(shí)應(yīng)該重視的因素是必須用戶驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)相結(jié)合,同時(shí)可以借鑒國內(nèi)外已有的成功經(jīng)驗(yàn)。
業(yè)務(wù)務(wù)業(yè)務(wù)務(wù)需需求求分分析析是是數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中一一個(gè)個(gè)很很重重要要的的階階段段,,好好的的業(yè)業(yè)務(wù)務(wù)需需求求分分析析會(huì)會(huì)數(shù)據(jù)據(jù)線線數(shù)據(jù)據(jù)線線的的實(shí)實(shí)施施可可以以分分為為模模型型設(shè)設(shè)計(jì)計(jì)、、物物理理設(shè)設(shè)計(jì)計(jì)、、數(shù)數(shù)數(shù)據(jù)據(jù)需求求分分析析已已經(jīng)經(jīng)確確定定了了用用戶戶數(shù)據(jù)倉庫的邏輯設(shè)計(jì)一般采用星型模型和雪花模型設(shè)計(jì)其數(shù)據(jù)模型。包括選擇合適的主題,確定事實(shí)表、相關(guān)的維、屬性和粒度劃分,設(shè)計(jì)正確的表結(jié)構(gòu)和主鍵、外鍵關(guān)系等。模型設(shè)計(jì)主要包括四個(gè)基本步驟:確定合適的主題、劃分粒度層次、設(shè)計(jì)維表和設(shè)計(jì)事實(shí)表。
數(shù)據(jù)據(jù)線線-模型型設(shè)設(shè)ER圖數(shù)據(jù)據(jù)線線-三維維透透視視圖圖數(shù)據(jù)據(jù)線線-模型型設(shè)設(shè)計(jì)計(jì)ER圖中中所所示示的的數(shù)數(shù)據(jù)據(jù)模模型型中中有有四四個(gè)個(gè)相相互互關(guān)關(guān)聯(lián)聯(lián)的僅僅從數(shù)據(jù)模型的角度來著手設(shè)計(jì)數(shù)據(jù)倉庫會(huì)產(chǎn)生一種“平面”效應(yīng)。實(shí)際上,由于種種原因,數(shù)據(jù)倉庫的實(shí)體絕不會(huì)是相互對(duì)等的。一些實(shí)體,要求有它們自己的特別處理。為了明確為什么從數(shù)據(jù)模型的角度看一個(gè)組織中的數(shù)據(jù)和關(guān)系會(huì)發(fā)生失真,根據(jù)在數(shù)據(jù)倉庫中建立實(shí)體時(shí)將載入數(shù)據(jù)實(shí)體的數(shù)據(jù)量,我們來考慮數(shù)據(jù)倉庫中數(shù)據(jù)的一種三維透視。三維透視圖表明了這種三維透視。代表供應(yīng)商、客戶、產(chǎn)品、發(fā)貨的實(shí)體被稀疏地載入,而代表訂單的實(shí)體則大量地載入。將會(huì)有大量的數(shù)據(jù)載入代表訂單實(shí)體的表中,而在代表別的實(shí)體的表中載入的數(shù)據(jù)量則相對(duì)較少。由于大量的數(shù)據(jù)要載入訂單實(shí)體,因此需要一種不同的設(shè)計(jì)處理方式。數(shù)據(jù)據(jù)線線-模型型設(shè)設(shè)計(jì)計(jì)用來來管管理理數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中載載入入某某個(gè)個(gè)實(shí)實(shí)體體的的大大量量數(shù)數(shù)據(jù)據(jù)的的設(shè)設(shè)計(jì)計(jì)結(jié)結(jié)構(gòu)構(gòu)通通常常用用““星星型型連連接接””。。首先確立主題題,訂單是有有大量數(shù)據(jù)的的重要主題,,那么“訂單單”位于星型型連接的中央央。在其周圍分別別是“產(chǎn)品””、“客戶””、“供應(yīng)商商”和“發(fā)貨貨”實(shí)體。這這些實(shí)體僅僅僅會(huì)產(chǎn)生不大大的數(shù)據(jù)量。。星型連接中央央的“訂單””被稱作是““事實(shí)表”,,而其周圍的的其他實(shí)體—“產(chǎn)品”、“客客戶”、“供供應(yīng)商”和““發(fā)貨”則被被稱為“維表表”。事實(shí)表包含了了“訂單”獨(dú)獨(dú)有的標(biāo)識(shí)數(shù)數(shù)據(jù),也包含含了訂單本身身的獨(dú)有數(shù)據(jù)據(jù)。事實(shí)表還還包含了指向向其周圍的表表—維表的外鍵。。數(shù)據(jù)線-模型設(shè)計(jì)數(shù)據(jù)線-模型設(shè)計(jì)文本數(shù)據(jù)常出現(xiàn)在維表中,數(shù)值數(shù)據(jù)常出現(xiàn)在事實(shí)表中,這種劃分似乎在所有情況都會(huì)發(fā)生。數(shù)據(jù)線-模型設(shè)計(jì)數(shù)據(jù)線-模型設(shè)計(jì)創(chuàng)建和使用星星型連接的好好處是可以為為決策支持系系統(tǒng)的處理優(yōu)優(yōu)化數(shù)據(jù)。通通過數(shù)據(jù)預(yù)連連接和建立有有選擇的數(shù)據(jù)據(jù)冗余,設(shè)計(jì)計(jì)者為訪問和和分析過程大大大簡化了數(shù)數(shù)據(jù),這正是是數(shù)據(jù)倉庫所所需要的。如果不是在決決策支持系統(tǒng)統(tǒng)數(shù)據(jù)倉庫環(huán)環(huán)境中使用星星型連接,則則會(huì)有很多的的缺點(diǎn)。在決決策支持系統(tǒng)統(tǒng)數(shù)據(jù)倉庫環(huán)環(huán)境以外,常常有數(shù)據(jù)更新新,而且數(shù)據(jù)據(jù)關(guān)系的管理理要在秒的一一級(jí)上進(jìn)行。。在這種情況況下星型連接接在創(chuàng)建和維維護(hù)上就是很很麻煩的數(shù)據(jù)據(jù)結(jié)構(gòu)。但是是由于數(shù)據(jù)倉倉庫是一個(gè)裝裝載—訪問環(huán)境,它它包括很多歷歷史數(shù)據(jù),且且有大量的數(shù)數(shù)據(jù)要管理,,因此,星型型連接的數(shù)據(jù)據(jù)結(jié)構(gòu)是十分分理想的。數(shù)據(jù)線-模型設(shè)計(jì)雪花模型。雪花模型是對(duì)對(duì)星型模型的的擴(kuò)展,每個(gè)個(gè)維表都可以以向外連接到到多個(gè)詳細(xì)類類別表。雪花模型對(duì)星星型模型的維維表進(jìn)一步層層次化,原有有的各維表可可能被擴(kuò)展為為小的事實(shí)表表,形成一些些局部的“層層次”區(qū)域。。在維表上連連接對(duì)事實(shí)表表進(jìn)行詳細(xì)描描述的詳細(xì)類類別表,達(dá)到到了縮小事實(shí)實(shí)表,提高查查詢效率的目目的。數(shù)據(jù)線-模型設(shè)計(jì)數(shù)據(jù)線-模型設(shè)計(jì)雪花模型的優(yōu)優(yōu)點(diǎn)是:通過過最大限度的的減少數(shù)據(jù)存存儲(chǔ)量以及聯(lián)聯(lián)合較小的維維表來改善查查詢性能。雪花模型增加加了用戶必須須處理的表數(shù)數(shù)量,增加了了某些查詢的的復(fù)雜性,但但這種方式可可以使系統(tǒng)進(jìn)進(jìn)一步專業(yè)化化和實(shí)用化,,同時(shí)降低了了系統(tǒng)的通用用程度。數(shù)據(jù)線-物理設(shè)計(jì)物理設(shè)計(jì)的主主要任務(wù)是定定義支持模型型設(shè)計(jì)必需的的物理結(jié)構(gòu)。。其過程包括括以下三個(gè)方方面:1)確定物理存存儲(chǔ)結(jié)構(gòu);2)確定索引策策略;3)確定存儲(chǔ)分分配。數(shù)據(jù)線-數(shù)據(jù)處理(1)數(shù)據(jù)預(yù)處理理。它是數(shù)據(jù)據(jù)倉庫設(shè)計(jì)工(2)數(shù)據(jù)使用。(3)數(shù)據(jù)維護(hù)。數(shù)據(jù)倉庫規(guī)模一般都很大,從建立之初就要保證它的可管理性,一個(gè)企業(yè)可能建立幾個(gè)數(shù)據(jù)倉庫或數(shù)據(jù)集市,但他們可共用一個(gè)元數(shù)據(jù)庫對(duì)其進(jìn)行管理。首先從元數(shù)據(jù)庫查詢所需元數(shù)據(jù),然后進(jìn)行數(shù)據(jù)倉庫更新作業(yè),更新結(jié)束后,將更新情況記錄于元數(shù)據(jù)庫中。當(dāng)數(shù)據(jù)源的運(yùn)行環(huán)境、結(jié)構(gòu)及目標(biāo)數(shù)據(jù)的維護(hù)計(jì)劃發(fā)生變化時(shí),需要修改元數(shù)據(jù)。元數(shù)據(jù)是數(shù)據(jù)倉庫的重要組成部分,元數(shù)據(jù)的質(zhì)量決定整個(gè)數(shù)據(jù)倉庫的質(zhì)量。
技術(shù)線技術(shù)線的實(shí)施施分為技術(shù)選選擇和產(chǎn)品選選擇兩個(gè)步驟驟。如何采用用合理有效的的技術(shù)是實(shí)現(xiàn)現(xiàn)一個(gè)好的數(shù)數(shù)據(jù)倉庫系統(tǒng)統(tǒng)的基本條件件。在數(shù)據(jù)倉庫建建立的過程中中會(huì)遇到一些些新的特定的的問題,如管管理大量數(shù)據(jù)據(jù)的需求,如如何對(duì)數(shù)據(jù)進(jìn)進(jìn)行快速和方方便的訪問等等。為解決這這些問題人們們采用了新的的技術(shù)。技術(shù)術(shù)體系選擇必必須從為這些些技術(shù)建立全全局的結(jié)構(gòu)框框架和視角出出發(fā),選擇中中需要同時(shí)考考慮三個(gè)因素素:商業(yè)需求求、當(dāng)前的技技術(shù)環(huán)境、計(jì)計(jì)劃的策略技技術(shù)方向。技術(shù)體系確定定以后需要選選擇實(shí)現(xiàn)數(shù)據(jù)據(jù)倉庫應(yīng)用的的各種產(chǎn)品,,包括硬件平平臺(tái)、ETL工具、OLAP服務(wù)器、數(shù)據(jù)據(jù)展現(xiàn)工具等等,并進(jìn)行產(chǎn)產(chǎn)品的安裝和和測試。現(xiàn)在在市場上的數(shù)數(shù)據(jù)倉庫產(chǎn)品品有很多,數(shù)數(shù)據(jù)倉庫廠商商通常都提出出了自己的一一系列解決方方案,限于篇篇幅,在這里里不再展開,,而主要著眼眼于數(shù)據(jù)倉庫庫實(shí)現(xiàn)的一些些關(guān)鍵技術(shù),,以便對(duì)數(shù)據(jù)據(jù)倉庫的建立立有更深層的的理解。應(yīng)用線應(yīng)用線的實(shí)施施分為應(yīng)用設(shè)設(shè)計(jì)和應(yīng)用開開發(fā)兩個(gè)步驟驟。數(shù)據(jù)倉庫庫的建立最終終是為應(yīng)用服服務(wù)的,所以以需要對(duì)應(yīng)用用進(jìn)行設(shè)計(jì)和和開發(fā),以更更好地滿足用用戶的需要。。數(shù)據(jù)倉庫的建建立是為滿足足用戶的不同同查詢需求服服務(wù)的,用戶戶的需求可能能是只訪問一一些預(yù)定義的的查詢、生成成報(bào)表等簡單單操作,也可可能是自己定定義復(fù)雜的查查詢,直接分分析數(shù)據(jù)倉庫庫中存放的各各種數(shù)據(jù)。因因此,需要設(shè)設(shè)計(jì)合適的應(yīng)應(yīng)用工具,為為不同的用戶戶提供友好的的用戶界面。。應(yīng)用設(shè)設(shè)計(jì)和和開發(fā)發(fā)的一一個(gè)有有效辦辦法是是針對(duì)對(duì)不同同的用用戶需需求,,設(shè)計(jì)計(jì)和實(shí)實(shí)現(xiàn)標(biāo)標(biāo)準(zhǔn)的的用戶戶應(yīng)用用模板板,提提供給給用戶戶高效效的接接入方方式。。應(yīng)用設(shè)設(shè)計(jì)的的任務(wù)務(wù)是設(shè)設(shè)計(jì)標(biāo)標(biāo)準(zhǔn)的的用戶戶應(yīng)用用模板板。應(yīng)應(yīng)用設(shè)設(shè)計(jì)的的過程程一般般包括括:確確定初初始的的模板板集、、設(shè)計(jì)計(jì)模板板的標(biāo)標(biāo)準(zhǔn)、、設(shè)計(jì)計(jì)詳細(xì)細(xì)模板板、最最后通通過用用戶反反饋進(jìn)進(jìn)行改改進(jìn)。。應(yīng)用用開發(fā)發(fā)是通通過應(yīng)應(yīng)用設(shè)設(shè)計(jì)說說明書書,按按照標(biāo)標(biāo)準(zhǔn)的的軟件件開發(fā)發(fā)流程應(yīng)用是數(shù)據(jù)倉庫建立的最終目的,對(duì)于應(yīng)用提出的要求,數(shù)據(jù)倉庫建立過程中是必須加以充分考慮的。
系統(tǒng)運(yùn)運(yùn)行維維護(hù)數(shù)據(jù)倉倉庫建建成后后就進(jìn)進(jìn)入運(yùn)運(yùn)行維維護(hù),,在運(yùn)運(yùn)行中中要不不斷驗(yàn)驗(yàn)證評(píng)評(píng)價(jià)分分析設(shè)設(shè)計(jì)是是否符符合用用戶需需求,,產(chǎn)生生出新新的分分析要要求及及時(shí)反反饋回回需求求分析析,進(jìn)進(jìn)行系系統(tǒng)設(shè)設(shè)計(jì)的的改進(jìn)進(jìn)。運(yùn)運(yùn)行維維護(hù)分分為目目標(biāo)數(shù)據(jù)倉倉庫實(shí)實(shí)施總的來來說,,數(shù)據(jù)據(jù)倉庫庫的實(shí)實(shí)施是是為了了建立立一個(gè)個(gè)良好好的數(shù)數(shù)據(jù)組組織和和管理理環(huán)境境,以以滿足數(shù)據(jù)倉庫系統(tǒng)的設(shè)計(jì)是一個(gè)動(dòng)態(tài)反饋和循環(huán)的過程,以上只完成了數(shù)據(jù)倉庫建立的一個(gè)生命周期。在實(shí)際建立的過程中,一方面數(shù)據(jù)倉庫的數(shù)據(jù)內(nèi)容、結(jié)構(gòu)、粒度和其他物理設(shè)計(jì)需要根據(jù)用戶的反饋信息不斷地調(diào)整完善;另一方面,應(yīng)用環(huán)境發(fā)生重大變化或者新技術(shù)出現(xiàn),都有可能導(dǎo)致用戶的應(yīng)用需求發(fā)生重大變化,使現(xiàn)有系統(tǒng)不能滿足用戶要求,需要重新設(shè)計(jì)系統(tǒng),開始一個(gè)新的生命周期。因此,數(shù)據(jù)倉庫的建立是運(yùn)用一套有效的數(shù)據(jù)倉庫建立方法不斷反復(fù)循環(huán)的過程。粒度問問題粒度問問題是是設(shè)計(jì)計(jì)數(shù)據(jù)據(jù)倉庫庫的一一個(gè)最最重要要方面面。粒度是是指數(shù)數(shù)據(jù)倉倉庫的的數(shù)據(jù)據(jù)單位位中保保存數(shù)數(shù)據(jù)的在數(shù)據(jù)倉庫環(huán)境中粒度之所以是主要的設(shè)計(jì)問題,是因?yàn)樗钌畹赜绊懘娣旁跀?shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉庫所能回答的查詢類型。在數(shù)據(jù)倉庫中的數(shù)據(jù)量大小與查詢的詳細(xì)程度之間要作出權(quán)衡。粒度級(jí)級(jí)別低粒度度級(jí),,每個(gè)個(gè)活動(dòng)動(dòng)(如一次次電話話)被詳細(xì)細(xì)記錄錄下來來。高粒度度級(jí)。。數(shù)據(jù)據(jù)代表表一位位顧客客一個(gè)個(gè)月的的綜合合信息息,每每位顧顧客一一個(gè)月月只有有一個(gè)個(gè)記錄錄。粒度級(jí)級(jí)別比比較低粒度度級(jí),,每個(gè)個(gè)活動(dòng)動(dòng)(如一次次電話話)被詳細(xì)細(xì)記錄錄下來來,數(shù)數(shù)據(jù)的的格式式如圖圖所示示。到到月底底每個(gè)個(gè)顧客客平均均有200條記錄錄(全月中中每個(gè)個(gè)電話話都記記錄一一次),因而而總共共需要要40000個(gè)字節(jié)節(jié)。高粒度度級(jí)。。數(shù)據(jù)據(jù)代表表一位位顧客客一個(gè)個(gè)月的的綜合合信息息,每每位顧顧客一一個(gè)月月只有有一個(gè)個(gè)記錄錄,這這樣的的記錄錄大約約只需需200個(gè)字節(jié)節(jié)。顯顯然,,如果果數(shù)據(jù)據(jù)倉庫庫的空空間很很有限限的話話(數(shù)據(jù)量量總是是數(shù)據(jù)據(jù)倉庫庫中的的首要要問題題),用高高粒度度級(jí)表表示數(shù)數(shù)據(jù)將將比用用低粒粒度級(jí)級(jí)表示示數(shù)據(jù)據(jù)的效效率要要高得得多。。高粒粒度級(jí)級(jí)不僅僅只需需要少少得多多的字字節(jié)存存放數(shù)數(shù)據(jù),,而且且只需需要較較少的的索引引項(xiàng)。。然而而數(shù)據(jù)據(jù)量大大小和和原始始空間間問題題不是是僅有有的應(yīng)應(yīng)考慮慮的問問題。。為了了訪問問大量量數(shù)據(jù)據(jù),其其處理理能力力的大大小同同樣也也是應(yīng)應(yīng)考慮慮的一一個(gè)因因素。。粒度的的權(quán)衡衡粒度的的雙重重級(jí)別別企業(yè)既既需要要提高高存儲(chǔ)儲(chǔ)與訪訪問數(shù)數(shù)據(jù)的的效率率,又又需要要非常常詳細(xì)細(xì)地分分析數(shù)數(shù)據(jù)的的能力力。當(dāng)當(dāng)一個(gè)個(gè)企業(yè)業(yè)或組組織的的數(shù)據(jù)據(jù)倉庫庫中擁擁有大大量數(shù)數(shù)據(jù)時(shí)時(shí),在在數(shù)據(jù)據(jù)倉庫庫的細(xì)細(xì)節(jié)部部分考考慮雙雙重(或多重重)粒度級(jí)級(jí)是很很有意意義的的。企業(yè)需需要多多個(gè)粒粒度級(jí)級(jí)而不不是一一個(gè)粒粒度級(jí)級(jí)的需需求,,是因因?yàn)榱A6燃?jí)級(jí)設(shè)計(jì)計(jì)采用用雙重重級(jí)別別應(yīng)該該是幾幾乎每每個(gè)機(jī)機(jī)構(gòu)默默認(rèn)的的選擇擇。數(shù)據(jù)倉倉庫包包括兩兩種類類型的的數(shù)據(jù)據(jù):輕輕度綜綜合數(shù)數(shù)據(jù)和和“真真實(shí)檔檔案””細(xì)節(jié)節(jié)數(shù)據(jù)據(jù)。“真實(shí)實(shí)檔案案”細(xì)細(xì)節(jié)數(shù)數(shù)據(jù)。。在操操作層層是大大量的的細(xì)節(jié)節(jié)數(shù)據(jù)據(jù),其其中大大部分分細(xì)節(jié)節(jié)是為為了滿滿足結(jié)結(jié)帳系系統(tǒng)的的需求求。多多達(dá)30多天的的細(xì)節(jié)節(jié)存放放在這這種操操作層層中。。輕度綜綜合數(shù)數(shù)據(jù)庫庫中的的數(shù)據(jù)據(jù)量比比細(xì)節(jié)節(jié)數(shù)據(jù)據(jù)庫中中的數(shù)數(shù)據(jù)量量少得得多。。大部分分DSS處理是是針對(duì)對(duì)被壓壓縮的的、存存取效效率高高的輕輕度綜綜合級(jí)級(jí)數(shù)據(jù)據(jù)進(jìn)行行的。。如果果什么么時(shí)候候需要要分析析更低低的細(xì)細(xì)節(jié)級(jí)級(jí)(5%時(shí)間或或更少少的可可能),可以以到數(shù)數(shù)據(jù)的的真實(shí)實(shí)檔案案層。。鑒于費(fèi)費(fèi)用、、效率率、訪訪問便便利和和能夠夠回答答任何何可以以回答答的查查詢的的能力力,數(shù)數(shù)據(jù)雙雙重粒粒度級(jí)級(jí)是大多數(shù)數(shù)機(jī)構(gòu)構(gòu)建造造數(shù)據(jù)據(jù)倉庫庫細(xì)節(jié)節(jié)級(jí)的的最好好選擇擇。數(shù)據(jù)倉庫中中的數(shù)據(jù)組組織簡單堆積。。輪轉(zhuǎn)綜合。。簡單直接。。連續(xù)。簡單堆積結(jié)結(jié)構(gòu)數(shù)據(jù)倉庫中中最簡單最最常用的數(shù)數(shù)據(jù)組織形形式也許是是簡單堆積積結(jié)構(gòu)。從操作型環(huán)環(huán)境中取出出每天的事事務(wù)處理,,然后綜合合成數(shù)據(jù)倉倉庫記錄,,這個(gè)綜合合可根據(jù)顧顧客、帳目目或者任何何組織到數(shù)數(shù)據(jù)倉庫的的主題領(lǐng)域域來進(jìn)行。。這里的事事務(wù)處理是是以天來進(jìn)進(jìn)行綜合。。換句話說說,對(duì)一個(gè)個(gè)顧客的一一個(gè)帳號(hào)的的每天的所所有活動(dòng)進(jìn)進(jìn)行合計(jì),,并在一天天一天的基基礎(chǔ)上輸入入數(shù)據(jù)倉庫庫。輪轉(zhuǎn)綜合數(shù)數(shù)據(jù)存儲(chǔ)輪轉(zhuǎn)綜合數(shù)數(shù)據(jù)存儲(chǔ)。。數(shù)據(jù)先用與與前面相同同的處理方方法從操作作型環(huán)境輸輸入到數(shù)據(jù)據(jù)倉庫環(huán)境境中。然后定期進(jìn)進(jìn)行輪轉(zhuǎn)綜綜合。第一一周的七天天中的活動(dòng)動(dòng)被逐一綜綜合到七個(gè)個(gè)每日相應(yīng)應(yīng)的位置,,到第八天天,將七個(gè)個(gè)每日位置置的數(shù)據(jù)加加到一起,,并放入第第一周的數(shù)數(shù)據(jù)位置中中。然后,,第八天的的每日總計(jì)計(jì)加到第一一個(gè)每日數(shù)數(shù)據(jù)位置。。月底將每每周位置的的數(shù)據(jù)加到到一起,并并放入第一一個(gè)每月相相應(yīng)的數(shù)據(jù)據(jù)位置處,,然后每周周數(shù)據(jù)位置置清零。到到了年底,,將每月位位置數(shù)據(jù)加加到一起,,放入第一一個(gè)年度相相應(yīng)的數(shù)據(jù)據(jù)位置處,,然后每月月數(shù)據(jù)位置置清零。輪轉(zhuǎn)綜合數(shù)數(shù)據(jù)存儲(chǔ)簡單堆積vs輪轉(zhuǎn)綜合簡單直接文文件數(shù)據(jù)僅僅是是從操作型型環(huán)境拖入入數(shù)據(jù)倉庫庫環(huán)境中,,并沒有任任何累積。。簡單直接文文件不是在在每天的基基礎(chǔ)上組織織的,而是是以較長時(shí)時(shí)間為單位位的,比如如一個(gè)星期期或一個(gè)月月。簡單直接文文件是間隔隔一定時(shí)間間的操作型型數(shù)據(jù)的一一個(gè)快照。。連續(xù)文件依據(jù)兩個(gè)或或更多的簡簡單直接文文件能生成成一種連續(xù)續(xù)文件。把把1月份和2月份的兩個(gè)個(gè)數(shù)據(jù)快照照合并,創(chuàng)創(chuàng)建數(shù)據(jù)的的一個(gè)連續(xù)續(xù)文件。連連續(xù)文件中中的數(shù)據(jù)代代表從第一一個(gè)月到最最后一個(gè)月月的連續(xù)數(shù)數(shù)據(jù)。當(dāng)然,連續(xù)續(xù)文件也可可以通過把把一個(gè)快照照追加到一一個(gè)以前生生成的連續(xù)續(xù)文件上來來創(chuàng)建。從直接文件件創(chuàng)建一個(gè)個(gè)連續(xù)文件件簡單直接文文件追加到到連續(xù)文件件數(shù)據(jù)倉庫環(huán)環(huán)境中的元元數(shù)據(jù)元數(shù)據(jù)作為為數(shù)據(jù)的數(shù)數(shù)據(jù),可對(duì)對(duì)數(shù)據(jù)倉庫庫中的各種種數(shù)據(jù)進(jìn)行行詳細(xì)的描描述與說明明,說明每每個(gè)數(shù)據(jù)的的上下文關(guān)關(guān)系,使每每個(gè)數(shù)據(jù)具具有符合現(xiàn)現(xiàn)實(shí)的真實(shí)實(shí)含義,使使最終用戶戶了解這些些數(shù)據(jù)之間間的關(guān)系。。在數(shù)據(jù)倉庫庫環(huán)境中的的元數(shù)據(jù)所所扮演的角角色和在操操作型環(huán)境境中數(shù)據(jù)所所扮演的角角色是不同同的。在操作型環(huán)環(huán)境中,元元數(shù)據(jù)幾乎乎被當(dāng)成文文檔來處理理并且降低低到同樣的的重要性級(jí)級(jí)別。然而而,在數(shù)據(jù)據(jù)倉庫環(huán)境境中,元數(shù)數(shù)據(jù)的重要要性提高了了。數(shù)據(jù)倉庫環(huán)環(huán)境中的元元數(shù)據(jù)操作型數(shù)據(jù)據(jù)和數(shù)據(jù)倉倉庫中的數(shù)然而,數(shù)據(jù)倉庫數(shù)據(jù)是給DSS分析者用的。DSS分析人員通常首先是專業(yè)人員,他們通常沒有很高的計(jì)算機(jī)水平。為了能夠有效地使用數(shù)據(jù)倉庫環(huán)境,DSS分析人員需要盡量多的幫助,而元數(shù)據(jù)恰能很好地幫助他們。另外,在DSS分析者計(jì)劃該怎樣去做信息型/分析型處理時(shí),他們要首先去看元數(shù)據(jù)。由于所服務(wù)的人員的種類不同,以及元數(shù)據(jù)在每天的工作中所起的作用不同,元數(shù)據(jù)在數(shù)據(jù)倉庫環(huán)境中比在操作型環(huán)境中重要得多。元數(shù)據(jù)的類類型-按類型分類類(1)關(guān)于基本本數(shù)據(jù)的元元數(shù)據(jù)。基本數(shù)據(jù)::數(shù)據(jù)源、、DW、數(shù)據(jù)集市市、和應(yīng)用用成序管理理的所有數(shù)數(shù)據(jù)?;緮?shù)據(jù)元元數(shù)據(jù):包包括定義、、結(jié)構(gòu)的所所有描述。。(2)用于數(shù)據(jù)據(jù)處理的元元數(shù)據(jù)對(duì)數(shù)據(jù)裝載載、更新處處理、分析析處理、管管理方面的的信息,如如數(shù)據(jù)抽取取、轉(zhuǎn)換、、聚合規(guī)則則等的描述述。(3)關(guān)于企業(yè)業(yè)的組織結(jié)結(jié)構(gòu)的元數(shù)數(shù)據(jù)包括與企業(yè)業(yè)相關(guān)的管管理方面的的數(shù)據(jù)和信信息,如用用戶訪問DW、數(shù)據(jù)源、、數(shù)據(jù)集市市的權(quán)限信信息等等。。元數(shù)據(jù)的類類型-按抽象級(jí)別別分類(1)概念級(jí)::包括業(yè)務(wù)務(wù)的全部描描述,如定定義主要的的業(yè)務(wù)實(shí)體體、特征及及其相互關(guān)關(guān)系。系統(tǒng)統(tǒng)的使用方方法,已定定義的查詢?cè)儯晥D和和現(xiàn)有的應(yīng)應(yīng)用等相關(guān)關(guān)的信息。。(2)邏輯級(jí)::包括數(shù)據(jù)據(jù)庫的關(guān)系系方案,邏邏輯多維模模型等一般般用偽碼或或數(shù)學(xué)語言言描述數(shù)據(jù)據(jù)抽取/轉(zhuǎn)換規(guī)則等等。(3)物理級(jí)::包括業(yè)務(wù)務(wù)規(guī)則相應(yīng)應(yīng)的SQL代碼、關(guān)系系的索引文文件、分析析應(yīng)用的代代碼。元數(shù)據(jù)的類類型-按承擔(dān)任務(wù)務(wù)分類靜態(tài)元數(shù)據(jù)據(jù)。靜態(tài)元元數(shù)據(jù)主要要與數(shù)據(jù)結(jié)結(jié)構(gòu)有關(guān)。。名稱類——用于為系統(tǒng)統(tǒng)提供標(biāo)識(shí)識(shí)時(shí),區(qū)分分?jǐn)?shù)據(jù)的符符號(hào)。描述類——對(duì)DW中的多種數(shù)數(shù)據(jù)元素進(jìn)進(jìn)行說明。。格式類——提供DW中數(shù)據(jù)的表表達(dá)規(guī)則。。數(shù)據(jù)類型——DW中數(shù)據(jù)所持持有的類型型。關(guān)系類——說明DW中多種數(shù)據(jù)據(jù)對(duì)像之間間的關(guān)系,,例如客戶戶與商品之之間有購買買關(guān)系。域類——用于說明DW中數(shù)據(jù)的有有效值范圍圍。業(yè)務(wù)規(guī)則類類——用于說明DW中數(shù)據(jù)在業(yè)業(yè)務(wù)處理中中所要遵守守的規(guī)則。。例如Customer_ID表示客戶的的編號(hào),開開頭字母為為A表示集體客客戶,B為個(gè)人客戶戶。動(dòng)態(tài)元數(shù)據(jù)據(jù)。動(dòng)動(dòng)態(tài)元數(shù)據(jù)據(jù)主要與數(shù)數(shù)據(jù)的狀態(tài)態(tài)與使用方方法有關(guān)。。數(shù)據(jù)質(zhì)量表表——用于描述數(shù)數(shù)據(jù)倉庫中中數(shù)據(jù)的精精確度、完完整性、一一致性和有有效性。統(tǒng)計(jì)信息類類——統(tǒng)計(jì)數(shù)據(jù)據(jù)訪問的的用戶,,訪問時(shí)時(shí)間和訪訪問次數(shù)數(shù)。這些些統(tǒng)計(jì)信信息對(duì)于于數(shù)據(jù)倉倉庫性能能的提高高具有較較高的參參考價(jià)值值。狀態(tài)類——用于跟蹤蹤DW的運(yùn)行情情況,例例如,數(shù)數(shù)據(jù)最近近一次的的備份時(shí)時(shí)間,備備份所需需要的時(shí)時(shí)間,出出現(xiàn)的錯(cuò)錯(cuò)誤情況況等狀況況。這些些系統(tǒng)運(yùn)運(yùn)行中的的狀況有有助于DW管理人員員對(duì)DW性能的了了解。處理類——描述DW系統(tǒng)的使使用方法法和管理理的特性性,例如如數(shù)據(jù)的的使用方方法概括括數(shù)據(jù)的的概括公公式等。。元數(shù)據(jù)的的內(nèi)容數(shù)據(jù)源的的元數(shù)據(jù)據(jù)數(shù)據(jù)模型型的元數(shù)數(shù)據(jù)數(shù)據(jù)準(zhǔn)備備區(qū)元數(shù)數(shù)據(jù)DBMS元數(shù)據(jù)前臺(tái)元數(shù)數(shù)據(jù)元數(shù)據(jù)的的內(nèi)容-數(shù)據(jù)源的的元數(shù)據(jù)據(jù)每個(gè)來源源的所有有者描述述信息每個(gè)來源源的業(yè)務(wù)務(wù)描述信信息原始來源源的更新新頻率每個(gè)來源源使用的的法律約約束存取方法法、存取取權(quán)利、、特權(quán),,以及來來源的存存取口令令用來實(shí)現(xiàn)現(xiàn)抽取過過程的程程序代碼碼自動(dòng)抽取取工具設(shè)設(shè)置特定抽取作業(yè)業(yè)的結(jié)果信息息,包括抽取取時(shí)間、抽取取內(nèi)容以及完完成情況元數(shù)據(jù)內(nèi)容-數(shù)據(jù)模型的元元數(shù)據(jù)企業(yè)概念模型型DW數(shù)據(jù)模型數(shù)據(jù)源到目標(biāo)標(biāo)的映射數(shù)據(jù)倉庫環(huán)境境中的元數(shù)據(jù)據(jù)從操作型環(huán)境境到數(shù)據(jù)倉庫庫環(huán)境的映射射需要數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換元數(shù)據(jù),,沒有這種映映射,對(duì)接口口進(jìn)行控制是是非常困難的的。元數(shù)據(jù)的內(nèi)容容-數(shù)據(jù)準(zhǔn)備區(qū)元元數(shù)據(jù)(1)數(shù)據(jù)傳輸調(diào)度度以及特定傳傳輸?shù)慕Y(jié)果(2)數(shù)據(jù)準(zhǔn)備區(qū)文文件使用情況況(3)用于連接來源源、刪除字段段、查找屬性性的作業(yè)規(guī)范范(4)數(shù)據(jù)清洗規(guī)范范(5)數(shù)據(jù)增強(qiáng)和映映射轉(zhuǎn)換(6)DM所要求的轉(zhuǎn)換換(比如解釋釋空值的度量量值)(7)目標(biāo)模式設(shè)計(jì)計(jì)、來源到目目標(biāo)系統(tǒng)的數(shù)數(shù)據(jù)流,目標(biāo)標(biāo)數(shù)據(jù)的所有有者(8)聚集定義、聚聚集使用統(tǒng)計(jì)計(jì)、基本表使使用統(tǒng)計(jì)(9)數(shù)據(jù)來源情況況和審核檢查查記錄(該記記錄真正來自自何地、何時(shí)時(shí))(10)數(shù)據(jù)轉(zhuǎn)換運(yùn)運(yùn)行時(shí)間(11)數(shù)據(jù)轉(zhuǎn)換軟軟件的版本號(hào)號(hào)(12)數(shù)據(jù)抽取處處理的業(yè)務(wù)描描述(13)有關(guān)抽取文文件、軟件以以及元數(shù)據(jù)的的安全性設(shè)置置(14)數(shù)據(jù)傳輸?shù)牡陌踩栽O(shè)置置(15)數(shù)據(jù)準(zhǔn)備區(qū)區(qū)的存檔日志志和恢復(fù)程序序(16)數(shù)據(jù)準(zhǔn)備區(qū)區(qū)存檔的安全全性設(shè)置元數(shù)據(jù)的內(nèi)容容-DBMS元數(shù)據(jù)(1)分區(qū)設(shè)設(shè)置(2)索引(3)DBMS層次的的安全全性特特權(quán)與與授權(quán)權(quán)(4)視圖定定義(5)存儲(chǔ)過過程與與SQL管理腳腳本(6)DBMS備份狀狀態(tài)、、備份份程序序以及及備份份安全全性數(shù)據(jù)倉倉庫環(huán)環(huán)境中中的元元數(shù)據(jù)據(jù)對(duì)于數(shù)數(shù)據(jù)倉倉庫環(huán)環(huán)境中中的元元數(shù)據(jù)據(jù)需要要細(xì)致致管理理有另另外一一個(gè)重重要原原因,,倉庫庫中數(shù)數(shù)據(jù)會(huì)會(huì)存在在一段段很長長的時(shí)時(shí)間—從5年到10年。而而在5年到10年這么么長的的時(shí)間間段內(nèi)內(nèi),數(shù)數(shù)據(jù)倉倉庫改改變它它的結(jié)結(jié)構(gòu)是是很正正常的的。換換句話話說,,一個(gè)個(gè)數(shù)據(jù)據(jù)結(jié)構(gòu)構(gòu)能在在5到10年內(nèi)保保持不不變是是很不不平常常的。。那么么,隨隨著時(shí)時(shí)間的的流逝逝來跟跟蹤數(shù)數(shù)據(jù)結(jié)結(jié)構(gòu)的的變化化,則則是數(shù)數(shù)據(jù)倉倉庫中中元數(shù)數(shù)據(jù)很很自然然的一一項(xiàng)任任務(wù)。。數(shù)據(jù)據(jù)倉倉庫庫環(huán)環(huán)境境中中的的元元數(shù)數(shù)據(jù)據(jù)元數(shù)數(shù)據(jù)據(jù)的的內(nèi)內(nèi)容容-前臺(tái)臺(tái)元元數(shù)數(shù)據(jù)據(jù)(1)業(yè)務(wù)務(wù)名名稱稱和和有有關(guān)關(guān)列列、、表表以以及及分分組組的的描描述述(2)現(xiàn)有有的的查查詢?cè)兒秃秃秃蛨?bào)報(bào)告告定定義義(3)連接規(guī)范范工具設(shè)設(shè)置(4)打印工具具規(guī)范(5)最終用戶戶文檔(6)網(wǎng)絡(luò)安全全性用戶戶特權(quán)概概況(7)網(wǎng)絡(luò)安全全性身份份驗(yàn)證證證書(8)網(wǎng)絡(luò)安全全性使用用統(tǒng)計(jì),,包括登登錄嘗試試、存取取嘗試以以及按位位置報(bào)告告的用戶戶標(biāo)識(shí)符符(9)個(gè)人用戶戶概況(10)有關(guān)關(guān)數(shù)據(jù)源源、表、、視圖以以及報(bào)告告的使用用及存取取映射元數(shù)據(jù)在在數(shù)據(jù)倉倉庫中的的作用元數(shù)據(jù)實(shí)實(shí)際上是是要解決決人在何何時(shí)、何何地、何何因、如如何使用用DW的問題。。⑴為數(shù)數(shù)據(jù)倉庫庫服務(wù)與與DSS分析員機(jī)機(jī)高層決決策人員員服務(wù)提提供便利利。DW元數(shù)據(jù)的的廣義索索引中存存有每次次數(shù)據(jù)裝裝載時(shí)產(chǎn)產(chǎn)生的有有關(guān)決策策的數(shù)據(jù)據(jù),在做做決策時(shí)時(shí),可以以先查詢?cè)冊(cè)摬糠址謹(jǐn)?shù)據(jù),,再?zèng)Q定定是否進(jìn)進(jìn)行進(jìn)一一步的搜搜索。⑵解決決操作型型環(huán)境和和DW的復(fù)雜關(guān)關(guān)系。從從OLTP到DW的轉(zhuǎn)換是是復(fù)雜的的多方面面的。元元數(shù)據(jù)應(yīng)應(yīng)包括對(duì)對(duì)這種轉(zhuǎn)轉(zhuǎn)換的描描述。并并清晰的的表示出出來,管管理起來來。既保保證這種種轉(zhuǎn)換是是正確的的、合理理的,又又要使其其是可變變的。靈靈活的。。元數(shù)據(jù)在在數(shù)據(jù)倉倉庫中的的作用元數(shù)據(jù)在在數(shù)據(jù)倉倉庫開發(fā)發(fā)期間的的使用。。數(shù)據(jù)倉庫庫的開發(fā)發(fā)過程是是一個(gè)構(gòu)構(gòu)造工程程的過程程,必須須提供清清晰的文文檔。這個(gè)過程程產(chǎn)生的的元數(shù)據(jù)據(jù)主要用用于DW的應(yīng)用管管理目的的。描述述DW目錄表的的每個(gè)運(yùn)運(yùn)作的模模式,還還須捕獲獲用于數(shù)數(shù)據(jù)的轉(zhuǎn)轉(zhuǎn)化、凈凈化、轉(zhuǎn)轉(zhuǎn)移、概概括和聚聚集的商商業(yè)規(guī)則則與處理理規(guī)則。。元數(shù)據(jù)在在數(shù)據(jù)倉倉庫中的的作用元數(shù)據(jù)在在數(shù)據(jù)源源抽取中中的作用用。元數(shù)數(shù)據(jù)對(duì)多多個(gè)來源源的數(shù)據(jù)據(jù)集成發(fā)發(fā)揮著關(guān)關(guān)鍵作用用。⑴資源源領(lǐng)域的的確定。。利用元元數(shù)據(jù)可可以確定定將數(shù)據(jù)據(jù)元的哪哪些資源源加載到到DW中。⑵跟蹤蹤歷史數(shù)數(shù)據(jù)結(jié)構(gòu)構(gòu)變化過過程。⑶屬性性到屬性性的映射射。⑷屬性性轉(zhuǎn)換。。元數(shù)據(jù)在在數(shù)據(jù)倉倉庫中的的作用元數(shù)據(jù)在在數(shù)據(jù)求求精與重重構(gòu)工程程上的應(yīng)應(yīng)用。數(shù)據(jù)求精精與重構(gòu)構(gòu)工程負(fù)負(fù)責(zé)凈化化資源中中的數(shù)據(jù)據(jù)、增加加資源戳戳和時(shí)間間戳,將將數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換為符符合數(shù)據(jù)據(jù)倉庫的的數(shù)據(jù)格格式,預(yù)預(yù)算概括括和衍生生數(shù)據(jù)的的值。數(shù)據(jù)倉倉庫主主要應(yīng)應(yīng)用數(shù)據(jù)倉倉庫直直接訪訪問使用瀏瀏覽分分析工工具在在DW中尋找找有用用的信信息。。數(shù)據(jù)倉倉庫系系統(tǒng)支支持在在DW上的應(yīng)應(yīng)用,,形成成決策策支持持系統(tǒng)統(tǒng)(DSS)。數(shù)據(jù)倉倉庫主主要應(yīng)應(yīng)用在證券券業(yè)的的應(yīng)用用:可處理理客戶戶分析析、帳帳戶分分析、、證券券交易易數(shù)據(jù)據(jù)分析析、非非資金金交易易分析析等多多個(gè)業(yè)業(yè)界關(guān)關(guān)心的的主題題,為為客戶戶提供供針對(duì)對(duì)其個(gè)個(gè)人習(xí)習(xí)慣、、投資資組合合的投投資建建議,,從而而真正正作到到對(duì)客客戶的的貼心心服務(wù)務(wù)。在銀行領(lǐng)域域的應(yīng)用:防范銀行的的經(jīng)營風(fēng)險(xiǎn)險(xiǎn)、實(shí)現(xiàn)科科學(xué)管理以以及進(jìn)行決決策.在稅務(wù)領(lǐng)域域的應(yīng)用::可以解決決三個(gè)方面面的問題::一是查出出應(yīng)稅未報(bào)報(bào)者和瞞稅稅漏稅者,,并對(duì)其進(jìn)進(jìn)行跟蹤;;二是對(duì)不不同行業(yè)、、產(chǎn)品和市市場中納稅稅人的行為為特性進(jìn)行行描述,找找出普遍規(guī)規(guī)律,謀求求因勢(shì)利導(dǎo)導(dǎo)的稅務(wù)征征稽策略;;三是對(duì)不不同行業(yè)、、產(chǎn)品和市市場應(yīng)收稅稅款進(jìn)行預(yù)預(yù)測,制定定最有效的的征收計(jì)劃劃。在保險(xiǎn)業(yè)的的應(yīng)用:滿足保險(xiǎn)行行業(yè)日益增增長的各種種查詢、統(tǒng)統(tǒng)計(jì)、報(bào)表表以及分析析的需求,,提高防范范和化解經(jīng)經(jīng)營風(fēng)險(xiǎn)的的能力,有有效利用這這些數(shù)據(jù)來來實(shí)現(xiàn)經(jīng)營營目標(biāo),預(yù)預(yù)測保險(xiǎn)業(yè)業(yè)的發(fā)展趨趨勢(shì),甚至至利用這些些數(shù)據(jù)來設(shè)設(shè)計(jì)保險(xiǎn)企企業(yè)的發(fā)展展宏圖,在在激烈的競競爭中贏得得先機(jī).在客戶服務(wù)務(wù)及營銷方方面的應(yīng)用用:CRM在保健領(lǐng)域域的應(yīng)用:揭示出如何何以較低費(fèi)費(fèi)用獲取較較高質(zhì)量的的治療策略略趨勢(shì)和模模式.聯(lián)機(jī)分析處處理(OLAP)聯(lián)機(jī)分析處處理(OLAP)的概念最最早是由關(guān)關(guān)系數(shù)據(jù)庫庫之父于1993年提出的。。當(dāng)時(shí),Codd認(rèn)為聯(lián)機(jī)事事務(wù)處理((OLTP)已不能滿滿足終端用用戶對(duì)數(shù)據(jù)據(jù)庫查詢分分析的需要要,SQL對(duì)大大量量數(shù)數(shù)據(jù)據(jù)庫庫進(jìn)進(jìn)行行的的簡簡單單查查詢?cè)円惨膊徊荒苣軡M滿足足用用戶戶分分析析的的需需求求。。用用戶戶的的決決策策分分析析需需要要對(duì)對(duì)關(guān)關(guān)系系數(shù)數(shù)據(jù)據(jù)庫庫進(jìn)進(jìn)行行大大量量計(jì)計(jì)算算才才能能得得到到結(jié)結(jié)果果,,而而查查詢?cè)兊牡慕Y(jié)結(jié)果聯(lián)機(jī)機(jī)分分析析處處理理((OLAP)OLAP是一一種種軟軟件件技技術(shù)術(shù),,他他使使分分析析人人員員能能夠夠迅迅速速、、一一致致、、交交互互地地從從各各個(gè)個(gè)方方面面觀觀察察信信息息,,以以達(dá)達(dá)到到深深入入理理解解數(shù)數(shù)據(jù)據(jù)的的目目的的,,這這些些信信息息是是從從原原始始數(shù)數(shù)據(jù)據(jù)直直接接轉(zhuǎn)轉(zhuǎn)換換過過來來的的,,他他們們以以用用戶戶容容易易理理解解的的方方式式反反映映企企業(yè)業(yè)的的真真實(shí)實(shí)情情況況。。OLAP大部部分分策策略略都都是是將將關(guān)關(guān)系系型型的的或或普普通通的的數(shù)數(shù)據(jù)據(jù)進(jìn)進(jìn)行行多多維維數(shù)數(shù)據(jù)據(jù)存存貯貯,,以以便便于于進(jìn)進(jìn)行行分分析析,,從從而而達(dá)達(dá)到到聯(lián)聯(lián)機(jī)機(jī)分分析析處處理理的的目目的的。。這這種種多多維維DB也被被看看作作一一個(gè)個(gè)超超立立方方體體,,沿沿著著各各個(gè)個(gè)維維方方向向存存貯貯數(shù)數(shù)據(jù)據(jù),,它它允允許許用用戶戶沿沿事事物物的的軸軸線線方方便便地地分分析析數(shù)數(shù)據(jù)據(jù),,與與主主流流業(yè)業(yè)務(wù)務(wù)型型用用戶戶相相關(guān)關(guān)的的分分析析形形式式一一般般有有切切片片和和切切塊塊以以及及下下鉆鉆、、挖挖掘掘等等操操作作。。共共享享多多維維信信息息的的快快速速分分析析。。OLAP特性(1)快速性:用戶對(duì)OLAP的快速反應(yīng)能能力有很高的的要求。系統(tǒng)統(tǒng)應(yīng)能在5秒內(nèi)對(duì)用戶的的大部分分析析要求做出反反應(yīng)。(2)可分析性:OLAP系統(tǒng)應(yīng)能處理理與應(yīng)用有關(guān)關(guān)的任何邏輯輯分析和統(tǒng)計(jì)計(jì)分析。(3)多維性:多維性是OLAP的關(guān)鍵屬性。。系統(tǒng)必須提提供對(duì)數(shù)據(jù)的的多維視圖和和分析,包括對(duì)層次維維和多重層次次維的完全支支持。。(4)信息性:不論數(shù)據(jù)量有有多大,也不不管數(shù)據(jù)存儲(chǔ)儲(chǔ)在何處,OLAP系統(tǒng)應(yīng)能及時(shí)時(shí)獲得信息,,并且管理大大容量信息。。OLTPvsOLAP
OLTP細(xì)節(jié)的綜合的或派生的當(dāng)前的歷史的可更新不可更新需求事先可知道需求事先不知道符合系統(tǒng)生命周期完全不同的生命周期對(duì)性能要求高對(duì)性能要求相對(duì)寬松事務(wù)驅(qū)動(dòng)數(shù)據(jù)驅(qū)動(dòng)面向應(yīng)用面向分析一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常事務(wù)支持管理需求
OLAPOLAP的多多維數(shù)據(jù)概念念多維結(jié)構(gòu)是決決策支持的支支柱,也是OLAP的核心。OLAP展現(xiàn)在用戶面面前的是一幅幅幅多維視圖圖。維是人們觀察察問題的特定定角度,例如如:時(shí)間維、、地理維、產(chǎn)產(chǎn)品維。假定某某是個(gè)個(gè)百貨零售商商,有一些因因素會(huì)影響他他的銷售業(yè)務(wù)務(wù),如商品、、時(shí)間、商店店或流通渠道道,更具體一一點(diǎn),如品牌牌、月份、地地區(qū)等。對(duì)某某一給定的商商品,也許他他想知道該商商品在哪個(gè)商商店和哪段時(shí)時(shí)間的銷售情情況。對(duì)某一一商店,也許許他想知道哪哪個(gè)商品在哪哪段時(shí)間的銷銷售情況。在在某一時(shí)間,,也許他想知知道哪個(gè)商店店哪種產(chǎn)品的的銷售情況。。因此,他需需要決策支持持來幫助制定定銷售政策。。這里,商店、、時(shí)間和產(chǎn)品品都是維。各各個(gè)商店的集集合是一維,,時(shí)間的集合合是一維,商商品的集合是是一維。維就就是相同類數(shù)數(shù)據(jù)的集合,,也可以理解解為變量。而而每個(gè)商店、、每段時(shí)間、、每種商品都都是某一維的的一個(gè)成員。。每個(gè)銷售事事實(shí)由一個(gè)特特定的商店、、特定的時(shí)間間和特定的商商品組成。OLAP的多多維數(shù)據(jù)概念念維有自己固有有的屬性,如如層次結(jié)構(gòu)((對(duì)數(shù)據(jù)進(jìn)行行聚合分析時(shí)時(shí)要用到)、、排序(定義義變量時(shí)要用用到)、計(jì)算算邏輯(是基基于矩陣的算算法,可有效效地指定規(guī)則則)。這些屬屬性對(duì)進(jìn)行決決策支持是非非常有用的。。維層次——人們?cè)谟^察數(shù)數(shù)據(jù)的某個(gè)特特定角度(即某個(gè)維)還可以存在細(xì)細(xì)節(jié)程度不同同的多個(gè)描述述方面,我們們稱這多個(gè)描描述方面為維維的層次。例例時(shí)間維::日期,月份份,季度,年年不同層次。。維成員——維的一個(gè)取值值成為該維的的一個(gè)維成員員。如果維已已經(jīng)分成了多多層次的,則則維成員就是是不同維層次次取值的組合合。例如:某某公司銷售數(shù)數(shù)據(jù)在省、市市、縣,地理理維有三個(gè)層層次,則“山山東省日照市市五蓮縣”就就構(gòu)成地理維維的一個(gè)維成成員。維成員員并不一定要要在維的每一一個(gè)層次上都都取值,例如如:山東省,,山東省日照照市,日照市市五蓮縣都是是地理維的維維成員。OLAP的多多維數(shù)據(jù)概念念多維數(shù)據(jù)集——數(shù)據(jù)立方體或或超立方。多多維數(shù)據(jù)集是是決策支持的的支柱,也是是OLAP的核心。數(shù)據(jù)據(jù)倉庫的數(shù)據(jù)據(jù)隊(duì)以多位數(shù)數(shù)據(jù)的形式存存儲(chǔ)。多維數(shù)數(shù)據(jù)集可以用用一個(gè)多維數(shù)數(shù)組表示。多多維數(shù)據(jù)集的的形式化表示示:(維1,維2,...,維維n,觀察變量))。人們很容易理理解一個(gè)二維維表(如通常的電子子表格),對(duì)于三維立立方體同樣也也容易理解。。OLAP通常將三維立立方體的數(shù)據(jù)據(jù)進(jìn)行切片,,顯示三維的的某一平面。。如一個(gè)立方方體有時(shí)間維維、商品維、、收入維,其其圖形很容易易在屏幕上顯顯示出來并進(jìn)進(jìn)行切片。但是要加一維維(如加入商商店維),則則圖形很難想想象,也不容容易在屏幕上上畫出來。要要突破三維的的障礙,就必必須理解邏輯輯維和物理維維的差異。OLAP的多維分析視視圖就是沖破破了物理的三三維概念,采采用了旋轉(zhuǎn)、、嵌套、切片片、鉆取和高高維可視化技技術(shù),在屏幕幕上展示多維維視圖的結(jié)構(gòu)構(gòu),使用戶直直觀地理解、、分析數(shù)據(jù),,進(jìn)行決策支支持。OLAP的多多維數(shù)據(jù)概念念OLAP的多多維數(shù)據(jù)概念念數(shù)據(jù)單元。多多維數(shù)據(jù)集的的取值稱為數(shù)數(shù)據(jù)單元。當(dāng)在多維數(shù)據(jù)據(jù)集的每個(gè)維維都選中一個(gè)個(gè)維成員以后后,這些維成成員的組合就就惟一確定了了觀察變量的的值。數(shù)據(jù)單元也就就可以表示為為:(維1維成員,維2維成員,維3維成員,觀察察變量)。OLAP的多多維數(shù)據(jù)概念念多維數(shù)據(jù)集的的度量值(測測量值)。多多維數(shù)據(jù)集集的度量值是是基于多維數(shù)數(shù)據(jù)集中事實(shí)實(shí)表的一列或或多列,數(shù)值值型數(shù)字。多維數(shù)據(jù)集的的度量值是OLAP分析的核心值值,是用戶在在DW中需要要查看看的數(shù)數(shù)據(jù),,一般般是銷銷售量量、成成本、、費(fèi)用用等。。OLAP多維數(shù)數(shù)據(jù)分分析1.切片和和切塊塊(SliceandDice)在多維維數(shù)據(jù)據(jù)結(jié)構(gòu)構(gòu)中,按二維維進(jìn)行行切片片,按三維維進(jìn)行行切塊塊,可得到到所需需要的的數(shù)據(jù)據(jù)。如如在““城市市、產(chǎn)產(chǎn)品、、時(shí)間間”三三維立立方體體中進(jìn)進(jìn)行切切塊和和切片片,可得到到各城城市、、各產(chǎn)產(chǎn)品的的銷售售情況況。2.鉆取(Drill)鉆取包包含向向下鉆鉆取(Drill-down)和向上上鉆取取(Drill-up)/上卷(Roll-up)操作,,鉆鉆取的的深度度與維維所劃劃分的的層次次相對(duì)對(duì)應(yīng)。。3.旋轉(zhuǎn)(Rotate)/轉(zhuǎn)軸(Pivot)通過旋旋轉(zhuǎn)可可以得得到不不同視視角的的數(shù)據(jù)據(jù)。OLAP的分析析方法法(一一)切切片、、切塊塊OLAP的的分析析方法法(二二)鉆鉆取按時(shí)間間維向向下鉆鉆取按時(shí)間間維向向上鉆鉆取60OLAP的的分析析方法法(三三)旋旋轉(zhuǎn)OLAP分類按照存儲(chǔ)方式OLAPMOLAPHOLAPROLAP按照處理地點(diǎn)ClientOLAPServerOLAPServervsClientOLAPServerOLAP多維數(shù)數(shù)據(jù)存存儲(chǔ)于于OLAP服務(wù)器器,客客戶提提出請(qǐng)請(qǐng)求,,服務(wù)務(wù)器做做出響響應(yīng)。。部分分分析工工具廠廠家建建議把把部分分?jǐn)?shù)據(jù)據(jù)下載載到本本地,,為用用戶提提供本本地的的多維維分析析。代代表產(chǎn)產(chǎn)品有有BrioDesigner,BusinessObject。OLAP存儲(chǔ)方方式OLAP有多種種實(shí)現(xiàn)現(xiàn)方法法,根根據(jù)存存儲(chǔ)數(shù)數(shù)據(jù)的的方式式不同同可以以分為為ROLAP、MOLAP、HOLAP。ROLAP表示基基于關(guān)關(guān)系數(shù)數(shù)據(jù)庫庫的OLAP實(shí)現(xiàn)((RelationalOLAP)。以以關(guān)系系數(shù)據(jù)據(jù)庫為為核心心,以關(guān)系系型結(jié)結(jié)構(gòu)進(jìn)進(jìn)行多多維數(shù)數(shù)據(jù)的的表示示和存存儲(chǔ)。。ROLAP將多維維數(shù)據(jù)據(jù)庫的的多維維結(jié)構(gòu)構(gòu)劃分分為兩兩類表表:一類是是事實(shí)實(shí)表,用來存存儲(chǔ)數(shù)數(shù)據(jù)和和維關(guān)關(guān)鍵字字;另一類類是維維表,即對(duì)每每個(gè)維維至少少使用用一個(gè)個(gè)表來來存放放維的的層次次、成成員類類別等等維的的描述述信息息。維維表和和事實(shí)實(shí)表通通過主主關(guān)鍵鍵字和和外關(guān)關(guān)鍵字字聯(lián)系系在一一起,形成了了“星星型模模式””。對(duì)對(duì)于層層次復(fù)復(fù)雜的的維,為避免免冗余余數(shù)據(jù)據(jù)占用用過大大的存存儲(chǔ)空空間,可以使使用多多個(gè)表表來描描述,這種星星模式式的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 4 田家四季歌 教學(xué)設(shè)計(jì)-2024-2025學(xué)年統(tǒng)編版語文二年級(jí)上冊(cè)
- 服裝定制行業(yè)個(gè)性化定制設(shè)計(jì)與生產(chǎn)管理方案
- 2024年五年級(jí)數(shù)學(xué)上冊(cè) 八 用字母表示數(shù)第1課時(shí) 用含有字母的式子表示簡單的數(shù)量、數(shù)量關(guān)系和計(jì)算公式教學(xué)實(shí)錄 蘇教版
- 5 協(xié)商決定班級(jí)事務(wù) 教學(xué)設(shè)計(jì)-2023-2024學(xué)年道德與法治五年級(jí)上冊(cè)統(tǒng)編版
- 2024-2025學(xué)年高中化學(xué)下學(xué)期第二周教學(xué)實(shí)錄
- 2024-2025學(xué)年高中歷史 第四單元 中國特色社會(huì)主義建設(shè)的道路 第11課 經(jīng)濟(jì)建設(shè)的發(fā)展和曲折新課教學(xué)實(shí)錄3 新人教版必修2
- 2024-2025學(xué)年高中歷史 專題八 當(dāng)今世界經(jīng)濟(jì)的全球化趨勢(shì) 三 經(jīng)濟(jì)全球化的世界(3)教學(xué)教學(xué)實(shí)錄 人民版必修2
- 2024-2025學(xué)年高中地理 第一章 環(huán)境與環(huán)境問題 1.2 環(huán)境問題的產(chǎn)生及其危害教學(xué)實(shí)錄 中圖版選修6
- 2023九年級(jí)數(shù)學(xué)下冊(cè) 第24章 圓24.3 圓周角第1課時(shí) 圓周角定理及其推論教學(xué)實(shí)錄 (新版)滬科版
- 某縣重點(diǎn)河段綜合治理工程施工組織設(shè)計(jì)
- 2025年煤礦從業(yè)人員安全培訓(xùn)考試題庫
- 四年級(jí)數(shù)學(xué)(四則混合運(yùn)算帶括號(hào))計(jì)算題專項(xiàng)練習(xí)與答案
- 成人肥胖食養(yǎng)指南(2024年版)
- 《安徽省數(shù)字孿生流域(工程)項(xiàng)目 初步設(shè)計(jì)報(bào)告編制大綱》
- 壓鑄車間生產(chǎn)管理制度(4篇)
- 《商務(wù)溝通-策略、方法與案例》課件 第七章 自我溝通
- 2024解析:第十二章機(jī)械效率-基礎(chǔ)練(解析版)
- 國家電網(wǎng)招聘考試試題及答案
- 2024年度5G基站建設(shè)材料采購合同3篇
- 危險(xiǎn)化學(xué)品目錄(2024版)
- Unit 2 Special Days(說課稿)2023-2024學(xué)年人教新起點(diǎn)版英語五年級(jí)下冊(cè)
評(píng)論
0/150
提交評(píng)論