數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)-李春葆)_第1頁
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)-李春葆)_第2頁
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)-李春葆)_第3頁
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)-李春葆)_第4頁
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)(武漢大學(xué)-李春葆)_第5頁
已閱讀5頁,還剩101頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第2章

數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)數(shù)據(jù)倉庫庫-數(shù)據(jù)據(jù)挖掘的的有效平平臺(tái)。數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)清理理和數(shù)據(jù)據(jù)集成,,是數(shù)據(jù)據(jù)挖掘的的重要數(shù)數(shù)據(jù)預(yù)處處理步驟驟。數(shù)據(jù)倉庫庫提供OLAP工具,可可用于不不同粒度度的數(shù)據(jù)據(jù)分析。。很多數(shù)據(jù)據(jù)挖掘功功能都可可以和OLAP操作集成成,以提提供不同同概念層層上的知知識(shí)發(fā)現(xiàn)現(xiàn)。分類預(yù)測關(guān)聯(lián)聚集2.1什么是數(shù)數(shù)據(jù)倉庫庫20世紀(jì)80年代中期期,“數(shù)數(shù)據(jù)倉庫庫”這個(gè)個(gè)名詞首首次出現(xiàn)現(xiàn)在號(hào)稱稱“數(shù)據(jù)據(jù)倉庫之之父”W.H..Inmon的《BuildingDataWarehouse》》一書中。。在該書中中,W.H..Inmon把數(shù)據(jù)倉倉庫定義義為“一個(gè)面向向主題的的、集成成的、穩(wěn)穩(wěn)定的、、隨時(shí)間間變化的的數(shù)據(jù)的的集合,,以用于于支持管管理決策策過程”。2.1..1數(shù)據(jù)倉庫庫的定義義數(shù)據(jù)倉庫庫還有許許多不同同的定義義,如::“數(shù)據(jù)倉庫庫是融合合方法、、技術(shù)和和工具以以在完整整的平臺(tái)臺(tái)上將數(shù)數(shù)據(jù)提交交給終端端用戶的的一種手手段”?!皵?shù)據(jù)倉庫庫是對(duì)分分布在企企業(yè)內(nèi)部部各處的的業(yè)務(wù)數(shù)數(shù)據(jù)的整整合、加加工和分分析的過過程”。“數(shù)據(jù)倉庫庫是一種種具有集集成性、、穩(wěn)定性性和提供供決策支支持的處處理”?!盀椴樵兒秃头治觯ǎú皇鞘率聞?wù)處理理)而設(shè)設(shè)計(jì)的關(guān)關(guān)系數(shù)據(jù)據(jù)庫”在眾多的的數(shù)據(jù)倉倉庫定義義中,公公認(rèn)的仍仍然是W.H..Inmon的定義,,該定義義指出了了數(shù)據(jù)倉倉庫面向主題題、集成成、穩(wěn)定定、隨時(shí)時(shí)間變化化這4個(gè)最重要要的特征征。(1)面向主主題主題就是在一一個(gè)較高高的管理理層次上上對(duì)信息息系統(tǒng)的的數(shù)據(jù)按按照某一一具體的的管理對(duì)對(duì)象進(jìn)行行綜合、、歸類所所形成的的分析對(duì)對(duì)象。如顧客、、供應(yīng)商商、產(chǎn)品品和銷售售組織等等。從數(shù)據(jù)組組織的角角度看,,主題是一一些數(shù)據(jù)據(jù)集合,這些數(shù)數(shù)據(jù)集合合對(duì)分析析對(duì)象作作了比較較完整的的、一致致的描述述,這種種描述不不僅涉及及到數(shù)據(jù)據(jù)自身,,而且涉涉及到數(shù)數(shù)據(jù)之間間的關(guān)系系。面向主題題的數(shù)據(jù)據(jù)組織方方式,就就是在較較高層次次上對(duì)分分析對(duì)象象的數(shù)據(jù)據(jù)的一個(gè)個(gè)完整、、一致的的描述,,能完整整、統(tǒng)一一地刻畫畫各個(gè)分分析對(duì)象象所涉及及的企業(yè)業(yè)的各項(xiàng)項(xiàng)數(shù)據(jù),,以及數(shù)數(shù)據(jù)之間間的聯(lián)系系。(2)集成數(shù)據(jù)倉庫庫中存儲(chǔ)儲(chǔ)的數(shù)據(jù)據(jù)一般從從企業(yè)原原來已建建立的數(shù)數(shù)據(jù)庫系系統(tǒng)中提提取出來來,但并并不是原原有數(shù)據(jù)據(jù)的簡單單拷貝,,而是經(jīng)經(jīng)過了抽取、篩篩選、清清理、綜綜合等工作。。這是因因?yàn)椋?)原有有數(shù)據(jù)庫庫系統(tǒng)記記錄的是是每一項(xiàng)項(xiàng)業(yè)務(wù)處處理的流流水帳,,這些數(shù)數(shù)據(jù)不適適合于分分析處理理。在進(jìn)進(jìn)入數(shù)據(jù)據(jù)倉庫之之前必須須經(jīng)過綜綜合、計(jì)計(jì)算,同同時(shí)拋棄棄一些分分析處理理不需要要的數(shù)據(jù)據(jù)項(xiàng),必必要時(shí)還還要增加加一些可可能涉及及的外部部數(shù)據(jù)。。2)數(shù)據(jù)據(jù)倉庫每每一個(gè)主主題所對(duì)對(duì)應(yīng)的源源數(shù)據(jù)在在源分散散數(shù)據(jù)庫庫中有許許多重復(fù)復(fù)或不一一致之處處,必須須將這些些數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換成全全局統(tǒng)一一的定義義,消除除不一致致和錯(cuò)誤誤之處,,以保證證數(shù)據(jù)的的質(zhì)量;;顯然,,對(duì)不準(zhǔn)準(zhǔn)確,甚甚至不正正確的數(shù)數(shù)據(jù)分析析得出的的結(jié)果將將不能用用于指導(dǎo)導(dǎo)企業(yè)做做出科學(xué)學(xué)的決策策。3)源數(shù)數(shù)據(jù)加載載到數(shù)據(jù)據(jù)倉庫后后,還要要根據(jù)決決策分析析的需要要對(duì)這些些數(shù)據(jù)進(jìn)進(jìn)行概括括、聚集集處理。。(3)穩(wěn)定性性即非易易失的業(yè)務(wù)系統(tǒng)統(tǒng)的數(shù)據(jù)據(jù)庫中一一般只存存儲(chǔ)短期期數(shù)據(jù),,因此在在數(shù)據(jù)庫庫系統(tǒng)中中數(shù)據(jù)是是不穩(wěn)定定的,它它記錄的的是系統(tǒng)統(tǒng)中數(shù)據(jù)據(jù)變化的的瞬態(tài)。。但對(duì)于決決策分析析而言,,歷史數(shù)數(shù)據(jù)是相相當(dāng)重要要的,許許多分析析方法必必須以大大量的歷歷史數(shù)據(jù)據(jù)為依托托。沒有有大量歷歷史數(shù)據(jù)據(jù)的支持持是難以以進(jìn)行企企業(yè)的決決策分析析的,因因此數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)大多多表示過過去某一一時(shí)刻的的數(shù)據(jù),主要用用于查詢?cè)儭⒎治鑫?,不像像業(yè)務(wù)系系統(tǒng)中的的數(shù)據(jù)庫庫那樣,,要經(jīng)常常進(jìn)行修修改、添添加,除除非數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)是錯(cuò)誤誤的。(4)隨時(shí)間間而變化化即時(shí)變變的數(shù)據(jù)倉庫庫中數(shù)據(jù)據(jù)是批量量載入的的,是穩(wěn)穩(wěn)定的,,這使得得數(shù)據(jù)倉倉庫中的的數(shù)據(jù)總總是擁有有時(shí)間維維度。從這個(gè)角角度,數(shù)據(jù)倉庫庫實(shí)際是是記錄了了系統(tǒng)的的各個(gè)瞬瞬態(tài),并通過過將各個(gè)個(gè)瞬態(tài)連連接起來來形成動(dòng)動(dòng)畫,從從而在數(shù)數(shù)據(jù)分析析的時(shí)候候再現(xiàn)系系統(tǒng)運(yùn)動(dòng)動(dòng)的全過過程。數(shù)數(shù)據(jù)批量量載入((提?。┑闹芷谄趯?shí)際上上決定了了動(dòng)畫間間隔的時(shí)時(shí)間,數(shù)數(shù)據(jù)提取取的周期期短,則則動(dòng)畫的的速度快快。2.1..2數(shù)據(jù)倉庫庫與操作作數(shù)據(jù)庫庫系統(tǒng)的的區(qū)別操作數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)的主要要任務(wù)是是聯(lián)機(jī)事事務(wù)處理理OLTP日常操作作:購買,庫庫存,銀銀行,制制造,工工資,注注冊(cè),記記帳等。。數(shù)據(jù)倉庫庫的主要要任務(wù)是是聯(lián)機(jī)分分析處理理OLAP數(shù)據(jù)分析析和決策策支持,,支持以以不同的的形式顯顯示數(shù)據(jù)據(jù)以滿足足不同的的用戶需需要。OLTP和OLAP的比較((1/3)用戶和系系統(tǒng)的面面向性面向顧客客(事務(wù)務(wù))面向市場場(分析析)。數(shù)據(jù)內(nèi)容容當(dāng)前的、、詳細(xì)的的數(shù)據(jù)歷史的、、匯總的的數(shù)據(jù)。。數(shù)據(jù)庫設(shè)設(shè)計(jì)實(shí)體-聯(lián)聯(lián)系模型型(ER)和面向向應(yīng)用的的數(shù)據(jù)庫庫設(shè)計(jì)星型/雪花模型型和面向向主題的的數(shù)據(jù)庫庫設(shè)計(jì)。。OLTP和OLAP的比較((2)數(shù)據(jù)視圖圖當(dāng)前的、、企業(yè)內(nèi)內(nèi)部的數(shù)數(shù)據(jù)經(jīng)過演化化的、集集成的數(shù)數(shù)據(jù)。訪問模式式事務(wù)操作作只讀查詢?cè)儯ǖ芎芏嗍菑?fù)復(fù)雜的查查詢)任務(wù)單位位簡短的事事務(wù)復(fù)雜的查查詢。訪問數(shù)據(jù)據(jù)量數(shù)十個(gè)數(shù)百萬個(gè)個(gè)。OLTP和OLAP的比較((3)用戶數(shù)數(shù)千個(gè)數(shù)百個(gè)。。數(shù)據(jù)庫規(guī)規(guī)模100M~數(shù)GB100GB~數(shù)TB。設(shè)計(jì)優(yōu)先先性高性能、、高可用用性高靈活性性、端點(diǎn)點(diǎn)用戶自自治。度量事務(wù)吞吐吐量查詢吞吐吐量、響響應(yīng)時(shí)間間。2.1..3為什么需需要一個(gè)個(gè)分離的的數(shù)據(jù)倉倉庫?提高兩個(gè)個(gè)系統(tǒng)的的性能DBMS是為OLTP而設(shè)計(jì)的的:存儲(chǔ)儲(chǔ)方式、、索引、、并發(fā)控制制和恢復(fù)。數(shù)據(jù)倉庫庫是為OLAP而設(shè)計(jì)::復(fù)雜的的OLAP查詢、多多維視視圖和匯匯總。不同的功功能和不不同的數(shù)數(shù)據(jù):歷史數(shù)據(jù)據(jù):決策策支持需需要?dú)v史史數(shù)據(jù),,而這些些數(shù)據(jù)在在操作數(shù)數(shù)據(jù)庫中中一般不不會(huì)去維維護(hù)。數(shù)據(jù)匯總總:決策策支持需需要將來來自異種種源的數(shù)數(shù)據(jù)統(tǒng)一一(如聚聚集和匯匯總)。。數(shù)據(jù)質(zhì)量量:不同同的源使使用不一一致的數(shù)數(shù)據(jù)表示示、編碼碼和格式式,對(duì)這這些數(shù)據(jù)據(jù)進(jìn)行有有效的分分析需要要將他們們轉(zhuǎn)化后后進(jìn)行集集成。2.1..4數(shù)據(jù)倉庫庫中的關(guān)關(guān)鍵名詞詞1.ETL(Extract/Transformation/Load)—數(shù)據(jù)抽取取、轉(zhuǎn)換換、加載載工具ETL工具就是是進(jìn)行數(shù)數(shù)據(jù)的抽抽取、轉(zhuǎn)轉(zhuǎn)換和加加載工具具。(1)數(shù)據(jù)提提取(DataExtract)從業(yè)務(wù)數(shù)數(shù)據(jù)庫只只需提取取出系統(tǒng)統(tǒng)分析必必需的那那一部分分?jǐn)?shù)據(jù)。。例如,,某超市市確定以以分析客客戶的購購買行為為為主題題建立數(shù)數(shù)據(jù)倉庫庫,則我我們只需需將與客客戶購買買行為相相關(guān)的數(shù)數(shù)據(jù)提取取出來,,而超市市服務(wù)員員工的數(shù)數(shù)據(jù)就沒沒有必要要放進(jìn)數(shù)數(shù)據(jù)倉庫庫?,F(xiàn)有的數(shù)數(shù)據(jù)倉庫庫產(chǎn)品幾幾乎都提提供各種種關(guān)系型型數(shù)據(jù)接接口,提提供提取取引擎,,從關(guān)系系型數(shù)據(jù)據(jù)中提取取數(shù)據(jù)。。(2)數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換(DataTransform)由于業(yè)務(wù)務(wù)系統(tǒng)可可能使用用不同的的數(shù)據(jù)庫庫廠商的的產(chǎn)品,,比如IBMDB2、Oracle、Informix、Sybase、NCRTeradata、SQLServer等,各種種數(shù)據(jù)庫庫產(chǎn)品提提供的數(shù)數(shù)據(jù)類型型可能不不同,因因此需要要將不同同格式的的數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換成統(tǒng)統(tǒng)一的數(shù)數(shù)據(jù)格式式。如時(shí)時(shí)間格式式“年/月/日”,““月/日/年”、““日-月-年”的不不一致問問題等。。(3)數(shù)據(jù)清清洗(DataClean)所謂“清清洗”就就是將錯(cuò)錯(cuò)誤的、、不一致致的數(shù)據(jù)據(jù)在進(jìn)入入數(shù)據(jù)倉倉庫之前前予以更更正或刪刪除,以以免影響響決策支支持系統(tǒng)統(tǒng)決策的的正確性性。(4)數(shù)據(jù)據(jù)加載((DataLoad)數(shù)據(jù)加載載部件負(fù)負(fù)責(zé)將數(shù)數(shù)據(jù)按照照物理數(shù)數(shù)據(jù)模型型定義的的表結(jié)構(gòu)構(gòu)裝入數(shù)數(shù)據(jù)倉庫庫,包括括清空數(shù)數(shù)據(jù)域、、填充空空格、有有效性檢檢查等步步驟。2.元數(shù)據(jù)((MetaData)“什么是是元數(shù)據(jù)據(jù)?”元元數(shù)據(jù)是是描述數(shù)據(jù)據(jù)的數(shù)據(jù)據(jù)。在數(shù)據(jù)倉倉庫中,,元數(shù)據(jù)據(jù)是定義義數(shù)據(jù)倉倉庫對(duì)象象的數(shù)據(jù)據(jù)。元數(shù)數(shù)據(jù)包括括相應(yīng)數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)名和定定義、數(shù)數(shù)據(jù)提取取操作時(shí)時(shí)被提取取數(shù)據(jù)的的時(shí)間和和地點(diǎn)以以及數(shù)據(jù)據(jù)清理或或數(shù)據(jù)集集成過程程添加的的字段等等。它提提供了有有關(guān)數(shù)據(jù)據(jù)的環(huán)境境,用于于構(gòu)造、、維持、、管理、、和使用用數(shù)據(jù)倉倉庫,在在數(shù)據(jù)倉倉庫中尤尤為重要要。CREATETABLEstudent{noint;namechar((10));sexchar(2);classchar(8));}nonamesexclass1張三男1301…………數(shù)據(jù)數(shù)據(jù)的數(shù)數(shù)據(jù):元元數(shù)據(jù)3.數(shù)據(jù)集市市(DataMarket)數(shù)據(jù)倉庫庫中存放放的是整整個(gè)企業(yè)業(yè)的信息息,并且且數(shù)據(jù)是是按照不不同主題題來組織織的。比比如市場場發(fā)展規(guī)規(guī)律的分分析主題題主要由由市場部部門的人人員使用用,我們們可以在在邏輯上上或者物物理上將將這部分分?jǐn)?shù)據(jù)分分離出來來,當(dāng)市市場部門門人員需需要信息息時(shí),不不需要到到數(shù)據(jù)倉倉庫的巨巨量數(shù)據(jù)據(jù)中檢索索,而只只需在相相應(yīng)的部部門數(shù)據(jù)據(jù)上進(jìn)行行分析,,因此從從效率和和處理速速度的角角度出發(fā)發(fā),這種種劃分是是合算的的。這種面向向企業(yè)中中的某個(gè)個(gè)部門((主題))而在邏輯上上或物理理上劃分分出來的的數(shù)據(jù)倉倉庫中的的數(shù)據(jù)子子集稱為數(shù)據(jù)集市市。換句話話說,數(shù)數(shù)據(jù)集市市包含了了用于特特殊目的的數(shù)據(jù)倉倉庫的部部分?jǐn)?shù)據(jù)據(jù)。數(shù)據(jù)倉庫庫面向整整個(gè)企業(yè)業(yè),而數(shù)數(shù)據(jù)集市市則是面面向企業(yè)業(yè)中的某某個(gè)部門門。典型型示例是是銷售部部門、庫庫存和發(fā)發(fā)貨部門門、財(cái)務(wù)務(wù)部門和和高級(jí)管管理部門門等的數(shù)數(shù)據(jù)集市市。數(shù)據(jù)據(jù)倉庫中中存放了了企業(yè)的的整體信信息,而而數(shù)據(jù)集集市只存存放了某某個(gè)主題題需要的的信息,,其目的的是減少少數(shù)據(jù)處處理量,,使信息息的利用用更快捷捷、靈活活。4.OLAPOLAP(On-lineAnalyticalProcessing,在線分分析處理理或聯(lián)機(jī)機(jī)分析處處理)就就是一個(gè)個(gè)應(yīng)用廣廣泛的數(shù)數(shù)據(jù)倉庫庫使用技技術(shù)。它可以根根據(jù)分析析人員的的要求,,迅速靈靈活地對(duì)對(duì)大量的的數(shù)據(jù)進(jìn)進(jìn)行復(fù)雜雜的查詢?cè)兲幚?,,并以直直觀的容容易理解解的形式式將查詢?cè)兘Y(jié)果提提供給各各種決策策人員,,使他們們能夠迅迅速準(zhǔn)確確地掌握握企業(yè)的的運(yùn)營情情況,了了解市場場的需求求。2.2多維數(shù)據(jù)據(jù)模型2.2..1由表到數(shù)數(shù)據(jù)立方方體數(shù)據(jù)倉庫庫和OLAP工具基于于多維數(shù)數(shù)據(jù)模型型。在多維數(shù)數(shù)據(jù)模型型中,數(shù)數(shù)據(jù)以數(shù)數(shù)據(jù)立方方體(datacube)的形式式存在。。數(shù)據(jù)立方方體允許許以多維維數(shù)據(jù)建建模和觀觀察。它它由維和和事實(shí)定定義。維是人們們觀察數(shù)數(shù)據(jù)的特特定角度度,是考考慮問題題時(shí)的一一類屬性性。屬性性的集合合構(gòu)成一一個(gè)維((如時(shí)間間維、機(jī)機(jī)構(gòu)維等等)。維分層::同一維維度還可可以在細(xì)細(xì)節(jié)程度度不同的的各個(gè)描描述方面面(如時(shí)時(shí)間維可可包含年年、季度度、月份份和日期期等)。。維屬性::維的一一個(gè)取值值,是數(shù)數(shù)據(jù)項(xiàng)在在某維中中位置的的描述((如2013年11月2日在時(shí)間間維上位位置的描描述)。每個(gè)維都都有一個(gè)個(gè)表與之之相關(guān)聯(lián)聯(lián),稱為為維表。。一個(gè)數(shù)據(jù)據(jù)立方體體:多維數(shù)據(jù)據(jù)模型圍圍繞中心心主題組組織,該該主題用用事實(shí)表表表示。事實(shí)表包包括事實(shí)實(shí)的名稱稱或度量量以及每每個(gè)相關(guān)關(guān)維表的的關(guān)鍵字字。事實(shí)指的的是一些些數(shù)字度度量。學(xué)生課程分?jǐn)?shù)100120018910022002831005200490┇┇┇學(xué)號(hào)姓名班號(hào)1張三1201┇┇┇學(xué)生1001┇課程編號(hào)名稱20011C++┇┇┇學(xué)生維表表成績事實(shí)實(shí)表課程維表表OLTP系統(tǒng)是為為了快速速回答簡簡單查詢?cè)?,而不不是為了了存?chǔ)分分析趨勢勢的歷史史數(shù)據(jù)而而創(chuàng)建的的。一般般的OLTP提供了大大量的原原始數(shù)據(jù)據(jù),這些些數(shù)據(jù)不不易被分分析。查詢某人人買房記記錄。查詢某房房的價(jià)值值。…一個(gè)英國國房屋銷銷售系統(tǒng)統(tǒng):兩個(gè)系統(tǒng)統(tǒng)數(shù)據(jù)組組織模式式比較示示例1來源于事事務(wù)型的的數(shù)據(jù)庫庫,如采采用關(guān)系系型數(shù)據(jù)據(jù)庫進(jìn)行行數(shù)據(jù)存存儲(chǔ)數(shù)據(jù)倉庫庫需要回回答更復(fù)復(fù)雜的查查詢,而而不僅僅僅是一些些像“英英國主要要城市的的商品平平均銷售售價(jià)格是是多少””之類的的簡單聚聚集數(shù)據(jù)據(jù)查詢。。數(shù)據(jù)倉庫庫需要回回答的查查詢類型型可以是是簡單的的查詢,,也可以以是高度復(fù)雜雜的,且還還與終端端用戶使使用的查查詢工具具相關(guān)。。2008年第三季季度,整整個(gè)英格格蘭的總總收入是是多少??2007年英國每每一類房房產(chǎn)銷售售的總收收入是多多少?2008年租借房房產(chǎn)業(yè)務(wù)務(wù)中每個(gè)個(gè)城市哪哪個(gè)地域域最受歡歡迎?與與過去的的兩年相相比有何何不同??每個(gè)分支支機(jī)構(gòu)本本月的房房產(chǎn)銷售售月收入入是多少少,并與與剛過去去的12個(gè)月相比比較。如果對(duì)于于10萬英鎊以以上的房房產(chǎn),法法定價(jià)格格上升3.5%%而政府稅稅收下降降1.5%%,對(duì)英國國不同區(qū)區(qū)域的銷銷售會(huì)產(chǎn)產(chǎn)生什么么影響??在英國主主要城市市中,哪哪種類型型的房產(chǎn)產(chǎn)銷售價(jià)價(jià)格高于于平均房房產(chǎn)銷售售價(jià)格??這與人人口統(tǒng)計(jì)計(jì)數(shù)據(jù)有有何聯(lián)系系?英國房屋屋銷售數(shù)數(shù)據(jù)倉庫庫系統(tǒng)::來源于已已處理的的或匯總總的數(shù)據(jù)據(jù),要預(yù)預(yù)先采用用數(shù)據(jù)結(jié)結(jié)構(gòu)如多多維模型型存放這這些匯總總的數(shù)據(jù)據(jù)。

兩個(gè)系統(tǒng)統(tǒng)數(shù)據(jù)組組織模式式比較示示例2數(shù)據(jù)庫系系統(tǒng)面向“商商品”、、“供應(yīng)應(yīng)商”和和“顧客客”的數(shù)數(shù)據(jù)倉庫庫系統(tǒng)商品數(shù)據(jù)倉庫結(jié)構(gòu)供應(yīng)商數(shù)據(jù)倉庫結(jié)構(gòu)顧客數(shù)據(jù)倉庫結(jié)構(gòu)來源于的的前面的的多個(gè)表表的數(shù)據(jù)據(jù)從上述實(shí)實(shí)例,不不難看出出:在從面向向應(yīng)用到到面向主主題的轉(zhuǎn)轉(zhuǎn)變過程程中,丟丟棄了原原來有的的但不必必要的、、不適于于分析的的信息;;在原有的的數(shù)據(jù)庫庫模式中中,有關(guān)關(guān)商品的的信息分分散在各各個(gè)子系系統(tǒng)之中中;面向向主題的的數(shù)據(jù)組組織方式式所強(qiáng)調(diào)調(diào)的就是是要形成成關(guān)于主主題一致致的信息息集合;;不同主題題之間有有重疊內(nèi)內(nèi)容。2.2..2多維數(shù)據(jù)據(jù)模型

time_keydayday__of__the_weekmonthquarteryeartime維表location_keystreetcitystate_or_provincecountrylocation維表Sales事實(shí)表time_keyitem_keybranch__keylocation_keyunits_solddollars_solditem_keyitem_namebrandtypesupplier_typeitem維表branch__keybranch__namebranch__typebranch維表數(shù)據(jù)倉庫庫:事實(shí)實(shí)表+維維表度量在數(shù)據(jù)倉倉庫中,,數(shù)據(jù)立立方體是是n-D的(n維)(關(guān)系表表和電子子表格是是幾維的的?)多維數(shù)據(jù)據(jù)模型為為不同角角度上的的數(shù)據(jù)建建模和觀觀察提供供了一個(gè)個(gè)良好的的基礎(chǔ)。。示例AllElectronics的銷售數(shù)數(shù)據(jù)按維維time,item的2-D視圖。location=““Vancouver“(溫哥華))item(類型)time(季度)家庭娛樂樂計(jì)算機(jī)電電話安安全Q160582514400Q268095231512Q3812102330501Q4927103838580AllElectronics的銷售數(shù)數(shù)據(jù)按維維time,item和location的3-D視圖。location=“Chicage”itemtime家庭娛樂樂計(jì)算算機(jī)電電話安安全Q185488289623Q294389064698Q3103292459789Q4112999263870location=““NewYork”itemtime家庭娛樂樂計(jì)算算機(jī)電電話安安全Q1108796838623Q294389064698Q3103292459789Q4112999263870...AllElectronics的銷售數(shù)數(shù)據(jù)按維維time、item和location的3-D視圖的3-D數(shù)據(jù)立方方體表示示。銷售數(shù)據(jù)據(jù)的4-D立方體表表示。4維分別是是time、item、location和supplier。一個(gè)n維的數(shù)據(jù)據(jù)的立方方體叫做做基本立方方體。給定一個(gè)個(gè)維的集集合,我我們可以以構(gòu)造一一個(gè)立方方體的格格,每個(gè)個(gè)都在不不同的匯匯總級(jí)或或不同的的數(shù)據(jù)子子集顯示示數(shù)據(jù),,立方體體的格稱稱為數(shù)據(jù)立方方體。0維立方體體存放最最高層的的匯總,,稱作頂頂點(diǎn)立方方體;而而存放最最底層匯匯總的立立方體則則稱為基基本立方方體。數(shù)據(jù)立方方體格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,,locationtime,item,,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0維-頂點(diǎn)點(diǎn)立方體體1維-立方方體2維-立方方體3維-立方方體4維-基本本立方體體i-1維立方體體i維立方體體上卷下鉆i越大,數(shù)數(shù)據(jù)越細(xì)細(xì)2.2..3數(shù)據(jù)倉庫庫的概念念模型最流行的的數(shù)據(jù)倉倉庫概念念模型是是多維數(shù)數(shù)據(jù)模型型。這種種模型可可以以星星型模式式、雪花花模式、、或事實(shí)實(shí)星座模模式的形形式存在在。星型模式式(Starschema):事實(shí)表在在中心,,周圍圍圍繞地連連接著維維表(每每維一個(gè)個(gè)),事事實(shí)表含含有大量量數(shù)據(jù),,沒有冗冗余。1.星型模式式星型模式式實(shí)例

time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationsales事實(shí)表time_keyitem_keybranch__keylocation_keyunits_solddollars_solditem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch維表度量維表維表維表雪花模式式(Snowflakeschema):是星型模模式的變變種,其其中某些些維表是是規(guī)范化化的,因因而把數(shù)數(shù)據(jù)進(jìn)一一步分解解到附加加表中。。結(jié)果,,模式圖圖形成類類似于雪雪花的形形狀。2.雪花模式式雪花模式式實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationsales事實(shí)表time_keyitem_keybranch__keylocation_keyunits_solddollars_solditem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity星型模式式雪花模式式維表規(guī)格格化維表度量維表維表維表維表維表事實(shí)星座座(Factconstellations):多個(gè)事實(shí)實(shí)表共享享維表,這種模式式可以看看作星型型模式集集,因此此稱為星星系模式式(galaxyschema),或者者事實(shí)星星座(factconstellation)。2.事實(shí)星座座模式事實(shí)星座座模式實(shí)實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationsales事實(shí)表time_keyitem_keybranch__keylocation_keyunits_solddollars_solditem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch航運(yùn)事實(shí)實(shí)表time_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper星型/雪花模式式事實(shí)模式式多個(gè)事實(shí)實(shí)表共享享維表度量維表維表維表維表維表2.2..4一種數(shù)據(jù)據(jù)倉庫查查詢語言言:DMQLDMQL首先包括括定義數(shù)數(shù)據(jù)倉庫庫和數(shù)據(jù)據(jù)集市的的語言原原語,這這包括兩兩種原語語定義::一種是是立方體體定義,,一種是是維定義義立方體定定義((事實(shí)表表)definecube<<cube_name>[[<dimension_list>]::<<measure__list>維定義((維表表)definedimension<dimension__name>as(<attribute__or__subdimension_list>)實(shí)例:使使用DMQL定義星型型模式definecubesales_star[time,item,branch,,location]:dollars_sold==sum((sales__in__dollars),avg__sales=avg((sales__in__dollars),units_sold=count((*)definedimensiontimeas((time_key,day,day_of_week,,month,quarter,year)definedimensionitemas(item_key,item__name,brand,,type,,supplier_type)definedimensionbranchas(branch__key,branch_name,branch__type)definedimensionlocationas(location_key,street,city,province__or__state,,country))星型模式式實(shí)例

time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationsales事實(shí)表time_keyitem_keybranch__keylocation_keyunits_solddollars_solditem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch維表度量實(shí)例:使使用DMQL定義雪花花模式definecubesales_snowflake[[time,,item,,branch,location]]:dollars_sold==sum(sales_in_dollars),avg__sales=avg(sales_in_dollars),units_sold==count(*)definedimensiontimeas(time_key,day,day_of_week,,month,quarter,year)definedimensionitemas(item_key,item__name,brand,,type,,supplier(supplier_key,supplier_type))definedimensionbranchas(branch__key,branch_name,branch__type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country))雪花模式式實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationsales事實(shí)表time_keyitem_keybranch__keylocation_keyunits_solddollars_solditem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity星型模式式雪花模式式維表規(guī)格格化維表度量實(shí)例:使使用DMQL定義事實(shí)實(shí)星座模模式definecubesales[[time,item,branch,location]::dollars_sold==sum(sales_in_dollars),avg__sales=avg(sales_in_dollars),units_sold==count(*)definedimensiontimeas(time_key,day,day_of_week,,month,quarter,year)definedimensionitemas(item_key,item__name,brand,,type,,supplier_type)definedimensionbranchas(branch__key,branch_name,branch__type)definedimensionlocationas(location_key,street,city,province__or__state,,country)definecubeshipping[[time,item,shipper,from_location,to__location]]:dollar__cost==sum(cost_in_dollars),unit__shipped==count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesalesdefinedimensionshipperas(shipper_key,shipper__name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales事實(shí)星座座模式實(shí)實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationsales事實(shí)表time_keyitem_keybranch__keylocation_keyunits_solddollars_solditem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch航運(yùn)事實(shí)實(shí)表time_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper星型/雪花模式式事實(shí)模式式多個(gè)事實(shí)實(shí)表共享享維表維表度量2.2..5度量的分分類一個(gè)數(shù)據(jù)據(jù)立方體體的度量量是一個(gè)個(gè)數(shù)值函數(shù)數(shù),該函數(shù)數(shù)可以對(duì)對(duì)數(shù)據(jù)立立方體的的每一個(gè)個(gè)點(diǎn)求值值。度量可以以根據(jù)其其所用的的聚集函函數(shù)分為為三類::分布的::將函數(shù)數(shù)用于n個(gè)聚集值值得到的的結(jié)果和和將函數(shù)數(shù)用于所所有數(shù)據(jù)據(jù)得到的的結(jié)果一一樣。比如:count()),sum((),min((),max(()等代數(shù)的::函數(shù)可可以由一一個(gè)帶M個(gè)參數(shù)的的代數(shù)函函數(shù)計(jì)算算(M為有界整整數(shù)),,而每個(gè)個(gè)參數(shù)值值都可以以由一個(gè)個(gè)分布的的聚集函函數(shù)求得得。比如:avg(),min__N(),standard_deviation()整體的::描述函函數(shù)的子子聚集所所需的存存儲(chǔ)沒有有一個(gè)常常數(shù)界。。比如:median((),mode(),rank()2.2..6概念分層層一個(gè)概念分層層(concepthierarchy)定義一一個(gè)映射射序列,,將低層層概念映映射到更更一般的的高層概概念例如表示示location的概念::杭州浙江中國亞亞洲。概念分層層允許我我們?cè)诟鞲鞣N抽象象級(jí)審查查和處理理數(shù)據(jù)。。概念分層層可以由由系統(tǒng)用用戶、領(lǐng)領(lǐng)域?qū)<壹?、知識(shí)識(shí)工程師師人工地地提供,,也可以以根據(jù)數(shù)數(shù)據(jù)分布布的統(tǒng)計(jì)計(jì)分析自自動(dòng)地產(chǎn)產(chǎn)生。概念分層層:location維的一個(gè)個(gè)概念分分層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity許多概念念分層的的定義隱隱含在數(shù)數(shù)據(jù)庫的的模式中中。比如如:location維的定義義,office<<city<country<region;這些屬性性按一一個(gè)全序序相關(guān),,形成一一個(gè)層次次結(jié)構(gòu)::yeardayquartermonthweek維的屬性性也可以以組成一一個(gè)偏序序,形成成一個(gè)格格:price屬性上的的概念分分層概念層次次是一個(gè)個(gè)偏序集集(H,<),其其中,H是概念的的一個(gè)有有限集,,<是關(guān)關(guān)于H的一個(gè)偏偏序。年月季度日星期概念分層層——使用概念分層層為不同同級(jí)別上上的數(shù)據(jù)據(jù)匯總提提供了一一個(gè)良好好的基礎(chǔ)礎(chǔ)綜合概念念分層和和多維數(shù)數(shù)據(jù)模型型的潛力力,可以以對(duì)數(shù)據(jù)據(jù)獲得更更深入的的洞察力力通過在多多維數(shù)據(jù)據(jù)模型中中,在不不同的維維上定義義概念分分層,使使得用戶戶在不同同的維上上從不同同的層次次對(duì)數(shù)據(jù)據(jù)進(jìn)行觀觀察成為為可能。。多維數(shù)據(jù)據(jù)模型((數(shù)據(jù)立立方體))使得從從不同的的角度對(duì)對(duì)數(shù)據(jù)進(jìn)進(jìn)行觀察察成為可可能,而而概念分分層則提提供了從從不同層層次對(duì)數(shù)數(shù)據(jù)進(jìn)行行觀察的的能力;;結(jié)合這這兩者的的特征,,我們可可以在多多維數(shù)據(jù)據(jù)模型上上定義各各種OLAP操作,為為用戶從從不同角角度不同同層次觀觀察數(shù)據(jù)據(jù)提供了了靈活性性。2.2..7多維數(shù)據(jù)據(jù)模型上上的OLAP操作上卷(roll-up):匯總總數(shù)據(jù)通過一個(gè)個(gè)維的概概念分層層向上攀攀升或者者通過維維歸約。。當(dāng)用維歸歸約進(jìn)行行上卷時(shí)時(shí),一個(gè)個(gè)或多個(gè)個(gè)維由給給定的數(shù)數(shù)據(jù)立方方體刪除除。示例:OLAP操作-上上卷在location上卷(由由cities到countries匯總)下鉆(drill-down):上卷卷的逆操操作由不太詳詳細(xì)的數(shù)數(shù)據(jù)到更更詳細(xì)的的數(shù)據(jù),,可以通通過沿維維的概念念分層向向下或引引入新的的維來實(shí)實(shí)現(xiàn)((為給定定數(shù)據(jù)添添加更多多細(xì)節(jié)))。示例:OLAP操作-下下鉆在time下鉆((由quarters到months細(xì)化)切片和切切塊(sliceanddice)切片操作作在給定定的數(shù)據(jù)據(jù)立方體體的一個(gè)維上進(jìn)行選選擇,導(dǎo)導(dǎo)致一個(gè)個(gè)子方切切塊操作作通過對(duì)對(duì)兩個(gè)或或多個(gè)維維進(jìn)行選選擇,定定義子方方。切塊操作作在給定定的數(shù)據(jù)據(jù)立方體體的多個(gè)維上進(jìn)行選選擇,導(dǎo)導(dǎo)致一個(gè)個(gè)子方切切塊操作作通過對(duì)對(duì)兩個(gè)或或多個(gè)維維進(jìn)行選選擇,定定義子方方。示例:OLAP操作-切切片切片條件件:time==“Q2”示例:OLAP操作-切塊切塊條件件:(location=““Montreal””or“Vancouver””)and(time=“Q1”or““Q2”)and(item=“homeentertainment””or“computer”)轉(zhuǎn)軸(pivot)立方體的的重定位位,可視視化,或或?qū)⒁粋€(gè)個(gè)3維立方體體轉(zhuǎn)化為為一個(gè)2維平面序序列。轉(zhuǎn)軸是一一種可視視化操作作,通過過轉(zhuǎn)動(dòng)當(dāng)當(dāng)前數(shù)據(jù)據(jù)的視圖圖來提供供一個(gè)數(shù)數(shù)據(jù)的替替代表示示。示例:OLAP操作-轉(zhuǎn)轉(zhuǎn)軸轉(zhuǎn)軸其他OLAP操作鉆過(drill_across):執(zhí)行行涉及多多個(gè)事實(shí)實(shí)表的查查詢。鉆透(drill_through):使用用關(guān)系SQL機(jī)制,鉆鉆到數(shù)據(jù)據(jù)立方體體的底層層,到后后端關(guān)系系表。其他OLAP操作可能能包括列列出表中中最高或或最低的的N項(xiàng),以及及計(jì)算移移動(dòng)平均均值、增增長率、、利潤、、統(tǒng)計(jì)函函數(shù)等等等。2.3數(shù)據(jù)倉庫庫的系統(tǒng)統(tǒng)結(jié)構(gòu)2.3..1數(shù)據(jù)倉庫庫的設(shè)計(jì)計(jì)步驟和和結(jié)構(gòu)設(shè)計(jì)和構(gòu)構(gòu)造數(shù)據(jù)據(jù)倉庫、、三層數(shù)數(shù)據(jù)倉庫庫結(jié)構(gòu)。。介紹中小小型數(shù)據(jù)據(jù)倉庫的的一般設(shè)設(shè)計(jì)方法法。數(shù)據(jù)倉庫庫給商業(yè)業(yè)分析專專家提供供了什么么?通過提供供相關(guān)數(shù)數(shù)據(jù)與信信息,獲獲得競爭爭優(yōu)勢。。通過有效效地收集集精確地地描述組組織的數(shù)數(shù)據(jù),獲獲得生產(chǎn)產(chǎn)力的提提高。通過提供供不同級(jí)級(jí)別(部部門、市市場、商商業(yè))的的客戶視視圖,協(xié)協(xié)助客戶戶關(guān)系管管理。通過追蹤蹤長期趨趨勢、異異常等,,降低成成本。有效構(gòu)建建數(shù)據(jù)倉倉庫的關(guān)關(guān)鍵:理理解和分分析商業(yè)業(yè)需求通過提供供一個(gè)商商業(yè)分析析框架,,綜合各各種不同同的數(shù)據(jù)據(jù)使用者者的視圖圖。1.數(shù)據(jù)倉庫庫設(shè)計(jì)::一個(gè)商商務(wù)分析析框架數(shù)據(jù)倉庫庫設(shè)計(jì)的的四種視視圖自頂向下下視圖允許我們們選擇數(shù)數(shù)據(jù)倉庫庫所需的的相關(guān)信信息。數(shù)據(jù)源視視圖揭示被操操作數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)所捕獲獲、存儲(chǔ)儲(chǔ)和管理理的信息息。數(shù)據(jù)倉庫庫視圖由事實(shí)表表和維表表所組成成。商務(wù)查詢?cè)円晥D從最終用用戶的角角度透視視數(shù)據(jù)倉倉庫中的的數(shù)據(jù)。。2.數(shù)據(jù)倉庫庫的設(shè)計(jì)計(jì)過程自頂向下下法、自自底向上上法或者者兩者的的混合方方法自頂向下下法:由由總體設(shè)設(shè)計(jì)和規(guī)規(guī)劃開始始在技術(shù)成成熟、商商業(yè)理解解透徹的的情況下下使用。。自底向上上法:以以實(shí)驗(yàn)和和原型開開始常用在模模型和技技術(shù)開發(fā)發(fā)的初期期,可以以有效的的對(duì)使用用的技術(shù)術(shù)和模型型進(jìn)行評(píng)評(píng)估,降降低風(fēng)險(xiǎn)險(xiǎn)。混合方法法:上述述兩者的的結(jié)合從軟件工工程的觀觀點(diǎn)瀑布式方方法:在在進(jìn)行下下一步前前,每一一步都進(jìn)進(jìn)行結(jié)構(gòu)構(gòu)化和系系統(tǒng)的分分析。螺旋式方方法:功功能漸增增的系統(tǒng)統(tǒng)的快速速產(chǎn)生,,相繼版版本之間間間隔很很短。典型的數(shù)數(shù)據(jù)倉庫庫設(shè)計(jì)過過程選取待建建模的商商務(wù)過程程找到所構(gòu)構(gòu)建的數(shù)數(shù)據(jù)倉庫庫的主題題,比如如:銷售售、貨運(yùn)運(yùn)、訂單單等等。。選取商務(wù)務(wù)過程的的顆粒度度數(shù)據(jù)起始始于多細(xì)細(xì)的顆粒粒度,比比如,記記錄每條條詳細(xì)訂訂單,或或是開始始于每日日的匯總總數(shù)據(jù)。。選取用于于每個(gè)事事實(shí)表記記錄的維維常用的維維有:時(shí)時(shí)間、貨貨物、客客戶、供供應(yīng)商等等。選取將安安放在事事實(shí)表中中的度量量常用的數(shù)數(shù)字度量量包括::售價(jià)、、貨物數(shù)數(shù)量等。。2.3..2三層數(shù)據(jù)據(jù)倉庫架架構(gòu)數(shù)據(jù)倉庫庫提取清理轉(zhuǎn)換裝入刷新OLAP服務(wù)器查詢報(bào)告告分析數(shù)據(jù)挖掘掘監(jiān)控、整合元數(shù)據(jù)存儲(chǔ)數(shù)據(jù)源前端工具具輸出數(shù)據(jù)集市市操作數(shù)據(jù)庫其他外部信息源數(shù)據(jù)倉庫庫服務(wù)器器OLAP服務(wù)器底層中中間層前前端端層底層:數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)庫服務(wù)務(wù)器關(guān)注的問問題:如如何從這這一層提提取數(shù)據(jù)據(jù)來構(gòu)建建數(shù)據(jù)倉倉庫(通通過網(wǎng)關(guān)關(guān)(ODBC,JDBC,,OLE/DB等)來提提?。?。。中間層::OLAP服務(wù)器關(guān)注的問問題:OLAP服務(wù)器如如何實(shí)施施(關(guān)系系型OLAP,多維OLAP等)。前端客戶戶工具層層關(guān)注的問問題:查查詢工具具、報(bào)表表工具、、分析工工具、挖挖掘工具具等。從體系結(jié)結(jié)構(gòu)的角角度去看看,數(shù)據(jù)據(jù)倉庫模模型有以以下三種種:企業(yè)倉庫庫搜集關(guān)于于跨越整整個(gè)組織織的主題題的所有有信息。。數(shù)據(jù)集市市企業(yè)范圍圍數(shù)據(jù)的的一個(gè)子子集,對(duì)對(duì)于特定定的客戶戶是有用用的。其其范圍限限于選定定的主題題,比如如一個(gè)商商場的數(shù)數(shù)據(jù)集市市。獨(dú)立的數(shù)數(shù)據(jù)集市市VS.非獨(dú)立的的數(shù)據(jù)集集市(數(shù)數(shù)據(jù)來自自于企業(yè)業(yè)數(shù)據(jù)倉倉庫)。。虛擬倉庫庫操作數(shù)據(jù)據(jù)庫上的的一系列列視圖。。只有一些些可能的的匯總視視圖被物物化。數(shù)據(jù)倉庫庫開發(fā)上上的困難難自頂向下下的開發(fā)發(fā)方法從從全系統(tǒng)統(tǒng)的角度度提供解解決方案案,使得得(模塊塊)集成成的問題題最??;;但是該該方法十十分昂貴貴,需要要對(duì)組織織進(jìn)行長長期研究究和建模模分析。。自底向上上方法提提供了更更多的開開發(fā)靈活活性,價(jià)價(jià)格便宜宜;但往往往會(huì)遇遇到集成成問題((每個(gè)模模塊單獨(dú)獨(dú)運(yùn)行都都沒有問問題,但但是一集集成就出出異常))。解決方法法使用遞增增性、演演化性的的開發(fā)方方法高層數(shù)據(jù)據(jù)模型企業(yè)倉庫庫和數(shù)據(jù)據(jù)集市并并行開發(fā)發(fā)通過分布布式模型型集成各各數(shù)據(jù)集集市多層數(shù)據(jù)據(jù)倉庫。。2.3..3OLAP服務(wù)器類類型邏輯上,,OLAP服務(wù)器從從數(shù)據(jù)倉倉庫或數(shù)數(shù)據(jù)集市市中給商商業(yè)用戶戶提供多多維數(shù)據(jù)據(jù)物理上,,OLAP的底層數(shù)數(shù)據(jù)存儲(chǔ)儲(chǔ)實(shí)現(xiàn)可可以有多多種不同同的方式式關(guān)系OLAP服務(wù)器((ROLAP)使用關(guān)系系數(shù)據(jù)庫庫或擴(kuò)展展的關(guān)系系數(shù)據(jù)庫庫存放并并管理數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù),而用用OLAP中間件支支持其余余部分。。包括每個(gè)個(gè)DBMS后端優(yōu)化化,聚集集導(dǎo)航邏邏輯的實(shí)實(shí)現(xiàn),附附加的工工具和服服務(wù)。較大的可可擴(kuò)展性性。多維OLAP服務(wù)器((MOLAP)基于數(shù)組組的多維維存儲(chǔ)引引擎(稀稀疏矩陣陣技術(shù)))。能對(duì)預(yù)計(jì)計(jì)算的匯匯總數(shù)據(jù)據(jù)快速索索引?;旌螼LAP服務(wù)器((HOLAP)結(jié)合上述述兩種技技術(shù),更更大的使使用靈活活性。特殊的SQL服務(wù)器在星型和和雪花模模型上支支持SQL查詢。2.4數(shù)據(jù)倉庫庫的實(shí)現(xiàn)現(xiàn)數(shù)據(jù)倉庫庫中的OLAP查詢是一一種海量量數(shù)據(jù)計(jì)計(jì)算((想象一一下對(duì)過過去10年各地區(qū)區(qū)的軟件件產(chǎn)品銷銷售的匯匯總查詢?cè)儯┯脩魠s希希望這個(gè)個(gè)計(jì)算能能在數(shù)秒秒鐘內(nèi)完完成解決方法法在于給給出一種種有效的的計(jì)算數(shù)數(shù)據(jù)立方方體的方方法匯總的數(shù)數(shù)據(jù)立方方體可以以被看成成是一個(gè)個(gè)立方體體的格最底層的的立方體體是基本本立方體體最頂端的的立方體體(頂點(diǎn)點(diǎn))只包包含一個(gè)個(gè)單元的的值一個(gè)n維的數(shù)據(jù)據(jù)立方體體,每維維Li層,可能能產(chǎn)生的的立方體體總數(shù)是是多少??2.4..1數(shù)據(jù)立方方體的有有效計(jì)算算1表示原始始數(shù)據(jù)即即all層編號(hào)日期商品地區(qū)數(shù)量12011.5.10長虹電視機(jī)南京市…122011.5.20美的微波爐上海市…232011.6.2……142011.6.10……252011.7.12……362011.8.18……2……………事實(shí)表((可看成成是基本本立方體體):一個(gè)立方方體是某某種匯總總的結(jié)果果地區(qū)維((上卷到到省市))日期維((上卷到到季度))商品維((上卷到到商品類類別)一個(gè)立方方體(3維)立方體是是OLAP的基礎(chǔ)。。例如::對(duì)比江蘇蘇和上海海在2010二季度的的日用品品銷售情情況當(dāng)上述立立方體存存在時(shí),,其計(jì)算算過程就就非??炜?。(商品))(地區(qū)))()(日期))(地區(qū),商品)(地區(qū),日期)(商品,日期)(地區(qū),商品,日期)當(dāng)Li=1時(shí)(沒有有概念分分層),,T=2n這里有8個(gè)立方體體。立方體格格:則立方體體總數(shù)T=(4++1)××(3++1)××(2++1)==60個(gè)盡管立方方體可以以提高OLAP的效率,,但事先先產(chǎn)生所所有的立立方體是是不現(xiàn)實(shí)實(shí)的。年月季度日假設(shè)日期期:4層假設(shè)地區(qū)區(qū):假設(shè)商品品:商品大類類商品小類類省市縣3層2層數(shù)據(jù)立方方體的物物化數(shù)據(jù)立方方體的物物化可以以有以下下三種選選擇:全物化預(yù)先計(jì)算算所有立立方體。。對(duì)于n維數(shù)據(jù)立立方體,,可能產(chǎn)產(chǎn)生的立立方體總總數(shù)是T=(L1+1)((L2+1)……(Ln+1),Li表示維i的層次數(shù)數(shù),例如如,n=10,每維10層,則立立方體總總數(shù)約為為9800000個(gè)。日用品涉涉及的立立方體例:求2010一季度的的日用品品通常,這這種選擇擇需要海海

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論