BI技術(shù)白皮書

上傳人：灰*** IP屬地：寧夏上傳時間：2021-06-26 格式：DOC 頁數(shù)：20 大?。?06.50KB 積分：10.8 舉報 版權(quán)申訴

已閱讀5頁，還剩15頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、商業(yè)智能技術(shù)白皮書第一章、第一章、數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)倉庫技術(shù).1 一、一、數(shù)據(jù)倉庫的背景和歷史數(shù)據(jù)倉庫的背景和歷史.1 二、什么是數(shù)據(jù)倉庫二、什么是數(shù)據(jù)倉庫.1 三、三、數(shù)據(jù)倉庫的組織結(jié)構(gòu)數(shù)據(jù)倉庫的組織結(jié)構(gòu).2 3.1、數(shù)據(jù)倉庫的邏輯及物理結(jié)構(gòu).2 3.2、數(shù)據(jù)倉庫系統(tǒng).2 四、四、數(shù)據(jù)倉庫的物理存儲形式數(shù)據(jù)倉庫的物理存儲形式.3 4.1、基于關(guān)系數(shù)據(jù)庫的存儲形式、基于關(guān)系數(shù)據(jù)庫的存儲形式.3 4.2、多維數(shù)據(jù)庫存儲形式、多維數(shù)據(jù)庫存儲形式.4 4.3、虛擬存儲方式、虛擬存儲方式.5 4.4、幾種存儲形式的比較、幾種存儲形式的比較.5 五、數(shù)據(jù)集市.5 5.1、數(shù)據(jù)集市的產(chǎn)生數(shù)據(jù)集市的產(chǎn)生

2、.5 5.2、數(shù)據(jù)集市的概念數(shù)據(jù)集市的概念.5 5.3、數(shù)據(jù)集市的特征數(shù)據(jù)集市的特征.5 六、數(shù)據(jù)抽取、轉(zhuǎn)換、清洗（六、數(shù)據(jù)抽取、轉(zhuǎn)換、清洗（etl）.6 6.1、etl的重要性及概念的重要性及概念.6 6.2 etl階段的問題階段的問題.6 第二章、第二章、聯(lián)機分析技術(shù)聯(lián)機分析技術(shù)(olap).8 一、什么是一、什么是 olap.8 1.1 、olap的起源的起源.8 1.2 、olap的概念的概念.8 1.3、olap的分類的分類.8 二、二、olap 的多維數(shù)據(jù)結(jié)構(gòu)的多維數(shù)據(jù)結(jié)構(gòu).9 2.1、olap的多維數(shù)據(jù)數(shù)據(jù)概念的多維數(shù)據(jù)數(shù)據(jù)概念.9 2.2、olap的多維數(shù)據(jù)結(jié)構(gòu)的多維數(shù)據(jù)結(jié)

3、構(gòu).9 三、三、olap 的特點的特點.11 四、olap 的功能.11 第三章、第三章、數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù).12 一、什么是數(shù)據(jù)挖掘一、什么是數(shù)據(jù)挖掘.12 二、數(shù)據(jù)挖掘的步驟二、數(shù)據(jù)挖掘的步驟.13 三、數(shù)據(jù)挖掘的模式三、數(shù)據(jù)挖掘的模式.13 四、數(shù)據(jù)挖掘的方法四、數(shù)據(jù)挖掘的方法.14 第四章、各種技術(shù)的結(jié)合第四章、各種技術(shù)的結(jié)合.16 數(shù)據(jù)數(shù)據(jù)倉庫倉庫技技術(shù)術(shù) 一、一、數(shù)據(jù)倉庫的背景和歷史數(shù)據(jù)倉庫的背景和歷史隨著計算機技術(shù)的迅速發(fā)展,信息處理技術(shù)也得到了長足的發(fā)展。計算機系統(tǒng)的功能從數(shù)值計算擴展到信息管理距今已有三十多年了，從 70 年代中期的 mis 系統(tǒng)發(fā)展到現(xiàn)代的數(shù)據(jù)倉庫

4、(data warehouse)技術(shù)，用辯證的眼光來看，實際上是信息管理的一種回歸，是螺旋式的上升。二十多年來，大量新技術(shù)、新思路涌現(xiàn)出來并被用于關(guān)系數(shù)據(jù)庫系統(tǒng)的開發(fā)和實現(xiàn)，使得關(guān)系數(shù) 據(jù)庫系統(tǒng)的處理能力毫不遜色于傳統(tǒng)封閉的數(shù)據(jù)庫系統(tǒng), sql 的使用更使這一切成為不可阻擋的潮流，加上近些年來計算機硬件的處理能力呈數(shù)量級的遞增，關(guān)系數(shù)據(jù)庫最終成為聯(lián)機事務(wù)處理系統(tǒng)的主宰。整個 80 年代直到 90 年代初，聯(lián)機事務(wù)處理一直是數(shù)據(jù)庫應(yīng)用的主流。然而，應(yīng)用在不斷地進步。當(dāng)聯(lián) 機事務(wù)處理系統(tǒng)應(yīng)用到一定階段的時候，企業(yè)家們便發(fā)現(xiàn)單靠擁有聯(lián)機事務(wù)處理系統(tǒng)已經(jīng)不足以獲得市場競爭的優(yōu)勢，他們需要對其自

5、身業(yè)務(wù)的運作以及整個市場相關(guān)行業(yè)的態(tài)勢進行分析，而做出有利的決策。這種決策需要對大量的業(yè)務(wù)數(shù)據(jù)包括歷史業(yè)務(wù)數(shù)據(jù)進行分析才能得到。在如今這樣激烈的市場競爭環(huán)境下，這種基于業(yè)務(wù)數(shù)據(jù)的決策分析我們把它稱之為聯(lián)機分析處理比以往任何時候都顯得更為重要。其實，將大量的業(yè)務(wù)數(shù)據(jù)應(yīng)用于分析和統(tǒng)計原本是一個非常簡單和自然的想法。但在實際的操作中，人們卻發(fā)現(xiàn)要獲得有用的信息并非如想像的那么容易：第一，所有聯(lián)機事務(wù)處理強調(diào)的是密集的數(shù) 據(jù)更新處理性能和系統(tǒng)的可靠性，并不關(guān)心數(shù)據(jù)查詢的方便與快捷。聯(lián)機分析和事務(wù)處理對系統(tǒng)的要求不同，同一個數(shù)據(jù)庫在理論上難以做到兩全；第二，業(yè)務(wù)數(shù)據(jù)往往被存放于分散的異構(gòu)環(huán)境

6、中，不易統(tǒng)一查詢訪問，而且還有大量的歷史數(shù)據(jù)處于脫機狀態(tài)，形同虛設(shè)；第三，業(yè)務(wù)數(shù)據(jù)的模式針對事務(wù)處理系統(tǒng)而設(shè)計，數(shù)據(jù)的格式和描述方式并不適合非計算機專業(yè)人員進行業(yè)務(wù)上的分析和統(tǒng)計。因此有人感嘆： 20 年前查詢不到數(shù)據(jù)是因為數(shù)據(jù)太少了，而今天查詢不到數(shù)據(jù)是因為數(shù)據(jù)太多了。針對這一問題，人們設(shè)想專門為業(yè)務(wù)的統(tǒng)計分析建立一個數(shù)據(jù)中心，它的數(shù)據(jù)從聯(lián)機的事務(wù)處理系統(tǒng)中來、從異構(gòu)的外部數(shù) 據(jù)源來、從脫機的歷史業(yè)務(wù)數(shù)據(jù)中來。這個數(shù)據(jù)中心是一個聯(lián)機的系統(tǒng)，它是專門為分析統(tǒng)計和決策支持應(yīng)用服務(wù)的，通過它可滿足決策支持和聯(lián)機分析應(yīng)用所要求的一切。這個數(shù)據(jù)中心就叫做數(shù)據(jù)倉庫。二、什么是數(shù)據(jù)倉庫二、什么

7、是數(shù)據(jù)倉庫數(shù)據(jù)倉庫的概念在 90 年代初被提出來，以 prism solutions 公司副總裁 w.h.inmon 在 1990 年出版的建立數(shù)據(jù)倉庫(building the data warehouse)一書為標(biāo)志。w. h. inmon 對數(shù)據(jù)倉庫的定義為：數(shù)據(jù)倉庫是支持管理決策過程的、面向主題的、集成的、穩(wěn)定的、不同時間的數(shù)據(jù)集合。這也就是說：數(shù)據(jù)倉庫就是一個作為決策支持系統(tǒng)和聯(lián)機分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫所要研究和解決的問題就是從數(shù)據(jù)庫中獲取信息的問題。主題是數(shù)據(jù)倉庫中數(shù)據(jù)歸類的標(biāo)準(zhǔn)，每個主題對應(yīng)一個客觀分析領(lǐng)域，如客戶、商店等，它可為輔助決策集成多個部

8、門不同系統(tǒng)的大量數(shù)據(jù)。數(shù)據(jù)倉庫包含了大量的歷史數(shù)據(jù)，經(jīng)集成后進入數(shù)據(jù)倉庫的數(shù)據(jù)是極少更新的。數(shù)據(jù)倉庫的集成特性是指在數(shù)據(jù)進入數(shù)據(jù)倉庫之前，必須經(jīng)過數(shù)據(jù)加工和集成，首先要統(tǒng)一原始數(shù) 據(jù)中的矛盾之處，還要將原始數(shù)據(jù)結(jié)構(gòu)做一個從面向應(yīng)用向面向主題的轉(zhuǎn)變。數(shù)據(jù)倉庫的穩(wěn)定性是指數(shù) 據(jù)經(jīng)加工和集成進入數(shù)據(jù)倉庫后是極少或根本不修改的。數(shù)據(jù)倉庫是不同時間的數(shù)據(jù)集合，它要求數(shù)據(jù) 倉庫中的數(shù)據(jù)保存時限能滿足進行決策分析的需要。從數(shù)據(jù)組織的角度來說，數(shù)據(jù)倉庫是存儲數(shù)據(jù)的一種組織形式，它從傳統(tǒng)數(shù)據(jù)庫中獲得原始數(shù)據(jù)，先按輔助決策的主題要求形成當(dāng)前基本數(shù)據(jù)層，再按綜合決策的要求形成綜合數(shù)據(jù)層（又可分為輕度綜合層

9、和高度綜合層）。其最根本的特點是物理地存放數(shù)據(jù)，但這些數(shù)據(jù)并不是最新的、專有的，而是來源于其它數(shù)據(jù)庫。數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時限為 5 年至 10 年，主要用于進行時間趨勢分析。數(shù)據(jù)倉庫的數(shù)據(jù)量很大，一般為 10gb 左右。它是一般數(shù)據(jù)庫（100mb）數(shù)據(jù)量的 100 倍，大型數(shù)據(jù)倉庫達到 tb 級。三、三、數(shù)據(jù)倉庫的組織結(jié)構(gòu)數(shù)據(jù)倉庫的組織結(jié)構(gòu) 3.1、數(shù)據(jù)倉庫的邏輯及物理結(jié)構(gòu) 數(shù)據(jù)倉庫作為存儲數(shù)據(jù)的一種組織形式，隨著時間的推移，數(shù)據(jù)倉庫的時間控制機制將當(dāng)前基本數(shù)據(jù)層轉(zhuǎn)為歷史數(shù)據(jù)層?？梢姅?shù)據(jù)倉庫中邏輯結(jié)構(gòu)數(shù)據(jù)由 3 層到 4 層數(shù)據(jù)組成，它們均由元數(shù)據(jù) （meta data）組織而成。數(shù)據(jù)

10、倉庫中數(shù)據(jù)的物理存儲形式有多維數(shù)據(jù)庫組織形式（空間超立方體形式）和基于關(guān)系數(shù)據(jù)庫組織形式（由關(guān)系型事實表和維表組成）。以下是數(shù)據(jù)倉庫的技術(shù)體系結(jié)構(gòu)圖 3.2、數(shù)據(jù)倉庫系統(tǒng) 數(shù)據(jù)倉庫系統(tǒng)（dws）由源數(shù)據(jù)、倉庫管理和分析工具三部分組成。如下圖：信息目錄模塊數(shù)據(jù)倉庫之元數(shù)據(jù) 數(shù)據(jù)管理員模塊數(shù)據(jù)倉庫之數(shù)據(jù) 數(shù)據(jù)獲取模塊數(shù)據(jù)傳遞模塊中間件模塊數(shù)據(jù)訪問模塊設(shè)計模塊管理模塊外部元數(shù)據(jù) 源數(shù)據(jù)外部數(shù)據(jù) 源數(shù)據(jù)源數(shù)據(jù)倉庫倉庫管理管理分析工具分析工具源數(shù)據(jù)：數(shù)據(jù)倉庫的數(shù)據(jù)來源于多個數(shù)據(jù)源，包括企業(yè)內(nèi)部數(shù)據(jù)、市場調(diào)查報告及各種文檔之類的外部數(shù)據(jù)。倉庫管理：在確定數(shù)據(jù)倉

11、庫信息需求后，首先進行數(shù)據(jù)建模，然后確定從源數(shù)據(jù)到數(shù)據(jù)倉庫的數(shù)據(jù)抽取、清理和轉(zhuǎn)換過程，最后劃分維數(shù)及確定數(shù)據(jù)倉庫的物理存儲結(jié)構(gòu)。元數(shù)據(jù)是數(shù)據(jù)倉庫的核心，它用于存儲數(shù)據(jù)模型和定義數(shù)據(jù)結(jié)構(gòu)、轉(zhuǎn)換規(guī)劃、倉庫結(jié)構(gòu)、控制信息等。倉庫管理包括對數(shù)據(jù)的安全、歸檔、備份、維護、恢復(fù)等工作，這些工作需要利用數(shù)據(jù)庫管理系統(tǒng)(dbms)的功能。分析工具：用于完成實際決策問題所需的各種查詢檢索工具、多維數(shù)據(jù)的 olap 分析工具、數(shù)據(jù)開采 dm 工具等，以實現(xiàn)決策支持系統(tǒng)的各種要求。四、四、數(shù)據(jù)倉庫的物理存儲形式數(shù)據(jù)倉庫的物理存儲形式數(shù)據(jù)倉庫中數(shù)據(jù)的物理存儲形式分為：基于關(guān)系數(shù)據(jù)庫存儲形式（由關(guān)系型事

12、實表和維表組成）、多維數(shù)據(jù)庫存儲形式（空間超立方體形式）和虛擬存儲形式。 4.1、基于關(guān)系數(shù)據(jù)、基于關(guān)系數(shù)據(jù)庫庫的存的存儲儲形式形式基于關(guān)系數(shù)據(jù)庫的存儲形式就是將多維數(shù)據(jù)庫的多維結(jié)構(gòu)劃分為兩類表：一類是事實表，用來存儲數(shù)據(jù)和維關(guān)鍵字；另一類是維表，即對每個維至少使用一個表來存放維的層次、成員類別等維的描述信息。維表和事實表通過主關(guān)鍵字和外關(guān)鍵字聯(lián)系在一起，形成“星型模式”。對于層次復(fù)雜的維，為避免冗余數(shù)據(jù)占用過大的存儲空間，可以使用多個表來描述，這種星型模式的擴展稱為“雪花模式”。星型模式(starschema)存在數(shù)據(jù)冗余、多維操作速度慢的缺點。但這種方式是主流方案，大多數(shù)數(shù)據(jù)

13、倉庫集成方案都采用這種形式。如下圖：星型模式星型模式雪花模式(snowflake schema)的優(yōu)點是：通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能。雪花模型增加了用戶必須處理的表數(shù)量，增加了某些查詢的復(fù)雜性。如下圖：雪花模型雪花模型 4.2、多、多維維數(shù)據(jù)數(shù)據(jù)庫庫存存儲儲形式形式多維數(shù)據(jù)庫（multidimesional database，mddb）存儲形式就是以多維的方式存儲數(shù)據(jù)，以多維的方式來顯示數(shù)據(jù)，即將數(shù)據(jù)存放在一個 n 維數(shù)組中，而不是像關(guān)系數(shù)據(jù)庫那樣以記錄的形式存放。 “維”是人們觀察客觀世界的角度，是一種高層次的類型劃分。 “維”一般包含著層次關(guān)

14、系。多維數(shù)據(jù)在存儲中將形成 “超立方塊（hypercube）”的結(jié)構(gòu)。超立方結(jié)構(gòu)有一種變形，即收縮超立方結(jié)構(gòu)。這種結(jié)構(gòu)的數(shù)據(jù)密度更大，數(shù)據(jù)的維數(shù)更少，并可加入額外的分析維。當(dāng)使用多維數(shù)據(jù)庫作為數(shù)據(jù)倉庫的基本數(shù)據(jù)存儲形式時，其最主要的特點是：大大減少了以維為基本框架的存儲空間，針對多維數(shù)據(jù)組織的操作算法，極大地提高了多維分析操作的效率。 4.3、虛、虛擬擬存存儲儲方式方式虛擬存儲方式是虛擬數(shù)據(jù)倉庫的數(shù)據(jù)組織形式。它沒有專門的數(shù)據(jù)倉庫來存儲數(shù)據(jù)，只是把指針存儲于中心位置，而數(shù)據(jù)仍然在源數(shù)據(jù)庫中，只是根據(jù)用戶的多維需求及形成的多維視圖，臨時在源數(shù)據(jù) 庫中找出所需要的數(shù)據(jù)，完成多維分析，數(shù)據(jù)

15、源可以被實時地組合、傳輸和顯示，而不必進行數(shù)據(jù)移動和復(fù)制，對于數(shù)據(jù)源也無須做任何改變。它讓用戶既能實時地看到歷史數(shù)據(jù)，同時也能實時地看到當(dāng)前數(shù)據(jù)，而不是像過去那樣只看到歷史數(shù)據(jù)。 4.4、幾種存、幾種存儲儲形式的比形式的比較較多維數(shù)據(jù)庫對多維概念表達清楚，占用的存儲空間較小，而且數(shù)據(jù)的綜合速度高，這些方面具有關(guān) 系數(shù)據(jù)庫無法比擬的優(yōu)勢，它也存在一些缺點：一是多維數(shù)據(jù)庫管理系統(tǒng)缺乏標(biāo)準(zhǔn)；另一個問題是多維數(shù)據(jù)庫管理大規(guī)模數(shù)據(jù)庫的能力不夠強大。基于關(guān)系數(shù)據(jù)庫的存儲形式，在靈活性和處理大規(guī)模數(shù)據(jù)的能力上完全可以滿足數(shù)據(jù)倉庫的需要。其不足在于數(shù)據(jù)庫中存放了大量的細(xì)節(jié)數(shù)據(jù)和相對較少的綜合數(shù)據(jù)，

16、需要以犧牲效率為代價動態(tài)地綜合數(shù)據(jù)。虛擬存儲形式雖然較簡單、花費少、使用靈活，但同時它也存在一個致命的缺點，即只有當(dāng)源數(shù)據(jù) 庫的數(shù)據(jù)組織比較規(guī)范、沒有數(shù)據(jù)不完備及冗余，同時又比較接近多維數(shù)據(jù)模型時，虛擬數(shù)據(jù)倉庫的多維語義層才容易定義，在實際中這種方式很難建立起有效的決策服務(wù)數(shù)據(jù)支持。由于多維數(shù)據(jù)庫管理系統(tǒng)及虛擬數(shù)據(jù)倉庫技術(shù)的相對不成熟，關(guān)系數(shù)據(jù)庫系統(tǒng)的廣泛應(yīng)用，目前在數(shù)據(jù)倉庫市場上基于關(guān)系數(shù)據(jù)庫的存儲形式占據(jù)著主流地位。五、數(shù)據(jù)集市 5.1、、數(shù)據(jù)集市的數(shù)據(jù)集市的產(chǎn)產(chǎn)生生數(shù)據(jù)倉庫的工作范圍和成本常常是巨大的。信息技術(shù)部門必須針對所有的用戶并以整個企業(yè)的眼光對待任何一次決策

17、分析。這樣就形成了代價很高、時間較長的大項目。因此更緊湊集成的、擁有完整圖形接口且價格更具吸引力的工具即數(shù)據(jù)集市（data marts）應(yīng)運而生。目前，全世界對數(shù)據(jù)倉庫總投資的一半以上均集中在數(shù)據(jù)集市上。 5.2、、數(shù)據(jù)集市的概念數(shù)據(jù)集市的概念數(shù)據(jù)集市是一種更小、更集中的數(shù)據(jù)倉庫，是為企業(yè)提供分析商業(yè)數(shù)據(jù)的一條廉價途徑。它是具有特定應(yīng)用的數(shù)據(jù)倉庫，主要針對某個具有戰(zhàn)略意義的應(yīng)用或具體部門級的應(yīng)用，它支持客戶利用已有的數(shù)據(jù)獲得重要的競爭優(yōu)勢或找到進入新市場的解決方案。 5.3、、數(shù)據(jù)集市的特征數(shù)據(jù)集市的特征數(shù)據(jù)集市的特征包括：規(guī)模?。挥刑囟ǖ膽?yīng)用；面向部門；由業(yè)務(wù)部門定義、設(shè)

18、計和開發(fā)；業(yè)務(wù)部門管理和維護；能快速實現(xiàn)；購買較便宜；投資快速回收；工具集的緊密集成；提供更詳細(xì)的、預(yù)先存在的、數(shù) 據(jù)倉庫的摘要子集；可升級到完整的數(shù)據(jù)倉庫。六、數(shù)據(jù)抽取、轉(zhuǎn)換、清洗（六、數(shù)據(jù)抽取、轉(zhuǎn)換、清洗（etl） 6.1、、etl 的重要性及概念的重要性及概念我們可以這樣給 etl 下個定義，即 etl 是數(shù)據(jù)抽?。╡xtract）、轉(zhuǎn)換（transform）、清洗（cleansing）、裝載（load）的過程。構(gòu)建數(shù)據(jù)倉庫的重要一環(huán)，用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù)，經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型，將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。它關(guān)系到數(shù)據(jù)倉庫的持續(xù)發(fā)展問題，因為

19、當(dāng)數(shù)據(jù)倉庫進一步發(fā)展時，如果完善、精確、可預(yù)見的數(shù)據(jù)來源得不到保障的話，就將成為阻礙數(shù)據(jù)倉庫發(fā)展的最大的障礙。 6.2 etl 階階段的段的問題問題整個數(shù)據(jù)倉庫的建設(shè)如果按照其不同性質(zhì)，可獎它分為三個截然不同的部分，分別是：源數(shù)據(jù)、數(shù)據(jù) 準(zhǔn)備、以及數(shù)據(jù)呈現(xiàn)，而 etl 橫跨數(shù)據(jù)源和數(shù)據(jù)準(zhǔn)備，而我們常說的的 olap 分析和決策支持等，都是屬于數(shù)據(jù)呈現(xiàn)的部分。在 etl 階段，需要經(jīng)過許多步驟，如下圖所示：在 etl 階段，有幾個重要的問題：數(shù)據(jù)的有效性數(shù)據(jù)的有效性檢查檢查為避免數(shù)據(jù)冗余，要認(rèn)識到數(shù)據(jù)裝入數(shù)據(jù)倉庫之前，應(yīng)該對數(shù)據(jù)進行有效性檢查，這是很重要的。如果沒有進行數(shù)據(jù)的有效性

20、檢查，就有可能破壞依賴于數(shù)據(jù)倉庫的商務(wù)分析的完整性，幫助檢查數(shù)據(jù)的有效性的最好方法是源系統(tǒng)專家。源系統(tǒng)專家包括具有技術(shù)專業(yè)知識和非技術(shù)知識的人士。清除和清除和轉(zhuǎn)換轉(zhuǎn)換數(shù)據(jù)數(shù)據(jù) 有效性檢查是決定是否符合給定標(biāo)準(zhǔn)的過程。標(biāo)準(zhǔn)是依賴于制訂的，為某個站點開發(fā)和執(zhí)行的標(biāo)準(zhǔn) 可能在其他地方毫無意義。如果數(shù)據(jù)不在給定的界限之內(nèi)，它就成為我們稱作 scrubbing（清除）過程的對象。清除數(shù)據(jù)包括對那些在給定范圍之外的數(shù)據(jù)采取糾正措施。數(shù)據(jù)倉庫中的數(shù)據(jù)來自于多種業(yè)務(wù)數(shù)據(jù)源，這些數(shù)據(jù)源可能是在不同的硬件平臺上，使用不同的操作系統(tǒng)，因而數(shù)據(jù)以不同的格式存在不同的數(shù)據(jù)庫中。如何向數(shù)據(jù)倉庫中加載這些數(shù)量大、

21、種類多的數(shù) 據(jù)，已成為建立數(shù)據(jù)倉庫所面臨的一個關(guān)鍵問題。在轉(zhuǎn)換結(jié)構(gòu)中，確保能找出一種最好的方法保證數(shù)據(jù)從傳統(tǒng)的數(shù)據(jù)存儲器到數(shù)據(jù)倉庫的同步。同步結(jié)構(gòu)應(yīng)當(dāng)把重點放在轉(zhuǎn)換語言的標(biāo)準(zhǔn)化、數(shù)據(jù)移動平臺、通信策略和支持策略方面。數(shù)據(jù)倉庫與操作數(shù) 據(jù)存儲器之間的同步過程能夠采取不同的結(jié)構(gòu)。除尋找自動化轉(zhuǎn)換操作的工具之外，還應(yīng)估計數(shù)據(jù)轉(zhuǎn)換的復(fù)雜性。大多數(shù)傳統(tǒng)的數(shù)據(jù)存儲方法缺乏標(biāo)準(zhǔn)，常常有些不規(guī)則的東西讓開發(fā)員摸不著頭腦。工具正在不斷改進以有助于轉(zhuǎn)換過程的自動化，包括復(fù)雜問題，如掩匿的數(shù)據(jù)、傳統(tǒng)標(biāo)準(zhǔn)的缺乏及不統(tǒng)一的關(guān)鍵數(shù)據(jù)。我們可以定義數(shù)據(jù)變換的幾個基本類型，每一類都有自己的特點和表現(xiàn)形式：簡單變

22、換簡單變換顧名思義，它是數(shù)據(jù)變換中最簡單的形式，這些變換一次改變一個數(shù)據(jù)屬性而不考慮該屬性的背景或與它相關(guān)的其他信息。包括數(shù)據(jù)類型轉(zhuǎn)換，日期/時間格式的轉(zhuǎn)換，字段解碼。清清潔潔和刷洗和刷洗清潔和刷洗是兩個可互換的術(shù)語，指的是比簡單變換更復(fù)雜的一種數(shù)據(jù)變換。在這種變換中，要檢查的是字段或字段組的實際內(nèi)容而不僅是存儲格式。一種清潔是檢查數(shù)據(jù)字段中的有效值。這可以通過范圍檢驗、枚舉清單和相關(guān)檢驗來完成，重新格式化也是一個主要方法。集成集成要把從全然不同的數(shù)據(jù)源中得到的業(yè)務(wù)數(shù)據(jù)結(jié)合在一起，真正的困難在于將它們集成為一個緊密結(jié)合的數(shù)據(jù)模型。這是因為數(shù)據(jù)必須從多個數(shù)據(jù)源中提取出來，并結(jié)合

23、成為一個新的實體。這些數(shù)據(jù)來源往往遵守的不是同一套業(yè)務(wù)規(guī)則，在生成新數(shù)據(jù)時，必須考慮到這一差異。聚集和概括聚集和概括大多數(shù)數(shù)據(jù)倉庫都要用到數(shù)據(jù)的某種聚集和概括。這通常有助于將某一實體的實例數(shù)目減少到易于駕馭的水平，也有助于預(yù)先計算出廣泛應(yīng)用的概括數(shù)字，以使每個查詢不必計算它們。概括是指按照一個或幾個業(yè)務(wù)維將相近的數(shù)值加在一起。聚集指將不同業(yè)務(wù)元素加在一起或為一個公共總數(shù)。在數(shù)據(jù) 倉庫中它們是以相同的方式進行的。數(shù)據(jù)倉庫中存放的最具體的數(shù)據(jù)不與業(yè)務(wù)系統(tǒng)中存放的細(xì)節(jié)數(shù)據(jù)一樣聚集。這時，就有必要在變換業(yè)務(wù)數(shù)據(jù)的過程中加入一些數(shù)據(jù)聚集功能。這可以減少存儲在數(shù)據(jù)倉庫中的行數(shù)。聚集還可以去

24、除數(shù)據(jù)倉庫中的過時細(xì)節(jié)。在許多情況下，數(shù)據(jù)在一定時期內(nèi)要以很具體的水平存放著，一旦數(shù)據(jù)到了某一時限，對所有這些細(xì)節(jié)的需求就大大減弱了。此時，這些非常具體的數(shù)據(jù)應(yīng)該傳送到離線存儲器或近線存儲器中，而數(shù)據(jù)的概括形式則可以存放在數(shù)據(jù)倉庫中。目前可以得到的數(shù)據(jù)刷洗工具中，許多都已內(nèi)置了概括功能，尤其是在時間維上進行聚集的功能。當(dāng)然，不管如何做到這一點，重要的是用戶能夠輕松地訪問元數(shù)據(jù)，了解生成總和數(shù)據(jù)所用的標(biāo)準(zhǔn)。移移動動數(shù)據(jù)數(shù)據(jù) 將數(shù)據(jù)移出操作系統(tǒng)一般包括：在數(shù)據(jù)最終復(fù)制到數(shù)據(jù)倉庫之前，將它們拷貝到一個中間位置。理想狀況下，拷貝數(shù)據(jù)的過程應(yīng)該在操作系統(tǒng)不忙時進行。確保了解自己的商務(wù)及其支持

25、系統(tǒng)。如果還未完成大量的更新，就不應(yīng)該移動數(shù)據(jù)。如果數(shù)據(jù)倉庫中的數(shù)據(jù)來自多個相互關(guān)聯(lián)的操作系統(tǒng)，就應(yīng)該保證在這些系統(tǒng)同步工作時移動數(shù)據(jù)。聯(lián)聯(lián)機分析技機分析技術(shù)術(shù)(olap) 一、什么是一、什么是 olap 1.1 、、olap 的起源的起源聯(lián)機分析處理(on-line analytical process olap)的概念最早是由關(guān)系數(shù)據(jù)庫之父 e.f.codd 于 1993 年提出的。當(dāng)時,codd 認(rèn)為聯(lián)機事務(wù)處理(oltp)已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,sql 對大數(shù)據(jù)庫進行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進行大量計算才能得到結(jié)

26、果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此 codd 提出了多維數(shù)據(jù)庫和多維分析的概念,即 olap。到 90 年代中期，數(shù)據(jù)倉庫已經(jīng)形成潮流。在美國，數(shù)據(jù)倉庫已成為緊次于 internet 之后的又一技術(shù) 熱點。隨著數(shù)據(jù)倉庫的發(fā)展，olap 也得到了迅猛的發(fā)展。數(shù)據(jù)倉庫側(cè)重于存儲和管理面向決策主題的數(shù)據(jù)；而 olap 則側(cè)重于數(shù)據(jù)倉庫中的數(shù)據(jù)分析，并將其轉(zhuǎn)換成輔助決策信息。olap 的一個重要特點是多維數(shù)據(jù)分析，這與數(shù)據(jù)倉庫的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補充的關(guān)系。olap 技術(shù)中比較典型的應(yīng)用是對多維數(shù)據(jù)的切片和切塊、鉆取、旋轉(zhuǎn)等，它便于使用者從不同角度提取有關(guān)數(shù)據(jù)。

27、 olap 技術(shù)還能夠利用分析過程對數(shù)據(jù)進行深入分析和加工。例如，關(guān)鍵指標(biāo)數(shù)據(jù)常常用代數(shù)方程進行處理，更復(fù)雜的分析則需要建立模型進行計算 1.2 、、olap 的概念的概念根據(jù) olap 委員會的定義，olap 是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù) 據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的并真實反映企業(yè)維特性的信息進行快速、一致、交互地存取，從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。olap 技術(shù)是對由語義動態(tài)對象建立的、以動態(tài)微立方結(jié)構(gòu)形式存儲的表進行向下鉆取、向上鉆取、跨越鉆取、切片和切塊等操作。olap 的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報表需求，它

28、的技術(shù)核心是“維”這個概念，因此 olap 也可以說是多維數(shù)據(jù) 分析工具的集合，是數(shù)據(jù)倉庫中大容量數(shù)據(jù)得以有效利用的重要保障。其基本思想是：企業(yè)的決策者應(yīng) 能靈活地操縱企業(yè)的數(shù)據(jù)，以多維的形式從多方面和多角度來觀察企業(yè)的狀態(tài)、了解企業(yè)的變化。 1.3、、olap 的分的分類類可以在兩個層面上對 olap 進行分類，按照存儲方式的不同，可將 olap 分成 rolap、molap 和 holap；按照處理地點的不同，可將 olap 分成 server olap 和 client olap。 rolap 基于 codd 的 12 條準(zhǔn)則，各個軟件開發(fā)廠家見仁見智，其中一個流派，認(rèn)為可以沿用關(guān)系

29、型數(shù)據(jù)庫來存儲多維數(shù)據(jù)，于是，基于稀疏矩陣表示方法的星型結(jié)構(gòu)（starschema）就出現(xiàn)了。后來又演化出雪花結(jié)構(gòu)。為了與多維數(shù)據(jù)庫相區(qū)別，則把基于關(guān)系型數(shù)據(jù)庫的 olap 稱為 relational olap，簡稱 rolap。代表產(chǎn)品有 informix metacube、microsoft sql server olap services.。rolap 采用星型模式來組織關(guān)系數(shù)據(jù)庫數(shù)據(jù)很好地解決多維分析的問題。星型模式只不過是數(shù)據(jù)庫設(shè)計中數(shù)據(jù)表之間的一種關(guān)聯(lián)形式，它的巧妙之處在于能夠找到一個固定的算法將用戶的多維查詢請求轉(zhuǎn)換成針對該數(shù)據(jù)模式的標(biāo)準(zhǔn) sql 語句，而且該語句是

30、最優(yōu)化的。星型模式的應(yīng)用為關(guān)系數(shù)據(jù)庫在數(shù)據(jù)倉庫領(lǐng)域大開綠燈。是數(shù)據(jù)倉庫處理大規(guī)模的數(shù)據(jù)提供了極大的伸縮性。 rolap 的優(yōu)勢：沒有大小限制；現(xiàn)有的關(guān)系數(shù)據(jù)庫的技術(shù)可以沿用；可以通過 sql 實現(xiàn)詳細(xì)數(shù)據(jù)與概要數(shù)據(jù)的儲存；現(xiàn)有關(guān)系型數(shù)據(jù)庫已經(jīng)對 olap 做了很多優(yōu)化，包括并行存儲、并行查詢、并行數(shù)據(jù) 管理、基于成本的查詢優(yōu)化、位圖索引、sql 的 olap 擴展等大大提高了 roalp 的速度；可以針對 smp 或 mpp 的結(jié)構(gòu)進行查詢優(yōu)化。 rolap 的缺點：一般比 mdd 響應(yīng)速度慢；只讀、不支持有關(guān)預(yù)算的讀寫操作；sql 無法完成部分計算，主要是無法完成多行的計算，無法完成維

31、之間的計算。 molap 嚴(yán)格遵照 codd 的定義，自行建立了多維數(shù)據(jù)庫，來存放聯(lián)機分析系統(tǒng)數(shù)據(jù)。arbor software,開創(chuàng)了多維數(shù)據(jù)存儲的先河，后來的很多家公司紛紛采用多維數(shù)據(jù)存儲。被人們稱為 muiltdimension olap,簡稱 molap，代表產(chǎn)品有 hyperion(原 arbor software) essbase、showcase strategy 等。molap 在針對小型的多維分析應(yīng)用有較好的效果，但它缺少關(guān)系數(shù)據(jù)庫所擁有的并行處理及大規(guī)模數(shù)據(jù)管理擴展性，因此難以承擔(dān)大型數(shù)據(jù)倉庫應(yīng)用。 molap 的優(yōu)勢：性能好、響應(yīng)速度快；專為 olap 所設(shè)計；支持高性

32、能的決策支持計算；復(fù)雜的跨維計算；多用戶的讀寫操作；行級的計算。 molap 的缺點：增加系統(tǒng)復(fù)雜度，增加系統(tǒng)培訓(xùn)與維護費用；受操作系統(tǒng)平臺中文件大小的限制，難以達到 tb 級；需要進行預(yù)計算，可能導(dǎo)致數(shù)據(jù)爆炸；無法支持維的動態(tài)變化；缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問的標(biāo)準(zhǔn)。 holap 鑒于 rolap 和 molap 都有這樣那樣的缺點，于是產(chǎn)生了 holap 這種 olap 模型，它綜合了 rolap 和 molap 的優(yōu)點。它將常用的數(shù)據(jù)存儲為 molap，不常用或臨時的數(shù)據(jù)存儲為 rolap，這樣就兼顧了 rolap 的伸縮性和 molap 的靈活、純粹的特點。 clientolap 又

33、稱 diskolap 相對于 server olap 而言。部分分析工具廠家建議把部分?jǐn)?shù)據(jù)下載到本地，為用戶提供本地的多維分析。代表產(chǎn)品有 brio designer, business object.clientolap 提供了有別以傳統(tǒng) olap 的實時性和極大的靈活. 二、二、olap 的多維數(shù)據(jù)結(jié)構(gòu)的多維數(shù)據(jù)結(jié)構(gòu) 2.1、、olap 的多的多維維數(shù)據(jù)數(shù)據(jù)概念數(shù)據(jù)數(shù)據(jù)概念多維結(jié)構(gòu)是 olap 的核心。olap 展現(xiàn)在用戶面前的是一幅幅多維視圖。 1、、維維假定某某是個百貨零售商，有一些因素會影響他的銷售業(yè)務(wù)，如商品、時間、商店或流通渠道，更具體一點，如品牌、月份、地區(qū)等。對

34、某一給定的商品，也許他想知道該商品在哪個商店和哪段時間的銷售情況。對某一商店，也許他想知道哪個商品在哪段時間的銷售情況。在某一時間，也許他想知道哪個商店哪種產(chǎn)品的銷售情況。因此，他需要決策支持來幫助制定銷售政策。這里，商店、時間和產(chǎn)品都是維。各個商店的集合是一維，時間的集合是一維，商品的集合是一維。維就是相同類數(shù)據(jù)的集合，也可以理解為變量。而每個商店、每段時間、每種商品都是某一維的一個成員。每個銷售事實由一個特定的商店、特定的時間和特定的商品組成。維有自己固有的屬性，如層次結(jié)構(gòu)（對數(shù)據(jù)進行聚合分析時要用到）、排序（定義變量時要用到）、計算邏輯（是基于矩陣的算法，可有效地指定規(guī)則）

35、。這些屬性對進行決策支持是非常有用的。 2、多、多維維性性人們很容易理解一個二維表(如通常的電子表格)，對于三維立方體同樣也容易理解。olap 通常將三維立方體的數(shù)據(jù)進行切片，顯示三維的某一平面。如一個立方體有時間維、商品維、收入維，其圖形很容易在屏幕上顯示出來并進行切片。但是要加一維（如加入商店維），則圖形很難想象，也不容易在屏幕上畫出來。要突破三維的障礙，就必須理解邏輯維和物理維的差異。olap 的多維分析視圖就是沖破了物理的三維概念，采用了旋轉(zhuǎn)、嵌套、切片、鉆取和高維可視化技術(shù)，在屏幕上展示多維視圖的結(jié)構(gòu)，使用戶直觀地理解、分析數(shù)據(jù)，進行決策支持。 2.2、、olap 的多

36、的多維維數(shù)據(jù)數(shù)據(jù)結(jié)結(jié)構(gòu)構(gòu) 數(shù)據(jù)在多維空間中的分布總是稀疏的、不均勻的。在事件發(fā)生的位置，數(shù)據(jù)聚合在一起，其密度很大。因此，olap 系統(tǒng)的開發(fā)者要設(shè)法解決多維數(shù)據(jù)空間的數(shù)據(jù)稀疏和數(shù)據(jù)聚合問題。事實上，有許多方法可以構(gòu)造多維數(shù)據(jù)。 1超立方超立方結(jié)結(jié)構(gòu)構(gòu) 超立方結(jié)構(gòu)（hypercube）指用三維或更多的維數(shù)來描述一個對象，每個維彼此垂直。數(shù)據(jù)的測量值發(fā) 生在維的交叉點上，數(shù)據(jù)空間的各個部分都有相同的維屬性。這種結(jié)構(gòu)可應(yīng)用在多維數(shù)據(jù)庫和面向關(guān)系數(shù)據(jù)庫的 olap 系統(tǒng)中，其主要特點是簡化終端用戶的操作。超立方結(jié)構(gòu)有一種變形，即收縮超立方結(jié)構(gòu)。這種結(jié)構(gòu)的數(shù)據(jù)密度更大，數(shù)據(jù)的維數(shù)更少，并可加

37、入額外的分析維。 2多立方多立方結(jié)結(jié)構(gòu)構(gòu) 在多立方結(jié)構(gòu)（multicube）中，將大的數(shù)據(jù)結(jié)構(gòu)分成多個多維結(jié)構(gòu)。這些多維結(jié)構(gòu)是大數(shù)據(jù)維數(shù)的子集，面向某一特定應(yīng)用對維進行分割，即將超立方結(jié)構(gòu)變?yōu)樽恿⒎浇Y(jié)構(gòu)。它具有很強的靈活性，提高了數(shù)據(jù)（特別是稀疏數(shù)據(jù)）的分析效率。一般來說，多立方結(jié)構(gòu)靈活性較大，但超立方結(jié)構(gòu)更易于理解。終端用戶更容易接近超立方結(jié)構(gòu)，它可以提供高水平的報告和多維視圖。但具有多維分析經(jīng)驗的 mis 專家更喜歡多立方結(jié)構(gòu)，因為它具有良好的視圖翻轉(zhuǎn)性和靈活性。多立方結(jié)構(gòu)是存儲稀疏矩陣的一個更有效方法，并能減少計算量。因此，復(fù) 雜的系統(tǒng)及預(yù)先建立的通用應(yīng)用傾向于使用多立方結(jié)構(gòu)

38、，以使數(shù)據(jù)結(jié)構(gòu)能更好地得到調(diào)整，滿足常用的應(yīng)用需求。許多產(chǎn)品結(jié)合了上述兩種結(jié)構(gòu)，它們的數(shù)據(jù)物理結(jié)構(gòu)是多立方結(jié)構(gòu)，但卻利用超立方結(jié)構(gòu)來進行計算，結(jié)合了超立方結(jié)構(gòu)的簡化性和多立方結(jié)構(gòu)的旋轉(zhuǎn)存儲特性。 3 活活動動數(shù)據(jù)的存數(shù)據(jù)的存儲儲用戶對某個應(yīng)用所提取的數(shù)據(jù)稱為活動數(shù)據(jù)，它的存儲有以下三種形式：（（1）關(guān)系數(shù)據(jù)）關(guān)系數(shù)據(jù)庫庫如果數(shù)據(jù)來源于關(guān)系數(shù)據(jù)庫，則活動數(shù)據(jù)被存儲在關(guān)系數(shù)據(jù)庫中。在大部分情況下，數(shù)據(jù)以星型結(jié) 構(gòu)或雪花結(jié)構(gòu)進行存儲。如下圖：（（2）多）多維維數(shù)據(jù)數(shù)據(jù)庫庫在這種情況下，活動數(shù)據(jù)被存儲在服務(wù)器上的多維數(shù)據(jù)庫中，包括來自關(guān)系數(shù)據(jù)庫和終端用戶的數(shù) 據(jù)。通常，數(shù)據(jù)庫存儲在

39、硬盤上，但為了獲得更高的性能，某些產(chǎn)品允許多維數(shù)據(jù)結(jié)構(gòu)存儲在 ram 上。有些數(shù)據(jù)被提前計算，計算結(jié)果以數(shù)組形式進行存儲。如下圖：（（3）基于客）基于客戶戶的文件的文件在這種情況下，可以提取相對少的數(shù)據(jù)放在客戶機的文件上。這些數(shù)據(jù)可預(yù)先建立，如 web 文件。與服務(wù)器上的多維數(shù)據(jù)庫一樣，活動數(shù)據(jù)可放在磁盤或 ram 上。這三種存儲形式有不同的性能，其中關(guān)系數(shù)據(jù)庫的處理速度大大低于其他兩種。 4 olap 數(shù)據(jù)的數(shù)據(jù)的處處理方式理方式 olap 有三種數(shù)據(jù)處理方法。事實上，多維數(shù)據(jù)計算不需要在數(shù)據(jù)存儲位置上進行。（（1）關(guān)系數(shù)據(jù)）關(guān)系數(shù)據(jù)庫庫即使活動的 olap 數(shù)據(jù)存儲在關(guān)系

40、數(shù)據(jù)庫中，采用在關(guān)系數(shù)據(jù)庫上完成復(fù)雜的多維計算也不是較好的選擇。因為 sql 的單語句并不具備完成多維計算的能力，要獲得哪怕是最普通的多維計算功能也需要多重 sql。在許多情況下，一些 olap 工具用 sql 做一些計算，然后將計算結(jié)果作為多維引擎輸入。多維引擎在客戶機或中層服務(wù)器上做大部分的計算工作，這樣就可以利用 ram 來存儲數(shù)據(jù)，提高響應(yīng) 速度。（（2）多）多維維服服務(wù)務(wù)引擎引擎大部分 olap 應(yīng)用在多維服務(wù)引擎上完成多維計算，并且具有良好的性能。因為這種方式可以同時優(yōu)化引擎和數(shù)據(jù)庫，而服務(wù)器上充分的內(nèi)存為有效地計算大量數(shù)組提供了保證。（（3）客）客戶戶機機在客

41、戶機上進行計算，要求用戶具備性能良好的 pc 機，以此完成部分或大部分的多維計算。對于日益增多的瘦型客戶機，olap 產(chǎn)品將把基于客戶機的處理移到新的 web 應(yīng)用服務(wù)器上三、三、olap 的特點的特點 3.1 快速性快速性用戶對 olap 的快速反應(yīng)能力有很高的要求。系統(tǒng)應(yīng)能在 5 秒內(nèi)對用戶的大部分分析要求做出反應(yīng)。如果終端用戶在 30 秒內(nèi)沒有得到系統(tǒng)響應(yīng)就會變得不耐煩，因而可能失去分析主線索，影響分析質(zhì)量。對于大量的數(shù)據(jù)分析要達到這個速度并不容，因此就更需要一些技術(shù)上的支持，如專門的數(shù)據(jù)存儲格式、大量的事先運算、特別的硬件設(shè)計等。 3.2 可分析性可分析性 olap 系統(tǒng)應(yīng)

42、能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計分析。盡管系統(tǒng)需要事先編程，但并不意味著系統(tǒng)已定義好了所有的應(yīng)用。用戶無需編程就可以定義新的專門計算，將其作為分析的一部分，并以用戶理想的方式給出報告。用戶可以在 olap 平臺上進行數(shù)據(jù)分析，也可以連接到其他外部分析工具上，如時間序列分析工具、成本分配工具、意外報警、數(shù)據(jù)開采等。 3.3 多多維維性性多維性是 olap 的關(guān)鍵屬性。系統(tǒng)必須提供對數(shù)據(jù)分析的多維視圖和分析，包括對層次維和多重層次維的完全支持。事實上，多維分析是分析企業(yè)數(shù)據(jù)最有效的方法，是 olap 的靈魂。 3.4 信息性信息性不論數(shù)據(jù)量有多大，也不管數(shù)據(jù)存儲在何處，olap 系

43、統(tǒng)應(yīng)能及時獲得信息，并且管理大容量信息。這里有許多因素需要考慮，如數(shù)據(jù)的可復(fù)制性、可利用的磁盤空間、olap 產(chǎn)品的性能及與數(shù)據(jù)倉庫的結(jié)合度等。四、olap 的功能 4.1、、對對數(shù)據(jù)的多數(shù)據(jù)的多維維分析分析多維觀察是實際業(yè)務(wù)模型固有的要求，olap 應(yīng)用能夠從一種自然的、合乎人的思維心理的角度來靈活地觀察、訪問多維數(shù)據(jù)，為對事情的分析處理提供良好的基礎(chǔ)。產(chǎn)生多維數(shù)據(jù)報表的主要技術(shù)就是 “旋轉(zhuǎn)”、 “切塊”、 “切片”、 “上鉆”和“下鉆”等。旋轉(zhuǎn)（pivoting）：即將表格的橫、縱坐標(biāo)交換(x，y)(y，x)，通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。切片和切塊（slice an

44、d dice）：主要根據(jù)維的限定做投影、選擇等數(shù)據(jù)庫操作從而獲取數(shù)據(jù)。上鉆和下鉆（roll up or drill down）：鉆取是用戶獲得詳細(xì)數(shù)據(jù)的手段。它一般能回答為什么的問題。一層一層的鉆取使我們能快速而準(zhǔn)確的定位到問題所在。鉆取的深度與維所劃分的層次相對應(yīng)。 4.2、復(fù)、復(fù)雜雜的的計計算能力算能力對分析過程來說，常需要對數(shù)據(jù)進行深入的加工，把數(shù)據(jù)簡單陳列給管理人員是不夠的。olap 系統(tǒng)能夠提供豐富多樣、功能強大的計算工具，但同時方法又簡單明了，并且是非過程(non-procedural)的，從而可以及時完成系統(tǒng)的改變訪問到即時信息。 4.3、、時間時間智能智能對任何

45、分析應(yīng)用程序來說，時間都是不可缺少的一個因素。時間只有一維，因為它只能從前往后延伸。olap 系統(tǒng)能夠很好的理解時間的這種序列特性。由于 olap 系統(tǒng)中對時間的智能管理，從而使得不同年份的同期比較和同一年份的期間比較等，成為很容易定義的事情。第三章、第三章、數(shù)據(jù)挖掘技數(shù)據(jù)挖掘技術(shù)術(shù) 一、什么是數(shù)據(jù)挖掘一、什么是數(shù)據(jù)挖掘 1.1、數(shù)據(jù)挖掘的、數(shù)據(jù)挖掘的歷歷史史近十幾年來,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,千萬萬個數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等等,這一勢頭仍將持續(xù)發(fā)展下去。于是,一個新的挑戰(zhàn)被提了出來:在這被稱之為信息爆炸的時代,信息過量幾乎成為

46、人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發(fā)現(xiàn)有用的知識,提高信息利用率呢?要想使數(shù)據(jù)真正成為一個公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。因此,面對人們被數(shù)據(jù)淹沒,人們卻饑餓于知識的挑戰(zhàn)。另一方面計算機技術(shù)的另一領(lǐng)域人工智能自 1956 年誕生之后取得了重大進展。經(jīng)歷了博弈時期、自然語言理解、知識工程等階段，目前的研究熱點是機器學(xué)習(xí)。機器學(xué)習(xí)是用計算機模擬人類學(xué)習(xí)的一門科學(xué)，比較成熟的算法有神經(jīng)網(wǎng)絡(luò)、遺傳算法等。用數(shù) 據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù)，用機器學(xué)習(xí)的方法來分析數(shù)據(jù)，挖掘大量數(shù)據(jù)背后的知識，這

47、兩者的結(jié)合促成了數(shù)據(jù)庫中的知識發(fā)現(xiàn)(kdd：knowledge discovery in databases)的產(chǎn)生，因此，數(shù)據(jù)挖掘和知識發(fā)現(xiàn) (dmkd)技術(shù)應(yīng)運而生,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力。數(shù)據(jù)挖掘又稱從數(shù)據(jù)庫中發(fā)現(xiàn)知識(kdd)、數(shù)據(jù)分析、數(shù)據(jù)融合(data fusion)以及決策支持。kdd 一詞首次出現(xiàn)在 1989 年 8 月舉行的第 11 屆國際聯(lián)合人工智能學(xué)術(shù)會議上。隨后在 1991 年、1993 年和 1994 年都舉行 kdd 專題討論會，匯集來自各個領(lǐng)域的研究人員和應(yīng)用開發(fā)者，集中討論數(shù)據(jù)統(tǒng)計、海量數(shù)據(jù)分析算法、知識表示、知識運用等問題。隨著參與

48、人員的不斷增多，kdd 國際會議發(fā)展成為年會。1998 年在美國紐約舉行的第四屆知識發(fā)現(xiàn)與數(shù)據(jù) 挖掘國際學(xué)術(shù)會議不僅進行了學(xué)術(shù)討論，并且有 30 多家軟件公司展示了他們的數(shù)據(jù)挖掘軟件產(chǎn)品，不少軟件已在北美、歐洲等國得到應(yīng)用。 2.2 數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘的概念從 1989 年到現(xiàn)在，kdd 的定義隨著人們研究的不斷深入也在不斷完善，目前比較公認(rèn)的定義是 fayyad 等給出的：kdd 是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的以及最終可理解模式的高級處理過程。從定義可以看出，數(shù)據(jù)挖掘(data mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、

49、人們事先不知道的、但又是潛在有用的信息和知識的過程。人們把原始數(shù)據(jù) 看作是形成知識的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù) 學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護。因此,數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程技術(shù)人員。特別要指出的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)

50、用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,以指導(dǎo)實際問題的求解, 企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動進行預(yù)測。一般來說在科研領(lǐng)域中稱為 kdd，而在工程領(lǐng)域則稱為數(shù)據(jù)挖掘。二、數(shù)據(jù)挖掘的步驟二、數(shù)據(jù)挖掘的步驟 kdd 包括以下步驟： 2.1、數(shù)據(jù)準(zhǔn)數(shù)據(jù)準(zhǔn)備備 kdd 的處理對象是大量的數(shù)據(jù)，這些數(shù)據(jù)一般存儲在數(shù)據(jù)庫系統(tǒng)中，是長期積累的結(jié)果。但往往不適合直接在這些數(shù)據(jù)上面進行知識挖掘，需要做數(shù)據(jù)準(zhǔn)備工作，一般包括數(shù)據(jù)的選擇(選擇相關(guān)的數(shù)據(jù)）、凈化（消除噪音、冗余數(shù)據(jù)）、推測（推算缺失數(shù)據(jù)）、轉(zhuǎn)

51、換（離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換，數(shù)據(jù)值的分組分類，數(shù)據(jù)項之間的計算組合等）、數(shù)據(jù)縮減（減少數(shù)據(jù)量）。如果 kdd 的對象是數(shù)據(jù)倉庫，那么這些工作往往在生成數(shù)據(jù)倉庫時已經(jīng)準(zhǔn)備妥當(dāng)。數(shù)據(jù)準(zhǔn)備是 kdd 的第一個步驟，也是比較重要的一個步驟。數(shù)據(jù)準(zhǔn)備是否做好將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。 2.2、數(shù)據(jù)挖掘、數(shù)據(jù)挖掘數(shù)據(jù)挖掘是 kdd 最關(guān)鍵的步驟，也是技術(shù)難點所在。研究 kdd 的人員中大部分都在研究數(shù)據(jù)挖掘技術(shù)，采用較多的技術(shù)有決策樹、分類、聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。數(shù)據(jù)挖掘根據(jù) kdd 的目標(biāo)，選取相應(yīng)算法的參數(shù)，分析數(shù)據(jù)，得

52、到可能形成知識的模式模型。 2.3、、評評估、解估、解釋釋模式模型模式模型上面得到的模式模型，有可能是沒有實際意義或沒有實用價值的，也有可能是其不能準(zhǔn)確反映數(shù)據(jù) 的真實意義，甚至在某些情況下是與事實相反的，因此需要評估，確定哪些是有效的、有用的模式。評估可以根據(jù)用戶多年的經(jīng)驗，有些模式也可以直接用數(shù)據(jù)來檢驗其準(zhǔn)確性。這個步驟還包括把模式以易于理解的方式呈現(xiàn)給用戶。 2.4、鞏固知、鞏固知識識用戶理解的、并被認(rèn)為是符合實際和有價值的模式模型形成了知識。同時還要注意對知識做一致性檢查，解決與以前得到的知識互相沖突、矛盾的地方，使知識得到鞏固。 2.5、運用知、運用知識識發(fā)現(xiàn)知

53、識是為了運用，如何使知識能被運用也是 kdd 的步驟之一。運用知識有兩種方法：一種是只需看知識本身所描述的關(guān)系或結(jié)果，就可以對決策提供支持；另一種是要求對新的數(shù)據(jù)運用知識，由此可能產(chǎn)生新的問題，而需要對知識做進一步的優(yōu)化三、三、數(shù)據(jù)挖掘的數(shù)據(jù)挖掘的模式模式數(shù)據(jù)挖掘的任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)模式。模式是一個用語言 l 來表示的一個表達式 e，它可用來描述數(shù)據(jù)集 f 中數(shù)據(jù)的特性，e 所描述的數(shù)據(jù)是集合 f 的一個子集 fe。e 作為一個模式要求它比列舉數(shù)據(jù) 子集 fe 中所有元素的描述方法簡單。例如， “如果成績在 81 90 之間，則成績優(yōu)良”可稱為一個模式，而“如果成績?yōu)?81、

54、82、83、84、85、86、87、88、89 或 90，則成績優(yōu)良”就不能稱之為一個模式。模式有很多種，按功能可分有兩大類：預(yù)測型（predictive）模式和描述型（descriptive）模式。預(yù)測型模式是可以根據(jù)數(shù)據(jù)項的值精確確定某種結(jié)果的模式。挖掘預(yù)測型模式所使用的數(shù)據(jù)也都是可以明確知道結(jié)果的。例如，根據(jù)各種動物的資料，可以建立這樣的模式：凡是胎生的動物都是哺乳類動物。當(dāng)有新的動物資料時，就可以根據(jù)這個模式判別此動物是否是哺乳動物。描述型模式是對數(shù)據(jù)中存在的規(guī)則做一種描述，或者根據(jù)數(shù)據(jù)的相似性把數(shù)據(jù)分組。描述型模式不能直接用于預(yù)測。例如，在地球上，70 的表面被水覆蓋，

55、30 是土地。在實際應(yīng)用中，往往根據(jù)模式的實際作用細(xì)分為以下 6 種： 1、分、分類類模式模式分類模式是一個分類函數(shù)（分類器），能夠把數(shù)據(jù)集中的數(shù)據(jù)項映射到某個給定的類上。分類模式往往表現(xiàn)為一棵分類樹，根據(jù)數(shù)據(jù)的值從樹根開始搜索，沿著數(shù)據(jù)滿足的分支往上走，走到樹葉就能確定類別。 2、回、回歸歸模式模式回歸模式的函數(shù)定義與分類模式相似，它們的差別在于分類模式的預(yù)測值是離散的，回歸模式的預(yù) 測值是連續(xù)的。如給出某種動物的特征，可以用分類模式判定這種動物是哺乳動物還是鳥類；給出某個人的教育情況、工作經(jīng)驗，可以用回歸模式判定這個人的年工資在哪個范圍內(nèi)，是在 6000 元以下，還是

56、在 6000 元到 1 萬元之間，還是在 1 萬元以上。 3、、時間時間序列模式序列模式時間序列模式根據(jù)數(shù)據(jù)隨時間變化的趨勢預(yù)測將來的值。這里要考慮到時間的特殊性質(zhì)，像一些周期性的時間定義如星期、月、季節(jié)、年等，不同的日子如節(jié)假日可能造成的影響，日期本身的計算方法，還有一些需要特殊考慮的地方如時間前后的相關(guān)性（過去的事情對將來有多大的影響力）等。只有充分考慮時間因素，利用現(xiàn)有數(shù)據(jù)隨時間變化的一系列的值，才能更好地預(yù)測將來的值。 4、聚、聚類類模式模式聚類模式把數(shù)據(jù)劃分到不同的組中，組之間的差別盡可能大，組內(nèi)的差別盡可能小。與分類模式不同，進行聚類前并不知道將要劃分成幾個組和

57、什么樣的組，也不知道根據(jù)哪一（幾）個數(shù)據(jù)項來定義組。一般來說，業(yè)務(wù)知識豐富的人應(yīng)該可以理解這些組的含義，如果產(chǎn)生的模式無法理解或不可用，則該模式可能是無意義的，需要回到上階段重新組織數(shù)據(jù)。 5、關(guān)、關(guān)聯(lián)聯(lián)模式模式關(guān)聯(lián)模式是數(shù)據(jù)項之間的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是如下形式的一種規(guī)則：“在無力償還貸款的人當(dāng)中， 60的人的月收入在 3000 元以下。 ” 6、序列模式、序列模式序列模式與關(guān)聯(lián)模式相仿，而把數(shù)據(jù)之間的關(guān)聯(lián)性與時間聯(lián)系起來。為了發(fā)現(xiàn)序列模式，不僅需要知道事件是否發(fā)生，而且需要確定事件發(fā)生的時間。例如，在購買彩電的人們當(dāng)中，60的人會在 3 個月內(nèi)購買影碟機四、數(shù)據(jù)挖掘的方法四、

58、數(shù)據(jù)挖掘的方法 4.1、多、多層層次數(shù)據(jù)次數(shù)據(jù)匯總歸納匯總歸納數(shù)據(jù)庫中的數(shù)據(jù)和對象經(jīng)常包含原始概念層上的詳細(xì)信息,將一個數(shù)據(jù)集合歸納成高概念層次信息的數(shù)據(jù)挖掘技術(shù)被稱為數(shù)據(jù)匯總(data generalization) 。概念匯總將數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)由低概念層抽象到高概念層,主要有數(shù)據(jù)立方體和面向?qū)傩詢煞N方法。 1、數(shù)據(jù)立方體(多維數(shù)據(jù)庫)方法的主要思想是將那些經(jīng)常查詢、代價高昂的運算,如 count、sum、average、max、min 等匯總函數(shù)具體化,并存儲在一個多維數(shù)據(jù)庫中,為決策支持、知識發(fā)現(xiàn) 及其它應(yīng)用服務(wù)。 2、面向?qū)傩缘某槿》椒ㄓ靡环N類 sql 數(shù)據(jù)采掘查詢語言表達查詢

59、要求,收集相關(guān)數(shù)據(jù),并利用屬性刪除、概念層次樹、門檻控制、數(shù)量傳播及集合函數(shù)等技術(shù)進行數(shù)據(jù)匯總。匯總數(shù)據(jù)用匯總關(guān)系表示,可以將數(shù)據(jù)轉(zhuǎn)化為不同類型的知識,或?qū)⑵溆成涑刹煌谋?并從中抽取特征、判別式、分類等相關(guān)規(guī)則。面向?qū)傩猿槿〉母拍顚哟螛涫侵改硨傩运哂械膹木唧w概念值到某概念類的層次關(guān)系樹。概念層次可由相關(guān)領(lǐng)域?qū)＜腋鶕?jù)屬性的領(lǐng)域知識提供,按特定屬性的概念層次從一般到具體排序。樹的根結(jié)點是用 any 表示最一般的概念,葉結(jié)點是最具體的概念即屬性的具體值,例如屬性 city 的概念層次樹如圖 4 所示。概念層次為歸納分析提供有用信息,將概念組織為不同層次,從而在高概念層次上用簡單、確切的

60、公式表示規(guī)則。 cai cencone 利用屬性值的概念層次關(guān)系,提出了面向?qū)傩缘臉涮嵘惴?并得到一階謂詞邏輯表示的規(guī)則。面向?qū)傩缘臉涮嵘椒ㄖ饕菍δ繕?biāo)類所有元組的屬性值由低到高提升,使原來若干屬性值不同的元組成為相同元組,進行合并,直到全部元組不超過最大規(guī)則數(shù),再將其轉(zhuǎn)化為一階謂詞邏輯表示的規(guī)則。與面向元組的歸納方法相比,面向?qū)傩缘臍w納方法搜索空間減少,運行效率顯著提高 ;對冗余元組的測試在概括屬性的所有值后進行,提高了測試效率;最壞時間復(fù)雜性為 o(n logp),n 為元組個數(shù),p 為最終概括關(guān)系表中的元組個數(shù)。處理過程可利用關(guān)系數(shù)據(jù)庫的傳統(tǒng)操作。此方法已在數(shù)據(jù)挖掘系統(tǒng)

人人文庫> 全部分類> 生活休閑 > 科普知識

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

BI技術(shù)白皮書

文檔簡介

溫馨提示

最新文檔

評論

BI技術(shù)白皮書

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔