BI技術(shù)白皮書_第1頁
BI技術(shù)白皮書_第2頁
BI技術(shù)白皮書_第3頁
BI技術(shù)白皮書_第4頁
BI技術(shù)白皮書_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、商業(yè)智能 技術(shù)白皮書 第一章、第一章、數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)倉庫技術(shù).1 一、一、數(shù)據(jù)倉庫的背景和歷史數(shù)據(jù)倉庫的背景和歷史.1 二、什么是數(shù)據(jù)倉庫二、什么是數(shù)據(jù)倉庫.1 三、三、數(shù)據(jù)倉庫的組織結(jié)構(gòu)數(shù)據(jù)倉庫的組織結(jié)構(gòu).2 3.1、數(shù)據(jù)倉庫的邏輯及物理結(jié)構(gòu).2 3.2、數(shù)據(jù)倉庫系統(tǒng).2 四、四、數(shù)據(jù)倉庫的物理存儲形式數(shù)據(jù)倉庫的物理存儲形式.3 4.1、基于關(guān)系數(shù)據(jù)庫的存儲形式、基于關(guān)系數(shù)據(jù)庫的存儲形式.3 4.2、多維數(shù)據(jù)庫存儲形式、多維數(shù)據(jù)庫存儲形式.4 4.3、虛擬存儲方式、虛擬存儲方式.5 4.4、幾種存儲形式的比較、幾種存儲形式的比較.5 五、數(shù)據(jù)集市.5 5.1、 數(shù)據(jù)集市的產(chǎn)生數(shù)據(jù)集市的產(chǎn)生

2、.5 5.2、 數(shù)據(jù)集市的概念數(shù)據(jù)集市的概念.5 5.3、 數(shù)據(jù)集市的特征數(shù)據(jù)集市的特征.5 六、數(shù)據(jù)抽取、轉(zhuǎn)換、清洗(六、數(shù)據(jù)抽取、轉(zhuǎn)換、清洗(etl).6 6.1、etl的重要性及概念的重要性及概念.6 6.2 etl階段的問題階段的問題.6 第二章、第二章、聯(lián)機分析技術(shù)聯(lián)機分析技術(shù)(olap).8 一、什么是一、什么是 olap.8 1.1 、olap的起源的起源.8 1.2 、olap的概念的概念.8 1.3、olap的分類的分類.8 二、二、olap 的多維數(shù)據(jù)結(jié)構(gòu)的多維數(shù)據(jù)結(jié)構(gòu).9 2.1、olap的多維數(shù)據(jù)數(shù)據(jù)概念的多維數(shù)據(jù)數(shù)據(jù)概念.9 2.2、olap的多維數(shù)據(jù)結(jié)構(gòu)的多維數(shù)據(jù)結(jié)

3、構(gòu).9 三、三、olap 的特點的特點.11 四、olap 的功能.11 第三章、第三章、數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù).12 一、什么是數(shù)據(jù)挖掘一、什么是數(shù)據(jù)挖掘.12 二、數(shù)據(jù)挖掘的步驟二、數(shù)據(jù)挖掘的步驟.13 三、數(shù)據(jù)挖掘的模式三、數(shù)據(jù)挖掘的模式.13 四、數(shù)據(jù)挖掘的方法四、數(shù)據(jù)挖掘的方法.14 第四章、各種技術(shù)的結(jié)合第四章、各種技術(shù)的結(jié)合.16 數(shù)據(jù)數(shù)據(jù)倉庫倉庫技技術(shù)術(shù) 一、一、數(shù)據(jù)倉庫的背景和歷史數(shù)據(jù)倉庫的背景和歷史 隨著計算機技術(shù)的迅速發(fā)展,信息處理技術(shù)也得到了長足的發(fā)展。計算機系統(tǒng)的功能從數(shù)值計算擴 展到信息管理距今已有三十多年了,從 70 年代中期的 mis 系統(tǒng)發(fā)展到現(xiàn)代的數(shù)據(jù)倉庫

4、(data warehouse)技術(shù),用辯證的眼光來看,實際上是信息管理的一種回歸,是螺旋式的上升。 二十多年來,大量新技術(shù)、新思路涌現(xiàn)出來并被用于關(guān)系數(shù)據(jù)庫系統(tǒng)的開發(fā)和實現(xiàn),使得關(guān)系數(shù) 據(jù)庫系統(tǒng)的處理能力毫不遜色于傳統(tǒng)封閉的數(shù)據(jù)庫系統(tǒng), sql 的使用更使這一切成為不可阻擋的潮流, 加上近些年來計算機硬件的處理能力呈數(shù)量級的遞增,關(guān)系數(shù)據(jù)庫最終成為聯(lián)機事務(wù)處理系統(tǒng)的主宰。 整個 80 年代直到 90 年代初,聯(lián)機事務(wù)處理一直是數(shù)據(jù)庫應(yīng)用的主流。然而,應(yīng)用在不斷地進步。當(dāng)聯(lián) 機事務(wù)處理系統(tǒng)應(yīng)用到一定階段的時候,企業(yè)家們便發(fā)現(xiàn)單靠擁有聯(lián)機事務(wù)處理系統(tǒng)已經(jīng)不足以獲得 市場競爭的優(yōu)勢,他們需要對其自

5、身業(yè)務(wù)的運作以及整個市場相關(guān)行業(yè)的態(tài)勢進行分析,而做出有利 的決策。這種決策需要對大量的業(yè)務(wù)數(shù)據(jù)包括歷史業(yè)務(wù)數(shù)據(jù)進行分析才能得到。在如今這樣激烈的市 場競爭環(huán)境下,這種基于業(yè)務(wù)數(shù)據(jù)的決策分析我們把它稱之為聯(lián)機分析處理比以往任何時候 都顯得更為重要。 其實,將大量的業(yè)務(wù)數(shù)據(jù)應(yīng)用于分析和統(tǒng)計原本是一個非常簡單和自然的想法。但在實際的操作 中,人們卻發(fā)現(xiàn)要獲得有用的信息并非如想像的那么容易:第一,所有聯(lián)機事務(wù)處理強調(diào)的是密集的數(shù) 據(jù)更新處理性能和系統(tǒng)的可靠性,并不關(guān)心數(shù)據(jù)查詢的方便與快捷。聯(lián)機分析和事務(wù)處理對系統(tǒng)的要求 不同,同一個數(shù)據(jù)庫在理論上難以做到兩全;第二,業(yè)務(wù)數(shù)據(jù)往往被存放于分散的異構(gòu)環(huán)境

6、中,不易統(tǒng)一 查詢訪問,而且還有大量的歷史數(shù)據(jù)處于脫機狀態(tài),形同虛設(shè);第 三,業(yè)務(wù)數(shù)據(jù)的模式針對事務(wù)處理系 統(tǒng)而設(shè)計,數(shù)據(jù)的格式和描述方式并不適合非計算機專業(yè)人員進行業(yè)務(wù)上的分析和統(tǒng)計。因此有人感嘆: 20 年前查詢不到數(shù)據(jù)是因為數(shù)據(jù)太少了,而今天查詢不到數(shù)據(jù)是因為數(shù)據(jù)太多了。針對這一問題,人們 設(shè)想專門為業(yè)務(wù)的統(tǒng)計分析建立一個數(shù)據(jù)中心,它的數(shù)據(jù)從聯(lián)機的事務(wù)處理系統(tǒng)中來、從異構(gòu)的外部數(shù) 據(jù)源來、從脫機的歷史業(yè)務(wù)數(shù)據(jù)中來。這個數(shù)據(jù)中心是一個聯(lián)機的系統(tǒng),它是專門為分析統(tǒng)計和決策支 持應(yīng)用服務(wù)的,通過它可滿足決策支持和聯(lián)機分析應(yīng)用所要求的一切。這個數(shù)據(jù)中心就叫做數(shù)據(jù)倉庫。 二、什么是數(shù)據(jù)倉庫二、什么

7、是數(shù)據(jù)倉庫 數(shù)據(jù)倉庫的概念在 90 年代初被提出來,以 prism solutions 公司副總裁 w.h.inmon 在 1990 年出版 的建立數(shù)據(jù)倉庫(building the data warehouse)一書為標(biāo)志。w. h. inmon 對數(shù)據(jù)倉庫的定義為:數(shù)據(jù)倉 庫是支持管理決策過程的、面向主題的、集成的、穩(wěn)定的、不同時間的數(shù)據(jù)集合。這也就是說:數(shù)據(jù)倉庫 就是一個作為決策支持系統(tǒng)和聯(lián)機分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫所要研究和解決的問 題就是從數(shù)據(jù)庫中獲取信息的問題。 主題是數(shù)據(jù)倉庫中數(shù)據(jù)歸類的標(biāo)準(zhǔn),每個主題對應(yīng)一個客觀分析領(lǐng)域,如客戶、商店等,它可為輔 助決策集成多個部

8、門不同系統(tǒng)的大量數(shù)據(jù)。數(shù)據(jù)倉庫包含了大量的歷史數(shù)據(jù),經(jīng)集成后進入數(shù)據(jù)倉庫的 數(shù)據(jù)是極少更新的。 數(shù)據(jù)倉庫的集成特性是指在數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必須經(jīng)過數(shù)據(jù)加工和集成,首先要統(tǒng)一原始數(shù) 據(jù)中的矛盾之處,還要將原始數(shù)據(jù)結(jié)構(gòu)做一個從面向應(yīng)用向面向主題的轉(zhuǎn)變。數(shù)據(jù)倉庫的穩(wěn)定性是指數(shù) 據(jù)經(jīng)加工和集成進入數(shù)據(jù)倉庫后是極少或根本不修改的。數(shù)據(jù)倉庫是不同時間的數(shù)據(jù)集合,它要求數(shù)據(jù) 倉庫中的數(shù)據(jù)保存時限能滿足進行決策分析的需要。 從數(shù)據(jù)組織的角度來說,數(shù)據(jù)倉庫是存儲數(shù)據(jù)的一種組織形式,它從傳統(tǒng)數(shù)據(jù)庫中獲得原始數(shù)據(jù), 先按輔助決策的主題要求形成當(dāng)前基本數(shù)據(jù)層,再按綜合決策的要求形成綜合數(shù)據(jù)層(又可分為輕度綜 合層

9、和高度綜合層)。其最根本的特點是物理地存放數(shù)據(jù),但這些數(shù)據(jù)并不是最新的、專有的,而是來源 于其它數(shù)據(jù)庫。數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時限為 5 年至 10 年,主要用于進行時間趨勢分析。數(shù)據(jù)倉庫的數(shù)據(jù)量 很大,一般為 10gb 左右。它是一般數(shù)據(jù)庫(100mb)數(shù)據(jù)量的 100 倍,大型數(shù)據(jù)倉庫達到 tb 級。 三、三、 數(shù)據(jù)倉庫的組織結(jié)構(gòu)數(shù)據(jù)倉庫的組織結(jié)構(gòu) 3.1、數(shù)據(jù)倉庫的邏輯及物理結(jié)構(gòu) 數(shù)據(jù)倉庫作為存儲數(shù)據(jù)的一種組織形式,隨著時間的推移,數(shù)據(jù)倉庫的時間控制機制將當(dāng)前基 本數(shù)據(jù)層轉(zhuǎn)為歷史數(shù)據(jù)層??梢姅?shù)據(jù)倉庫中邏輯結(jié)構(gòu)數(shù)據(jù)由 3 層到 4 層數(shù)據(jù)組成,它們均由元數(shù)據(jù) (meta data)組織而成。數(shù)據(jù)

10、倉庫中數(shù)據(jù)的物理存儲形式有多維數(shù)據(jù)庫組織形式(空間超立方體形式)和 基于關(guān)系數(shù)據(jù)庫組織形式(由關(guān)系型事實表和維表組成)。以下是數(shù)據(jù)倉庫的技術(shù)體系結(jié)構(gòu)圖 3.2、數(shù)據(jù)倉庫系統(tǒng) 數(shù)據(jù)倉庫系統(tǒng)(dws)由源數(shù)據(jù)、倉庫管理和分析工具三部分組成。如下圖: 信息目錄模 塊 數(shù)據(jù)倉庫之 元數(shù)據(jù) 數(shù)據(jù)管理員 模塊 數(shù)據(jù)倉庫之 數(shù)據(jù) 數(shù)據(jù)獲 取模塊 數(shù)據(jù)傳 遞模塊 中間件 模塊 數(shù)據(jù)訪 問模塊 設(shè)計模 塊 管理模塊 外部元數(shù)據(jù) 源數(shù)據(jù)外部數(shù)據(jù) 源數(shù)據(jù)源數(shù)據(jù)倉庫倉庫管理管理 分析工具分析工具 源數(shù)據(jù):數(shù)據(jù)倉庫的數(shù)據(jù)來源于多個數(shù)據(jù)源,包括企業(yè)內(nèi)部數(shù)據(jù)、市場調(diào)查報告及各種文檔之類 的外部數(shù)據(jù)。 倉庫管理:在確定數(shù)據(jù)倉

11、庫信息需求后,首先進行數(shù)據(jù)建模,然后確定從源數(shù)據(jù)到數(shù)據(jù)倉庫的 數(shù)據(jù)抽取、清理和轉(zhuǎn)換過程,最后劃分維數(shù)及確定數(shù)據(jù)倉庫的物理存儲結(jié)構(gòu)。元數(shù)據(jù)是數(shù)據(jù)倉庫的核心, 它用于存儲數(shù)據(jù)模型和定義數(shù)據(jù)結(jié)構(gòu)、轉(zhuǎn)換規(guī)劃、倉庫結(jié)構(gòu)、控制信息等。倉庫管理包括對數(shù)據(jù)的安全、 歸檔、備份、維護、恢復(fù)等工作,這些工作需要利用數(shù)據(jù)庫管理系統(tǒng)(dbms)的功能。 分析工具:用于完成實際決策問題所需的各種查詢檢索工具、多維數(shù)據(jù)的 olap 分析工具、數(shù)據(jù)開 采 dm 工具等,以實現(xiàn)決策支持系統(tǒng)的各種要求。 四、四、 數(shù)據(jù)倉庫的物理存儲形式數(shù)據(jù)倉庫的物理存儲形式 數(shù)據(jù)倉庫中數(shù)據(jù)的物理存儲形式分為:基于關(guān)系數(shù)據(jù)庫存儲形式(由關(guān)系型事

12、實表和維表組成)、多 維數(shù)據(jù)庫存儲形式(空間超立方體形式)和虛擬存儲形式。 4.1、基于關(guān)系數(shù)據(jù)、基于關(guān)系數(shù)據(jù)庫庫的存的存儲儲形式形式 基于關(guān)系數(shù)據(jù)庫的存儲形式就是將多維數(shù)據(jù)庫的多維結(jié)構(gòu)劃分為兩類表:一類是事實表,用來存儲 數(shù)據(jù)和維關(guān)鍵字;另一類是維表,即對每個維至少使用一個表來存放維的層次、成員類別等維的描述信 息。維表和事實表通過主關(guān)鍵字和外關(guān)鍵字聯(lián)系在一起,形成“星型模式”。對于層次復(fù)雜的維,為避免 冗余數(shù)據(jù)占用過大的存儲空間,可以使用多個表來描述,這種星型模式的擴展稱為“雪花模式”。 星型模式(starschema)存在數(shù)據(jù)冗余、多維操作速度慢的缺點。但這種方式是主流方案,大多數(shù)數(shù)據(jù)

13、倉庫集成方案都采用這種形式。如下圖: 星型模式星型模式 雪花模式(snowflake schema)的優(yōu)點是:通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善 查詢性能。雪花模型增加了用戶必須處理的表數(shù)量,增加了某些查詢的復(fù)雜性。如下圖: 雪花模型雪花模型 4.2、多、多維維數(shù)據(jù)數(shù)據(jù)庫庫存存儲儲形式形式 多維數(shù)據(jù)庫(multidimesional database,mddb)存儲形式就是以多維的方式存儲數(shù)據(jù),以多維的方 式來顯示數(shù)據(jù),即將數(shù)據(jù)存放在一個 n 維數(shù)組中,而不是像關(guān)系數(shù)據(jù)庫那樣以記錄的形式存放。 “維”是人 們觀察客觀世界的角度,是一種高層次的類型劃分。 “維”一般包含著層次關(guān)

14、系。多維數(shù)據(jù)在存儲中將形成 “超立方塊(hypercube)”的結(jié)構(gòu)。超立方結(jié)構(gòu)有一種變形,即收縮超立方結(jié)構(gòu)。這種結(jié)構(gòu)的數(shù)據(jù)密度更大, 數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維。 當(dāng)使用多維數(shù)據(jù)庫作為數(shù)據(jù)倉庫的基本數(shù)據(jù)存儲形式時,其最主要的特點是:大大減少了以維為基 本框架的存儲空間,針對多維數(shù)據(jù)組織的操作算法,極大地提高了多維分析操作的效率。 4.3、虛、虛擬擬存存儲儲方式方式 虛擬存儲方式是虛擬數(shù)據(jù)倉庫的數(shù)據(jù)組織形式。它沒有專門的數(shù)據(jù)倉庫來存儲數(shù)據(jù),只是把指針存 儲于中心位置,而數(shù)據(jù)仍然在源數(shù)據(jù)庫中,只是根據(jù)用戶的多維需求及形成的多維視圖,臨時在源數(shù)據(jù) 庫中找出所需要的數(shù)據(jù),完成多維分析,數(shù)據(jù)

15、源可以被實時地組合、傳輸和顯示,而不必進行數(shù)據(jù)移動 和復(fù)制,對于數(shù)據(jù)源也無須做任何改變。它讓用戶既能實時地看到歷史數(shù)據(jù),同時也能實時地看到當(dāng)前 數(shù)據(jù),而不是像過去那樣只看到歷史數(shù)據(jù)。 4.4、幾種存、幾種存儲儲形式的比形式的比較較 多維數(shù)據(jù)庫對多維概念表達清楚,占用的存儲空間較小,而且數(shù)據(jù)的綜合速度高,這些方面具有關(guān) 系數(shù)據(jù)庫無法比擬的優(yōu)勢,它也存在一些缺點:一是多維數(shù)據(jù)庫管理系統(tǒng)缺乏標(biāo)準(zhǔn);另一個問題是多維 數(shù)據(jù)庫管理大規(guī)模數(shù)據(jù)庫的能力不夠強大。 基于關(guān)系數(shù)據(jù)庫的存儲形式,在靈活性和處理大規(guī)模數(shù)據(jù)的能力上完全可以滿足數(shù)據(jù)倉庫的需要。 其不足在于數(shù)據(jù)庫中存放了大量的細(xì)節(jié)數(shù)據(jù)和相對較少的綜合數(shù)據(jù),

16、需要以犧牲效率為代價動態(tài)地綜 合數(shù)據(jù)。 虛擬存儲形式雖然較簡單、花費少、使用靈活,但同時它也存在一個致命的缺點,即只有當(dāng)源數(shù)據(jù) 庫的數(shù)據(jù)組織比較規(guī)范、沒有數(shù)據(jù)不完備及冗余,同時又比較接近多維數(shù)據(jù)模型時,虛擬數(shù)據(jù)倉庫的多 維語義層才容易定義,在實際中這種方式很難建立起有效的決策服務(wù)數(shù)據(jù)支持。 由于多維數(shù)據(jù)庫管理系統(tǒng)及虛擬數(shù)據(jù)倉庫技術(shù)的相對不成熟,關(guān)系數(shù)據(jù)庫系統(tǒng)的廣泛應(yīng)用 ,目前 在數(shù)據(jù)倉庫市場上基于關(guān)系數(shù)據(jù)庫的存儲形式占據(jù)著主流地位。 五、數(shù)據(jù)集市 5.1、 、 數(shù)據(jù)集市的數(shù)據(jù)集市的產(chǎn)產(chǎn)生生 數(shù)據(jù)倉庫的工作范圍和成本常常是巨大的。信息技術(shù)部門必須針對所有的用戶并以整個企業(yè)的眼光 對待任何一次決策

17、分析。這樣就形成了代價很高、時間較長的大項目。因此更緊湊集成的、擁有完整圖 形接口且價格更具吸引力的工具即數(shù)據(jù)集市(data marts)應(yīng)運而生。目前,全世界對數(shù)據(jù)倉庫總投資的 一半以上均集中在數(shù)據(jù)集市上。 5.2、 、 數(shù)據(jù)集市的概念數(shù)據(jù)集市的概念 數(shù)據(jù)集市是一種更小、更集中的數(shù)據(jù)倉庫,是為企業(yè)提供分析商業(yè)數(shù)據(jù)的一條廉價途徑。它是具有 特定應(yīng)用的數(shù)據(jù)倉庫,主要針對某個具有戰(zhàn)略意義的應(yīng)用或具體部門級的應(yīng)用,它支持客戶利用已有的 數(shù)據(jù)獲得重要的競爭優(yōu)勢或找到進入新市場的解決方案。 5.3、 、 數(shù)據(jù)集市的特征數(shù)據(jù)集市的特征 數(shù)據(jù)集市的特征包括:規(guī)模?。挥刑囟ǖ膽?yīng)用;面向部門;由業(yè)務(wù)部門定義、設(shè)

18、計和開發(fā);業(yè)務(wù)部門管 理和維護;能快速實現(xiàn);購買較便宜;投資快速回收;工具集的緊密集成;提供更詳細(xì)的、預(yù)先存在的、數(shù) 據(jù)倉庫的摘要子集;可升級到完整的數(shù)據(jù)倉庫。 六、數(shù)據(jù)抽取、轉(zhuǎn)換、清洗(六、數(shù)據(jù)抽取、轉(zhuǎn)換、清洗(etl) 6.1、 、etl 的重要性及概念的重要性及概念 我們可以這樣給 etl 下個定義,即 etl 是數(shù)據(jù)抽?。╡xtract)、轉(zhuǎn)換(transform)、清洗(cleansing)、 裝載(load)的過程。構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按 照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。它關(guān)系到數(shù)據(jù)倉庫的持續(xù)發(fā)展問題,因為

19、當(dāng)數(shù)據(jù)倉庫進一步發(fā)展時,如果完善、精確、可預(yù)見的數(shù)據(jù)來源得不到保障的話,就將成為阻礙數(shù)據(jù)倉 庫發(fā)展的最大的障礙。 6.2 etl 階階段的段的問題問題 整個數(shù)據(jù)倉庫的建設(shè)如果按照其不同性質(zhì),可獎它分為三個截然不同的部分,分別是:源數(shù)據(jù)、數(shù)據(jù) 準(zhǔn)備、以及數(shù)據(jù)呈現(xiàn),而 etl 橫跨數(shù)據(jù)源和數(shù)據(jù)準(zhǔn)備,而我們常說的的 olap 分析和決策支持等,都是 屬于數(shù)據(jù)呈現(xiàn)的部分。在 etl 階段,需要經(jīng)過許多步驟,如下圖所示: 在 etl 階段,有幾個重要的問題: 數(shù)據(jù)的有效性數(shù)據(jù)的有效性檢查檢查 為避免數(shù)據(jù)冗余,要認(rèn)識到數(shù)據(jù)裝入數(shù)據(jù)倉庫之前,應(yīng)該對數(shù)據(jù)進行有效性檢查,這是很重要的。 如果沒有進行數(shù)據(jù)的有效性

20、檢查,就有可能破壞依賴于數(shù)據(jù)倉庫的商務(wù)分析的完整性,幫助檢查數(shù)據(jù)的 有效性的最好方法是源系統(tǒng)專家。源系統(tǒng)專家包括具有技術(shù)專業(yè)知識和非技術(shù)知識的人士。 清除和清除和轉(zhuǎn)換轉(zhuǎn)換數(shù)據(jù)數(shù)據(jù) 有效性檢查是決定是否符合給定標(biāo)準(zhǔn)的過程。標(biāo)準(zhǔn)是依賴于制訂的,為某個站點開發(fā)和執(zhí)行的標(biāo)準(zhǔn) 可能在其他地方毫無意義。如果數(shù)據(jù)不在給定的界限之內(nèi),它就成為我們稱作 scrubbing(清除)過程的對 象。清除數(shù)據(jù)包括對那些在給定范圍之外的數(shù)據(jù)采取糾正措施。 數(shù)據(jù)倉庫中的數(shù)據(jù)來自于多種業(yè)務(wù)數(shù)據(jù)源,這些數(shù)據(jù)源可能是在不同的硬件平臺上,使用不同的操 作系統(tǒng),因而數(shù)據(jù)以不同的格式存在不同的數(shù)據(jù)庫中。如何向數(shù)據(jù)倉庫中加載這些數(shù)量大、

21、種類多的數(shù) 據(jù),已成為建立數(shù)據(jù)倉庫所面臨的一個關(guān)鍵問題。 在轉(zhuǎn)換結(jié)構(gòu)中,確保能找出一種最好的方法保證數(shù)據(jù)從傳統(tǒng)的數(shù)據(jù)存儲器到數(shù)據(jù)倉庫的同步。同步 結(jié)構(gòu)應(yīng)當(dāng)把重點放在轉(zhuǎn)換語言的標(biāo)準(zhǔn)化、數(shù)據(jù)移動平臺、通信策略和支持策略方面。數(shù)據(jù)倉庫與操作數(shù) 據(jù)存儲器之間的同步過程能夠采取不同的結(jié)構(gòu)。 除尋找自動化轉(zhuǎn)換操作的工具之外,還應(yīng)估計數(shù)據(jù)轉(zhuǎn)換的復(fù)雜性。大多數(shù)傳統(tǒng)的數(shù)據(jù)存儲方法缺乏 標(biāo)準(zhǔn),常常有些不規(guī)則的東西讓開發(fā)員摸不著頭腦。工具正在不斷改進以有助于轉(zhuǎn)換過程的自動化,包 括復(fù)雜問題,如掩匿的數(shù)據(jù)、傳統(tǒng)標(biāo)準(zhǔn)的缺乏及不統(tǒng)一的關(guān)鍵數(shù)據(jù)。 我們可以定義數(shù)據(jù)變換的幾個基本類型,每一類都有自己的特點和表現(xiàn)形式: 簡單變

22、換簡單變換 顧名思義,它是數(shù)據(jù)變換中最簡單的形式,這些變換一次改變一個數(shù)據(jù)屬性而不考慮該屬性的背景 或與它相關(guān)的其他信息。包括數(shù)據(jù)類型轉(zhuǎn)換,日期/時間格式的轉(zhuǎn)換,字段解碼。 清清潔潔和刷洗和刷洗 清潔和刷洗是兩個可互換的術(shù)語,指的是比簡單變換更復(fù)雜的一種數(shù)據(jù)變換。在這種變換中,要檢 查的是字段或字段組的實際內(nèi)容而不僅是存儲格式。一種清潔是檢查數(shù)據(jù)字段中的有效值。這可以通過 范圍檢驗、枚舉清單和相關(guān)檢驗來完成,重新格式化也是一個主要方法。 集成集成 要把從全然不同的數(shù)據(jù)源中得到的業(yè)務(wù)數(shù)據(jù)結(jié)合在一起,真正的困難在于將它們集成為一個緊密 結(jié)合的數(shù)據(jù)模型。這是因為數(shù)據(jù)必須從多個數(shù)據(jù)源中提取出來,并結(jié)合

23、成為一個新的實體。這些數(shù)據(jù)來 源往往遵守的不是同一套業(yè)務(wù)規(guī)則,在生成新數(shù)據(jù)時,必須考慮到這一差異。 聚集和概括聚集和概括 大多數(shù)數(shù)據(jù)倉庫都要用到數(shù)據(jù)的某種聚集和概括。這通常有助于將某一實體的實例數(shù)目減少到易 于駕馭的水平,也有助于預(yù)先計算出廣泛應(yīng)用的概括數(shù)字,以使每個查詢不必計算它們。概括是指按照 一個或幾個業(yè)務(wù)維將相近的數(shù)值加在一起。聚集指將不同業(yè)務(wù)元素加在一起或為一個公共總數(shù)。在數(shù)據(jù) 倉庫中它們是以相同的方式進行的。 數(shù)據(jù)倉庫中存放的最具體的數(shù)據(jù)不與業(yè)務(wù)系統(tǒng)中存放的細(xì)節(jié)數(shù)據(jù)一樣聚集。這時,就有必要在變換 業(yè)務(wù)數(shù)據(jù)的過程中加入一些數(shù)據(jù)聚集功能。這可以減少存儲在數(shù)據(jù)倉庫中的行數(shù)。 聚集還可以去

24、除數(shù)據(jù)倉庫中的過時細(xì)節(jié)。在許多情況下,數(shù)據(jù)在一定時期內(nèi)要以很具體的水平存放 著,一旦數(shù)據(jù)到了某一時限,對所有這些細(xì)節(jié)的需求就大大減弱了。此時,這些非常具體的數(shù)據(jù)應(yīng)該傳 送到離線存儲器或近線存儲器中,而數(shù)據(jù)的概括形式則可以存放在數(shù)據(jù)倉庫中。 目前可以得到的數(shù)據(jù)刷洗工具中,許多都已內(nèi)置了概括功能,尤其是在時間維上進行聚集的功能。 當(dāng)然,不管如何做到這一點,重要的是用戶能夠輕松地訪問元數(shù)據(jù),了解生成總和數(shù)據(jù)所用的標(biāo)準(zhǔn)。 移移動動數(shù)據(jù)數(shù)據(jù) 將數(shù)據(jù)移出操作系統(tǒng)一般包括:在數(shù)據(jù)最終復(fù)制到數(shù)據(jù)倉庫之前,將它們拷貝到一個中間位置。理 想狀況下,拷貝數(shù)據(jù)的過程應(yīng)該在操作系統(tǒng)不忙時進行。確保了解自己的商務(wù)及其支持

25、系統(tǒng)。如果還未 完成大量的更新,就不應(yīng)該移動數(shù)據(jù)。如果數(shù)據(jù)倉庫中的數(shù)據(jù)來自多個相互關(guān)聯(lián)的操作系統(tǒng),就應(yīng)該保 證在這些系統(tǒng)同步工作時移動數(shù)據(jù)。 聯(lián)聯(lián)機分析技機分析技術(shù)術(shù)(olap) 一、什么是一、什么是 olap 1.1 、 、olap 的起源的起源 聯(lián)機分析處理(on-line analytical process olap)的概念最早是由關(guān)系數(shù)據(jù)庫之父 e.f.codd 于 1993 年提出的。當(dāng)時,codd 認(rèn)為聯(lián)機事務(wù)處理(oltp)已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,sql 對 大數(shù)據(jù)庫進行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進行大量計 算才能得到結(jié)

26、果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此 codd 提出了多維數(shù)據(jù)庫和多維分 析的概念,即 olap。 到 90 年代中期,數(shù)據(jù)倉庫已經(jīng)形成潮流。在美國,數(shù)據(jù)倉庫已成為緊次于 internet 之后的又一技術(shù) 熱點。隨著數(shù)據(jù)倉庫的發(fā)展,olap 也得到了迅猛的發(fā)展。數(shù)據(jù)倉庫側(cè)重于存儲和管理面向決策主題的 數(shù)據(jù);而 olap 則側(cè)重于數(shù)據(jù)倉庫中的數(shù)據(jù)分析,并將其轉(zhuǎn)換成輔助決策信息。olap 的一個重要特點 是多維數(shù)據(jù)分析,這與數(shù)據(jù)倉庫的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補充的關(guān)系。olap 技術(shù)中比 較典型的應(yīng)用是對多維數(shù)據(jù)的切片和切塊、鉆取、旋轉(zhuǎn)等,它便于使用者從不同角度提取有關(guān)數(shù)據(jù)。

27、 olap 技術(shù)還能夠利用分析過程對數(shù)據(jù)進行深入分析和加工。例如,關(guān)鍵指標(biāo)數(shù)據(jù)常常用代數(shù)方程進行 處理,更復(fù)雜的分析則需要建立模型進行計算 1.2 、 、olap 的概念的概念 根據(jù) olap 委員會的定義,olap 是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù) 據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的并真實反映企業(yè)維特性的信息進行快速、一致、交互地存取, 從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。olap 技術(shù)是對由語義動態(tài)對象建立的、以動態(tài)微立方 結(jié)構(gòu)形式存儲的表進行向下鉆取、向上鉆取、跨越鉆取、切片和切塊等操作。olap 的目標(biāo)是滿足決策支 持或多維環(huán)境特定的查詢和報表需求,它

28、的技術(shù)核心是“維”這個概念,因此 olap 也可以說是多維數(shù)據(jù) 分析工具的集合,是數(shù)據(jù)倉庫中大容量數(shù)據(jù)得以有效利用的重要保障。其基本思想是:企業(yè)的決策者應(yīng) 能靈活地操縱企業(yè)的數(shù)據(jù),以多維的形式從多方面和多角度來觀察企業(yè)的狀態(tài)、了解企業(yè)的變化。 1.3、 、olap 的分的分類類 可以在兩個層面上對 olap 進行分類,按照存儲方式的不同,可將 olap 分成 rolap、molap 和 holap;按照處理地點的不同,可將 olap 分成 server olap 和 client olap。 rolap 基于 codd 的 12 條準(zhǔn)則,各個軟件開發(fā)廠家見仁見智,其中一個流派,認(rèn)為可以沿用關(guān)系

29、 型數(shù)據(jù)庫來存儲多維數(shù)據(jù),于是,基于稀疏矩陣表示方法的星型結(jié)構(gòu)(starschema)就出現(xiàn)了。后來又演化 出雪花結(jié)構(gòu)。為了與多維數(shù)據(jù)庫相區(qū)別,則把基于關(guān)系型數(shù)據(jù)庫的 olap 稱為 relational olap,簡稱 rolap。代表產(chǎn)品有 informix metacube、microsoft sql server olap services.。rolap 采用 星型模式 來組織關(guān)系數(shù)據(jù)庫數(shù)據(jù)很好地解決多維分析的問題。星型模式只不過是數(shù)據(jù)庫設(shè)計中數(shù)據(jù)表之間的一 種關(guān)聯(lián)形式,它的巧妙之處在于能夠 找到一個固定的算法將用戶的多維查詢請求轉(zhuǎn)換成針對該數(shù)據(jù)模 式的標(biāo)準(zhǔn) sql 語句,而且該語句是

30、最優(yōu)化的。星型模式的應(yīng)用為關(guān)系數(shù)據(jù)庫在數(shù)據(jù)倉庫領(lǐng)域大開綠燈。 是數(shù)據(jù)倉庫處理大規(guī)模的數(shù)據(jù)提供了極大的伸縮性。 rolap 的優(yōu)勢:沒有大小限制;現(xiàn)有的關(guān)系數(shù)據(jù)庫的技術(shù)可以沿用;可以通過 sql 實現(xiàn)詳細(xì)數(shù)據(jù)與 概要數(shù)據(jù)的儲存;現(xiàn)有關(guān)系型數(shù)據(jù)庫已經(jīng)對 olap 做了很多優(yōu)化,包括并行存儲、并行查詢、并行數(shù)據(jù) 管理、基于成本的查詢優(yōu)化、位圖索引、sql 的 olap 擴展等大大提高了 roalp 的速度;可以針對 smp 或 mpp 的結(jié)構(gòu)進行查詢優(yōu)化。 rolap 的缺點:一般比 mdd 響應(yīng)速度慢;只讀、不支持有關(guān)預(yù)算的讀寫操作;sql 無法完成部分 計算,主要是無法完成多行的計算,無法完成維

31、之間的計算。 molap 嚴(yán)格遵照 codd 的定義,自行建立了多維數(shù)據(jù)庫,來存放聯(lián)機分析系統(tǒng)數(shù)據(jù)。arbor software,開創(chuàng)了多維數(shù)據(jù)存儲的先河,后來的很多家公司紛紛采用多維數(shù)據(jù)存儲。被人們稱為 muiltdimension olap,簡稱 molap,代表產(chǎn)品有 hyperion(原 arbor software) essbase、showcase strategy 等。molap 在針對小型的多維分析應(yīng)用有較好的效果,但它缺少關(guān)系數(shù)據(jù)庫所擁有的并行 處理及大規(guī)模數(shù)據(jù)管理擴展性,因此難以承擔(dān)大型數(shù)據(jù)倉庫應(yīng)用。 molap 的優(yōu)勢:性能好、響應(yīng)速度快;專為 olap 所設(shè)計;支持高性

32、能的決策支持計算;復(fù)雜的跨維 計算;多用戶的讀寫操作;行級的計算。 molap 的缺點:增加系統(tǒng)復(fù)雜度,增加系統(tǒng)培訓(xùn)與維護費用;受操作系統(tǒng)平臺中文件大小的限制, 難以達到 tb 級;需要進行預(yù)計算,可能導(dǎo)致數(shù)據(jù)爆炸;無法支持維的動態(tài)變化;缺乏數(shù)據(jù)模型和數(shù)據(jù)訪 問的標(biāo)準(zhǔn)。 holap 鑒于 rolap 和 molap 都有這樣那樣的缺點,于是產(chǎn)生了 holap 這種 olap 模型,它 綜合了 rolap 和 molap 的優(yōu)點。它將常用的數(shù)據(jù)存儲為 molap,不常用或臨時的數(shù)據(jù)存儲為 rolap,這樣就兼顧了 rolap 的伸縮性和 molap 的靈活、純粹的特點。 clientolap 又

33、稱 diskolap 相對于 server olap 而言。部分分析工具廠家建議把部分?jǐn)?shù)據(jù)下載到 本地,為用戶提供本地的多維分析。代表產(chǎn)品有 brio designer, business object.clientolap 提供了有別以 傳統(tǒng) olap 的實時性和極大的靈活. 二、二、olap 的多維數(shù)據(jù)結(jié)構(gòu)的多維數(shù)據(jù)結(jié)構(gòu) 2.1、 、olap 的多的多維維數(shù)據(jù)數(shù)據(jù)概念數(shù)據(jù)數(shù)據(jù)概念 多維結(jié)構(gòu)是 olap 的核心。olap 展現(xiàn)在用戶面前的是一幅幅多維視圖。 1、 、維維 假定某某是個百貨零售商,有一些因素會影響他的銷售業(yè)務(wù),如商品、時間、商店或流通渠道,更具 體一點,如品牌、月份、地區(qū)等。對

34、某一給定的商品,也許他想知道該商品在哪個商店和哪段時間的銷售 情況。對某一商店,也許他想知道哪個商品在哪段時間的銷售情況。在某一時間,也許他想知道哪個商 店哪種產(chǎn)品的銷售情況。因此,他需要決策支持來幫助制定銷售政策。 這里,商店、時間和產(chǎn)品都是維。各個商店的集合是一維,時間的集合是一維,商品的集合是一維。維 就是相同類數(shù)據(jù)的集合,也可以理解為變量。而每個商店、每段時間、每種商品都是某一維的一個成員。 每個銷售事實由一個特定的商店、特定的時間和特定的商品組成。 維有自己固有的屬性,如層次結(jié)構(gòu)(對數(shù)據(jù)進行聚合分析時要用到)、排序(定義變量時要用到)、計 算邏輯(是基于矩陣的算法,可有效地指定規(guī)則)

35、。這些屬性對進行決策支持是非常有用的。 2、多、多維維性性 人們很容易理解一個二維表(如通常的電子表格),對于三維立方體同樣也容易理解。olap 通常將 三維立方體的數(shù)據(jù)進行切片,顯示三維的某一平面。如一個立方體有時間維、商品維、收入維,其圖形很 容易在屏幕上顯示出來并進行切片。但是要加一維(如加入商店維),則圖形很難想象,也不容易在屏幕 上畫出來。要突破三維的障礙,就必須理解邏輯維和物理維的差異。olap 的多維分析視圖就是沖破了 物理的三維概念,采用了旋轉(zhuǎn)、嵌套、切片、鉆取和高維可視化技術(shù),在屏幕上展示多維視圖的結(jié)構(gòu),使 用戶直觀地理解、分析數(shù)據(jù),進行決策支持。 2.2、 、olap 的多

36、的多維維數(shù)據(jù)數(shù)據(jù)結(jié)結(jié)構(gòu)構(gòu) 數(shù)據(jù)在多維空間中的分布總是稀疏的、不均勻的。在事件發(fā)生的位置,數(shù)據(jù)聚合在一起,其密度很 大。因此,olap 系統(tǒng)的開發(fā)者要設(shè)法解決多維數(shù)據(jù)空間的數(shù)據(jù)稀疏和數(shù)據(jù)聚合問題。事實上,有許多方 法可以構(gòu)造多維數(shù)據(jù)。 1超立方超立方結(jié)結(jié)構(gòu)構(gòu) 超立方結(jié)構(gòu)(hypercube)指用三維或更多的維數(shù)來描述一個對象,每個維彼此垂直。數(shù)據(jù)的測量值發(fā) 生在維的交叉點上,數(shù)據(jù)空間的各個部分都有相同的維屬性。 這種結(jié)構(gòu)可應(yīng)用在多維數(shù)據(jù)庫和面向關(guān)系數(shù)據(jù)庫的 olap 系統(tǒng)中,其主要特點是簡化終端用戶的操 作。 超立方結(jié)構(gòu)有一種變形,即收縮超立方結(jié)構(gòu)。這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加

37、入 額外的分析維。 2多立方多立方結(jié)結(jié)構(gòu)構(gòu) 在多立方結(jié)構(gòu)(multicube)中,將大的數(shù)據(jù)結(jié)構(gòu)分成多個多維結(jié)構(gòu)。這些多維結(jié)構(gòu)是大數(shù)據(jù)維數(shù)的子 集,面向某一特定應(yīng)用對維進行分割,即將超立方結(jié)構(gòu)變?yōu)樽恿⒎浇Y(jié)構(gòu)。它具有很強的靈活性,提高了 數(shù)據(jù)(特別是稀疏數(shù)據(jù))的分析效率。 一般來說,多立方結(jié)構(gòu)靈活性較大,但超立方結(jié)構(gòu)更易于理解。終端用戶更容易接近超立方結(jié)構(gòu),它 可以提供高水平的報告和多維視圖。但具有多維分析經(jīng)驗的 mis 專家更喜歡多立方結(jié)構(gòu),因為它具有良 好的視圖翻轉(zhuǎn)性和靈活性。多立方結(jié)構(gòu)是存儲稀疏矩陣的一個更有效方法,并能減少計算量。因此,復(fù) 雜的系統(tǒng)及預(yù)先建立的通用應(yīng)用傾向于使用多立方結(jié)構(gòu)

38、,以使數(shù)據(jù)結(jié)構(gòu)能更好地得到調(diào)整,滿足常用的 應(yīng)用需求。 許多產(chǎn)品結(jié)合了上述兩種結(jié)構(gòu),它們的數(shù)據(jù)物理結(jié)構(gòu)是多立方結(jié)構(gòu),但卻利用超立方結(jié)構(gòu)來進行計 算,結(jié)合了超立方結(jié)構(gòu)的簡化性和多立方結(jié)構(gòu)的旋轉(zhuǎn)存儲特性。 3 活活動動數(shù)據(jù)的存數(shù)據(jù)的存儲儲 用戶對某個應(yīng)用所提取的數(shù)據(jù)稱為活動數(shù)據(jù),它的存儲有以下三種形式: ( (1)關(guān)系數(shù)據(jù))關(guān)系數(shù)據(jù)庫庫 如果數(shù)據(jù)來源于關(guān)系數(shù)據(jù)庫,則活動數(shù)據(jù)被存儲在關(guān)系數(shù)據(jù)庫中。在大部分情況下,數(shù)據(jù)以星型結(jié) 構(gòu)或雪花結(jié)構(gòu)進行存儲。如下圖: ( (2)多)多維維數(shù)據(jù)數(shù)據(jù)庫庫 在這種情況下,活動數(shù)據(jù)被存儲在服務(wù)器上的多維數(shù)據(jù)庫中,包括來自關(guān)系數(shù)據(jù)庫和終端用戶的數(shù) 據(jù)。通常,數(shù)據(jù)庫存儲在

39、硬盤上,但為了獲得更高的性能,某些產(chǎn)品允許多維數(shù)據(jù)結(jié)構(gòu)存儲在 ram 上。 有些數(shù)據(jù)被提前計算,計算結(jié)果以數(shù)組形式進行存儲。如下圖: ( (3)基于客)基于客戶戶的文件的文件 在這種情況下,可以提取相對少的數(shù)據(jù)放在客戶機的文件上。這些數(shù)據(jù)可預(yù)先建立,如 web 文件。與 服務(wù)器上的多維數(shù)據(jù)庫一樣,活動數(shù)據(jù)可放在磁盤或 ram 上。 這三種存儲形式有不同的性能,其中關(guān)系數(shù)據(jù)庫的處理速度大大低于其他兩種。 4 olap 數(shù)據(jù)的數(shù)據(jù)的處處理方式理方式 olap 有三種數(shù)據(jù)處理方法。事實上,多維數(shù)據(jù)計算不需要在數(shù)據(jù)存儲位置上進行。 ( (1)關(guān)系數(shù)據(jù))關(guān)系數(shù)據(jù)庫庫 即使活動的 olap 數(shù)據(jù)存儲在關(guān)系

40、數(shù)據(jù)庫中,采用在關(guān)系數(shù)據(jù)庫上完成復(fù)雜的多維計算也不是較好 的選擇。因為 sql 的單語句并不具備完成多維計算的能力,要獲得哪怕是最普通的多維計算功能也需 要多重 sql。在許多情況下,一些 olap 工具用 sql 做一些計算,然后將計算結(jié)果作為多維引擎輸入。 多維引擎在客戶機或中層服務(wù)器上做大部分的計算工作,這樣就可以利用 ram 來存儲數(shù)據(jù),提高響應(yīng) 速度。 ( (2)多)多維維服服務(wù)務(wù)引擎引擎 大部分 olap 應(yīng)用在多維服務(wù)引擎上完成多維計算,并且具有良好的性能。因為這種方式可以同時 優(yōu)化引擎和數(shù)據(jù)庫,而服務(wù)器上充分的內(nèi)存為有效地計算大量數(shù)組提供了保證。 ( (3)客)客戶戶機機 在客

41、戶機上進行計算,要求用戶具備性能良好的 pc 機,以此完成部分或大部分的多維計算。對于日 益增多的瘦型客戶機,olap 產(chǎn)品將把基于客戶機的處理移到新的 web 應(yīng)用服務(wù)器上 三、三、olap 的特點的特點 3.1 快速性快速性 用戶對 olap 的快速反應(yīng)能力有很高的要求。系統(tǒng)應(yīng)能在 5 秒內(nèi)對用戶的大部分分析要求做出反應(yīng)。 如果終端用戶在 30 秒內(nèi)沒有得到系統(tǒng)響應(yīng)就會變得不耐煩,因而可能失去分析主線索,影響分析質(zhì)量。 對于大量的數(shù)據(jù)分析要達到這個速度并不容,因此就更需要一些技術(shù)上的支持,如專門的數(shù)據(jù)存儲格式、 大量的事先運算、特別的硬件設(shè)計等。 3.2 可分析性可分析性 olap 系統(tǒng)應(yīng)

42、能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計分析。盡管系統(tǒng)需要事先編程,但并不意味 著系統(tǒng)已定義好了所有的應(yīng)用。用戶無需編程就可以定義新的專門計算,將其作為分析的一部分,并以 用戶理想的方式給出報告。用戶可以在 olap 平臺上進行數(shù)據(jù)分析,也可以連接到其他外部分析工具上, 如時間序列分析工具、成本分配工具、意外報警、數(shù)據(jù)開采等。 3.3 多多維維性性 多維性是 olap 的關(guān)鍵屬性。系統(tǒng)必須提供對數(shù)據(jù)分析的多維視圖和分析,包括對層次維和多重層 次維的完全支持。事實上,多維分析是分析企業(yè)數(shù)據(jù)最有效的方法,是 olap 的靈魂。 3.4 信息性信息性 不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲在何處,olap 系

43、統(tǒng)應(yīng)能及時獲得信息,并且管理大容量信息。 這里有許多因素需要考慮,如數(shù)據(jù)的可復(fù)制性、可利用的磁盤空間、olap 產(chǎn)品的性能及與數(shù)據(jù)倉庫的 結(jié)合度等。 四、olap 的功能 4.1、 、 對對數(shù)據(jù)的多數(shù)據(jù)的多維維分析分析 多維觀察是實際業(yè)務(wù)模型固有的要求,olap 應(yīng)用能夠從一種自然的、合乎人的思維心理的角度來 靈活地觀察、訪問多維數(shù)據(jù),為對事情的分析處理提供良好的基礎(chǔ)。產(chǎn)生多維數(shù)據(jù)報表的主要技術(shù)就是 “旋轉(zhuǎn)”、 “切塊”、 “切片”、 “上鉆”和“下鉆”等。 旋轉(zhuǎn)(pivoting): 即將表格的橫、縱坐標(biāo)交換(x,y)(y,x),通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。 切片和切塊(slice an

44、d dice): 主要根據(jù)維的限定做投影、選擇等數(shù)據(jù)庫操作從而獲取數(shù)據(jù)。 上鉆和下鉆(roll up or drill down):鉆取是用戶獲得詳細(xì)數(shù)據(jù)的手段。它一般能回答為什么的問題。 一層一層的鉆取使我們能快速而準(zhǔn)確的定位到問題所在。鉆取的深度與維所劃分的層次相對應(yīng)。 4.2、復(fù)、復(fù)雜雜的的計計算能力算能力 對分析過程來說,常需要對數(shù)據(jù)進行深入的加工,把數(shù)據(jù)簡單陳列給管理人員是不夠的。olap 系 統(tǒng)能夠提供豐富多樣、功能強大的計算工具,但同時方法又簡單明了,并且是非過程(non-procedural)的, 從而可以及時完成系統(tǒng)的改變訪問到即時信息。 4.3、 、時間時間智能智能 對任何

45、分析應(yīng)用程序來說,時間都是不可缺少的一個因素。時間只有一維,因為它只能從前往后延 伸。olap 系統(tǒng)能夠很好的理解時間的這種序列特性。由于 olap 系統(tǒng)中對時間的智能管理,從而使得 不同年份的同期比較和同一年份的期間比較等,成為很容易定義的事情。 第三章、第三章、 數(shù)據(jù)挖掘技數(shù)據(jù)挖掘技術(shù)術(shù) 一、什么是數(shù)據(jù)挖掘一、什么是數(shù)據(jù)挖掘 1.1、數(shù)據(jù)挖掘的、數(shù)據(jù)挖掘的歷歷史史 近十幾年來,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,千萬萬個數(shù)據(jù)庫被用于商業(yè)管理、 政府辦公、科學(xué)研究和工程開發(fā)等等,這一勢頭仍將持續(xù)發(fā)展下去。于是,一個新的挑戰(zhàn)被提了出來:在這 被稱之為信息爆炸的時代,信息過量幾乎成為

46、人人需要面對的問題。如何才能不被信息的汪洋大海所淹 沒,從中及時發(fā)現(xiàn)有用的知識,提高信息利用率呢?要想使數(shù)據(jù)真正成為一個公司的資源,只有充分利用它 為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。因此,面對 人們被數(shù)據(jù)淹沒,人們卻饑餓于知識的挑戰(zhàn)。另一方面計算機技術(shù)的另一領(lǐng)域人工智能自 1956 年 誕生之后取得了重大進展。經(jīng)歷了博弈時期、自然語言理解、知識工程等階段,目前的研究 熱點是機器 學(xué)習(xí)。機器學(xué)習(xí)是用計算機模擬人類學(xué)習(xí)的一門科學(xué),比較成熟的算法有神經(jīng)網(wǎng)絡(luò)、遺傳算法等。用數(shù) 據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機器學(xué)習(xí)的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的知識,這

47、兩者的結(jié)合促 成了數(shù)據(jù)庫中的知識發(fā)現(xiàn)(kdd:knowledge discovery in databases)的產(chǎn)生,因此,數(shù)據(jù)挖掘和知識發(fā)現(xiàn) (dmkd)技術(shù)應(yīng)運而生,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力。 數(shù)據(jù)挖掘又稱從數(shù)據(jù)庫中發(fā)現(xiàn)知識(kdd)、數(shù)據(jù)分析、數(shù)據(jù)融合(data fusion)以及決策支持。kdd 一詞首次出現(xiàn)在 1989 年 8 月舉行的第 11 屆國際聯(lián)合人工智能學(xué)術(shù)會議上。隨后在 1991 年、1993 年和 1994 年都舉行 kdd 專題討論會,匯集來自各個領(lǐng)域的研究人員和應(yīng)用開發(fā)者,集中討論數(shù)據(jù)統(tǒng)計、海 量數(shù)據(jù)分析算 法、知識表示、知識運用等問題。隨著參與

48、人員的不斷增多,kdd 國際會議發(fā)展成為年 會。1998 年在美國紐約舉行的第四屆知識發(fā)現(xiàn)與數(shù)據(jù) 挖掘國際學(xué)術(shù)會議不僅進行了學(xué)術(shù)討論,并且有 30 多家軟件公司展示了他們的數(shù)據(jù)挖掘軟件產(chǎn)品,不少軟件已在北美、歐洲等國得到應(yīng)用。 2.2 數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘的概念 從 1989 年到現(xiàn)在,kdd 的定義隨著人們研究的不斷深入也在不斷完善,目前比較公認(rèn)的定義是 fayyad 等給出的:kdd 是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的以及最終可理解模式的高級 處理過程。從定義可以看出,數(shù)據(jù)挖掘(data mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的 數(shù)據(jù)中,提取隱含在其中的、

49、人們事先不知道的、但又是潛在有用的信息和知識的過程。人們把原始數(shù)據(jù) 看作是形成知識的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可 以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù) 學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、 決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護。因此,數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科,它匯聚了 不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程技術(shù)人 員。 特別要指出的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)

50、用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查 詢調(diào)用,而且要對這些數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,以指導(dǎo)實際問題的求解, 企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動進行預(yù)測。 一般來說在科研領(lǐng)域中稱為 kdd,而在工程領(lǐng)域則稱為數(shù)據(jù)挖掘。 二、數(shù)據(jù)挖掘的步驟二、數(shù)據(jù)挖掘的步驟 kdd 包括以下步驟: 2.1、數(shù)據(jù)準(zhǔn)數(shù)據(jù)準(zhǔn)備備 kdd 的處理對象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲在數(shù)據(jù)庫系統(tǒng)中,是長期積累的結(jié)果。但往往不 適合直接在這些數(shù)據(jù)上面進行知識挖 掘,需要做數(shù)據(jù)準(zhǔn)備工作,一般包括數(shù)據(jù)的選擇(選擇相關(guān)的數(shù)據(jù)) 、凈化(消除噪音、冗余數(shù)據(jù))、推測(推算缺失數(shù)據(jù))、轉(zhuǎn)

51、換(離散值 數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換, 數(shù)據(jù)值的分組分類,數(shù)據(jù)項之間的計算組合等)、數(shù)據(jù)縮減(減少數(shù)據(jù)量)。如果 kdd 的對象是數(shù)據(jù)倉 庫,那么這些工作往往在生成數(shù)據(jù)倉庫時已經(jīng)準(zhǔn)備妥當(dāng)。數(shù)據(jù)準(zhǔn)備是 kdd 的第一個步驟,也是比較重 要的一個步驟。數(shù)據(jù)準(zhǔn)備是否做好將影 響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。 2.2、數(shù)據(jù)挖掘、數(shù)據(jù)挖掘 數(shù)據(jù)挖掘是 kdd 最關(guān)鍵的步驟,也是技術(shù)難點所在。研究 kdd 的人員中大部分都在研究數(shù)據(jù)挖 掘技術(shù),采用較多的技術(shù)有決策樹、分類、 聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。數(shù)據(jù)挖掘 根據(jù) kdd 的目標(biāo),選取相應(yīng)算法的參數(shù),分析數(shù)據(jù),得

52、到可能形成知識的模式 模型。 2.3、 、評評估、解估、解釋釋模式模型模式模型 上面得到的模式模型,有可能是沒有實際意義或沒有實用價值的,也有可能是其不能準(zhǔn)確反映數(shù)據(jù) 的真實意義,甚至在某些情況下是與事 實相反的,因此需要評估,確定哪些是有效的、有用的模式。評 估可以根據(jù)用戶多年的經(jīng)驗,有些模式也可以直接用數(shù)據(jù)來檢驗其準(zhǔn)確性。 這個步驟還包括把模式以 易于理解的方式呈現(xiàn)給用戶。 2.4、鞏固知、鞏固知識識 用戶理解的、并被認(rèn)為是符合實際和有價值的模式模型形成了知識。同時還要注意對知識做一 致性檢查,解決與以前得到的知識互相沖 突、矛盾的地方,使知識得到鞏固。 2.5、運用知、運用知識識 發(fā)現(xiàn)知

53、識是為了運用,如何使知識能被運用也是 kdd 的步驟之一。運用知識有兩種方法:一種是 只需看知識本身所描述的關(guān)系或結(jié)果,就 可以對決策提供支持;另一種是要求對新的數(shù)據(jù)運用知識,由 此可能產(chǎn)生新的問題,而需要對知識做進一步的優(yōu)化 三、三、數(shù)據(jù)挖掘的數(shù)據(jù)挖掘的模式模式 數(shù)據(jù)挖掘的任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)模式。模式是一個用語言 l 來表示的一個表達式 e,它可用來描述 數(shù)據(jù)集 f 中數(shù)據(jù)的特性,e 所描述的數(shù)據(jù)是集 合 f 的一個子集 fe。e 作為一個模式要求它比列舉數(shù)據(jù) 子集 fe 中所有元素的描述方法簡單。例如, “如果成績在 81 90 之間,則成績優(yōu)良”可稱 為一個模式, 而“如果成績?yōu)?81、

54、82、83、84、85、86、87、88、89 或 90,則成績優(yōu)良”就不能稱之為一個模式。 模式有很多種,按功能可分有兩大類:預(yù)測型(predictive)模式和描述型(descriptive)模式。 預(yù)測型模式是可以根據(jù)數(shù)據(jù)項的值精確確定某種結(jié)果的模式。挖掘預(yù)測型模式所使用的數(shù)據(jù)也都 是可以明確知道結(jié)果的。例如,根據(jù)各種 動物的資料,可以建立這樣的模式:凡是胎生的動物都是哺乳 類動物。當(dāng)有新的動物資料時,就可以根據(jù)這個模式判別此動物是否是哺乳動物。 描述型模式是對數(shù)據(jù)中存在的規(guī)則做一種描述,或者根據(jù)數(shù)據(jù)的相似性把數(shù)據(jù)分組。描述型模式不 能直接用于預(yù)測。例如,在地球上,70 的表面被水覆蓋,

55、30 是土地。 在實際應(yīng)用中,往往根據(jù)模式的實際作用細(xì)分為以下 6 種: 1、分、分類類模式模式 分類模式是一個分類函數(shù)( 分 類 器),能夠把數(shù)據(jù)集中的數(shù)據(jù)項映射到某個給定的類上。分類模 式往往表現(xiàn)為一棵分類樹,根據(jù)數(shù)據(jù)的 值從樹根開始搜索,沿著數(shù)據(jù)滿足的分支往上走,走到樹葉就能 確定類別。 2、回、回歸歸模式模式 回歸模式的函數(shù)定義與分類模式相似,它們的差別在于分類模式的預(yù)測值是離散的,回歸模式的預(yù) 測值是連續(xù)的。如給出某種動物的特征,可以用分類模式判定這種動物是哺乳動物還是鳥類;給出某個 人的教育情況、工作經(jīng)驗,可以用回歸模式判定這個人的年工資在哪個范圍內(nèi),是在 6000 元以下,還是

56、在 6000 元到 1 萬元之間,還是在 1 萬元以上。 3、 、時間時間序列模式序列模式 時間序列模式根據(jù)數(shù)據(jù)隨時間變化的趨勢預(yù)測將來的值。這里要考慮到時間的特殊性質(zhì),像一些周 期性的時間定義如星期、月、季節(jié)、年 等,不同的日子如節(jié)假日可能造成的影響,日期本身的計算方法, 還有一些需要特殊考慮的地方如時間前后的相關(guān)性(過去的事情對將來有 多大的影響力)等。只有充分 考慮時間因素,利用現(xiàn)有數(shù)據(jù)隨時間變化的一系列的值,才能更好地預(yù)測將來的值。 4、聚、聚類類模式模式 聚類模式把數(shù)據(jù)劃分到不同的組中,組之間的差別盡可能大,組內(nèi)的差別盡可能小。與分類模式不 同,進行聚類前并不知道將要劃分成幾 個組和

57、什么樣的組,也不知道根據(jù)哪一(幾)個數(shù)據(jù)項來定義組。 一般來說,業(yè)務(wù)知識豐富的人應(yīng)該可以理解這些組的含義,如果產(chǎn)生的模式無法理解或不可用,則該模 式可能是無意義的,需要回到上階段重新組織數(shù)據(jù)。 5、關(guān)、關(guān)聯(lián)聯(lián)模式模式 關(guān)聯(lián)模式是數(shù)據(jù)項之間的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是如下形式的一種規(guī)則:“在無力償還貸款的人當(dāng)中, 60的人的月收入在 3000 元以下。 ” 6、序列模式、序列模式 序列模式與關(guān)聯(lián)模式相仿,而把數(shù)據(jù)之間的關(guān)聯(lián)性與時間聯(lián)系起來。為了發(fā)現(xiàn)序列模式,不僅需要 知道事件是否發(fā)生,而且需要確定事件 發(fā)生的時間。例如,在購買彩電的人們當(dāng)中,60的人會在 3 個 月內(nèi)購買影碟機 四、數(shù)據(jù)挖掘的方法四、

58、數(shù)據(jù)挖掘的方法 4.1、多、多層層次數(shù)據(jù)次數(shù)據(jù)匯總歸納匯總歸納 數(shù)據(jù)庫中的數(shù)據(jù)和對象經(jīng)常包含原始概念層上的詳細(xì)信息,將一個數(shù)據(jù)集合歸納成高概念層次信息 的數(shù)據(jù)挖掘技術(shù)被稱為數(shù)據(jù)匯總(data generalization) 。概念匯總將數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)由低概念層抽 象到高概念層,主要有數(shù)據(jù)立方體和面向?qū)傩詢煞N方法。 1、數(shù)據(jù)立方體(多維數(shù)據(jù)庫)方法的主要思想是將那些經(jīng)常查詢、代價高昂的運算,如 count、sum、average、max、min 等匯總函數(shù)具體化,并存儲在一個多維數(shù)據(jù)庫中,為決策支持、知識發(fā)現(xiàn) 及其它應(yīng)用服務(wù)。 2、面向?qū)傩缘某槿》椒ㄓ靡环N類 sql 數(shù)據(jù)采掘查詢語言表達查詢

59、要求,收集相關(guān)數(shù)據(jù),并利用屬性 刪除、概念層次樹、門檻控制、數(shù)量傳播及集合函數(shù)等技術(shù)進行數(shù)據(jù)匯總。匯總數(shù)據(jù)用匯總關(guān)系表示,可 以將數(shù)據(jù)轉(zhuǎn)化為不同類型的知識,或?qū)⑵溆成涑刹煌谋?并從中抽取特征、判別式、分類等相關(guān)規(guī)則。 面向?qū)傩猿槿〉母拍顚哟螛涫侵改硨傩运哂械膹木唧w概念值到某概念類的層次關(guān)系樹。概念層次可 由相關(guān)領(lǐng)域?qū)<腋鶕?jù)屬性的領(lǐng)域知識提供,按特定屬性的概念層次從一般到具體排序。樹的根結(jié)點是用 any 表示最一般的概念,葉結(jié)點是最具體的概念即屬性的具體值,例如屬性 city 的概念層次樹如圖 4 所 示。概念層次為歸納分析提供有用信息,將概念組織為不同層次,從而在高概念層次上用簡單、確切的

60、公 式表示規(guī)則。 cai cencone 利用屬性值的概念層次關(guān)系,提出了面向?qū)傩缘臉涮嵘惴?并得到一階謂詞邏輯表示 的規(guī)則。面向?qū)傩缘臉涮嵘椒ㄖ饕菍δ繕?biāo)類所有元組的屬性值由低到高提升,使原來若干屬性值不 同的元組成為相同元組,進行合并,直到全部元組不超過最大規(guī)則數(shù),再將其轉(zhuǎn)化為一階謂詞邏輯表示的 規(guī)則。 與面向元組的歸納方法相比,面向?qū)傩缘臍w納方法搜索空間減少,運行效率顯著提高 ;對冗余元組的 測試在概括屬性的所有值后進行,提高了測試效率;最壞時間復(fù)雜性為 o(n logp),n 為元組個數(shù),p 為最終 概括關(guān)系表中的元組個數(shù)。處理過程可利用關(guān)系數(shù)據(jù)庫的傳統(tǒng)操作。此方法已在數(shù)據(jù)挖掘系統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論