版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、關(guān)于數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理的概述一、數(shù)據(jù)倉庫及數(shù)據(jù)庫的概念及其特點(diǎn)1、數(shù)據(jù)倉庫的概念及其特點(diǎn)“什么是數(shù)據(jù)倉庫?”這恐怕是每一個剛剛開始接觸數(shù)據(jù)倉庫的技術(shù)人員都會提出的 一個問題。 有人認(rèn)為數(shù)據(jù)倉庫就是一個大的數(shù)據(jù)庫, 也有人認(rèn)為數(shù)據(jù)倉庫是一項(xiàng)數(shù)據(jù)管理和 分析的技術(shù)。這些定義都從一定的側(cè)面反映了數(shù)據(jù)倉庫的概念,但并不全面。目前,業(yè)界公認(rèn)的數(shù)據(jù)倉庫定義是由數(shù)據(jù)倉庫之父 W.H.Inmon 在 Building the Data Warehouse一書中給出:“數(shù)據(jù)倉庫是面向主題的、集成的、隨時間變化的、穩(wěn)定的數(shù)據(jù)集 合,用以支持管理中的決策制定過程。 ”正如 Inmon 所描述的,數(shù)據(jù)倉庫具有如下
2、特點(diǎn):(1) 數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的 與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用進(jìn)行數(shù)據(jù)組織的特點(diǎn)相對應(yīng), 數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進(jìn)行組織的。所謂主題, 是指在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、 歸類并進(jìn)行分析利用 的抽象。在邏輯意義上,它是對應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對象。(2) 數(shù)據(jù)倉庫的數(shù)據(jù)是集成的 建立數(shù)據(jù)倉庫的主要目的就是為用戶提供易于訪問的商業(yè)信息。 為了減少用戶查詢的響應(yīng)時間,應(yīng)該把數(shù)據(jù)從數(shù)據(jù)源中提取出來,放到數(shù)據(jù)倉庫中去。在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前, 必須經(jīng)過加工和集成,使原始數(shù)據(jù)結(jié)構(gòu)做一個從面向應(yīng)用到面向主題的大轉(zhuǎn)變。(3) 數(shù)據(jù)倉庫的數(shù)據(jù)是不可更新的 數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決
3、策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一般情況下并不進(jìn)行修改操作。數(shù)據(jù)倉庫的數(shù)據(jù)不可更新使得數(shù)據(jù)倉庫管理系統(tǒng)DWMS 相比數(shù)據(jù)庫管理系統(tǒng) DBMS 而言要簡單得多,同時也使我們可以對數(shù)據(jù)倉庫進(jìn)行最大限度的性能優(yōu) 化。(4) 數(shù)據(jù)倉庫的數(shù)據(jù)是隨時間不斷變化的 數(shù)據(jù)倉庫中的數(shù)據(jù)不可更新是針對應(yīng)用來說的,也就是說,數(shù)據(jù)倉庫的用戶進(jìn)行分析處理時是不進(jìn)行更新操作的。 但并不是說, 在從數(shù)據(jù)集成輸入數(shù)據(jù)倉庫開始到最終被刪除的整 個數(shù)據(jù)生存周期中, 所有的數(shù)據(jù)倉庫數(shù)據(jù)都是永遠(yuǎn)不變的。 數(shù)據(jù)倉庫會隨時間的變化不斷增 加新的數(shù)據(jù)內(nèi)容和刪去過時的數(shù)據(jù)內(nèi)容。當(dāng)然,數(shù)據(jù)倉庫通常還具有一些其它的特點(diǎn), 如數(shù)據(jù)倉庫
4、中的數(shù)據(jù)量很大、 數(shù)據(jù)倉庫對 系統(tǒng)軟硬件的要求較高等等。2、數(shù)據(jù)倉庫與數(shù)據(jù)庫的關(guān)系及比較傳統(tǒng)的數(shù)據(jù)庫作為數(shù)據(jù)管理的手段, 主要面向一個或一組記錄的查詢和修改, 為企業(yè)的 特定應(yīng)用服務(wù), 人們關(guān)心的是響應(yīng)時間、 數(shù)據(jù)的安全性和完整性。 為此要求數(shù)據(jù)庫提供完善 的數(shù)據(jù)鎖、事務(wù)日志和并發(fā)控制等機(jī)制,以便安全可靠地處理具體業(yè)務(wù)。數(shù)據(jù)倉庫是在數(shù)據(jù)庫基礎(chǔ)之上發(fā)展起來的, 數(shù)據(jù)倉庫的作用就是為復(fù)雜的數(shù)據(jù)分析和高 層決策提供支持。 盡管現(xiàn)有的數(shù)據(jù)倉庫大多還是采用傳統(tǒng)的關(guān)系數(shù)據(jù)庫或改進(jìn)后的關(guān)系數(shù)據(jù) 庫來實(shí)現(xiàn), 但由于兩者面向的應(yīng)用截然不同, 因此不管是在數(shù)據(jù)模型的設(shè)計(jì)上還是在數(shù)據(jù)的 物理組織上都存在著相當(dāng)大的差
5、異,如表 1 所示。表1數(shù)據(jù)倉庫與數(shù)據(jù)庫的對比表對比內(nèi)容數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)目標(biāo)分析應(yīng)用面向業(yè)務(wù)操作程序、重復(fù)處理數(shù)據(jù)內(nèi)容歷史的、綜合的、提煉的數(shù)據(jù)當(dāng)前細(xì)節(jié)數(shù)據(jù)數(shù)據(jù)特征相對穩(wěn)定動態(tài)更新數(shù)據(jù)組織面向主題面向應(yīng)用數(shù)據(jù)有效性代表歷史的數(shù)據(jù)存取時準(zhǔn)確訪問特點(diǎn)分析驅(qū)動(訪問路徑靈活多變)事務(wù)驅(qū)動(訪問路徑相對固定)數(shù)據(jù)訪問量一次操作數(shù)據(jù)量大一次操作數(shù)據(jù)量小使用頻率中到低高響應(yīng)時間要求數(shù)秒或數(shù)分鐘以上秒級、基于數(shù)據(jù)倉庫的決策支持系統(tǒng)自從Inmon首次提出數(shù)據(jù)倉庫概念以后,數(shù)據(jù)倉庫及其相關(guān)技術(shù)日益成熟,客觀上帶動了高性能和并行技術(shù)以及數(shù)據(jù)庫中的知識發(fā)現(xiàn)等多領(lǐng)域的巨大進(jìn)步。數(shù)據(jù)庫技術(shù)的發(fā)展和激烈的市場競爭為解決
6、DSS問題提供了可能,人們開始提出了以數(shù)據(jù)倉庫為基礎(chǔ)、OLAP和數(shù)據(jù)挖掘工具為手段的一整套可操作、可實(shí)施的解決方案。以數(shù)據(jù)倉庫為核心的決策支持系統(tǒng)的結(jié)構(gòu)如圖1所示。管理 工 具/、圖1基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的結(jié)構(gòu)數(shù)據(jù)庫、數(shù)據(jù)倉庫和共用數(shù)據(jù)接口是系統(tǒng)的數(shù)據(jù)管理部分,構(gòu)成了整個系統(tǒng)的核心和基礎(chǔ),為上層應(yīng)用提供數(shù)據(jù)。方法庫、模型庫、知識庫、數(shù)據(jù)挖掘工具、多維分析工具(OLAP工具)和統(tǒng)計(jì)查詢工具共同構(gòu)成了前端分析工具層,相互配合協(xié)調(diào),完成用戶的決策處理任務(wù)。管理工具主要完成系統(tǒng)的模型維護(hù)、數(shù)據(jù)倉庫元數(shù)據(jù)管理、數(shù)據(jù)提取任務(wù)的管理等任務(wù)。在這種新的DSS構(gòu)架中,數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘和數(shù)據(jù)可視
7、化技術(shù)具有內(nèi)在的統(tǒng)一性,很好地解決了相互之間的銜接問題。數(shù)據(jù)倉庫為OLAP和數(shù)據(jù)挖掘提供充實(shí)可靠的數(shù)據(jù),數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識可以用于指導(dǎo)OLAP的多維分析,而 OLAP分析得出的新知識也可以補(bǔ)充到系統(tǒng)的知識庫中。如下圖:數(shù)據(jù)倉庫與OLAP的關(guān)系。第三懇第二層第一層客戶端數(shù)據(jù)抽脫就維化處理這種新的DSS構(gòu)架的重要意義在于重新揭示了信息的本質(zhì),表明了信息系統(tǒng)的設(shè)計(jì)觀 念從處理驅(qū)動到數(shù)據(jù)驅(qū)動的轉(zhuǎn)變。過去的信息系統(tǒng)以大量復(fù)雜的處理過程和算法為特征,數(shù)據(jù)在這些處理中產(chǎn)生。而在未來的時代,信息的重點(diǎn)將轉(zhuǎn)移到數(shù)據(jù)模式分析,信息處 理技術(shù)將隨數(shù)據(jù)分析處理的需求而不斷進(jìn)步。三、聯(lián)機(jī)分析處理(OLAP )概述聯(lián)機(jī)
8、分析處理,英文名稱為On-Li ne An alysis Process ing,簡寫為。隨著數(shù)據(jù)庫技術(shù)的發(fā)展和應(yīng)用,數(shù)據(jù)庫存儲的數(shù)據(jù)量從20世紀(jì)80年代的兆(M )字節(jié)及千兆(G)字節(jié)過渡到現(xiàn)在的兆兆(T)字節(jié)和千兆兆( P )字節(jié),同時,用戶的查詢需求也越來越復(fù)雜,涉及的已不僅是查詢或操縱一張關(guān)系表中的一條或幾條記錄,而且要對多 張表中千萬條記錄的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和信息綜合,關(guān)系數(shù)據(jù)庫系統(tǒng)已不能全部滿足這一要求。操作型應(yīng)用和分析型應(yīng)用,特別是在性能上難以兩全,人們常常在關(guān)系數(shù) 據(jù)庫中放寬了對冗余的限制,引入了統(tǒng)計(jì)及綜合數(shù)據(jù),但這些統(tǒng)計(jì)綜合數(shù)據(jù)的應(yīng)用邏 輯是分散而雜亂的、非系統(tǒng)化的,因此分析
9、功能有限,不靈活,維護(hù)困難。在國外, 不少軟件廠商采取了發(fā)展其前端產(chǎn)品來彌補(bǔ)關(guān)系數(shù)據(jù)庫管理系統(tǒng)支持的不足,他們通過專門的數(shù)據(jù)綜合引擎,輔之以更加直觀的數(shù)據(jù)訪問界面,力圖統(tǒng)一分散的公共應(yīng)用 邏輯,在短時間內(nèi)響應(yīng)非數(shù)據(jù)處理專業(yè)人員的復(fù)雜查詢要求。1993年,E.F.Codd (關(guān)系數(shù)據(jù)庫之父)將這類技術(shù)定義為聯(lián)機(jī)分析處理”。聯(lián)機(jī)分析處理是共享多維信息的、針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析的快速軟件技術(shù)。它通過對信息的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取, 允許管理決策人員對數(shù)據(jù)進(jìn)行深入觀察。決策數(shù)據(jù)是多維數(shù)據(jù),多維數(shù)據(jù)就是決策的 主要內(nèi)容。OLAP專門設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)重對
10、決策人員和高層管理人 員的決策支持, 可以根據(jù)分析人員的要求快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀而易懂的形式將查詢結(jié)果提供給決策人員,以便他們準(zhǔn)確掌握企業(yè)(公司)的經(jīng)營狀況,了解對象的需求,制定正確的方案。聯(lián)機(jī)分析處理具有靈活的分析功能、直觀的數(shù)據(jù)操作和分析結(jié)果可視化表示等突出優(yōu)點(diǎn),從而使用戶對基于大量復(fù)雜數(shù)據(jù)的分析變得輕松而高效,以利于迅速做出正確判斷。它可用于證實(shí)人們提出的復(fù)雜的假設(shè),其結(jié)果是以圖形或者表格的形式來表示的對信息的總結(jié)。它并不將異常信息標(biāo)記出來,是一種知識證實(shí)的方法。它可以根 據(jù)分析人員的要求,迅速靈活地對當(dāng)量的數(shù)據(jù)進(jìn)行復(fù)雜的查詢處理,并以直觀的容易 理解的
11、形式將查詢結(jié)果提供給各種決策人員,使他們能夠迅速準(zhǔn)確地掌握企業(yè)的運(yùn)營情況,了解市場的需求。OLAP具有兩個重要的特點(diǎn):一是在線性,體現(xiàn)為對用戶請求的快速響應(yīng)和交互式操 作;二是多維分析,也就是說,OLAP展現(xiàn)在用戶面前的是一個多維視圖,使用者可以對其進(jìn)行各種多維分析操作。下面我們具體介紹OLAP的多維分析特性。在實(shí)際的決策制定過程中, 決策者需要的不是某一指標(biāo)單一的值,而是希望從多個角度或者從不同的考察范圍來觀察某一指標(biāo)或多個指標(biāo),通過分析對比,從而找出這些指標(biāo)間隱藏的內(nèi)在關(guān)系,并預(yù)測這些指標(biāo)的發(fā)展趨勢,即決策所需的數(shù)據(jù)總是和一些分析角度和分析指標(biāo)有關(guān)。OLAP的主要工作就是將數(shù)據(jù)倉庫中的數(shù)據(jù)
12、轉(zhuǎn)換到多維數(shù)據(jù)結(jié)構(gòu)中,并且對上述多維數(shù)據(jù)結(jié)構(gòu)執(zhí)行有效且非常復(fù)雜的多維查詢。四、OLAP的多維分析以及特性1、基本概念維維是人們觀察數(shù)據(jù)的特定角度,它是一種高層次的類型劃分。例如,企業(yè)常常關(guān)心產(chǎn)品銷售數(shù)據(jù)隨時間推移而產(chǎn)生的變化情況,這時他是從時間的角度來觀察產(chǎn)品的銷售,所以時間就是一個維(時間維)。(2) 維的層次人們觀察數(shù)據(jù)的某個特定角度(維)還可以存在細(xì)節(jié)程度不同的多個描述方面,我們稱這多個描述方面為維的層次。例如描述時間維時,可以從日、月、季度、年等不同的層次來 描述,那么日、月、季度、年就是時間維的層次。同一維的維層次結(jié)構(gòu)可簡可繁,這主要是因?yàn)椴煌治鰬?yīng)用對數(shù)據(jù)組織的詳略程度的要 求不同
13、。在某些維中可能存在著完全不同的幾條層次路徑,例如時間維通常存在日歷層次路徑和財(cái)政層次路徑,如圖 2所示。圖2時間維的層次路徑圖(3) 維成員維成員是維的一個取值。如果一個維是多層次的,那么該維的維成員是在不同維層次取值的組合。例如,我們考慮時間維具有日、月、年三個層次,那么“2002年12月10日”就構(gòu)成了時間維的一個維成員。一個維成員并不一定在每個維層次上都要取值,例如,“ 2002年12月”、“ 2002年”都是時間維的維成員。(4) 度量度量是我們需要分析的目標(biāo)數(shù)據(jù),有時也被稱為變量。 例如,用來反映一個企業(yè)經(jīng)營效益好壞的銷售量、銷售額和庫存量等。(5) 多維數(shù)據(jù)集多維數(shù)據(jù)集是 OLA
14、P的核心,有時也稱為立方體或超立方。多維數(shù)據(jù)集是由一組維和度量組成的,可以用一個多維數(shù)組來表示:(維1,維2,維n,度量)。例如,按時間、地區(qū)、專利類型組織起來的專利申請量多維數(shù)據(jù)集可以表示為:(時間,地區(qū),專利類型,專利申請量)。對于三維數(shù)據(jù)集我們可采用圖3的可視化方式表達(dá)得更清楚。如果我們在上述三維數(shù)據(jù)集的基礎(chǔ)上再添加申請人類型維,就得到一個四維結(jié)構(gòu),當(dāng)然這種維數(shù)超過三維的多維數(shù)據(jù)結(jié)構(gòu)很難用可視化的方式表達(dá)清楚。(6)數(shù)據(jù)單元多維數(shù)據(jù)集的取值為數(shù)據(jù)單元。當(dāng)在多維數(shù)據(jù)集中的每個維上都選中一個維成員以后,這些維成員的組合就唯一確定了度量的值。數(shù)據(jù)單元也就可以表示為:(維1成員,維2成員,維n成
15、員,度量值)。例如,在圖2中時間、地區(qū)和專利類型維上分別選取維成 員“1999年”,“北京”,“發(fā)明”,則可以唯一確定觀察度量 “專利申請量”的一個取值2062, 這樣該數(shù)據(jù)單元可表示為(1999年,北京,發(fā)明,2062)。2、OLAP的多維分析操作多維分析操作是指對以多維形式組織起來的數(shù)據(jù)采取切片、切塊、旋轉(zhuǎn)等各種分析操作,以求剖析數(shù)據(jù)、使最終用戶能從多個角度、多個側(cè)面去觀察數(shù)據(jù)庫中的數(shù)據(jù)、 從而深入地了 解包含在數(shù)據(jù)中的信息、內(nèi)涵。多維分析的基本操作有:(1)切片(Slice )切片操作是在給定的多維數(shù)據(jù)集的某一個維上選定一維成員,從而得到一個多維數(shù)據(jù)子集的動作。如果有(維 1,維2,,維
16、i,,維n,度量)多維數(shù)據(jù)集,對維i選定了某個維成員,那么(維1,維2,維i成員,,維n,度量)就是多維數(shù)據(jù)集(維 1,維2,,維i,,維n,度量)在維i上的一個切片。對于圖2.4所示的三維數(shù)據(jù)集,我們選定專利類型維上的一個維成員(設(shè)為“發(fā)明”),就得到了在專利類型維上的一個切片,如圖4所示。選定專利類型維的維成員“發(fā)明”時間維專利申請狀況地區(qū)維地區(qū)維發(fā)明專利申請狀況時間維圖4切片很明顯,一次切片使原來的維數(shù)減一,所以得到的切片并不一定是二維的“平面”,其維數(shù)取決于原來的多維數(shù)據(jù)集的維數(shù)。切塊(Dice )即限制多維數(shù)據(jù)集的在多維數(shù)據(jù)集的某一維上選定某一區(qū)間的維成員的操作稱為切塊, 某一維的取
17、值區(qū)間。(3)旋轉(zhuǎn)(Rotate )旋轉(zhuǎn)是一種目視操作, 它轉(zhuǎn)動多維數(shù)據(jù)集的視角, 提供數(shù)據(jù)的替代表示。 旋轉(zhuǎn)操作可以 將多維數(shù)據(jù)集的不同維進(jìn)行交換顯示,從而使用戶更加直觀地觀察數(shù)據(jù)集中不同維之間的關(guān)系。圖5的例子是把一個橫向?yàn)榈貐^(qū), 縱向?yàn)闀r間和專利類型的報(bào)表旋轉(zhuǎn)成為橫向?yàn)闀r間和 地區(qū),縱向?yàn)閷@愋偷膱?bào)表。地區(qū)f北京上海將行維交-時間專利類型申請量申請量2000年換為列維2001 年時間-2000年2001 年地區(qū)-北京上海專利類型申請量申請量發(fā)明實(shí)用新型外觀設(shè)計(jì)圖5旋轉(zhuǎn)鉆?。―rill )鉆取分為向下鉆取(drill-down )和向上鉆?。╠rill-up )。下鉆操作是由不太詳細(xì)的高
18、層 次匯總數(shù)據(jù)分解為更詳細(xì)的低層次數(shù)據(jù)。上鉆是下鉆的逆操作,它是通過一個維的概念分層向上攀升,或者通過維歸約,在多維數(shù)據(jù)集上進(jìn)行聚集。在圖6中,(a)的例子是對時間維中的維成員“2000年”下鉆以獲取2000年各月的申請量數(shù)據(jù)。(b)的例子是對按月匯總數(shù)據(jù)的報(bào)表上鉆以獲取按年匯總數(shù)據(jù)的報(bào)表。地區(qū)一北京上海時間4申請量申請量2000年2001 年地區(qū)-北京上海時間4申請量申請量2000年2000年 1 月2000年2月地區(qū)-北京上海時間4申請量申請量2000年 1 月2000年 2 月地區(qū)北京上海時間1申請量申請量2000年2001 年圖6鉆取(5) 其它OLAP操作在OLAP分析操作中,還有鉆
19、過”(drill-across )和鉆透” (drill-through )等。鉆過”涉及多個事實(shí)表的查詢;“鉆透”操作使用關(guān)系 SQL機(jī)制,鉆到多維數(shù)據(jù)集的底層,到后端關(guān)系表。其它的OLAP操作還包括計(jì)算統(tǒng)計(jì)表中的最高或最低N項(xiàng)、平均值、移動平均值、增長率、各類百分比等。3、多維分析特性1快速性用戶對OLAP的快速反應(yīng)能力有很高的要求。2. 可分析性.OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的邏輯與統(tǒng)計(jì)分析3. 多維性.多維性是 OLAP的關(guān)鍵屬性。系統(tǒng)能夠提供對數(shù)據(jù)分析的多維視圖和多維 分析。4. 信息型.不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲在何處,OLAP系統(tǒng)應(yīng)能及時獲得信息, 并且管理大容量信息。五
20、、OLAP的12準(zhǔn)則準(zhǔn)則1: OLAP模型必須提供多維概念視圖。OLAP必須能夠提供多維概念的視圖,從而使分析員能夠從多種角度考查和分析系統(tǒng) (企業(yè))的運(yùn)營情況。 OLAP必須實(shí)現(xiàn)數(shù)據(jù)切片、切塊、旋轉(zhuǎn)、鉆取、聚合等基本的數(shù)據(jù)分 析動作。準(zhǔn)則2:透明性準(zhǔn)則透明性包括兩層含義,一是 OLAP在體系結(jié)構(gòu)中的位置對用戶是透明的,二是OLAP的數(shù)據(jù)源對用戶應(yīng)當(dāng)是透明的, 用戶只需使用熟悉的查詢工具進(jìn)行查詢, 而不必關(guān)心OLAP 提供的數(shù)據(jù)是從何處抽取來的。準(zhǔn)則3:存取能力準(zhǔn)則OLAP系統(tǒng)不僅能進(jìn)行開放的存取,而且還提供高效的存取策略。準(zhǔn)則4:穩(wěn)定的報(bào)表性能即當(dāng)數(shù)據(jù)維OLAP產(chǎn)品對于數(shù)據(jù)維數(shù)和數(shù)據(jù)維度層次
21、的增加應(yīng)當(dāng)保持比較穩(wěn)定的性能,數(shù)和數(shù)據(jù)維度層次增加時,提供給最終分析員的報(bào)表能力和響應(yīng)速度不應(yīng)有明顯的降低。準(zhǔn)則5:客戶/服務(wù)器體系結(jié)構(gòu)OLAP建立在客戶/服務(wù)器的體系結(jié)構(gòu)下,服務(wù)器端負(fù)責(zé)數(shù)據(jù)的抽取、數(shù)據(jù)存取、數(shù)據(jù)管理等復(fù)雜的功能,客戶端實(shí)現(xiàn)較為簡單的應(yīng)用邏輯和用戶界面。準(zhǔn)則6: Genertic dimensionality-維的等同性準(zhǔn)則每個數(shù)據(jù)維度應(yīng)該具有等同的結(jié)構(gòu)和操作能力準(zhǔn)則7:動態(tài)稀疏矩陣處理準(zhǔn)則OLAP需要提供高效存取數(shù)據(jù)的能力,動態(tài)稀疏矩陣處理是實(shí)現(xiàn)高效存取的重要技術(shù)。該準(zhǔn)則包括兩層含義:第一,對任意給定的稀疏矩陣,存在一個最優(yōu)的物理視圖,該視圖能提供最大的內(nèi)存效率和矩陣處理能
22、力;稀疏度是數(shù)據(jù)分布的一個特征,不能適應(yīng)稀疏度要求的數(shù)據(jù)分布,將會導(dǎo)致快速、高效操作的失效。第二, OLAP工具應(yīng)當(dāng)將基本物理數(shù)據(jù)單元 配置給可能出現(xiàn)的維的子集,同時還需要提供多種動態(tài)可變的存取機(jī)制。比如B-Tree索引、散列、直接地址計(jì)算或者是多種技術(shù)的綜合。使用這些技術(shù)的好處是存取速度將不會受數(shù)據(jù)維度的增減、數(shù)據(jù)集的大小而發(fā)生大的波動。準(zhǔn)則&多用戶支持能力準(zhǔn)則多個用戶能夠同時對一個 OLAP分析模型進(jìn)行并行操作,或者能夠同時在同一個企業(yè) 數(shù)據(jù)上建立不同的分析模型,為此 OLAP工具應(yīng)當(dāng)提供并發(fā)訪問功能,并且需要確保數(shù)據(jù) 的一致性、完整性和安全性。準(zhǔn)則9:非受限的跨維操作在多維數(shù)據(jù)分析中,所
23、有維的生成和處理都是平等的。如果用戶定義了維度的層次關(guān)系,則OLAP產(chǎn)品必須自動地提供相關(guān)層次綜合數(shù)據(jù)的計(jì)算方法,而不是要求最終用戶定義計(jì) 算的行為。準(zhǔn)則10:直觀的數(shù)據(jù)處理直觀的數(shù)據(jù)處理要求用戶以直觀易懂的方式對數(shù)據(jù)進(jìn)行操作,從而使數(shù)據(jù)的內(nèi)涵更容易為用戶所感知。準(zhǔn)則11:靈活的報(bào)表生成報(bào)表的格式可以按照任意維度、任意層次的組合來生成,這實(shí)際是對準(zhǔn)則1的另一種補(bǔ) 充。準(zhǔn)則12:非受限的維與維的層次OLAP工具應(yīng)當(dāng)支持不少于 15個維度的數(shù)據(jù)模型,而且應(yīng)當(dāng)讓數(shù)據(jù)分析人員可以進(jìn)行透明性準(zhǔn)則圖7 OLAP的12準(zhǔn)則關(guān)系六、OLAP的分類如圖8所示按照不同方式對 OLAP進(jìn)行的分類:圖8 OLAP的分
24、類MOLAP和ROLAP (關(guān)系型聯(lián)機(jī)分析處理)是目前使用最多的兩種 OLAP技術(shù),由于 它們完全不同的數(shù)據(jù)表示和存儲方案, 從而導(dǎo)致了兩者在不同方面各有優(yōu)缺點(diǎn)。 下面我們從 三個方面來對它們進(jìn)行比較:(1) 查詢性能MOLAP的查詢響應(yīng)一般較快,這主要是因?yàn)槎嗑S數(shù)據(jù)庫在裝載數(shù)據(jù)時,預(yù)先做了大量 的計(jì)算。而在ROLAP中進(jìn)行查詢分析,通常要在事實(shí)表和維表之間建立復(fù)雜的表連接,響 應(yīng)時間往往難以預(yù)計(jì)。雖然 ROLAP可以通過構(gòu)造索引和聚集表來提高響應(yīng)的速度,但查詢 性能仍然難以預(yù)測。(2) 分析能力由于MOLAP能夠清晰地表達(dá) OLAP中的多維數(shù)據(jù)概念,具有分析的優(yōu)勢。但多維數(shù) 據(jù)庫作為一種新興
25、技術(shù),還缺乏統(tǒng)一的標(biāo)準(zhǔn),每個多維數(shù)據(jù)庫都有自己的專用客戶端接口。 ROLAP由于受到SQL語言的約束,分析效果往往不如MOLAP。用戶的分析請求首先由 ROLAP 服務(wù)器轉(zhuǎn)化為 SQL 語句,再交由 RDBMS 處理, RDBMS 返回的結(jié)果通常還需要附 加的應(yīng)用程序進(jìn)行多維處理后才返回給用戶。(3)數(shù)據(jù)存儲和管理MOLAP 以多維數(shù)據(jù)庫為核心,數(shù)據(jù)管理主要以維及維成員為主,大多數(shù)多維數(shù)據(jù)庫產(chǎn) 品提供了單元級控制, 數(shù)據(jù)封鎖可以達(dá)到單元級。 這些管理控制均由多維數(shù)據(jù)庫中的數(shù)據(jù)管 理層來實(shí)現(xiàn),一般不易繞過。 ROLAP 以傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)為基礎(chǔ),安全性及存取控制 基于表,封鎖基于表、頁面或行
26、。由于這些同應(yīng)用中的多維概念不直接相關(guān), ROLAP 工具 必須提供額外的安全及存取控制管理, 并且用戶可能繞過 ROLAP 的安全機(jī)制直接訪問數(shù)據(jù) 庫中的數(shù)據(jù)。MOLAP 由于數(shù)據(jù)預(yù)處理程度高,隨著維數(shù)的增加會使多維數(shù)據(jù)庫的規(guī)模急劇增長,不 能很好地適應(yīng)維數(shù)的動態(tài)變化。 而 ROLAP 由于充分利用了現(xiàn)有關(guān)系數(shù)據(jù)庫的成熟技術(shù), 預(yù) 綜合程度也具有很大的靈活性,處理大數(shù)據(jù)量和多維數(shù)的能力明顯強(qiáng)于 MOLAP 。同樣, 由于 MOLAP 預(yù)綜合程度高, 當(dāng)數(shù)據(jù)或計(jì)算變化頻繁時, 有時還需要重新構(gòu)建多 維數(shù)據(jù)庫,因此 MOLAP 所需要的數(shù)據(jù)加載時間也比較長。相比之下, ROLAP 的數(shù)據(jù)預(yù)處 理程度比較低,數(shù)據(jù)加載時間也較短,能保持較快的數(shù)據(jù)刷新周期。從上面的分析中我們可以看出 MOLAP 和 ROLAP 各有優(yōu)缺點(diǎn), 但它們提供給用戶的分 析功能基本上是一致的。 在設(shè)計(jì) OLAP 時,是采用 MOLAP 還是采用 ROLAP 需要根據(jù)具體 情況而定, 但應(yīng)用的規(guī)模是一個主要的因素。 如果需要建立一個大型的、 功能復(fù)雜的企業(yè)級 OLAP 應(yīng)用,最好選擇 ROLAP 。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年金融租賃產(chǎn)品委托借貸居間合同范本3篇
- 2025年新型建筑外架施工勞務(wù)分包合同模板9篇
- 2025年水產(chǎn)養(yǎng)殖場養(yǎng)殖廢棄物處理與環(huán)保技術(shù)引進(jìn)合同3篇
- 2025年陶瓷水杯采購與市場渠道建設(shè)合同3篇
- 二零二五年度美發(fā)店美容美發(fā)行業(yè)投資咨詢與評估合同4篇
- 二零二五年度民政局官方版自愿離婚協(xié)議書及子女撫養(yǎng)協(xié)議4篇
- 二零二五版文化旅游用地租賃及項(xiàng)目合作協(xié)議3篇
- 保險(xiǎn)賠償流程解析模板
- 鋼梯制作安裝施工方案
- 2025年度個人旅游貸款合同樣本11篇
- 油氣行業(yè)人才需求預(yù)測-洞察分析
- DB34∕T 4010-2021 水利工程外觀質(zhì)量評定規(guī)程
- 2024年內(nèi)蒙古中考英語試卷五套合卷附答案
- 2024年電工(高級)證考試題庫及答案
- 華為集團(tuán)干部管理
- 圖書館前臺接待工作總結(jié)
- 衛(wèi)生院藥品管理制度
- 理論力學(xué)智慧樹知到期末考試答案章節(jié)答案2024年中國石油大學(xué)(華東)
- 2024老年人靜脈血栓栓塞癥防治中國專家共識(完整版)
- 四年級上冊脫式計(jì)算100題及答案
- 上海市12校2023-2024學(xué)年高考生物一模試卷含解析
評論
0/150
提交評論