OLAP和數(shù)據(jù)倉庫_第1頁
OLAP和數(shù)據(jù)倉庫_第2頁
OLAP和數(shù)據(jù)倉庫_第3頁
OLAP和數(shù)據(jù)倉庫_第4頁
OLAP和數(shù)據(jù)倉庫_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、目錄 TOC o 1-5 h z HYPERLINK l bookmark5 o Current Document 摘要2 HYPERLINK l bookmark8 o Current Document 一、數(shù)據(jù)倉庫和OLAP的特點分析21.數(shù)據(jù)倉庫22.OLAP2 HYPERLINK l bookmark11 o Current Document 二、數(shù)據(jù)倉庫和OLAP在發(fā)展過程中的關(guān)聯(lián)關(guān)系3 HYPERLINK l bookmark15 o Current Document 三、針對OLAP的數(shù)據(jù)倉庫模型4 HYPERLINK l bookmark19 o Current Documen

2、t 四、基于數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘的決策支持系統(tǒng)體系結(jié)構(gòu)設(shè)計5 HYPERLINK l bookmark26 o Current Document 結(jié)束語5摘要數(shù)據(jù)倉庫從多個同構(gòu)或異構(gòu)的傳統(tǒng)數(shù)據(jù)庫中獲取原始數(shù)據(jù),先按輔助決策 的主題要求形成當前基本數(shù)據(jù)層,再按綜合決策的要求形成綜合數(shù)據(jù)層,實現(xiàn)了 操作型數(shù)據(jù)與決策環(huán)境的分離,為決策支持系統(tǒng)提供了理想的數(shù)據(jù)組織形式,解 決了決策支持系統(tǒng)發(fā)展中的一大難題。OLAP(聯(lián)機分析處理)作為數(shù)據(jù)分析工具,與數(shù)據(jù)倉庫進行有效的結(jié)合,加上 數(shù)據(jù)挖掘,構(gòu)成了新型的決策支持系統(tǒng)的基本框架。數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖 掘從發(fā)展的淵源上看,三者是分別作為三種獨立

3、的信息處理技術(shù)出現(xiàn)的。數(shù)據(jù)倉 庫從數(shù)據(jù)處理技術(shù)發(fā)展而來,它解決了數(shù)據(jù)不統(tǒng)一問題。其核心在于從底層收集 量事務(wù)級數(shù)據(jù),并對這些數(shù)據(jù)進行集成、轉(zhuǎn)換和綜合,形成面向全局的數(shù)據(jù)視圖 和整個決策支持系統(tǒng)的基礎(chǔ)數(shù)據(jù)組織,即數(shù)據(jù)倉庫是直接面向決策支持目標、經(jīng) 過提煉、加工后的數(shù)據(jù)集合OLAP是在OLTP (聯(lián)機事務(wù)處理)已不能滿足終端用戶 對數(shù)據(jù)庫查詢分析的需要,SQL對大數(shù)據(jù)庫進行的簡單查詢也不能滿足用戶分析 的需要的情況下所出現(xiàn)的一種數(shù)據(jù)處理新技術(shù)。兩者都是以解決決策支持分析問 題為目的發(fā)展起來的,它們之間存在著必然的內(nèi)在聯(lián)系和互補性。對兩者相互關(guān) 系的研究,有助于完善數(shù)據(jù)倉庫化決策支持系統(tǒng)的體系結(jié)構(gòu)。

4、、數(shù)據(jù)倉庫和OLAP的特點分析1.數(shù)據(jù)倉庫數(shù)據(jù)倉庫之父W.H.Inmon認為“數(shù)據(jù)倉庫是一個面向主題的、集成的、不 可更新的且隨時間不斷變化的數(shù)據(jù)集合,用來支持管理人員的決策”。該定義 表明了數(shù)據(jù)倉庫是一個處理過程,過程依據(jù)主題對若十個分布的、異質(zhì)的信息源 中的歷史數(shù)據(jù)進行組織和存儲,并能集成地進行數(shù)據(jù)分析,它有著比一般數(shù)據(jù)庫 系統(tǒng)更大的數(shù)據(jù)規(guī)模。數(shù)據(jù)倉庫不僅具有傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)共享性、完整性、 數(shù)據(jù)獨立性等基本特點,還具有主題、集成性、歷史性、時間屬性等獨有特征。數(shù)據(jù)倉庫系統(tǒng)的基本功能是:數(shù)據(jù)獲取、數(shù)據(jù)存儲和管理、信息的訪問。其 最終目是把分散的、不利于訪問的數(shù)據(jù)轉(zhuǎn)換成集中、統(tǒng)一、隨時可用

5、的信息即 為了決策目標將不同形式的數(shù)據(jù)集合成為一種特殊的格式,建立起一種新的數(shù) 據(jù)存儲體系,使數(shù)據(jù)操作環(huán)境與數(shù)分析環(huán)境相到分離。2.OLAPOLAP概念最早是由關(guān)系庫之父E.F.Codd于1993年提出。當時,Codd認為聯(lián) 機事務(wù)處理(On-line Transaction processing ,簡稱(OLTP)已不能足終端用 戶對數(shù)據(jù)庫查詢分析的需要,SQL對大數(shù)據(jù)庫進行的簡單查詢也不能滿足用戶分 析的需求。于是,Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。OLAP的 目的是決策支持多維環(huán)境特定的查詢和報表需求,它的技術(shù)核心是維的概念, 因此OLAP可以說是多維數(shù)據(jù)分析工具的集

6、合。OLAP是一種軟件技術(shù),它使分析人員能夠迅速、一致、交互地從各個方的 觀察信息,以達到深人理解數(shù)據(jù)的目的。OLAP技術(shù)是針對人們事先假設(shè)的特定 問題進行聯(lián)機數(shù)據(jù)訪問和分析。它通過對信息進行快速、穩(wěn)定、一致和交互式存 取,對數(shù)據(jù)進行多層次、階段的分析處理,以獲得高度歸納的分析結(jié)果。因此O LA P技術(shù)從其對數(shù)據(jù)的分析方式上講是一種自上而下、不斷深人的工具,即在 用戶提出問題或假設(shè)之后,它負責提取關(guān)于此問題的細信息,并以一種比較直 觀的方式呈現(xiàn)給用戶。多維性是O LA P的關(guān)鍵屬性。多維分析是分析企業(yè)數(shù)據(jù)最有效的方法,是 OLAP的靈魂。多維數(shù)據(jù)分析是指對以多維分析組織起來的數(shù)據(jù)取切片、切塊、

7、 鉆取、旋轉(zhuǎn)等各種分析動作來剖析數(shù)據(jù),使用戶直觀地理解、分析數(shù)據(jù),最終能 多角度、多側(cè)面地觀察數(shù)據(jù)庫中的數(shù)據(jù),深人地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。 多維分析合了人的思維模式,因此減少了混淆并且降低了出現(xiàn)錯誤的可能性。二、數(shù)據(jù)倉庫和OLAP在發(fā)展過程中的關(guān)聯(lián) 關(guān)系數(shù)據(jù)倉庫是一個決策支持技術(shù)的集合,旨在能夠使知識工作者(執(zhí)行者,主管, 分析人員)做出更快更好的決策。過去三年,無論是在所提供的產(chǎn)品和服務(wù)的數(shù)量 上還是在按行業(yè)對這些技術(shù)的采用上都出現(xiàn)了爆炸性的增長。數(shù)據(jù)倉庫技術(shù)已經(jīng) 成功施展于許多行業(yè):制造業(yè)(訂單發(fā)貨和客戶支持),零售業(yè)(用戶分析和庫存管 理),金融服務(wù)業(yè)(索賠分析,風險分析,信用卡

8、分析,詐騙偵查),運輸業(yè)(車隊管 理),電信業(yè)(呼叫分析和欺詐檢測),城市管理服務(wù)業(yè)(電力使用情況分析),保健 業(yè)(結(jié)果分析)。本文介紹了數(shù)據(jù)倉庫的技術(shù)路線圖,重點放在數(shù)據(jù)倉庫對數(shù)據(jù)庫 管理系統(tǒng)提出的特殊要求之上。數(shù)據(jù)倉庫就是一個“面向主題的、集成的、時變的、非易失性的數(shù)據(jù)集合, 主要幫助組織做出決策”。通常,數(shù)據(jù)倉庫需要與組織的操作數(shù)據(jù)庫分離并被維護。 分離的原因是多方面的。數(shù)據(jù)倉庫支持聯(lián)機分析處理(OLAP),其功能和性能要求 與傳統(tǒng)情況下由操作數(shù)據(jù)庫支持的聯(lián)機事務(wù)處理(OLTP)應(yīng)用有很大不同。OLTP應(yīng)用程序通常會自動處理當前數(shù)據(jù)任務(wù),比如訂單輸入和銀行交易等 單位實用日常操作。這些數(shù)

9、據(jù)任務(wù)重復且具有復雜結(jié)構(gòu),由短的、孤立的原子事 務(wù)組成。這些事務(wù)要求詳細的、確保最新的數(shù)據(jù),并且讀/寫的數(shù)十條記錄通常來 自于對主碼的訪問。操作數(shù)據(jù)庫訪問記錄數(shù)量則往往是百兆到千兆字節(jié)大小。數(shù) 據(jù)庫的一致性和可恢復性是至關(guān)重要的,最大化事務(wù)吞吐量是關(guān)鍵性能指標。因 此,數(shù)據(jù)庫設(shè)計的目的是反映已知應(yīng)用程序的操作語義,并減少多事務(wù)并發(fā)運行 的沖突。與此相反,數(shù)據(jù)倉庫定位于決策支持。歷史的、匯總的、統(tǒng)一的數(shù)據(jù)比詳細 的個別記錄更重要。由于數(shù)據(jù)倉庫包含可能來自多個操作數(shù)據(jù)庫的統(tǒng)一數(shù)據(jù),經(jīng) 過可能的一段長時間,它們的數(shù)量級往往大于操作數(shù)據(jù)庫,企業(yè)數(shù)據(jù)倉庫預計要 有幾百GB到TB大小。工作量大多為點對點的

10、密集查詢,復雜的查詢能夠訪問數(shù) 百萬條記錄并執(zhí)行大量的掃描、聯(lián)接、聚合。查詢吞吐量和反應(yīng)時間都要比事務(wù) 吞吐量更為重要些。為幫助復雜分析和促進形象化,數(shù)據(jù)倉庫中的數(shù)據(jù)通常被多維模型化。例如, 在一個銷售數(shù)據(jù)倉庫中,出售時間、銷售地點、售貨員和產(chǎn)品可能會是一些有關(guān) 利潤的維度。通常,這些維度是分層的,銷售時間可能被組織定義為日月季年層次, 產(chǎn)品被組織為生產(chǎn)-目錄-工業(yè)分層。典型的OLAP操作包括通過沿一個或多個維 的概念分層鉆?。ㄉ暇聿僮魈岣呔奂剑裸@操作降低聚集程度或增加詳情), 切片和切塊(選擇和投影),以及旋轉(zhuǎn)(重排數(shù)據(jù)的多維視圖)。鑒于操作數(shù)據(jù)庫被細優(yōu)化調(diào)整以支持已知OLTP工作負載

11、,嘗試對它執(zhí)行復 雜的OLAP查詢將很可能導致難以接受的性能。此外,決策支持還需要操作數(shù)據(jù)庫 中可能缺失的一些數(shù)據(jù),例如,了解發(fā)展趨勢或做出預測需要歷史數(shù)據(jù),而操作數(shù) 據(jù)庫只存儲當前數(shù)據(jù)。決策支持通常需要整合很多不同來源的數(shù)據(jù):除了幾個操 作數(shù)據(jù)庫,還可能包括外部來源,如股票市場整合。不同數(shù)據(jù)來源可能包含不同質(zhì) 量的數(shù)據(jù),或者使用不一致的表示法、代碼和格式,這些都需要被協(xié)調(diào)。最后,支 持多維數(shù)據(jù)模型和OLAP典型操作需要特殊的數(shù)據(jù)組織、訪問及實現(xiàn)方法,這些都 并不一般地由針對OLTP的商業(yè)數(shù)據(jù)庫管理系統(tǒng)來提供。出于所有這些原因,數(shù)據(jù) 倉庫要與操作數(shù)據(jù)庫實現(xiàn)分離;數(shù)據(jù)倉庫可能在標準或擴展的關(guān)系數(shù)

12、據(jù)庫管理系統(tǒng)中實現(xiàn),稱為ROLAP服務(wù) 器。這些服務(wù)器假定數(shù)據(jù)是存儲在關(guān)系型數(shù)據(jù)庫中的,并且支持SQL語言的擴展 和特殊的訪問實現(xiàn)方法,以高效實現(xiàn)多維數(shù)據(jù)模型和操作。比較起來,多維聯(lián)機分 析處理器(MOLAP)則將多維數(shù)據(jù)直接存儲在特殊的數(shù)據(jù)結(jié)構(gòu)中(比如數(shù)組),并且 在這些特殊的數(shù)據(jù)機構(gòu)上實現(xiàn)OLAP操作。三、針對OLAP的數(shù)據(jù)倉庫模型對于構(gòu)建和維護一個數(shù)據(jù)倉庫還遠不止于僅為它選擇一個OLAP服務(wù)器,定 義一個模式、一些復雜查詢。存在其他的構(gòu)筑方案。很多機構(gòu)都想實現(xiàn)一個橫跨 整個組織的、收集有關(guān)所有主題(例如,客戶、產(chǎn)品、銷售、資產(chǎn)、人員等)信息 的集成企業(yè)倉庫。然而,構(gòu)建一個企業(yè)倉庫是個漫長

13、而復雜的過程,需要廣泛的業(yè) 務(wù)建模,并可能花費許多年才能成功。一個普遍的,影響前端工具的、數(shù)據(jù)庫設(shè)計和OLAP查詢引擎的概念模型是倉 庫數(shù)據(jù)的多維視圖。在多維數(shù)據(jù)模型中,有一組作為分析對象的數(shù)字度量方式。 這種度量方式的例子有銷售、預算、收入、庫存和ROI(投資回報率)。每種數(shù)字 度量方式均取決于一組維,維為度量提供環(huán)境。假定所有的維度唯一決定度量值。 因而,多維數(shù)據(jù)把一個度量視為維的多維空間內(nèi)的一個值。每維由一系列屬性來 描述。例如,產(chǎn)品的維可以由四種屬性組成:種類和產(chǎn)品工業(yè),推出時間(年),以及平 均利潤率。產(chǎn)品名稱就可通過一種層次關(guān)系與種類和產(chǎn)業(yè)屬性相關(guān)聯(lián)。OLAP概念模型的另一個區(qū)別性

14、特征是,它強調(diào)把一個或多個維的度量的聚集 作為其中一個關(guān)鍵操作;例如,按照不同地區(qū)或者年份計算并排名總銷量。其他普 遍操作包括比較兩個由相同的維聚齊起來的度量(比如銷售額和預算)。時間是一 個對決策支持(如動向分析)具有特殊意義的維。多維數(shù)據(jù)模型產(chǎn)生于由個人機電子表格程序推廣的商業(yè)數(shù)據(jù)視圖,該程 序曾被商業(yè)分析員們廣泛使用。電子表格對OLAP來說依然是最引人注目的前端 應(yīng)用程序。支持OLAP的一個查詢環(huán)境的挑戰(zhàn)之處可被初步概括為支持對大到幾 個G的數(shù)據(jù)庫進行高效的電子表格操作。其他有關(guān)旋轉(zhuǎn)的操作是上卷和下鉆。上卷相當于對當前數(shù)據(jù)對象做進一步的 概括分組處理。因而可以對銷售數(shù)據(jù)進行上卷操作,按照

15、“產(chǎn)品”聚集的話,或許 已經(jīng)規(guī)約到city層。下鉆是上卷的逆操作。切片和切塊操作可以降低多維數(shù)據(jù)集 的維,亦即,為了其余維的選定值,在該給定立方體維的一個子集上做數(shù)據(jù)投影。例 如,我們可以通過切片/塊一個特定產(chǎn)品的銷售數(shù)據(jù)來創(chuàng)建一個由city維和the day of sale維組成的表格。其他一些普遍操作還包括排序、選擇和定義計算屬性。盡管多維電子表格因為能夠使最終用戶分析業(yè)務(wù)數(shù)據(jù)而吸引了不少人,但還 沒有借助于一個查詢托管環(huán)境來取代傳統(tǒng)的分析。這些環(huán)境利用存儲過程和預定 義的復雜查詢提供包裝好的分析工具。這樣的工具往往有可能使最終用戶依據(jù)特 定領(lǐng)域的業(yè)務(wù)數(shù)據(jù)進行查詢。這些應(yīng)用程序常常使用原始

16、數(shù)據(jù)訪問工具,并且依 靠后端數(shù)據(jù)庫服務(wù)器使訪問模式最優(yōu)化。此外,還有一些憑借“指向-點擊”幫助 建立特定SQL查詢的查詢環(huán)境(如Microsoft Access)o最后,存在大量多樣的、經(jīng)常 被用作數(shù)據(jù)倉庫前端工具的數(shù)據(jù)挖掘工具。四、基于數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘的決策支持系統(tǒng)體系結(jié)構(gòu)設(shè)計在數(shù)據(jù)倉庫化的決策支持系統(tǒng)中,應(yīng)將數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘進行有機 結(jié)合,其所擔當?shù)慕巧謩e為:(1)數(shù)據(jù)倉庫用于數(shù)據(jù)的存儲和組織,它從事務(wù)應(yīng)用系統(tǒng)中抽取數(shù)據(jù),并對其 進綜合、集成與轉(zhuǎn)換,提供面向全局的數(shù)據(jù)視圖;OLAP致力于數(shù)據(jù)的分析; 數(shù)據(jù)挖掘則專注于知識的自動發(fā)現(xiàn)。(2)在數(shù)據(jù)倉庫和OLAP、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘之間存在著單向支持的關(guān)系在 數(shù)據(jù)挖掘與OLAP之間,存在雙向聯(lián)系,即數(shù)據(jù)挖掘為OLAP提供分析的 模式,OLAP對數(shù)據(jù)挖掘的結(jié)果進行驗證,并給予適當?shù)囊龑А=Y(jié)束語本文對數(shù)據(jù)倉庫、聯(lián)機分析處理(OLAP)、在決策支持系統(tǒng)中的作用、地位 及其應(yīng)用上的局限性進行了探討,對兩者間的相互關(guān)系進行研究。認為在數(shù)據(jù)倉 庫和。LAP之間存在著單向支持的關(guān)系。研究清楚數(shù)據(jù)倉庫和。LAP兩者之間的 關(guān)系,將更好地指導企業(yè)建立以數(shù)據(jù)倉庫、OLAP為基本框架的決策支持統(tǒng),有助

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論