商務(wù)智能(第5版)課件第4章 在線分析處理_第1頁
商務(wù)智能(第5版)課件第4章 在線分析處理_第2頁
商務(wù)智能(第5版)課件第4章 在線分析處理_第3頁
商務(wù)智能(第5版)課件第4章 在線分析處理_第4頁
商務(wù)智能(第5版)課件第4章 在線分析處理_第5頁
已閱讀5頁,還剩29頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

在線分析處理OLAP概要(1)1970年,關(guān)系數(shù)據(jù)庫之父E·F·Codd提出了關(guān)系模型,促進(jìn)了在線事務(wù)處理(On-LineTransaction

Processing,

OLTP)的發(fā)展。在線事務(wù)處理通常是一個或一組記錄的查詢和修改,用于處理短暫的交易事務(wù),例如銀行賬目更新、實時庫存變化、顧客的訂單與發(fā)貨情況的更新以及病人健康狀況的更新等。傳統(tǒng)的系統(tǒng)對數(shù)據(jù)的分析和展現(xiàn)基本是基于二維信息的,當(dāng)針對不同需求編寫相應(yīng)的二維報表時,會導(dǎo)致報表堆砌和大量的數(shù)據(jù)冗余。然而在日常決策中,決策者不能僅僅局限于粗略的數(shù)據(jù)查閱,更要注重精細(xì)的數(shù)據(jù)分析。他們往往需要從多個角度分析問題,以便發(fā)現(xiàn)多個變量之間的關(guān)系。例如某體育用品銷售公司1月份在哪個國家的什么地區(qū)頭盔銷售處于領(lǐng)先地位?這與銷售的多個方面,如產(chǎn)品、銷售、數(shù)量、地區(qū)和時間等有關(guān)。這些觀察數(shù)據(jù)的角度稱為維。在多維數(shù)據(jù)上的分析稱為在線分析處理(OLAP),也稱為多維分析。在線分析處理進(jìn)行每一次查詢都要數(shù)千次甚至數(shù)萬次地對數(shù)據(jù)進(jìn)行掃描。傳統(tǒng)的OLTP很難滿足這樣復(fù)雜的查詢。在線分析處理OLAP概要(2)1993年,E·F·Codd提出了多維數(shù)據(jù)庫和在線分析處理(OLAP)的概念。通常,報表反映了業(yè)務(wù)狀況,告訴管理者發(fā)生了什么事情。而要明白"為什么發(fā)生"就需要借助OLAP,例如公司營銷業(yè)績讓人不滿意,什么地方的營銷不好?哪些產(chǎn)品的營銷出現(xiàn)了問題?OLAP也稱為例外分析。OLAP用于支持復(fù)雜的多維分析操作,并最終以一種直觀易懂的方式把查詢結(jié)果返回給分析人員,OLAP側(cè)重于對中高層管理人員的決策支持。本章主要介紹OLAP相關(guān)概念、OLAP與OLTP的比較、多維數(shù)據(jù)操作、OLAP操作語言、OLAP工具介紹以及綜合實例等內(nèi)容。OLAP簡介

基本概念(1)變量:變量是數(shù)據(jù)度量的指標(biāo),是數(shù)據(jù)的實際意義。圖中的數(shù)據(jù)“560”本身并沒有意義,但如果描述2007年第一季度大中華區(qū)LCD的銷售量是560萬臺,則數(shù)據(jù)"560"就有了實際意義,代表了產(chǎn)品銷售量的度量。年、季度和月份是描述時間的三個層次,10萬是變量"銷售額"的值。通常也把變量稱為度量。維:維是與業(yè)務(wù)主題相關(guān)的一組屬性,單個屬性或?qū)傩约峡梢詷?gòu)成一維。例如計算機配件銷售隨著時間推移而產(chǎn)生的變化,這是從時間的角度對產(chǎn)品的銷售進(jìn)行觀察。如果把一個主題的多種屬性定義為多個維,那么用戶就能夠從多個角度組合分析銷售情況。如圖所示,可以從時間維、產(chǎn)品維(CPU、主板、LCD、硬盤、顯卡和內(nèi)存)和地區(qū)維(大中華區(qū)、北美區(qū)、拉丁美洲)分析銷售量。OLAP簡介

基本概念(2)維的層次:一個維往往可以具有多個層次,例如時間維分為年、季度、月和日等層次,地區(qū)維可以分為國家、地區(qū)、省、市等層次。這里的層次表示數(shù)據(jù)細(xì)化程度,對應(yīng)概念分層。后面提到的上鉆操作就是由低層概念映射到較高層概念。概念分層除了根據(jù)概念的全序和偏序關(guān)系確定外,還可以通過對數(shù)據(jù)進(jìn)行離散化或分組來實現(xiàn)。維的成員:維是多層次的,不同層次的取值構(gòu)成一個維成員,例如,"某年某季度"、"某季度某月"等都可以是時間維的成員。OLAP簡介

基本概念多維數(shù)組:多維數(shù)組用維和度量的組合表示一個多維數(shù)組,可以表示為(維1,維2,…,維n,度量),例如(月份,地區(qū),產(chǎn)品,銷售額)組成一個多維數(shù)組。數(shù)據(jù)單元(單元格):多維數(shù)組的取值。當(dāng)多維數(shù)組中每個維都有確定的取值時,就唯一確定一個變量的值。數(shù)據(jù)單元可以表示為(維1成員,維2成員,……,維n成員,度量值),例如(2007年第一季度,大中華區(qū),LCD,560萬臺)表示一個數(shù)據(jù)單元:2007年第一季度大中華區(qū)LCD產(chǎn)品銷售560萬臺。OLAP簡介

基本概念事實:事實是不同維度在某一取值下的度量,例如上述2007年第一季度LCD在大中華區(qū)的銷售額是560萬臺就表示在時間、產(chǎn)品和地區(qū)三個維度上企業(yè)銷售事實的度量,同時包含時間維度的兩個層次:年和季度。有關(guān)銷售的多維分析視圖如圖所示。OLAP簡介

OLAP的定義OLAP是由E·F·Codd提出,目前已出現(xiàn)了很多在線分析處理的定義:OLAP是一種共享多維信息的快速分析技術(shù);OLAP利用多維數(shù)據(jù)庫技術(shù)使用戶可以從不同角度觀察數(shù)據(jù);OLAP用于支持復(fù)雜的分析操作,側(cè)重對管理人員的決策支持,可以滿足分析人員快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢的要求,并且以一種直觀易懂的形式呈現(xiàn)查詢結(jié)果,輔助決策;OLAP是針對特定問題的在線數(shù)據(jù)訪問和分析;OLAP是通過對信息的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理人員對數(shù)據(jù)進(jìn)行深人觀察。上面定義從各個角度對在線分析處理給予了不同的解釋,OLAP委員會(OLAP

Council)則給出了較為正式和嚴(yán)格的定義:在線分析處理是使管理人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的并真實反映業(yè)務(wù)維特性的信息進(jìn)行快速、一致和交互的存取,從而獲得對數(shù)據(jù)更深人的理解。OLAP簡介

OLAP的特點OLAP的多維性、層次、維度計算以及結(jié)構(gòu)與視圖的分離等特點??焖?、可分析、共享和多維等。OLTP與OLAP的區(qū)別在線事務(wù)處理是事件驅(qū)動、面向應(yīng)用的,其主要特點是性能要求高,用戶數(shù)量大。在線分析處理則支持復(fù)雜的分析,側(cè)重于為管理人員提供決策支持,并以直觀的形式呈現(xiàn)結(jié)果。在線事務(wù)處理與在線分析處理的主要區(qū)別如表所示。OLAP操作在線分析處理比較常用的操作包括切片(slice)與切塊(dice)、上鉆(drill-up)與下鉆(drill-down)以及旋轉(zhuǎn)(rotate)等。在線分析處理還能對多維數(shù)據(jù)進(jìn)行深加工。在線分析處理的這些操作使用戶從多個視角觀察數(shù)據(jù),并以圖形、報表等多種形式表示,從而獲取隱藏在數(shù)據(jù)中的信息。OLAP操作實例多維數(shù)據(jù)OLAP操作實例

切片與切塊切片和切塊:選定多維數(shù)組的1維成員做數(shù)據(jù)分割的操作稱為該維上的一個切片。在服裝消費實例分析中,對“性別、年齡、月收人”三維立方體選取年齡段進(jìn)行切片,可得到26~30歲年齡段不同月收入人群中男女消費者的購買信息。OLAP操作

切片與切塊常把多維數(shù)組中選定一個三維子集的操作視為切塊。圖所示為多維數(shù)組(a)選取年齡段21~30歲進(jìn)行切塊,可得到此年齡段不同月收人下男女消費者的購買情況(性別,21~30歲,月收人,購買百分比)。類似地,多維數(shù)組(b)和多維數(shù)組(c)均對應(yīng)多維立方體的切塊。OLAP操作

切片與切塊當(dāng)某維只取一個維成員時,便得到一個切片,而切塊則是某一維取值范圍下的多個切片的疊合。通過對立方體的切片或切塊分割,可以從不同視角得到各種數(shù)據(jù),包括各個年齡段下女性顧客在不同月收人下的服裝購買情況,或者是中檔收入下不同年齡段的購買情況。切片與切塊的作用是對數(shù)據(jù)進(jìn)行過濾,使用戶專注于局部信息。OLAP操作

鉆取鉆取包括上鉆、下鉆等操作。鉆取能夠幫助用戶獲得更多的細(xì)節(jié)性數(shù)據(jù)。例如,管理者要了解計劃完成情況,可以打開相關(guān)的報表查看利潤數(shù)據(jù)。通過與計劃值比較,正常的數(shù)據(jù)顯示為綠色,否則顯示為紅色。紅色的數(shù)值意味著企業(yè)的運營出現(xiàn)了問題,可以進(jìn)一步查看這些數(shù)據(jù)的細(xì)節(jié),逐層分析問題的所在和原因。圖中顯示某零售企業(yè)銷售分析的下鉆功能界面。OLAP操作

鉆取上鉆:上鉆又稱上卷roll-up,上鉆操作是指通過一個維的概念分層向上攀升或者通過維歸約在數(shù)據(jù)立方體上進(jìn)行數(shù)據(jù)匯總。例如,在服裝購買顧客調(diào)查中,可以按月收人分段匯總數(shù)據(jù),把較低、中檔與較高歸約為"有收人",便可以得到沿月收人維上鉆的數(shù)據(jù)匯總;也可以按年齡分段匯總數(shù)據(jù),把16歲以下與16~20歲歸約為"青少年",21~25歲、26~30歲與31~35歲歸約為"青年",36~40歲與40歲以上歸約為"中老年",從而得到沿年齡段維上鉆的數(shù)據(jù)匯總視圖。OLAP操作

鉆取下鉆:下鉆是上鉆的逆操作。通過對某一匯總數(shù)據(jù)進(jìn)行維層次的細(xì)分。下鉆使用戶對數(shù)據(jù)能夠獲得更深人的了解,更容易發(fā)現(xiàn)問題的本質(zhì),從而做出正確的決策。鉆取使用戶不會被海量的數(shù)據(jù)搞得暈頭轉(zhuǎn)向:上鉆使用戶可以站在更高層次觀察數(shù)據(jù),下鉆則可以細(xì)化到用戶所關(guān)心的詳細(xì)數(shù)據(jù)。鉆取的深度與維所劃分的層次相對應(yīng),根據(jù)用戶關(guān)心的數(shù)據(jù)粒度來合理劃分。OLAP操作

旋轉(zhuǎn)旋轉(zhuǎn)又稱為轉(zhuǎn)軸(pivot),它通過旋轉(zhuǎn)變換一個報告或頁面顯示的維方向,在表格中重新安排維的放置,如行列互換。這種對立方體的重定位可以得到不同視角的信息。OLAP操作

其他OLAP操作除以上常用的多維操作外,還有其他多維操作:鉆過(drill-across):鉆過操作涉及多個事實表的查詢并把結(jié)果合并為單個數(shù)據(jù)集。一個典型的例子就是預(yù)測數(shù)據(jù)與當(dāng)前數(shù)據(jù)的結(jié)合。通常預(yù)測數(shù)據(jù)與當(dāng)前數(shù)據(jù)存在于不同的表中,當(dāng)用戶比較預(yù)測銷售與當(dāng)前銷售時,需要跨多個事實表查詢。鉆透(drill-through):鉆透使用SQL,查詢到數(shù)據(jù)立方體的底層,一直到后端的關(guān)系表。OLAP操作

案例web文檔的OLAP分析

讀者一般從多個方面查詢web文檔:文檔的作者、主題、標(biāo)題、日期、大小、作者單位和出版社等,對應(yīng)web文檔立方的維??梢詫ξ臋n立方進(jìn)行各種多維分析,如切片、切塊、旋轉(zhuǎn)以及鉆取等操作,從多個角度分析文檔。例如,從中可以得到中國哪所大學(xué)在過去幾年的視頻會議領(lǐng)域發(fā)表了最多的論文。OLAP操作

實例一個數(shù)據(jù)立方體,以客戶、需求日期和雇員維度,運費為度量。OLAP的分類

按照處理方式分類按照處理方式分類是指OLAP按照數(shù)據(jù)處理的地點可以分為服務(wù)器端在線分析處理(Server-sideOLAP或

Server

OLAP)和客戶端在線分析處理(Client-side

OLAP或Client

OLAP)。ServerOLAP:絕大多數(shù)OLAP系統(tǒng)都屬于此類,ServerOLAP在服務(wù)器端的數(shù)據(jù)庫上建立多維數(shù)據(jù)立方體,由服務(wù)器端提供多維分析,并把最終結(jié)果呈現(xiàn)給客戶端。Client

OLAP:與服務(wù)器端在線分析處理相反,Client

OLAP把相關(guān)立方體數(shù)據(jù)下載到本地,由本地為用戶提供多維分析,從而保證在出現(xiàn)網(wǎng)絡(luò)故障時仍然能正常工作。這類OLAP產(chǎn)品往往輕便、簡潔。例如,Cognos(IBM)的Powerplay產(chǎn)品提供了簡潔部署且具有交互性的PowerPlayWeb

Explorer界面,其他代表產(chǎn)品還有BrioDesigner等。OLAP的分類

按照存儲方式分類OLAP按照存儲器的多維數(shù)據(jù)存儲方式可以分為:

(1)關(guān)系在線分析處理(RelationalOLAP,ROLAP)

(2)多維在線分析處理(Multi-dimensional

OLAP,MOLAP)

(3)

混合在線分析處理(Hybrid

OLAP,HOLAP)OLAP的分類

按照存儲方式分類ROLAP:ROLAP使用關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)或擴充關(guān)系數(shù)據(jù)庫管理系統(tǒng)(XRDBMS)存儲和管理數(shù)據(jù)倉庫,以關(guān)系表存儲多維數(shù)據(jù),有較強的可伸縮性。其中維數(shù)據(jù)存儲在維表,而事實數(shù)據(jù)和維ID則存儲在事實表,維表和事實表通過主鍵和外鍵關(guān)聯(lián)。此外,ROLAP通過一些軟件工具實現(xiàn),物理層仍用關(guān)系數(shù)據(jù)庫的存儲結(jié)構(gòu),因此稱為虛擬OLAP(virtualOLAP)。MOLAP:MOLAP支持?jǐn)?shù)據(jù)的多維視圖,采用多維數(shù)組存儲數(shù)據(jù),它把維映射到多維數(shù)組的下標(biāo)或下標(biāo)的范圍,而事實數(shù)據(jù)則存儲在數(shù)組單元中,從而實現(xiàn)了多維視圖到數(shù)組的映射,形成了立方體(cube)結(jié)構(gòu)。但隨著維數(shù)的增加,大容量的數(shù)據(jù)可能使立方體稀疏化,此時需要借助稀疏矩陣壓縮技術(shù)來處理。由于MOLAP是從物理層實現(xiàn),采用了多維數(shù)組的存儲結(jié)構(gòu),故又稱為物理OLAP(physical

OLAP)。OLAP的分類

按照存儲方式分類HOLAP:HOLAP有機結(jié)合了ROLAP和MOLAP技術(shù)。許多商務(wù)智能提供商,如Speedware和Microsoft等公司在其產(chǎn)品中都應(yīng)用了HOLAP。在MOLAP立方體中存儲高級別的聚集,在ROLAP中存儲低級別的聚集,使得HOLAP同時具有ROLAP的可伸縮性和MOLAP的快速計算等優(yōu)點,能夠滿足用戶復(fù)雜的分析,性能介于ROLAP和MOLAP之間。OLAP操作語言

MSQL為便于在線分析處理,可以通過擴展數(shù)據(jù)庫的操作語言SQL,得到MSQL(Multiple

SQL)。在SQL中,常見的函數(shù)平均值(avg)、最小值(min)、最大值(max)、和(sum)以及計數(shù)(count)等用于多樣化查詢分析。此外,很多系統(tǒng)還提供了其他聚合函數(shù),如方差(variance)、標(biāo)準(zhǔn)偏差(stddev)等。有些系統(tǒng)甚至允許使用者增加聚合函數(shù)。一些數(shù)據(jù)庫產(chǎn)品,如Oracle,開始提供rollup和cube等操作,把SQL擴充為MSQL,以支持復(fù)雜的在線分析處理。在數(shù)據(jù)倉庫和在線分析系統(tǒng)中,為了提高查詢的響應(yīng)速度,精確高效地匯總數(shù)據(jù)是必不可少的。rollup、cube操作正是在此概念的基礎(chǔ)上形成的。OLAP操作語言

MSQL(rollup)rollup:類似于groupby子句并且提供了匯總的功能:OLAP操作語言

MSQL(rollup)某年各種服裝在各個地區(qū)的消費額數(shù)據(jù),存放在數(shù)據(jù)庫中的關(guān)系表salelist(地區(qū)代碼、服裝類別和消費額)中。OLAP操作語言

MSQL(rollup)用M

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論