多維數(shù)據(jù)分析方法_第1頁
多維數(shù)據(jù)分析方法_第2頁
多維數(shù)據(jù)分析方法_第3頁
多維數(shù)據(jù)分析方法_第4頁
多維數(shù)據(jù)分析方法_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多維數(shù)據(jù)分析方法第1頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二第3章 多維數(shù)據(jù)分析基礎(chǔ)與方法 3.1 多維數(shù)據(jù)分析基礎(chǔ) 3.2 多維數(shù)據(jù)分析方法 3.3 維度表與事實(shí)表的連接 3.4 多維數(shù)據(jù)的存儲(chǔ)方式 3.5 小結(jié) 2第2頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二3.1 多維數(shù)據(jù)分析基礎(chǔ)多維數(shù)據(jù)分析是以數(shù)據(jù)庫或數(shù)據(jù)倉庫為基礎(chǔ)的,其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),但兩者面對(duì)的用戶不同,數(shù)據(jù)的特點(diǎn)與處理也不同。多維數(shù)據(jù)分析與OLTP是兩類不同的應(yīng)用,OLTP面對(duì)的是操作人員和低層管理人員,多維數(shù)據(jù)分析面對(duì)的是決策人員和高層管理人員。OLTP是對(duì)基

2、本數(shù)據(jù)的查詢和增刪改操作,它以數(shù)據(jù)庫為基礎(chǔ),而多維數(shù)據(jù)分析更適合以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)分析處理。3第3頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二1. 多維數(shù)據(jù)集(Cube)多維數(shù)據(jù)集由于其多維的特性通常被形象地稱作立方體(Cube),多維數(shù)據(jù)集是一個(gè)數(shù)據(jù)集合,通常從數(shù)據(jù)倉庫的子集構(gòu)造,并組織和匯總成一個(gè)由一組維度和度量值定義的多維結(jié)構(gòu)。SQL Server 2000中一個(gè)多維數(shù)據(jù)集最多可包含128個(gè)維度和1024個(gè)度量值。4第4頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二2. 度量值(Measure)度量值是決策者所關(guān)心的具有實(shí)際意義的數(shù)值。例如,銷售量、庫存量、

3、銀行貸款金額等。度量值所在的表稱為事實(shí)數(shù)據(jù)表,事實(shí)數(shù)據(jù)表中存放的事實(shí)數(shù)據(jù)通常包含大量的數(shù)據(jù)行。事實(shí)數(shù)據(jù)表的主要特點(diǎn)是包含數(shù)值數(shù)據(jù)(事實(shí)),而這些數(shù)值數(shù)據(jù)可以統(tǒng)計(jì)匯總以提供有關(guān)單位運(yùn)作歷史的信息。度量值是所分析的多維數(shù)據(jù)集的核心,它是最終用戶瀏覽多維數(shù)據(jù)集時(shí)重點(diǎn)查看的數(shù)值數(shù)據(jù)。 5第5頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二3. 維度(Dimension)維度(也簡(jiǎn)稱為維)是人們觀察數(shù)據(jù)的角度。例如,企業(yè)常常關(guān)心產(chǎn)品銷售數(shù)據(jù)隨時(shí)間的變化情況,這是從時(shí)間的角度來觀察產(chǎn)品的銷售,因此時(shí)間就是一個(gè)維(時(shí)間維)。例如,銀行會(huì)給不同經(jīng)濟(jì)性質(zhì)的企業(yè)貸款,比如國(guó)有、集體等,若通過企業(yè)性質(zhì)的角

4、度來分析貸款數(shù)據(jù),那么經(jīng)濟(jì)性質(zhì)也就成為了一個(gè)維度。 包含維度信息的表是維度表,維度表包含描述事實(shí)數(shù)據(jù)表中的事實(shí)記錄的特性。 6第6頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二4. 維的級(jí)別(Dimension Level)人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在不同的細(xì)節(jié)程度,我們稱這些維度的不同的細(xì)節(jié)程度為維的級(jí)別。一個(gè)維往往具有多個(gè)級(jí)別.例如描述時(shí)間維時(shí),可以從月、季度、年等不同級(jí)別來描述,那么月、季度、年等就是時(shí)間維的級(jí)別。 7第7頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二5. 維度成員(Dimension Member)維的一個(gè)取值稱為該維的一個(gè)維

5、度成員(簡(jiǎn)稱維成員)。如果一個(gè)維是多級(jí)別的,那么該維的維度成員是在不同維級(jí)別的取值的組合。例如,考慮時(shí)間維具有日、月、年這3個(gè)級(jí)別,分別在日、月、年上各取一個(gè)值組合起來,就得到了時(shí)間維的一個(gè)維成員,即“某年某月某日”。 8第8頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二多維數(shù)據(jù)集示例9第9頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二3.2 多維數(shù)據(jù)分析方法 多維分析可以對(duì)以多維形式組織起來的數(shù)據(jù)進(jìn)行上卷、下鉆、切片、切塊、旋轉(zhuǎn)等各種分析操作,以便剖析數(shù)據(jù),使分析者、決策者能從多個(gè)角度、多個(gè)側(cè)面觀察數(shù)據(jù)庫中的數(shù)據(jù),從而深入了解包含在數(shù)據(jù)中的信息和內(nèi)涵。 10第10頁,

6、共28頁,2022年,5月20日,14點(diǎn)14分,星期二1. 上卷(Roll-Up)上卷是在數(shù)據(jù)立方體中執(zhí)行聚集操作,通過在維級(jí)別中上升或通過消除某個(gè)或某些維來觀察更概括的數(shù)據(jù)。 沿著時(shí)間維上卷,由“季度”上升到半年 11第11頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二上卷(續(xù))上卷的另外一種情況是通過消除一個(gè)或多個(gè)維來觀察更加概況的數(shù)據(jù)。 消除“經(jīng)濟(jì)性質(zhì)”維度 12第12頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二2. 下鉆(drill-down)下鉆是通過在維級(jí)別中下降或通過引入某個(gè)或某些維來更細(xì)致的觀察數(shù)據(jù)。 沿時(shí)間維下鉆 13第13頁,共28頁,2022年,

7、5月20日,14點(diǎn)14分,星期二3. 切片(slice)在給定的數(shù)據(jù)立方體的一個(gè)維上進(jìn)行的選擇操作。切片的結(jié)果是得到了一個(gè)二維的平面數(shù)據(jù)。 “時(shí)間1季度” 14第14頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二3. 切塊(dice)在給定的數(shù)據(jù)立方體的兩個(gè)或多個(gè)維上進(jìn)行的選擇操作。切塊的結(jié)果是得到了一個(gè)子立方體。 (度量值“正常” or “次級(jí)”)And (時(shí)間“1季度” or “2季度”) 15第15頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二5轉(zhuǎn)軸(pivot or rotate)轉(zhuǎn)軸就是改變維的方向。 交換“時(shí)間”和“經(jīng)濟(jì)性質(zhì)”軸16第16頁,共28頁,202

8、2年,5月20日,14點(diǎn)14分,星期二3.3 維度表與事實(shí)表的連接 維度表和事實(shí)表相互獨(dú)立,又互相關(guān)聯(lián)并構(gòu)成一個(gè)統(tǒng)一的架構(gòu)。構(gòu)建多維數(shù)據(jù)集時(shí)常用的架構(gòu):星型架構(gòu)雪花型架構(gòu)星型雪花架構(gòu)在SQL Server 2000中,這些架構(gòu)的中心都是一個(gè)事實(shí)數(shù)據(jù)表。 17第17頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二1. 星型架構(gòu)維度表只與事實(shí)表關(guān)聯(lián),維度表彼此之間沒有任何聯(lián)系,每個(gè)維度表中的主碼都只能是單列的,同時(shí)該主碼被放置在事實(shí)數(shù)據(jù)表中,作為事實(shí)數(shù)據(jù)表與維表連接的外碼。星型架構(gòu)是以事實(shí)表為核心,其他的維度表圍繞這個(gè)核心表呈星型狀分布。 18第18頁,共28頁,2022年,5月20日,

9、14點(diǎn)14分,星期二星型架構(gòu)示意圖19第19頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二2雪花型架構(gòu) (Snow Schema)某個(gè)維度表不與事實(shí)表直接關(guān)聯(lián),而是與另一個(gè)維表關(guān)聯(lián)??梢赃M(jìn)一步細(xì)化查看數(shù)據(jù)的粒度。維度表和與其相關(guān)聯(lián)的其他維度表也是靠外碼關(guān)聯(lián)的。也以事實(shí)數(shù)據(jù)表為核心。 20第20頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二雪花型架構(gòu)示意圖21第21頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二3星型雪花架構(gòu)(Star-Snow Schema)將星型架構(gòu)和雪花式架構(gòu)合并在一起使用,而成為星型雪花架構(gòu)。 22第22頁,共28頁,2022年,5月2

10、0日,14點(diǎn)14分,星期二3.4 多維數(shù)據(jù)的存儲(chǔ)方式 SQL Server 2000的Analysis 三種多維數(shù)據(jù)存儲(chǔ)方式:MOLAP(多維OLAP)ROLAP(關(guān)系OLAP)HOLAP(混合OLAP) 23第23頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二1ROLAPROLAP的數(shù)據(jù)與計(jì)算結(jié)果直接由原來的關(guān)系數(shù)據(jù)庫取得,存儲(chǔ)維度的數(shù)據(jù)以數(shù)據(jù)表形式存儲(chǔ)在OLAP服務(wù)器上。ROLAP將支撐多維數(shù)據(jù)的原始數(shù)據(jù)、多維數(shù)據(jù)集數(shù)據(jù)、匯總數(shù)據(jù)和維度數(shù)據(jù)都存儲(chǔ)在現(xiàn)有的關(guān)系數(shù)據(jù)庫中,并用獨(dú)立的關(guān)系表來存放聚集數(shù)據(jù)。不存儲(chǔ)源數(shù)據(jù)副本,占用的磁盤空間最少,但存取速度也比較低。 24第24頁,共28

11、頁,2022年,5月20日,14點(diǎn)14分,星期二2MOLAPMOLAP使用多維數(shù)組存儲(chǔ)數(shù)據(jù),它是一種高性能的多維數(shù)據(jù)存儲(chǔ)格式。多維數(shù)據(jù)在存儲(chǔ)中將形成“立方體”的結(jié)構(gòu)。MOLAP存儲(chǔ)模式將數(shù)據(jù)與計(jì)算結(jié)果都存儲(chǔ)在立方體結(jié)構(gòu)中,并存儲(chǔ)在分析服務(wù)器上。該結(jié)構(gòu)在處理維度時(shí)創(chuàng)建。存取速度最快,查詢性能最好,但占用磁盤空間較多。 25第25頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二3HOLAPROLAP與MOLAP存儲(chǔ)方式的結(jié)合。原始數(shù)據(jù)和ROLAP一樣存儲(chǔ)在原來的關(guān)系數(shù)據(jù)庫中,而聚合數(shù)據(jù)則以多維的形式存儲(chǔ)。這樣它既能與關(guān)系數(shù)據(jù)庫建立連接,同時(shí)又利用了多維數(shù)據(jù)庫的性能優(yōu)勢(shì)。缺點(diǎn)是在ROLAP和MOLAP系統(tǒng)之間的切換會(huì)影響它的效率。 26第26頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二三種存儲(chǔ)方式的比較 內(nèi)容MOLAPROLAPHOLAP源數(shù)據(jù)的副本有無無占用分析服務(wù)器存儲(chǔ)空間大小小使用多維數(shù)據(jù)集小較大大數(shù)據(jù)查詢快慢慢聚合數(shù)據(jù)的查詢快慢快使用查詢頻度經(jīng)常不經(jīng)常經(jīng)常27第27頁,共28頁,2022年,5月20日,14點(diǎn)14分,星期二3.5 小結(jié)多維數(shù)據(jù)集是一個(gè)數(shù)據(jù)集合,通常從數(shù)據(jù)倉庫的子集構(gòu)造,并組織和匯總成一個(gè)由一組維度和度量值定義的多維結(jié)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論