《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》講課筆記02_第1頁
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》講課筆記02_第2頁
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》講課筆記02_第3頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第二周:2022/9/4第三講:數(shù)據(jù)倉庫的多維數(shù)據(jù)模型數(shù)據(jù)倉庫多維數(shù)據(jù)模型Multi-Dimensional Data Model是為了滿足用戶從多角度多層次進(jìn)行數(shù)據(jù)查詢和分析的需要而建立起來的基于事實和維的數(shù)據(jù)庫模型,其根本的應(yīng)用是為了實現(xiàn) OLAP Online Analytical Processing。1. 度量值Measure度量值是決策者所關(guān)心的具有實際意義的數(shù)值。例如,銷售量、庫存量、銀行貸款金額等。度量值是所分析的多維數(shù)據(jù)集的核心,它是最終用戶瀏覽多維數(shù)據(jù)集時重點(diǎn)查看的數(shù)值數(shù)據(jù)。2. 事實數(shù)據(jù)表Fact Table度量值所在的表稱為事實數(shù)據(jù)表,事實數(shù)據(jù)表中存放的事實數(shù)據(jù)通常包含

2、大量的數(shù)據(jù) 行。事實數(shù)據(jù)表的主要特點(diǎn)是包含數(shù)值數(shù)據(jù)事實,而這些數(shù)值數(shù)據(jù)可以統(tǒng)計匯總以提供有關(guān)單位運(yùn)作歷史的信息。3. 維度成員Dimension Member維的一個取值稱為該維的一個維度成員簡稱維成員。如果一個維是多級別的,那么該維的維度成員是在不同維級別的取值的組合。例如,考慮時間維具有日、月、年這3個級別,分別在日、月、年上各取一個值組合起來,就得到了時間維的一個維成員,即某年某月某日。4. 維度表Dimension Table包含維度信息的表是維度表,維度表包含描述事實數(shù)據(jù)表中的事實記錄的特性。維度表和事實表相互獨(dú)立,又互相關(guān)聯(lián)并構(gòu)成一個統(tǒng)一的模式。構(gòu)建多維數(shù)據(jù)集時常用的架構(gòu):1.星型

3、模式星型模式是一種多維的數(shù)據(jù)關(guān)系,它由一個事實表(Fact Table)和一組維表(Dimens ionTable)組成。每個維表都有一個維作為主鍵,所有這些維的主鍵組合成事實表的主鍵。事實 表的非主鍵屬性稱為事實(Fact),它們一般都是數(shù)值或其他可以進(jìn)行計算的數(shù)據(jù);而維表大都是文字、時間等類型的數(shù)據(jù),按這種方式組織好數(shù)據(jù)我們就可以按照不同的維(事實表的主鍵的局部或全部)來對這些事實數(shù)據(jù)進(jìn)行求和(summary)、求平均(average)計數(shù)(count)、百分比(percent)的聚集計算,甚至可以做20-80分析。這樣就可以從不同的角度數(shù)字來分析業(yè)務(wù)主題的情況am |EPK.FK1 HS

4、E2 ra.F<3 FW.FKl PK.FK513 口UDDrwD jtfllD嚴(yán)1jh/ -n J產(chǎn) JAlP1盧皿憐Hixmt畫:甘陽點(diǎn)1 *Fhruurh雄吾lyp<一個典型的銀行貸款分析的模型設(shè)計,其中加邊框的為主關(guān)鍵字PK, PrimaryKey,其中貸款分析表是一個事實表,其中的貸款授信金額,貸款余額是需要從各角度觀察的數(shù)據(jù)事實,而觀察的角度是有區(qū)域、銀行、時間,質(zhì)量這四個方面組合進(jìn)行,這些分析角度的有機(jī)組合,可以對授信金額和貸款余額進(jìn)行 4 X8 X4 X 8種組合的數(shù)據(jù)統(tǒng)計分析,以此實現(xiàn)對貸款情況的多角度維多層次數(shù)據(jù)不同的匯總程度的分析,貸款分析人員既可以宏觀地看到

5、貸款業(yè)務(wù) 的整體情況,又可以微觀地觀察到具體一家銀行一天一類貸款的細(xì)節(jié)信息。多維分析的時候,維度選擇越多數(shù)據(jù)越細(xì)節(jié)劃分得更細(xì)了,維度選擇越少數(shù)據(jù)越匯總越宏觀。thiw雄希tzai* key日皿孵皿出WM1Entyctf護(hù)禪科6tv *f 'jppeL TstflnjnyA»n_a.nf bwi4fuppjgr Tek.f %廠frm LccrbOadjQ&|r>vcos|jM=pmlciC«XKinvkty 皿嚴(yán)ci typeb?uuh L*p>aLit 辰幡電«*kt£»n kty «bt«l

6、-pivviiK . &f_ cist#eouflijy3. 雪花模式Snowflake Schema:是星型模式的變種,其中某些維表將數(shù)據(jù)進(jìn)一步分解到附加的維表中,以便減少冗余,但對2.事實星座模式Fact Constellation: 多個事實表共享維表,可看作星型模式集。第四講:聯(lián)機(jī)分析處理60年代,關(guān)系數(shù)據(jù)庫之父 提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲)。993 年, 提出了 OLAP概念,認(rèn)為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL對大型數(shù)據(jù)庫進(jìn)行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關(guān)系數(shù)

7、據(jù)庫進(jìn)行大量計算才能得到結(jié)果, 而查詢的結(jié)果并不能滿足決策者提出的需求。因此,提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。1. 聯(lián)機(jī)事務(wù)處理(On li ne Tran slation Processi ng)通常在數(shù)據(jù)庫系統(tǒng)中, 事務(wù)是工作的離散單位。 例如,一個數(shù)據(jù)庫事務(wù)可以是修改一個 用戶的帳戶平衡或庫存項的寫操作。聯(lián)機(jī)事務(wù)處理系統(tǒng)(OLTP)實時地采集處理與事務(wù)相連的數(shù)據(jù)以及共享數(shù)據(jù)庫和其它文件的地位的變化。在聯(lián)機(jī)事務(wù)處理中,事務(wù)是被立即執(zhí)行的。上世紀(jì)60年代,由關(guān)系數(shù)據(jù)庫之父 不斷開展。2. 聯(lián)機(jī)分析處理(On Line Analytical Proccessing ,簡稱 OLA

8、P)最早由關(guān)系數(shù)據(jù)庫之父于1993年提出。OLAP應(yīng)用是目前數(shù)據(jù)倉庫上的重要應(yīng)用之一,是決策分析的關(guān)鍵。作為數(shù)據(jù)倉庫最重要的多維分析工具,OLAP利用存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)完成各種分析操作,并以直觀易懂的形式將分析結(jié)果返回給決策人員。它的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報表需求,技術(shù)核心是多維分析。多維分析可以對以多維形式組織起來的數(shù)據(jù)進(jìn)行上卷、下鉆、切片、切塊、旋轉(zhuǎn)等各種分析操作,以 便剖析數(shù)據(jù),使分析者、決策者能從多個角度、多個側(cè)面觀察數(shù)據(jù)庫中的數(shù)據(jù),從而深入 了解包含在數(shù)據(jù)中的信息和內(nèi)涵。鉆取(Drill down)上程(Roll-up)切片(Slice)切塊(Dice)ffiK

9、(Pivot)3. 鉆取Drill-down在維的不同層次間的變化,從上層降到下一層,或者說是將匯總數(shù)據(jù)拆分到更細(xì)節(jié)的數(shù)據(jù),比方通過對 2022年第二季度的總銷售數(shù)據(jù)進(jìn)行鉆取來查看2022年第二季度 4、5、6每個月的消費(fèi)數(shù)據(jù), 如上圖;當(dāng)然也可以鉆取浙江省來查看杭州市、寧波市、溫州市 這 些城市的銷售數(shù)據(jù)。4. 上卷Roll-up鉆取的逆操作,即從細(xì)粒度數(shù)據(jù)向高層的聚合,如將江蘇省、上海市和浙江省的銷售數(shù)據(jù)進(jìn)行匯總來查看江浙滬地區(qū)的銷售數(shù)據(jù),如上圖。5. 切片Slice選擇維中特定的值進(jìn)行分析,比方只選擇電子產(chǎn)品的銷售數(shù)據(jù),或者2022年第二季度的數(shù)據(jù)。6. 切塊Dice選擇維中特定區(qū)間的數(shù)

10、據(jù)或者某批特定值進(jìn)行分析,比方選擇2022年第一季度到2022年第二季度的銷售數(shù)據(jù),或者是電子產(chǎn)品和日用品的銷售數(shù)據(jù)。7. 旋轉(zhuǎn)Pivot即維的位置的互換, 就像是二維表的行列轉(zhuǎn)換,如圖中通過旋轉(zhuǎn)實現(xiàn)產(chǎn)品維和地域維的互換。8. 聯(lián)機(jī)事務(wù)處理OLTP和聯(lián)機(jī)分析處理OLAP的區(qū)別(1) 用戶和系統(tǒng)的面向性:OLTP是面向顧客的,用于事務(wù)和查詢處理OLAP是面向市場的,用于數(shù)據(jù)分析(2) 數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù).OLAP系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機(jī)制(3) 數(shù)據(jù)庫設(shè)計:OLTP采用實體-聯(lián)系ER模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計 .OLAP采用星型或雪花模型和面向主題的數(shù)據(jù)庫設(shè)計視圖:OLTP主要關(guān)注一個企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù)OLAP那么相反.訪問模式:OLTP系統(tǒng)的訪問主要由短的原子事務(wù)組成這種系統(tǒng)需要并行和恢復(fù)機(jī)制OLAP系統(tǒng)的訪問大局部是只讀操作OLTPOLAP用戶操作人員,低層管理人員決策人員

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論