BI入門基礎(chǔ)概念_第1頁
BI入門基礎(chǔ)概念_第2頁
BI入門基礎(chǔ)概念_第3頁
BI入門基礎(chǔ)概念_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、bl入門基礎(chǔ)概念(全)一、多維數(shù)據(jù)模型及相關(guān)概念數(shù)據(jù)模型一般有兩個(gè)層次:概念層(邏輯層)和物理層。邏輯數(shù)據(jù)模型是從概念 角度抽象出現(xiàn)實(shí)世界的內(nèi)在規(guī)律,如業(yè)務(wù)流程、數(shù)據(jù)架構(gòu)等;物理數(shù)據(jù)模型則側(cè) 重于特定環(huán)境下的具體實(shí)現(xiàn),如效率、安全性等。多維數(shù)據(jù)模型是一個(gè)邏輯概念,該模型主耍解決如何對大量數(shù)據(jù)進(jìn)行快速查詢和 多角度展示,以便得出冇利丁管理決策的信息和知識。多維數(shù)據(jù)模型的應(yīng)用領(lǐng)域 主要有數(shù)據(jù)倉庫、olap和數(shù)據(jù)挖掘3個(gè)方面,其屮,多維結(jié)構(gòu)是olap的核心。多維數(shù)據(jù)模型通過引入維、維分層和度量等概念,將信息在概念上視為一個(gè)立方 體。1. 立方體:用三維或更多的維數(shù)描述一個(gè)對象,每個(gè)維彼此垂直。數(shù)據(jù)的

2、度量 值發(fā)生在維的交叉點(diǎn)上,數(shù)據(jù)空間的各個(gè)部分都有相同的維屬性。2. 維:是人們觀察數(shù)據(jù)的特定角度,是考慮問題吋的一類屬性,屬性的集合構(gòu) 成一個(gè)維(如時(shí)間維、機(jī)構(gòu)維等)。3維分層:同一維度還可以存在細(xì)節(jié)程度不同的各個(gè)描述方而(如時(shí)間維可包 括年、季度、月份、旬和日期等)。4.維屬性:維的一個(gè)取值,是數(shù)據(jù)項(xiàng)在某維中位置的描述(例如“某年某月某 日”是在時(shí)間維上位置的描述)。5度量:立方休中的單元格,用以存放數(shù)據(jù)。olap的基本多維分析操作有鉆?。╮oll up, drill down) 切片(slice)、 切塊(dice)及旋轉(zhuǎn)(pivot)等。鉆取包含向下鉆取和向上鉆取(上卷)操作,鉆取的深

3、度與維所劃分的層次相對 應(yīng)。上卷操作通過維規(guī)約,在數(shù)據(jù)立方體上進(jìn)行聚集;下鉆操作是上卷操作的逆 操作,由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù)。切片和切塊是在一部分維上選定值后,度量數(shù)據(jù)在剩余維上的分布。在多維數(shù)據(jù) 結(jié)構(gòu)屮,按照二維、二維進(jìn)行切塊可得到所需數(shù)據(jù),如在“機(jī)構(gòu)、產(chǎn)品、時(shí)間” 三維立方體中進(jìn)行切塊和切片,可得到各城市、各產(chǎn)品的銷售情況。旋轉(zhuǎn)(轉(zhuǎn)軸)是變換維的方向,即在表格中重新安排維的放置(如行列互換), 通過旋轉(zhuǎn)得到不同視角的數(shù)據(jù)。二、多維數(shù)據(jù)模型的物理實(shí)現(xiàn)olap多維數(shù)據(jù)模型的實(shí)現(xiàn)有多種途徑,其屮主要有采用數(shù)組的多維數(shù)據(jù)庫、關(guān) 系型數(shù)據(jù)庫以及兩者相結(jié)合的方式,人們通常稱之為molap. r

4、olap和holap。 但molap的捉法容易引起誤解,畢竟根據(jù)olap的多維概念,rolap也是一種多 維數(shù)據(jù)的組織方式。1.多維聯(lián)機(jī)分析處理(多維數(shù)據(jù)庫管理系統(tǒng))多維聯(lián)機(jī)分析處理嚴(yán)格遵照庫德的定義,自行建立多維數(shù)據(jù)庫來存放聯(lián)機(jī)分析系 統(tǒng)的數(shù)據(jù),它以多維數(shù)據(jù)組織方式為核心,也就是說,多維聯(lián)機(jī)分析處理使用多 維數(shù)組存儲數(shù)據(jù)。當(dāng)利用多維數(shù)據(jù)庫存儲0mp數(shù)據(jù)時(shí),不需要將多維數(shù)據(jù)模型中的維度、層劃分 和立方休等概念轉(zhuǎn)換成其他的物理模型,因?yàn)槎嗑S數(shù)組(矩陣)能很好地體現(xiàn)多 維數(shù)據(jù)模型特點(diǎn)。針對圖1,可以定義一個(gè)三維數(shù)組矩陣(7, 6, 3),體現(xiàn)立方體的維、屬性和 維度量。其小數(shù)組屮維的個(gè)數(shù)對應(yīng)立方體

5、的維度數(shù),數(shù)組小每-維取值對應(yīng)立方 體中每一維度的屬性個(gè)數(shù),而數(shù)組的126個(gè)交點(diǎn)對應(yīng)立方體中的單元格,用來存 放數(shù)據(jù)。利用數(shù)組實(shí)現(xiàn)多維數(shù)據(jù)模型的優(yōu)點(diǎn),在于對數(shù)據(jù)的快速訪問,但同時(shí)也會帶來存 儲空間的冗余,即稀疏矩陣問題,進(jìn)而導(dǎo)致對存儲空間的極大需求。例如,圖2 中定義的一個(gè)立方體結(jié)構(gòu),在用數(shù)組定義時(shí),其取值可能有104463億種情況。 但實(shí)際上,并不是每一天、每個(gè)經(jīng)營機(jī)構(gòu)在不同地區(qū)和不同特約商戶都會產(chǎn)生具 有不同幣種、不同卡種的交易,和關(guān)系數(shù)據(jù)庫管理系統(tǒng)相比,只有當(dāng)某一交易確 實(shí)發(fā)生時(shí),才在相應(yīng)的表中留下記錄。為了解決稀疏矩陣問題,某些產(chǎn)品提出了稀疏維(sparse)和密度維(dense) 策

6、略。由稀疏維產(chǎn)生索引塊,由密度維形成數(shù)據(jù)塊。只有當(dāng)稀疏維的組合在交易 事件初次發(fā)生時(shí)才創(chuàng)建索引塊,進(jìn)而創(chuàng)建數(shù)據(jù)塊。圖3顯示了數(shù)據(jù)塊和索引塊的關(guān)系。稀疏維和密度維的引入在一定程度上降低了 立方體的存儲冗余問題,此外,通過數(shù)據(jù)壓縮技術(shù)可降低數(shù)據(jù)塊的存儲空間。2.關(guān)系聯(lián)機(jī)分析處理(關(guān)系數(shù)據(jù)庫管理系統(tǒng))rolap以關(guān)系數(shù)據(jù)庫為核心,以關(guān)系型結(jié)構(gòu)進(jìn)行多維數(shù)據(jù)的表示和存儲,將多維 數(shù)據(jù)庫的多維結(jié)構(gòu)劃分為兩類表:一類是事實(shí)表,用來存儲數(shù)據(jù)和維關(guān)鍵字;另 一類是維表,對每個(gè)維至少使用一個(gè)表來存放維的層次、成員類別等維的描述信 息。維表和事實(shí)表通過主關(guān)鍵字和外關(guān)鍵字聯(lián)系在一起,形成“星型模式” o對 于層次復(fù)朵

7、的維,為避免兀余數(shù)據(jù)占用過大的存儲空間,可以使用多個(gè)表描述, 這種星型模式的擴(kuò)展稱為“雪花模式”。這種多維數(shù)據(jù)的表示方式能夠讓使用者 以較簡單的方式了解這些資料,增加查詢效率,并對海量數(shù)據(jù)存儲空間冇較少要 求。事實(shí)表有如卜特性:大量的數(shù)據(jù)列,存儲容量可達(dá)到tbt;主要是數(shù)值信 息,只有少數(shù)的文字或者多媒體信息;有和維表連接的外關(guān)鍵字;靜態(tài)數(shù) 據(jù)和聚集數(shù)據(jù)。維表中的信息是對事實(shí)表的相應(yīng)說明,例如產(chǎn)品特征、銷售時(shí)間和客戶賬號等。 通過維表將復(fù)雜的描述分割成幾個(gè)小部分,如某個(gè)吋間點(diǎn)的銷售量等,減少對事 實(shí)表的掃描,實(shí)現(xiàn)優(yōu)化查詢。它主要有以下特性:記錄數(shù)較少,可能只有上 千或者上萬個(gè)記錄;大多為文字資

8、料;信息具有層次結(jié)構(gòu);只有一個(gè) 主鍵(primary key或dimcnsion key); 信息可修改。雪花架構(gòu)是對星型架構(gòu)的變形,它將星型架構(gòu)下的維表格經(jīng)過正規(guī)化處理,使其 能表現(xiàn)更豐富的信息,也使得信息處理更加靈活。3. 混合聯(lián)機(jī)分析處理混合聯(lián)機(jī)分析處理利用多維聯(lián)機(jī)分析處理技術(shù)存儲上層匯總數(shù)據(jù),利用關(guān)系聯(lián)機(jī) 分析處理存儲細(xì)節(jié)數(shù)據(jù),即低層是關(guān)系型的,高層是多維矩陣型的。這種方式具 有更好的靈活性。還有其他一些實(shí)現(xiàn)olap的方法,如提供一個(gè)專用的sql server,對某些存儲模 式(如星型、雪花型)提供對sql杳詢的特殊支持。三、存儲模式的比較和選擇多維聯(lián)機(jī)分析處理的優(yōu)勢不僅在于能清晰地表

9、達(dá)多維概念,更重耍的是它有著極 高的綜合速度。在關(guān)系數(shù)據(jù)庫管理系統(tǒng)屮,如果要得到某一地區(qū)的銷售總量,只 能逐條記錄檢索,找到滿足條件的記錄后將數(shù)據(jù)相加;而在多維數(shù)據(jù)庫屮,數(shù)據(jù) 可以直接按行或列累加,其統(tǒng)計(jì)速度遠(yuǎn)遠(yuǎn)超過關(guān)系數(shù)據(jù)庫管理系統(tǒng)。數(shù)據(jù)庫中的 記錄數(shù)越多,其效杲越明顯。但是對多維聯(lián)機(jī)分析處理來說,隨著維度和維成員 的增加,其存儲空間可能出現(xiàn)組合爆炸。關(guān)系聯(lián)機(jī)分析處理的存儲空間沒有大小限制,現(xiàn)有的關(guān)系數(shù)據(jù)庫的技術(shù)可以沿用, 可以通過sql實(shí)現(xiàn)詳細(xì)數(shù)據(jù)與概要數(shù)據(jù)的存儲?,F(xiàn)有關(guān)系型數(shù)據(jù)庫已經(jīng)對olap 做了很多優(yōu)化,包括并行存儲、并行查詢、并行數(shù)據(jù)管理、基于成木的查詢優(yōu)化、 位圖索引、sql的olap擴(kuò)展等,大大提高了關(guān)系聯(lián)機(jī)分析處理的訪問效率。相 比較而言,關(guān)系聯(lián)機(jī)分析處理技術(shù)具有更大的可伸縮性。銀行業(yè)的數(shù)據(jù)倉庫項(xiàng)目,由于具有超海量數(shù)據(jù)的特性, 在項(xiàng)目實(shí)施過程中,對molap形式存儲;對有大量細(xì)節(jié)數(shù)據(jù)的應(yīng)用,為防止立方 體存儲空間過于膨脹,可考慮對于聚集數(shù)據(jù)以rolap方式存儲。molap比較適合 于需要頻

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論