維度建模方法_第1頁
維度建模方法_第2頁
維度建模方法_第3頁
維度建模方法_第4頁
維度建模方法_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

維度建模概述度量和粒度度量:是用于評價業(yè)務狀況的數(shù)值型數(shù)據(jù)或關(guān)鍵的性能指標例如:銷售額成本利潤庫存量交易數(shù)不同的度量反映出不同的業(yè)務性質(zhì)。度量之間相互獨立。粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級就越??;相反,細化程度越低,粒度級就越大。設計粒度是設計數(shù)據(jù)倉庫中的一個重要的前提事實表(FactTable)事實表:通常包含了一系列的度量值。事實表所有度量值必須具有相同粒度。每個數(shù)據(jù)倉庫都包含一個或者多個事實數(shù)據(jù)表。事實數(shù)據(jù)表可能包含業(yè)務銷售數(shù)據(jù),如現(xiàn)金登記事務所產(chǎn)生的數(shù)據(jù),事實數(shù)據(jù)表通常包含大量的行特征:數(shù)據(jù)量大、列數(shù)少,經(jīng)常變化銷售事實收益數(shù)量支出毛利…維度表(DimensionTable)維度:可以看作是用戶來分析數(shù)據(jù)的窗口,維度表中包含事實記錄的特性,有些特性提供描述性信息,有些特性指定如何匯總事實數(shù)據(jù)表數(shù)據(jù)。每一張維表對應現(xiàn)實世界中的一個對象或者概念。例如:客戶、產(chǎn)品、日期、地區(qū)、商場維表的特征:屬性列很多,行數(shù)較少,內(nèi)容較固定客戶維時間維商場維產(chǎn)品維銷售事實時間ID客戶ID產(chǎn)品ID商場ID收益數(shù)量支出毛利…

維層次:明細數(shù)據(jù)的層次維成員(類別):是各維度每層中數(shù)據(jù)的具體取值,每一個維成員屬于某一個特定的維層次。例如:時間維:三個層次,日、月、年,

維成員:

1999年5月20日、1999年5月;1999年維層次屬性(ATTRIBUTES):維層次上的描述屬性,例如產(chǎn)品的“規(guī)格”、“顏色”、“銷地”、“產(chǎn)地”…粒度、層次(Hierarchy)和類別(Categories)粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級就越?。幌喾?,細化程度越低,粒度級就越大。設計粒度是設計數(shù)據(jù)倉庫中的一個重要的前提維粒度:數(shù)據(jù)的細化程度多維分析:對多維數(shù)據(jù)組織和分析的過程。既在線分析處理(OLAP)過程。多維數(shù)據(jù)能按照貼近業(yè)務規(guī)則的方式組織數(shù)據(jù),多個多角度探查和回答業(yè)務問題,發(fā)現(xiàn)某種信息或者知識。多維分析

、切片(Slice)從多維數(shù)組選定一個二維子集,切出一個“平面”切塊(Dice)從多維數(shù)組選定一個三維子集,切出一個“立方體”旋轉(zhuǎn)改變一個報告(或頁面)顯示的維方向鉆取根據(jù)維層次,改變數(shù)據(jù)的粒度多維分析的基本分析動作

1997年1月產(chǎn)品銷售情況產(chǎn)品維產(chǎn)品維

產(chǎn)品

銷售情況時間維選定時間維的維成員"1997年1月"選定兩個維:產(chǎn)品維和地區(qū)維

數(shù)據(jù)切片定位地區(qū)維地區(qū)維

注:多維數(shù)組(地區(qū)、時間、產(chǎn)品、銷售額)

若在時間維上選定維成員“1997年11月”

切片舉例旋轉(zhuǎn):改變一個報告或頁面顯示的內(nèi)容產(chǎn)品維時間維產(chǎn)品維

行列交換時間維

把一個橫向為時間,縱向為產(chǎn)品的報表旋轉(zhuǎn)成為橫向為產(chǎn)品和縱向為時間的報表

旋轉(zhuǎn)的含義

年份月份銷售量20132013011002013201302200......2013201313100年份銷售量201320000鉆取:鉆取是改變維的層次,變換分析的粒度。鉆透:直接下鉆到最明細的數(shù)據(jù)。鉆取、鉆透鉆取鉆透年份月份日期銷售量201320130120130101100201320130120130102200......201320131220131231100維度建模是什么

建模是建立一個可回答用戶業(yè)務問題的過程,通過維度事實對數(shù)據(jù)進行重新組織的過程。

建模方法:建模時由事實驅(qū)動維度。先建立要分析事實,以此為中心找出(擴展)處相應維度,維度是從事實上剝離出去的。通過模型建立起數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。注意:數(shù)據(jù)進行維度和事實的劃分并非是固定的。有時同一數(shù)據(jù)在不同的分析場景既是事實也是維度。例如:統(tǒng)計客戶數(shù)量時,客戶是事實。

統(tǒng)計客戶的銷量時,客戶是維度。模型設計的好壞主要取決于業(yè)務數(shù)據(jù)的規(guī)范和對業(yè)務數(shù)據(jù)及其關(guān)系的理解。維度的三種模型星形模型(StarSchema)雪花模型(SnowflakeSchema)多維模型(Multi-dimensionSchema)一些影響維度建模的因素數(shù)據(jù)或展現(xiàn)的安全性復雜的查詢和分析星形模型(StarSchema)事實被維度所包圍,且維度沒有被新的表連接優(yōu)點:數(shù)據(jù)結(jié)構(gòu)關(guān)系清晰。查詢效率較高。最終用戶更加容易理解(表數(shù)量最少)可編輯和擴展,可以輕松添加一個新的事實并重復使用現(xiàn)有維度

客戶維時間維商場維產(chǎn)品維銷售事實時間ID客戶ID產(chǎn)品ID商場ID收益數(shù)量支出毛利…星形模型是一個比較折中的的建模方式(BIAPPS中都是用的是星形的建模方式)雪花模型(SnowflakeSchema)事實表被多個維表或一個或多個層次所包圍。特點:可實現(xiàn)復雜的業(yè)務情景。通過多個維表代表一個維表的客戶維時間維商場維產(chǎn)品維銷售事實時間ID客戶ID產(chǎn)品ID商場ID收益數(shù)量支出毛利…聯(lián)系人維聯(lián)系人維雪花模型一般在處理大的且相對靜態(tài)的層次的時候使用多維模型(Multi-DimensionSchema)層次數(shù)據(jù)庫,只有一個結(jié)構(gòu)(立方體Cube)相當于一個多維數(shù)組。它包含了所有數(shù)據(jù)在各種級別的匯總需要特定的多維數(shù)據(jù)庫或者多維數(shù)據(jù)庫引擎(Essbase)的支持數(shù)據(jù)存儲空間的問題:當新添加一個維度的時候,數(shù)據(jù)的量便會成指數(shù)增長維度的類型

緩慢變化維(SlowlyChangingDimension)快速變化維(RapidlyChangingDimension)大維(HugeDimension)和迷你維(Mini-Dimension)退化維(DegenerateDimension)緩慢變化維(SCD)大多數(shù)的維度的內(nèi)容都會有不同程度的改變。比如:

雇員的升職

客戶更改了他的名稱或地址我們?nèi)绾稳ヌ幚磉@些維度中的變化呢?下面提供了三個處理緩慢變化維的方式

直接更新到原先記錄中

標記記錄有效時間的開始日期和結(jié)束日期,加入版本控制

在記錄中添加一個字段來記錄歷史快速變化維(FCD)當某個維度的變化是非??斓臅r候,我們認定他為快速變化維(具體要看實際的變化頻率),比如:

產(chǎn)品的價格,地產(chǎn)的價格等對于這種快速變化維的變化捕獲應該在實施中進行捕獲而不是維度中大維度(HugeDimension)數(shù)據(jù)倉庫中最有意思的維度是一些非常大的維度,比如客戶,產(chǎn)品等等。一個大的企業(yè)客戶維度往往有上百萬記錄,每條記錄又有上百個字段。而大的個人客戶維度則會超過千萬條記錄,這些個人客戶維度有時也會有十多個字段,但大多數(shù)時候比較少見的維度也只有不多的幾個屬性。大維度需要特殊的處理。由于數(shù)據(jù)量大,很多涉及大維度數(shù)據(jù)倉庫功能可能會很慢,效率很低。你需要采用高效率的設計方法、選擇正確的索引、或者采用其它優(yōu)化技術(shù)來處理以下問題,包括:

向大維度表填充數(shù)據(jù)

非限制維度的瀏覽性能,尤其是那些屬性較少的維度

多限制的維度屬性值的瀏覽時間

涉及大維度表的對事實表查詢的低效率問題

為處理第二類修改所需要增加的額外的記錄迷你維(MiniDimension)將常用的大維度中的少數(shù)字段提取出來,形成一個字段少的維度,在查詢的時候便可以使用迷你維中的字段這樣的設計明顯提高查詢效率事實的類型粒度事實表(AdditiveFact)周期快照事實表(Semi-AdditiveFact)聚合快照事實表(Non-AdditiveFact)非事實事實表(FactlessFactTable)粒度事實表(AdditiveFact)客戶維時間維商場維產(chǎn)品維銷售事實時間ID客戶ID產(chǎn)品ID商場ID價格…表示的是在特定時間、空間點上的一次瞬間的測量。與粒度同層次的事實表,可以直接將事實字段進行Sum,Count等聚合操作周期快照事實表(Semi-AdditiveFact)周期快照事實表表現(xiàn)的是一個時間段,或者規(guī)律性的重復。這類表非常適合跟蹤長期的過程,例如銀行賬戶和其他形式的財務報表。最常用的財務上的周期快照事實表通常有一個月粒度。在周期快照事實表中的數(shù)據(jù)必須符合該粒度(就是說,他們必須量測的是同一個時間段中的活動)。對于一個好的周期快照事實表來說就是在粒度上有更多的事實。代理鍵(WID)月(FK)賬戶(FK)機構(gòu)(FK)家庭成員(FK)期末余額(Fact)變更余額(Fact)日平均額(Fact)保證金數(shù)(Fact)保證金總計(Fact)回收款數(shù)(Fact)……(Fact)聚合快照事實表(Non-AdditiveFact)聚合快照事實表用于描述那些有明確開始和結(jié)束的過程,例如合同履行,保單受理以及常見的工作流。聚合快照不適合長期連續(xù)的處理,如跟蹤銀行賬戶或者描述連續(xù)的生產(chǎn)制造過程,如造紙。聚合快照事實表的粒度是一個實體從其創(chuàng)建到當前狀態(tài)的完整的歷史。代理鍵(WID)請求發(fā)貨日期(FK)實際發(fā)貨日期(FK)交付日期(FK)退貨日期(FK)結(jié)算日期(FK)倉庫(FK)客戶(FK)產(chǎn)品(FK)固定價格清單(Fact)額外補助(Fact)支付數(shù)量(Fact)退還數(shù)量(Fact)貨物凈利數(shù)(Fact)標準假設非事實事實表(FactlessFactTable)每個事實表的粒度是一個事件量測。用來描述數(shù)據(jù)或事件。事件可以發(fā)生,但是沒有具體的測量值。事故事件(FK)位置(FK)事故類型(FK)事故當事人組(FK)原告組(FK)證人組(FK)事故當事人組(FK)事故當事人(FK)事故角色原告組(FK)原告(FK)原告角色證人組(FK)證人(FK)證人角色事故當事人PK)屬性..原告PK)屬性..證人(PK)屬性..維度建模四個步驟分析內(nèi)容是什么A選取要建模的業(yè)務處理過程如何描述事實表單個行B定義業(yè)務處理的粒度(事實表)1.對分析內(nèi)容(事實)給出明確說明,維度分析的達到層級。2確定每個事實表的粒度從那些方面描述事實C選取用于每個事實表的維度1確定維度的屬性2確定維度的層次3確定每個事實所需要關(guān)聯(lián)的維度用那些內(nèi)容(指標)進行評測D確定用于分析形成每

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論