版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、1第二章數(shù)據(jù)倉庫的數(shù)據(jù)模型與數(shù)據(jù)組織本章要點(diǎn) 數(shù)據(jù)倉庫的數(shù)據(jù)模型數(shù)據(jù)倉庫的數(shù)據(jù)模型l概念模型概念模型l邏輯模型邏輯模型l物理模型物理模型 數(shù)據(jù)倉庫數(shù)據(jù)組織的基本概念數(shù)據(jù)倉庫數(shù)據(jù)組織的基本概念l粒度粒度l維度維度l元數(shù)據(jù)元數(shù)據(jù)l數(shù)據(jù)分割數(shù)據(jù)分割 數(shù)據(jù)倉庫的數(shù)據(jù)組織數(shù)據(jù)倉庫的數(shù)據(jù)組織l數(shù)據(jù)倉庫的數(shù)據(jù)組織方式數(shù)據(jù)倉庫的數(shù)據(jù)組織方式l數(shù)據(jù)倉庫的數(shù)據(jù)存儲組織數(shù)據(jù)倉庫的數(shù)據(jù)存儲組織2數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫中的數(shù)據(jù)組織數(shù)據(jù)組織高度綜合級高度綜合級輕度綜合級輕度綜合級當(dāng)前綜合級當(dāng)前綜合級早期細(xì)節(jié)級早期細(xì)節(jié)級多級數(shù)據(jù)多級數(shù)據(jù)3數(shù)據(jù)倉庫的數(shù)據(jù)模型與數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)模型的區(qū)別l數(shù)據(jù)倉庫的數(shù)據(jù)模型中不包含純操作型數(shù)據(jù)。l
2、數(shù)據(jù)倉庫的數(shù)據(jù)模型擴(kuò)充了碼結(jié)構(gòu),增加了時間屬性作為碼的一部分。l數(shù)據(jù)倉庫的數(shù)據(jù)模型中增加了一些面向主題的導(dǎo)出數(shù)據(jù)。4 星型圖模型星型圖模型 物 理 數(shù) 據(jù) 模物 理 數(shù) 據(jù) 模型型概念模型概念模型邏輯模型邏輯模型物理模型物理模型面向用戶的需求面向用戶的需求細(xì)細(xì) 化化層層次次更詳細(xì)的更詳細(xì)的技術(shù)細(xì)節(jié)技術(shù)細(xì)節(jié)數(shù)據(jù)倉庫的數(shù)據(jù)模型數(shù)據(jù)倉庫的數(shù)據(jù)模型信息包圖信息包圖5信息包圖(概念模型)l信息包圖:是數(shù)據(jù)倉庫的數(shù)據(jù)模型的第一層或最高層。由于大多數(shù)商務(wù)數(shù)據(jù)是多維的,但傳統(tǒng)的數(shù)據(jù)模型表示三維以上的數(shù)據(jù)有一定困難。而信息包圖簡化了這一過程并且允許用戶設(shè)計(jì)多維信息包并與開發(fā)者和其他用戶建立聯(lián)系。這種模型集中在用
3、戶對信息包的需要,信息包提供了分析人員思維模式的可視化表示。l工作: 確定系統(tǒng)邊界:決策類型、需要的信息、原始信息確定系統(tǒng)邊界:決策類型、需要的信息、原始信息 確定主題域及其內(nèi)容:主題域的公共鍵碼、聯(lián)系、屬性組確定主題域及其內(nèi)容:主題域的公共鍵碼、聯(lián)系、屬性組 確定維度:如時間維、銷售位置維、產(chǎn)品維、組別維等確定維度:如時間維、銷售位置維、產(chǎn)品維、組別維等 確定類別:相應(yīng)維的詳細(xì)類別確定類別:相應(yīng)維的詳細(xì)類別 確定指標(biāo)和事實(shí):用于進(jìn)行分析的數(shù)值化信息確定指標(biāo)和事實(shí):用于進(jìn)行分析的數(shù)值化信息6信息包圖信息包: 維度類別空白信息包圖樣式指標(biāo)和事實(shí)7信息包圖例試畫出銷售分析的信息包圖。解:首先根據(jù)銷
4、售分析的實(shí)際需求,確定信息包的維度、類別和指標(biāo)與事實(shí):(1)維度:包括日期維、銷售地點(diǎn)維、銷售產(chǎn)品維、年齡組別維、性別維等。(2)類別:確定各維的詳細(xì)類別,如:日期維包括年(10)、季度(40)、月(120)等類別,括號中的數(shù)字分別指出各類別的數(shù)量;銷售地點(diǎn)維包括國家(15)、區(qū)域(45)、城市(280)、區(qū)(880)、商店(2000)等類別,括號中的數(shù)字同樣分別指出各類別的數(shù)量;類似地,可以確定銷售產(chǎn)品、年齡組別維、性別維等的詳細(xì)類別。(3)指標(biāo)和事實(shí):確定用于進(jìn)行分析的數(shù)值化信息,包括預(yù)測銷售量、實(shí)際銷售量和預(yù)測偏差等。 8銷售分析的信息包圖日期銷售地點(diǎn)銷售產(chǎn)品年齡組別性別年年(10)國家
5、國家(15)產(chǎn)品類產(chǎn)品類(6)年齡組年齡組(8)性別組性別組(2)季度季度(40)區(qū)域區(qū)域(45)產(chǎn)品組產(chǎn)品組(48)月月(120)城市城市(280)產(chǎn)品產(chǎn)品(240)區(qū)區(qū)(880)商店商店(2000)指標(biāo)和事實(shí):預(yù)測銷售量、實(shí)際銷售量、預(yù)測偏差信息包:信息包: 銷售分析銷售分析維度維度類別類別9星型圖模型(邏輯模型)l星型圖:數(shù)據(jù)倉庫的數(shù)據(jù)模型的第二層是向最終的數(shù)據(jù)結(jié)構(gòu)添加某些細(xì)節(jié)的星型圖模型。與傳統(tǒng)的關(guān)系模型相比,星型圖模型簡化了用戶分析所需的關(guān)系,從支持決策的角度去定義數(shù)據(jù)實(shí)體,更適合大量復(fù)雜查詢。l星形圖包括了三種邏輯實(shí)體: 指標(biāo)指標(biāo) 維度維度 詳細(xì)類別詳細(xì)類別10星型圖模型(邏輯模型
6、)星型圖模型(邏輯模型)例例銷售分析的星型圖模型。銷售分析的星型圖模型。時間維時間維產(chǎn)品維產(chǎn)品維地區(qū)維地區(qū)維組別維組別維其他維其他維銷售分析:銷售分析: 實(shí)際銷售實(shí)際銷售 預(yù)測銷售預(yù)測銷售 預(yù)測偏差預(yù)測偏差11物理數(shù)據(jù)模型l物理數(shù)據(jù)模型:數(shù)據(jù)模型的第三層,它是星型圖模型在數(shù)據(jù)倉庫中的實(shí)現(xiàn),如物理的存取方式、數(shù)據(jù)存儲結(jié)構(gòu)等。l 在物理設(shè)計(jì)時,常常要按數(shù)據(jù)的重要程度、使用頻率以及對響應(yīng)時間的要求進(jìn)行分類,并將不同類的數(shù)據(jù)分別存儲在不同的存儲設(shè)備中。重要程度高、經(jīng)常存取并對響應(yīng)時間高的數(shù)據(jù)就存放在高速存儲設(shè)備上,如硬盤;存取頻率低或?qū)Υ嫒№憫?yīng)時間要求低的數(shù)據(jù)則可以放在低速存儲設(shè)備上。12粒度第一種形
7、式l粒度:對數(shù)據(jù)倉庫中的數(shù)據(jù)綜合程度高低的一個度量,它既影響數(shù)據(jù)倉庫中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉庫所能回答詢問的種類。l l粒度越小,綜合程度越低,回答查詢的種類越多; 粒度越高,綜合程度越高,查詢的效率也越高。l 在數(shù)據(jù)倉庫中可將小粒度的數(shù)據(jù)存儲在低速存儲器上;大粒度的數(shù)據(jù)存儲在高速存儲器上。13粒度第二種形式:樣本數(shù)據(jù)庫l樣本數(shù)據(jù)庫:在分析過程中,有許多探索的過程有時分析的目的并不要求精確的結(jié)果,只需要得到相對準(zhǔn)確、能反映趨勢的數(shù)據(jù),所以可以提取出樣本數(shù)據(jù)庫。l樣本數(shù)據(jù)庫的粒度:是根據(jù)采樣率的高低來劃分的,采樣粒度不同的樣本數(shù)據(jù)庫可以具有相同的綜合級別,它是按一定的采樣率從細(xì)節(jié)數(shù)據(jù)庫或輕
8、度綜合數(shù)據(jù)庫中提取的一個子集。l 樣本數(shù)據(jù)庫的抽取按照數(shù)據(jù)的重要程度不同進(jìn)行,利用樣本數(shù)據(jù)庫采集重要數(shù)據(jù)進(jìn)行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。14維度l維度:是一個物理特性(如時間、地點(diǎn)、產(chǎn)品等),它是表達(dá)數(shù)據(jù)倉庫中信息的一個基本途徑,可作為標(biāo)識數(shù)據(jù)的索引。通常的報(bào)表只包含有行和列兩維,但在數(shù)據(jù)倉庫中所存儲的數(shù)據(jù)大多是用多維(三維或三維以上)視圖表示的。l例如: 一個銷售系統(tǒng)中的數(shù)據(jù)可分為時間維、產(chǎn)品維和地理位一個銷售系統(tǒng)中的數(shù)據(jù)可分為時間維、產(chǎn)品維和地理位置維等;置維等; 一個財(cái)務(wù)系統(tǒng)中的數(shù)據(jù)可分為時間維、支出維和收入維一個財(cái)務(wù)系統(tǒng)中的數(shù)據(jù)可分為時間維、支出維和收入維等;
9、等; 一個企業(yè)決策支持系統(tǒng)中的數(shù)據(jù)可分為成本開支維、銷一個企業(yè)決策支持系統(tǒng)中的數(shù)據(jù)可分為成本開支維、銷售收入維、利潤維、股票價值維等。售收入維、利潤維、股票價值維等。 15聚合l在數(shù)據(jù)倉庫技術(shù)中,每一維可包括多個層次,這些層次反過來可以向用戶提供某一層次的數(shù)據(jù)。例如,在地理位置維中,由所有的街區(qū)組成了地區(qū),由所有的地區(qū)組成了城市等。聚合就是指在維的不同層次內(nèi)移動數(shù)據(jù),從而構(gòu)成維內(nèi)不同層次的數(shù)據(jù)集,使用戶不僅能夠在一個維度內(nèi)觀察數(shù)據(jù),而且能夠在維度內(nèi)的不同層次上觀察數(shù)據(jù)。16分解與合成l分解與合成是在一個維度內(nèi)進(jìn)一步細(xì)分?jǐn)?shù)據(jù)或?qū)?shù)據(jù)按照另一標(biāo)準(zhǔn)組合的過程。例如,當(dāng)以地理位置維觀察數(shù)據(jù)時,用戶可以
10、首先以國家(如中國)為單位觀察數(shù)據(jù),然后可以選擇觀察某一個地區(qū)(如華東地區(qū))的數(shù)據(jù),接下來可以選擇觀察某一個省或城市(如上海)的數(shù)據(jù),這就是數(shù)據(jù)分解的過程。而合成則是分解的逆過程,例如用戶開始以省市為觀察對象,接著再以地區(qū)、國家等為觀察對象,就是一個數(shù)據(jù)合成的過程。17分割及其標(biāo)準(zhǔn)l 分割:將數(shù)據(jù)分散到各自的物理單元中去以便能分別處理,提高數(shù)據(jù)處理效率,數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片。l數(shù)據(jù)分割的標(biāo)準(zhǔn):可按日期、地域、業(yè)務(wù)領(lǐng)域或按多個分割標(biāo)準(zhǔn)的組合。l數(shù)據(jù)分割的目的:便于進(jìn)行數(shù)據(jù)的重構(gòu)、索引、重組、恢復(fù)、監(jiān)控、掃描18數(shù)據(jù)分割的方法l垂直分割:垂直分割就是把一個表垂直分成兩部分。這種類型的分割有
11、助于把一大堆列分成兩個獨(dú)立的表,這兩個表之間通過一個關(guān)鍵字段相關(guān)聯(lián)。l水平分割:水平分割就是把表按行分成兩部分。這種類型的分割被用來存儲與用戶聯(lián)系緊密的本地重要數(shù)據(jù),從而減少網(wǎng)絡(luò)查詢。l圖解分割:經(jīng)由多個分布系統(tǒng)把一個圖分解成兩部分。可以從指定的服務(wù)器或在多個服務(wù)器之間建立連接而得到一個表所需要的全部數(shù)據(jù)。這種類型的分割被用來把小的、靜止的表從不穩(wěn)定的、越變越大的表中分割出來。19元數(shù)據(jù)l元數(shù)據(jù):是用來描述數(shù)據(jù)的數(shù)據(jù)。它描述和定位數(shù)據(jù)組件、它們的起源及它們在數(shù)據(jù)倉庫進(jìn)程中的活動;關(guān)于數(shù)據(jù)和操作的相關(guān)描述(輸入、計(jì)算和輸出)。元數(shù)據(jù)可用文件存在元數(shù)據(jù)庫中。l要有效的管理數(shù)據(jù)倉庫,必須設(shè)計(jì)一個描述
12、能力強(qiáng)、內(nèi)容完善的元數(shù)據(jù)。20元數(shù)據(jù)的種類l轉(zhuǎn)換元數(shù)據(jù):為了從事務(wù)處理型環(huán)境向數(shù)據(jù)倉庫中轉(zhuǎn)換而建立的元數(shù)據(jù),它包含了所有源數(shù)據(jù)的信息、事務(wù)描述、數(shù)據(jù)結(jié)構(gòu)的定義、提取數(shù)據(jù)和傳送數(shù)據(jù)的算法、綜合數(shù)據(jù)和凈化數(shù)據(jù)的規(guī)則、數(shù)據(jù)訪問和傳送的記錄等。lDSS元數(shù)據(jù):在數(shù)據(jù)倉庫中用來與終端用戶的多維商業(yè)模型/前端工具之間建立映射,這種元數(shù)據(jù)常稱為DSS元數(shù)據(jù),常用來開發(fā)更先進(jìn)的決策支持工具。21數(shù)據(jù)倉庫中的元數(shù)據(jù)的內(nèi)容l關(guān)于源數(shù)據(jù)的元數(shù)據(jù):數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu);所有數(shù)據(jù)項(xiàng)的業(yè)務(wù)定義;每個數(shù)據(jù)項(xiàng)更新的頻率,以及由誰或哪個過程更新的說明;每個數(shù)據(jù)項(xiàng)的有效值;其它系統(tǒng)中具有相同業(yè)務(wù)含義的數(shù)據(jù)項(xiàng)的清單。l關(guān)于數(shù)據(jù)
13、倉庫映射的元數(shù)據(jù)。l關(guān)于系統(tǒng)安全的元數(shù)據(jù)。22l與傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)字典中相似的內(nèi)容。與傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)字典中相似的內(nèi)容。l數(shù)據(jù)倉庫的主題描述。數(shù)據(jù)倉庫的主題描述。l外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的描述。外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的描述。l記錄系統(tǒng)定義。記錄系統(tǒng)定義。l邏輯模型的定義。邏輯模型的定義。l數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫的轉(zhuǎn)換規(guī)則。數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫的轉(zhuǎn)換規(guī)則。l數(shù)據(jù)的提取歷史。數(shù)據(jù)的提取歷史。l粒度的定義。粒度的定義。l數(shù)據(jù)分割的定義。數(shù)據(jù)分割的定義。l廣義索引。廣義索引。l有關(guān)存儲路徑和結(jié)構(gòu)的描述。有關(guān)存儲路徑和結(jié)構(gòu)的描述。23數(shù)據(jù)倉庫的數(shù)據(jù)組織l數(shù)據(jù)倉庫是構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術(shù)。l數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)不同于一般的數(shù)據(jù)庫系統(tǒng),需要將從原有的業(yè)務(wù)數(shù)據(jù)庫中獲得的基本數(shù)據(jù)和綜合數(shù)據(jù)分成一些不同的級別。在數(shù)據(jù)倉庫中,數(shù)據(jù)按照粒度從小到大可分為四個級別:早期細(xì)節(jié)級、當(dāng)前細(xì)節(jié)級、輕度細(xì)節(jié)級和高度細(xì)節(jié)級。24數(shù)據(jù)倉庫的數(shù)據(jù)組織方式l基于關(guān)系表的存儲方式:這種方式的主要問題是在多維數(shù)據(jù)模型定義好后,從數(shù)據(jù)庫中提取數(shù)據(jù)往往需要編制獨(dú)立、復(fù)雜的程序,因此,通用性較差,且很難維護(hù)。l多維數(shù)據(jù)庫存儲方式:多維數(shù)據(jù)庫的組織方式是直接面向OLAP分析操作的數(shù)據(jù)組織形式。這
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025苗木購銷合同樣本
- 2025年度公司簽約帶貨主播短視頻內(nèi)容制作合同3篇
- 二零二五年度勞動合同集合與員工績效評估合同3篇
- 二零二五年度公益性崗位勞動合同(老年人日間照料)3篇
- 2025年度農(nóng)村個人房屋買賣合同附農(nóng)村集體資產(chǎn)收益權(quán)轉(zhuǎn)讓合同3篇
- 二零二五年度農(nóng)村房屋互換與環(huán)保節(jié)能協(xié)議2篇
- 2025年度農(nóng)業(yè)勞務(wù)用工合同模板(含農(nóng)業(yè)廢棄物資源化利用技術(shù))3篇
- 新能源汽車研發(fā)價格保密協(xié)議書(2025年度)3篇
- 二零二五年度新能源出租車運(yùn)營合作協(xié)議3篇
- 2025年度智能家電產(chǎn)品供貨協(xié)議書3篇
- 銷售價格管理制度(5篇)
- 人教版七年級歷史上冊復(fù)習(xí)資料-考點(diǎn)重點(diǎn)-版
- 福建省廈門市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名明細(xì)及行政區(qū)劃代碼
- 國際商法(第四版)
- 幼兒園課件:《獨(dú)自外出真危險》
- 倉儲類企業(yè)企業(yè)風(fēng)險分級管控和隱患排查治理雙體系(2022-2023手冊)
- 中職學(xué)校優(yōu)秀班主任事跡材料(完整版)
- 最全的官能團(tuán)化合物的紅外吸收峰特征
- 世界氣候類型(圖很清晰)
- 新版【處置卡匯編】重點(diǎn)崗位人員應(yīng)急處置卡(全套25頁)
- EE系列磁芯參數(shù)
評論
0/150
提交評論