版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第2章數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)模型
在創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)之時(shí),需要使用各種數(shù)據(jù)模型對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行描述。數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)人員依據(jù)這些數(shù)據(jù)模型,才能開(kāi)發(fā)出一個(gè)滿足用戶需求的數(shù)據(jù)倉(cāng)庫(kù)。使開(kāi)發(fā)人員能夠?qū)⒆⒁饬性跀?shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)的主要部分。模型有更好的適應(yīng)性,更易于修改。當(dāng)用戶的需求改變時(shí),僅對(duì)模型做出相應(yīng)的變化就能反映這個(gè)改變。數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)模型
2.1數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)模型
2.2數(shù)據(jù)倉(cāng)庫(kù)概念模型2.3數(shù)據(jù)倉(cāng)庫(kù)邏輯模型
2.4數(shù)據(jù)倉(cāng)庫(kù)的物理模型
2.5數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)模型
2.6數(shù)據(jù)倉(cāng)庫(kù)的粒度和聚集模型
練
習(xí)
2.1數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)模型模型是對(duì)現(xiàn)實(shí)世界進(jìn)行抽象的工具。在信息管理中需要將現(xiàn)實(shí)世界的事物及其有關(guān)特征轉(zhuǎn)換為信息世界的數(shù)據(jù)才能對(duì)信息進(jìn)行處理與管理,這就需要依靠數(shù)據(jù)模型作為這種轉(zhuǎn)換的橋梁。這種轉(zhuǎn)換一般需要經(jīng)歷從現(xiàn)實(shí)到概念模型,從概念模型到邏輯模型,從邏輯模型到物理模型的轉(zhuǎn)換過(guò)程。
現(xiàn)實(shí)世界概念世界邏輯世界計(jì)算機(jī)世界信用特性屬性列(字段、數(shù)據(jù)項(xiàng))張三個(gè)體實(shí)體記錄客戶整體同質(zhì)總體表文件客戶與產(chǎn)品整體間聯(lián)系異質(zhì)總體數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)就是在概念模型、邏輯模型和物理模型的依次轉(zhuǎn)換過(guò)程中實(shí)現(xiàn)的。作為數(shù)據(jù)倉(cāng)庫(kù)的靈魂——元數(shù)據(jù)模型則自始至終伴隨著數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)、實(shí)施與使用。數(shù)據(jù)粒度和聚集模型也在數(shù)據(jù)倉(cāng)庫(kù)的創(chuàng)建中發(fā)揮著指導(dǎo)的作用,指導(dǎo)著數(shù)據(jù)倉(cāng)庫(kù)的具體實(shí)現(xiàn)?,F(xiàn)實(shí)世界概念模型邏輯模型物理模型數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)模型數(shù)據(jù)粒度和聚集模型2.2數(shù)據(jù)倉(cāng)庫(kù)概念模型
2.2.1概念數(shù)據(jù)模型
財(cái)務(wù)部門銷售收入賬應(yīng)收賬應(yīng)付賬成本賬銷售部門銷售計(jì)劃銷售合同銷售統(tǒng)計(jì)人事部門員工業(yè)績(jī)記錄員工技能情況員工薪酬表企業(yè)數(shù)據(jù)模型銷售部門人事部門財(cái)務(wù)部門……………圖2.3企業(yè)數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型中不包含操作型的數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型只包含用戶所感興趣的分析數(shù)據(jù)、描述數(shù)據(jù)和細(xì)節(jié)數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型擴(kuò)充了關(guān)鍵字結(jié)構(gòu),增加了時(shí)間屬性作為關(guān)鍵字的一部分?jǐn)?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型中還增加了一些由基本數(shù)據(jù)所導(dǎo)出的衍生數(shù)據(jù),這些導(dǎo)出的衍生數(shù)據(jù)主要用于對(duì)企業(yè)的管理決策進(jìn)行分析指標(biāo)實(shí)體(事實(shí)實(shí)體)指標(biāo)實(shí)體名維度實(shí)體名詳細(xì)類別實(shí)體名維度實(shí)體詳細(xì)類別實(shí)體(引用實(shí)體)
2.2.2規(guī)范的數(shù)據(jù)模型第一范式、第二范式、第三范式數(shù)據(jù)倉(cāng)庫(kù)的反規(guī)范化處理數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)普通數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)
長(zhǎng)期的框架靜態(tài)數(shù)據(jù)通常是匯總的特殊查詢?cè)L問(wèn)定期更新數(shù)據(jù)驅(qū)動(dòng)短期的框架快速變化記錄級(jí)的訪問(wèn)標(biāo)準(zhǔn)查詢?cè)L問(wèn)實(shí)時(shí)更新事件驅(qū)動(dòng)2.2.3星型模型
星型模型是最常用的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)結(jié)構(gòu)的實(shí)現(xiàn)模式。使數(shù)據(jù)倉(cāng)庫(kù)形成了一個(gè)集成系統(tǒng),為用戶提供分析服務(wù)對(duì)象。
事實(shí)表維度表維度表維度表維度表維度表核心是事實(shí)表,圍繞事實(shí)表的是維度表。通過(guò)事實(shí)表將各種不同的維度表連接起來(lái),各個(gè)維度表都連接到中央事實(shí)表。2.2.4雪花模型雪花模型是對(duì)星型模型的擴(kuò)展,每一個(gè)維度都可以向外連接到多個(gè)詳細(xì)類別表。
雪花模型對(duì)星型模型的維度表進(jìn)一步標(biāo)準(zhǔn)化,對(duì)星型模型中的維度表進(jìn)行了規(guī)范化處理。
事實(shí)表維度表維度表維度表維度表維度表詳細(xì)類別表詳細(xì)類別表2.3數(shù)據(jù)倉(cāng)庫(kù)邏輯模型
信息反饋貴賓卡賬號(hào)姓名客戶類型初次交易時(shí)間賬號(hào)省市縣街道郵政編碼賬號(hào)現(xiàn)金交易額信用交易額賬號(hào)商品編號(hào)時(shí)間交易量賬號(hào)最大信用額最近信用發(fā)生時(shí)間賬號(hào)記錄人反饋類型反饋時(shí)間賬號(hào)服務(wù)種類時(shí)間服務(wù)費(fèi)用顏色信用交易客戶編號(hào)交易記錄信用狀況商品交易服務(wù)交易簽字現(xiàn)金交易賬號(hào)交易額信用額信用時(shí)間2.3.1事實(shí)表模型設(shè)計(jì)1.事實(shí)表(1)客戶事實(shí)表客戶基本情況表(賬號(hào)Integer9,姓名Character12,出生地Character20,初次交易時(shí)間Date,……)。2.事實(shí)表中的事實(shí)特性事實(shí)表中一般包含兩部分,一是由主鍵和外鍵所組成的鍵部分,另一是用戶希望在數(shù)據(jù)倉(cāng)庫(kù)中所了解的數(shù)值指標(biāo)。派生事實(shí)主要有兩種,一是可以用同一事實(shí)表中其他事實(shí)計(jì)算得到,還有一類派生事實(shí)是非加法性事實(shí)。
2.3.2維模型設(shè)計(jì)客戶主題維度表模型時(shí)間維度表(年Date,月Date,日Date)。地點(diǎn)維度表(省Character20,市Character20,縣Character20,街道Character20)。2.4數(shù)據(jù)倉(cāng)庫(kù)的物理模型2.4.1數(shù)據(jù)倉(cāng)庫(kù)物理模型的存儲(chǔ)結(jié)構(gòu)確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)
并行存儲(chǔ)結(jié)構(gòu)——RAID(RedundantArrayofInexpensiveDisk,廉價(jià)冗余磁盤陣列)?!AID·RAID1級(jí)?!AID2級(jí)?!AID3級(jí)?!AID4級(jí)?!AID5級(jí)。2.4.2數(shù)據(jù)倉(cāng)庫(kù)物理模型的索引構(gòu)建位圖索引
女性索引客戶性別客戶所在地上海市索引北京市索引0男北京市011女江蘇省001女北京市010男山東省001女北京市010男上海市100男江蘇省001女上海市101女北京市010男浙江省001女廣東省002.4.2數(shù)據(jù)倉(cāng)庫(kù)物理模型的索引構(gòu)建上海市索引OR北京市索引=地區(qū)索引AND女性索引=最后索引01100000100111100000011111010000000101110111100000000102.4.2數(shù)據(jù)倉(cāng)庫(kù)物理模型的索引構(gòu)建2.廣義索引的構(gòu)建3.連接索引連接索引Aagelevel_idtime_idyear_idmonth_idgeo_idprov_idcity_idcounty_idprodu_idagelevel_idtime_idgeo_idprodu_idamou_moneagelevel_idtime_idyear_idmonth_idgeo_idprov_idcity_idcounty_idprodu_idamou_moneagelevel_idtime_idgeo_idprodu_id全連接結(jié)果time_idgeo_id連接索引B2.4.3數(shù)據(jù)倉(cāng)庫(kù)物理模型的優(yōu)化問(wèn)題1.合并表:幾個(gè)表的記錄分散存放在幾個(gè)物理塊中時(shí),多個(gè)表的存取和連接操作的代價(jià)會(huì)很大。
2.建立數(shù)據(jù)序列:按照某一固定的順序訪問(wèn)并處理一組數(shù)據(jù)記錄。將數(shù)據(jù)按照處理順序存放到連續(xù)的物理塊中,形成數(shù)據(jù)序列。
3.引入冗余:一些表的某些屬性可能在許多地方都要用到,將這些屬性復(fù)制到多個(gè)主題中,可以減少處理時(shí)存取表的個(gè)數(shù)。
4.表的物理分割:每個(gè)主題中的各個(gè)屬性存取頻率是不同的。將一張表按各屬性被存取的頻率分成兩個(gè)或多個(gè)表,將具有相似訪問(wèn)頻率的數(shù)據(jù)組織在一起。
5.生成派出數(shù)據(jù):在原始數(shù)據(jù)的基礎(chǔ)上進(jìn)行總結(jié)或計(jì)算,生成派出數(shù)據(jù),可以在應(yīng)用中直接使用這些派出數(shù)據(jù),減少I/O次數(shù),免去計(jì)算或匯總步驟,在更高級(jí)別上建立了公用數(shù)據(jù)源,避免了不同用戶重復(fù)計(jì)算可能產(chǎn)生的偏差。
2.5數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)模型元數(shù)據(jù)靜態(tài)元數(shù)據(jù)名稱描述格式數(shù)據(jù)類型關(guān)系生成時(shí)間來(lái)源索引類別域業(yè)務(wù)規(guī)則2.5.1元數(shù)據(jù)的類型與組成元數(shù)據(jù)動(dòng)態(tài)元數(shù)據(jù)
入庫(kù)時(shí)間更新周期數(shù)據(jù)質(zhì)量統(tǒng)計(jì)信息狀態(tài)處理存儲(chǔ)位置存儲(chǔ)大小引用處2.5.2元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的作用元數(shù)據(jù)描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、鍵、索引等項(xiàng)內(nèi)容。在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)定義了數(shù)據(jù)倉(cāng)庫(kù)中的許多對(duì)象——表、列、查詢、商業(yè)規(guī)則或是數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部的數(shù)據(jù)轉(zhuǎn)移。元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的重要構(gòu)件,是數(shù)據(jù)倉(cāng)庫(kù)的指示圖(roadmap)。
1.數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)重要性為數(shù)據(jù)倉(cāng)庫(kù)服務(wù)與DSS分析員及高層決策人員服務(wù)提供便利
解決操作型環(huán)境和數(shù)據(jù)倉(cāng)庫(kù)的復(fù)雜關(guān)系
數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的管理
2.元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)期間的使用確認(rèn)數(shù)據(jù)質(zhì)量、同步化和刷新、映射3.元數(shù)據(jù)在數(shù)據(jù)源抽取中的作用資源領(lǐng)域的確定、跟蹤歷史數(shù)據(jù)結(jié)構(gòu)變化的過(guò)程、屬性到屬性的映射、屬性轉(zhuǎn)換
4.元數(shù)據(jù)在數(shù)據(jù)求精與重構(gòu)工程上的作用數(shù)據(jù)的分割、概括與聚集、預(yù)算與推導(dǎo)、轉(zhuǎn)換與再映像
2.5.3元數(shù)據(jù)的收集1.數(shù)據(jù)源的元數(shù)據(jù)2.數(shù)據(jù)模型的元數(shù)據(jù)3.數(shù)據(jù)源與數(shù)據(jù)倉(cāng)庫(kù)映射的元數(shù)據(jù)4.數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的元數(shù)據(jù)2.6數(shù)據(jù)倉(cāng)庫(kù)的粒度和聚集模型粒度可定義成數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)細(xì)節(jié)的最低層次,如事務(wù)層次。這種數(shù)據(jù)層次是高度細(xì)節(jié)化的,這樣就能使用戶按所需的任何層次進(jìn)行匯總。根據(jù)粒度的劃分標(biāo)準(zhǔn)可以將數(shù)據(jù)劃分為:詳細(xì)數(shù)據(jù)、輕度總結(jié)、高度總結(jié)三級(jí)或更多級(jí)粒度。粒度的具體劃分將直接影響到數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量以及查詢質(zhì)量。粒度級(jí)別綜合性數(shù)據(jù)細(xì)節(jié)低(如事務(wù))高(如匯總)低高非常高中等到低2.6.1數(shù)據(jù)粒度的劃分第一步,是估算數(shù)據(jù)倉(cāng)庫(kù)中將來(lái)要使用的數(shù)據(jù)行數(shù)和所需的直接存取存儲(chǔ)設(shè)備數(shù)。每一個(gè)表的存儲(chǔ)空間,應(yīng)該是每一個(gè)表的數(shù)據(jù)存儲(chǔ)空間和索引存儲(chǔ)空間之和。一年數(shù)據(jù)五年數(shù)據(jù)數(shù)據(jù)量(行數(shù))粒度劃分策略數(shù)據(jù)量(行數(shù))粒度劃分策略10,000,0001,000,000100,00010,000雙重粒度并仔細(xì)設(shè)計(jì)雙重粒度仔細(xì)設(shè)計(jì)不考慮20,000,00010,000,0001,000,000100,000雙重粒度并仔細(xì)設(shè)計(jì)雙重粒度仔細(xì)設(shè)計(jì)不考慮2.6.2確定粒度的級(jí)別考慮因素:要接受的分析類型、可接受的數(shù)據(jù)最低粒度和能存儲(chǔ)的數(shù)據(jù)量。粒度的層次定義越高,就越不能在該倉(cāng)庫(kù)中進(jìn)行更細(xì)致的分析。在同一模式中使用多重粒度。如果存儲(chǔ)資源有一定的限制,就只能采用較高粒度的數(shù)據(jù)粒度劃分策略。粒度的確定實(shí)質(zhì)上是業(yè)務(wù)決策分析、硬件、軟件和數(shù)據(jù)倉(cāng)庫(kù)使用方法的一個(gè)折衷。數(shù)據(jù)粒度劃分策略一定要保證數(shù)據(jù)的粒度確實(shí)能夠滿足用戶的決策分析需要,這是數(shù)據(jù)粒度劃分策略中最重要的一個(gè)準(zhǔn)則。2.6.3數(shù)據(jù)倉(cāng)庫(kù)的聚集模型確定聚集數(shù)據(jù)主要是為了使用戶獲得更好的查詢性能聚集模型設(shè)計(jì)時(shí)應(yīng)該注意將聚集數(shù)據(jù)存儲(chǔ)在其事實(shí)表中,并與其底層數(shù)據(jù)相區(qū)別。設(shè)計(jì)聚集模型時(shí),首先需要考慮用戶的使用要求。其次要考慮數(shù)據(jù)倉(cāng)庫(kù)的粒度模型和數(shù)據(jù)的統(tǒng)計(jì)分布情況。數(shù)據(jù)倉(cāng)庫(kù)的聚集模型的設(shè)計(jì)與數(shù)據(jù)倉(cāng)庫(kù)的粒度模型緊密相關(guān)建立聚集模型時(shí)還需要考慮作為聚集屬性的數(shù)量因素2.6.4聚集模型的處理聚集事實(shí)表已經(jīng)獨(dú)立存在并且可以與基本事實(shí)表一同保存通過(guò)將當(dāng)前加載數(shù)據(jù)添加到系統(tǒng)中的累積“桶”中將數(shù)據(jù)的聚集與數(shù)據(jù)倉(cāng)庫(kù)的加載過(guò)程組合為同一處理過(guò)程在將數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)加載以后,再進(jìn)行聚集處理每次在加載數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)時(shí),都需要對(duì)各種聚集進(jìn)行計(jì)算和增加,及時(shí)保持聚集與基本數(shù)據(jù)的同步性2.6.5聚集模型的管理要根據(jù)使用情況刪除不經(jīng)常使用的聚集需要減少層次過(guò)于接近的聚集生成注意將聚集獨(dú)立存儲(chǔ)在自己的事實(shí)表中
練習(xí)
1.在一般的信息管理中采用哪些概念模型來(lái)描述信息處理的對(duì)象,這些概念數(shù)據(jù)模型是否適合數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)環(huán)境?2.航空公司希望能夠分析在其服務(wù)旅客中的??吐眯汹厔?shì),這樣可以為公司正確定位航空市場(chǎng)中的??褪袌?chǎng)。并且希望能夠跟蹤不同航線上旅客的季節(jié)變化情況和增長(zhǎng),并跟蹤在不同航班上所消費(fèi)的食品和飲料情況,這樣可以幫助
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)獨(dú)棟總部出售合同范例
- 簽約合同范例
- 勞務(wù)派遣進(jìn)廠合同范例
- 2025簡(jiǎn)單版重慶購(gòu)房合同
- 工程預(yù)算施工合同范例
- 勞務(wù)總包大合同范例
- 土地簽約合同范例
- 橋梁木工班組勞務(wù)合同范例
- 快速簽約洽談合同范例
- 銅仁職業(yè)技術(shù)學(xué)院《地震地質(zhì)綜合解釋》2023-2024學(xué)年第一學(xué)期期末試卷
- 初一分班英語(yǔ)試卷(含答案)
- 現(xiàn)代漢語(yǔ)詞典電子版
- 2023廣東珠海市統(tǒng)計(jì)局招聘合同制職員1人(共500題含答案解析)筆試歷年難、易錯(cuò)考點(diǎn)試題含答案附詳解
- 跨境電商物流與供應(yīng)鏈管理PPT全套完整教學(xué)課件
- 四年級(jí)上冊(cè)英語(yǔ)說(shuō)課稿-Module 7 Unit 1 Did you take Amy's doll|外研社(一起)
- 教師資格面試-75篇結(jié)構(gòu)化逐字稿
- 內(nèi)鏡中心減少患者內(nèi)鏡診療等候時(shí)間品管圈PDCA匯報(bào)
- 學(xué)習(xí)當(dāng)代大學(xué)生國(guó)防教育的體會(huì)和意義
- CDNL-MR08 高溫試驗(yàn)測(cè)量方法 不確定度評(píng)定報(bào)告 V1.0
- 康復(fù)中心工作匯報(bào)專家講座
- 拓?fù)鋵W(xué)(黑龍江聯(lián)盟)知到章節(jié)答案智慧樹(shù)2023年哈爾濱工程大學(xué)
評(píng)論
0/150
提交評(píng)論