數(shù)據(jù)倉庫工程_第1頁
數(shù)據(jù)倉庫工程_第2頁
數(shù)據(jù)倉庫工程_第3頁
數(shù)據(jù)倉庫工程_第4頁
數(shù)據(jù)倉庫工程_第5頁
已閱讀5頁,還剩91頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫和決策支持系統(tǒng)研究方向:智能數(shù)據(jù)分析與數(shù)據(jù)挖掘電話:Email:lumingy第五章數(shù)據(jù)倉庫工程

目錄

5.1

數(shù)據(jù)倉庫工程概述5.2數(shù)據(jù)倉庫開發(fā)模型5.3數(shù)據(jù)倉庫的規(guī)劃5.4數(shù)據(jù)倉庫的概念模型設(shè)計(jì)5.5

數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)5.6

數(shù)據(jù)倉庫的物理模型設(shè)計(jì)5.7

數(shù)據(jù)倉庫的實(shí)施5.8數(shù)據(jù)倉庫的應(yīng)用、支持和增強(qiáng)練習(xí)數(shù)據(jù)倉庫的開發(fā)應(yīng)用像其它軟件系統(tǒng)一樣,具有其特有的、完整的生命周期。數(shù)據(jù)倉庫的開發(fā)應(yīng)用周期可以分成三個(gè)階段:規(guī)劃分析階段設(shè)計(jì)實(shí)施階段使用維護(hù)階段這三個(gè)階段是一個(gè)不斷循環(huán)、完善和提高的過程。一般情況下,數(shù)據(jù)倉庫系統(tǒng)不可能在一個(gè)循環(huán)過程中完成,而須經(jīng)過屢次循環(huán)開發(fā)。每次循環(huán)都會(huì)為系統(tǒng)增加新的功能,使數(shù)據(jù)倉庫的應(yīng)用得到完善和提高。5.1數(shù)據(jù)倉庫工程概述數(shù)據(jù)倉庫的螺旋式開發(fā)方法設(shè)計(jì)體系結(jié)構(gòu)開發(fā)概念模型開發(fā)邏輯模型數(shù)據(jù)庫與元數(shù)據(jù)設(shè)計(jì)數(shù)據(jù)抽取轉(zhuǎn)換與加載開發(fā)中間件填充與測試數(shù)據(jù)倉庫數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)倉庫維護(hù)數(shù)據(jù)倉庫評(píng)價(jià)規(guī)劃與確定需求

規(guī)劃分析階段

數(shù)據(jù)倉庫

開發(fā)過程

設(shè)計(jì)實(shí)施

使用維護(hù)階段階段

5.2數(shù)據(jù)倉庫的開發(fā)模型在創(chuàng)立數(shù)據(jù)倉庫時(shí),需要使用各種數(shù)據(jù)模型對(duì)數(shù)據(jù)倉庫進(jìn)行描述。數(shù)據(jù)倉庫的開發(fā)人員依據(jù)這些數(shù)據(jù)模型,才能開發(fā)出一個(gè)滿足用戶需求的數(shù)據(jù)倉庫,使開發(fā)人員能夠?qū)⒆⒁饬性跀?shù)據(jù)倉庫開發(fā)的主要局部。模型有更好的適應(yīng)性,更易于修改。當(dāng)用戶的需求改變時(shí),僅對(duì)模型做出相應(yīng)的變化就能反映這個(gè)改變。

5.2.1模型與模型轉(zhuǎn)換模型是對(duì)現(xiàn)實(shí)世界進(jìn)行抽象的工具。在信息管理中,需要將現(xiàn)實(shí)世界的事物及其有關(guān)特征轉(zhuǎn)換為信息世界的數(shù)據(jù),才能對(duì)信息進(jìn)行處理與管理,這就需要依靠數(shù)據(jù)模型作為這種轉(zhuǎn)換的橋梁。這種轉(zhuǎn)換一般需要經(jīng)歷從現(xiàn)實(shí)世界到概念模型、從概念模型到邏輯模型、從邏輯模型到物理模型的轉(zhuǎn)換過程。

數(shù)據(jù)庫客戶與產(chǎn)品表文件客戶記錄張三列〔字段、數(shù)據(jù)項(xiàng)〕屬性特性職業(yè)計(jì)算機(jī)世界邏輯世界概念世界現(xiàn)實(shí)世界同質(zhì)總體實(shí)體個(gè)體整體間聯(lián)系異質(zhì)總體整體數(shù)據(jù)倉庫的設(shè)計(jì)就是在概念模型、邏輯模型和物理模型的依次轉(zhuǎn)換過程中實(shí)現(xiàn)的。作為數(shù)據(jù)倉庫的靈魂——元數(shù)據(jù)模型那么自始至終伴隨著數(shù)據(jù)倉庫的開發(fā)、實(shí)施與使用。數(shù)據(jù)粒度和聚集模型也在數(shù)據(jù)倉庫的創(chuàng)立中發(fā)揮著指導(dǎo)的作用,指導(dǎo)著數(shù)據(jù)倉庫的具體實(shí)現(xiàn)?,F(xiàn)實(shí)世界概念模型邏輯模型物理模型數(shù)據(jù)倉庫元數(shù)據(jù)模型數(shù)據(jù)粒度和聚集模型5.2.2數(shù)據(jù)倉庫的概念模型

概念數(shù)據(jù)模型---可采用E-R圖

財(cái)務(wù)部門銷售收入賬應(yīng)收賬應(yīng)付賬本錢賬銷售部門銷售方案銷售合同銷售統(tǒng)計(jì)人事部門員工業(yè)績記錄員工技能情況員工薪酬表企業(yè)數(shù)據(jù)模型銷售部門人事部門財(cái)務(wù)部門……………圖5.3企業(yè)數(shù)據(jù)模型數(shù)據(jù)倉庫的概念數(shù)據(jù)模型的特點(diǎn)不包含操作型的數(shù)據(jù),只包含用戶所感興趣的分析數(shù)據(jù)、描述數(shù)據(jù)和細(xì)節(jié)數(shù)據(jù)。擴(kuò)充了關(guān)鍵字結(jié)構(gòu),增加了時(shí)間屬性作為關(guān)鍵字的一局部。還增加了一些由根本數(shù)據(jù)所導(dǎo)出的衍生數(shù)據(jù)。這些導(dǎo)出的衍生數(shù)據(jù)主要用于對(duì)企業(yè)的管理決策進(jìn)行分析。

指標(biāo)實(shí)體〔事實(shí)實(shí)體〕指標(biāo)實(shí)體名維度實(shí)體名詳細(xì)類別實(shí)體名維度實(shí)體詳細(xì)類別實(shí)體〔引用實(shí)體〕

E-R圖中實(shí)體的細(xì)分?jǐn)?shù)據(jù)模型的標(biāo)準(zhǔn)與反標(biāo)準(zhǔn)第一范式、第二范式、第三范式數(shù)據(jù)倉庫的反標(biāo)準(zhǔn)化處理---盡量減少表連接操作數(shù)據(jù)倉庫的數(shù)據(jù)普通數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)長期的框架靜態(tài)數(shù)據(jù)通常是匯總的特殊查詢?cè)L問定期更新數(shù)據(jù)驅(qū)動(dòng)短期的框架快速變化記錄級(jí)的訪問標(biāo)準(zhǔn)查詢?cè)L問實(shí)時(shí)更新事件驅(qū)動(dòng)星型模型

星型模型是最常用的數(shù)據(jù)倉庫設(shè)計(jì)結(jié)構(gòu)的實(shí)現(xiàn)模式。它使數(shù)據(jù)倉庫形成了一個(gè)集成系統(tǒng),為用戶提供分析效勞對(duì)象。

事實(shí)表維表維表維表維表維表核心是事實(shí)表,圍繞事實(shí)表的是維〔度〕表。通過事實(shí)表將各種不同的維度表連接起來,各個(gè)維度表都連接到中央事實(shí)表。利用目前成熟的關(guān)系數(shù)據(jù)庫系統(tǒng),同樣也可以建立數(shù)據(jù)倉庫。這樣做本錢低,實(shí)現(xiàn)快,但數(shù)據(jù)倉庫的效率遠(yuǎn)不如多維數(shù)據(jù)庫形式。在這種情況下,主要是利用星型模式〔STARSCHEME〕來組織數(shù)據(jù)。時(shí)間維表 事實(shí)表 產(chǎn)品維表地區(qū)維表數(shù)據(jù)倉庫的星型模型(關(guān)系數(shù)據(jù)庫形式)TIME-IDPRODUCT-IDCITY-IDSALES...TIME-IDTIME...PRODUCT-IDPNAMETYPECOLOR...CITY-IDCNAMEPOPULATION...雪花模型雪花模型是對(duì)星型模型的擴(kuò)展,每一個(gè)維度都可以向外連接到多個(gè)詳細(xì)類別表。

雪花模型對(duì)星型模型的維度表進(jìn)一步標(biāo)準(zhǔn)化,對(duì)星型模型中的維度表進(jìn)行了標(biāo)準(zhǔn)化處理。

事實(shí)表維表維表維表維表維表詳細(xì)類別表詳細(xì)類別表經(jīng)濟(jì)(年收入)100萬以上10萬以上1萬以上地點(diǎn)國家省市銷售銷售ID銷售數(shù)量銷售價(jià)格銷售金額時(shí)間ID地點(diǎn)ID商品ID年齡60歲以上40歲以上30歲以上20歲以上20歲以下日期年月日商品ID種類小類商品信用10萬元以上1萬元以上1千元以上1千元以下0元商品ID生產(chǎn)廠家進(jìn)貨價(jià)格進(jìn)貨日期客戶客戶ID姓名地址

郵政編碼雪花模型根據(jù)需要設(shè)計(jì)模型5.2.3數(shù)據(jù)倉庫的邏輯模型

數(shù)據(jù)倉庫的邏輯模型是對(duì)數(shù)據(jù)倉庫概念模型的細(xì)化描述。概念模型中的每個(gè)實(shí)體對(duì)應(yīng)一個(gè)邏輯模型。邏輯模型中有四種根本結(jié)構(gòu):根本數(shù)據(jù)組:描述相對(duì)固定的信息二級(jí)數(shù)據(jù)組:描述可以變化的信息連接數(shù)據(jù)組:是一個(gè)主題域的公共碼主鍵,連接主題域類型數(shù)據(jù)組:描述數(shù)據(jù)的類型,分為超類型和子類型邏輯模型設(shè)計(jì)的重點(diǎn):保證數(shù)據(jù)倉庫結(jié)構(gòu)的完整性,即數(shù)據(jù)倉庫所有的數(shù)據(jù)元素都包含在模型中。5.2.3數(shù)據(jù)倉庫的邏輯模型

貸款擔(dān)保賬號(hào)姓名客戶類型初次交易時(shí)間賬號(hào)省市縣街道郵政編碼賬號(hào)現(xiàn)金交易額信用交易額賬號(hào)商品編號(hào)時(shí)間交易量賬號(hào)最大信用額最近發(fā)生時(shí)間賬號(hào)擔(dān)保人擔(dān)保類型貸款時(shí)間賬號(hào)效勞種類時(shí)間效勞費(fèi)用貴賓卡顏色信用交易客戶編號(hào)交易記錄信用狀況商品交易效勞交易簽字現(xiàn)金交易賬號(hào)交易額信用額信用時(shí)間信用卡客戶信息5.2.4數(shù)據(jù)倉庫的物理模型對(duì)數(shù)據(jù)倉庫的邏輯模型進(jìn)行擴(kuò)展,生成一系列事實(shí)表和維表確定模型的碼鍵屬性調(diào)整表結(jié)構(gòu)建立各種索引建立聚集模型確定數(shù)據(jù)倉庫物理模型的存儲(chǔ)結(jié)構(gòu)事實(shí)表模型設(shè)計(jì)事實(shí)表中的事實(shí)特性:

事實(shí)表是星型模型和雪花模型的核心。事實(shí)表中一般包含兩局部:一是由主鍵和外鍵所組成的鍵局部;二是用戶希望在數(shù)據(jù)倉庫中所了解的數(shù)值指標(biāo),需具有數(shù)值性和可加性的特征。派生事實(shí)主要有兩種:一是可以用同一事實(shí)表中其他事實(shí)計(jì)算得到,還有一類派生事實(shí)是非加法性事實(shí)。事實(shí)表模型設(shè)計(jì)1.事實(shí)表〔1〕客戶事實(shí)表

客戶根本情況表〔賬號(hào)Integer9,姓名Character12,出生地Character20,初次交易時(shí)間Date,…〕客戶可變情況表〔賬號(hào)Integer9,省Character20,市Character20,街道Character20,郵政編碼Character6,…〕事實(shí)表模型設(shè)計(jì)1.事實(shí)表〔2〕客戶貸款事實(shí)表

客戶房屋貸款表〔賬號(hào)Integer9,地址Character50,委托人Character12,評(píng)估Memo,…〕客戶汽車貸款表〔賬號(hào)Integer9,時(shí)間Date,制造商Character40,型號(hào)Character10,顏色Character8,…〕事實(shí)表模型設(shè)計(jì)1.事實(shí)表〔3〕客戶存款事實(shí)表

客戶存款表1〔賬號(hào)Integer9,時(shí)間Date,最小存款數(shù)Number7.2,最小余額Number7.2,…〕客戶存款表2〔賬號(hào)Integer9,時(shí)間Date,最小存款數(shù)Number7.2,最小余額Number7.2,…〕〔4〕客戶擔(dān)保事實(shí)表

客戶擔(dān)保表〔賬號(hào)Integer9,時(shí)間Date,擔(dān)保人Character12,種類Character2,擔(dān)保金額Number10.2,…〕維模型設(shè)計(jì)維是用戶觀察、分析數(shù)據(jù)的角度和窗口,因此維度表應(yīng)該包含商業(yè)工程的文字描述,提供維度屬性的定義。維度表中的屬性一般為該維中的不同粒度值或分類值??蛻糁黝}的維度表模型:時(shí)間維度表〔年Date,月Date,日Date〕地點(diǎn)維度表〔省Character20,市Character20,縣Character20,街道Character20〕貸款維〔抵押貸款Character20,非抵押貸款Character20〕由于有OLAP的要求,數(shù)據(jù)倉庫中數(shù)據(jù)的物理存儲(chǔ)形式應(yīng)該是基于多維數(shù)據(jù)模型(所以在邏輯上數(shù)據(jù)倉庫就是一個(gè)多維數(shù)據(jù)庫),在實(shí)現(xiàn)中一般有兩種途徑:基于多維數(shù)據(jù)庫的空間超立方體,又稱數(shù)據(jù)立方體〔DATACUBE〕基于關(guān)系數(shù)據(jù)庫的星型模式〔由關(guān)系型事實(shí)表和維表組成〕三種變型:多層分維結(jié)構(gòu),事實(shí)表族,雪花模式

維1 維2 維3 度量〔指標(biāo)〕1990 TV 上海 500 1990 TV 北京 6001991 VCD 上海 6001991 VCD 北京 700………數(shù)據(jù)倉庫的多維結(jié)構(gòu)數(shù)據(jù)倉庫的結(jié)構(gòu)90TV上海數(shù)據(jù)倉庫物理模型的索引構(gòu)建位圖索引

女性索引客戶性別客戶所在地上海市索引北京市索引0男北京市011女江蘇省001女北京市010男山東省001女北京市010男上海市100男江蘇省001女上海市101女北京市010男浙江省001女廣東省00上海市索引OR北京市索引=地區(qū)索引AND女性索引=最后索引0110000010011110000001111101000000010111011110000000010查詢索引3.連接索引連接索引Aagelevel_idtime_idyear_idmonth_idgeo_idprov_idcity_idcounty_idprodu_idagelevel_idtime_idgeo_idprodu_idamou_moneagelevel_idtime_idyear_idmonth_idgeo_idprov_idcity_idcounty_idprodu_idamou_moneagelevel_idtime_idgeo_idprodu_id全連接結(jié)果time_idgeo_id連接索引B數(shù)據(jù)倉庫物理模型的存儲(chǔ)結(jié)構(gòu)確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)

并行存儲(chǔ)結(jié)構(gòu)——RAID〔RedundantArrayofInexpensiveDisk,廉價(jià)冗余磁盤陣列〕?!AID·RAID1級(jí)·RAID2級(jí)·RAID3級(jí)·RAID4級(jí)·RAID5級(jí)

數(shù)據(jù)倉庫物理模型的優(yōu)化問題合并表:幾個(gè)表的記錄分散存放在幾個(gè)物理塊中時(shí),多個(gè)表的存取和連接操作的代價(jià)會(huì)很大,需要混合存儲(chǔ)。

建立數(shù)據(jù)序列:按照某一固定的順序訪問并處理一組數(shù)據(jù)記錄,將數(shù)據(jù)按照處理順序存放到連續(xù)的物理塊中,形成數(shù)據(jù)序列。

引入冗余:一些表的某些屬性可能在許多地方都要用到,將這些屬性復(fù)制到多個(gè)主題中,可以減少處理時(shí)存取、連接表的個(gè)數(shù)。數(shù)據(jù)倉庫物理模型的優(yōu)化問題表的物理分割:每個(gè)主題中的各個(gè)屬性存取頻率是不同的。將一張表按各屬性被存取的頻率分成兩個(gè)或多個(gè)表,將具有相似訪問頻率的數(shù)據(jù)組織在一起。

生成派出數(shù)據(jù):在原始數(shù)據(jù)的根底上進(jìn)行總結(jié)或計(jì)算,生成派出數(shù)據(jù),可以在應(yīng)用中直接使用這些派出數(shù)據(jù),減少I/O次數(shù),免去計(jì)算或匯總步驟,在更高級(jí)別上建立了公用數(shù)據(jù)源,防止了不同用戶重復(fù)計(jì)算可能產(chǎn)生的偏差。

5.2.5數(shù)據(jù)倉庫的元數(shù)據(jù)模型元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫中,元數(shù)據(jù)定義了數(shù)據(jù)倉庫中的許多對(duì)象——表、列、查詢、商業(yè)規(guī)那么或是數(shù)據(jù)倉庫內(nèi)部的數(shù)據(jù)轉(zhuǎn)移,描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、鍵、索引等項(xiàng)內(nèi)容,非常重要。元數(shù)據(jù)可分為靜態(tài)元數(shù)據(jù)和動(dòng)態(tài)元數(shù)據(jù)。靜態(tài)元數(shù)據(jù)主要描述數(shù)據(jù)結(jié)構(gòu),動(dòng)態(tài)元數(shù)據(jù)主要描述數(shù)據(jù)的狀態(tài)和使用方法。5.2.5數(shù)據(jù)倉庫的元數(shù)據(jù)模型元數(shù)據(jù)靜態(tài)元數(shù)據(jù)名稱描述格式數(shù)據(jù)類型關(guān)系生成時(shí)間來源索引類別域業(yè)務(wù)規(guī)那么元數(shù)據(jù)的類型與組成元數(shù)據(jù)動(dòng)態(tài)元數(shù)據(jù)

入庫時(shí)間更新周期數(shù)據(jù)質(zhì)量統(tǒng)計(jì)信息狀態(tài)處理存儲(chǔ)位置存儲(chǔ)大小引用處元數(shù)據(jù)在數(shù)據(jù)倉庫中的作用在數(shù)據(jù)倉庫中,元數(shù)據(jù)是重要構(gòu)件和指示圖〔roadmap〕。

1.數(shù)據(jù)倉庫元數(shù)據(jù)的作用提供便利的數(shù)據(jù)倉庫效勞與DSS分析員及高層決策人員效勞解決操作型環(huán)境和數(shù)據(jù)倉庫的復(fù)雜關(guān)系

數(shù)據(jù)倉庫中數(shù)據(jù)的管理

元數(shù)據(jù)在數(shù)據(jù)倉庫中的作用元數(shù)據(jù)在數(shù)據(jù)倉庫開發(fā)期間的使用確認(rèn)數(shù)據(jù)質(zhì)量、同步化和刷新、映射元數(shù)據(jù)在數(shù)據(jù)源抽取中的作用資源領(lǐng)域確實(shí)定,跟蹤歷史數(shù)據(jù)結(jié)構(gòu)變化的過程,屬性到屬性的映射,屬性轉(zhuǎn)換

元數(shù)據(jù)在數(shù)據(jù)求精與重構(gòu)工程上的作用數(shù)據(jù)的分割,概括與聚集,預(yù)算與推導(dǎo),轉(zhuǎn)換與再映像

元數(shù)據(jù)的種類與收集1.數(shù)據(jù)源的元數(shù)據(jù)2.數(shù)據(jù)模型的元數(shù)據(jù)3.數(shù)據(jù)源與數(shù)據(jù)倉庫映射的元數(shù)據(jù)4.數(shù)據(jù)倉庫應(yīng)用的元數(shù)據(jù)5.2.6數(shù)據(jù)倉庫的粒度和聚集模型粒度是指數(shù)據(jù)倉庫中數(shù)據(jù)單元的詳細(xì)程度和級(jí)別。根據(jù)粒度的劃分標(biāo)準(zhǔn)可以將數(shù)據(jù)劃分為:詳細(xì)數(shù)據(jù)、輕度總結(jié)、高度總結(jié)三級(jí)或更多級(jí)粒度。粒度的具體劃分將直接影響到數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量。粒度級(jí)別綜合性數(shù)據(jù)細(xì)節(jié)低〔如事務(wù)〕高〔如匯總〕低高非常高中等到低確定粒度的級(jí)別粒度確實(shí)定實(shí)質(zhì)上是業(yè)務(wù)決策分析、硬件、軟件和數(shù)據(jù)倉庫使用方法的一個(gè)折衷。數(shù)據(jù)粒度劃分策略一定要保證數(shù)據(jù)的粒度確實(shí)能夠滿足用戶的決策分析需要,這是數(shù)據(jù)粒度劃分策略中最重要的一個(gè)準(zhǔn)那么。粒度的層次定義越高,就越不能在該倉庫中進(jìn)行更細(xì)致的分析??紤]因素:要接受的分析類型、可接受的數(shù)據(jù)最低粒度和能存儲(chǔ)的數(shù)據(jù)量。如果存儲(chǔ)資源有一定的限制,就只能采用較高粒度的數(shù)據(jù)粒度劃分策略??紤]因素:在同一模式中使用多重粒度。

數(shù)據(jù)粒度的劃分需要估算數(shù)據(jù)倉庫中將來要使用的數(shù)據(jù)行數(shù)和所需的直接存取存儲(chǔ)設(shè)備數(shù),以此確定數(shù)據(jù)粒度的劃分。每一個(gè)表的存儲(chǔ)空間,應(yīng)該是每一個(gè)表的數(shù)據(jù)存儲(chǔ)空間和索引存儲(chǔ)空間之和。一年數(shù)據(jù)五年數(shù)據(jù)數(shù)據(jù)量〔行數(shù)〕粒度劃分策略數(shù)據(jù)量〔行數(shù)〕粒度劃分策略10,000,0001,000,000100,00010,000多重粒度并仔細(xì)設(shè)計(jì)三重粒度雙重粒度不考慮20,000,00010,000,0001,000,000100,000多重粒度并仔細(xì)設(shè)計(jì)三重粒度仔細(xì)設(shè)計(jì)不考慮概念:數(shù)據(jù)聚集

把一個(gè)或幾個(gè)具有公共列并經(jīng)常一起使用的相關(guān)的數(shù)據(jù)庫表物理地聚集存儲(chǔ)在一起的方法稱為聚集,存儲(chǔ)于聚集中的那些相關(guān)的表稱為一組聚集表。如果經(jīng)常根據(jù)索引從表中讀取大量的數(shù)據(jù),那么最好對(duì)這些數(shù)據(jù)建立聚集,這樣可以減少讀取頁的數(shù)量,縮短檢索時(shí)間,并可充分利用預(yù)讀功能順序掃描數(shù)據(jù)。數(shù)據(jù)的聚集通過創(chuàng)立聚集索引〔clusteredindex)完成。利用ALTERINDEX...TOCLUSTER語句,可以將原有索引改為聚集索引,原有索引中的數(shù)據(jù)記錄順序?qū)⒆髦嘏?。如果直接?chuàng)立聚集索引,系統(tǒng)也會(huì)將數(shù)據(jù)記錄排序。聚集索引基于數(shù)據(jù)行的鍵值,在表內(nèi)排序和存儲(chǔ)這些數(shù)據(jù)行。每個(gè)表只能有一個(gè)聚集索引,因?yàn)閿?shù)據(jù)行本身只能按一個(gè)順序存儲(chǔ)。數(shù)據(jù)倉庫的聚集模型確定聚集數(shù)據(jù)是將用戶需要用到的某一類數(shù)據(jù)聚集到一起,主要是為了使用戶獲得更好的查詢性能。因此,設(shè)計(jì)聚集模型時(shí),首先需要考慮用戶的使用要求。數(shù)據(jù)倉庫的聚集模型的設(shè)計(jì)與數(shù)據(jù)倉庫的粒度模型緊密相關(guān),因此需要考慮數(shù)據(jù)倉庫的粒度模型。建立聚集模型時(shí)還需要考慮作為聚集屬性的數(shù)量因素,因此需要考慮數(shù)據(jù)倉庫中的統(tǒng)計(jì)分布情況。應(yīng)注意將聚集數(shù)據(jù)存儲(chǔ)在其事實(shí)表中,并與其底層數(shù)據(jù)相區(qū)別。聚集模型的處理前提:聚集事實(shí)表已經(jīng)獨(dú)立存在,并且可以與根本事實(shí)表一同保存通過將當(dāng)前加載數(shù)據(jù)添加到系統(tǒng)中的累積“桶〞中,將數(shù)據(jù)的聚集與數(shù)據(jù)倉庫的加載過程組合為同一處理過程??梢栽跀?shù)據(jù)倉庫數(shù)據(jù)加載以后,再進(jìn)行聚集處理。每次在加載數(shù)據(jù)時(shí),都需要對(duì)各種聚集進(jìn)行計(jì)算和增加,及時(shí)保持聚集與根本數(shù)據(jù)的同步性。

聚集模型的管理要根據(jù)使用情況刪除不經(jīng)常使用的聚集需要減少層次過于接近的聚集生成注意將聚集獨(dú)立存儲(chǔ)在自己的事實(shí)表中

5.3數(shù)據(jù)倉庫的規(guī)劃5.3.1數(shù)據(jù)倉庫實(shí)現(xiàn)策略的選擇開發(fā)策略主要有:自頂向下:實(shí)際應(yīng)用比較困難。自底向上:用于一個(gè)數(shù)據(jù)集市或一個(gè)部門的數(shù)據(jù)倉庫開發(fā),容易獲得成功。兩種策略的聯(lián)合使用:能夠快速地完成數(shù)據(jù)倉庫的開發(fā)與應(yīng)用,而且還可以建立具有長遠(yuǎn)價(jià)值的數(shù)據(jù)倉庫方案。在實(shí)際使用中難以操作。5.3.2確定開發(fā)目標(biāo)和實(shí)現(xiàn)范圍確定用戶的決策需求確定所需要信息的范圍,即決策過程在主題和指標(biāo)領(lǐng)域中需要哪些數(shù)據(jù)。

確定利用哪些方法和工具,對(duì)數(shù)據(jù)進(jìn)行訪問和導(dǎo)航。根據(jù)決策支持的需要,確定數(shù)據(jù)倉庫的功能確定數(shù)據(jù)倉庫內(nèi)部數(shù)據(jù)的規(guī)模、數(shù)據(jù)的含義、元數(shù)據(jù)及其使用,等等。從用戶的角度分析:哪些部門、哪些人員、出于何種目的使用數(shù)據(jù)倉庫?首先要滿足哪些決策查詢?

從技術(shù)的角度分析:確定元數(shù)據(jù)庫的規(guī)模。5.2.3確定數(shù)據(jù)倉庫的結(jié)構(gòu)1.數(shù)據(jù)倉庫的應(yīng)用結(jié)構(gòu)

2.數(shù)據(jù)倉庫的技術(shù)平臺(tái)結(jié)構(gòu)基于業(yè)務(wù)處理系統(tǒng)的數(shù)據(jù)倉庫

單純數(shù)據(jù)倉庫

單純數(shù)據(jù)集市

數(shù)據(jù)倉庫和數(shù)據(jù)集市

單層結(jié)構(gòu)---數(shù)據(jù)庫和數(shù)據(jù)倉庫共享平臺(tái)客戶/效勞器兩層結(jié)構(gòu)

三層客戶/效勞器:客戶/效勞器/主機(jī)〔宿主〕層多層式結(jié)構(gòu):

存儲(chǔ)層/效勞層/查詢效勞層/應(yīng)用效勞層/應(yīng)用層5.2.4數(shù)據(jù)倉庫使用方案和工程規(guī)劃預(yù)算說明系統(tǒng)與企業(yè)戰(zhàn)略目標(biāo)的關(guān)系,系統(tǒng)與企業(yè)急需處理的、范圍相對(duì)有限的開發(fā)時(shí)機(jī)。業(yè)務(wù)說明以及任務(wù)概況說明、重點(diǎn)支持的職能部門和今后工作的建議。方案中需要說明期望取得的有形和無形利益業(yè)務(wù)價(jià)值方案最好由目標(biāo)業(yè)務(wù)主管來完成規(guī)劃書中要確定數(shù)據(jù)倉庫的開發(fā)目標(biāo)實(shí)現(xiàn)范圍、體系結(jié)構(gòu)和使用方案及開發(fā)預(yù)算??梢詫⒆罱K用戶的決策支持要求與數(shù)據(jù)倉庫的技術(shù)要求聯(lián)系起來,對(duì)開發(fā)方案的預(yù)算進(jìn)行估計(jì),并編制數(shù)據(jù)倉庫開發(fā)說明書:5.4數(shù)據(jù)倉庫的概念模型設(shè)計(jì)概念模型的設(shè)計(jì)可以分為以下幾個(gè)階段:

用戶需求調(diào)查,模型定義模型分析,模型設(shè)計(jì)

數(shù)據(jù)倉庫開發(fā)任務(wù)書企業(yè)背景及行業(yè)開展等方面的概述目前的業(yè)務(wù)功能及業(yè)務(wù)范圍、開展戰(zhàn)略目標(biāo)目前系統(tǒng)的環(huán)境及功能,數(shù)據(jù)庫設(shè)計(jì)及運(yùn)行情況企業(yè)決策中需要得到數(shù)據(jù)倉庫提供哪些支持?哪些工程的需求最迫切、ROI〔投資收益〕最高?5.4數(shù)據(jù)倉庫的概念模型設(shè)計(jì)概念模型的需求調(diào)查明確用戶的信息需求相關(guān)的事物或業(yè)務(wù),相關(guān)的數(shù)據(jù)及其相關(guān)系統(tǒng),需要數(shù)據(jù)的時(shí)限,數(shù)據(jù)是否完備,數(shù)據(jù)倉庫用戶的情況

了解信息的來源情況

信息目前的存儲(chǔ)系統(tǒng)及位置,信息的類型,信息分析、處理的方式、手段,

組織所使用的系統(tǒng)環(huán)境

運(yùn)行環(huán)境,數(shù)據(jù)字典,主題數(shù)據(jù),DSS的應(yīng)用情況概念模型的定義數(shù)據(jù)倉庫是數(shù)據(jù)驅(qū)動(dòng)的,而不是功能驅(qū)動(dòng)的,

因此,首先需要了解用戶的數(shù)據(jù)需求,例如,解決用戶感興趣的決策問題需要什么信息?設(shè)計(jì)實(shí)例:零售業(yè)中的某個(gè)超市

企業(yè)目標(biāo):合理制定商品的采購和銷售策略

目前系統(tǒng):人事,采購,庫存,銷售

現(xiàn)有問題:各自為政,缺乏全局性

解決途徑:建立數(shù)據(jù)倉庫,開展數(shù)據(jù)分析與挖掘概念模型的定義〔1〕用戶的決策分析決策需求:準(zhǔn)確把握超市商品的銷售和庫存情況分析需求:客戶的購置趨勢商品供給市場的變化趨勢供給商和客戶的信用等級(jí)……〔2〕支持決策的數(shù)據(jù)需求分析需要的數(shù)據(jù):商品銷售量,商品采購量,商品庫存量客戶情況,供給商情況〔3〕數(shù)據(jù)需求分析工具客戶信息需求表,CRUD矩陣,數(shù)據(jù)存儲(chǔ)模式表,……概念模型的定義

客戶信息需求表決策分析問題客戶購置商品趨勢分析需求信息類日期地點(diǎn)商品客戶年齡組客戶經(jīng)濟(jì)狀況客戶信用需求信息1層需求信息2層需求信息3層需求信息4層需求信息5層……年(4)季(16)月(48)……國家(15)省(60)市(200)街道(2100)商店(20000)……商品種類(7)商品小類(40)商品(220)……年齡組〔8〕……經(jīng)濟(jì)類〔10〕……信用〔10〕……概念模型的定義CRUD矩陣〔實(shí)體與功能關(guān)系矩陣〕實(shí)體功能客戶銷售單商品銷售代表供貨商銷售單輸入CRUDCRUDRRURU銷售單處理CRUDCRUD商品管理RRRUR預(yù)算系統(tǒng)RRRRUR財(cái)務(wù)計(jì)算RURRURR庫存控制RRUCRUDR后勤RRURRUC:Create產(chǎn)生R:Read引用U:Update更新D:Delete刪除企業(yè)業(yè)務(wù)處理系統(tǒng)的數(shù)據(jù)存儲(chǔ)模式表*內(nèi)部數(shù)據(jù)源OracleSysbaseSQLServerVFP其它模式銷售單輸入√√銷售單處理√√商品管理√預(yù)算系統(tǒng)√(Excel)財(cái)務(wù)計(jì)算√庫存控制√后勤√*外部數(shù)據(jù)源商品供給商√市場調(diào)查公司√概念模型的定義概念模型的分析首先需要分析數(shù)據(jù)倉庫范圍內(nèi)的主要實(shí)體對(duì)象,從中確定主要的主題域及其聯(lián)系數(shù)據(jù)倉庫設(shè)計(jì)中也采用E-R圖作為分析模型在E-R圖中,需要根據(jù)確定的主題來組織數(shù)據(jù)商品實(shí)體客戶實(shí)體銷售實(shí)體n商品供應(yīng)關(guān)系mml

商品銷售關(guān)系概念模型的分析---E-R圖客戶變動(dòng)信息商品變動(dòng)信息客戶號(hào)商品固有信息客戶固有信息客戶號(hào)供應(yīng)商號(hào)開戶日期日期銷售數(shù)量日期商品號(hào)商品客戶銷售根據(jù)主題組織數(shù)據(jù)概念模型的設(shè)計(jì)---星型模型經(jīng)濟(jì)(年收入)100萬以上10萬以上1萬以上1萬以下地點(diǎn)國家省市銷售銷售數(shù)量銷售價(jià)格銷售金額時(shí)間ID地點(diǎn)ID商品ID年齡60歲以上40歲以上30歲以上20歲以上20歲以下日期年月日商品種類ID小類ID商品ID信用10萬元以上1萬元以上1千元以上1千元以下0元根據(jù)需要設(shè)計(jì)模型經(jīng)濟(jì)(年收入)100萬以上10萬以上1萬以上地點(diǎn)國家省市銷售銷售ID銷售數(shù)量銷售價(jià)格銷售金額時(shí)間ID地點(diǎn)ID商品ID年齡60歲以上40歲以上30歲以上20歲以上20歲以下日期年月日商品ID種類小類商品信用10萬元以上1萬元以上1千元以上1千元以下0元商品ID生產(chǎn)廠家進(jìn)貨價(jià)格進(jìn)貨日期客戶客戶ID姓名地址

郵政編碼雪花模型根據(jù)需要設(shè)計(jì)模型概念模型文檔與評(píng)審1.概念模型設(shè)計(jì)文檔數(shù)據(jù)倉庫開發(fā)需求分析報(bào)告概念模型分析報(bào)告概念模型概念模型的評(píng)審報(bào)告

2.概念模型的評(píng)審〔人員,內(nèi)容,規(guī)程,報(bào)告〕數(shù)據(jù)倉庫開發(fā)任務(wù)書用戶決策分析信息需求調(diào)查表數(shù)據(jù)倉庫主題E-R圖星型模型和雪花模型

5.5數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)任務(wù)

邏輯模型最終設(shè)計(jì)成果確定數(shù)據(jù)倉庫的主題域確定粒度層次劃分確定數(shù)據(jù)分割策略關(guān)系模式的定義和記錄系統(tǒng)定義〔元數(shù)據(jù)〕確定數(shù)據(jù)抽取模型等主題的邏輯定義,將相關(guān)內(nèi)容記錄在元數(shù)據(jù)中粒度劃分?jǐn)?shù)據(jù)分割策略表劃分和數(shù)據(jù)來源等

5.5.1分析主題域主題名公共碼鍵屬性組商品商品號(hào)商品固有信息:商品號(hào),商品名,類型,顏色等商品采購信息:商品號(hào),供給商號(hào),供給價(jià),供給日期,供給量等商品庫存信息:商品號(hào),庫房號(hào),庫存量,日期等銷售銷售單號(hào)銷售單固有信息:銷售單號(hào),銷售地址等銷售信息:客戶號(hào),商品號(hào),銷售價(jià),銷售量、銷售時(shí)間等客戶客戶號(hào)客戶固有信息:客戶號(hào),客戶名,性別,年齡,文化程度,住址,等客戶經(jīng)濟(jì)信息:客戶號(hào),年收入,家庭總收入等主題的詳細(xì)描述5.5.2粒度層次的劃分5.5.3確定數(shù)據(jù)分割策略數(shù)據(jù)分割標(biāo)準(zhǔn)數(shù)據(jù)量〔大,中,小〕數(shù)據(jù)分析處理的對(duì)象〔時(shí)間,類別,地點(diǎn)〕粒度分割的策略〔每一層次的組合標(biāo)準(zhǔn)〕

5.5.4關(guān)系模型定義單一粒度〔庫存〕/多重粒度〔銷售〕粒度劃分的層次〔周/月/季/年,類別〕

指標(biāo)實(shí)體,維實(shí)體,詳細(xì)類別實(shí)體=〉事實(shí)表主題域內(nèi)事實(shí)表聯(lián)系---公共碼鍵事實(shí)表與維表聯(lián)系---外鍵

5.5.5數(shù)據(jù)倉庫的實(shí)體定義訂單細(xì)節(jié)〔Order-Detail〕實(shí)體特性表…………………………Money(float)正的金額數(shù)Product_PriceChar(10)沒有商品鍵列,數(shù)據(jù)就不存在來自商品實(shí)體的合法鍵列主鍵列、外部鍵列Product_NumberChar(10)沒有銷售單鍵列,數(shù)據(jù)就不存在來自銷售單實(shí)體的合法鍵列主鍵列、外部鍵列Order_NumberChar(10)沒有客戶鍵列,數(shù)據(jù)就不存在來自客戶實(shí)體的合法客戶鍵列主鍵列、外部鍵列Customer_Number類型與大小完整性約束值范圍列鍵屬性列名5.5.5數(shù)據(jù)倉庫的實(shí)體定義實(shí)體容量更新頻率

Customer中等容量,有100個(gè)重點(diǎn)客戶,2000個(gè)跟蹤客戶每月對(duì)客戶情況進(jìn)行一次分析,更新頻率也為每月一次Product小容量,500種商品大約有500種商品,商品的更新是每月一次,數(shù)據(jù)更新也照此。Order_Detail大容量??紤]到各種客戶類型與各種商品的組合情況,其上限是354,000,000,000,一般很少到達(dá)上限。數(shù)據(jù)每月匯總一次,但是業(yè)務(wù)處理系統(tǒng)的數(shù)據(jù)每日需要更新一次,因此更新頻率為每日一次。………………實(shí)體容量與實(shí)體數(shù)據(jù)的更新頻率表5.5.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型F1數(shù)據(jù)抽取規(guī)那么 P2 清理數(shù)據(jù)記錄 F8數(shù)據(jù)清理規(guī)那么 F2 KHCG

客戶采購

F5CQLS_KHCG抽取臨時(shí).客戶采購F6CQLS_KHCG

抽取臨時(shí).客戶采購F7SJCK_KHCG

數(shù)據(jù)倉庫.客戶采購P4 加載到數(shù)據(jù)倉庫 F3 SPQK

商品情況 F4 ZGYJ

職工業(yè)績

P3 數(shù)據(jù)排序聚集 P1 抽取數(shù)據(jù)源記錄數(shù)據(jù)抽取流程圖5.5.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型2.數(shù)據(jù)倉庫的數(shù)據(jù)抽取、轉(zhuǎn)換與加載方案〔1〕影響數(shù)據(jù)抽取、轉(zhuǎn)換與加載的因素?cái)?shù)據(jù)格式壞數(shù)據(jù)系統(tǒng)的兼容性數(shù)據(jù)源的變化數(shù)據(jù)抽取的時(shí)間

〔2〕數(shù)據(jù)抽取、轉(zhuǎn)換與加載對(duì)策

全庫比較利用程序日志利用數(shù)據(jù)庫日志利用時(shí)間戳或利用位圖索引5.5.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型3.數(shù)據(jù)倉庫的數(shù)據(jù)清理轉(zhuǎn)換方法(1)類型轉(zhuǎn)換(2)串操作(3)數(shù)學(xué)函數(shù)(4)參照完整性(5)關(guān)鍵字翻譯(6)匯總、聚集運(yùn)算4.數(shù)據(jù)倉庫的數(shù)據(jù)抽取、清理與轉(zhuǎn)換模型5.5.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)平臺(tái)數(shù)據(jù)庫表名備注Windows/SQLServerXSSJ銷售實(shí)際KHCG客戶采購客戶采購商品表Windows/SQLServerXSSJ銷售實(shí)際SPQK商品情況商品情況表Windows/AccessRSGL人事管理ZGYJ職工業(yè)績職工業(yè)績表……………………數(shù)據(jù)源抽取對(duì)象表

5.5.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)源抽取規(guī)那么表

表.列名過濾與連接條件比較值復(fù)合條件備注KHCG.CGSL客戶采購.采購數(shù)量<50000AND采購商品數(shù)量小于50000KHCG.CGSL客戶采購.采購數(shù)量>500OR采購商品數(shù)量大于500SPQK.SPID商品情況.商品號(hào)≠‘AB’OR商品前兩位為非’AB’字符…………………………5.5.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)抽取的目標(biāo)列與源列對(duì)應(yīng)關(guān)系表

目標(biāo)表.列源表.列轉(zhuǎn)換公式備注SJCK_KHCG.KHZY數(shù)據(jù)倉庫.客戶采購.客戶職業(yè)KHCG.KHZY客戶采購.客戶職業(yè)直接轉(zhuǎn)換客戶職業(yè)SJCK_KHCG.CGRQ數(shù)據(jù)倉庫.客戶采購.采購日期KHCG.CGRQ客戶采購.客戶職業(yè)將月/年/日的日期格式轉(zhuǎn)換成年/月/日格式客戶采購日期……………………數(shù)據(jù)抽取過程的排序、概括和導(dǎo)出情況表

表.列名排序概括/導(dǎo)出備注CQLS_KHCG.CGSL采購臨時(shí).客戶采購.采購數(shù)量降序分組按照采購數(shù)量從大到小排序、按照日期進(jìn)行分組SJCK_KHCG.CGHZ數(shù)據(jù)倉庫.客戶采購.采購匯總概括對(duì)每一客戶采購量按照星期分別進(jìn)行概括處理,匯總客戶的采購總量SJCK_KHCG.PJL數(shù)據(jù)倉庫.客戶采購.平均量導(dǎo)出對(duì)每一客戶采購情況按照星期分別進(jìn)行平均采購量計(jì)算……………………5.5.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)概括表與事實(shí)表對(duì)應(yīng)關(guān)系

概括表.列名是否導(dǎo)出事實(shí)表.列名備注SPGKB.SP_ID商品概括表.商品號(hào)否SPGYB.SP_ID商品編號(hào)SPGKB.GYS_ID商品概括表.供給商號(hào)否SPGYB.GYS_ID供給商編號(hào)SPGKB.SPGYZSL商品概括表.商品供給總量是SPGYB.SPGYL商品供給總量,按照供給商編號(hào)對(duì)供給數(shù)量求和SPGKB.SPGYZJE商品概括表.商品供給總額是SPGYB.SPGYJE商品供給總金額,按照供給商編號(hào)對(duì)供給商品的金額進(jìn)行匯總……………………5.5.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型(11)元數(shù)據(jù)目錄5.5.7數(shù)據(jù)倉庫的元數(shù)據(jù)模型建立與應(yīng)用數(shù)據(jù)源⑼⑶邏輯模型業(yè)務(wù)分組物理模型查詢統(tǒng)計(jì)來源定義加載統(tǒng)計(jì)

來源-目標(biāo)映射建模工具數(shù)據(jù)加載工具數(shù)據(jù)倉庫前端展示工具⑴⑵⑷⑸a⑹⑻⑽⑿⑸b(7)5.5.8邏輯模型的評(píng)審需要評(píng)審的邏輯模型的文檔內(nèi)容:主題域分析報(bào)告數(shù)據(jù)粒度劃分模型數(shù)據(jù)分割策略指標(biāo)實(shí)體、維實(shí)體與詳細(xì)類別實(shí)體的關(guān)系模式數(shù)據(jù)抽取模型5.5.8邏輯模型的評(píng)審對(duì)邏輯模型的評(píng)審主要集中在:主題域是否可以正確地反映用戶的決策分析需求從用戶對(duì)概括數(shù)據(jù)使用的要求角度,評(píng)審數(shù)據(jù)粒度的劃分和數(shù)據(jù)分割策略是否可以滿足用戶決策分析的需要關(guān)系模式是否符合第三范式要求;為提高數(shù)據(jù)倉庫的運(yùn)行效率,是否需要對(duì)關(guān)系模式進(jìn)行反標(biāo)準(zhǔn)化處理數(shù)據(jù)的抽取模型是否正確地建立了數(shù)據(jù)源與數(shù)據(jù)倉庫的對(duì)應(yīng)關(guān)系數(shù)據(jù)的約束條件和業(yè)務(wù)規(guī)那么是否在這些模型中得到了正確的反映5.6數(shù)據(jù)倉庫的物理模型設(shè)計(jì)物理模型設(shè)計(jì)內(nèi)容:表的數(shù)據(jù)結(jié)構(gòu)類型,索引策略,數(shù)據(jù)存放位置以及數(shù)據(jù)存儲(chǔ)分配,等等。物理模型設(shè)計(jì)需要考慮的因素:I/O存取時(shí)間,空間利用率維護(hù)的代價(jià)工作:全面了解所選用的數(shù)據(jù)庫管理系統(tǒng),特別是存儲(chǔ)結(jié)構(gòu)和存取方法。了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻率、使用方式、數(shù)據(jù)規(guī)模以及響應(yīng)時(shí)間要求等。了解外部存儲(chǔ)設(shè)備的特征。5.6.1數(shù)據(jù)倉庫設(shè)計(jì)的標(biāo)準(zhǔn)為了保證數(shù)據(jù)倉庫的設(shè)計(jì)、實(shí)施和管理保持穩(wěn)定,不產(chǎn)生混亂,需要對(duì)物理數(shù)據(jù)模型中的實(shí)體、表、列等進(jìn)行標(biāo)準(zhǔn)化處理,使整個(gè)數(shù)據(jù)倉庫的物理數(shù)據(jù)模型能夠保持一致。標(biāo)準(zhǔn)化內(nèi)容主要有:完整清晰的數(shù)據(jù)定義:數(shù)據(jù)項(xiàng)命名規(guī)那么適宜的數(shù)據(jù)格式:縮寫方式,大小寫混合,下劃線需要為數(shù)據(jù)倉庫中的每個(gè)組件或部件都確定相應(yīng)的設(shè)計(jì)標(biāo)準(zhǔn)。5.6.2確定數(shù)據(jù)結(jié)構(gòu)的類型外部數(shù)據(jù)多維數(shù)據(jù)概括1層次1概括2層次1概括3層次1概括4層次2概括5層次2概括6層次2細(xì)節(jié)數(shù)據(jù)存檔數(shù)據(jù)

數(shù)據(jù)類型組合:細(xì)節(jié)數(shù)據(jù),概括數(shù)據(jù),外部數(shù)據(jù),多維數(shù)據(jù)數(shù)據(jù)子集,數(shù)據(jù)緩存,復(fù)制數(shù)據(jù),存檔數(shù)據(jù)5.6.2確定數(shù)據(jù)結(jié)構(gòu)的類型數(shù)據(jù)反標(biāo)準(zhǔn)化處理的優(yōu)點(diǎn):能減少對(duì)表聯(lián)結(jié)的需求,提高數(shù)據(jù)倉庫運(yùn)行性能。能減少編寫專門決策支持應(yīng)用程序的工作量,因?yàn)檫\(yùn)用一些專門的查詢工具,可以更容易訪問數(shù)據(jù)??梢宰層脩粢灾庇^的易于理解的工具來操作數(shù)據(jù),例如,可以利用電子報(bào)表來查看數(shù)據(jù)。5.6.3數(shù)據(jù)倉庫索引的創(chuàng)立1.索引創(chuàng)立策略建立索引時(shí),按照索引使用的頻率,由高到低逐步添加按主關(guān)鍵字和大多數(shù)外部關(guān)鍵字建立索引,其它索引按需添加

2.索引的創(chuàng)立事實(shí)表中一定要設(shè)置主鍵,并以此建立索引

維表索引的創(chuàng)立數(shù)據(jù)加載索引的創(chuàng)立5.6.4確定數(shù)據(jù)存放位置

數(shù)據(jù)的布局原那么:把經(jīng)常需要連接的幾張表放在同一存儲(chǔ)設(shè)備上如果幾臺(tái)效勞器之間的連接會(huì)造成嚴(yán)重的網(wǎng)絡(luò)業(yè)務(wù)量的問題,那么要考慮效勞器復(fù)制表格??紤]把整個(gè)企業(yè)共享的細(xì)節(jié)數(shù)據(jù)放在主機(jī)或其他集中式效勞器上。表格和它們的索引放在不同設(shè)備上。一般可以將索引存放在高速存儲(chǔ)設(shè)備上,而表格那么存放在一般存儲(chǔ)設(shè)備上,以加快數(shù)據(jù)的查詢速度。5.6.5確定存儲(chǔ)分配5.6.6數(shù)據(jù)倉庫物理模型的評(píng)審物理模型設(shè)計(jì)評(píng)審的目標(biāo)是要確定物理模型滿足數(shù)據(jù)倉庫使用的:靈活性性能數(shù)據(jù)完整性系統(tǒng)可用性數(shù)據(jù)的當(dāng)前性用戶的滿意度,等等

集中存儲(chǔ),分布式存儲(chǔ)〔按部門/主題區(qū)/地域應(yīng)用〕橫向分區(qū),縱向分區(qū)具體的評(píng)審工程有:表空間:數(shù)據(jù)加載與重組,表連接的競爭分區(qū):分區(qū)原因及數(shù)量,并行處理,分區(qū)一致數(shù)據(jù)表:標(biāo)準(zhǔn)程度,約束條件,一致性數(shù)據(jù)壓縮:空間節(jié)省效果,CPU代價(jià)控制表和引用表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論