數(shù)據(jù)倉(cāng)庫(kù)模型與建立過(guò)程_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)模型與建立過(guò)程_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)模型與建立過(guò)程_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)模型與建立過(guò)程_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)模型與建立過(guò)程_第5頁(yè)
已閱讀5頁(yè),還剩127頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)模型與建立過(guò)程第1頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述對(duì)比內(nèi)容數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)面向的處理類(lèi)型面向應(yīng)用面向分析應(yīng)用需求比較明確不太明確系統(tǒng)設(shè)計(jì)的目標(biāo)事務(wù)處理的并發(fā)性、安全性、高效性保證數(shù)據(jù)的四個(gè)特征和全局一致性數(shù)據(jù)來(lái)源業(yè)務(wù)操作員的輸入業(yè)務(wù)系統(tǒng)系統(tǒng)設(shè)計(jì)的方法需求驅(qū)動(dòng)數(shù)據(jù)驅(qū)動(dòng)1數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)設(shè)計(jì)的區(qū)別1.1第2頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述1面向的處理類(lèi)型1.2數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)面向應(yīng)用來(lái)進(jìn)行設(shè)計(jì),根據(jù)具體的操作事件和操作對(duì)象(實(shí)體)來(lái)進(jìn)行設(shè)計(jì);目的是建立一個(gè)操作型的數(shù)據(jù)環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)面向分析的;從最基本的主題開(kāi)始,不斷完善已有主題,發(fā)展新主題;最終建立起一個(gè)面向主題的分析型數(shù)據(jù)環(huán)境。第3頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述1應(yīng)用需求1.3數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)面向明確的應(yīng)用需求設(shè)計(jì)人員能夠清晰地了解應(yīng)用的需求和數(shù)據(jù)流程數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)很難獲得對(duì)用戶(hù)需求的確切了解應(yīng)用人員往往是企業(yè)的中高層人員他們自己一開(kāi)始不知道想看什么,需要人引導(dǎo)后期又想什么東西都看,需要給他解釋第4頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述1系統(tǒng)設(shè)計(jì)的目標(biāo)1.4數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)為了進(jìn)行OLAP處理通常是對(duì)一個(gè)或者一組記錄的查詢(xún)和修改主要為企業(yè)的特定應(yīng)用服務(wù)的事務(wù)處理響應(yīng)時(shí)間、數(shù)據(jù)的安全性和完整性是系統(tǒng)的目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)為了分析決策主要目標(biāo)是保證數(shù)據(jù)的四個(gè)特征(面向主題、集成的、穩(wěn)定的、時(shí)變的),建立起一個(gè)全局一致的數(shù)據(jù)環(huán)境,作為企業(yè)決策支持的基礎(chǔ)第5頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述1數(shù)據(jù)來(lái)源1.5數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)數(shù)據(jù)來(lái)源主要是業(yè)務(wù)操作員的輸入描述如何通過(guò)操作員輸入獲取數(shù)據(jù)描述如何將獲取的數(shù)據(jù)按照OLAP的需求合理存放如何使得OLTP的性能更加優(yōu)化如何保證事務(wù)處理的安全性數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)數(shù)據(jù)來(lái)源于業(yè)務(wù)系統(tǒng)主要解決如何從業(yè)務(wù)系統(tǒng)中得到完整一致的數(shù)據(jù)如何對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗、綜合如何有效提高數(shù)據(jù)分析的效率與準(zhǔn)確性第6頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述1兩者系統(tǒng)設(shè)計(jì)方法的不同1.6數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)“需求驅(qū)動(dòng)”,先收集需求、分析需求,再進(jìn)行設(shè)計(jì)和開(kāi)發(fā);系統(tǒng)的需求在收集和分析需求階段之后就定下來(lái)了,一旦進(jìn)入構(gòu)建數(shù)據(jù)庫(kù)階段,系統(tǒng)的需求就基本不變了。所以系統(tǒng)設(shè)計(jì)一般采用系統(tǒng)生命周期法(SystemsDevelopmentLifeCycle,SDLC)。數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)“數(shù)據(jù)驅(qū)動(dòng)”,從業(yè)務(wù)系統(tǒng)已經(jīng)存在的數(shù)據(jù)出發(fā),獲取之后對(duì)數(shù)據(jù)進(jìn)行集成并檢查數(shù)據(jù)的準(zhǔn)確性按照分析領(lǐng)域?qū)?shù)據(jù)及數(shù)據(jù)之間的聯(lián)系重新考察,組織數(shù)據(jù)倉(cāng)庫(kù)中的主題?!皵?shù)據(jù)驅(qū)動(dòng)”的系統(tǒng)設(shè)計(jì)方法的優(yōu)點(diǎn)是可以通過(guò)了解原有數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)和需要建設(shè)的數(shù)據(jù)倉(cāng)庫(kù)中主題的數(shù)據(jù)的共同性,最大限度地利用現(xiàn)有系統(tǒng),減少系統(tǒng)建設(shè)的工作量。對(duì)這種需求不確定的開(kāi)發(fā)過(guò)程,設(shè)計(jì)方法有很大的不同,采用與SDLC相反的CLDS法。第7頁(yè),共132頁(yè),2023年,2月20日,星期六收集應(yīng)用需求分析應(yīng)用需求構(gòu)建數(shù)據(jù)庫(kù)應(yīng)用編程系統(tǒng)測(cè)試系統(tǒng)實(shí)施DB應(yīng)用A應(yīng)用B應(yīng)用C數(shù)據(jù)倉(cāng)庫(kù)建模數(shù)據(jù)獲取與集成構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)DSS應(yīng)用編程系統(tǒng)測(cè)試?yán)斫庑枨驞WDBDB外部數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述1兩者系統(tǒng)設(shè)計(jì)方法的不同1.6

SDLC方法

CLDS方法第8頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)倉(cāng)庫(kù)的三級(jí)模型2流行的的三級(jí)模型2.1概念模型(設(shè)計(jì)定義和主要工作)從客觀(guān)世界到主觀(guān)認(rèn)識(shí)的映射首先將現(xiàn)實(shí)世界抽象為概念模型,然后再用適合計(jì)算機(jī)世界的模型和語(yǔ)言來(lái)描述邏輯模型(設(shè)計(jì)定義和主要工作)數(shù)據(jù)倉(cāng)庫(kù)一般是建立在關(guān)系數(shù)據(jù)庫(kù)基礎(chǔ)上,所以采用的邏輯模型是關(guān)系模型主題還有主題之間的關(guān)系都用關(guān)系來(lái)表示邏輯模型描述了數(shù)據(jù)倉(cāng)庫(kù)的主題的邏輯實(shí)現(xiàn),每個(gè)主題對(duì)應(yīng)關(guān)系表的關(guān)系模式的定義物理模型(設(shè)計(jì)定義和主要工作)邏輯模型在數(shù)據(jù)倉(cāng)庫(kù)中的實(shí)現(xiàn),如數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、數(shù)據(jù)的索引策略、數(shù)據(jù)的存儲(chǔ)策略以及存儲(chǔ)分配優(yōu)化等第9頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)倉(cāng)庫(kù)的三級(jí)模型2Inmon提出的三級(jí)模型2.2高級(jí)模型即概念模型,用E-R圖表示首先將現(xiàn)實(shí)世界抽象為概念模型,然后再用適合計(jì)算機(jī)世界的模型和語(yǔ)言來(lái)描述中級(jí)模型數(shù)據(jù)項(xiàng)(Dataitemset,DIS)模型E-R圖的細(xì)分每個(gè)主題都與一個(gè)DIS對(duì)應(yīng)DIS中的數(shù)據(jù)份為4個(gè)組別:基本數(shù)據(jù)組、二級(jí)數(shù)據(jù)組、連接數(shù)據(jù)組和類(lèi)型數(shù)據(jù)組低級(jí)模型物理數(shù)據(jù)模型第10頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)倉(cāng)庫(kù)的三級(jí)模型2Inmon提出的三級(jí)模型2.2客戶(hù)ID姓名性別身份證號(hào)碼住址文化程度電話(huà)Email商品ID交易ID商品金額購(gòu)買(mǎi)時(shí)間交易ID商品金額購(gòu)買(mǎi)時(shí)間交易ID商品金額購(gòu)買(mǎi)時(shí)間連接數(shù)據(jù)組基本數(shù)據(jù)組類(lèi)型數(shù)據(jù)組二級(jí)數(shù)據(jù)組電器服裝圖書(shū)第11頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)倉(cāng)庫(kù)概念模型3概念模型的定義和主要工作3.1概念模型是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型的第一層或最高層。由于大多數(shù)業(yè)務(wù)數(shù)據(jù)是多維的,但傳統(tǒng)的數(shù)據(jù)模型表示三維以上的數(shù)據(jù)有一定困難。數(shù)據(jù)倉(cāng)庫(kù)中可以采用信息包圖來(lái)表示概念模型信息包圖允許用戶(hù)設(shè)計(jì)多維信息包并與開(kāi)發(fā)者和其他用戶(hù)建立聯(lián)系。這種模型集中在用戶(hù)對(duì)信息包的需要,信息包提供了分析人員思維模式的可視化表示。工作確定系統(tǒng)邊界:決策類(lèi)型、需要的信息、原始信息確定主題域及其內(nèi)容:主題域的公共鍵碼、主題域之間的聯(lián)系、屬性組確定維度:如時(shí)間維、銷(xiāo)售位置維、產(chǎn)品維、組別維等確定級(jí)別:相應(yīng)維的詳細(xì)層次確定度量:也稱(chēng)指標(biāo)和事實(shí),用于進(jìn)行分析的數(shù)值化信息第12頁(yè),共132頁(yè),2023年,2月20日,星期六 維度級(jí)別

度量3信息包圖3.2數(shù)據(jù)倉(cāng)庫(kù)的概念模型信息包:第13頁(yè),共132頁(yè),2023年,2月20日,星期六〖例〗畫(huà)出銷(xiāo)售分析的信息包圖概念首先根據(jù)銷(xiāo)售分析的實(shí)際需求,確定信息包的維度、類(lèi)別和指標(biāo)與事實(shí):維度:包括日期維、銷(xiāo)售地點(diǎn)維、銷(xiāo)售產(chǎn)品維、年齡組別維、性別維等。(維度)級(jí)別:確定各維的詳細(xì)類(lèi)別如:日期維包括年(10)、季度(40)、月(120)等類(lèi)別,括號(hào)中的數(shù)字分別指出各類(lèi)別的數(shù)量;銷(xiāo)售地點(diǎn)維包括國(guó)家(15)、區(qū)域(45)、城市(280)、區(qū)(880)、商店(2000)等類(lèi)別,括號(hào)中的數(shù)字同樣分別指出各類(lèi)別的數(shù)量;類(lèi)似地,可以確定銷(xiāo)售產(chǎn)品、年齡組別維、性別維等的詳細(xì)類(lèi)別。度量:確定用于進(jìn)行分析的數(shù)值化信息,包括預(yù)測(cè)銷(xiāo)售量、實(shí)際銷(xiāo)售量和預(yù)測(cè)偏差等。3信息包圖3.2數(shù)據(jù)倉(cāng)庫(kù)的概念模型第14頁(yè),共132頁(yè),2023年,2月20日,星期六度量:預(yù)測(cè)銷(xiāo)售量、實(shí)際銷(xiāo)售量、預(yù)測(cè)偏差商店(2000)區(qū)(880)產(chǎn)品(240)城市(280)月(120)產(chǎn)品組(48)區(qū)域(45)季度(40)性別組(2)年齡組(8)產(chǎn)品類(lèi)(6)國(guó)家(15)年(10)性別年齡組別銷(xiāo)售產(chǎn)品銷(xiāo)售地點(diǎn)日期信息包:銷(xiāo)售分析 維度級(jí)別3信息包圖3.2數(shù)據(jù)倉(cāng)庫(kù)的概念模型第15頁(yè),共132頁(yè),2023年,2月20日,星期六維度是一個(gè)物理特性(如時(shí)間、地點(diǎn)、產(chǎn)品等),它是表達(dá)數(shù)據(jù)倉(cāng)庫(kù)中信息的一個(gè)基本途徑,可作為標(biāo)識(shí)數(shù)據(jù)的索引。通常的報(bào)表只包含有行和列兩維,但在數(shù)據(jù)倉(cāng)庫(kù)中所存儲(chǔ)的數(shù)據(jù)大多是用多維(三維或三維以上)視圖表示的。維度是多維數(shù)據(jù)集的結(jié)構(gòu)性特性。它們是事實(shí)數(shù)據(jù)表中用來(lái)描述數(shù)據(jù)的分類(lèi)的有組織的層次結(jié)構(gòu)(級(jí)別)。這些分類(lèi)和級(jí)別描述了一些相似的成員集合。所有維度均直接或間接地基于表,定義此維度的列,選擇列的順序至關(guān)重要。數(shù)據(jù)倉(cāng)庫(kù)概念模型3維度的定義3.3第16頁(yè),共132頁(yè),2023年,2月20日,星期六選擇下表中的“區(qū)域”列,再選擇“州”列,即可定義維度。State_id區(qū)域州1 東部 緬因2 東部 俄亥俄 3 西部 愛(ài)達(dá)荷4 西部 德克薩斯第17頁(yè),共132頁(yè),2023年,2月20日,星期六3維度定義3.3數(shù)據(jù)倉(cāng)庫(kù)概念模型4月份我在北京賣(mài)掉了價(jià)值十萬(wàn)美元的可樂(lè)例子1第18頁(yè),共132頁(yè),2023年,2月20日,星期六關(guān)系數(shù)據(jù)庫(kù)的記錄視圖:產(chǎn)品時(shí)間地區(qū)銷(xiāo)量VCD機(jī)2002.3.10北京5728傳真機(jī)2002.3.10北京6739刻錄機(jī)2002.3.10北京3976復(fù)印機(jī)2002.3.10北京6395打印機(jī)2002.3.10上海6365傳真機(jī)2002.3.10上海67443維度定義3.3數(shù)據(jù)倉(cāng)庫(kù)概念模型例子2第19頁(yè),共132頁(yè),2023年,2月20日,星期六多維數(shù)據(jù)庫(kù)視圖:時(shí)間02.3.1002.3.11上海北京VCD地區(qū)產(chǎn)品57826365傳統(tǒng)型:二維(關(guān)系型)記錄、字段數(shù)據(jù)倉(cāng)庫(kù):多維(立方體)維、單一事實(shí)第20頁(yè),共132頁(yè),2023年,2月20日,星期六傳統(tǒng)型的一個(gè)二維表,在數(shù)據(jù)倉(cāng)庫(kù)中可能需要多個(gè)立方體來(lái)表示;數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)立方體可能由多個(gè)傳統(tǒng)型的表組成;產(chǎn)品時(shí)間地區(qū)數(shù)量金額VCD機(jī)2002.3.10北京57282345556銷(xiāo)售數(shù)量立方體銷(xiāo)售金額立方體一個(gè)二維表的數(shù)據(jù)可裝載到兩個(gè)立方體第21頁(yè),共132頁(yè),2023年,2月20日,星期六維的層次:關(guān)系數(shù)據(jù)庫(kù)在字段上做文章,數(shù)據(jù)倉(cāng)庫(kù)在維上做文章;維不僅是查詢(xún)數(shù)據(jù)的一個(gè)角度,而且提供查詢(xún)的深度;年所有產(chǎn)品全國(guó)季產(chǎn)品大類(lèi)地區(qū)月產(chǎn)品小類(lèi)城市日產(chǎn)品超市同一屬性數(shù)據(jù)可有多種歸類(lèi)層次:顧客->性別->所有顧客、顧客->文化程度->所有顧客第22頁(yè),共132頁(yè),2023年,2月20日,星期六時(shí)間維每個(gè)數(shù)據(jù)倉(cāng)庫(kù)都用到無(wú)限的;粒度要求高時(shí),細(xì)分?jǐn)?shù)據(jù)劇增。第23頁(yè),共132頁(yè),2023年,2月20日,星期六維度的分解與合成是在一個(gè)維度內(nèi)進(jìn)一步細(xì)分?jǐn)?shù)據(jù)或?qū)?shù)據(jù)按照另一標(biāo)準(zhǔn)組合的過(guò)程。例如,當(dāng)以地理位置維觀(guān)察數(shù)據(jù)時(shí),用戶(hù)可以首先以國(guó)家(如中國(guó))為單位觀(guān)察數(shù)據(jù),然后可以選擇觀(guān)察某一個(gè)地區(qū)(如華東地區(qū))的數(shù)據(jù),接下來(lái)可以選擇觀(guān)察某一個(gè)省或城市(如上海)的數(shù)據(jù),這就是數(shù)據(jù)分解的過(guò)程。而合成則是分解的逆過(guò)程,例如用戶(hù)開(kāi)始以省市為觀(guān)察對(duì)象,接著再以地區(qū)、國(guó)家等為觀(guān)察對(duì)象,就是一個(gè)數(shù)據(jù)合成的過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)概念模型3維度的定義3.3第24頁(yè),共132頁(yè),2023年,2月20日,星期六我們有大量的會(huì)員年齡在20–60歲月薪在0–8000元55%的會(huì)員被我們認(rèn)可為忠實(shí)會(huì)員(好會(huì)員)55%會(huì)員都是些什么會(huì)員?數(shù)據(jù)倉(cāng)庫(kù)概念模型3維度的定義3.3維度分解的例子第25頁(yè),共132頁(yè),2023年,2月20日,星期六維度分解的例子第26頁(yè),共132頁(yè),2023年,2月20日,星期六維度分解的例子第27頁(yè),共132頁(yè),2023年,2月20日,星期六維度分解的例子第28頁(yè),共132頁(yè),2023年,2月20日,星期六維度合成的例子NameStatusMajorBirthPlaceGPAAndersonM.A.historyVancouver3.5BachJuniormathCalgary3.7CarltonJuniorliberalartEdmonton2.6FraserM.S.physicsOttawa3.9GuptaPh.D.mathBombay3.3HartSophomorechemistryRichmond2.7JacksonSeniorcomputingVictoria3.5LiuPh.D.biologyShanghai3.4……………MeyerSophomoremusicBurnaby3.0MonkPh.D.computingVictoria3.8WangM.S.statisticsNanjing3.2WiseFreshmanliteratureToronto3.9加拿大某大學(xué)數(shù)據(jù)庫(kù)第29頁(yè),共132頁(yè),2023年,2月20日,星期六

ANY

Canadaforeign

B.COntario…ChinaIndia……

Vancouver…Victoria……Beijing….Bombay…

“出生地”維度之級(jí)別維度合成的例子第30頁(yè),共132頁(yè),2023年,2月20日,星期六{Bumaby,…..,Vancouver,Victoria}

BritishColumbia{Calgary,…..Edmonton,

Lethbridge}

Alberta{Hamilton,Toronto,Waterloo}

Ontario{Bombay,…..,NewDelhi}

India{Beijing,Nanjing,…..,Shanghai}

China{India,China}

foreign{BritishColumbia,Alberta,…..,Ontario}

Canada{foreign,Canada}

ANY(place)維度合成的例子第31頁(yè),共132頁(yè),2023年,2月20日,星期六{biology,chemistry,computing,…..,physics}

science{literature,music,…..,painting}

art{science,art}ANY(major){freshman,sophomore,junior,senior}

undergraduate{M.S.,M.A.,Ph.D.}

graduate{undergraduate,graduate}

ANY(status){0.0-1.99}

poor{2.0-2.99}

average{3.0-3.99}

good{4.0-4.99}

excellent{poor,average,good,excellent}

ANY(grade)維度合成的例子第32頁(yè),共132頁(yè),2023年,2月20日,星期六年級(jí)與學(xué)位之維度級(jí)別freshmansophomorejuniorseniorM.S.M.A.Ph.DundergraduategraduateANY維度合成的例子第33頁(yè),共132頁(yè),2023年,2月20日,星期六維度合成的例子將研究生數(shù)據(jù)合成出來(lái)NamesMajorBirthPlaceGPAVoteAndersonhistoryVancouver3.51FraserphysicsOttawa3.91GuptamathBombay3.31LiubiologyShanghai3.41……………MonkcomputingVictoria3.81WangstaisticsNanjing3.21第34頁(yè),共132頁(yè),2023年,2月20日,星期六策略1:屬性移除(AttributeRemoval)

Names這個(gè)屬性中有許多不同的屬性值,且沒(méi)有較高的概念層級(jí)可以表示它,所以Names屬性可以被移除

MajorBirthPlaceGPAVotehistoryVancouver3.51physicsOttawa3.91mathBombay3.31biologyShanghai3.41…………computingVictoria3.81staisticsNanjing3.21第35頁(yè),共132頁(yè),2023年,2月20日,星期六策略2:維級(jí)別的爬升

假如某一屬性在概念階層中存在著一個(gè)更高層級(jí)的概念,則該屬性值就以其更高層級(jí)的值來(lái)取代“history”、“physics”、“math”、“biology”會(huì)由“science”取代“l(fā)iterature”、“music”、“painting”會(huì)由“art”取代第36頁(yè),共132頁(yè),2023年,2月20日,星期六策略3:數(shù)據(jù)計(jì)數(shù)的傳播(votepropagation)屬性值向上爬升后,若產(chǎn)生相同的tuple,則將相同的tuple合并為一筆一般化tuple,并將vote值累加到歸納后的tuple中MajorBirth_PlaceGPAVoteartB.Cexcellent35scienceOntarioexcellent10scienceB.Cexcellent30scienceIndiagood10scienceChinagood15第37頁(yè),共132頁(yè),2023年,2月20日,星期六MajorBirth_PlaceGPAVoteArtCanadaexcellent35ScienceCanadaexcellent40ScienceForeigngood25MajorBirth_PlaceGPAVote{art,science}CanadaExcellent75ScienceForeigngood25策略3:數(shù)據(jù)計(jì)數(shù)的傳播(votepropagation)第38頁(yè),共132頁(yè),2023年,2月20日,星期六層次結(jié)構(gòu)是維度中成員的集合以及這些成員之間的相對(duì)位置。對(duì)于由數(shù)據(jù)挖掘模型創(chuàng)建的維度,其層次結(jié)構(gòu)代表該挖掘模型的節(jié)點(diǎn)結(jié)構(gòu)。(1)均衡層次結(jié)構(gòu)和不均衡層次結(jié)構(gòu)在均衡層次結(jié)構(gòu)中,層次結(jié)構(gòu)的所有分支都降至同一級(jí)別,而且每個(gè)成員的邏輯父代就是其上一級(jí)成員。所有的葉節(jié)點(diǎn)與根節(jié)點(diǎn)的距離相同洲—法國(guó)—巴黎洲—英國(guó)—倫敦

在不均衡層次結(jié)構(gòu)中,層次結(jié)構(gòu)的分支降至不同級(jí)別。葉節(jié)點(diǎn)距根節(jié)點(diǎn)的距離不同的維度層次結(jié)構(gòu)

CEO—職員CEO—部門(mén)經(jīng)理—職員數(shù)據(jù)倉(cāng)庫(kù)概念模型3維度的層次結(jié)構(gòu)3.4第39頁(yè),共132頁(yè),2023年,2月20日,星期六(2)不齊整層次結(jié)構(gòu)在不齊整層次結(jié)構(gòu)中,一個(gè)成員的邏輯父代至少有一個(gè)并不直接位于該成員上一級(jí)。這將導(dǎo)致層次結(jié)構(gòu)的分支降至不同的級(jí)別。例如,Geography維度由級(jí)別Country、Province和City組成。Geneva的邏輯父代是Switzerland,因?yàn)镾witzerland沒(méi)有劃分省份。(3)具有多個(gè)層次結(jié)構(gòu)的維度數(shù)據(jù)倉(cāng)庫(kù)概念模型3維度的層次結(jié)構(gòu)3.4第40頁(yè),共132頁(yè),2023年,2月20日,星期六度量是基于特定維度的一組事實(shí)或指標(biāo)。度量值是一組值,基于事實(shí)數(shù)據(jù)表中的一列,而且通常為數(shù)字。例如一個(gè)多維數(shù)據(jù)集具有以下架構(gòu)和單個(gè)度量值Sales(基于Sales事實(shí)數(shù)據(jù)表中的Sales_Amount列)。數(shù)據(jù)倉(cāng)庫(kù)概念模型3度量和度量值3.6第41頁(yè),共132頁(yè),2023年,2月20日,星期六使用聚合函數(shù)計(jì)算度量值使用聚合函數(shù)(Sum、Min、Max、Count等),可以獲得并查詢(xún)到需要的各種值,比如:1.對(duì)customerA,retailstoreA和productA的Sales度量值的查詢(xún)返回為8002.對(duì)customerA,retailstoreA和productcategoryAB的Sales度量值的查詢(xún)返回4數(shù)據(jù)倉(cāng)庫(kù)概念模型3度量和度量值3.6第42頁(yè),共132頁(yè),2023年,2月20日,星期六單元是多維數(shù)據(jù)集的原子元素,或者為來(lái)自與該多維數(shù)據(jù)集相關(guān)聯(lián)的每個(gè)維度的某個(gè)成員的唯一邏輯交集。實(shí)質(zhì)上,多維數(shù)據(jù)集由按度量值、級(jí)別以及維度組織的單元組成。數(shù)據(jù)倉(cāng)庫(kù)概念模型3單元3.7第43頁(yè),共132頁(yè),2023年,2月20日,星期六例如,下列關(guān)系圖描述的多維數(shù)據(jù)集有一個(gè)帶陰影的單元“源”維度的“航空”成員。"路線(xiàn)"維度的"非洲"成員?!皶r(shí)間”維度的“第四季度”成員。"度量值"維度的"包"成員。第44頁(yè),共132頁(yè),2023年,2月20日,星期六計(jì)算單元由下列三個(gè)元素構(gòu)造1.計(jì)算子多維數(shù)據(jù)集維度(包括Measures維度)的所有成員,該選項(xiàng)通常不包括計(jì)算成員。維度(包括Measures維度)的單個(gè)指定的成員。維度中指定級(jí)別上的所有成員,該選項(xiàng)通常不包括計(jì)算成員。維度中指定成員的所有后代。維度中指定級(jí)別上指定成員的所有后代。解析為包含上述集合之一的集合中的MDX表達(dá)式。該列集合與該列集合中未指定的所有其它維度的每個(gè)其它成員的組合定義計(jì)算子多維數(shù)據(jù)集。數(shù)據(jù)倉(cāng)庫(kù)概念模型3單元3.7第45頁(yè),共132頁(yè),2023年,2月20日,星期六2.計(jì)算條件進(jìn)一步限制計(jì)算單元功能應(yīng)用的MDX邏輯表達(dá)式。3.計(jì)算公式用來(lái)計(jì)算包含于計(jì)算子多維數(shù)據(jù)集中的單元的值的MDX值表達(dá)式。數(shù)據(jù)倉(cāng)庫(kù)概念模型3單元3.7第46頁(yè),共132頁(yè),2023年,2月20日,星期六多維數(shù)據(jù)集是包含維度和度量值的多維結(jié)構(gòu)。維度定義多維數(shù)據(jù)集的結(jié)構(gòu),而度量值提供最終用戶(hù)感興趣的數(shù)值。多維數(shù)據(jù)集內(nèi)的單元位置由各維度成員的交集確定,通過(guò)對(duì)度量值進(jìn)行聚合得到單元中的值。多維數(shù)據(jù)集提供一種便于使用的查詢(xún)數(shù)據(jù)的機(jī)制,不但快捷,而且響應(yīng)時(shí)間一致。一個(gè)多維數(shù)據(jù)集最多可包含128個(gè)維度(每個(gè)維度中可包含數(shù)百萬(wàn)成員)和1,024個(gè)度量值。數(shù)據(jù)倉(cāng)庫(kù)概念模型3多維數(shù)據(jù)集3.7第47頁(yè),共132頁(yè),2023年,2月20日,星期六多維數(shù)據(jù)集結(jié)構(gòu)每個(gè)多維數(shù)據(jù)集架構(gòu)均包括一個(gè)事實(shí)數(shù)據(jù)表以及一個(gè)或多個(gè)維度表。多維數(shù)據(jù)集的度量值出自事實(shí)數(shù)據(jù)表中的列,多維數(shù)據(jù)集的維度出自維度表中的列。多維數(shù)據(jù)集存儲(chǔ)可以使用不同的技術(shù)和多種模式存儲(chǔ)多維數(shù)據(jù)集的數(shù)據(jù)和聚合。多維數(shù)據(jù)集需要大量存儲(chǔ)空間,用以包含多維結(jié)構(gòu)中的數(shù)據(jù)和聚合。影響存儲(chǔ)空間要求的一個(gè)因素是稀疏度。數(shù)據(jù)倉(cāng)庫(kù)概念模型3多維數(shù)據(jù)集3.7第48頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4邏輯模型的定義和主要工作4.1邏輯模型是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型的第二層。與傳統(tǒng)的關(guān)系模型相比,簡(jiǎn)化了用戶(hù)分析所需的關(guān)系,進(jìn)而數(shù)據(jù)結(jié)構(gòu)也得到簡(jiǎn)化從支持決策的角度去定義數(shù)據(jù)實(shí)體,更適合大量復(fù)雜查詢(xún)。有多個(gè)維(度)表,但是只有一個(gè)事實(shí)表通常有兩種邏輯模型表示法:星型模型和雪花模型工作分析主題,定義邏輯模型(星型模型或雪花模型)確定數(shù)據(jù)粒度的選擇確定數(shù)據(jù)分割策略如需要,增加導(dǎo)出字段等第49頁(yè),共132頁(yè),2023年,2月20日,星期六星形模型包含三種邏輯實(shí)體:維度表邏輯上通過(guò)key關(guān)聯(lián)維度表往往包含相當(dāng)多的屬性典型的屬性是文本的、離散的維度往往含有層次(級(jí)別)主鍵(primarykey)往往是系統(tǒng)產(chǎn)生的很可能是共享的事實(shí)表對(duì)應(yīng)聯(lián)系數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4星型模型4.2第50頁(yè),共132頁(yè),2023年,2月20日,星期六星形模型包含三種邏輯實(shí)體:維度表事實(shí)表一個(gè)數(shù)據(jù)倉(cāng)庫(kù)(OLAP)模型只有一個(gè)事實(shí)表事實(shí)表經(jīng)常有百萬(wàn)行或更多事實(shí)往往是數(shù)字“量度”有些事實(shí)可以被累加,另一些不能最小粒度原則不歡迎描述性屬性(瘦高vs.矮胖)對(duì)應(yīng)聯(lián)系數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4星型模型4.2第51頁(yè),共132頁(yè),2023年,2月20日,星期六星形模型包含三種邏輯實(shí)體:維度表事實(shí)表對(duì)應(yīng)聯(lián)系維度表與事實(shí)表不是絕對(duì)的同一個(gè)表,可以同時(shí)是維度表與事實(shí)表同一個(gè)表,可以有時(shí)是維度表,有時(shí)是事實(shí)表一個(gè)事實(shí)表對(duì)應(yīng)多個(gè)不同維表一個(gè)維表可對(duì)應(yīng)不同的事實(shí)表數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4星型模型4.2第52頁(yè),共132頁(yè),2023年,2月20日,星期六示例1數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4星型模型4.2第53頁(yè),共132頁(yè),2023年,2月20日,星期六示例2DateMonthYearDateCustIdCustNameCustCityCustCountryCustSalesFactTable

DateProduct

Store

Customer

unit_salesdollar_salesYen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4星型模型4.2第54頁(yè),共132頁(yè),2023年,2月20日,星期六示例3數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4星型模型4.2第55頁(yè),共132頁(yè),2023年,2月20日,星期六星形模式時(shí)間維事實(shí)表示例3第56頁(yè),共132頁(yè),2023年,2月20日,星期六多維模型事實(shí)度量(Metrics)時(shí)間維時(shí)間維的屬性第57頁(yè),共132頁(yè),2023年,2月20日,星期六雪花模型的特點(diǎn)維表進(jìn)一步層次化,改善查詢(xún)性能增加表數(shù)量,增加查詢(xún)復(fù)雜性節(jié)省存儲(chǔ)空間層次性好數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4雪花模型4.3第58頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4雪花模型4.3示例1第59頁(yè),共132頁(yè),2023年,2月20日,星期六

DateMonthDateCustIdCustNameCustCityCustCountryCustSalesFactTableDateProduct

Store

Customer

unit_sales

dollar_sales

Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductMonthYearMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStore數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4雪花模型4.3示例2第60頁(yè),共132頁(yè),2023年,2月20日,星期六兩種模型比較星型模型通過(guò)預(yù)連接和建立有選擇的數(shù)據(jù)冗余,為用戶(hù)訪(fǎng)問(wèn)和分析過(guò)程大大簡(jiǎn)化了數(shù)據(jù)。星型模型效率比較高,因?yàn)檠┗P途S表層次多,查詢(xún)的時(shí)候連接操作較多。雪花模型通過(guò)最大限度的減少數(shù)據(jù)存儲(chǔ)量以及聯(lián)合較小的維表來(lái)改善查詢(xún)性能。雪花模型增加了用戶(hù)必須處理的表數(shù)量,增加了某些查詢(xún)的復(fù)雜性,但這種方式可以使系統(tǒng)進(jìn)一步專(zhuān)業(yè)化和實(shí)用化,同時(shí)降低了系統(tǒng)的通用程度。

雪花模型的維表可能是規(guī)范化形式,以便減少冗余,易于維護(hù),節(jié)省存儲(chǔ)空間。

數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4邏輯模型類(lèi)型選擇4.4第61頁(yè),共132頁(yè),2023年,2月20日,星期六選擇建議星型模型結(jié)構(gòu)效率上優(yōu)于雪花模型,首選星型如果存儲(chǔ)空間上存在瓶頸,可以考慮使用雪花模型如果維護(hù)方面要求簡(jiǎn)便性,可以考慮使用雪花模型數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4邏輯模型類(lèi)型選擇4.4第62頁(yè),共132頁(yè),2023年,2月20日,星期六產(chǎn)品銷(xiāo)售事實(shí)表:銷(xiāo)售記錄銷(xiāo)售額成本產(chǎn)品件數(shù)維度表時(shí)間產(chǎn)品銷(xiāo)售人員客戶(hù)商店促銷(xiāo)數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4幾個(gè)典型的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用模型4.5第63頁(yè),共132頁(yè),2023年,2月20日,星期六網(wǎng)站分析事實(shí)表:點(diǎn)擊記錄人次數(shù)人數(shù)維度表時(shí)間網(wǎng)站IP(地域)瀏覽器數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4幾個(gè)典型的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用模型4.5第64頁(yè),共132頁(yè),2023年,2月20日,星期六電信行業(yè)事實(shí)表:打電話(huà)的記錄通話(huà)時(shí)間本地費(fèi)長(zhǎng)途費(fèi)維度表時(shí)間客戶(hù)年齡客戶(hù)信息手機(jī)型號(hào)電信服務(wù)類(lèi)型數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4幾個(gè)典型的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用模型4.5第65頁(yè),共132頁(yè),2023年,2月20日,星期六財(cái)務(wù)/預(yù)算分析事實(shí)表:財(cái)務(wù)歷史實(shí)際費(fèi)用預(yù)算費(fèi)用維度表時(shí)間部門(mén)科目數(shù)據(jù)倉(cāng)庫(kù)邏輯模型4幾個(gè)典型的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用模型4.5第66頁(yè),共132頁(yè),2023年,2月20日,星期六4.6粒度選擇4數(shù)據(jù)倉(cāng)庫(kù)邏輯模型高度綜合級(jí)輕度綜合級(jí)當(dāng)前綜合級(jí)早期細(xì)節(jié)級(jí)多級(jí)數(shù)據(jù)組織結(jié)構(gòu)每月電話(huà)呼叫信息每天電話(huà)呼叫信息電話(huà)呼叫情況信息電話(huà)呼叫明細(xì)信息第67頁(yè),共132頁(yè),2023年,2月20日,星期六粒度的第一種形式粒度:對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)綜合程度高低的一個(gè)度量,它既影響數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉(cāng)庫(kù)所能回答詢(xún)問(wèn)的種類(lèi)。粒度越小,綜合程度越低,回答查詢(xún)的種類(lèi)越多;粒度越高,綜合程度越高,查詢(xún)的效率也越高。在數(shù)據(jù)倉(cāng)庫(kù)中可將小粒度的數(shù)據(jù)存儲(chǔ)在低速存儲(chǔ)器上;大粒度的數(shù)據(jù)存儲(chǔ)在高速存儲(chǔ)器上。4.6粒度選擇4數(shù)據(jù)倉(cāng)庫(kù)邏輯模型第68頁(yè),共132頁(yè),2023年,2月20日,星期六粒度的第二種形式:樣本數(shù)據(jù)庫(kù)樣本數(shù)據(jù)庫(kù):在分析過(guò)程中,有許多探索的過(guò)程有時(shí)分析的目的并不要求精確的結(jié)果,只需要得到相對(duì)準(zhǔn)確、能反映趨勢(shì)的數(shù)據(jù),所以可以提取出樣本數(shù)據(jù)庫(kù)。樣本數(shù)據(jù)庫(kù)的粒度:是根據(jù)采樣率的高低來(lái)劃分的,采樣粒度不同的樣本數(shù)據(jù)庫(kù)可以具有相同的綜合級(jí)別,它是按一定的采樣率從細(xì)節(jié)數(shù)據(jù)庫(kù)或輕度綜合數(shù)據(jù)庫(kù)中提取的一個(gè)子集。樣本數(shù)據(jù)庫(kù)的抽取按照數(shù)據(jù)的重要程度不同進(jìn)行,利用樣本數(shù)據(jù)庫(kù)采集重要數(shù)據(jù)進(jìn)行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。4.6粒度選擇4數(shù)據(jù)倉(cāng)庫(kù)邏輯模型第69頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)粒度級(jí)別原因:數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)量不同,需要解決的問(wèn)題多種多樣(細(xì)節(jié)問(wèn)題、綜合問(wèn)題)因此,不同的問(wèn)題采用不同的數(shù)據(jù)粒度級(jí)別。在數(shù)據(jù)量較小的環(huán)境下,可以采用單一的數(shù)據(jù)粒度;對(duì)于大數(shù)據(jù)量,需要采用雙重或多重粒度單一粒度直接存儲(chǔ)細(xì)節(jié)數(shù)據(jù)并定期在細(xì)節(jié)數(shù)據(jù)基礎(chǔ)上進(jìn)行數(shù)據(jù)綜合從數(shù)據(jù)裝載之后,所有細(xì)節(jié)數(shù)據(jù)都將保留在數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)期限(5~10年)到了之后,才會(huì)導(dǎo)到后備設(shè)備(如磁帶)中4.6粒度選擇4數(shù)據(jù)倉(cāng)庫(kù)邏輯模型第70頁(yè),共132頁(yè),2023年,2月20日,星期六雙重粒度對(duì)于細(xì)節(jié)數(shù)據(jù)只保留近期的數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中,當(dāng)保留周期到達(dá)時(shí),將距離當(dāng)前較遠(yuǎn)的數(shù)據(jù)導(dǎo)出到磁盤(pán)上,從而為新的數(shù)據(jù)騰出空間。數(shù)據(jù)倉(cāng)庫(kù)中只保留在細(xì)節(jié)數(shù)據(jù)保留周期內(nèi)的數(shù)據(jù),對(duì)于這個(gè)周期之后的信息,數(shù)據(jù)倉(cāng)庫(kù)只保留其綜合數(shù)據(jù)。兩者的區(qū)別細(xì)節(jié)數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)的高速存儲(chǔ)設(shè)備中存儲(chǔ)的時(shí)間長(zhǎng)短不同4.6粒度選擇4數(shù)據(jù)倉(cāng)庫(kù)邏輯模型第71頁(yè),共132頁(yè),2023年,2月20日,星期六如何確定數(shù)據(jù)粒度粒度選擇的標(biāo)準(zhǔn)主要是數(shù)據(jù)倉(cāng)庫(kù)表的總行數(shù)。因?yàn)閿?shù)據(jù)的存取通常是通過(guò)存取索引來(lái)實(shí)現(xiàn)的,而索引是對(duì)應(yīng)表的行來(lái)組織的,即在某一索引中每一行總有個(gè)索引項(xiàng),索引的大小只與表的總行數(shù)有關(guān),而與表的數(shù)據(jù)量無(wú)關(guān)。Inmon的數(shù)據(jù)粒度策略4.6粒度選擇4數(shù)據(jù)倉(cāng)庫(kù)邏輯模型必須用雙重粒度且需認(rèn)真設(shè)計(jì)20,000,00010,000,000最好使用雙重粒度10,000,0001,000,000如使用單一粒度,需認(rèn)真設(shè)計(jì)1,000,000100,000單一粒度,設(shè)計(jì)簡(jiǎn)單100,00010,000數(shù)據(jù)粒度策略5年內(nèi)數(shù)據(jù)量(行)1年內(nèi)數(shù)據(jù)量(行)第72頁(yè),共132頁(yè),2023年,2月20日,星期六影響粒度層次劃分的幾個(gè)因素要接受的分析類(lèi)型粒度層次越高,就越不能進(jìn)行細(xì)節(jié)分析如最低粒度層次定義為月份時(shí),就不能進(jìn)行按日匯總信息分析可接受的最低粒度粒度劃分策略一定要保證數(shù)據(jù)的粒度確實(shí)能夠滿(mǎn)足用戶(hù)的決策分析需要。能存儲(chǔ)數(shù)據(jù)的存儲(chǔ)容量若存儲(chǔ)容量有限,則只能采用較高粒度的數(shù)據(jù)粒度劃分策略4.6粒度選擇4數(shù)據(jù)倉(cāng)庫(kù)邏輯模型第73頁(yè),共132頁(yè),2023年,2月20日,星期六分割及其標(biāo)準(zhǔn):分割:將邏輯上統(tǒng)一的數(shù)據(jù)分散到各自的物理單元中去以便能分別處理,提高數(shù)據(jù)處理效率,數(shù)據(jù)分割后的數(shù)據(jù)單元稱(chēng)為分片。數(shù)據(jù)分割的標(biāo)準(zhǔn):可按日期、地域、業(yè)務(wù)領(lǐng)域或按多個(gè)分割標(biāo)準(zhǔn)的組合。數(shù)據(jù)分割的目的:便于進(jìn)行數(shù)據(jù)的重構(gòu)、索引、重組、恢復(fù)、監(jiān)控、掃描4.7確定數(shù)據(jù)分割策略4數(shù)據(jù)倉(cāng)庫(kù)邏輯模型第74頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)分割考慮的因素?cái)?shù)據(jù)量的大小數(shù)據(jù)量較小,可以不進(jìn)行分割,或只用單一標(biāo)準(zhǔn)進(jìn)行分割數(shù)據(jù)量很大,應(yīng)當(dāng)采用多重標(biāo)準(zhǔn)的組合來(lái)較細(xì)致地分割數(shù)據(jù)數(shù)據(jù)分析處理的實(shí)際情況數(shù)據(jù)分割是跟數(shù)據(jù)分析處理的對(duì)象緊密聯(lián)系的。簡(jiǎn)單易行選擇用于數(shù)據(jù)分割的標(biāo)準(zhǔn)應(yīng)當(dāng)是自然的、易于實(shí)施的與粒度的劃分策略相統(tǒng)一同一粒度層次上的數(shù)據(jù)需要進(jìn)行分割時(shí),應(yīng)當(dāng)按照劃分粒度層次時(shí)使用的標(biāo)準(zhǔn)進(jìn)行分割數(shù)據(jù)的穩(wěn)定性數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)追加頻率不同,有的快,有的慢,將不同變化頻度的數(shù)據(jù)放在不同的表中進(jìn)行更新處理4.7確定數(shù)據(jù)分割策略4數(shù)據(jù)倉(cāng)庫(kù)邏輯模型第75頁(yè),共132頁(yè),2023年,2月20日,星期六定義導(dǎo)出字段是在原始數(shù)據(jù)的基礎(chǔ)上進(jìn)行總結(jié)或計(jì)算而生成的數(shù)據(jù)這些數(shù)據(jù)可以在以后的應(yīng)用中直接利用,避免了重復(fù)計(jì)算4.8增加導(dǎo)出字段4數(shù)據(jù)倉(cāng)庫(kù)邏輯模型藥物ID出現(xiàn)次數(shù)總劑量方劑ID藥物ID劑量……方劑ID藥物ID劑量…………方劑ID藥物ID劑量……第76頁(yè),共132頁(yè),2023年,2月20日,星期六分布存儲(chǔ)方式采用磁盤(pán)陣列在多個(gè)節(jié)點(diǎn)間分布的方式來(lái)存儲(chǔ)數(shù)據(jù)物理上是分布的,但是邏輯上是統(tǒng)一的5.1存儲(chǔ)結(jié)構(gòu)5數(shù)據(jù)倉(cāng)庫(kù)物理模型內(nèi)部高速網(wǎng)絡(luò)模塊0互聯(lián)I/OSCSI/FC網(wǎng)絡(luò)I/O模塊1互聯(lián)I/OSCSI/FC網(wǎng)絡(luò)I/O模塊N互聯(lián)I/OSCSI/FC網(wǎng)絡(luò)I/O…存儲(chǔ)存儲(chǔ)接外部網(wǎng)絡(luò)SCSI(SmallComputerSystemInterface)FC(FibreChannel)第77頁(yè),共132頁(yè),2023年,2月20日,星期六集中式數(shù)據(jù)存儲(chǔ)方式將現(xiàn)有SAN(StorageAreaNetwork,存儲(chǔ)局域網(wǎng))或者NAS(NetworkAttachedStorage,網(wǎng)絡(luò)接入存儲(chǔ))作為服務(wù)器的存儲(chǔ)部分直接通過(guò)FC交換機(jī)來(lái)直接訪(fǎng)問(wèn)所有的數(shù)據(jù)而不需要通過(guò)其他節(jié)點(diǎn)可以將節(jié)點(diǎn)從數(shù)據(jù)存儲(chǔ)管理的負(fù)擔(dān)中解脫出來(lái),實(shí)現(xiàn)數(shù)據(jù)處理和數(shù)據(jù)存儲(chǔ)的分離。5.1存儲(chǔ)結(jié)構(gòu)5數(shù)據(jù)倉(cāng)庫(kù)物理模型第78頁(yè),共132頁(yè),2023年,2月20日,星期六5.1存儲(chǔ)結(jié)構(gòu)5數(shù)據(jù)倉(cāng)庫(kù)物理模型內(nèi)部高速網(wǎng)絡(luò)模塊0互聯(lián)I/OSCSI/FC網(wǎng)絡(luò)I/O模塊1互聯(lián)I/OSCSI/FC網(wǎng)絡(luò)I/O模塊N互聯(lián)I/OSCSI/FC網(wǎng)絡(luò)I/O…接外部網(wǎng)絡(luò)FC交換機(jī)RAID存儲(chǔ)子系統(tǒng)第79頁(yè),共132頁(yè),2023年,2月20日,星期六5.1存儲(chǔ)結(jié)構(gòu)5數(shù)據(jù)倉(cāng)庫(kù)物理模型RAID磁盤(pán)陣列廉價(jià)冗余磁盤(pán)陣列(RedundantArrayofInexpensiveDisk)是一種采用多磁盤(pán)驅(qū)動(dòng)器來(lái)存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)系統(tǒng)分為6個(gè)級(jí)別:RAID0、1、2、3、4、5及RAID0+1,2、3、4使用頻率較低,5、0、1、0+1使用較多。在RAID的各個(gè)級(jí)別中,RAID1和RAID0+1提供最佳的數(shù)據(jù)保護(hù)和最佳性能,但是就所需的磁盤(pán)而言會(huì)需要更多的成本。當(dāng)硬盤(pán)成本不是限制因素時(shí),就兼顧性能和容錯(cuò)而言,RAID1或RAID0+1是最佳選擇。RAID5的成本比RAID1或RAID0+1低,但是它提供的容錯(cuò)和寫(xiě)入性能較差。RAID5的寫(xiě)入性能大約只是RAID1或RAID0+1的一半,這是因?yàn)镽AID5讀取和寫(xiě)入奇偶校驗(yàn)信息需要額外的I/O。

第80頁(yè),共132頁(yè),2023年,2月20日,星期六5.1存儲(chǔ)結(jié)構(gòu)5數(shù)據(jù)倉(cāng)庫(kù)物理模型RAID0因?yàn)樵摷?jí)別使用名為條帶集的磁盤(pán)文件系統(tǒng),所以又將它稱(chēng)作磁盤(pán)條帶。數(shù)據(jù)被劃分成多個(gè)塊并按固定順序分布到陣列中的所有磁盤(pán)上。RAID0將多個(gè)操作分布到多個(gè)磁盤(pán)上,以便可以同時(shí)獨(dú)立地執(zhí)行這些操作,從而改善了讀取/寫(xiě)入性能。RAID0類(lèi)似于RAID5,但是RAID5還提供容錯(cuò)功能。第81頁(yè),共132頁(yè),2023年,2月20日,星期六5.1存儲(chǔ)結(jié)構(gòu)5數(shù)據(jù)倉(cāng)庫(kù)物理模型RAID1因?yàn)樵摷?jí)別使用名為鏡像集的磁盤(pán)文件系統(tǒng),所以又將它稱(chēng)作磁盤(pán)鏡像。磁盤(pán)鏡像可提供一個(gè)與所選磁盤(pán)完全相同的冗余副本。寫(xiě)入主磁盤(pán)的所有數(shù)據(jù)都會(huì)寫(xiě)入鏡像磁盤(pán)。RAID1提供了容錯(cuò)功能,而且通??梢愿倪M(jìn)讀取性能(但是可能會(huì)降低寫(xiě)入性能)

第82頁(yè),共132頁(yè),2023年,2月20日,星期六5.1存儲(chǔ)結(jié)構(gòu)5數(shù)據(jù)倉(cāng)庫(kù)物理模型RAID2RAID2是為大型機(jī)和超級(jí)計(jì)算機(jī)開(kāi)發(fā)的帶校驗(yàn)磁盤(pán)陣列。磁盤(pán)驅(qū)動(dòng)器組中的第1、第2、第4、第2n個(gè)磁盤(pán)驅(qū)動(dòng)器是專(zhuān)門(mén)的校驗(yàn)盤(pán)(hammingcode)。如下圖:第1、2、4個(gè)磁盤(pán)驅(qū)動(dòng)器(紅色)是糾錯(cuò)盤(pán),其余的(紫色)用于存放數(shù)據(jù)。RAID2對(duì)大數(shù)據(jù)量的讀寫(xiě)具有極高的性能,但少量數(shù)據(jù)的讀寫(xiě)時(shí)性能反而不好,所以RAID2實(shí)際使用較少。

第83頁(yè),共132頁(yè),2023年,2月20日,星期六5.1存儲(chǔ)結(jié)構(gòu)5數(shù)據(jù)倉(cāng)庫(kù)物理模型RAID3該級(jí)別使用與RAID2相同的條帶化方法,但是糾錯(cuò)方法只需一個(gè)磁盤(pán)用于奇偶校驗(yàn)數(shù)據(jù)。磁盤(pán)空間的使用情況因數(shù)據(jù)磁盤(pán)的數(shù)量而異。RAID3在讀取/寫(xiě)入性能方面提供一些改進(jìn),按橫條。RAID3也極少使用。第84頁(yè),共132頁(yè),2023年,2月20日,星期六5.1存儲(chǔ)結(jié)構(gòu)5數(shù)據(jù)倉(cāng)庫(kù)物理模型RAID4該級(jí)別使用的條帶數(shù)據(jù)塊或段比RAID2或RAID3大得多,按豎條。與RAID3一樣,糾錯(cuò)方法只需一個(gè)磁盤(pán)用于奇偶校驗(yàn)數(shù)據(jù)。它將用戶(hù)數(shù)據(jù)與糾錯(cuò)數(shù)據(jù)分開(kāi)。RAID4不如其他RAID級(jí)別效率高,通常不使用。第85頁(yè),共132頁(yè),2023年,2月20日,星期六5.1存儲(chǔ)結(jié)構(gòu)5數(shù)據(jù)倉(cāng)庫(kù)物理模型RAID5該級(jí)別又稱(chēng)作具有奇偶校驗(yàn)的條帶化,它是新設(shè)計(jì)中最常用的策略。與RAID4相似,它將數(shù)據(jù)以大塊形式條帶化到陣列中的磁盤(pán)上。不同之處在于它在所有磁盤(pán)之間寫(xiě)入奇偶校驗(yàn)的方式。數(shù)據(jù)冗余通過(guò)奇偶校驗(yàn)信息提供。數(shù)據(jù)和奇偶校驗(yàn)信息會(huì)在磁盤(pán)陣列上排列,所以這兩種信息總是位于不同的磁盤(pán)上。與磁盤(pán)鏡像(RAID1)相比,具有奇偶校驗(yàn)的條帶化可提供更好的性能。但是,當(dāng)條帶成員丟失時(shí)(例如,當(dāng)磁盤(pán)發(fā)生故障時(shí)),讀取性能會(huì)下降。RAID5是最常用的RAID配置之一。

第86頁(yè),共132頁(yè),2023年,2月20日,星期六5.1存儲(chǔ)結(jié)構(gòu)5數(shù)據(jù)倉(cāng)庫(kù)物理模型RAID0+1該級(jí)別又稱(chēng)作具有條帶化的鏡像。該級(jí)別使用條帶化的磁盤(pán)陣列,而該陣列又鏡像到另一組相同的條帶化磁盤(pán)。例如,可使用四個(gè)磁盤(pán)創(chuàng)建一個(gè)條帶化的陣列。然后,條帶化的磁盤(pán)陣列使用另一組(四個(gè))條帶化的磁盤(pán)進(jìn)行鏡像。RAID10提供磁盤(pán)條帶化帶來(lái)的性能益處以及鏡像帶來(lái)的磁盤(pán)冗余。在所有的RAID級(jí)別中,RAID10提供的讀取/寫(xiě)入性能最高,代價(jià)是使用的磁盤(pán)數(shù)量是其他級(jí)別的兩倍。第87頁(yè),共132頁(yè),2023年,2月20日,星期六5.2索引策略(B樹(shù)索引)5數(shù)據(jù)倉(cāng)庫(kù)物理模型1972年R.Bayer和E.M.McCreight提出了一種稱(chēng)之為B-樹(shù)的多路平衡查找樹(shù)。它適合在磁盤(pán)等直接存取設(shè)備上組織動(dòng)態(tài)的查找表。B樹(shù)索引的定義一棵m(m≥3)階的B-樹(shù)是滿(mǎn)足如下性質(zhì)的m叉樹(shù):每個(gè)結(jié)點(diǎn)至少包含下列數(shù)據(jù)域:

(j,P0,Kl,P1,K2,…,Ki,Pi),其中:j為關(guān)鍵字總數(shù)Ki(1≤i≤j)是關(guān)鍵字,關(guān)鍵字序列遞增有序:K1<K2<…<Ki。Pi(0≤i≤j)是孩子指針。對(duì)于葉結(jié)點(diǎn),每個(gè)Pi為空指針。所有葉子是在同一層上,葉子的層數(shù)為樹(shù)的高度h。每個(gè)非根結(jié)點(diǎn)中所包含的關(guān)鍵字個(gè)數(shù)j滿(mǎn)足:└m/2┘-1≦j≦m-1即每個(gè)非根結(jié)點(diǎn)至少應(yīng)有└

m/2┘

-1個(gè)關(guān)鍵字,至多有m-1個(gè)關(guān)鍵字。因?yàn)槊總€(gè)內(nèi)部結(jié)點(diǎn)的度數(shù)正好是關(guān)鍵字總數(shù)加1,故每個(gè)非根的內(nèi)部結(jié)點(diǎn)至少有└

m/2┘子樹(shù),至多有m棵子樹(shù)。若樹(shù)非空,則根至少有1個(gè)關(guān)鍵字,故若根不是葉子,則它至少有2棵子樹(shù)。根至多有m-1個(gè)關(guān)鍵字,故至多有m棵子樹(shù)。

第88頁(yè),共132頁(yè),2023年,2月20日,星期六5.2索引策略(B樹(shù)索引)5數(shù)據(jù)倉(cāng)庫(kù)物理模型B-樹(shù)的結(jié)點(diǎn)規(guī)模在大多數(shù)系統(tǒng)中,B-樹(shù)上的算法執(zhí)行時(shí)間主要由讀、寫(xiě)磁盤(pán)的次數(shù)來(lái)決定,每次讀寫(xiě)盡可能多的信息可提高算法的執(zhí)行速度。B-樹(shù)中的結(jié)點(diǎn)的規(guī)模一般是一個(gè)磁盤(pán)頁(yè),而結(jié)點(diǎn)中所包含的關(guān)鍵字及其孩子的數(shù)目取決于磁盤(pán)頁(yè)的大小。注意:

①對(duì)于磁盤(pán)上一棵較大的B-樹(shù),通常每個(gè)結(jié)點(diǎn)擁有的孩子數(shù)目(即結(jié)點(diǎn)的度數(shù))m為50至2000不等

②一棵度為m的B-樹(shù)稱(chēng)為m階B-樹(shù)。

③選取較大的結(jié)點(diǎn)度數(shù)可降低樹(shù)的高度,以及減少查找任意關(guān)鍵字所需的磁盤(pán)訪(fǎng)問(wèn)次數(shù)。

第89頁(yè),共132頁(yè),2023年,2月20日,星期六5.2索引策略(B樹(shù)索引)5數(shù)據(jù)倉(cāng)庫(kù)物理模型【例】下圖給出了一棵高度為3的1001階B-樹(shù)。

說(shuō)明:

①每個(gè)結(jié)點(diǎn)包含1000個(gè)關(guān)鍵字,故在第三層上有100多萬(wàn)個(gè)葉結(jié)點(diǎn),這些葉節(jié)點(diǎn)可容納10億多個(gè)關(guān)鍵字。

②圖中各結(jié)點(diǎn)內(nèi)的數(shù)字表示關(guān)鍵字的數(shù)目。

③通常根結(jié)點(diǎn)可始終置于主存中,因此在這棵B-樹(shù)中查找任一關(guān)鍵字至多只需二次訪(fǎng)問(wèn)外存。

第90頁(yè),共132頁(yè),2023年,2月20日,星期六5.2索引策略(B樹(shù)索引)5數(shù)據(jù)倉(cāng)庫(kù)物理模型B-樹(shù)的查找方法在B-樹(shù)中查找給定關(guān)鍵字的方法類(lèi)似于二叉排序樹(shù)上的查找。不同的是在每個(gè)結(jié)點(diǎn)上確定向下查找的路徑不一定是二路而是keynum+1路的。對(duì)結(jié)點(diǎn)內(nèi)的存放有序關(guān)鍵字序列的向量key[l..keynum]用順序查找或折半查找方法查找。若在某結(jié)點(diǎn)內(nèi)找到待查的關(guān)鍵字K,則返回該結(jié)點(diǎn)的地址及K在key[1..keynum]中的位置;否則,確定K在某個(gè)key[i]和key[i+1]之間結(jié)點(diǎn)后,從磁盤(pán)中讀指針?biāo)傅慕Y(jié)點(diǎn)繼續(xù)查找……。直到在某結(jié)點(diǎn)中查找成功;或直至找到葉結(jié)點(diǎn)且葉結(jié)點(diǎn)中的查找仍不成功時(shí),查找過(guò)程失敗。

第91頁(yè),共132頁(yè),2023年,2月20日,星期六5.2索引策略(B樹(shù)索引)5數(shù)據(jù)倉(cāng)庫(kù)物理模型B樹(shù)的使用條件和特點(diǎn)使用條件當(dāng)要求被索引的字段的值是唯一或者是接近唯一的時(shí)候查詢(xún)工作是從大表中選擇少數(shù)幾個(gè)數(shù)據(jù)記錄時(shí)。特點(diǎn)B樹(shù)快速索引性能是通過(guò)較大的代價(jià)換取的。通常為一個(gè)大表建立B樹(shù)索引需要大量的時(shí)間和磁盤(pán)空間B樹(shù)使用期間的維護(hù)工作量很大數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)定期追加,就需要做大量的索引工作如果系統(tǒng)的數(shù)據(jù)10%-15%發(fā)生了變化,就需要對(duì)B樹(shù)索引進(jìn)行重構(gòu)

第92頁(yè),共132頁(yè),2023年,2月20日,星期六5.3索引策略(位圖索引)5數(shù)據(jù)倉(cāng)庫(kù)物理模型位圖索引定義OLAP分析中,需要對(duì)大量數(shù)據(jù)進(jìn)行綜合性查詢(xún),而不是幾條記錄,這種情況下B樹(shù)索引就受到了很大限制。位圖索引是一種資源耗費(fèi)很小、對(duì)于多維查詢(xún)性能很好的索引方法。位圖索引是一組0和1字符,表中每一條記錄都被分配一個(gè)在位圖中的相對(duì)位置且給定一個(gè)值(0或者1)。位圖中每個(gè)比特對(duì)應(yīng)一條記錄,所以位圖索引占用的空間很小………………………………………11010………F…M…F…客戶(hù)性別第93頁(yè),共132頁(yè),2023年,2月20日,星期六5.3索引策略(位圖索引)5數(shù)據(jù)倉(cāng)庫(kù)物理模型位圖索引使用在位圖上運(yùn)用邏輯AND和OR可以非常迅速地得到多維查詢(xún)結(jié)果例如“通過(guò)貸款購(gòu)買(mǎi)汽車(chē)的男性客戶(hù)有哪些”,就可以在商品類(lèi)型、客戶(hù)性別、支付方式等字段上建立位圖索引,并在查詢(xún)中綜合使用。00010001101001100110……是否貸款是否購(gòu)車(chē)客戶(hù)性別ANDAND第94頁(yè),共132頁(yè),2023年,2月20日,星期六5.4索引策略(廣義索引)5數(shù)據(jù)倉(cāng)庫(kù)物理模型廣義索引廣義索引是在數(shù)據(jù)裝載的同時(shí)建立,它是一種元數(shù)據(jù)廣義索引涉及的是用戶(hù)最關(guān)心的問(wèn)題,需要在數(shù)據(jù)加載前進(jìn)行調(diào)查了解。比如使用頻率最高的10種藥物,使用頻率最低的藥物等。比較適合經(jīng)常性的查詢(xún),開(kāi)銷(xiāo)比較小第95頁(yè),共132頁(yè),2023年,2月20日,星期六5.5索引策略(連接索引)5數(shù)據(jù)倉(cāng)庫(kù)物理模型連接索引就是將事實(shí)表和維表中的索引項(xiàng)進(jìn)行連接運(yùn)算,然后將結(jié)果作為索引保留。如果對(duì)事實(shí)表和維表中的所有外鍵進(jìn)行連接運(yùn)算,將得到一個(gè)很大的表,這種索引稱(chēng)為全連接索引。但是在一般情況下,不一定對(duì)所有外鍵都進(jìn)行連接運(yùn)算,可根據(jù)需要使用部分外鍵,生成不同的連接索引在實(shí)際應(yīng)用中,通常先建立全連接索引,然后根據(jù)需要增加其他的連接索引。例子見(jiàn)下頁(yè)圖第96頁(yè),共132頁(yè),2023年,2月20日,星期六5.5索引策略(連接索引)5數(shù)據(jù)倉(cāng)庫(kù)物理模型第97頁(yè),共132頁(yè),2023年,2月20日,星期六5.6數(shù)據(jù)存儲(chǔ)策略5數(shù)據(jù)倉(cāng)庫(kù)物理模型數(shù)據(jù)存儲(chǔ)策略考慮因素?cái)?shù)據(jù)的重要程度粒度使用頻率響應(yīng)時(shí)間采取措施重要程度高、使用頻率高或?qū)憫?yīng)時(shí)間要求高的數(shù)據(jù)存放在高速存儲(chǔ)設(shè)備上存取頻率低或?qū)憫?yīng)時(shí)間要求低的數(shù)據(jù)存放在低速存儲(chǔ)設(shè)備上除此之外,還有以下策略

第98頁(yè),共132頁(yè),2023年,2月20日,星期六5.6數(shù)據(jù)存儲(chǔ)策略5數(shù)據(jù)倉(cāng)庫(kù)物理模型合并表例行分析處理時(shí),涉及的表存儲(chǔ)時(shí)放到一起,可大大減少磁頭定位時(shí)間,提高I/O效率這種將多個(gè)表中相互關(guān)聯(lián)的記錄相鄰存儲(chǔ)的方式稱(chēng)為合并表第99頁(yè),共132頁(yè),2023年,2月20日,星期六5.6數(shù)據(jù)存儲(chǔ)策略5數(shù)據(jù)倉(cāng)庫(kù)物理模型數(shù)據(jù)序列把經(jīng)常按照某一序列訪(fǎng)問(wèn)并處理的一組表存儲(chǔ)在一起可減少I(mǎi)/O次數(shù)第100頁(yè),共132頁(yè),2023年,2月20日,星期六5.6數(shù)據(jù)存儲(chǔ)策略5數(shù)據(jù)倉(cāng)庫(kù)物理模型按列存儲(chǔ)同一列數(shù)據(jù)相鄰存儲(chǔ)同一列數(shù)據(jù)具有相同的數(shù)據(jù)類(lèi)型,按列存儲(chǔ)有許多優(yōu)點(diǎn),如讀取方便、索引方便、統(tǒng)計(jì)方便等Sybase數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品是按照列來(lái)存儲(chǔ)的………5性寒38性平29性溫1劑量味性藥物ID性平性溫性寒…985…第101頁(yè),共132頁(yè),2023年,2月20日,星期六5.6數(shù)據(jù)存儲(chǔ)策略5數(shù)據(jù)倉(cāng)庫(kù)物理模型分割表存放在邏輯設(shè)計(jì)中對(duì)大表進(jìn)行分割,分割成多個(gè)小表,提高訪(fǎng)問(wèn)效率;在物理上采用分布式的存儲(chǔ),達(dá)到并行讀取的目的。第102頁(yè),共132頁(yè),2023年,2月20日,星期六5.7存儲(chǔ)分配優(yōu)化5數(shù)據(jù)倉(cāng)庫(kù)物理模型存儲(chǔ)分配優(yōu)化解決數(shù)據(jù)分塊大小、緩沖區(qū)單元大小和個(gè)數(shù)等問(wèn)題和系統(tǒng)配置相關(guān),數(shù)據(jù)倉(cāng)庫(kù)廠(chǎng)商會(huì)給出推薦配置設(shè)計(jì)人員在系統(tǒng)維護(hù)過(guò)程中根據(jù)實(shí)際情況來(lái)調(diào)整設(shè)置正確的塊大小一個(gè)文件包括很多塊,每個(gè)塊包括很多條記錄塊是數(shù)據(jù)庫(kù)的數(shù)據(jù)和內(nèi)存中間I/O傳輸?shù)幕締挝?。塊頭中存放記錄控制信息DBMS都有默認(rèn)塊大小,如2kb或者4kb增加塊的大小,則可以有更多的記錄放入一個(gè)塊中,一次可以讀入更多的記錄,減少讀操作的次數(shù)但是大塊當(dāng)即使需要很少的記錄時(shí),也要讀入很多記錄,影響了內(nèi)存管理第103頁(yè),共132頁(yè),2023年,2月20日,星期六5.7存儲(chǔ)分配優(yōu)化5數(shù)據(jù)倉(cāng)庫(kù)物理模型設(shè)置合適的塊使用參數(shù)塊空閑率DBMS為每個(gè)塊預(yù)留一部分空間,使塊中的記錄能夠擴(kuò)展比如塊空閑參數(shù)設(shè)置為20,表示每個(gè)塊的20%為記錄更新修改預(yù)留空間。當(dāng)預(yù)留空間已滿(mǎn)時(shí),DBMS需要找到一個(gè)新的擴(kuò)展區(qū)間,在工作中尋找新的區(qū)間成為動(dòng)態(tài)擴(kuò)展,動(dòng)態(tài)擴(kuò)展帶來(lái)了巨大的開(kāi)銷(xiāo)。分配較大的初始擴(kuò)展空間可以減少動(dòng)態(tài)擴(kuò)展數(shù)據(jù)倉(cāng)庫(kù)中,由于更新不多,主要是追加,這個(gè)參數(shù)設(shè)置的越小越好第104頁(yè),共132頁(yè),2023年,2月20日,星期六5.7存儲(chǔ)分配優(yōu)化5數(shù)據(jù)倉(cāng)庫(kù)物理模型設(shè)置合適的塊使用參數(shù)塊使用率它指定了一個(gè)界限,當(dāng)塊中已使用空間低于這個(gè)界限時(shí)才允許向該塊中插入新的數(shù)據(jù)行如該參數(shù)設(shè)置為40,表示當(dāng)從空間中刪除行時(shí),空間不能馬上被使用,只有當(dāng)已經(jīng)使用的空間降低到40%以下,空閑空間才可以使用。數(shù)據(jù)倉(cāng)庫(kù)中,很少刪除記錄,除非是將數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存入磁帶中,一般情況下,是將這個(gè)參數(shù)設(shè)置的越大越好。第105頁(yè),共132頁(yè),2023年,2月20日,星期六高層設(shè)計(jì)中層設(shè)計(jì)低層設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)生成6數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)步驟概述6.1數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的步驟第106頁(yè),共132頁(yè),2023年,2月20日,星期六高層設(shè)計(jì)主要考慮商業(yè)過(guò)程和商業(yè)需求的集成,將與目前商業(yè)過(guò)程有關(guān)的信息和數(shù)據(jù)倉(cāng)庫(kù)視圖實(shí)現(xiàn)的目標(biāo)合并在一起,創(chuàng)建信息包圖。工作確定系統(tǒng)邊界:決策類(lèi)型、需要的信息、原始信息確定主題域及其內(nèi)容:主題域的公共鍵碼、主題域之間的聯(lián)系、屬性組確定維度:如時(shí)間維、銷(xiāo)售位置維、產(chǎn)品維、組別維等確定級(jí)別:相應(yīng)維的詳細(xì)層次確定度量:也稱(chēng)指標(biāo)和事實(shí),用于進(jìn)行分析的數(shù)值化信息6高層設(shè)計(jì)(概念模型設(shè)計(jì))6.1數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的步驟第107頁(yè),共132頁(yè),2023年,2月20日,星期六創(chuàng)建信息包圖:確定涉及的主題域,例如:時(shí)間、顧客、地位置和產(chǎn)品。設(shè)計(jì)可以跟蹤的確定一個(gè)事件怎樣被完成和運(yùn)行的關(guān)鍵指標(biāo)。決定在給定的用戶(hù)分析或查詢(xún)中實(shí)際包含了多少數(shù)據(jù)。確定用戶(hù)如何按層次聚合數(shù)據(jù)和移動(dòng)數(shù)據(jù)。決定數(shù)據(jù)層次。估計(jì)數(shù)據(jù)倉(cāng)庫(kù)的大小。確定一個(gè)數(shù)據(jù)倉(cāng)庫(kù)里數(shù)據(jù)的更新頻率。定義如何訪(fǎng)問(wèn)數(shù)據(jù)。決定數(shù)據(jù)如何被傳遞給數(shù)據(jù)倉(cāng)庫(kù)的用戶(hù)。6高層設(shè)計(jì)(概念模型設(shè)計(jì))6.1數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的步驟第108頁(yè),共132頁(yè),2023年,2月20日,星期六中層設(shè)計(jì)建立數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型,對(duì)前期收集的信息的細(xì)化,將信息包圖轉(zhuǎn)換成星形模型。主要工作定義指標(biāo)實(shí)體。將信息包圖中的內(nèi)容放到星形圖中,每個(gè)信息包圖代表一個(gè)完整的星和信息包。維度實(shí)體在指標(biāo)實(shí)體中表示。定義維度實(shí)體。信息包圖中的每一個(gè)維度實(shí)體位于星形圖的星角上,它以維度表的形式存在。隨著維度實(shí)體在星形圖上的定位,進(jìn)一步定義它與指標(biāo)實(shí)體間的關(guān)系。定義詳細(xì)類(lèi)別實(shí)體。在一個(gè)簡(jiǎn)單的星形圖模型中,指標(biāo)實(shí)體被用于訪(fǎng)問(wèn)的維度實(shí)體包圍。但是在有的決策分析中僅僅知道指標(biāo)值是不夠的,需要定義詳細(xì)類(lèi)別實(shí)體,將星型圖模型轉(zhuǎn)換為雪花圖模型。設(shè)計(jì)成果適當(dāng)?shù)牧6葎澐趾侠淼臄?shù)據(jù)分割策略定義適當(dāng)?shù)臄?shù)據(jù)源如必要,添加導(dǎo)出字段6中層設(shè)計(jì)(邏輯模型設(shè)計(jì))6.3數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的步驟第109頁(yè),共132頁(yè),2023年,2月20日,星期六低層設(shè)計(jì)階段的任務(wù):建立數(shù)據(jù)倉(cāng)庫(kù)的物理模型,確定數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)結(jié)構(gòu)、數(shù)據(jù)的存儲(chǔ)位置和索引策略。設(shè)計(jì)人員需要了解和考慮的問(wèn)題:所選用的數(shù)據(jù)庫(kù)系統(tǒng),特別是存儲(chǔ)結(jié)構(gòu)和存取方法;數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻率、使用方式以及響應(yīng)時(shí)間;存儲(chǔ)設(shè)備的特性等。主要工作:確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)。不同的存儲(chǔ)結(jié)構(gòu)有不同的實(shí)現(xiàn)方式,應(yīng)綜合考慮存取時(shí)間、存取空間利用率和維護(hù)代價(jià)等因素,根據(jù)各種存儲(chǔ)結(jié)構(gòu)的優(yōu)缺點(diǎn)和適用范圍選擇合適的存儲(chǔ)結(jié)構(gòu)。確定數(shù)據(jù)的存儲(chǔ)位置。對(duì)數(shù)據(jù)按照其重要程度、使用頻率和對(duì)響應(yīng)時(shí)間的要求等進(jìn)行分類(lèi),并將不同類(lèi)別的數(shù)據(jù)存儲(chǔ)在不同的存儲(chǔ)設(shè)備中。設(shè)置存儲(chǔ)分配參數(shù),對(duì)塊的大小、緩沖區(qū)的大小和個(gè)數(shù)等進(jìn)行物理優(yōu)化處理。確定索引策略。通過(guò)對(duì)數(shù)據(jù)存取路徑的分析,為各個(gè)數(shù)據(jù)存儲(chǔ)建立專(zhuān)用的索引,以獲得存取的高效率。6低層設(shè)計(jì)(物理模型設(shè)計(jì))6.4數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的步驟第110頁(yè),共132頁(yè),2023年,2月20日,星期六設(shè)計(jì)接口從面向應(yīng)用和操作的環(huán)境生成完整的數(shù)據(jù)基于時(shí)間的數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)的聚合對(duì)記錄系統(tǒng)進(jìn)行掃描,以便追加數(shù)據(jù)數(shù)據(jù)裝入確定數(shù)據(jù)裝入的順序過(guò)濾無(wú)效或錯(cuò)誤數(shù)據(jù)數(shù)據(jù)老化數(shù)據(jù)粒度管理數(shù)據(jù)刷新6數(shù)據(jù)倉(cāng)庫(kù)生成6.5數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的步驟第111頁(yè),共132頁(yè),2023年,2月20日,星期六設(shè)計(jì)接口數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從數(shù)據(jù)庫(kù)系統(tǒng)中提取出來(lái)的,所以在需要在數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)之間建立一個(gè)接口。建立這種接口,并不是簡(jiǎn)單的編制一個(gè)提取程序。由于數(shù)據(jù)庫(kù)中的數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)有很大區(qū)別,所以在設(shè)計(jì)接口時(shí),除了提取外還要完成數(shù)據(jù)的凈化、集成等。接口應(yīng)包括轉(zhuǎn)換器、監(jiān)控器和集成器等,以完成對(duì)數(shù)據(jù)的提取、凈化和集成。6數(shù)據(jù)倉(cāng)庫(kù)生成6.5數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的步驟第112頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)的提取數(shù)據(jù)提取是數(shù)據(jù)倉(cāng)庫(kù)成功的關(guān)鍵。在提取過(guò)程中,為了支持實(shí)際應(yīng)用中的趨勢(shì)分析,它還必須對(duì)數(shù)據(jù)基于時(shí)間進(jìn)行轉(zhuǎn)換。在大多數(shù)情況下,把數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)變化提取出來(lái)是通過(guò)訪(fǎng)問(wèn)數(shù)據(jù)庫(kù)日志進(jìn)行的。在數(shù)據(jù)提取時(shí)應(yīng)考慮建立可靠的復(fù)制機(jī)制,使復(fù)制不受諸如系統(tǒng)失敗之類(lèi)問(wèn)題的影響,保證傳送符合數(shù)據(jù)完整性規(guī)則的一致數(shù)據(jù),并優(yōu)化傳送過(guò)程,減少在捕獲或修改數(shù)據(jù)和傳送復(fù)制結(jié)果之間的等待時(shí)間。復(fù)制機(jī)制包括數(shù)據(jù)發(fā)布器和數(shù)據(jù)閱讀器。數(shù)據(jù)發(fā)布器是原始的或控制的源,它控制了從企業(yè)內(nèi)部來(lái)的數(shù)據(jù)的捕獲和凈化;數(shù)據(jù)閱讀器是一種對(duì)數(shù)據(jù)訪(fǎng)問(wèn)的系統(tǒng)。6數(shù)據(jù)倉(cāng)庫(kù)生成6.5數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的步驟第113頁(yè),共132頁(yè),2023年,2月20日,星期六需求分析數(shù)據(jù)分析技術(shù)路線(xiàn)應(yīng)用分析數(shù)據(jù)倉(cāng)庫(kù)部署數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)運(yùn)行和維護(hù)7數(shù)據(jù)倉(cāng)庫(kù)建設(shè)過(guò)程概述7.1數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)過(guò)程第114頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目需求分析的特點(diǎn)需求比較模糊,需求分析過(guò)程貫穿整個(gè)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程中數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程中每一個(gè)階段的每一項(xiàng)任務(wù)都是由需求決定的設(shè)計(jì)階段的每一個(gè)決策,無(wú)論是數(shù)據(jù)設(shè)計(jì)、體系結(jié)構(gòu)設(shè)計(jì)、信息傳遞方法的安排,都受到需求的影響需求分析的內(nèi)容常見(jiàn)主題常見(jiàn)分析問(wèn)題數(shù)據(jù)源的數(shù)據(jù)庫(kù)類(lèi)型工作平臺(tái)數(shù)據(jù)量及其質(zhì)量數(shù)據(jù)倉(cāng)庫(kù)的建立環(huán)境網(wǎng)絡(luò)狀況各方面各層次人員對(duì)數(shù)據(jù)分析的需求等7需求分析7.2數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)過(guò)程第115頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目需求分析文檔組成緒論。闡述項(xiàng)目的目的和范圍,包括項(xiàng)目論證,文檔概要總體需求描述。闡述數(shù)據(jù)倉(cāng)庫(kù)中需要什么樣的數(shù)據(jù)具體需求。包括源數(shù)據(jù)的細(xì)節(jié),數(shù)據(jù)轉(zhuǎn)換和存儲(chǔ)需求,描述用戶(hù)需要的各類(lèi)信息傳遞方法指標(biāo)和維度。包括重要的指標(biāo)和事實(shí),以及分析這些指標(biāo)所用的維度其他需求。數(shù)據(jù)抽取頻率、數(shù)據(jù)載入方法等用戶(hù)期望。說(shuō)明用戶(hù)期望如何使用數(shù)據(jù)倉(cāng)庫(kù)用戶(hù)參與。列出用戶(hù)在開(kāi)發(fā)周期中希望參與的任務(wù)和活動(dòng)實(shí)施計(jì)劃。給出一個(gè)合理的數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目實(shí)施計(jì)劃7需求分析7.2數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)過(guò)程第116頁(yè),共132頁(yè),2023年,2月20日,星期六數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)分析(即數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)步驟的內(nèi)容)概念模型設(shè)計(jì)邏輯模型設(shè)計(jì)物理模型設(shè)計(jì)數(shù)據(jù)裝載接口設(shè)計(jì)7數(shù)據(jù)分析7.3數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)過(guò)程第117頁(yè),共132頁(yè),2023年,2月20日,星期六技術(shù)路線(xiàn)主要內(nèi)容技術(shù)路線(xiàn)主要確定數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)構(gòu)造,包括服務(wù)器硬件、操作系統(tǒng)、網(wǎng)絡(luò)軟件、數(shù)據(jù)庫(kù)軟件、局域網(wǎng)和廣域網(wǎng)、供應(yīng)商提供的工具、人員、工作步驟和培訓(xùn)等。操作型基礎(chǔ)構(gòu)造包括人員、流程、培訓(xùn)和管理軟件,是維持?jǐn)?shù)據(jù)倉(cāng)庫(kù)所需要的,它們支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的管理工作并保持它的工作效率物理基礎(chǔ)構(gòu)造計(jì)算機(jī)平臺(tái)工具7技術(shù)路線(xiàn)7.4數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)過(guò)程第118頁(yè),共132頁(yè),2023年,2月20日,星期六計(jì)算機(jī)平臺(tái)硬件和操作系統(tǒng)硬件:選型時(shí)考慮可擴(kuò)展性、供應(yīng)商的支持和穩(wěn)定性操作系統(tǒng):與硬件相容,選型時(shí)考慮可擴(kuò)展性、安全性、可靠性、內(nèi)存管理和保護(hù)服務(wù)器硬件方案數(shù)據(jù)倉(cāng)庫(kù)用戶(hù)數(shù)量和查詢(xún)數(shù)量都會(huì)大幅度增加數(shù)據(jù)載入工作也急劇增多可擴(kuò)展性和查詢(xún)性能優(yōu)化是服務(wù)器硬件選擇的兩個(gè)關(guān)鍵因素主要的服務(wù)器硬件結(jié)構(gòu),SMP(對(duì)稱(chēng)多處理機(jī)結(jié)構(gòu)),群集,MPP(大規(guī)模并行處理),NUMA(一致高速緩存的不均勻內(nèi)存體系結(jié)構(gòu))7技術(shù)路線(xiàn)7.4數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)過(guò)程第119頁(yè),共132頁(yè),2023年,2月20日,星期六S

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論