




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)倉(cāng)庫(kù)DataWarehouse
趙衛(wèi)東博士
復(fù)旦大學(xué)軟件學(xué)院
1事務(wù)型處理事務(wù)型處理:即操作型處理,是指對(duì)數(shù)據(jù)庫(kù)的聯(lián)機(jī)操作處理OLTP。事務(wù)型處理是用來(lái)協(xié)助企業(yè)對(duì)響應(yīng)事件或事務(wù)的日常商務(wù)活動(dòng)進(jìn)行處理。它是事件驅(qū)動(dòng)、面向應(yīng)用的,通常是對(duì)一個(gè)或一組記錄的增、刪、改以及簡(jiǎn)單查詢等(大量、簡(jiǎn)單、重復(fù)和例行性)。在事務(wù)型處理環(huán)境中,數(shù)據(jù)庫(kù)要求能支持日常事務(wù)中的大量事務(wù),用戶對(duì)數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短。2分析型處理分析型處理:用于管理人員的決策分析,例如DSS、EIS和多維分析等。它幫助決策者分析數(shù)據(jù)以察看趨向、判斷問題。分析型處理經(jīng)常要訪問大量的歷史數(shù)據(jù),支持復(fù)雜的查詢。分析型處理過程中經(jīng)常用到外部數(shù)據(jù),這部分?jǐn)?shù)據(jù)不是由事務(wù)型處理系統(tǒng)產(chǎn)生的,而是來(lái)自于其他外部數(shù)據(jù)源。3事務(wù)型處理數(shù)據(jù)和分析型處理數(shù)據(jù)的區(qū)別特性O(shè)LTPOLAP特征面向用戶功能DB設(shè)計(jì)數(shù)據(jù)匯總視圖工作單位存取關(guān)注操作訪問記錄數(shù)用戶數(shù)DB規(guī)模優(yōu)先度量操作處理事務(wù)辦事員、DBA、數(shù)據(jù)庫(kù)專業(yè)人員日常操作基于E-R,面向應(yīng)用當(dāng)前的;確保最新原始的,高度詳細(xì)詳細(xì),一般關(guān)系短的、簡(jiǎn)單事務(wù)讀/寫數(shù)據(jù)進(jìn)入主關(guān)鍵字上索引/散列數(shù)十個(gè)數(shù)千100MB到GB高性能,高可用性事務(wù)吞吐量信息處理分析知識(shí)工人(如經(jīng)理、主管、分析員)長(zhǎng)期信息需求,決策支持星形/雪花,面向主題歷史的;跨時(shí)間維護(hù)匯總的,統(tǒng)一的匯總的,多維的復(fù)雜查詢大多為讀信息輸出大量掃描數(shù)百萬(wàn)數(shù)百100GB到TB高靈活性,端點(diǎn)用戶自治查詢吞吐量,響應(yīng)時(shí)間4數(shù)據(jù)庫(kù)系統(tǒng)的局限性數(shù)據(jù)庫(kù)適于存儲(chǔ)高度結(jié)構(gòu)化的日常事務(wù)細(xì)節(jié)數(shù)據(jù),而決策型數(shù)據(jù)多為歷史性、匯總性或計(jì)算性數(shù)據(jù),多表現(xiàn)為靜態(tài)數(shù)據(jù),不需直接更新,但可周期性刷新。決策分析型數(shù)據(jù)是多維性,分析內(nèi)容復(fù)雜。在事務(wù)處理環(huán)境中,決策者可能并不關(guān)心具體的細(xì)節(jié)信息,在決策分析環(huán)境中,如果這些細(xì)節(jié)數(shù)據(jù)量太大一方面會(huì)嚴(yán)重影響分析效率,另一方面這些細(xì)節(jié)數(shù)據(jù)會(huì)分散決策者的注意力。DB2OracleSQLServerExcelspreadsheetXMLdocumentInternetSSLclientapplicationsBrowsersDatamanagementlayerApplicationlayerWebservers5數(shù)據(jù)庫(kù)系統(tǒng)的局限性(續(xù))當(dāng)事務(wù)型處理環(huán)境和分析型處理環(huán)境在同一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)中,事務(wù)型處理對(duì)數(shù)據(jù)的存取操作頻率高,操作處理的時(shí)間短,而分析型處理可能需要連續(xù)運(yùn)行幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。決策型分析數(shù)據(jù)的數(shù)據(jù)量大,這些數(shù)據(jù)有來(lái)自企業(yè)內(nèi)部的,也有來(lái)自企業(yè)外部的。來(lái)自企業(yè)外部的數(shù)據(jù)又可能來(lái)自不同的數(shù)據(jù)庫(kù)系統(tǒng),在分析時(shí)如果直接對(duì)這些數(shù)據(jù)操作會(huì)造成分析的混亂。對(duì)于外部數(shù)據(jù)中的一些非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)庫(kù)系統(tǒng)常常是無(wú)能為力。6多庫(kù)系統(tǒng)的限制可用性:源站點(diǎn)或通信網(wǎng)絡(luò)故障將導(dǎo)致系統(tǒng)癱瘓,源站點(diǎn)不能通過網(wǎng)絡(luò)在線聯(lián)入多庫(kù)系統(tǒng)。響應(yīng)速度:全局查詢多級(jí)轉(zhuǎn)換和通信傳輸,延遲和低層效率影響響應(yīng)速度。系統(tǒng)性能:總體性能取決于源站點(diǎn)中性能最低的系統(tǒng),影響系統(tǒng)性能的發(fā)揮;系統(tǒng)開銷:每次查詢要啟動(dòng)多個(gè)局部系統(tǒng),通信和運(yùn)行開銷大。7實(shí)施數(shù)據(jù)倉(cāng)庫(kù)的條件數(shù)據(jù)積累已達(dá)到一定規(guī)模面臨激烈的市場(chǎng)競(jìng)爭(zhēng)在IT方面的資金能得到保障
8數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展自從NCR公司為WalMart建立了第一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。1996年,加拿大的IDC公司調(diào)查了62家實(shí)現(xiàn)了數(shù)據(jù)倉(cāng)庫(kù)的歐美企業(yè),結(jié)果表明:數(shù)據(jù)倉(cāng)庫(kù)為企業(yè)提供了巨大的收益。早期的數(shù)據(jù)倉(cāng)庫(kù)大都采用當(dāng)時(shí)流行的客戶/服務(wù)器結(jié)構(gòu)。近年來(lái)分布式對(duì)象技術(shù)飛速發(fā)展,整個(gè)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)從功能上劃分為若干個(gè)分布式對(duì)象,這些分布式對(duì)象不僅可以直接用于建立數(shù)據(jù)倉(cāng)庫(kù),還可以在應(yīng)用程序中向用戶提供調(diào)用的接口。IBM的實(shí)驗(yàn)室在數(shù)據(jù)倉(cāng)庫(kù)方面已經(jīng)進(jìn)行了10多年的研究,并將研究成果發(fā)展成為商用產(chǎn)品。其他數(shù)據(jù)庫(kù)廠商在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域也紛紛提出了各自的解決方案。9數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)數(shù)據(jù)倉(cāng)庫(kù)用來(lái)保存從多個(gè)數(shù)據(jù)庫(kù)或其它信息源選取的數(shù)據(jù),并為上層應(yīng)用提供統(tǒng)一用戶接口,完成數(shù)據(jù)查詢和分析。支持整個(gè)企業(yè)范圍的主要業(yè)務(wù)來(lái)建立的,主要特點(diǎn)是,包含大量面向整個(gè)企業(yè)的綜合信息及導(dǎo)出信息。數(shù)據(jù)倉(cāng)庫(kù)是作為DSS服務(wù)基礎(chǔ)的分析型DB,用來(lái)存放大容量的只讀數(shù)據(jù),為制定決策提供所需要的信息。數(shù)據(jù)倉(cāng)庫(kù)是與操作型系統(tǒng)相分離的、基于標(biāo)準(zhǔn)企業(yè)模型集成的、帶有時(shí)間屬性的、面向主題及不可更新的數(shù)據(jù)集合。以1992年WHInmon出版《BuildingtheDataWarehouse》為標(biāo)志,數(shù)據(jù)倉(cāng)庫(kù)發(fā)展速度很快。WHInmon被譽(yù)為數(shù)據(jù)倉(cāng)庫(kù)之父。WHInmon對(duì)數(shù)據(jù)倉(cāng)庫(kù)所下的定義:數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合,用以支持管理決策的過程。10面向主題數(shù)據(jù)倉(cāng)庫(kù)中中的數(shù)據(jù)是是按照各種種主題來(lái)組組織的。主主題在數(shù)據(jù)據(jù)倉(cāng)庫(kù)中的的物理實(shí)現(xiàn)現(xiàn)是一系列列的相關(guān)表表,這不同同于面向應(yīng)應(yīng)用環(huán)境。。如保險(xiǎn)公公司按照應(yīng)應(yīng)用組織可可能是汽車車保險(xiǎn)、生生命保險(xiǎn)、、傷亡保險(xiǎn)險(xiǎn),而數(shù)據(jù)據(jù)倉(cāng)庫(kù)是按按照客戶、、政策、保保險(xiǎn)金和索索賠來(lái)組織織數(shù)據(jù)。面向主題的的數(shù)據(jù)組織織方式可在在較高層次次上對(duì)分析析對(duì)象的數(shù)數(shù)據(jù)給出完完整、一致致的描述,,能完整、、統(tǒng)一的刻刻畫各個(gè)分分析對(duì)象所所涉及的企企業(yè)的各項(xiàng)項(xiàng)數(shù)據(jù)以及及數(shù)據(jù)之間間的聯(lián)系,,從而適應(yīng)應(yīng)企業(yè)各個(gè)個(gè)部門的業(yè)業(yè)務(wù)活動(dòng)特特點(diǎn)和企業(yè)業(yè)數(shù)據(jù)的動(dòng)動(dòng)態(tài)特征,,從根本上上實(shí)現(xiàn)數(shù)據(jù)據(jù)與應(yīng)用的的分離。11集成性數(shù)據(jù)倉(cāng)庫(kù)中中的數(shù)據(jù)是是從原有分分散的源數(shù)數(shù)據(jù)庫(kù)中提提取出來(lái)的的,其每一一個(gè)主題所所對(duì)應(yīng)的源源數(shù)據(jù)在原原有的數(shù)據(jù)據(jù)庫(kù)中有許許多冗余和和不一致,,且與不同同的應(yīng)用邏邏輯相關(guān)。。為了創(chuàng)建建一個(gè)有效效的主題域域,必須將將這些來(lái)自自不同數(shù)據(jù)據(jù)源的數(shù)據(jù)據(jù)集成起來(lái)來(lái),使之遵遵循統(tǒng)一的的編碼規(guī)則則。12穩(wěn)定性數(shù)據(jù)倉(cāng)庫(kù)內(nèi)內(nèi)的數(shù)據(jù)有有很長(zhǎng)的時(shí)時(shí)間跨度,,通常是5-10年年。數(shù)據(jù)倉(cāng)庫(kù)中中的數(shù)據(jù)反反映的是一一段時(shí)間內(nèi)內(nèi)歷史數(shù)據(jù)據(jù)的內(nèi)容,,是不同時(shí)時(shí)點(diǎn)的數(shù)據(jù)據(jù)庫(kù)快照的的集合,以以及基于撰撰寫快照進(jìn)進(jìn)行統(tǒng)計(jì)、、綜合和重重組的導(dǎo)出出數(shù)據(jù)。主主要供企業(yè)業(yè)高層決策策分析之用用,所涉及及的數(shù)據(jù)操操作主要是是查詢,一一般情況下下并不進(jìn)行行修改操作作.數(shù)據(jù)倉(cāng)庫(kù)中中的數(shù)據(jù)是是不可實(shí)時(shí)時(shí)更新的,,僅當(dāng)超過過規(guī)定的存存儲(chǔ)期限,,才將其從從數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中刪除,,提取新的的數(shù)據(jù)經(jīng)集集成后輸入入數(shù)據(jù)倉(cāng)庫(kù)庫(kù)。13時(shí)變性時(shí)變性:許許多商業(yè)分分析要求對(duì)對(duì)發(fā)展趨勢(shì)勢(shì)做出預(yù)測(cè)測(cè),對(duì)發(fā)展展趨勢(shì)的分分析需要訪訪問歷史數(shù)數(shù)據(jù)。因此此數(shù)據(jù)倉(cāng)庫(kù)庫(kù)必須不斷斷捕捉OLTP數(shù)據(jù)據(jù)庫(kù)中變化化的數(shù)據(jù),,生成數(shù)據(jù)據(jù)庫(kù)的快照照,經(jīng)集成成后增加到到數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中去;另另外數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)還需要要隨時(shí)間的的變化刪去去過期的、、對(duì)分析沒沒有幫助的的數(shù)據(jù),并并且還需要要按規(guī)定的的時(shí)間段增增加綜合數(shù)數(shù)據(jù)。14支持管理決決策數(shù)據(jù)倉(cāng)庫(kù)支支持OLAP(聯(lián)機(jī)機(jī)分析處理理)、數(shù)據(jù)據(jù)挖掘和決決策分析。。OLAP從數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中的綜綜合數(shù)據(jù)出出發(fā),提供供面向分析析的多維模模型,并使使用多維分分析的方法法從多個(gè)角角度、多個(gè)個(gè)層次對(duì)多多維數(shù)據(jù)進(jìn)進(jìn)行分析,,使決策者者能夠以更更加自然的的方式來(lái)分分析數(shù)據(jù)。。數(shù)據(jù)挖掘掘則以數(shù)據(jù)據(jù)倉(cāng)庫(kù)和多多維數(shù)據(jù)庫(kù)庫(kù)中的數(shù)據(jù)據(jù)為基礎(chǔ),,發(fā)現(xiàn)數(shù)據(jù)據(jù)中的潛在在模式和進(jìn)進(jìn)行預(yù)測(cè)。。因此,數(shù)數(shù)據(jù)倉(cāng)庫(kù)的的功能是支支持管理層層進(jìn)行科學(xué)學(xué)決策,而而不是事務(wù)務(wù)處理。15BI系統(tǒng)VS決策盲盲點(diǎn)某大型國(guó)有有企業(yè)老總總當(dāng)他查看看近十年企企業(yè)的生產(chǎn)產(chǎn)和運(yùn)營(yíng)數(shù)數(shù)據(jù)時(shí),手手邊得到了了各種各樣樣不同的數(shù)數(shù)據(jù)報(bào)表。。這些數(shù)據(jù)據(jù)報(bào)表大致致可以分成成兩種類型型:一種是是兩年前、、即ERP上線之前的的,這是一一些簡(jiǎn)單、、雜亂而又又枯燥的數(shù)數(shù)字;另一一種是有了了ERP以后的,數(shù)數(shù)據(jù)變得清清楚而有條條理起來(lái),,同時(shí)還有有來(lái)自ERP、CRM、SCM以及計(jì)費(fèi)業(yè)業(yè)務(wù)等不同同應(yīng)用的數(shù)數(shù)據(jù)和各種種分析報(bào)告告。在仔細(xì)細(xì)查看這些些報(bào)表之后后,這位國(guó)國(guó)企老總驚驚訝地發(fā)現(xiàn)現(xiàn),不同的的系統(tǒng)可以以得出截然然相反的兩兩種結(jié)論。。例如某一一產(chǎn)品,它它的動(dòng)態(tài)成成本反映在在ERP系統(tǒng)和CRM、SCM系統(tǒng)里面相相差很大,,如果引用用ERP和CRM里面的數(shù)據(jù)據(jù),它就是是一款很成成功、銷量量很好的產(chǎn)產(chǎn)品,但在在SCM里面來(lái)看,,它的采購(gòu)購(gòu)和物流成成本過高,,導(dǎo)致了這這款看起來(lái)來(lái)很成功的的產(chǎn)品實(shí)際際上是一筆筆賠錢的買買賣。16BI系統(tǒng)VS決策盲盲點(diǎn)(續(xù))其實(shí)從這些些來(lái)自不同同系統(tǒng)的數(shù)數(shù)據(jù)基礎(chǔ)產(chǎn)產(chǎn)生不同的的判斷很正正常,因?yàn)闉檫@些系統(tǒng)統(tǒng)并不會(huì)去去周密地““思考”在在自己“職職責(zé)”之外外的事情。。這樣就給給企業(yè)的領(lǐng)領(lǐng)導(dǎo)提交了了相當(dāng)多顧顧此失彼的的分析報(bào)告告,結(jié)果就就是導(dǎo)致了了許多市場(chǎng)場(chǎng)決策上的的混亂和失失誤。把企業(yè)的內(nèi)內(nèi)部數(shù)據(jù)和和外部數(shù)據(jù)據(jù)(企業(yè)內(nèi)內(nèi)部數(shù)據(jù)就就是指上述述通過業(yè)務(wù)務(wù)系統(tǒng)SCM、ERP、CRM等收集到的的數(shù)據(jù),這這些數(shù)據(jù)可可能在不同同的硬件、、數(shù)據(jù)庫(kù)、、網(wǎng)絡(luò)環(huán)境境中,為不不同的業(yè)務(wù)務(wù)部門服務(wù)務(wù)。外部數(shù)數(shù)據(jù)是市場(chǎng)場(chǎng)信息和外外部競(jìng)爭(zhēng)對(duì)對(duì)手的信息息)。進(jìn)行行有效的集集成,形成成直觀的、、易于理解解的信息,,再進(jìn)行分分析和思考考,為企業(yè)業(yè)的各層決決策及分析析人員使用用。17數(shù)據(jù)倉(cāng)庫(kù)的的技術(shù)要求求復(fù)雜分析的的高性能體體現(xiàn):涉及及大量數(shù)據(jù)據(jù)的聚集、、綜合等,,在進(jìn)行復(fù)復(fù)雜查詢時(shí)時(shí)經(jīng)常會(huì)使使用多表的的聯(lián)接、累累計(jì)、分類類、排序等等操作。對(duì)提取出來(lái)來(lái)的數(shù)據(jù)進(jìn)進(jìn)行集成::數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中的數(shù)據(jù)據(jù)是從多個(gè)個(gè)應(yīng)用領(lǐng)域域中提取出出來(lái)的,在在不同的應(yīng)應(yīng)用領(lǐng)域和和不同的數(shù)數(shù)據(jù)庫(kù)系統(tǒng)統(tǒng)中都有不不同的結(jié)構(gòu)構(gòu)和形式,,所以如何何對(duì)數(shù)據(jù)進(jìn)進(jìn)行集成也也是構(gòu)建數(shù)數(shù)據(jù)倉(cāng)庫(kù)的的一個(gè)重要要方面。對(duì)進(jìn)行高層層決策的最最終用戶的的界面支持持:提供各各種分析應(yīng)應(yīng)用工具。。18數(shù)據(jù)倉(cāng)庫(kù)系系統(tǒng)的結(jié)構(gòu)構(gòu)19數(shù)據(jù)倉(cāng)庫(kù)系系統(tǒng)的結(jié)構(gòu)構(gòu)(2)20數(shù)據(jù)倉(cāng)庫(kù)系系統(tǒng)的結(jié)構(gòu)構(gòu)(3)21數(shù)據(jù)倉(cāng)庫(kù)流流程22TivoliStorageManagerFileEditViewHelpToolsBackForwardStopHomeSearchRefreshxHistoryMailPrintAddress:http://my_InternetWelcome
CarolJonesCustomizeHomePageEditLogoutx!!!!MyWeatherclickoncityforextendedforecastorsearchbycityorzipcodeParisNewYork73F91FgetforecastPastDueServiceRequestsSalescostanalysis20000150001000050002Q003Q004Q001Q01Centralnextprior?BancoAzul-Today'sNewsCorporateNewsCompetitorNewsCEOChristophDermondcommentsonstocksplitMinimizingriskinB2BrelationsSpecialemployeecreditoffersNewPrivacyExecutivePostnamedSomeCotalkswithEvilEmpireBanksparksmergerrumorsToughColosesfightwithBancoAzulfor$821MindustrialloanAsianinvasionintoretailsecuritiesBancoAzul07/02/200119:29:20WPSv1.2-TheCuttingEdgeWebSpherePortalServerContentManagerFederatedSearchKPIsIntelligentMinerQMF,BO,Brio,etc.DB2OLAPDB2DB2DataWarehousevirtualtablesReports&ContentMartsIBMIBMDB2WarehouseManagerProductiondatasourcePurchasedDataERP,CRM,SCM,datasourcesRedBrickIBM信信息分析框框架23數(shù)據(jù)倉(cāng)庫(kù)系系統(tǒng)的組成成(1)源數(shù)據(jù):數(shù)數(shù)據(jù)倉(cāng)庫(kù)中中的數(shù)據(jù)來(lái)來(lái)源于多個(gè)個(gè)數(shù)據(jù)源,,它不僅可可以是企業(yè)業(yè)內(nèi)部的關(guān)關(guān)系型數(shù)據(jù)據(jù)庫(kù),還包包括非傳統(tǒng)統(tǒng)數(shù)據(jù),如如文件、HTML文文檔等。數(shù)據(jù)倉(cāng)庫(kù)管管理系統(tǒng)::元數(shù)據(jù)庫(kù)及及元數(shù)據(jù)管管理部件::元數(shù)據(jù)庫(kù)庫(kù)用來(lái)存儲(chǔ)儲(chǔ)由定義部部件生成的的關(guān)于源數(shù)數(shù)據(jù)、目標(biāo)標(biāo)數(shù)據(jù)、提提取規(guī)則、、轉(zhuǎn)換規(guī)則則以及源數(shù)數(shù)據(jù)與數(shù)據(jù)據(jù)倉(cāng)庫(kù)之間間的映射信信息等。數(shù)據(jù)轉(zhuǎn)換部部件:該部部件把數(shù)據(jù)據(jù)從源數(shù)據(jù)據(jù)中提取出出來(lái),依定定義部件的的規(guī)則將不不同數(shù)據(jù)格格式的源數(shù)數(shù)據(jù)轉(zhuǎn)換成成數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的數(shù)據(jù)格格式并裝載載進(jìn)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)。數(shù)據(jù)集成部部件:該部部件根據(jù)定定義部件的的規(guī)則、統(tǒng)統(tǒng)一各源數(shù)數(shù)據(jù)的編碼碼規(guī)則,并并凈化數(shù)據(jù)據(jù),根據(jù)元元數(shù)據(jù)中定定義的數(shù)據(jù)據(jù)組織形式式對(duì)數(shù)據(jù)進(jìn)進(jìn)行匯總、、聚合計(jì)算算。數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)管管理理部部件件::它它主主要要用用于于維維護(hù)護(hù)數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)中中的的數(shù)數(shù)據(jù)據(jù),,備備份份、、恢恢復(fù)復(fù)數(shù)數(shù)據(jù)據(jù)以以及及管管理理數(shù)數(shù)據(jù)據(jù)的的安安全全權(quán)權(quán)限限問問題題。。24數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)系系統(tǒng)統(tǒng)的的組組成成((2))數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)前前端端工工具具集集查詢?cè)?報(bào)報(bào)表表工工具具::以以圖圖形形化化方方式式和和報(bào)報(bào)表表方方式式顯顯示示數(shù)數(shù)據(jù)據(jù),,幫幫助助了了解解數(shù)數(shù)據(jù)據(jù)的的結(jié)結(jié)構(gòu)構(gòu)、、關(guān)關(guān)系系以以及及動(dòng)動(dòng)態(tài)態(tài)性性。。OLAP工工具具::通通過過對(duì)對(duì)信信息息的的多多種種可可能能的的觀觀察察形形式式進(jìn)進(jìn)行行快快速速、、一一致致和和交交互互性性的的存存取取,,便便于于用用戶戶對(duì)對(duì)數(shù)數(shù)據(jù)據(jù)進(jìn)進(jìn)行行深深入入的的分分析析和和觀觀察察。。數(shù)據(jù)據(jù)挖挖掘掘工工具具::從從大大量量數(shù)數(shù)據(jù)據(jù)中中挖挖掘掘出出具具有有規(guī)規(guī)律律性性的的知知識(shí)識(shí),,以以及及數(shù)數(shù)據(jù)據(jù)之之間間的的內(nèi)內(nèi)在在聯(lián)聯(lián)系系。。前端端開開發(fā)發(fā)工工具具::提提供供用用戶戶編編程程接接口口,,便便于于在在現(xiàn)現(xiàn)有有系系統(tǒng)統(tǒng)的的基基礎(chǔ)礎(chǔ)上上進(jìn)進(jìn)行行二二次次開開發(fā)發(fā),,增增強(qiáng)強(qiáng)系系統(tǒng)統(tǒng)的的伸伸縮縮性性。。數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù):在在數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)系系統(tǒng)統(tǒng)中中,,數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)是是一一個(gè)個(gè)數(shù)數(shù)據(jù)據(jù)存存儲(chǔ)儲(chǔ)集集合合,,它它的的存存儲(chǔ)儲(chǔ)形形式式通通常常有有多多維維數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù),,關(guān)關(guān)系系型型數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)及及其其他他存存儲(chǔ)儲(chǔ)方方式式。。25數(shù)據(jù)據(jù)轉(zhuǎn)轉(zhuǎn)換換統(tǒng)一一數(shù)數(shù)據(jù)據(jù)編編碼碼::數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)中中的的數(shù)數(shù)據(jù)據(jù)從從各各個(gè)個(gè)數(shù)數(shù)據(jù)據(jù)源源提提取取出出來(lái)來(lái)的的,,盡盡管管經(jīng)經(jīng)過過轉(zhuǎn)轉(zhuǎn)換換后后數(shù)數(shù)據(jù)據(jù)格格式式已已經(jīng)經(jīng)統(tǒng)統(tǒng)一一,,但但數(shù)數(shù)據(jù)據(jù)的的編編碼碼、、描描述述在在各各個(gè)個(gè)源源系系統(tǒng)統(tǒng)中中都都有有很很大大的的區(qū)區(qū)別別。。為為了了改改進(jìn)進(jìn)數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)中中數(shù)數(shù)據(jù)據(jù)質(zhì)質(zhì)量量,,提提高高數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)中中數(shù)數(shù)據(jù)據(jù)的的可可用用性性,,必必須須統(tǒng)統(tǒng)一一數(shù)數(shù)據(jù)據(jù)編編碼碼。。本本系系統(tǒng)統(tǒng)中中編編碼碼轉(zhuǎn)轉(zhuǎn)換換主主要要包包括括::日期期格格式式轉(zhuǎn)轉(zhuǎn)換換::大大多多數(shù)數(shù)業(yè)業(yè)務(wù)務(wù)環(huán)環(huán)境境中中有有許許多多不不同同的的日日期期和和時(shí)時(shí)間間類類型型,,所所以以,,幾幾乎乎每每個(gè)個(gè)數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)的的實(shí)實(shí)現(xiàn)現(xiàn)都都必必須須將將日日期期和和時(shí)時(shí)間間變變換換成成標(biāo)標(biāo)準(zhǔn)準(zhǔn)的的數(shù)數(shù)據(jù)據(jù)格格式式。。數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)必必須須用用單單一一的的模模式式規(guī)規(guī)定定日日期期和和時(shí)時(shí)間間信信息息。。測(cè)量量單單位位的的轉(zhuǎn)轉(zhuǎn)換換::數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)中中對(duì)對(duì)于于數(shù)數(shù)值值型型字字段段應(yīng)應(yīng)保保持持一一致致的的單單位位。。在在元元數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)中中創(chuàng)創(chuàng)建建表表Units和和UnitTypes來(lái)來(lái)表表示示各各種種單單位位的的換換算算關(guān)關(guān)系系。。表表UnitTypes記記錄錄了了數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)系系統(tǒng)統(tǒng)中中的的單單位位類類型型,,初初始始元元數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)中中共共分分六六種種單單位位類類型型::時(shí)時(shí)間間單單位位、、貨貨幣幣單單位位、、重重量量單單位位、、長(zhǎng)長(zhǎng)度度單單位位、、面面積積單單位位、、體體積積單單位位。。在在表表Units中中記記錄錄了了單單位位名名、、單單位位類類型型以以及及同同類類型型單單位位之之間間的的相相互互轉(zhuǎn)轉(zhuǎn)換換關(guān)關(guān)系系。。26轉(zhuǎn)換換器器的的設(shè)設(shè)計(jì)計(jì)與與實(shí)實(shí)現(xiàn)現(xiàn)轉(zhuǎn)換換器器的的功功能能::數(shù)數(shù)據(jù)據(jù)結(jié)結(jié)構(gòu)構(gòu)轉(zhuǎn)轉(zhuǎn)換換和和數(shù)數(shù)據(jù)據(jù)類類型型轉(zhuǎn)轉(zhuǎn)換換。。從數(shù)數(shù)據(jù)據(jù)源源中中提提取取數(shù)數(shù)據(jù)據(jù)并并轉(zhuǎn)轉(zhuǎn)換換格格式式的的過過程程::先先將將各各類類數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)系系統(tǒng)統(tǒng)中中不不同同格格式式的的數(shù)數(shù)據(jù)據(jù)轉(zhuǎn)轉(zhuǎn)換換成成文文本本文文件件,,然然后后再再利利用用批批拷拷貝貝命命令令將將數(shù)數(shù)據(jù)據(jù)導(dǎo)導(dǎo)入入目目標(biāo)標(biāo)系系統(tǒng)統(tǒng)中中。。以以使使數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)獲獲得得新新的的數(shù)數(shù)據(jù)據(jù)提提供供決決策策分分析析使使用用。。數(shù)據(jù)據(jù)準(zhǔn)準(zhǔn)備備區(qū)區(qū)的的使使用用::首首先先從從源源數(shù)數(shù)據(jù)據(jù)中中提提取取數(shù)數(shù)據(jù)據(jù),,轉(zhuǎn)轉(zhuǎn)換換成成數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)所所要要求求的的格格式式后后存存儲(chǔ)儲(chǔ)在在數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)的的一一個(gè)個(gè)稱稱為為數(shù)數(shù)據(jù)據(jù)準(zhǔn)準(zhǔn)備備區(qū)區(qū)的的緩緩沖沖區(qū)區(qū)中中。。在在該該區(qū)區(qū)域域中中,,可可以以暫暫時(shí)時(shí)存存儲(chǔ)儲(chǔ)原原始始數(shù)數(shù)據(jù)據(jù),,然然后后由由集集成成器器對(duì)對(duì)數(shù)數(shù)據(jù)據(jù)進(jìn)進(jìn)行行清清理理、、集集成成后后再再裝裝載載到到數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)中中。。源數(shù)據(jù)數(shù)據(jù)準(zhǔn)備區(qū)數(shù)據(jù)倉(cāng)庫(kù)27數(shù)據(jù)據(jù)凈凈化化當(dāng)數(shù)數(shù)據(jù)據(jù)從從源源數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)中中提提取取到到數(shù)數(shù)據(jù)據(jù)準(zhǔn)準(zhǔn)備備區(qū)區(qū)后后,,必必須須先先進(jìn)進(jìn)行行數(shù)數(shù)據(jù)據(jù)凈凈化化才才可可以以裝裝載載到到數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)中中去去。。數(shù)數(shù)據(jù)據(jù)凈凈化化主主要要指指對(duì)對(duì)數(shù)數(shù)據(jù)據(jù)字字段段的的有有效效值值檢檢驗(yàn)驗(yàn)。。有有效效值值的的檢檢驗(yàn)驗(yàn)通通常常包包括括::范范圍圍檢檢驗(yàn)驗(yàn)、、枚枚舉舉字字段段取取值值和和相相關(guān)關(guān)檢檢驗(yàn)驗(yàn)。。范范圍圍檢檢驗(yàn)驗(yàn)要要求求數(shù)數(shù)據(jù)據(jù)保保證證落落在在預(yù)預(yù)期期的的范范圍圍之之內(nèi)內(nèi),,通通常常對(duì)對(duì)數(shù)數(shù)據(jù)據(jù)范范圍圍和和日日期期范范圍圍進(jìn)進(jìn)行行檢檢驗(yàn)驗(yàn),,如如對(duì)對(duì)任任何何在在指指定定范范圍圍之之外外的的日日期期的的發(fā)發(fā)票票都都應(yīng)應(yīng)刪刪除除。。枚枚舉舉字字段段取取值值指指對(duì)對(duì)一一個(gè)個(gè)記記錄錄在在該該字字段段的的取取值值,,若若不不在在指指定定的的值值中中,,則則應(yīng)應(yīng)該該刪刪除除。。相相關(guān)關(guān)檢檢驗(yàn)驗(yàn)要要求求將將一一個(gè)個(gè)字字段段中中的的值值與與另另外外一一個(gè)個(gè)字字段段中中的的值值進(jìn)進(jìn)行行相相關(guān)關(guān)檢檢驗(yàn)驗(yàn),,即即在在數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)中中某某個(gè)個(gè)字字段段應(yīng)應(yīng)與與另另一一個(gè)個(gè)字字段段形形成成外外鍵鍵約約束束。。28監(jiān)控器捕捉數(shù)數(shù)據(jù)變化的途途徑數(shù)據(jù)倉(cāng)庫(kù)提供供的是離線數(shù)數(shù)據(jù),與源源數(shù)據(jù)存在時(shí)時(shí)間差。時(shí)標(biāo)方法:指指在數(shù)據(jù)庫(kù)中中的數(shù)據(jù)設(shè)一一個(gè)時(shí)標(biāo),如如果新插入或或更新一個(gè)數(shù)數(shù)據(jù)記錄,在在記錄中插入入新的時(shí)標(biāo)或或加上更新時(shí)時(shí)的時(shí)標(biāo),然然后根據(jù)時(shí)標(biāo)標(biāo)判斷哪些數(shù)數(shù)據(jù)是變化的的,并把變化化的數(shù)據(jù)追加加到數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中去。DELTA文文件:該文件件是由應(yīng)用產(chǎn)產(chǎn)生的,并記記錄了應(yīng)用所所改變的所有有內(nèi)容。利用用DELTA文件記錄數(shù)數(shù)據(jù)的變化,,不需要掃描描整個(gè)數(shù)據(jù)庫(kù)庫(kù),所以效率率較高,但生生成的DELTA文件的的應(yīng)用并不普普遍。映象文件:在在上次提取數(shù)數(shù)據(jù)庫(kù)數(shù)據(jù)到到數(shù)據(jù)倉(cāng)庫(kù)之之后及本次提提取數(shù)據(jù)庫(kù)數(shù)數(shù)據(jù)之前,對(duì)對(duì)數(shù)據(jù)庫(kù)分別別作一次快照照,然后通過過比較兩幅快快照的不同來(lái)來(lái)確定要追加加的數(shù)據(jù)。這這種方法需要要占用大量的的系統(tǒng)資源,,對(duì)系統(tǒng)的性性能影響比較較大。日志文件:由由于日志文件件是數(shù)據(jù)庫(kù)的的固有機(jī)制,,所以它對(duì)系系統(tǒng)性能的影影響比較小,,另外它還有有DELTA文件的優(yōu)點(diǎn)點(diǎn),提取數(shù)據(jù)據(jù)只局限于日日志文件而不不用掃描整個(gè)個(gè)數(shù)據(jù)庫(kù)。所所以日志文件件是最可行的的一種方法。。29信息集成服務(wù)務(wù)CopyrightIBMCorporation30IBM的解決決方案31元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的所所有數(shù)據(jù)都要要通過元數(shù)據(jù)據(jù)來(lái)管理和控控制。元數(shù)據(jù)據(jù)描述關(guān)于源源數(shù)據(jù)的說明明,包括源數(shù)數(shù)據(jù)的來(lái)源、、源數(shù)據(jù)的名名稱、源數(shù)據(jù)據(jù)的定義、源源數(shù)據(jù)的創(chuàng)建建時(shí)間等對(duì)源源數(shù)據(jù)進(jìn)行管管理所需要的的信息。源數(shù)據(jù)的來(lái)源源說明源數(shù)據(jù)據(jù)是從哪個(gè)系系統(tǒng)、哪個(gè)歷歷史數(shù)據(jù)、哪哪個(gè)辦公數(shù)據(jù)據(jù)、哪個(gè)Web頁(yè)、哪個(gè)個(gè)外部系統(tǒng)抽抽取而來(lái)。源源數(shù)據(jù)說明源源數(shù)據(jù)在數(shù)據(jù)據(jù)倉(cāng)庫(kù)的作用用、用途、數(shù)數(shù)據(jù)類型和長(zhǎng)長(zhǎng)度等。32元數(shù)據(jù)(2)元數(shù)據(jù):是用用來(lái)描述數(shù)據(jù)據(jù)的數(shù)據(jù)。它它描述和定位位數(shù)據(jù)組件、、它們的起源源及它們?cè)跀?shù)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)程程中的活動(dòng);;關(guān)于數(shù)據(jù)和和操作的相關(guān)關(guān)描述(輸入入、計(jì)算和輸輸出)。元數(shù)數(shù)據(jù)可用文件件存在元數(shù)據(jù)據(jù)庫(kù)中。元數(shù)數(shù)據(jù)反映數(shù)據(jù)據(jù)倉(cāng)庫(kù)中的數(shù)數(shù)據(jù)項(xiàng)是從哪哪個(gè)特定的數(shù)數(shù)據(jù)源填充的的,經(jīng)過哪些些轉(zhuǎn)換、集成成過程。要有效的管理理數(shù)據(jù)倉(cāng)庫(kù),,必須設(shè)計(jì)一一個(gè)描述能力力強(qiáng)、內(nèi)容完完善的元數(shù)據(jù)據(jù)。33元數(shù)據(jù)管理器器客戶端登錄::負(fù)責(zé)接收客客戶端登錄信信息并進(jìn)行用用戶權(quán)限檢查查。元數(shù)據(jù)管理器器的用戶接口口:以接口形形式向用戶提提供對(duì)元數(shù)據(jù)據(jù)增、刪、、改、查的服服務(wù),包括::源數(shù)據(jù)信息息、數(shù)據(jù)倉(cāng)庫(kù)庫(kù)信息、星型型模型信息、、維信息、維維表字段信息息、事實(shí)表字字段信息、映映射事實(shí)表字字段信息、映映射維表字段段信息、鏈接接事實(shí)表與維維表字段的信信息。元數(shù)據(jù)的存儲(chǔ)儲(chǔ):元數(shù)據(jù)管管理器中的元元數(shù)據(jù)存儲(chǔ)程程序負(fù)責(zé)接收收由接口程序序傳遞來(lái)的關(guān)關(guān)于對(duì)元數(shù)據(jù)據(jù)進(jìn)行增加、、修改和刪除除等信息,并并根據(jù)所提供供的參數(shù)執(zhí)行行存儲(chǔ)過程,,將元數(shù)據(jù)的的有關(guān)信息保保存于服務(wù)器器端的元數(shù)據(jù)據(jù)庫(kù)中。34元數(shù)據(jù)管理器器的設(shè)計(jì)與實(shí)實(shí)現(xiàn)元數(shù)據(jù)的作用用:定義數(shù)據(jù)據(jù)倉(cāng)庫(kù)的作用用,指明數(shù)據(jù)據(jù)倉(cāng)庫(kù)中信息息的內(nèi)容和位位置,刻畫數(shù)數(shù)據(jù)的抽取和和轉(zhuǎn)換規(guī)則,存儲(chǔ)與數(shù)據(jù)據(jù)倉(cāng)庫(kù)主題有有關(guān)的各種商商業(yè)信息。在客戶端提供供圖形化界面面工具。例如如,用戶想在在多維模型中中加入一維或或者在某一維維中加入維元元素,不僅可可以通過圖形形化界面工具具完成而且可可以在用戶自自已編寫的應(yīng)應(yīng)用程序中調(diào)調(diào)用應(yīng)用程序序接口函數(shù),,修改后的結(jié)結(jié)果將記入元元數(shù)據(jù)庫(kù)中。。然后系統(tǒng)將將根據(jù)元數(shù)據(jù)據(jù)庫(kù)中的新內(nèi)內(nèi)容進(jìn)行數(shù)據(jù)據(jù)的追加。35操作數(shù)據(jù)存儲(chǔ)儲(chǔ)Businessdatawarehouse業(yè)務(wù)系統(tǒng)(Operationalsystems)數(shù)據(jù)集市(Datamarts)操作數(shù)據(jù)存儲(chǔ)(Operationaldatastore)元數(shù)據(jù)(MetaData)36數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中中的數(shù)數(shù)據(jù)組組織高度綜合級(jí)輕度綜合級(jí)當(dāng)前綜合級(jí)早期細(xì)節(jié)級(jí)多級(jí)數(shù)數(shù)據(jù)37數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的的數(shù)據(jù)據(jù)模型型
星型圖模型
物理數(shù)據(jù)模型概念模型邏輯模型物理模型面向用戶的需求細(xì)化層次更詳細(xì)的技術(shù)細(xì)節(jié)信息包圖38數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)建建模和和設(shè)計(jì)計(jì)Processofbuildinganabstractmodelforthedata,whichisstoredinthedataandrepresentsthedatawarehousecontent.39概念模模型由于大大多數(shù)數(shù)商務(wù)務(wù)數(shù)據(jù)據(jù)是多多維的的,但但傳統(tǒng)統(tǒng)的數(shù)數(shù)據(jù)模模型表表示三三維以以上的的數(shù)據(jù)據(jù)有一一定困困難。。概念念模型型簡(jiǎn)化化了這這個(gè)過過程并并且允允許用用戶與與開發(fā)發(fā)者和和其他他用戶戶建立立聯(lián)系系:確定系系統(tǒng)邊邊界::決策策類型型、需需要的的信息息、原原始信信息確定主主題域域及其其內(nèi)容容:主主題域域的公公共鍵鍵碼、、聯(lián)系系、屬屬性組組確定維維度::如時(shí)時(shí)間維維、銷銷售位位置維維、產(chǎn)產(chǎn)品維維、組組別維維等確定類類別::相應(yīng)應(yīng)維的的詳細(xì)細(xì)類別別確定指指標(biāo)和和事實(shí)實(shí):用用于進(jìn)進(jìn)行分分析的的數(shù)值值化信信息40實(shí)例〖例〗〗試畫畫出銷銷售分分析的的概念念模型型。解:首首先根根據(jù)銷銷售分分析的的實(shí)際際需求求,確確定信信息包包的維維度、、類別別和指指標(biāo)與與事實(shí)實(shí):(1))維度度:包包括日日期維維、銷銷售地地點(diǎn)維維、銷銷售產(chǎn)產(chǎn)品維維、年年齡組組別維維、性性別維維等。。(2))類別別:確確定各各維的的詳細(xì)細(xì)類別別,如如:日日期維維包括括年((10)、、季度度(40))、月月(120)等等類別別,括括號(hào)中中的數(shù)數(shù)字分分別指指出各各類別別的數(shù)數(shù)量;;銷售售地點(diǎn)點(diǎn)維包包括國(guó)國(guó)家((15)、、區(qū)域域(45))、城城市((280))、區(qū)區(qū)(880)、、商店店(2000))等類類別,,括號(hào)號(hào)中的的數(shù)字字同樣樣分別別指出出各類類別的的數(shù)量量;類類似地地,可可以確確定銷銷售產(chǎn)產(chǎn)品、、年齡齡組別別維、、性別別維等等的詳詳細(xì)類類別。。(3))度量量和事事實(shí)::確定定用于于進(jìn)行行分析析的數(shù)數(shù)值化化信息息,包包括預(yù)預(yù)測(cè)銷銷售量量、實(shí)實(shí)際銷銷售量量和預(yù)預(yù)測(cè)偏偏差等等。41銷售分分析的的概念念模型型日期銷售地點(diǎn)銷售產(chǎn)品年齡組別性別年(10)國(guó)家(15)產(chǎn)品類(6)年齡組(8)性別組(2)季度(40)區(qū)域(45)產(chǎn)品組(48)月(120)城市(280)產(chǎn)品(240)區(qū)(880)商店(2000)度量和事實(shí):預(yù)測(cè)銷售量、實(shí)際銷售量、預(yù)測(cè)偏差信息包包:銷售分分析維度類別42概念模模型圖圖實(shí)例例43邏輯模模型星型圖圖:數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的的數(shù)據(jù)據(jù)模型型的第第二層層是向向最終終的數(shù)數(shù)據(jù)結(jié)結(jié)構(gòu)添添加某某些細(xì)細(xì)節(jié)的的星型型圖模模型。。與傳傳統(tǒng)的的關(guān)系系模型型相比比,星星型圖圖模型型簡(jiǎn)化化了用用戶分分析所所需的的關(guān)系系,從從支持持決策策的角角度去去定義義數(shù)據(jù)據(jù)實(shí)體體,更更適合合大量量復(fù)雜雜查詢?cè)?。星形圖圖包括括了三三種邏邏輯實(shí)實(shí)體::指標(biāo)、、維度度和詳詳細(xì)類類別維表的的本質(zhì)質(zhì)是多多維分分析空空間在在某個(gè)個(gè)角度度上的的投影影,多多個(gè)維維表共共同建建立一一個(gè)多多維分分析空空間。。44sales數(shù)據(jù)據(jù)倉(cāng)庫(kù)庫(kù)的雪雪花模模式45InformationModellingofSalesInformationDemandUniqueIdentifierAttributeStrongEntityType1-nRelationship0-nRelationshipDerivedAttributeWeakEntityType46DWLayerandtheMappingtoInformationModelDataWarehouseLayer(logicallayer)InformationModel(conceptuallayer)MapInformationObjectsToDatabasefields-RenameObjectstoUserfriendlynames-Calculatefields-Defineobjectdisplayattributes-Convertcurrenciesetc….47星型模模型例例子48物理數(shù)數(shù)據(jù)模模型物理數(shù)數(shù)據(jù)模模型::數(shù)據(jù)據(jù)模型型的第第三層層,它它是星星型圖圖模型型在數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中中的實(shí)實(shí)現(xiàn),,如物物理的的存取取方式式、數(shù)數(shù)據(jù)存存儲(chǔ)結(jié)結(jié)構(gòu)等等。在物理理設(shè)計(jì)計(jì)時(shí),,常常常要按按數(shù)據(jù)據(jù)的重重要程程度、、使用用頻率率以及及對(duì)響響應(yīng)時(shí)時(shí)間的的要求求進(jìn)行行分類類,并并將不不同類類的數(shù)數(shù)據(jù)分分別存存儲(chǔ)在在不同同的存存儲(chǔ)設(shè)設(shè)備中中。重重要程程度高高、經(jīng)經(jīng)常存存取并并對(duì)響響應(yīng)時(shí)時(shí)間高高的數(shù)數(shù)據(jù)就就存放放在高高速存存儲(chǔ)設(shè)設(shè)備上上,如如硬盤盤;存存取頻頻率低低或?qū)?duì)存取取響應(yīng)應(yīng)時(shí)間間要求求低的的數(shù)據(jù)據(jù)則可可以放放在低低速存存儲(chǔ)設(shè)設(shè)備上上。49粒度粒度::對(duì)數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中中的數(shù)數(shù)據(jù)綜綜合程程度高高低的的一個(gè)個(gè)度量量,它它既影影響數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中中的數(shù)數(shù)據(jù)量量的多多少,,也影影響數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)所所能回回答詢?cè)儐柕牡姆N類類。粒度越越小,,綜合合程度度越低低,回回答查查詢的的種類類越多多;粒粒度度越高高,綜綜合程程度越越高,,查詢?cè)兊男室惨苍礁吒?。在?shù)據(jù)據(jù)倉(cāng)庫(kù)庫(kù)中可可將小小粒度度的數(shù)數(shù)據(jù)存存儲(chǔ)在在低速速存儲(chǔ)儲(chǔ)器上上;大大粒度度的數(shù)數(shù)據(jù)存存儲(chǔ)在在高速速存儲(chǔ)儲(chǔ)器上上。50維度維度::是一一個(gè)物物理特特性((如時(shí)時(shí)間、、地點(diǎn)點(diǎn)、產(chǎn)產(chǎn)品等等),,它是是表達(dá)達(dá)數(shù)據(jù)據(jù)倉(cāng)庫(kù)庫(kù)中信信息的的一個(gè)個(gè)基本本途徑徑,可可作為為標(biāo)識(shí)識(shí)數(shù)據(jù)據(jù)的索索引。。通常常的報(bào)報(bào)表只只包含含有行行和列列兩維維,但但在數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中中所存存儲(chǔ)的的數(shù)據(jù)據(jù)大多多是用用多維維(三三維或或三維維以上上)視視圖表表示的的。例如::一個(gè)銷銷售系系統(tǒng)中中的數(shù)數(shù)據(jù)可可分為為時(shí)間間維、、產(chǎn)品品維和和地理理位置置維等等;一個(gè)財(cái)財(cái)務(wù)系系統(tǒng)中中的數(shù)數(shù)據(jù)可可分為為時(shí)間間維、、支出出維和和收入入維等等;一個(gè)企企業(yè)決決策支支持系系統(tǒng)中中的數(shù)數(shù)據(jù)可可分為為成本本開支支維、、銷售售收入入維、、利潤(rùn)潤(rùn)維、、股票票價(jià)值值維等等。51聚合在數(shù)據(jù)據(jù)倉(cāng)庫(kù)庫(kù)技術(shù)術(shù)中,,每一一維可可包括括多個(gè)個(gè)層次次,這這些層層次反反過來(lái)來(lái)可以以向用用戶提提供某某一層層次的的數(shù)據(jù)據(jù)。例例如,,在地地理位位置維維中,,由所所有的的街區(qū)區(qū)組成成了地地區(qū),,由所所有的的地區(qū)區(qū)組成成了城城市等等。聚聚合就就是指指在維維的不不同層層次內(nèi)內(nèi)移動(dòng)動(dòng)數(shù)據(jù)據(jù),從從而構(gòu)構(gòu)成維維內(nèi)不不同層層次的的數(shù)據(jù)據(jù)集,,使用用戶不不僅能能夠在在一個(gè)個(gè)維度度內(nèi)觀觀察數(shù)數(shù)據(jù),,而且且能夠夠在維維度內(nèi)內(nèi)的不不同層層次上上觀察察數(shù)據(jù)據(jù)。聚合合和和匯匯總總不不同同52分解解與與合合成成分解解與與合合成成是是在在一一個(gè)個(gè)維維度度內(nèi)內(nèi)進(jìn)進(jìn)一一步步細(xì)細(xì)分分?jǐn)?shù)數(shù)據(jù)據(jù)或或?qū)?shù)數(shù)據(jù)據(jù)按按照照另另一一標(biāo)標(biāo)準(zhǔn)準(zhǔn)組組合合的的過過程程。。例例如如,,當(dāng)當(dāng)以以地地理理位位置置維維觀觀察察數(shù)數(shù)據(jù)據(jù)時(shí)時(shí),,用用戶戶可可以以首首先先以以國(guó)國(guó)家家((如如中中國(guó)國(guó)))為為單單位位觀觀察察數(shù)數(shù)據(jù)據(jù),,然然后后可可以以選選擇擇觀觀察察某某一一個(gè)個(gè)地地區(qū)區(qū)((如如華華東東地地區(qū)區(qū)))的的數(shù)數(shù)據(jù)據(jù),,接接下下來(lái)來(lái)可可以以選選擇擇觀觀察察某某一一個(gè)個(gè)省省或或城城市市((如如上上海海))的的數(shù)數(shù)據(jù)據(jù),,這這就就是是數(shù)數(shù)據(jù)據(jù)分分解解的的過過程程。。而而合合成成則則是是分分解解的的逆逆過過程程,,例例如如用用戶戶開開始始以以省省市市為為觀觀察察對(duì)對(duì)象象,,接接著著再再以以地地區(qū)區(qū)、、國(guó)國(guó)家家等等為為觀觀察察對(duì)對(duì)象象,,就就是是一一個(gè)個(gè)數(shù)數(shù)據(jù)據(jù)合合成成的的過過程程。。53數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)的的數(shù)數(shù)據(jù)據(jù)組組織織為了了提提高高分分析析和和決決策策的的效效率率和和有有效效性性,,分分析析型型處處理理及及其其數(shù)數(shù)據(jù)據(jù)必必須須與與事事務(wù)務(wù)型型處處理理及及其其數(shù)數(shù)據(jù)據(jù)相相分分離離,,把把分分析析型型處處理理所所需需要要的的數(shù)數(shù)據(jù)據(jù)從從事事務(wù)務(wù)型型處處理理環(huán)環(huán)境境中中提提取取出出來(lái)來(lái),,按按照照分分析析型型處處理理的的要要求求進(jìn)進(jìn)行行重重新新組組織織,,建建立立單單獨(dú)獨(dú)的的分分析析處處理理環(huán)環(huán)境境。。數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)正正是是構(gòu)構(gòu)建建這這種種新新的的分分析析處處理理環(huán)環(huán)境境而而出出現(xiàn)現(xiàn)的的一一種種數(shù)數(shù)據(jù)據(jù)存存儲(chǔ)儲(chǔ)和和組組織織技技術(shù)術(shù)。。數(shù)據(jù)倉(cāng)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度商業(yè)企業(yè)購(gòu)銷合同印花稅稅率調(diào)整與稅務(wù)風(fēng)險(xiǎn)防范協(xié)議
- 2025年度代付農(nóng)民工工資保障服務(wù)合同模板
- 2025年度公司法人掛名品牌授權(quán)合同
- 2025年度勞動(dòng)仲裁調(diào)解協(xié)議范文:智能制造領(lǐng)域員工糾紛處理指南
- 2025年惠州城市職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)附答案
- 2025年澳大利亞數(shù)字商務(wù)消費(fèi)者見解報(bào)告(英文版)-Wunderkind
- 2025年度宅基地永久轉(zhuǎn)讓與農(nóng)村旅游項(xiàng)目投資合同
- 2024大眾養(yǎng)老金融調(diào)研報(bào)告-太平洋保險(xiǎn)
- 2025年度家庭緊急救援服務(wù)家政合同范例雙方
- 2025年哈密職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)匯編
- 2025年工貿(mào)企業(yè)春節(jié)復(fù)工復(fù)產(chǎn)方案
- 【道法】歷久彌新的思想理念課件 2024-2025學(xué)年統(tǒng)編版道德與法治七年級(jí)下冊(cè)
- 民辦中學(xué)班主任工作考核細(xì)則
- 2024年初三數(shù)學(xué)競(jìng)賽考試試題
- 20G520-1-2鋼吊車梁(6m-9m)2020年合訂本
- 2024年蘇州經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院高職單招(英語(yǔ)/數(shù)學(xué)/語(yǔ)文)筆試歷年參考題庫(kù)含答案解析
- 危險(xiǎn)化學(xué)品從業(yè)單位安全生產(chǎn)標(biāo)準(zhǔn)化宣貫
- 幼兒園中班開學(xué)第一課
- 招商人員薪酬及提成
- 物業(yè)保潔員培訓(xùn)專業(yè)課件
- PPT辦公使用技巧培訓(xùn)筆記(共52張)
評(píng)論
0/150
提交評(píng)論