商務(wù)智能課件:2_Data_Warehouse_第1頁
商務(wù)智能課件:2_Data_Warehouse_第2頁
商務(wù)智能課件:2_Data_Warehouse_第3頁
商務(wù)智能課件:2_Data_Warehouse_第4頁
商務(wù)智能課件:2_Data_Warehouse_第5頁
已閱讀5頁,還剩54頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1數(shù)據(jù)倉庫Data Warehouse2事務(wù)型處理事務(wù)型處理:即操作型處理,是指對數(shù)據(jù)庫的聯(lián)機操作處理OLTP。事務(wù)型處理是用來協(xié)助企業(yè)對響應(yīng)事件或事務(wù)的日常商務(wù)活動進(jìn)行處理。它是事件驅(qū)動、面向應(yīng)用的,通常是對一個或一組記錄的增、刪、改以及簡單查詢等(大量、簡單、重復(fù)和例行性)。在事務(wù)型處理環(huán)境中,數(shù)據(jù)庫要求能支持日常事務(wù)中的大量事務(wù),用戶對數(shù)據(jù)的存取操作頻率高而每次操作處理的時間短。3分析型處理分析型處理:用于管理人員的決策分析,例如DSS、 EIS和多維分析等。它幫助決策者分析數(shù)據(jù)以察看趨向、判斷問題。分析型處理經(jīng)常要訪問大量的歷史數(shù)據(jù),支持復(fù)雜的查詢。分析型處理過程中經(jīng)常用到外部數(shù)據(jù),這

2、部分?jǐn)?shù)據(jù)不是由事務(wù)型處理系統(tǒng)產(chǎn)生的,而是來自于其他外部數(shù)據(jù)源。4事務(wù)型處理數(shù)據(jù)和分析型處理數(shù)據(jù)的區(qū)別特性O(shè)LTPOLAP特征面向用戶功能DB 設(shè)計數(shù)據(jù)匯總視圖工作單位存取關(guān)注操作訪問記錄數(shù)用戶數(shù)DB規(guī)模優(yōu)先度量操作處理事務(wù)辦事員、DBA、數(shù)據(jù)庫專業(yè)人員日常操作基于E-R,面向應(yīng)用當(dāng)前的;確保最新原始的,高度詳細(xì)詳細(xì),一般關(guān)系短的、簡單事務(wù)讀/寫數(shù)據(jù)進(jìn)入主關(guān)鍵字上索引/散列數(shù)十個數(shù)千100MB到GB高性能,高可用性事務(wù)吞吐量信息處理分析知識工人(如經(jīng)理、主管、分析員)長期信息需求,決策支持星形/雪花,面向主題歷史的;跨時間維護(hù)匯總的,統(tǒng)一的匯總的,多維的復(fù)雜查詢大多為讀信息輸出大量掃描數(shù)百萬數(shù)百

3、100GB到TB高靈活性,端點用戶自治查詢吞吐量,響應(yīng)時間5數(shù)據(jù)庫系統(tǒng)的局限性數(shù)據(jù)庫適于存儲高度結(jié)構(gòu)化的日常事務(wù)細(xì)節(jié)數(shù)據(jù),而決策型數(shù)據(jù)多為歷史性、匯總性或計算性數(shù)據(jù),多表現(xiàn)為靜態(tài)數(shù)據(jù),不需直接更新,但可周期性刷新。決策分析型數(shù)據(jù)是多維性,分析內(nèi)容復(fù)雜。在事務(wù)處理環(huán)境中,決策者可能并不關(guān)心具體的細(xì)節(jié)信息,在決策分析環(huán)境中,如果這些細(xì)節(jié)數(shù)據(jù)量太大一方面會嚴(yán)重影響分析效率,另一方面這些細(xì)節(jié)數(shù)據(jù)會分散決策者的注意力。DB2OracleSQLServerExcelspreadsheetXMLdocumentInternetSSLclientapplicationsBrowsersData managem

4、entlayerApplicationlayerWebservers6數(shù)據(jù)庫系統(tǒng)的局限性(續(xù))當(dāng)事務(wù)型處理環(huán)境和分析型處理環(huán)境在同一個數(shù)據(jù)庫系統(tǒng)中,事務(wù)型處理對數(shù)據(jù)的存取操作頻率高,操作處理的時間短,而分析型處理可能需要連續(xù)運行幾個小時,從而消耗大量的系統(tǒng)資源。決策型分析數(shù)據(jù)的數(shù)據(jù)量大,這些數(shù)據(jù)有來自企業(yè)內(nèi)部的,也有來自企業(yè)外部的。來自企業(yè)外部的數(shù)據(jù)又可能來自不同的數(shù)據(jù)庫系統(tǒng),在分析時如果直接對這些數(shù)據(jù)操作會造成分析的混亂。對于外部數(shù)據(jù)中的一些非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)庫系統(tǒng)常常是無能為力。7多庫系統(tǒng)的限制可用性:源站點或通信網(wǎng)絡(luò)故障將導(dǎo)致系統(tǒng)癱瘓, 源站點不能通過網(wǎng)絡(luò)在線聯(lián)入多庫系統(tǒng)。響應(yīng)速度:全局

5、查詢多級轉(zhuǎn)換和通信傳輸, 延遲和低層效率影響響應(yīng)速度。系統(tǒng)性能:總體性能取決于源站點中性能最低的系統(tǒng), 影響系統(tǒng)性能的發(fā)揮;系統(tǒng)開銷:每次查詢要啟動多個局部系統(tǒng), 通信和運行開銷大。 8實施數(shù)據(jù)倉庫的條件數(shù)據(jù)積累已達(dá)到一定規(guī)模面臨激烈的市場競爭在IT方面的資金能得到保障 9數(shù)據(jù)倉庫的發(fā)展自從NCR公司為Wal Mart建立了第一個數(shù)據(jù)倉庫。1996年,加拿大的IDC公司調(diào)查了62家實現(xiàn)了數(shù)據(jù)倉庫的歐美企業(yè),結(jié)果表明:數(shù)據(jù)倉庫為企業(yè)提供了巨大的收益。早期的數(shù)據(jù)倉庫大都采用當(dāng)時流行的客戶/服務(wù)器結(jié)構(gòu)。近年來分布式對象技術(shù)飛速發(fā)展,整個數(shù)據(jù)倉庫體系結(jié)構(gòu)從功能上劃分為若干個分布式對象,這些分布式對象不

6、僅可以直接用于建立數(shù)據(jù)倉庫,還可以在應(yīng)用程序中向用戶提供調(diào)用的接口。IBM的實驗室在數(shù)據(jù)倉庫方面已經(jīng)進(jìn)行了10多年的研究,并將研究成果發(fā)展成為商用產(chǎn)品。其他數(shù)據(jù)庫廠商在數(shù)據(jù)倉庫領(lǐng)域也紛紛提出了各自的解決方案。10數(shù)據(jù)倉庫(Data Warehouse)數(shù)據(jù)倉庫用來保存從多個數(shù)據(jù)庫或其它信息源選取的數(shù)據(jù), 并為上層應(yīng)用提供統(tǒng)一 用戶接口,完成數(shù)據(jù)查詢和分析。支持整個企業(yè)范圍的主要業(yè)務(wù)來建立的,主要特點是,包含大量面向整個企業(yè)的綜合信息及導(dǎo)出信息。數(shù)據(jù)倉庫是作為DSS服務(wù)基礎(chǔ)的分析型DB,用來存放大容量的只讀數(shù)據(jù),為制定決策提供所需要的信息。數(shù)據(jù)倉庫是與操作型系統(tǒng)相分離的、基于標(biāo)準(zhǔn)企業(yè)模型集成的、

7、帶有時間屬性的、面向主題及不可更新的數(shù)據(jù)集合。以1992年W H Inmon出版Building the Data Warehouse為標(biāo)志,數(shù)據(jù)倉庫發(fā)展速度很快。 W H Inmon被譽為數(shù)據(jù)倉庫之父。W H Inmon對數(shù)據(jù)倉庫所下的定義:數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用以支持管理決策的過程。11面向主題數(shù)據(jù)倉庫中的數(shù)據(jù)是按照各種主題來組織的。主題在數(shù)據(jù)倉庫中的物理實現(xiàn)是一系列的相關(guān)表,這不同于面向應(yīng)用環(huán)境。如保險公司按照應(yīng)用組織可能是汽車保險、生命保險、傷亡保險,而數(shù)據(jù)倉庫是按照客戶、政策、保險金和索賠來組織數(shù)據(jù)。面向主題的數(shù)據(jù)組織方式可在較高層次上對分析對

8、象的數(shù)據(jù)給出完整、一致的描述,能完整、統(tǒng)一的刻畫各個分析對象所涉及的企業(yè)的各項數(shù)據(jù)以及數(shù)據(jù)之間的聯(lián)系,從而適應(yīng)企業(yè)各個部門的業(yè)務(wù)活動特點和企業(yè)數(shù)據(jù)的動態(tài)特征,從根本上實現(xiàn)數(shù)據(jù)與應(yīng)用的分離。12集成性數(shù)據(jù)倉庫中的數(shù)據(jù)是從原有分散的源數(shù)據(jù)庫中提取出來的,其每一個主題所對應(yīng)的源數(shù)據(jù)在原有的數(shù)據(jù)庫中有許多冗余和不一致,且與不同的應(yīng)用邏輯相關(guān)。為了創(chuàng)建一個有效的主題域,必須將這些來自不同數(shù)據(jù)源的數(shù)據(jù)集成起來,使之遵循統(tǒng)一的編碼規(guī)則。13穩(wěn)定性數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)有很長的時間跨度,通常是5-10年。數(shù)據(jù)倉庫中的數(shù)據(jù)反映的是一段時間內(nèi)歷史數(shù)據(jù)的內(nèi)容,是不同時點的數(shù)據(jù)庫快照的集合,以及基于撰寫快照進(jìn)行統(tǒng)計、綜合和

9、重組的導(dǎo)出數(shù)據(jù)。主要供企業(yè)高層決策分析之用,所涉及的數(shù)據(jù)操作主要是查詢,一般情況下并不進(jìn)行修改操作.數(shù)據(jù)倉庫中的數(shù)據(jù)是不可實時更新的,僅當(dāng)超過規(guī)定的存儲期限,才將其從數(shù)據(jù)倉庫中刪除,提取新的數(shù)據(jù)經(jīng)集成后輸入數(shù)據(jù)倉庫。14時變性時變性:許多商業(yè)分析要求對發(fā)展趨勢做出預(yù)測,對發(fā)展趨勢的分析需要訪問歷史數(shù)據(jù)。因此數(shù)據(jù)倉庫必須不斷捕捉OLTP數(shù)據(jù)庫中變化的數(shù)據(jù),生成數(shù)據(jù)庫的快照,經(jīng)集成后增加到數(shù)據(jù)倉庫中去;另外數(shù)據(jù)倉庫還需要隨時間的變化刪去過期的、對分析沒有幫助的數(shù)據(jù),并且還需要按規(guī)定的時間段增加綜合數(shù)據(jù)。15支持管理決策數(shù)據(jù)倉庫支持OLAP(聯(lián)機分析處理)、數(shù)據(jù)挖掘和決策分析。OLAP從數(shù)據(jù)倉庫中的

10、綜合數(shù)據(jù)出發(fā),提供面向分析的多維模型,并使用多維分析的方法從多個角度、多個層次對多維數(shù)據(jù)進(jìn)行分析,使決策者能夠以更加自然的方式來分析數(shù)據(jù)。數(shù)據(jù)挖掘則以數(shù)據(jù)倉庫和多維數(shù)據(jù)庫中的數(shù)據(jù)為基礎(chǔ),發(fā)現(xiàn)數(shù)據(jù)中的潛在模式和進(jìn)行預(yù)測。因此,數(shù)據(jù)倉庫的功能是支持管理層進(jìn)行科學(xué)決策,而不是事務(wù)處理。16BI系統(tǒng)VS決策盲點某大型國有企業(yè)老總當(dāng)他查看近十年企業(yè)的生產(chǎn)和運營數(shù)據(jù)時,手邊得到了各種各樣不同的數(shù)據(jù)報表。這些數(shù)據(jù)報表大致可以分成兩種類型:一種是兩年前、即ERP上線之前的,這是一些簡單、雜亂而又枯燥的數(shù)字;另一種是有了ERP以后的,數(shù)據(jù)變得清楚而有條理起來,同時還有來自ERP、CRM、SCM以及計費業(yè)務(wù)等不同

11、應(yīng)用的數(shù)據(jù)和各種分析報告。在仔細(xì)查看這些報表之后,這位國企老總驚訝地發(fā)現(xiàn),不同的系統(tǒng)可以得出截然相反的兩種結(jié)論。例如某一產(chǎn)品,它的動態(tài)成本反映在ERP系統(tǒng)和CRM、SCM系統(tǒng)里面相差很大,如果引用ERP和CRM里面的數(shù)據(jù),它就是一款很成功、銷量很好的產(chǎn)品,但在SCM里面來看,它的采購和物流成本過高,導(dǎo)致了這款看起來很成功的產(chǎn)品實際上是一筆賠錢的買賣。17BI系統(tǒng)VS決策盲點(續(xù))其實從這些來自不同系統(tǒng)的數(shù)據(jù)基礎(chǔ)產(chǎn)生不同的判斷很正常,因為這些系統(tǒng)并不會去周密地“思考”在自己“職責(zé)”之外的事情。這樣就給企業(yè)的領(lǐng)導(dǎo)提交了相當(dāng)多顧此失彼的分析報告,結(jié)果就是導(dǎo)致了許多市場決策上的混亂和失誤。把企業(yè)的內(nèi)部

12、數(shù)據(jù)和外部數(shù)據(jù)(企業(yè)內(nèi)部數(shù)據(jù)就是指上述通過業(yè)務(wù)系統(tǒng)SCM、ERP、CRM等收集到的數(shù)據(jù),這些數(shù)據(jù)可能在不同的硬件、數(shù)據(jù)庫、網(wǎng)絡(luò)環(huán)境中,為不同的業(yè)務(wù)部門服務(wù)。外部數(shù)據(jù)是市場信息和外部競爭對手的信息)。進(jìn)行有效的集成,形成直觀的、易于理解的信息,再進(jìn)行分析和思考,為企業(yè)的各層決策及分析人員使用。18數(shù)據(jù)倉庫的技術(shù)要求復(fù)雜分析的高性能體現(xiàn):涉及大量數(shù)據(jù)的聚集、綜合等,在進(jìn)行復(fù)雜查詢時經(jīng)常會使用多表的聯(lián)接、累計、分類、排序等操作。對提取出來的數(shù)據(jù)進(jìn)行集成:數(shù)據(jù)倉庫中的數(shù)據(jù)是從多個應(yīng)用領(lǐng)域中提取出來的,在不同的應(yīng)用領(lǐng)域和不同的數(shù)據(jù)庫系統(tǒng)中都有不同的結(jié)構(gòu)和形式,所以如何對數(shù)據(jù)進(jìn)行集成也是構(gòu)建數(shù)據(jù)倉庫的一個

13、重要方面。對進(jìn)行高層決策的最終用戶的界面支持:提供各種分析應(yīng)用工具。19數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)20數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)(2)21數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)(3)22數(shù)據(jù)倉庫流程23Tivoli Storage ManagerFile EditViewHelpToolsBackForwardStopHomeSearchRefreshxHistoryMailPrintAddress:http:/my_InternetWelcome Carol JonesCustomize Home PageEditLogoutx!My Weatherclick on city for extended forecastor s

14、earch by city or zip codeParisNew York73F91Fget forecastPast Due Service Requests Sales cost analysis200001500010000 50002Q003Q004Q001Q01Centralnextprior?Banco Azul - Todays NewsCorporate NewsCompetitor NewsCEO Christoph Dermond comments on stock splitMinimizing risk in B2B relations Special employe

15、e credit offersNew Privacy Executive Post named SomeCo talks with EvilEmpire Bank sparks merger rumorsToughCo loses fight with Banco Azul for $821M industrial loanAsian invasion into retail securitiesBanco Azul07/02/2001 19:29:20WPS v1.2 - The Cutting EdgeWebSphere Portal ServerContent ManagerFedera

16、tedSearchKPIsIntelligentMinerQMF ,BO, Brio, etc.DB2 OLAPDB2DB2DataWarehousevirtual tablesReports &ContentMartsIBMIBMDB2WarehouseManagerProductiondatasourcePurchasedDataERP, CRM, SCM, datasourcesRedBrickIBM 信息分析框架24數(shù)據(jù)倉庫系統(tǒng)的組成(1)源數(shù)據(jù):數(shù)據(jù)倉庫中的數(shù)據(jù)來源于多個數(shù)據(jù)源,它不僅可以是企業(yè)內(nèi)部的關(guān)系型數(shù)據(jù)庫,還包括非傳統(tǒng)數(shù)據(jù),如文件、HTML文檔等。數(shù)據(jù)倉庫管理系統(tǒng):元數(shù)據(jù)庫及

17、元數(shù)據(jù)管理部件:元數(shù)據(jù)庫用來存儲由定義部件生成的關(guān)于源數(shù)據(jù)、目標(biāo)數(shù)據(jù)、提取規(guī)則、轉(zhuǎn)換規(guī)則以及源數(shù)據(jù)與數(shù)據(jù)倉庫之間的映射信息等。數(shù)據(jù)轉(zhuǎn)換部件:該部件把數(shù)據(jù)從源數(shù)據(jù)中提取出來,依定義部件的規(guī)則將不同數(shù)據(jù)格式的源數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)倉庫的數(shù)據(jù)格式并裝載進(jìn)數(shù)據(jù)倉庫。數(shù)據(jù)集成部件:該部件根據(jù)定義部件的規(guī)則、統(tǒng)一各源數(shù)據(jù)的編碼規(guī)則,并凈化數(shù)據(jù),根據(jù)元數(shù)據(jù)中定義的數(shù)據(jù)組織形式對數(shù)據(jù)進(jìn)行匯總、聚合計算。數(shù)據(jù)倉庫管理部件:它主要用于維護(hù)數(shù)據(jù)倉庫中的數(shù)據(jù),備份、恢復(fù)數(shù)據(jù)以及管理數(shù)據(jù)的安全權(quán)限問題。25數(shù)據(jù)倉庫系統(tǒng)的組成(2)數(shù)據(jù)倉庫前端工具集查詢/報表工具:以圖形化方式和報表方式顯示數(shù)據(jù),幫助了解數(shù)據(jù)的結(jié)構(gòu)、關(guān)系以及動

18、態(tài)性。OLAP工具:通過對信息的多種可能的觀察形式進(jìn)行快速、一致和交互性的存取,便于用戶對數(shù)據(jù)進(jìn)行深入的分析和觀察。數(shù)據(jù)挖掘工具:從大量數(shù)據(jù)中挖掘出具有規(guī)律性的知識,以及數(shù)據(jù)之間的內(nèi)在聯(lián)系。前端開發(fā)工具:提供用戶編程接口,便于在現(xiàn)有系統(tǒng)的基礎(chǔ)上進(jìn)行二次開發(fā),增強系統(tǒng)的伸縮性。數(shù)據(jù)倉庫:在數(shù)據(jù)倉庫系統(tǒng)中,數(shù)據(jù)倉庫是一個數(shù)據(jù)存儲集合,它的存儲形式通常有多維數(shù)據(jù)庫,關(guān)系型數(shù)據(jù)庫及其他存儲方式。26數(shù)據(jù)轉(zhuǎn)換統(tǒng)一數(shù)據(jù)編碼:數(shù)據(jù)倉庫中的數(shù)據(jù)從各個數(shù)據(jù)源提取出來的,盡管經(jīng)過轉(zhuǎn)換后數(shù)據(jù)格式已經(jīng)統(tǒng)一,但數(shù)據(jù)的編碼、描述在各個源系統(tǒng)中都有很大的區(qū)別。為了改進(jìn)數(shù)據(jù)倉庫中數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)倉庫中數(shù)據(jù)的可用性,必須統(tǒng)一

19、數(shù)據(jù)編碼。本系統(tǒng)中編碼轉(zhuǎn)換主要包括:日期格式轉(zhuǎn)換:大多數(shù)業(yè)務(wù)環(huán)境中有許多不同的日期和時間類型,所以,幾乎每個數(shù)據(jù)倉庫的實現(xiàn)都必須將日期和時間變換成標(biāo)準(zhǔn)的數(shù)據(jù)格式。數(shù)據(jù)倉庫必須用單一的模式規(guī)定日期和時間信息。測量單位的轉(zhuǎn)換:數(shù)據(jù)倉庫中對于數(shù)值型字段應(yīng)保持一致的單位。在元數(shù)據(jù)庫中創(chuàng)建表Units和UnitTypes來表示各種單位的換算關(guān)系。表UnitTypes記錄了數(shù)據(jù)倉庫系統(tǒng)中的單位類型,初始元數(shù)據(jù)庫中共分六種單位類型:時間單位、貨幣單位、重量單位、長度單位、面積單位、體積單位。在表Units中記錄了單位名、單位類型以及同類型單位之間的相互轉(zhuǎn)換關(guān)系。27轉(zhuǎn)換器的設(shè)計與實現(xiàn)轉(zhuǎn)換器的功能:數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)

20、換和數(shù)據(jù)類型轉(zhuǎn)換。從數(shù)據(jù)源中提取數(shù)據(jù)并轉(zhuǎn)換格式的過程:先將各類數(shù)據(jù)庫系統(tǒng)中不同格式的數(shù)據(jù)轉(zhuǎn)換成文本文件,然后再利用批拷貝命令將數(shù)據(jù)導(dǎo)入目標(biāo)系統(tǒng)中。以使數(shù)據(jù)倉庫獲得新的數(shù)據(jù)提供決策分析使用。數(shù)據(jù)準(zhǔn)備區(qū)的使用:首先從源數(shù)據(jù)中提取數(shù)據(jù),轉(zhuǎn)換成數(shù)據(jù)倉庫所要求的格式后存儲在數(shù)據(jù)倉庫的一個稱為數(shù)據(jù)準(zhǔn)備區(qū)的緩沖區(qū)中。在該區(qū)域中,可以暫時存儲原始數(shù)據(jù),然后由集成器對數(shù)據(jù)進(jìn)行清理、集成后再裝載到數(shù)據(jù)倉庫中。源數(shù)據(jù)數(shù)據(jù)準(zhǔn)備區(qū)數(shù)據(jù)倉庫28數(shù)據(jù)凈化當(dāng)數(shù)據(jù)從源數(shù)據(jù)庫中提取到數(shù)據(jù)準(zhǔn)備區(qū)后,必須先進(jìn)行數(shù)據(jù)凈化才可以裝載到數(shù)據(jù)倉庫中去。數(shù)據(jù)凈化主要指對數(shù)據(jù)字段的有效值檢驗。有效值的檢驗通常包括:范圍檢驗、枚舉字段取值和相關(guān)檢

21、驗。范圍檢驗要求數(shù)據(jù)保證落在預(yù)期的范圍之內(nèi),通常對數(shù)據(jù)范圍和日期范圍進(jìn)行檢驗,如對任何在指定范圍之外的日期的發(fā)票都應(yīng)刪除。枚舉字段取值指對一個記錄在該字段的取值,若不在指定的值中,則應(yīng)該刪除。相關(guān)檢驗要求將一個字段中的值與另外一個字段中的值進(jìn)行相關(guān)檢驗,即在數(shù)據(jù)庫中某個字段應(yīng)與另一個字段形成外鍵約束。29監(jiān)控器捕捉數(shù)據(jù)變化的途徑數(shù)據(jù)倉庫提供的是離線數(shù)據(jù), 與源數(shù)據(jù)存在時間差。時標(biāo)方法:指在數(shù)據(jù)庫中的數(shù)據(jù)設(shè)一個時標(biāo),如果新插入或更新一個數(shù)據(jù)記錄,在記錄中插入新的時標(biāo)或加上更新時的時標(biāo),然后根據(jù)時標(biāo)判斷哪些數(shù)據(jù)是變化的,并把變化的數(shù)據(jù)追加到數(shù)據(jù)倉庫中去。DELTA文件:該文件是由應(yīng)用產(chǎn)生的,并記錄

22、了應(yīng)用所改變的所有內(nèi)容。利用DELTA文件記錄數(shù)據(jù)的變化,不需要掃描整個數(shù)據(jù)庫,所以效率較高,但生成的DELTA文件的應(yīng)用并不普遍。映象文件:在上次提取數(shù)據(jù)庫數(shù)據(jù)到數(shù)據(jù)倉庫之后及本次提取數(shù)據(jù)庫數(shù)據(jù)之前,對數(shù)據(jù)庫分別作一次快照,然后通過比較兩幅快照的不同來確定要追加的數(shù)據(jù)。這種方法需要占用大量的系統(tǒng)資源,對系統(tǒng)的性能影響比較大。日志文件:由于日志文件是數(shù)據(jù)庫的固有機制,所以它對系統(tǒng)性能的影響比較小,另外它還有DELTA文件的優(yōu)點,提取數(shù)據(jù)只局限于日志文件而不用掃描整個數(shù)據(jù)庫。所以日志文件是最可行的一種方法。30信息集成服務(wù)Copyright IBM Corporation31IBM的解決方案32

23、元數(shù)據(jù)數(shù)據(jù)倉庫的所有數(shù)據(jù)都要通過元數(shù)據(jù)來管理和控制。元數(shù)據(jù)描述關(guān)于源數(shù)據(jù)的說明,包括源數(shù)據(jù)的來源、源數(shù)據(jù)的名稱、源數(shù)據(jù)的定義、源數(shù)據(jù)的創(chuàng)建時間等對源數(shù)據(jù)進(jìn)行管理所需要的信息。源數(shù)據(jù)的來源說明源數(shù)據(jù)是從哪個系統(tǒng)、哪個歷史數(shù)據(jù)、哪個辦公數(shù)據(jù)、哪個Web頁、哪個外部系統(tǒng)抽取而來。源數(shù)據(jù)說明源數(shù)據(jù)在數(shù)據(jù)倉庫的作用、用途、數(shù)據(jù)類型和長度等。33元數(shù)據(jù)(2)元數(shù)據(jù):是用來描述數(shù)據(jù)的數(shù)據(jù)。它描述和定位數(shù)據(jù)組件、它們的起源及它們在數(shù)據(jù)倉庫進(jìn)程中的活動;關(guān)于數(shù)據(jù)和操作的相關(guān)描述(輸入、計算和輸出)。元數(shù)據(jù)可用文件存在元數(shù)據(jù)庫中。元數(shù)據(jù)反映數(shù)據(jù)倉庫中的數(shù)據(jù)項是從哪個特定的數(shù)據(jù)源填充的,經(jīng)過哪些轉(zhuǎn)換、集成過程。要有

24、效的管理數(shù)據(jù)倉庫,必須設(shè)計一個描述能力強、內(nèi)容完善的元數(shù)據(jù)。34元數(shù)據(jù)管理器客戶端登錄:負(fù)責(zé)接收客戶端登錄信息并進(jìn)行用戶權(quán)限檢查。元數(shù)據(jù)管理器的用戶接口:以接口形式向用戶提供對元數(shù)據(jù) 增、刪、改、查的服務(wù),包括:源數(shù)據(jù)信息、數(shù)據(jù)倉庫信息、星型模型信息、維信息、維表字段信息、事實表字段信息、映射事實表字段信息、映射維表字段信息、鏈接事實表與維表字段的信息。元數(shù)據(jù)的存儲:元數(shù)據(jù)管理器中的元數(shù)據(jù)存儲程序負(fù)責(zé)接收由接口程序傳遞來的關(guān)于對元數(shù)據(jù)進(jìn)行增加、修改和刪除等信息,并根據(jù)所提供的參數(shù)執(zhí)行存儲過程,將元數(shù)據(jù)的有關(guān)信息保存于服務(wù)器端的元數(shù)據(jù)庫中。35元數(shù)據(jù)管理器的設(shè)計與實現(xiàn)元數(shù)據(jù)的作用:定義數(shù)據(jù)倉庫的

25、作用,指明數(shù)據(jù)倉庫中信息的內(nèi)容和位置,刻畫數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)則,存儲與數(shù)據(jù)倉庫主題有關(guān)的各種商業(yè)信息。在客戶端提供圖形化界面工具。例如,用戶想在多維模型中加入一維或者在某一維中加入維元素,不僅可以通過圖形化界面工具完成而且可以在用戶自已編寫的應(yīng)用程序中調(diào)用應(yīng)用程序接口函數(shù),修改后的結(jié)果將記入元數(shù)據(jù)庫中。然后系統(tǒng)將根據(jù)元數(shù)據(jù)庫中的新內(nèi)容進(jìn)行數(shù)據(jù)的追加。36操作數(shù)據(jù)存儲Business data warehouse業(yè)務(wù)系統(tǒng)(Operational systems)數(shù)據(jù)集市(Data marts)操作數(shù)據(jù)存儲(Operational data store)元數(shù)據(jù)(MetaData)37數(shù)據(jù)倉庫中的數(shù)

26、據(jù)組織高度綜合級輕度綜合級當(dāng)前綜合級早期細(xì)節(jié)級多級數(shù)據(jù)38數(shù)據(jù)倉庫的數(shù)據(jù)模型 星型圖模型 物理數(shù)據(jù)模型概念模型邏輯模型物理模型面向用戶的需求細(xì) 化層次更詳細(xì)的技術(shù)細(xì)節(jié)信息包圖39數(shù)據(jù)倉庫建模和設(shè)計Process of building an abstract model for the data, which is stored in the data and represents the data warehouse content.40概念模型由于大多數(shù)商務(wù)數(shù)據(jù)是多維的,但傳統(tǒng)的數(shù)據(jù)模型表示三維以上的數(shù)據(jù)有一定困難。概念模型簡化了這個過程并且允許用戶與開發(fā)者和其他用戶建立聯(lián)系:確定系統(tǒng)邊界

27、:決策類型、需要的信息、原始信息確定主題域及其內(nèi)容:主題域的公共鍵碼、聯(lián)系、屬性組確定維度:如時間維、銷售位置維、產(chǎn)品維、組別維等確定類別:相應(yīng)維的詳細(xì)類別確定指標(biāo)和事實:用于進(jìn)行分析的數(shù)值化信息41實例例試畫出銷售分析的概念模型。解:首先根據(jù)銷售分析的實際需求,確定信息包的維度、類別和指標(biāo)與事實:(1)維度:包括日期維、銷售地點維、銷售產(chǎn)品維、年齡組別維、性別維等。(2)類別:確定各維的詳細(xì)類別,如:日期維包括年(10)、季度(40)、月(120)等類別,括號中的數(shù)字分別指出各類別的數(shù)量;銷售地點維包括國家(15)、區(qū)域(45)、城市(280)、區(qū)(880)、商店(2000)等類別,括號中的

28、數(shù)字同樣分別指出各類別的數(shù)量;類似地,可以確定銷售產(chǎn)品、年齡組別維、性別維等的詳細(xì)類別。(3)度量和事實:確定用于進(jìn)行分析的數(shù)值化信息,包括預(yù)測銷售量、實際銷售量和預(yù)測偏差等。 42銷售分析的概念模型日期銷售地點銷售產(chǎn)品年齡組別性別年(10)國家(15)產(chǎn)品類(6)年齡組(8)性別組(2)季度(40)區(qū)域(45)產(chǎn)品組(48)月(120)城市(280)產(chǎn)品(240)區(qū)(880)商店(2000)度量和事實:預(yù)測銷售量、實際銷售量、預(yù)測偏差信息包: 銷售分析維度類別43概念模型圖實例44邏輯模型星型圖:數(shù)據(jù)倉庫的數(shù)據(jù)模型的第二層是向最終的數(shù)據(jù)結(jié)構(gòu)添加某些細(xì)節(jié)的星型圖模型。與傳統(tǒng)的關(guān)系模型相比,星型

29、圖模型簡化了用戶分析所需的關(guān)系,從支持決策的角度去定義數(shù)據(jù)實體,更適合大量復(fù)雜查詢。星形圖包括了三種邏輯實體:指標(biāo)、維度和詳細(xì)類別維表的本質(zhì)是多維分析空間在某個角度上的投影,多個維表共同建立一個多維分析空間。45sales數(shù)據(jù)倉庫的雪花模式 46Information Modelling of Sales Information Demand Unique IdentifierAttribute Strong Entity Type 1-n Relationship 0-n Relationship Derived AttributeWeak Entity Type47DW Layer and

30、 the Mapping to Information Model Data Warehouse Layer(logical layer)Information Model(conceptual layer)MapInformation Objects To Database fields- Rename Objects to User friendly names- Calculate fields- Define object display attributes- Convert currencies etc.48星型模型例子49物理數(shù)據(jù)模型物理數(shù)據(jù)模型:數(shù)據(jù)模型的第三層,它是星型圖模型

31、在數(shù)據(jù)倉庫中的實現(xiàn),如物理的存取方式、數(shù)據(jù)存儲結(jié)構(gòu)等。在物理設(shè)計時,常常要按數(shù)據(jù)的重要程度、使用頻率以及對響應(yīng)時間的要求進(jìn)行分類,并將不同類的數(shù)據(jù)分別存儲在不同的存儲設(shè)備中。重要程度高、經(jīng)常存取并對響應(yīng)時間高的數(shù)據(jù)就存放在高速存儲設(shè)備上,如硬盤;存取頻率低或?qū)Υ嫒№憫?yīng)時間要求低的數(shù)據(jù)則可以放在低速存儲設(shè)備上。50粒度粒度:對數(shù)據(jù)倉庫中的數(shù)據(jù)綜合程度高低的一個度量,它既影響數(shù)據(jù)倉庫中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉庫所能回答詢問的種類。粒度越小,綜合程度越低,回答查詢的種類越多; 粒度越高,綜合程度越高,查詢的效率也越高。在數(shù)據(jù)倉庫中可將小粒度的數(shù)據(jù)存儲在低速存儲器上;大粒度的數(shù)據(jù)存儲在高速存儲器上

32、。51維度維度:是一個物理特性(如時間、地點、產(chǎn)品等),它是表達(dá)數(shù)據(jù)倉庫中信息的一個基本途徑,可作為標(biāo)識數(shù)據(jù)的索引。通常的報表只包含有行和列兩維,但在數(shù)據(jù)倉庫中所存儲的數(shù)據(jù)大多是用多維(三維或三維以上)視圖表示的。例如:一個銷售系統(tǒng)中的數(shù)據(jù)可分為時間維、產(chǎn)品維和地理位置維等;一個財務(wù)系統(tǒng)中的數(shù)據(jù)可分為時間維、支出維和收入維等;一個企業(yè)決策支持系統(tǒng)中的數(shù)據(jù)可分為成本開支維、銷售收入維、利潤維、股票價值維等。 52聚合在數(shù)據(jù)倉庫技術(shù)中,每一維可包括多個層次,這些層次反過來可以向用戶提供某一層次的數(shù)據(jù)。例如,在地理位置維中,由所有的街區(qū)組成了地區(qū),由所有的地區(qū)組成了城市等。聚合就是指在維的不同層次內(nèi)

33、移動數(shù)據(jù),從而構(gòu)成維內(nèi)不同層次的數(shù)據(jù)集,使用戶不僅能夠在一個維度內(nèi)觀察數(shù)據(jù),而且能夠在維度內(nèi)的不同層次上觀察數(shù)據(jù)。聚合和匯總不同53分解與合成分解與合成是在一個維度內(nèi)進(jìn)一步細(xì)分?jǐn)?shù)據(jù)或?qū)?shù)據(jù)按照另一標(biāo)準(zhǔn)組合的過程。例如,當(dāng)以地理位置維觀察數(shù)據(jù)時,用戶可以首先以國家(如中國)為單位觀察數(shù)據(jù),然后可以選擇觀察某一個地區(qū)(如華東地區(qū))的數(shù)據(jù),接下來可以選擇觀察某一個省或城市(如上海)的數(shù)據(jù),這就是數(shù)據(jù)分解的過程。而合成則是分解的逆過程,例如用戶開始以省市為觀察對象,接著再以地區(qū)、國家等為觀察對象,就是一個數(shù)據(jù)合成的過程。54數(shù)據(jù)倉庫的數(shù)據(jù)組織為了提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與事務(wù)型處理及其數(shù)據(jù)相分離,把分析型處理所需要的數(shù)據(jù)從事務(wù)型處理環(huán)境中提取出來,按照分析型處理的要求進(jìn)行重新組織,建立單獨的分析處理環(huán)境。數(shù)據(jù)倉庫正是構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術(shù)。數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)不同

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論