數(shù)據(jù)倉庫實踐系列課程(1)-數(shù)據(jù)倉庫基本概念_第1頁
數(shù)據(jù)倉庫實踐系列課程(1)-數(shù)據(jù)倉庫基本概念_第2頁
數(shù)據(jù)倉庫實踐系列課程(1)-數(shù)據(jù)倉庫基本概念_第3頁
數(shù)據(jù)倉庫實踐系列課程(1)-數(shù)據(jù)倉庫基本概念_第4頁
數(shù)據(jù)倉庫實踐系列課程(1)-數(shù)據(jù)倉庫基本概念_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)倉庫實踐系列課程(1)

——數(shù)據(jù)倉庫基本概念文思海輝?Pactera.Confidential.AllRightsReserved.2數(shù)據(jù)倉庫概念數(shù)據(jù)模型介紹數(shù)據(jù)管理介紹數(shù)據(jù)倉庫項目實施數(shù)據(jù)倉庫出現(xiàn)的背景需求的變化業(yè)務(wù)系統(tǒng)的建設(shè)逐漸完善分析類需求不斷增加不斷增加的信息孤島導(dǎo)致數(shù)據(jù)集成問題不斷增加技術(shù)發(fā)展狀況關(guān)系數(shù)據(jù)庫技術(shù)日趨成熟報表和復(fù)雜查詢處理起來非常困難各個系統(tǒng)之間數(shù)據(jù)不一致數(shù)據(jù)倉庫與OLTPOLTP系統(tǒng)(生產(chǎn)系統(tǒng))面向應(yīng)用事務(wù)驅(qū)動的實時性高數(shù)據(jù)檢索量相對少只存當前數(shù)據(jù)數(shù)據(jù)倉庫系統(tǒng)(決策系統(tǒng))面向主題分析和決策實時性要求不是特別高數(shù)據(jù)檢索量大存儲大量的歷史數(shù)據(jù)和當前數(shù)據(jù)分析型系統(tǒng)與操作型系統(tǒng)之間的區(qū)別操作型數(shù)據(jù)分析型數(shù)據(jù)細節(jié)的細節(jié)的,綜合的,或提煉的在存取瞬間是準確的代表過去的數(shù)據(jù)可更新不更新操作需求事先可知道操作需求事先不知道對性能要求高對性能要求相對寬松一個時刻操作一單元一個時刻操作一集合事務(wù)驅(qū)動分析驅(qū)動面向應(yīng)用面向分析一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常操作支持管理需求數(shù)據(jù)倉庫建設(shè)的分歧數(shù)據(jù)倉庫建設(shè)的分歧BillInmonKimball1991年,提出了企業(yè)級數(shù)據(jù)倉庫企業(yè)級數(shù)據(jù)倉庫建設(shè)遭受大面積失敗Kimball出版了TheDataWarehouseToolkit數(shù)據(jù)集市建設(shè)在初期取得了成功多個數(shù)據(jù)集市之間的復(fù)雜的ETL/數(shù)據(jù)不一致爭論與混亂期(1996-1997)EDWODSDataMart走向融合(1998-2001)提出了企業(yè)信息工廠(CorporateInformationFactory)的架構(gòu),融合了EDW/ODS/DataMartKimball也提出了數(shù)據(jù)倉庫的擴展架構(gòu),把EDW/ODS/DataMart結(jié)合在了一起數(shù)據(jù)倉庫理論的形成數(shù)據(jù)倉庫的四個特征數(shù)據(jù)倉庫是面向主題的(Subject-Oriented)集成的(Integrated)隨時間不斷變化(Time-variant)不可更新的(Nonvolatile) 數(shù)據(jù)倉庫之父:BillInmon數(shù)據(jù)倉庫面向主題與面向應(yīng)用OLTP應(yīng)用是面向應(yīng)用進行數(shù)據(jù)組織的分析應(yīng)用面向主題進行組織主題一個抽象的概念在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。例如:對于一個保險公司來說OLTP數(shù)據(jù)庫所面向的應(yīng)用可能是汽車保險、健康保險、人壽保險與意外傷亡保險數(shù)據(jù)倉庫所面向的主題域可能是顧客、保險單、保險費與索賠。目前主流的數(shù)據(jù)倉庫大都是采用關(guān)系數(shù)據(jù)庫技術(shù)來實現(xiàn)的數(shù)據(jù)倉庫的數(shù)據(jù)最終也會用關(guān)系模型表現(xiàn)。因此要把握主題和面向主題的概念,需要將它們提高到一個更高的抽象層次上來理解,也就是要特別強調(diào)概念的邏輯意義。數(shù)據(jù)集成數(shù)據(jù)集成的內(nèi)務(wù)數(shù)據(jù)清洗按照數(shù)據(jù)質(zhì)量管理的要求進行數(shù)據(jù)的清洗數(shù)據(jù)轉(zhuǎn)換按照源系統(tǒng)與數(shù)據(jù)倉庫中模型之間的差異進行轉(zhuǎn)換數(shù)據(jù)整合不同源系統(tǒng)的數(shù)據(jù)在數(shù)據(jù)倉庫中可能會進入到相同的模型中為什么要進行數(shù)據(jù)集成?源系統(tǒng)的多樣性數(shù)據(jù)質(zhì)量的要求模型的差異不可更新與不斷變化不可更新不會修改細節(jié)數(shù)據(jù)(源系統(tǒng)傳來的詳細數(shù)據(jù))數(shù)據(jù)轉(zhuǎn)換:通常需要保留原值不斷變化不斷增加新的數(shù)據(jù)刪除舊的數(shù)據(jù)新的匯總周期帶來的新的匯總數(shù)據(jù)數(shù)據(jù)集市數(shù)據(jù)集市(DataMart)是部門級決策支持的數(shù)據(jù)集合。數(shù)據(jù)集市數(shù)據(jù)倉庫數(shù)據(jù)訪問與分析(企業(yè)級)(部門級)數(shù)據(jù)集市數(shù)據(jù)集市建設(shè)的幾種體系架構(gòu)數(shù)據(jù)倉庫邏輯數(shù)據(jù)集市物理數(shù)據(jù)集市依賴數(shù)據(jù)集市獨立數(shù)據(jù)集市14?Pactera.Confidential.AllRightsReserved.數(shù)據(jù)集市的缺點多個數(shù)據(jù)模型多個傳輸轉(zhuǎn)換程序數(shù)據(jù)不一致系統(tǒng)復(fù)雜,難于維護生產(chǎn)系統(tǒng)獨立數(shù)據(jù)集市市場部......財務(wù)部儲蓄系統(tǒng)信用卡系統(tǒng)MedicaidWelfareMentalHealthChildServices分布式(數(shù)據(jù)集市)集中式(數(shù)據(jù)倉庫)MedicaidWelfareMentalHealthChildServicesEmployeesClientServicesProgramEffectivenessDistrictOfficesCostsEligibility“垂直”“水平”數(shù)據(jù)倉庫與數(shù)據(jù)集市的業(yè)務(wù)分析能力DW/DM的流派之爭----BillInmon與RalphKimballADW(ActiveDataWarehouse)n=1,072BI已經(jīng)深入到企業(yè)的各個部門后臺管理人員前臺業(yè)務(wù)人員問:BI在您的企業(yè)中的哪些領(lǐng)域被用來制定關(guān)鍵的決策,請選擇所有適用的選項。Source:IDCWhitePaper,“TamingInformationChaos”,Nov2007BI已經(jīng)不僅僅是辦公室的管理人員的專利主要發(fā)現(xiàn)在美國企業(yè)中,監(jiān)管和審計要求(SarbOx)是驅(qū)動BI應(yīng)用的重要原因–這是與其它地區(qū)非常大的區(qū)別。IDC觀點財務(wù)分析通常是BI應(yīng)用的主要推動力,但這一應(yīng)用仍然只有不到50%的企業(yè)使用。n=1,072BI在企業(yè)內(nèi)部的用戶群Q:在您的企業(yè)中,哪些用戶正在通過BI的解決方案在獲取信息。請選擇所有適用的答案Source:IDCWhitePaper,“TamingInformationChaos”,Nov2007BI深入企業(yè)的各個層面主要發(fā)現(xiàn)一線業(yè)務(wù)人員也急需決策支持。BI從后端角落里轉(zhuǎn)移到企業(yè)的中心。BI解決方案不僅向內(nèi)部人員提供訪問,而且向外部用戶提供訪問。領(lǐng)導(dǎo)企業(yè)中,外部用戶可以訪問BI的比例是平均值的兩倍。IDC觀點業(yè)務(wù)分析解決方案可以幫助企業(yè)中的各類用戶群。BI解決方案不僅幫助業(yè)務(wù)分析人員和高層管理者。支持外部用戶可以加強外部用戶對企業(yè)的依賴,從而增強用戶關(guān)系。內(nèi)部外部什么是并行處理并行處理的概念在某一個數(shù)據(jù)庫系統(tǒng)中能同時采用多個硬件設(shè)備完成某一任務(wù)的方法。多個硬件設(shè)備可同時工作于該任務(wù)的不同方面。并行處理的主要目的是節(jié)省大型和復(fù)雜問題的解決時間。并行處理與并發(fā)處理并發(fā)是指在某一個數(shù)據(jù)庫系統(tǒng)中允許多個任務(wù)的同時執(zhí)行,任務(wù)與任務(wù)之間沒有聯(lián)系。并行是指將一個任務(wù)劃分為多個子任務(wù),這些子任務(wù)同時執(zhí)行。在所有子任務(wù)處理完成后,將它們的結(jié)果進行合并,就得到該任務(wù)的最終處理結(jié)果OLTP與OLAP對系統(tǒng)的不同要求OLTP操作使用特點請求短小而密集技術(shù)要求能夠?qū)⒂脩舻恼埱筮M行均衡分擔(dān)并發(fā)操作。OLAP操作使用特點請求龐大而稀疏每一個查詢和統(tǒng)計都很復(fù)雜,但訪問的頻率并不是很高技術(shù)要求能夠?qū)⑺械挠布Y源調(diào)動起來為這一個復(fù)雜的查詢請求服務(wù)并行處理結(jié)論并行處理技術(shù)在數(shù)據(jù)倉庫中比OLTP系統(tǒng)更加重要。并行技術(shù)的幾種類型SMPSymmetricMulti-Processor對稱多處理器NUMANon-UniformMemoryAccess非一致存儲訪問結(jié)構(gòu)MPPMassiveParallelProcessing海量并行處理結(jié)構(gòu)SMPCPU服務(wù)器中多個CPU對稱工作,無主次或從屬關(guān)系。CPU共享相同的物理內(nèi)存,每個CPU訪問內(nèi)存中的任何地址所需時間是相同的。也被稱為一致存儲器訪問結(jié)構(gòu)(UMA:UniformMemoryAccess)。特征共享:系統(tǒng)中所有資源(CPU、內(nèi)存、I/O等)都是共享的。沖突:每個CPU必須通過相同的內(nèi)存總線訪問相同的內(nèi)存資源,因此隨著CPU數(shù)量的增加,內(nèi)存訪問沖突將迅速增加。SMP的性能擴展實驗證明,SMP服務(wù)器CPU利用率最好的情況是2至4個CPU。NUMANUMA的特征CPU具有多個CPU模塊每個CPU模塊由多個CPU(如4個)組成每個CPU模塊具有獨立的本地內(nèi)存、I/O槽口每個CPU模塊之間可以通過互聯(lián)模塊進行連接和信息交互特征可以較好地解決原來SMP系統(tǒng)的擴展問題,在一個物理服務(wù)器內(nèi)可以支持上百個CPU訪問本地內(nèi)存的速度將遠遠高于訪問遠地內(nèi)存當CPU數(shù)量增加時,系統(tǒng)性能無法線性增加MPP系統(tǒng)架構(gòu)由多個SMP服務(wù)器通過一定的節(jié)點互聯(lián)網(wǎng)絡(luò)進行連接協(xié)同工作,完成相同的任務(wù)從用戶的角度來看是一個服務(wù)器系統(tǒng)基本特征由多個SMP服務(wù)器(每個SMP服務(wù)器稱節(jié)點)通過節(jié)點互聯(lián)網(wǎng)絡(luò)連接而成每個節(jié)點只訪問自己的本地資源(內(nèi)存、存儲等)ShareNothing結(jié)構(gòu)擴展能力最好與NUMA的區(qū)別不存在異地內(nèi)存訪問的問題節(jié)點之間的信息交互是通過節(jié)點互聯(lián)網(wǎng)絡(luò)實現(xiàn)的這個過程一般稱為數(shù)據(jù)重分配(DataRedistribution)數(shù)據(jù)倉庫應(yīng)用的特征數(shù)據(jù)倉庫大量復(fù)雜的數(shù)據(jù)處理要求很高的I/O處理能力存儲系統(tǒng)提供足夠的I/O帶寬與之匹配OLTP每個交易所涉及的數(shù)據(jù)不多要求系統(tǒng)具有很高的事務(wù)處理能力能夠在單位時間里處理盡量多的交易NUMA架構(gòu)更適用于OLTP事務(wù)處理環(huán)境大量復(fù)雜的數(shù)據(jù)處理必然導(dǎo)致大量的數(shù)據(jù)交互,將使CPU的利用率大大降低體系架構(gòu)決定了可擴展能力LargeSMP/NUMA設(shè)計來做OLAP應(yīng)用對于小數(shù)據(jù)量的應(yīng)用效率很高當CPU數(shù)量增加以及數(shù)據(jù)量增加的時候,由于資源競爭導(dǎo)致效率急劇下降。MemoryCacheCacheCPU(s)MemoryCacheCPU(s)CPU(s)MemorySPEEDLIMIT55

Disk

StorageDisk

StorageCPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CacheCacheCacheCacheCacheCacheCacheCacheMemoryMemoryMemoryMemoryMemoryMemoryMemoryMemoryDiskStorageDiskStorageDiskStorageDiskStorageDiskStorageDiskStorageDiskStorageDiskStorage交換網(wǎng)絡(luò)通過互聯(lián)網(wǎng)絡(luò)訪問共享內(nèi)存CPU通過互聯(lián)網(wǎng)絡(luò)訪問共享磁盤Shared-NothingMPP斜率為1的線性擴展被優(yōu)化用作非常大量的磁盤讀寫對數(shù)據(jù)倉庫應(yīng)用來講,效率非常高

線性擴展斜率為1NUMA衰減20%SMP衰減10%

CPU個數(shù)系統(tǒng)性能11109876543211 2 3 4 5 6 7 8 9 10

有時候這個也被稱作線性擴展共享資源導(dǎo)致CPU效率降低ScalingResultsofSMP/NUMAandMPP架構(gòu)選擇示例?Pactera.Confidential.AllRightsReserved.32數(shù)據(jù)倉庫概念數(shù)據(jù)模型介紹數(shù)據(jù)管理介紹數(shù)據(jù)倉庫項目實施模型和數(shù)據(jù)模型模型——現(xiàn)實世界特征的模擬和抽象,比如地圖、建筑設(shè)計沙盤,模型飛機等。數(shù)據(jù)模型DataModel——是現(xiàn)實世界數(shù)據(jù)特征的抽象。數(shù)據(jù)模型數(shù)據(jù)模型從計算機實現(xiàn)的觀點來對數(shù)據(jù)建模是信息世界中的概念和聯(lián)系在計算機世界中的表示方法一般有嚴格的形式化定義,以便于在計算機上實現(xiàn)數(shù)據(jù)模型種類數(shù)據(jù)模型層次模型網(wǎng)狀模型關(guān)系模型多維模型層次模型層次模型用樹結(jié)構(gòu)表示實體之間聯(lián)系的模型叫層次模型樹由節(jié)點和連線組成節(jié)點代表實體型連線表示兩實體型間的一對多聯(lián)系樹的特性每棵樹有且僅有一個節(jié)點無父節(jié)點,稱為樹的根樹中的其它節(jié)點都有且僅有一個父節(jié)點層次模型地址系名系號教研室名教研室號年級姓名學(xué)號職稱姓名職工號系教研室學(xué)生教員1:N聯(lián)系實體層次模型優(yōu)點結(jié)構(gòu)簡單,易于實現(xiàn)缺點支持的聯(lián)系種類太少只支持二元一對多聯(lián)系數(shù)據(jù)操縱不方便子結(jié)點的存取只能通過父結(jié)點來進行插入、刪除復(fù)雜代表產(chǎn)品:IBM的IMS數(shù)據(jù)庫,1969年研制成功網(wǎng)狀模型網(wǎng)狀模型是一個滿足下列條件的有向圖可以有一個以上的節(jié)點無父節(jié)點至少有一個節(jié)點有多于一個的父節(jié)點(排除樹結(jié)構(gòu))節(jié)點代表實體,有向邊(從箭尾到箭頭)表示兩實體間的一對多聯(lián)系學(xué)生課程選課網(wǎng)狀模型優(yōu)點表達的聯(lián)系種類豐富缺點結(jié)構(gòu)復(fù)雜語言復(fù)雜代表產(chǎn)品HP的IMAGE,

CullinetSoftware公司的IDMS等關(guān)系模型屬性元組男女男性別192221年齡D01李紅S02D02王偉S03D01張軍S01系號姓名學(xué)號Thebasicprincipleoftherelationalmodelisthe

InformationPrinciple:all

information

isrepresentedby

datavalues

inrelations.關(guān)系模型簡單,表的概念直觀、單一,用戶易理解非過程化的數(shù)據(jù)請求,數(shù)據(jù)請求可以不指明路徑數(shù)據(jù)獨立性,用戶只需提出“做什么”,無須說明“怎么做”堅實的理論基礎(chǔ)關(guān)系數(shù)據(jù)建模E.F.Codd于70年代初提出關(guān)系數(shù)據(jù)理論,他因此獲得1981年的ACM圖靈獎關(guān)系理論,是以“關(guān)系”(RELATION)為中心的,指的是具有單值(singlevalued)項的二維表。關(guān)系模型為我們提供了數(shù)據(jù)組織的技術(shù),這種技術(shù)考慮到了存儲與檢索數(shù)據(jù)過程中數(shù)據(jù)的一致性,并采用了公認的數(shù)學(xué)運算方法。規(guī)范化理論提出了一些規(guī)則,這些規(guī)則以新的方式來組織數(shù)據(jù),從而減少冗余和數(shù)據(jù)異常。規(guī)范化什么是規(guī)范化一種對數(shù)據(jù)元素進行組織的數(shù)據(jù)建模技術(shù),消除數(shù)據(jù)冗余,確保數(shù)據(jù)一致性。Normalizationisasetofrulesandamethodologyformakingsurethattheattributesinadesignarecarriedinthecorrectentitytomapaccuratelytoreality,eliminatedataredundancyandminimizeupdateanomalies.非規(guī)范化的數(shù)據(jù)庫非規(guī)范數(shù)據(jù)庫導(dǎo)致的數(shù)據(jù)異?,F(xiàn)象:更新異常。數(shù)據(jù)多處存放,更新時可能會導(dǎo)致數(shù)據(jù)不一致。插入異常。插入數(shù)據(jù)可能會導(dǎo)致原有的關(guān)系被破壞。刪除異常。刪除數(shù)據(jù)可能會導(dǎo)致其他關(guān)系被刪除。Arelationisinfirstnormalformifitcontainsatomicvaluesonlyandnorepeatingvalues.第一范式(1NF)第二范式(2NF)Before- Cust#andCustNamearedependentonlyonPO#,notthewholeprimarykey.Cust#QtyPO#SeqNumPartNamePart#CustNameAfter(2NF)–Part#,PartName,andQtyareeachfullydependentontheprimarykey.Part#QtyPO#SeqNumPartNameCust#PO#CustNameArelationisinsecondnormalformifitisin1NFandeverynon-keyattributeisfullyfunctionallydependentontheprimarykey.第三范式(3NF)After(3NF)–Part#andQtyaremutuallyindependent.PartNamePart#Part#QtyPO#SeqNumArelationisinthirdnormalformifitisin2NFandeverynon-keyattributeismutuallyindependent(non-transitivelydependentontheprimarykey).Before-PartNameisdependentonPart#.Part#QtyPO#SeqNumPartNameCust#PO#CustNameneedtobechanged?多維模型多維模型通常用Cube來表示。多維模型可以更加直觀的表示現(xiàn)實中的復(fù)雜關(guān)系多維模型的基本組成:維、度量。舉例:計算每一個商場、每個產(chǎn)品的銷售額ProductStore多維模型發(fā)展聯(lián)機分析處理(OLAP)的提出聯(lián)機事務(wù)處理OLTP無法適應(yīng)分析型應(yīng)用的需求,包括對大量的數(shù)據(jù)從各個角度進行綜合分析(多維分析),從不同級別(層次)進行綜合分析。聯(lián)機分析處理(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的,他同時提出了關(guān)于OLAP的12條準則。OLAP的提出引起了很大的反響,OLAP作為一類產(chǎn)品同聯(lián)機事務(wù)處理(OLTP)明顯區(qū)分開來。多維數(shù)據(jù)模型的組成維(Dimension)維層次路徑、維層次、維成員(維實例)、維層次屬性度量(Measure)數(shù)據(jù)立方體(Cube)維維的組織方式:維層次路徑(HIERARCHY)維層次路徑由代表不同詳細程度的維層次(Level)組成。維的層次:特定角度的不同細節(jié)程度維:對數(shù)據(jù)進行分類的一種結(jié)構(gòu),用于從特定的角度觀察數(shù)據(jù)。(例如:時間、地區(qū)、產(chǎn)品)維的兩個用途 選擇針對期望詳細程度的層次的數(shù)據(jù) 分組對細節(jié)數(shù)據(jù)綜合(聚集)到相應(yīng)的詳細程度的數(shù)據(jù)層次度量度量(指標):數(shù)據(jù)的實際意義,一般是一個數(shù)值度量指標例如:銷售量、銷售額,……一個度量的兩個組件數(shù)字型指標聚集函數(shù)Cube一個多維模型構(gòu)成的多維數(shù)據(jù)空間我們將其稱做數(shù)據(jù)立方體(Cube)其邏輯上相當于一個多維數(shù)組這個方格代表在某個時間、某個地區(qū)通過某個銷售渠道所銷售的產(chǎn)品的銷售額地域時間銷售渠道

多維分析的基本分析動作切片(Slice)切塊(Dice)旋轉(zhuǎn)(Rotate)鉆取(Rollup/Drilldown)切片切塊timetime=“December2008”旋轉(zhuǎn)鉆取多維數(shù)據(jù)模型的實現(xiàn)技術(shù)RelationalOLAP(ROLAP)利用關(guān)系數(shù)據(jù)庫來存儲和管理基本數(shù)據(jù)和聚合數(shù)據(jù),并利用一些中間件來支持缺失數(shù)據(jù)的處理具有良好的可擴展性MultidimensionalOLAP(MOLAP)利用多維數(shù)據(jù)庫來存放和管理基本數(shù)據(jù)和聚合數(shù)據(jù),其中需要對稀疏矩陣處理技術(shù)對預(yù)綜合的數(shù)據(jù)進行快速索引HybridOLAP(HOLAP)利用關(guān)系數(shù)據(jù)庫來存儲和管理基本數(shù)據(jù),利用多維數(shù)據(jù)庫來存儲和管理聚合數(shù)據(jù)。星型模式(StarSchema)雪花模式(SnowFlakeSchema)數(shù)據(jù)架構(gòu)緩沖層結(jié)構(gòu)幾乎和源系統(tǒng)一致保持業(yè)務(wù)原貌少量數(shù)據(jù)保持少量歷史整合層面向整合主題設(shè)計提供規(guī)范和共享應(yīng)用集市層面向應(yīng)用按需定制匯總層初級的數(shù)據(jù)加工明細VS匯總依賴對應(yīng)用的提煉分析型應(yīng)用系統(tǒng)靈活查詢數(shù)據(jù)挖掘其他OLAP固定報表/KPIDashboard數(shù)據(jù)接口行內(nèi)系統(tǒng)接口行外系統(tǒng)接口IT人員業(yè)務(wù)分析人員決策用戶高級分析人員模型描述應(yīng)用模式應(yīng)用數(shù)據(jù)模型Application匯總層指星型固定查詢與報表初級階段的Ad-hoc匯雪花預(yù)Fact表偏邏輯化模型的PDM高階Ad-hoc數(shù)據(jù)挖掘源模型單系統(tǒng)固定報表及審計ETC專項應(yīng)用?Pactera.Confidential.AllRightsReserved.64數(shù)據(jù)倉庫概念數(shù)據(jù)模型介紹數(shù)據(jù)管理介紹數(shù)據(jù)倉庫項目實施基本概念元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),其內(nèi)容主要包括數(shù)據(jù)的格式、結(jié)構(gòu)、約束、加工過程、部署情況等。元數(shù)據(jù)管理包括元數(shù)據(jù)采集與關(guān)聯(lián)、元數(shù)據(jù)信息維護、標準代碼及術(shù)語信息維護等內(nèi)容。對元數(shù)據(jù)的分析包括血緣分析、影響分析等。元數(shù)據(jù)管理——什么是元數(shù)據(jù)元數(shù)據(jù)業(yè)務(wù)元數(shù)據(jù)業(yè)務(wù)屬性業(yè)務(wù)實體數(shù)據(jù)質(zhì)量業(yè)務(wù)規(guī)則技術(shù)元數(shù)據(jù)列/字段表/視圖/文件數(shù)據(jù)庫/文件服務(wù)器數(shù)據(jù)質(zhì)量控制規(guī)則數(shù)據(jù)映射邏輯……業(yè)務(wù)指標企業(yè)級數(shù)據(jù)模型/

數(shù)據(jù)規(guī)范定義數(shù)據(jù)質(zhì)量貸款余額的定義貸款合同的定義還款日期>貸款日期CAPMCURBALCAPMdb2、sybase、oracleLen(身份證)=15或18ETL過程……不良貸款率的口徑指標體系、報表體系數(shù)據(jù)質(zhì)量包含子項示例關(guān)聯(lián)工作數(shù)據(jù)架構(gòu)業(yè)務(wù)元數(shù)據(jù)與技術(shù)元數(shù)據(jù)數(shù)據(jù)倉庫的例子城市的例子對象T03_Agreement鼓樓技術(shù)元數(shù)據(jù)1:19個字段2:1個索引3:41個源、20個目標、0接口文件4:65個ETL任務(wù)5:對應(yīng)LDM實體—協(xié)議6:共修改3次1:8條公交2:一條地鐵3:北向南單行線4:附近的餐館、旅館5:門票20元業(yè)務(wù)元數(shù)據(jù)協(xié)議是金融機構(gòu)與團體之間針對某種特定產(chǎn)品或服務(wù)而簽立的契約關(guān)系如:風(fēng)險敞口的計算、不同種類協(xié)議的評級、資產(chǎn)負債的缺口分析、客戶和銀行的往來情況(客戶貢獻、客戶買的什么產(chǎn)品、何時購買的產(chǎn)品)等。

北京鼓樓在東城區(qū)地安門外大街。明永樂十八年(1420年)建,清嘉慶五年(1800年)重修。北京鼓樓下為高約4米的城臺,北京鼓樓臺前后各有券門三道,左右各一道。北京鼓樓面闊5間,重檐三滴水灰瓦歇山頂。北京鼓樓是明清兩代向全城擊鼓報時之處。數(shù)據(jù)倉庫為什么需要元數(shù)據(jù)管理普通的應(yīng)用為什么不需要元數(shù)據(jù)管理?表的數(shù)量少數(shù)據(jù)加工簡單數(shù)據(jù)來源單一訪問方式單一交鑰匙的應(yīng)用數(shù)據(jù)倉庫為什么必須元數(shù)據(jù)管理?上下游系統(tǒng)多,變更頻繁加工復(fù)雜用戶訪問方式復(fù)雜維護周期長某銀行的DW數(shù)據(jù)舉例:上游系統(tǒng)60個,下游系統(tǒng)20多個,倉庫內(nèi)部的表12000多個,運行的ETL任務(wù)3000多個,每個月都有新版本上線數(shù)據(jù)質(zhì)量問題背景數(shù)據(jù)倉庫建設(shè)如火如荼數(shù)據(jù)質(zhì)量現(xiàn)狀堪憂ETL源系統(tǒng)數(shù)據(jù)文件企業(yè)級數(shù)據(jù)倉庫數(shù)據(jù)集市多維立方體×!?數(shù)據(jù)質(zhì)量問題對專業(yè)從事數(shù)據(jù)倉庫的人來說,大都聽說過“garbagein,garbageout”這樣的言論,意思是有問題的數(shù)據(jù)產(chǎn)生不出有意義的結(jié)果。有關(guān)“數(shù)據(jù)質(zhì)量”的爭執(zhí)從數(shù)據(jù)倉庫建設(shè)伊始就開始了“我的數(shù)據(jù)不是這樣的,一定是你的數(shù)據(jù)加載有問題”,“我們在其它系統(tǒng)中統(tǒng)計的結(jié)果與你們的不一樣,一定是你們的統(tǒng)計有問題”

……因此,對數(shù)據(jù)質(zhì)量問題的統(tǒng)一認識以及如何“保證”數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量,對數(shù)據(jù)倉庫的接收認可和推廣應(yīng)用起著至關(guān)重要的作用。數(shù)據(jù)質(zhì)量問題概要分析:特點質(zhì)量問題是非常隱蔽的質(zhì)量問題是會擴散的質(zhì)量問題是會遺留的質(zhì)量問題是長期的工作質(zhì)量問題是所有人的工作源數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)集市問題數(shù)據(jù)正常數(shù)據(jù)正常數(shù)據(jù)正常數(shù)據(jù)正常數(shù)據(jù)正常數(shù)據(jù)ETLETL數(shù)據(jù)質(zhì)量管理——方法論影響分析&共性分析第三步

預(yù)防/修復(fù)數(shù)據(jù)質(zhì)量問題人員流程信息趨勢監(jiān)控TimeErrorcount第六步研究趨勢變化ErrorcountTime第一步

Value第二步

追蹤根本原因第四步技術(shù)TimeErrorcount第五步TimeErrorcountErrorcountTimeErrorcountTime定義&驗證ValueNo.ofOccurrencesValue當今最具權(quán)威人士認可的數(shù)據(jù)質(zhì)量管理最佳實踐方式數(shù)據(jù)質(zhì)量管理——處理策略產(chǎn)生環(huán)節(jié)集成環(huán)節(jié)使用環(huán)節(jié)業(yè)務(wù)源系統(tǒng)數(shù)據(jù)倉庫數(shù)據(jù)集市分析型應(yīng)用企業(yè)內(nèi)數(shù)據(jù)的流向數(shù)據(jù)質(zhì)量問題產(chǎn)生的數(shù)量數(shù)據(jù)質(zhì)量問題發(fā)現(xiàn)的數(shù)量基于數(shù)據(jù)倉庫和數(shù)據(jù)集市構(gòu)建數(shù)據(jù)質(zhì)量管理系統(tǒng),并將源系統(tǒng)、相關(guān)應(yīng)用以及相關(guān)科技和業(yè)務(wù)用戶都納入到數(shù)據(jù)質(zhì)量的發(fā)現(xiàn)-修正-跟蹤-評估的閉環(huán)流程當中,是實施企業(yè)級數(shù)據(jù)質(zhì)量管理的最佳選擇。數(shù)據(jù)安全管理——概述數(shù)據(jù)安全管理體系可以分為管理控制策略與技術(shù)控制策略兩大類。管理控制策略:主要指安全管理制度和流程、組織機構(gòu)。技術(shù)控制策略:使用技術(shù)手段監(jiān)視和控制對于數(shù)據(jù)的訪問,即數(shù)據(jù)庫安全、操作系統(tǒng)安全、物理安全和網(wǎng)絡(luò)安全等。數(shù)據(jù)安全管理體系數(shù)據(jù)安全管理——管理策略管理策略包括數(shù)據(jù)安全等級分類、組織機構(gòu)和管理流程安全等級分類機密信息:涉及企業(yè)機密的信息,比如HR數(shù)據(jù)、財務(wù)數(shù)據(jù)敏感信息:涉及客戶隱私的信息,比如證據(jù)信息、聯(lián)系信息公共信息:代碼信息、產(chǎn)品信息、統(tǒng)計匯總信息組織架構(gòu)安全管理策略制定數(shù)據(jù)分類和用戶角色設(shè)定審計和監(jiān)管安全管理措施的執(zhí)行管理流程數(shù)據(jù)需求部門向安全主管部門提出數(shù)據(jù)訪問申請主管部門對該申請進行審核,審核通過后會向申請?zhí)岢稣甙l(fā)訪問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論