數(shù)據(jù)倉(cāng)庫(kù)概述和設(shè)計(jì)_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)概述和設(shè)計(jì)_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)概述和設(shè)計(jì)_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)概述和設(shè)計(jì)_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)概述和設(shè)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2/5/2023大數(shù)據(jù)培訓(xùn)-數(shù)據(jù)倉(cāng)庫(kù)概述講師:楊勇2015年7月電話:133820447282/5/2023數(shù)據(jù)倉(cāng)庫(kù)提綱數(shù)據(jù)倉(cāng)庫(kù)概念數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)及組件數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)(與數(shù)據(jù)庫(kù)技術(shù)的區(qū)別)2/5/2023基本概念—數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)生背景數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是隨著人們對(duì)大型數(shù)據(jù)庫(kù)系統(tǒng)研究的不斷深入,在傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)基礎(chǔ)之上發(fā)展而來(lái)的,其主要目的就是為決策提供支持,為OLAP、數(shù)據(jù)挖掘深層次的分析提供平臺(tái)。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)和實(shí)際應(yīng)用密不可分的研究領(lǐng)域,與傳統(tǒng)數(shù)據(jù)庫(kù)相比,數(shù)據(jù)倉(cāng)庫(kù)不僅引入了許多新的概念,而且在體系結(jié)構(gòu)、數(shù)據(jù)組織等方面,均有其自身的特點(diǎn)。2/5/2023基本概念—數(shù)據(jù)倉(cāng)庫(kù)定義數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)是一個(gè)面向主題的(SubjectOriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,主要用于支持管理決策和信息的全局共享。-----------數(shù)據(jù)倉(cāng)庫(kù)之父BillInmon在1991年出版的“BuildingtheDataWarehouse”(《建立數(shù)據(jù)倉(cāng)庫(kù)》)

2/5/2023基本概念—數(shù)據(jù)倉(cāng)庫(kù)特征 [Inmon,1996]面向主題一個(gè)主題領(lǐng)域的表來(lái)源于多個(gè)操作型應(yīng)用(如:客戶主題,來(lái)源于:定單處理;應(yīng)收帳目;應(yīng)付帳目;…)典型的主題領(lǐng)域:客戶;產(chǎn)品;交易;帳目主題領(lǐng)域以一組相關(guān)的表來(lái)具體實(shí)現(xiàn)相關(guān)的表通過(guò)公共的鍵碼聯(lián)系起來(lái)(如:顧客標(biāo)識(shí)號(hào)CustomerID)每個(gè)鍵碼都有時(shí)間元素(從日期到日期;每月累積;單獨(dú)日期…)主題內(nèi)數(shù)據(jù)可以存儲(chǔ)在不同介質(zhì)上(綜合級(jí),細(xì)節(jié)級(jí),多粒度)集成數(shù)據(jù)提取、凈化、轉(zhuǎn)換、裝載穩(wěn)定性批處理增加,倉(cāng)庫(kù)已經(jīng)存在的數(shù)據(jù)不會(huì)改變隨時(shí)間而變化(時(shí)間維)管理決策支持2/5/2023基本概念—DataMart,ODSDataMart數(shù)據(jù)集市--

小型的,面向部門或工作組級(jí)數(shù)據(jù)倉(cāng)庫(kù)。OperationDataStore操作數(shù)據(jù)存儲(chǔ)—ODS是能支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合,是不同于DB的一種新的數(shù)據(jù)環(huán)境,是DW擴(kuò)展后得到的一個(gè)混合形式。四個(gè)基本特點(diǎn):面向主題的(Subject-Oriented)、集成的、可變的、當(dāng)前或接近當(dāng)前的。2/5/2023基本概念—ETL,元數(shù)據(jù),粒度,分割ETL(也有ELT)ETL(Extract/Transformation/Load)—數(shù)據(jù)裝載、轉(zhuǎn)換、抽取工具。MicrosoftDTS;IBMVisualWarehouseetc.元數(shù)據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù),用于構(gòu)造、維持、管理、和使用數(shù)據(jù)倉(cāng)庫(kù),在數(shù)據(jù)倉(cāng)庫(kù)中尤為重要。粒度數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度越小。分割數(shù)據(jù)分散到各自的物理單元中去,它們能獨(dú)立地處理。2/5/2023數(shù)據(jù)

數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)建設(shè)過(guò)程,而不是一個(gè)產(chǎn)品。數(shù)據(jù)倉(cāng)庫(kù)是通過(guò)對(duì)來(lái)自不同的數(shù)據(jù)源進(jìn)行統(tǒng)一處理及管理,通過(guò)靈活的展現(xiàn)方法來(lái)幫助決策支持。數(shù)據(jù)倉(cāng)庫(kù)最新理解數(shù)據(jù)信息知識(shí)決策獲取管理使用2/5/2023數(shù)據(jù)倉(cāng)庫(kù)提綱數(shù)據(jù)倉(cāng)庫(kù)概念數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)及組件數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)(與數(shù)據(jù)庫(kù)技術(shù)的區(qū)別)2/5/2023數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)及組件體系結(jié)構(gòu)ETL工具元數(shù)據(jù)庫(kù)(Repository)及元數(shù)據(jù)管理數(shù)據(jù)訪問(wèn)和分析工具2/5/2023體系結(jié)構(gòu)

源數(shù)據(jù)庫(kù)系統(tǒng)數(shù)據(jù)抽取、轉(zhuǎn)換加載WarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadata數(shù)據(jù)集市數(shù)據(jù)訪問(wèn)與分析中央數(shù)據(jù)倉(cāng)庫(kù)CentralDataWarehouseMid-TierMid-TierDataMartDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeMDBDataCleansingToolRelationalAppl.PackageLegacyExternalRDBMSRDBMS2/5/2023帶ODS的體系結(jié)構(gòu)源數(shù)據(jù)庫(kù)系統(tǒng)數(shù)據(jù)抽取、轉(zhuǎn)換、加載WarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadata數(shù)據(jù)集市數(shù)據(jù)訪問(wèn)與分析中央數(shù)據(jù)倉(cāng)庫(kù)和ODSCentralDataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl.PackageLegacyExternalMDBEnd-UserDWTools2/5/2023一個(gè)實(shí)際的數(shù)據(jù)倉(cāng)庫(kù)的完整架構(gòu)數(shù)據(jù)轉(zhuǎn)換中央數(shù)據(jù)倉(cāng)庫(kù)信息展現(xiàn)業(yè)務(wù)用戶源數(shù)據(jù)數(shù)據(jù)獲取數(shù)據(jù)管理數(shù)據(jù)使用項(xiàng)目管理數(shù)據(jù)倉(cāng)庫(kù)實(shí)施指導(dǎo)方法論業(yè)務(wù)規(guī)劃信息評(píng)估邏輯數(shù)據(jù)模型設(shè)計(jì)物理數(shù)據(jù)模型設(shè)計(jì)數(shù)據(jù)庫(kù)管理元數(shù)據(jù)管理應(yīng)用開發(fā)顧問(wèn)咨詢知識(shí)轉(zhuǎn)移營(yíng)銷系統(tǒng)財(cái)務(wù)系統(tǒng)物資系統(tǒng)PMS系統(tǒng)抽取轉(zhuǎn)化過(guò)濾加載隨即查詢報(bào)表多維分析數(shù)據(jù)挖掘Portal集成RelationalTransformationOLAPDataMining數(shù)據(jù)集市企業(yè)級(jí)EDW直接用戶(客戶端)Olap用戶Web用戶應(yīng)用服務(wù)器決策者分析員研究員查詢?nèi)藛T2/5/2023數(shù)據(jù)倉(cāng)庫(kù)的焦點(diǎn)問(wèn)題-數(shù)據(jù)的獲得、存儲(chǔ)和使用數(shù)據(jù)倉(cāng)庫(kù)和集市的加載能力至關(guān)重要數(shù)據(jù)倉(cāng)庫(kù)和集市的查詢輸出能力至關(guān)重要RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterpriseDataWarehouseDatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserTool2/5/2023ETL工具去掉操作型數(shù)據(jù)庫(kù)中的不需要的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換數(shù)據(jù)的名稱和定義計(jì)算匯總數(shù)據(jù)和派生數(shù)據(jù)估計(jì)遺失數(shù)據(jù)的缺省值調(diào)節(jié)源數(shù)據(jù)的定義變化

2/5/2023ETL工具體系結(jié)構(gòu)2/5/2023元數(shù)據(jù)庫(kù)及元數(shù)據(jù)管理元數(shù)據(jù)分類:技術(shù)元數(shù)據(jù);商業(yè)元數(shù)據(jù);數(shù)據(jù)倉(cāng)庫(kù)操作型信息。-[AlexBersonetc,1999]技術(shù)元數(shù)據(jù)包括為數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)人員和管理員使用的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)信息,用于執(zhí)行數(shù)據(jù)倉(cāng)庫(kù)開發(fā)和管理任務(wù)。包括:數(shù)據(jù)源信息轉(zhuǎn)換描述(從操作數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)的映射方法,以及轉(zhuǎn)換數(shù)據(jù)的算法)目標(biāo)數(shù)據(jù)的倉(cāng)庫(kù)對(duì)象和數(shù)據(jù)結(jié)構(gòu)定義數(shù)據(jù)清洗和數(shù)據(jù)增加的規(guī)則數(shù)據(jù)映射操作訪問(wèn)權(quán)限,備份歷史,存檔歷史,信息傳輸歷史,數(shù)據(jù)獲取歷史,數(shù)據(jù)訪問(wèn),等等2/5/2023元數(shù)據(jù)庫(kù)及元數(shù)據(jù)管理

商業(yè)元數(shù)據(jù)給用戶易于理解的信息,包括:主題區(qū)和信息對(duì)象類型,包括查詢、報(bào)表、圖像、音頻、視頻等Internet主頁(yè)支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的其它信息,例如對(duì)于信息傳輸系統(tǒng)包括預(yù)約信息、調(diào)度信息、傳送目標(biāo)的詳細(xì)描述、商業(yè)查詢對(duì)象,等數(shù)據(jù)倉(cāng)庫(kù)操作型信息例如,數(shù)據(jù)歷史(快照,版本),擁有權(quán),抽取的審計(jì)軌跡,數(shù)據(jù)用法

2/5/2023數(shù)據(jù)訪問(wèn)和分析工具報(bào)表OLAP數(shù)據(jù)挖掘2/5/2023數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)自上而下(Top-Down)自底而上(BottomUp)混合的方法數(shù)據(jù)倉(cāng)庫(kù)建模2/5/2023自上而下設(shè)計(jì)方法建立企業(yè)數(shù)據(jù)倉(cāng)庫(kù)通用數(shù)據(jù)模型數(shù)據(jù)重新執(zhí)行減少冗余和不一致

詳細(xì)和歷史數(shù)據(jù);

全局?jǐn)?shù)據(jù)知識(shí)發(fā)現(xiàn)根據(jù)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(EDW)建立數(shù)據(jù)集市部門級(jí)數(shù)據(jù)倉(cāng)庫(kù)主要為匯總數(shù)據(jù)直接依賴有效的數(shù)據(jù)倉(cāng)庫(kù)本地?cái)?shù)據(jù)集市外部數(shù)據(jù)本地?cái)?shù)據(jù)集市操作數(shù)據(jù)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)2/5/2023自底而上設(shè)計(jì)方法創(chuàng)建部門的數(shù)據(jù)集市范圍局限于一個(gè)主題區(qū)域快速的ROI--局部的商業(yè)需求得到滿足本部門自治--設(shè)計(jì)上具有靈活性對(duì)其他部門數(shù)據(jù)集市是一個(gè)好的指導(dǎo)容易復(fù)制到其他部門需要為每個(gè)部門做數(shù)據(jù)重建有一定級(jí)別的冗余和不一致性一個(gè)切實(shí)可行的方法擴(kuò)大到企業(yè)數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)建EDB作為一個(gè)長(zhǎng)期的目標(biāo)局部數(shù)據(jù)集市外部數(shù)據(jù)操作型數(shù)據(jù)(全部)操作型數(shù)據(jù)(局部)操作型數(shù)據(jù)(局部)局部數(shù)據(jù)集市企業(yè)數(shù)據(jù)倉(cāng)庫(kù)EDB2/5/2023數(shù)據(jù)倉(cāng)庫(kù)建?!切湍J紻ateMonthYearDateCustIdCustNameCustCityCustCountryCust銷售事實(shí)表

Date

Product

Store

Customer

unit_sales

dollar_sales

Yen_sales度量ProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore2/5/2023數(shù)據(jù)倉(cāng)庫(kù)建模—雪花模式

DateMonthDateCustIdCustNameCustCityCustCountryCustSalesFactTable

Date

Product

Store

Customer

unit_sales

dollar_sales

Yen_sales度量ProductNoProdNameProdDescCategoryQOHProductMonthYearMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStore2/5/2023提綱數(shù)據(jù)倉(cāng)庫(kù)概念數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)及組件數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)(與數(shù)據(jù)庫(kù)技術(shù)的區(qū)別)2/5/2023數(shù)據(jù)倉(cāng)庫(kù)技術(shù)管理大量數(shù)據(jù)能夠管理大量數(shù)據(jù)的能力能夠管理好的能力管理多介質(zhì)(層次)主存、擴(kuò)展內(nèi)存、高速緩存、DASD、光盤、縮微膠片監(jiān)視數(shù)據(jù)決定是否應(yīng)數(shù)據(jù)重組決定索引是否建立得不恰當(dāng)決定是否有太多數(shù)據(jù)溢出決定剩余的可用空間利用多種技術(shù)獲得和傳送數(shù)據(jù)批模式,聯(lián)機(jī)模式并不非常有用程序員/設(shè)計(jì)者對(duì)數(shù)據(jù)存放位置的控制(塊/頁(yè))數(shù)據(jù)的并行存儲(chǔ)/管理元數(shù)據(jù)管理2/5/2023數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)語(yǔ)言接口能夠一次訪問(wèn)一組數(shù)據(jù)能夠一次訪問(wèn)一條記錄支持一個(gè)或多個(gè)索引有SQL接口數(shù)據(jù)的高效裝入高效索引的利用用位映像的方法、多級(jí)索引等數(shù)據(jù)壓縮I/O資源比CPU資源少得多,因此數(shù)據(jù)解壓縮不是主要問(wèn)題復(fù)合鍵碼(因?yàn)閿?shù)據(jù)隨時(shí)間變化)變長(zhǎng)數(shù)據(jù)加鎖管理(程序員能顯式控制鎖管理程序)單獨(dú)索引處理(查看索引就能提供某些服務(wù))快速恢復(fù)2/5/2023數(shù)據(jù)倉(cāng)庫(kù)技術(shù)其他技術(shù)特征,傳統(tǒng)技術(shù)起很小作用事務(wù)集成性、高速緩存、行/頁(yè)級(jí)鎖定、參照完整性、數(shù)據(jù)視圖傳統(tǒng)DBMS與數(shù)據(jù)倉(cāng)庫(kù)DBMS區(qū)別為數(shù)據(jù)倉(cāng)庫(kù)和決策支持優(yōu)化設(shè)計(jì)管理更多數(shù)據(jù):10GB/100GB/TB傳統(tǒng)DBMS適合記錄級(jí)更新,提供:鎖定Lock、提交Commit、檢測(cè)點(diǎn)CheckPoint、日志處理Log、死鎖處理DeadLock、回退Roolback.基本數(shù)據(jù)管理,如:塊管理,傳統(tǒng)DBMS需要預(yù)留空間索引區(qū)別:傳統(tǒng)DBMS限制索引數(shù)量,數(shù)據(jù)倉(cāng)庫(kù)DBMS沒(méi)有限制通用DBMS物理上優(yōu)化便于事務(wù)訪問(wèn)處理,而數(shù)據(jù)倉(cāng)庫(kù)便于DSS訪問(wèn)分析改變DBMS技術(shù)多維DBMS和數(shù)據(jù)倉(cāng)庫(kù)多維DBMS作為數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)技術(shù),這種想法是不正確的多維DBMS(OLAP)是一種技術(shù),數(shù)據(jù)倉(cāng)庫(kù)是一種體系結(jié)構(gòu)的基礎(chǔ)雙重粒度級(jí)別(DASD/磁帶)2/5/2023數(shù)據(jù)倉(cāng)庫(kù)技術(shù)其他技術(shù)特征,傳統(tǒng)技術(shù)起很小作用事務(wù)集成性、高速緩存、行/頁(yè)級(jí)鎖定、參照完整性、數(shù)據(jù)視圖傳統(tǒng)DBMS與數(shù)據(jù)倉(cāng)庫(kù)DBMS區(qū)別為數(shù)據(jù)倉(cāng)庫(kù)和決策支持優(yōu)化設(shè)計(jì)管理更多數(shù)據(jù):10GB/100GB/TB傳統(tǒng)DBMS適合記錄級(jí)更新,提供:鎖定Lock、提交Co

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論