數(shù)據(jù)挖掘-概念與技術(shù):Lecture 3 數(shù)據(jù)倉庫與OLAP技術(shù)概述_第1頁
數(shù)據(jù)挖掘-概念與技術(shù):Lecture 3 數(shù)據(jù)倉庫與OLAP技術(shù)概述_第2頁
數(shù)據(jù)挖掘-概念與技術(shù):Lecture 3 數(shù)據(jù)倉庫與OLAP技術(shù)概述_第3頁
數(shù)據(jù)挖掘-概念與技術(shù):Lecture 3 數(shù)據(jù)倉庫與OLAP技術(shù)概述_第4頁
數(shù)據(jù)挖掘-概念與技術(shù):Lecture 3 數(shù)據(jù)倉庫與OLAP技術(shù)概述_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、11 八月 2022Data Mining: Concepts and Techniques1Lecture 3: 數(shù)據(jù)倉庫、 OLAP及數(shù)據(jù)立方體計(jì)算什么是數(shù)據(jù)倉庫(data warehouse)? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)施11 八月 2022Data Mining: Concepts and Techniques2什么是數(shù)據(jù)倉庫?有多種但并不嚴(yán)格的定義與操作數(shù)據(jù)庫相隔離并單獨(dú)維護(hù)的一個(gè)用來支持決策過程的數(shù)據(jù)庫一個(gè)用來對整理過的歷史數(shù)據(jù)進(jìn)行分析以便支持信息處理的固定平臺.“數(shù)據(jù)倉庫是面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,它用來支持管理部門的決策過程”W. H. Inm

2、on11 八月 2022Data Mining: Concepts and Techniques3數(shù)據(jù)倉庫面向主題的圍繞主題組織, 如消費(fèi)者(customer)、產(chǎn)品( product), 銷售量(sales)等。主要目的是對數(shù)據(jù)建模與分析,以便于決策者的決策過程,而不是日常操作與事物處理。排出那些對決策過程沒有用的數(shù)據(jù),為決策者提供一個(gè)簡明的有關(guān)特定主題的視圖。11 八月 2022Data Mining: Concepts and Techniques4數(shù)據(jù)倉庫集成的集成多個(gè)、異構(gòu)數(shù)據(jù)源關(guān)系數(shù)據(jù)庫,普通文件,聯(lián)機(jī)事物記錄。應(yīng)用了數(shù)據(jù)清洗與數(shù)據(jù)集成技術(shù)確保多個(gè)數(shù)據(jù)源命名慣例、編碼結(jié)構(gòu)、屬性度量

3、等的一致性。在數(shù)據(jù)移入數(shù)據(jù)倉庫之前,對它進(jìn)行轉(zhuǎn)換。 11 八月 2022Data Mining: Concepts and Techniques5數(shù)據(jù)倉庫時(shí)變的數(shù)據(jù)倉庫跨越的時(shí)間比操作數(shù)據(jù)庫要長的多.操作數(shù)據(jù)庫: 當(dāng)前值數(shù)據(jù)。數(shù)據(jù)倉庫: 從歷史的視角提供信息(如過去5-10的數(shù)據(jù))數(shù)據(jù)倉庫的健值屬性隱式或顯式地包含一個(gè)時(shí)間鍵。操作數(shù)據(jù)庫可以也可以不包含時(shí)間鍵。11 八月 2022Data Mining: Concepts and Techniques6數(shù)據(jù)倉庫非易失的與操作數(shù)據(jù)庫分隔存儲。操作數(shù)據(jù)庫的數(shù)據(jù)更新不在數(shù)據(jù)倉庫環(huán)境出現(xiàn)。不需要事務(wù)處理,數(shù)據(jù)恢復(fù)以及并發(fā)控制機(jī)制。僅僅需要以下2種操作:

4、 數(shù)據(jù)的初始裝載與數(shù)據(jù)訪問。11 八月 2022Data Mining: Concepts and Techniques7數(shù)據(jù)倉庫 vs. 數(shù)據(jù)庫管理系統(tǒng)聯(lián)機(jī)事物處理 (OLTP ,on-line transaction processing)傳統(tǒng)關(guān)系數(shù)據(jù)庫的主要任務(wù)日常操作 : 購買, 存貨, 財(cái)務(wù)等.聯(lián)機(jī)分析處理 (OLAP,on-line analytical processing)數(shù)據(jù)倉庫的主要任務(wù)數(shù)據(jù)分析與決策支持11 八月 2022Data Mining: Concepts and Techniques8OLTPOLAP用戶員工, IT專業(yè)人員知識工作者功能每天的日常操作決策支持D

5、B設(shè)計(jì)面向應(yīng)用+ER面向主題+Star數(shù)據(jù)當(dāng)前的,詳細(xì)的數(shù)據(jù)歷史的, 匯總的, 多維的集成的, 整理過的使用重復(fù)的特定的訪問讀/寫、索引多次掃描工作單元短的, 簡單的事務(wù)處理復(fù)雜查詢記錄數(shù)/查詢幾十百萬用戶數(shù)上千百DB規(guī)模100MB-GB100GB-TBmetrictransaction throughputquery throughput, response11 八月 2022Data Mining: Concepts and Techniques9為什么要建立隔離的數(shù)據(jù)倉庫?使得操作數(shù)據(jù)庫與數(shù)據(jù)倉庫都獲得高性能DBMSOLTP: 訪問方法, 索引, 并發(fā)控制, 數(shù)據(jù)恢復(fù)。Warehouse

6、OLAP: 復(fù)雜OLAP查詢, 多維視圖, 整理。對數(shù)據(jù)與功能的要求不同:丟失的數(shù)據(jù): 決策支持需要?dú)v史數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)庫并不一定維護(hù)歷史數(shù)據(jù)。數(shù)據(jù)整理: 決策支持需要對異構(gòu)數(shù)據(jù)源進(jìn)行數(shù)據(jù)整理 。數(shù)據(jù)質(zhì)量: 不同的數(shù)據(jù)源常常具有不一致的數(shù)據(jù)表示,編碼結(jié)構(gòu)與格式。11 八月 2022Data Mining: Concepts and Techniques10數(shù)據(jù)挖掘中的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)施11 八月 2022Data Mining: Concepts and Techniques11由表和電子數(shù)據(jù)表到數(shù)據(jù)立方體 I數(shù)據(jù)倉庫基于多維數(shù)據(jù)模

7、型,以數(shù)據(jù)立方體的形式對數(shù)據(jù)進(jìn)行觀察。數(shù)據(jù)立方體,如銷售,允許以多維來對數(shù)據(jù)進(jìn)行建模與觀察。維表:如維item (item_name, brand, type),或維time(day, week, month, quarter, year) 。事實(shí)表包含度量(measures):如銷售額以及每個(gè)相關(guān)維表的關(guān)鍵字。11 八月 2022Data Mining: Concepts and Techniques12由表和電子數(shù)據(jù)表到數(shù)據(jù)立方體 II在數(shù)據(jù)倉庫的研究文獻(xiàn)中,一個(gè)n維立方體(n-D)稱為基本方體(base cuboid); 0-D方體存放最高層的匯總 ,稱為頂點(diǎn)方體(apex cuboid

8、),方體的格稱作數(shù)據(jù)立方體(data cube)。11 八月 2022Data Mining: Concepts and Techniques13立方體: 方體格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime, item, location, supplier0-D(

9、apex) cuboid1-D cuboids2-D cuboids3-D cuboids4-D(base) cuboid11 八月 2022Data Mining: Concepts and Techniques14數(shù)據(jù)倉庫概念模型建模數(shù)據(jù)倉庫: 維 & 度量星型模式(Star schema): 一個(gè)事實(shí)表以及一組與事實(shí)表連結(jié)的維表。雪花模式(Snowflake schema): 雪花模式是星型模式的變種,其中某些維表是規(guī)范化的。(normalized),因而把數(shù)據(jù)進(jìn)一步分解到附加的表中。事實(shí)星座(Fact constellations): 多個(gè)事實(shí)表分享共同的維表,這種模式可以看作星型模式

10、的集合,因此稱為星系模式(galaxy schema)或事實(shí)星座。11 八月 2022Data Mining: Concepts and Techniques15星型模式 time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_n

11、amebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch11 八月 2022Data Mining: Concepts and Techniques16雪花模式time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresi

12、tem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity11 八月 2022Data Mining: Concepts and Techniques17事實(shí)星座time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountryloca

13、tionSales Fact Tabletime_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShipping Fact Tabletime_key item_key shipper_key from_location to_location dollars_cost units_shippedshipper_keyship

14、per_namelocation_keyshipper_typeshipper11 八月 2022Data Mining: Concepts and Techniques18度量的分類 I分布式的(distributive): 一個(gè)聚集函數(shù)是分布的,如果它能以以下分布式進(jìn)行計(jì)算:如果將函數(shù)用于n個(gè)聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣,則該函數(shù)可以用分布式計(jì)算。如, count(), sum(), min(), max().代數(shù)的(algebraic): 一個(gè)函數(shù)是代數(shù)的,如果它能夠由一個(gè)具有M個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算(其中M是一個(gè)有界整數(shù)),而每個(gè)參數(shù)都可以用一個(gè)分布聚集函數(shù)得到。

15、如, avg(), standard_deviation().11 八月 2022Data Mining: Concepts and Techniques19度量的分類 II整體的(holistic): 如果描述它的子聚集所需的存儲沒有一個(gè)常數(shù)界,即不存在一個(gè)具有M個(gè)參數(shù)的代數(shù)函數(shù)進(jìn)行這一計(jì)算(其中M是常數(shù))。如, median()(中位數(shù)), mode()(出現(xiàn)次數(shù)最多的數(shù),眾數(shù))等。11 八月 2022Data Mining: Concepts and Techniques20一個(gè)概念層次: 維 (location)allEuropeNorth_AmericaMexicoCanadaSpa

16、inGermanyVancouverM. WindL. Chan.allregionofficecountryTorontoFrankfurtcity11 八月 2022Data Mining: Concepts and Techniques21多維數(shù)據(jù)銷售立方體ProductRegionMonth維: Product, Location, Time概念層次圖:Industry Region YearCategory Country QuarterProduct City Month Week Office Day11 八月 2022Data Mining: Concepts and Tech

17、niques22示例:數(shù)據(jù)立方體TV在美國的年銷售額DateProductCountryAll, All, Allsumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum11 八月 2022Data Mining: Concepts and Techniques23對應(yīng)立方的立方體allproductdatecountryproduct,dateproduct,countrydate, countryproduct, date, country0-D(apex) cuboid1-D cuboids2-D cuboids3-D(base) cuboid

18、11 八月 2022Data Mining: Concepts and Techniques24典型的OLAP操作 I上卷Roll up (上鉆drill-up):通過一個(gè)維的概念分層向上攀升或通過維規(guī)約,在數(shù)據(jù)立方體上進(jìn)行聚集。下鉆Drill down (roll down): 上卷的逆操作,它由不太詳細(xì)的數(shù)據(jù)得到更詳細(xì)的數(shù)據(jù)??梢酝ㄟ^沿維的概念分層向下或引入新的維實(shí)現(xiàn)。11 八月 2022Data Mining: Concepts and Techniques25典型的OLAP操作 II切片Slice與切塊dice 投影與選擇。轉(zhuǎn)軸Pivot (rotate)是一種目視操作,它轉(zhuǎn)動(dòng)數(shù)據(jù)的視

19、角,提供數(shù)據(jù)的替代表示其它操作鉆過drill across:執(zhí)行涉及多個(gè)事實(shí)表的查詢。鉆透drill through:使用SQL的機(jī)制,鉆到數(shù)據(jù)立方的底層,到后端關(guān)系表。11 八月 2022Data Mining: Concepts and Techniques26數(shù)據(jù)挖掘中的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)施11 八月 2022Data Mining: Concepts and Techniques27多層體系結(jié)構(gòu)DataWarehouseExtractTransformLoadRefreshOLAP EngineAnalysisQueryRep

20、ortsData miningMonitor&IntegratorMetadataData SourcesFront-End ToolsServeData MartsOperational DBsothersourcesData StorageOLAP Server11 八月 2022Data Mining: Concepts and Techniques28三個(gè)數(shù)據(jù)倉庫模型企業(yè)倉庫(Enterprise warehouse)搜集了關(guān)于主題的所有信息,跨越整個(gè)組織。數(shù)據(jù)集市(Data Mart)包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對于特定的用戶是有用的,其范圍限于選定的主題。虛擬倉庫(Virtual

21、warehouse)操作數(shù)據(jù)庫上視圖的一組集合。為了有效處理查詢,只有一些可能的匯總視圖被物化。11 八月 2022Data Mining: Concepts and Techniques29數(shù)據(jù)挖掘中的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)施11 八月 2022Data Mining: Concepts and Techniques30數(shù)據(jù)立方的有效計(jì)算數(shù)據(jù)立方可以看作是由立方體形成的格結(jié)構(gòu)最底層的立方體稱為基本方體(base cuboid)最上層的方體稱為頂點(diǎn)方體 (apex cuboid)一個(gè)L層的n維立方有多少立方體呢?11 八月 2022Data Mining: Concepts and Techniques31數(shù)據(jù)立方的物化物化每一個(gè)立方體, 不物化, 或者部分物化物化每一個(gè)立方體?不物化?部分物化!選擇將要物化的立方體基于尺寸大小, 共享, 訪問頻率等。11 八月 2022Data Mining: Concepts and Techniques32立方計(jì)算的多路數(shù)組聚集方法 I把數(shù)組劃分成塊(chunks,一個(gè)子方,其大小能夠放入立方體計(jì)算時(shí)可用的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論