版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、11 八月 2022Data Mining: Concepts and Techniques1Lecture 3: 數(shù)據(jù)倉庫、 OLAP及數(shù)據(jù)立方體計(jì)算什么是數(shù)據(jù)倉庫(data warehouse)? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)施11 八月 2022Data Mining: Concepts and Techniques2什么是數(shù)據(jù)倉庫?有多種但并不嚴(yán)格的定義與操作數(shù)據(jù)庫相隔離并單獨(dú)維護(hù)的一個(gè)用來支持決策過程的數(shù)據(jù)庫一個(gè)用來對整理過的歷史數(shù)據(jù)進(jìn)行分析以便支持信息處理的固定平臺.“數(shù)據(jù)倉庫是面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,它用來支持管理部門的決策過程”W. H. Inm
2、on11 八月 2022Data Mining: Concepts and Techniques3數(shù)據(jù)倉庫面向主題的圍繞主題組織, 如消費(fèi)者(customer)、產(chǎn)品( product), 銷售量(sales)等。主要目的是對數(shù)據(jù)建模與分析,以便于決策者的決策過程,而不是日常操作與事物處理。排出那些對決策過程沒有用的數(shù)據(jù),為決策者提供一個(gè)簡明的有關(guān)特定主題的視圖。11 八月 2022Data Mining: Concepts and Techniques4數(shù)據(jù)倉庫集成的集成多個(gè)、異構(gòu)數(shù)據(jù)源關(guān)系數(shù)據(jù)庫,普通文件,聯(lián)機(jī)事物記錄。應(yīng)用了數(shù)據(jù)清洗與數(shù)據(jù)集成技術(shù)確保多個(gè)數(shù)據(jù)源命名慣例、編碼結(jié)構(gòu)、屬性度量
3、等的一致性。在數(shù)據(jù)移入數(shù)據(jù)倉庫之前,對它進(jìn)行轉(zhuǎn)換。 11 八月 2022Data Mining: Concepts and Techniques5數(shù)據(jù)倉庫時(shí)變的數(shù)據(jù)倉庫跨越的時(shí)間比操作數(shù)據(jù)庫要長的多.操作數(shù)據(jù)庫: 當(dāng)前值數(shù)據(jù)。數(shù)據(jù)倉庫: 從歷史的視角提供信息(如過去5-10的數(shù)據(jù))數(shù)據(jù)倉庫的健值屬性隱式或顯式地包含一個(gè)時(shí)間鍵。操作數(shù)據(jù)庫可以也可以不包含時(shí)間鍵。11 八月 2022Data Mining: Concepts and Techniques6數(shù)據(jù)倉庫非易失的與操作數(shù)據(jù)庫分隔存儲。操作數(shù)據(jù)庫的數(shù)據(jù)更新不在數(shù)據(jù)倉庫環(huán)境出現(xiàn)。不需要事務(wù)處理,數(shù)據(jù)恢復(fù)以及并發(fā)控制機(jī)制。僅僅需要以下2種操作:
4、 數(shù)據(jù)的初始裝載與數(shù)據(jù)訪問。11 八月 2022Data Mining: Concepts and Techniques7數(shù)據(jù)倉庫 vs. 數(shù)據(jù)庫管理系統(tǒng)聯(lián)機(jī)事物處理 (OLTP ,on-line transaction processing)傳統(tǒng)關(guān)系數(shù)據(jù)庫的主要任務(wù)日常操作 : 購買, 存貨, 財(cái)務(wù)等.聯(lián)機(jī)分析處理 (OLAP,on-line analytical processing)數(shù)據(jù)倉庫的主要任務(wù)數(shù)據(jù)分析與決策支持11 八月 2022Data Mining: Concepts and Techniques8OLTPOLAP用戶員工, IT專業(yè)人員知識工作者功能每天的日常操作決策支持D
5、B設(shè)計(jì)面向應(yīng)用+ER面向主題+Star數(shù)據(jù)當(dāng)前的,詳細(xì)的數(shù)據(jù)歷史的, 匯總的, 多維的集成的, 整理過的使用重復(fù)的特定的訪問讀/寫、索引多次掃描工作單元短的, 簡單的事務(wù)處理復(fù)雜查詢記錄數(shù)/查詢幾十百萬用戶數(shù)上千百DB規(guī)模100MB-GB100GB-TBmetrictransaction throughputquery throughput, response11 八月 2022Data Mining: Concepts and Techniques9為什么要建立隔離的數(shù)據(jù)倉庫?使得操作數(shù)據(jù)庫與數(shù)據(jù)倉庫都獲得高性能DBMSOLTP: 訪問方法, 索引, 并發(fā)控制, 數(shù)據(jù)恢復(fù)。Warehouse
6、OLAP: 復(fù)雜OLAP查詢, 多維視圖, 整理。對數(shù)據(jù)與功能的要求不同:丟失的數(shù)據(jù): 決策支持需要?dú)v史數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)庫并不一定維護(hù)歷史數(shù)據(jù)。數(shù)據(jù)整理: 決策支持需要對異構(gòu)數(shù)據(jù)源進(jìn)行數(shù)據(jù)整理 。數(shù)據(jù)質(zhì)量: 不同的數(shù)據(jù)源常常具有不一致的數(shù)據(jù)表示,編碼結(jié)構(gòu)與格式。11 八月 2022Data Mining: Concepts and Techniques10數(shù)據(jù)挖掘中的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)施11 八月 2022Data Mining: Concepts and Techniques11由表和電子數(shù)據(jù)表到數(shù)據(jù)立方體 I數(shù)據(jù)倉庫基于多維數(shù)據(jù)模
7、型,以數(shù)據(jù)立方體的形式對數(shù)據(jù)進(jìn)行觀察。數(shù)據(jù)立方體,如銷售,允許以多維來對數(shù)據(jù)進(jìn)行建模與觀察。維表:如維item (item_name, brand, type),或維time(day, week, month, quarter, year) 。事實(shí)表包含度量(measures):如銷售額以及每個(gè)相關(guān)維表的關(guān)鍵字。11 八月 2022Data Mining: Concepts and Techniques12由表和電子數(shù)據(jù)表到數(shù)據(jù)立方體 II在數(shù)據(jù)倉庫的研究文獻(xiàn)中,一個(gè)n維立方體(n-D)稱為基本方體(base cuboid); 0-D方體存放最高層的匯總 ,稱為頂點(diǎn)方體(apex cuboid
8、),方體的格稱作數(shù)據(jù)立方體(data cube)。11 八月 2022Data Mining: Concepts and Techniques13立方體: 方體格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime, item, location, supplier0-D(
9、apex) cuboid1-D cuboids2-D cuboids3-D cuboids4-D(base) cuboid11 八月 2022Data Mining: Concepts and Techniques14數(shù)據(jù)倉庫概念模型建模數(shù)據(jù)倉庫: 維 & 度量星型模式(Star schema): 一個(gè)事實(shí)表以及一組與事實(shí)表連結(jié)的維表。雪花模式(Snowflake schema): 雪花模式是星型模式的變種,其中某些維表是規(guī)范化的。(normalized),因而把數(shù)據(jù)進(jìn)一步分解到附加的表中。事實(shí)星座(Fact constellations): 多個(gè)事實(shí)表分享共同的維表,這種模式可以看作星型模式
10、的集合,因此稱為星系模式(galaxy schema)或事實(shí)星座。11 八月 2022Data Mining: Concepts and Techniques15星型模式 time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_n
11、amebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch11 八月 2022Data Mining: Concepts and Techniques16雪花模式time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresi
12、tem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity11 八月 2022Data Mining: Concepts and Techniques17事實(shí)星座time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountryloca
13、tionSales Fact Tabletime_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShipping Fact Tabletime_key item_key shipper_key from_location to_location dollars_cost units_shippedshipper_keyship
14、per_namelocation_keyshipper_typeshipper11 八月 2022Data Mining: Concepts and Techniques18度量的分類 I分布式的(distributive): 一個(gè)聚集函數(shù)是分布的,如果它能以以下分布式進(jìn)行計(jì)算:如果將函數(shù)用于n個(gè)聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣,則該函數(shù)可以用分布式計(jì)算。如, count(), sum(), min(), max().代數(shù)的(algebraic): 一個(gè)函數(shù)是代數(shù)的,如果它能夠由一個(gè)具有M個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算(其中M是一個(gè)有界整數(shù)),而每個(gè)參數(shù)都可以用一個(gè)分布聚集函數(shù)得到。
15、如, avg(), standard_deviation().11 八月 2022Data Mining: Concepts and Techniques19度量的分類 II整體的(holistic): 如果描述它的子聚集所需的存儲沒有一個(gè)常數(shù)界,即不存在一個(gè)具有M個(gè)參數(shù)的代數(shù)函數(shù)進(jìn)行這一計(jì)算(其中M是常數(shù))。如, median()(中位數(shù)), mode()(出現(xiàn)次數(shù)最多的數(shù),眾數(shù))等。11 八月 2022Data Mining: Concepts and Techniques20一個(gè)概念層次: 維 (location)allEuropeNorth_AmericaMexicoCanadaSpa
16、inGermanyVancouverM. WindL. Chan.allregionofficecountryTorontoFrankfurtcity11 八月 2022Data Mining: Concepts and Techniques21多維數(shù)據(jù)銷售立方體ProductRegionMonth維: Product, Location, Time概念層次圖:Industry Region YearCategory Country QuarterProduct City Month Week Office Day11 八月 2022Data Mining: Concepts and Tech
17、niques22示例:數(shù)據(jù)立方體TV在美國的年銷售額DateProductCountryAll, All, Allsumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum11 八月 2022Data Mining: Concepts and Techniques23對應(yīng)立方的立方體allproductdatecountryproduct,dateproduct,countrydate, countryproduct, date, country0-D(apex) cuboid1-D cuboids2-D cuboids3-D(base) cuboid
18、11 八月 2022Data Mining: Concepts and Techniques24典型的OLAP操作 I上卷Roll up (上鉆drill-up):通過一個(gè)維的概念分層向上攀升或通過維規(guī)約,在數(shù)據(jù)立方體上進(jìn)行聚集。下鉆Drill down (roll down): 上卷的逆操作,它由不太詳細(xì)的數(shù)據(jù)得到更詳細(xì)的數(shù)據(jù)??梢酝ㄟ^沿維的概念分層向下或引入新的維實(shí)現(xiàn)。11 八月 2022Data Mining: Concepts and Techniques25典型的OLAP操作 II切片Slice與切塊dice 投影與選擇。轉(zhuǎn)軸Pivot (rotate)是一種目視操作,它轉(zhuǎn)動(dòng)數(shù)據(jù)的視
19、角,提供數(shù)據(jù)的替代表示其它操作鉆過drill across:執(zhí)行涉及多個(gè)事實(shí)表的查詢。鉆透drill through:使用SQL的機(jī)制,鉆到數(shù)據(jù)立方的底層,到后端關(guān)系表。11 八月 2022Data Mining: Concepts and Techniques26數(shù)據(jù)挖掘中的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)施11 八月 2022Data Mining: Concepts and Techniques27多層體系結(jié)構(gòu)DataWarehouseExtractTransformLoadRefreshOLAP EngineAnalysisQueryRep
20、ortsData miningMonitor&IntegratorMetadataData SourcesFront-End ToolsServeData MartsOperational DBsothersourcesData StorageOLAP Server11 八月 2022Data Mining: Concepts and Techniques28三個(gè)數(shù)據(jù)倉庫模型企業(yè)倉庫(Enterprise warehouse)搜集了關(guān)于主題的所有信息,跨越整個(gè)組織。數(shù)據(jù)集市(Data Mart)包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對于特定的用戶是有用的,其范圍限于選定的主題。虛擬倉庫(Virtual
21、warehouse)操作數(shù)據(jù)庫上視圖的一組集合。為了有效處理查詢,只有一些可能的匯總視圖被物化。11 八月 2022Data Mining: Concepts and Techniques29數(shù)據(jù)挖掘中的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)施11 八月 2022Data Mining: Concepts and Techniques30數(shù)據(jù)立方的有效計(jì)算數(shù)據(jù)立方可以看作是由立方體形成的格結(jié)構(gòu)最底層的立方體稱為基本方體(base cuboid)最上層的方體稱為頂點(diǎn)方體 (apex cuboid)一個(gè)L層的n維立方有多少立方體呢?11 八月 2022Data Mining: Concepts and Techniques31數(shù)據(jù)立方的物化物化每一個(gè)立方體, 不物化, 或者部分物化物化每一個(gè)立方體?不物化?部分物化!選擇將要物化的立方體基于尺寸大小, 共享, 訪問頻率等。11 八月 2022Data Mining: Concepts and Techniques32立方計(jì)算的多路數(shù)組聚集方法 I把數(shù)組劃分成塊(chunks,一個(gè)子方,其大小能夠放入立方體計(jì)算時(shí)可用的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆山東省菏澤市第一中學(xué)老校區(qū)物理高三上期中教學(xué)質(zhì)量檢測模擬試題含解析
- 貴州省銅仁市烏江學(xué)校2025屆高三物理第一學(xué)期期中調(diào)研試題含解析
- 2025屆海南省??谒闹形锢砀叨掀谥姓{(diào)研模擬試題含解析
- 山東德州市陵城區(qū)一中2025屆物理高一第一學(xué)期期中達(dá)標(biāo)檢測試題含解析
- 2025屆安徽省合肥市肥東中學(xué)高一物理第一學(xué)期期中質(zhì)量檢測模擬試題含解析
- 2025屆江西省吉安市重點(diǎn)高中物理高一第一學(xué)期期末調(diào)研試題含解析
- 2025屆云南省大理新世紀(jì)中學(xué)高一物理第一學(xué)期期末統(tǒng)考模擬試題含解析
- 2025屆廈門市第六中學(xué)高三上物理期中綜合測試試題含解析
- 南平市重點(diǎn)中學(xué)2025屆物理高二第一學(xué)期期中統(tǒng)考試題含解析
- 2025屆山東省陽谷縣第二中學(xué)物理高二上期中經(jīng)典試題含解析
- 注冊資本金代繳協(xié)議書范本
- 機(jī)加車間工作思路
- 2024年大學(xué)英語四六級考試大綱詞匯
- 國家自然科學(xué)基金項(xiàng)目申報(bào)建議
- 人教版八年級數(shù)學(xué)上冊第15章《分式》全部教案(共12課時(shí))
- 2024-2030年中國抗菌肽行業(yè)市場發(fā)展分析及發(fā)展趨勢與投資前景研究報(bào)告
- 人教精通版(2024)三年級上冊英語全冊教學(xué)設(shè)計(jì)
- 三高共管六病同防醫(yī)防融合管理制度
- 人教新課標(biāo)一年級數(shù)學(xué)上冊 5.5 《加減混合》說課稿
- DL-T 438-2023 火力發(fā)電廠金屬技術(shù)監(jiān)督規(guī)程
- 《爬天都峰》教學(xué)課件(第二課時(shí))
評論
0/150
提交評論