數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)課件_第1頁
數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)課件_第2頁
數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)課件_第3頁
數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)課件_第4頁
數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)課件_第5頁
已閱讀5頁,還剩113頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第3章

數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)2022/12/201數(shù)據(jù)挖掘:概念與技術(shù)第3章

數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)2022/12/1第3章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?

多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實現(xiàn)數(shù)據(jù)立方體的進(jìn)一步發(fā)展從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘2第3章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?什么是數(shù)據(jù)倉庫?有不同的方法定義,但不是嚴(yán)格的.是一個決策支持?jǐn)?shù)據(jù)庫,它與組織機(jī)構(gòu)的操作數(shù)據(jù)庫分別維護(hù)數(shù)據(jù)倉庫系統(tǒng)允許將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,支持信息處理.W.H.Inmon的定義:數(shù)據(jù)倉庫是

面向主題的(subject-oriented),集成的(integrated),時變的(time-variant),和非易失的(nonvolatile)數(shù)據(jù)集合,支持管理決策過程建立數(shù)據(jù)倉庫(Datawarehousing):構(gòu)造和使用數(shù)據(jù)倉庫的過程3什么是數(shù)據(jù)倉庫?有不同的方法定義,但不是嚴(yán)格的.3數(shù)據(jù)倉庫—面向主題的圍繞重要的主題(如顧客、產(chǎn)品、銷售等)組織.關(guān)注決策制定者的數(shù)據(jù)建模與分析,而不是日常的操作和事務(wù)處理.數(shù)據(jù)倉庫排除對于決策過程無用的數(shù)據(jù),提供特定主題的簡明視圖.4數(shù)據(jù)倉庫—面向主題的圍繞重要的主題(如顧客、產(chǎn)品、銷售等)數(shù)據(jù)倉庫—集成的通過將多個異種的數(shù)據(jù)源集成在一起,而構(gòu)造比如,關(guān)系數(shù)據(jù)庫,一般文件,聯(lián)機(jī)事務(wù)記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù).確保命名約定,編碼結(jié)構(gòu),屬性度量等的一致性例如,飯店價格:貨幣種類,稅,是否含早餐,等.當(dāng)數(shù)據(jù)裝入數(shù)據(jù)倉庫時,數(shù)據(jù)將被轉(zhuǎn)換.

5數(shù)據(jù)倉庫—集成的通過將多個異種的數(shù)據(jù)源集成在一起,而構(gòu)造數(shù)據(jù)倉庫—時變的數(shù)據(jù)倉庫的時間跨度顯著地比操作數(shù)據(jù)庫長.操作數(shù)據(jù)庫數(shù)據(jù):當(dāng)前值數(shù)據(jù).數(shù)據(jù)倉庫數(shù)據(jù):從歷史的角度提供數(shù)據(jù)(例如,過去5-10年)數(shù)據(jù)倉庫中的每個鍵結(jié)構(gòu)顯式或隱式地包含時間元素,但是,操作數(shù)據(jù)的鍵可能包含,也可能不包含“時間元素”.6數(shù)據(jù)倉庫—時變的數(shù)據(jù)倉庫的時間跨度顯著地比操作數(shù)據(jù)庫長.6數(shù)據(jù)倉庫—非易失的從操作環(huán)境轉(zhuǎn)換過來的數(shù)據(jù)物理地分離存放.數(shù)據(jù)的更新不在數(shù)據(jù)倉庫環(huán)境中出現(xiàn).不需要事務(wù)處理,恢復(fù),和并發(fā)控制機(jī)制只需要兩種數(shù)據(jù)存取操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問.7數(shù)據(jù)倉庫—非易失的從操作環(huán)境轉(zhuǎn)換過來的數(shù)據(jù)物理地分離存放.數(shù)據(jù)倉庫和異種DBMS傳統(tǒng)的異種數(shù)據(jù)庫集成:在異種數(shù)據(jù)庫上建立一個包裝程序(wrappers)或中介程序(/mediators)查詢驅(qū)動的方法當(dāng)查詢提交給一個站點(diǎn)時,使用元數(shù)據(jù)詞典將查詢轉(zhuǎn)換成所涉及的異構(gòu)站點(diǎn)上的相應(yīng)查詢,查詢的結(jié)果被集成為一個全局回答的集合需要:復(fù)雜的信息過濾,對資源的競爭數(shù)據(jù)倉庫:更新驅(qū)動的,高性能來自異種信息源的數(shù)據(jù)被預(yù)先集成并存儲在數(shù)據(jù)倉庫中,直接用于查詢和分析8數(shù)據(jù)倉庫和異種DBMS傳統(tǒng)的異種數(shù)據(jù)庫集成:8數(shù)據(jù)倉庫VS.操作數(shù)據(jù)庫OLTP(on-linetransactionprocessing,聯(lián)機(jī)事務(wù)處理)傳統(tǒng)關(guān)系DBMS的主要任務(wù)涵蓋日常操作:購買,庫存,銀行,制造,工資單,注冊,記帳,等.OLAP(on-lineanalyticalprocessing,聯(lián)機(jī)分析處理)數(shù)據(jù)倉庫系統(tǒng)的主要任務(wù)數(shù)據(jù)分析和決策制定上提供服務(wù)不同的特點(diǎn)(OLTPvs.OLAP):用戶和系統(tǒng)的面向性:顧客vs.市場數(shù)據(jù)內(nèi)容:當(dāng)前的,細(xì)節(jié)的vs.歷史的,合并的數(shù)據(jù)庫設(shè)計:ER+應(yīng)用vs.星型+主題視圖:當(dāng)前的,局部的vs.進(jìn)化的,集成的訪問模式:更新vs.只讀的,但是復(fù)雜的查詢9數(shù)據(jù)倉庫VS.操作數(shù)據(jù)庫OLTP(on-linetranOLTPvs.OLAP10OLTPvs.OLAP10為什么建立分離的數(shù)據(jù)倉庫?為了兩個系統(tǒng)的高性能DBMS—目的是OLTP:存取方法,索引,并發(fā)控制,恢復(fù)數(shù)據(jù)倉庫—目的是OLAP:復(fù)雜的OLAP查詢,多維視圖,統(tǒng)一.不同的功能和不同的數(shù)據(jù):缺少數(shù)據(jù):決策支持需要?dú)v史數(shù)據(jù),通常操作數(shù)據(jù)庫并不維護(hù)這些數(shù)據(jù)數(shù)據(jù)統(tǒng)一:決策支持需要將來自異種數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一(聚集,匯總)數(shù)據(jù)質(zhì)量:不同的數(shù)據(jù)源通常使用不同的數(shù)據(jù)表示,編碼,和應(yīng)當(dāng)遵循的格式11為什么建立分離的數(shù)據(jù)倉庫?為了兩個系統(tǒng)的高性能11第2章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?

多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進(jìn)一步發(fā)展12第2章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?由表和電子數(shù)據(jù)表到數(shù)據(jù)方數(shù)據(jù)倉庫基于多維數(shù)據(jù)模型,多維數(shù)據(jù)模型將數(shù)據(jù)視為數(shù)據(jù)方(datacube)形式數(shù)據(jù)方(如sales)可以將數(shù)據(jù)建模,并允許由多個維進(jìn)行觀察維表,如item(item_name,brand,type),或time(day,week,month,quarter,year)事實表包含度量(如dollars_sold)和每個相關(guān)維表的鍵在數(shù)據(jù)倉庫的文獻(xiàn)中,一個n-D基本立方體稱作基本方體(basecuboid).最頂部的0-D方體存放最高層的匯總,稱作頂點(diǎn)方體(apexcuboid).方體的格形成數(shù)據(jù)方.13由表和電子數(shù)據(jù)表到數(shù)據(jù)方數(shù)據(jù)倉庫基于多維數(shù)據(jù)模型,多立方體:方體的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(頂點(diǎn))方體1-D方體2-D方體3-D方體4-D(基本)方體14立方體:方體的格alltimeitemlocationsu數(shù)據(jù)倉庫的概念建模數(shù)據(jù)倉庫建模:多維模型,涉及維和度量星型模式:事實表在中央,連接一組維表雪花模式:星型模式的精煉,其中一些維分層結(jié)構(gòu)被規(guī)范化成一組較小的維表,形成類似于雪花的形狀,減少冗余事實星座:多個事實表共享維表,可以看作星星的集合,因此稱作星系模式,或事實星座15數(shù)據(jù)倉庫的概念建模數(shù)據(jù)倉庫建模:多維模型,涉及維和度量15星型模式的例子

time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocation事實表

time_key

item_keybranch_key

location_key

units_sold

dollars_sold

avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch16星型模式的例子time_keytimelocation雪花模式的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTable

time_key

item_keybranch_key

location_key

units_solddollars_sold

avg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycityprovince_or_statecountrycity17雪花模式的例子time_keytimelocation_ke事實星座的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_sold

avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper18事實星座的例子time_keytimelocation_ke數(shù)據(jù)挖掘查詢語言DMQL:語言原語立方體定義(事實表)definecube<cube_name>[<dimension_list>]:<measure_list>維定義(維表)definedimension<dimension_name>as(<attribute_or_subdimension_list>)特殊情況(共享維表)第一次,如“cubedefinition”definedimension<dimension_name>as<dimension_name_first_time>incube<cube_name_first_time>19數(shù)據(jù)挖掘查詢語言DMQL:語言原語立方體定義(事實表)用DMQL定義星型模式definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)20用DMQL定義星型模式definecubesales_s用DMQL定義雪花模式definecubesales_snowflake[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type))definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country))21用DMQL定義雪花模式definecubesales_s用DMQL定義事實星座definecubesales[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)definecubeshipping[time,item,shipper,from_location,to_location]:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesalesdefinedimensionshipperas(shipper_key,shipper_name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales22用DMQL定義事實星座definecubesales[三類度量(數(shù)值函數(shù))分布的(distributive):將數(shù)據(jù)劃分為n個集合,函數(shù)在每一部分上的計算得到一個聚集值.如果將函數(shù)用于n個聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣,則該函數(shù)可以用分布方式計算.例,count(),sum(),min(),max().代數(shù)的(algebraic):如果它能夠由一個具有M(其中,M是一個整數(shù)界)個參數(shù)的代數(shù)函數(shù)計算,而每個參數(shù)都可以用一個分布聚集函數(shù)求得.例,

avg(),min_N(),standard_deviation().整體的(holistic):如果描述它的子聚集所需的存儲沒有一個常數(shù)界.

例,median(),mode(),rank().23三類度量(數(shù)值函數(shù))分布的(distributive):一個概念分層:維LocationallEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity24一個概念分層:維LocationallEuropeNort數(shù)據(jù)倉庫和分層結(jié)構(gòu)視圖25數(shù)據(jù)倉庫和分層結(jié)構(gòu)視圖25多維數(shù)據(jù)多維模型中,數(shù)據(jù)組織成多維,每維包含由概念分層定義的多個抽象層銷售量作為product,month,和region的函數(shù)ProductRegionMonth維:Product,Location,Time的分層結(jié)構(gòu)IndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay26多維數(shù)據(jù)多維模型中,數(shù)據(jù)組織成多維,每維包含由概念分層定義的一個數(shù)據(jù)方的樣本TV在U.S.A.的總銷售DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum27一個數(shù)據(jù)方的樣本TV在U.S.A.的總銷售DatePro對應(yīng)于數(shù)據(jù)方的方體allproductdatecountryproduct,dateproduct,countrydate,countryproduct,date,country0-D(頂點(diǎn))方體1-D方體2-D方體3-D(基本)方體28對應(yīng)于數(shù)據(jù)方的方體allproductdatecountry瀏覽數(shù)據(jù)方可視化OLAP的能力交互式操作29瀏覽數(shù)據(jù)方可視化29典型的OLAP操作上卷(Rollup)/上鉆(drill-up):匯總數(shù)據(jù)下鉆(Drilldown)/下卷(rolldown):上卷的逆操作切片(Slice)和切塊

:投影和選擇轉(zhuǎn)軸(Pivot)/旋轉(zhuǎn)(rotate):調(diào)整數(shù)據(jù)方,目視操作,3D到2D平面.其它操作鉆過(drillacross):涉及多個事實表鉆透(drillthrough):通過數(shù)據(jù)方的最底層,到它背后的關(guān)系表(使用

SQL)30典型的OLAP操作上卷(Rollup)/上鉆(drillOLAP操作:上卷上卷(Rollup)/上鉆(drill-up):匯總數(shù)據(jù)通過沿概念分層攀升或通過維歸約在location上卷(由cities到countries)31OLAP操作:上卷上卷(Rollup)/上鉆(driOLAP操作:下鉆下鉆(Drilldown)/下卷(rolldown):上卷的逆操作由較高層的匯總到較低層的匯總或詳細(xì)數(shù)據(jù),或者引進(jìn)新的維在time下鉆(由quarters到months)32OLAP操作:下鉆下鉆(Drilldown)/下卷(OLAP操作:切片切片(Slice)

:投影和選擇,對一個維進(jìn)行選擇,導(dǎo)致子方體切片條件:time=“Q2”33OLAP操作:切片切片(Slice):33OLAP操作:切塊切塊

:對兩個或多個維執(zhí)行選擇,導(dǎo)致子方體切塊條件:(location=“Montreal”or“Vancouver”)and(time=“Q1”or“Q2”)and(item=“homeentertainment”or“computer”)34OLAP操作:切塊切塊:對兩個或多個維執(zhí)行選擇,導(dǎo)致OLAP操作:轉(zhuǎn)軸轉(zhuǎn)軸(Pivot)/旋轉(zhuǎn)(rotate):調(diào)整數(shù)據(jù)方,可視化操作,提供數(shù)據(jù)的替代表示.35OLAP操作:轉(zhuǎn)軸轉(zhuǎn)軸(Pivot)/旋轉(zhuǎn)(rotat其他操作其它操作鉆過(drillacross):涉及多個事實表鉆透(drillthrough):通過數(shù)據(jù)方的最底層,到它背后的關(guān)系表(使用

SQL)統(tǒng)計計算比率、方差;增長率分析建模,等36其他操作其它操作36第3章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?

多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進(jìn)一步發(fā)展37第3章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫設(shè)計中,必須考慮四種視圖自頂向下視圖選擇數(shù)據(jù)倉庫所需的有關(guān)信息數(shù)據(jù)源視圖揭示(操作)數(shù)據(jù)庫系統(tǒng)捕獲、存儲、和管理的信息

數(shù)據(jù)倉庫視圖由事實表和維表組成商務(wù)查詢視圖從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)38數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫設(shè)計中,必須考慮四種視圖38數(shù)據(jù)倉庫設(shè)計過程

自頂向下,自底向上方法或二者的結(jié)合自頂向下:由總體設(shè)計和規(guī)劃開始(成熟)自底向上:由實驗和原型開始(快速)軟件工程的觀點(diǎn)瀑布式:在進(jìn)行下一步之前,每一步都進(jìn)行結(jié)構(gòu)化和系統(tǒng)的分析螺旋式:功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間的間隔很短,快速轉(zhuǎn)向典型的數(shù)據(jù)倉庫設(shè)計過程選取待建模的商務(wù)處理,例如,訂單,發(fā)票,庫存等.選取商務(wù)處理的粒度(原子層數(shù)據(jù)),例如,單個事務(wù)、一天的快照等選取用于每個事實表記錄的維,如,時間、商品、顧客、供應(yīng)商、倉庫、事務(wù)類型和狀態(tài)等選取將安放在事實表中的度量.典型的度量是可加的數(shù)值量,如dollars_sold和units_sold

39數(shù)據(jù)倉庫設(shè)計過程自頂向下,自底向上方法或二者的結(jié)合39多層結(jié)構(gòu)數(shù)據(jù)倉庫提取變換裝入刷新OLAP引擎分析查詢報告數(shù)據(jù)挖掘Monitor&Integrator元數(shù)據(jù)數(shù)據(jù)源終端工具輸出數(shù)據(jù)集市操作數(shù)據(jù)庫其它數(shù)據(jù)源數(shù)據(jù)存儲OLAP服務(wù)器40多層結(jié)構(gòu)數(shù)據(jù)倉庫提取OLAP引擎分析Monitor元數(shù)據(jù)數(shù)據(jù)三層數(shù)據(jù)倉庫模型企業(yè)倉庫搜集了關(guān)于主題的所有信息,跨越整個組織數(shù)據(jù)集市數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的用戶是有用的.其范圍限于選定的主題,如銷售數(shù)據(jù)獨(dú)立的vs.依賴的(直接來自數(shù)據(jù)倉庫)數(shù)據(jù)集市虛擬倉庫操作數(shù)據(jù)庫上視圖的集合只有部分可能的匯總視圖被物化41三層數(shù)據(jù)倉庫模型企業(yè)倉庫41數(shù)據(jù)倉庫開發(fā):

一種推薦的方法定義一個高層企業(yè)數(shù)據(jù)模型數(shù)據(jù)集市分布式數(shù)據(jù)集市多層數(shù)據(jù)倉庫企業(yè)數(shù)據(jù)倉庫模型提煉數(shù)據(jù)集市模型提煉42數(shù)據(jù)倉庫開發(fā):一種推薦的方法定義一個高層企業(yè)數(shù)據(jù)模型數(shù)據(jù)集OLAP服務(wù)器結(jié)構(gòu)關(guān)系OLAP(ROLAP)

使用關(guān)系或擴(kuò)充關(guān)系的DBMS存放和管理倉庫數(shù)據(jù),使用OLAP中間件支持其它部分包含一個優(yōu)化的DBMS后端,聚集導(dǎo)航邏輯的實現(xiàn),以及附加的工具和服務(wù)較大的可伸縮性多維OLAP(MOLAP)

基于數(shù)組的多維存儲引擎(稀疏矩陣技術(shù))對預(yù)計算的匯總數(shù)據(jù)快速索引混合OLAP(HOLAP)彈性,底層:關(guān)系的,高層:數(shù)組.專門的SQL服務(wù)器對星型/雪花型模式上的SQL查詢提供特殊的支持43OLAP服務(wù)器結(jié)構(gòu)關(guān)系OLAP(ROLAP)43元數(shù)據(jù)存儲元數(shù)據(jù)是定義數(shù)據(jù)倉庫的數(shù)據(jù).有如下類型描述數(shù)據(jù)倉庫的結(jié)構(gòu)模式,視圖,維,分層結(jié)構(gòu),數(shù)據(jù)源定義,數(shù)據(jù)集市的位置和內(nèi)容操作元數(shù)據(jù)數(shù)據(jù)血統(tǒng)(數(shù)據(jù)變遷歷史和轉(zhuǎn)換路徑),數(shù)據(jù)流通(主動,存檔,或凈化),管理信息(數(shù)據(jù)倉庫使用統(tǒng)計,錯誤報告,審計跟蹤)用于匯總的算法由操作環(huán)境到數(shù)據(jù)倉庫的映射涉及系統(tǒng)性能的數(shù)據(jù)倉庫模式,視圖和導(dǎo)出數(shù)據(jù)的定義商務(wù)數(shù)據(jù)商務(wù)術(shù)語和定義,數(shù)據(jù)的所有者,收費(fèi)政策44元數(shù)據(jù)存儲元數(shù)據(jù)是定義數(shù)據(jù)倉庫的數(shù)據(jù).有如下類型44數(shù)據(jù)倉庫的后端工具和實用程序數(shù)據(jù)提取:由多個異種,外部數(shù)據(jù)源收集數(shù)據(jù)數(shù)據(jù)清理:檢測數(shù)據(jù)中的錯誤,可能時訂正它們數(shù)據(jù)變換:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉庫格式裝載:排序,綜合,加固,計算視圖,檢查整體性,并建立索引和劃分刷新傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新45數(shù)據(jù)倉庫的后端工具和實用程序數(shù)據(jù)提取:45第2章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?

多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進(jìn)一步發(fā)展46第2章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?數(shù)據(jù)方的有效計算數(shù)據(jù)方可以視為方體的格最下面的方體是基本方體最上面的(頂點(diǎn))方體只包含一個單元具有L層的n-D數(shù)據(jù)方包含多少個方體?其中Li是與維i相關(guān)聯(lián)的層數(shù)數(shù)據(jù)方的物化(Materialization)物化每一個方體(全物化),不物化任何方體(不物化),或物化某些方體(部分物化)物化方體的選擇基于大小,共享,訪問頻率,等.47數(shù)據(jù)方的有效計算數(shù)據(jù)方可以視為方體的格47數(shù)據(jù)方計算用DMQL定義和計算數(shù)據(jù)方definecubesales[item,city,year]:sum(sales_in_dollars)computecubesales將它變換成類——SQL語句(用新的操作cubeby擴(kuò)充,由Gray等’96引進(jìn))SELECTitem,city,year,SUM(amount)FROMSALESCUBEBYitem,city,year需要計算的分組

(city,item,year),(city,item),(city,year),(item,city),(city),(item),(year)()(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)48數(shù)據(jù)方計算用DMQL定義和計算數(shù)據(jù)方(item)(city)數(shù)據(jù)方計算:基于ROLAP的方法(1)有效的方計算方法基于ROLAP的方計算算法(Agarwaletal’96)基于數(shù)組的方計算算法(Zhaoetal’97)自底向上的方法(Beyer&Ramarkrishnan’99)混合的方法(Han,Pei,Dong&Wang:SIGMOD’01)基于ROLAP的方計算算法排序,散列,和分組操作用于維屬性,以便對相關(guān)元組重新排序和分簇在某些子聚集上分組,作為“部分分組”由以前計算的聚集計算新的聚集,而不必由基本事實表計算

49數(shù)據(jù)方計算:基于ROLAP的方法(1)有效的方計算方法49數(shù)據(jù)方計算:基于ROLAP的方法(2)取自研究論文基于Hash/排序的方法(Agarwal等.

VLDB’96)最小雙親(Smallest-parent):由最小的,先前計算的方體計算方體存儲結(jié)果(Cache-results):存儲先前計算的方體,由它可以計算其它方體,以減少磁盤I/O分?jǐn)倰呙?Amortize-scans):同時計算盡可能多的方體,以分?jǐn)偞疟P的讀操作開銷共享排序(Share-sorts):使用基于排序的方法時,在多個方體之間共享排序開銷共享劃分(Share-partitions):使用基于hash的方法時,在多個方體之間共享劃分開銷50數(shù)據(jù)方計算:基于ROLAP的方法(2)取自研究論文50索引OLAP數(shù)據(jù)為了有效的訪問,大部分?jǐn)?shù)據(jù)倉庫系統(tǒng)支持索引結(jié)構(gòu)兩種常用的方法對OLAP數(shù)據(jù)進(jìn)行索引位圖索引bitmapindexing連接索引joinindexing51索引OLAP數(shù)據(jù)為了有效的訪問,大部分?jǐn)?shù)據(jù)倉庫系統(tǒng)支持索引索引OLAP數(shù)據(jù):位圖索引在一個特定列上索引列上的每個值是一個位向量:位操作很快位向量的長度:基本表的記錄數(shù)如果數(shù)據(jù)表中給定行的屬性值為v,則在位圖索引的對應(yīng)行,表示該值的位為1,該行的其它位均為0不適合勢(不同值個數(shù))很高的域基本表在Region上索引在Type上索引52索引OLAP數(shù)據(jù):位圖索引在一個特定列上索引基本表在R索引OLAP數(shù)據(jù):連接索引連接索引:JI(R-id,S-id),其中R(R-id,…)S(S-id,…)將關(guān)系的連接物化在JI文件中,加快了關(guān)系連接的速度數(shù)據(jù)倉庫中,連接索引將星型模式維表的值關(guān)聯(lián)到事實表的行.例,事實表Sales和兩個維city

和productcity

上的連接索引對每個不同的城市,維護(hù)一張記錄該城市銷售的元組的R連接索引可以擴(kuò)展到多維53索引OLAP數(shù)據(jù):連接索引連接索引:JI(R-id,OLAP查詢的有效處理物化方體和構(gòu)造OLAP索引結(jié)構(gòu)的目的是加快數(shù)據(jù)立方體的查詢處理速度。查詢處理按如下步驟進(jìn)行:確定哪些操作可以在可用的方體上進(jìn)行:將下鉆,上卷等操作變換成對應(yīng)的SQL和/或OLAP操作,例如,dice=selection+projection確定相關(guān)的操作應(yīng)當(dāng)使用哪些物化的方體.54OLAP查詢的有效處理物化方體和構(gòu)造OLAP索引結(jié)構(gòu)的目的是第3章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?

多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進(jìn)一步發(fā)展55第3章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫使用數(shù)據(jù)倉庫應(yīng)用的三種類型信息處理支持查詢,基本統(tǒng)計分析,使用交叉表,表,圖表和圖進(jìn)行報告分析處理數(shù)據(jù)倉庫數(shù)據(jù)的多維分析支持基本的OLAP操作,切片-切塊,上下鉆,轉(zhuǎn)軸數(shù)據(jù)挖掘隱藏模式的知識發(fā)現(xiàn)支持關(guān)聯(lián),構(gòu)造分析模型,進(jìn)行分類和預(yù)測,并使用可視化工具提供挖掘結(jié)果.三類任務(wù)的差別56數(shù)據(jù)倉庫使用數(shù)據(jù)倉庫應(yīng)用的三種類型56從聯(lián)機(jī)分析處理到聯(lián)機(jī)分析挖掘為什么要進(jìn)行聯(lián)機(jī)分析挖掘(OLAM)?數(shù)據(jù)倉庫中數(shù)據(jù)的高質(zhì)量數(shù)據(jù)倉庫包含集成的,一致的,清理過的數(shù)據(jù)圍繞數(shù)據(jù)倉庫的有價值的信息處理基礎(chǔ)設(shè)施ODBC,OLEDB,Web訪問,服務(wù)機(jī)制,報告和OLAP工具基于OLAP的探測式數(shù)據(jù)分析使用上下鉆,切片,切塊,轉(zhuǎn)軸等進(jìn)行挖掘.數(shù)據(jù)挖掘功能的聯(lián)機(jī)選擇集成多種挖掘功能,算法和任務(wù),并進(jìn)行切換.OLAM的結(jié)構(gòu)57從聯(lián)機(jī)分析處理到聯(lián)機(jī)分析挖掘為什么要進(jìn)行聯(lián)機(jī)分析挖掘(OLAOLAM的結(jié)構(gòu)數(shù)據(jù)倉庫元數(shù)據(jù)MDDBOLAM引擎OLAP引擎用戶GUIAPI數(shù)據(jù)立方體API數(shù)據(jù)庫API數(shù)據(jù)清理數(shù)據(jù)集成第3層OLAP/OLAM第2層MDDB第1層數(shù)據(jù)存儲第4層用戶界面過濾和集成過濾Databases挖掘查詢挖掘結(jié)果58OLAM的結(jié)構(gòu)數(shù)據(jù)倉庫元數(shù)據(jù)MDDBOLAMOLAP用戶小結(jié)數(shù)據(jù)倉庫數(shù)據(jù)倉庫的多維數(shù)據(jù)模型星型模式,雪花模式,事實星座數(shù)據(jù)方由維和度量組成OLAP

操作:下鉆,上卷,切片,切塊和轉(zhuǎn)軸OLAP服務(wù)器:ROLAP,MOLAP,HOLAP數(shù)據(jù)方的有效計算部分vs.全部vs.不物化多路數(shù)組聚集位圖索引和連接索引的實現(xiàn)59小結(jié)數(shù)據(jù)倉庫59第3章

數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)2022/12/2060數(shù)據(jù)挖掘:概念與技術(shù)第3章

數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)2022/12/1第3章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?

多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實現(xiàn)數(shù)據(jù)立方體的進(jìn)一步發(fā)展從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘61第3章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?什么是數(shù)據(jù)倉庫?有不同的方法定義,但不是嚴(yán)格的.是一個決策支持?jǐn)?shù)據(jù)庫,它與組織機(jī)構(gòu)的操作數(shù)據(jù)庫分別維護(hù)數(shù)據(jù)倉庫系統(tǒng)允許將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,支持信息處理.W.H.Inmon的定義:數(shù)據(jù)倉庫是

面向主題的(subject-oriented),集成的(integrated),時變的(time-variant),和非易失的(nonvolatile)數(shù)據(jù)集合,支持管理決策過程建立數(shù)據(jù)倉庫(Datawarehousing):構(gòu)造和使用數(shù)據(jù)倉庫的過程62什么是數(shù)據(jù)倉庫?有不同的方法定義,但不是嚴(yán)格的.3數(shù)據(jù)倉庫—面向主題的圍繞重要的主題(如顧客、產(chǎn)品、銷售等)組織.關(guān)注決策制定者的數(shù)據(jù)建模與分析,而不是日常的操作和事務(wù)處理.數(shù)據(jù)倉庫排除對于決策過程無用的數(shù)據(jù),提供特定主題的簡明視圖.63數(shù)據(jù)倉庫—面向主題的圍繞重要的主題(如顧客、產(chǎn)品、銷售等)數(shù)據(jù)倉庫—集成的通過將多個異種的數(shù)據(jù)源集成在一起,而構(gòu)造比如,關(guān)系數(shù)據(jù)庫,一般文件,聯(lián)機(jī)事務(wù)記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù).確保命名約定,編碼結(jié)構(gòu),屬性度量等的一致性例如,飯店價格:貨幣種類,稅,是否含早餐,等.當(dāng)數(shù)據(jù)裝入數(shù)據(jù)倉庫時,數(shù)據(jù)將被轉(zhuǎn)換.

64數(shù)據(jù)倉庫—集成的通過將多個異種的數(shù)據(jù)源集成在一起,而構(gòu)造數(shù)據(jù)倉庫—時變的數(shù)據(jù)倉庫的時間跨度顯著地比操作數(shù)據(jù)庫長.操作數(shù)據(jù)庫數(shù)據(jù):當(dāng)前值數(shù)據(jù).數(shù)據(jù)倉庫數(shù)據(jù):從歷史的角度提供數(shù)據(jù)(例如,過去5-10年)數(shù)據(jù)倉庫中的每個鍵結(jié)構(gòu)顯式或隱式地包含時間元素,但是,操作數(shù)據(jù)的鍵可能包含,也可能不包含“時間元素”.65數(shù)據(jù)倉庫—時變的數(shù)據(jù)倉庫的時間跨度顯著地比操作數(shù)據(jù)庫長.6數(shù)據(jù)倉庫—非易失的從操作環(huán)境轉(zhuǎn)換過來的數(shù)據(jù)物理地分離存放.數(shù)據(jù)的更新不在數(shù)據(jù)倉庫環(huán)境中出現(xiàn).不需要事務(wù)處理,恢復(fù),和并發(fā)控制機(jī)制只需要兩種數(shù)據(jù)存取操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問.66數(shù)據(jù)倉庫—非易失的從操作環(huán)境轉(zhuǎn)換過來的數(shù)據(jù)物理地分離存放.數(shù)據(jù)倉庫和異種DBMS傳統(tǒng)的異種數(shù)據(jù)庫集成:在異種數(shù)據(jù)庫上建立一個包裝程序(wrappers)或中介程序(/mediators)查詢驅(qū)動的方法當(dāng)查詢提交給一個站點(diǎn)時,使用元數(shù)據(jù)詞典將查詢轉(zhuǎn)換成所涉及的異構(gòu)站點(diǎn)上的相應(yīng)查詢,查詢的結(jié)果被集成為一個全局回答的集合需要:復(fù)雜的信息過濾,對資源的競爭數(shù)據(jù)倉庫:更新驅(qū)動的,高性能來自異種信息源的數(shù)據(jù)被預(yù)先集成并存儲在數(shù)據(jù)倉庫中,直接用于查詢和分析67數(shù)據(jù)倉庫和異種DBMS傳統(tǒng)的異種數(shù)據(jù)庫集成:8數(shù)據(jù)倉庫VS.操作數(shù)據(jù)庫OLTP(on-linetransactionprocessing,聯(lián)機(jī)事務(wù)處理)傳統(tǒng)關(guān)系DBMS的主要任務(wù)涵蓋日常操作:購買,庫存,銀行,制造,工資單,注冊,記帳,等.OLAP(on-lineanalyticalprocessing,聯(lián)機(jī)分析處理)數(shù)據(jù)倉庫系統(tǒng)的主要任務(wù)數(shù)據(jù)分析和決策制定上提供服務(wù)不同的特點(diǎn)(OLTPvs.OLAP):用戶和系統(tǒng)的面向性:顧客vs.市場數(shù)據(jù)內(nèi)容:當(dāng)前的,細(xì)節(jié)的vs.歷史的,合并的數(shù)據(jù)庫設(shè)計:ER+應(yīng)用vs.星型+主題視圖:當(dāng)前的,局部的vs.進(jìn)化的,集成的訪問模式:更新vs.只讀的,但是復(fù)雜的查詢68數(shù)據(jù)倉庫VS.操作數(shù)據(jù)庫OLTP(on-linetranOLTPvs.OLAP69OLTPvs.OLAP10為什么建立分離的數(shù)據(jù)倉庫?為了兩個系統(tǒng)的高性能DBMS—目的是OLTP:存取方法,索引,并發(fā)控制,恢復(fù)數(shù)據(jù)倉庫—目的是OLAP:復(fù)雜的OLAP查詢,多維視圖,統(tǒng)一.不同的功能和不同的數(shù)據(jù):缺少數(shù)據(jù):決策支持需要?dú)v史數(shù)據(jù),通常操作數(shù)據(jù)庫并不維護(hù)這些數(shù)據(jù)數(shù)據(jù)統(tǒng)一:決策支持需要將來自異種數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一(聚集,匯總)數(shù)據(jù)質(zhì)量:不同的數(shù)據(jù)源通常使用不同的數(shù)據(jù)表示,編碼,和應(yīng)當(dāng)遵循的格式70為什么建立分離的數(shù)據(jù)倉庫?為了兩個系統(tǒng)的高性能11第2章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?

多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進(jìn)一步發(fā)展71第2章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?由表和電子數(shù)據(jù)表到數(shù)據(jù)方數(shù)據(jù)倉庫基于多維數(shù)據(jù)模型,多維數(shù)據(jù)模型將數(shù)據(jù)視為數(shù)據(jù)方(datacube)形式數(shù)據(jù)方(如sales)可以將數(shù)據(jù)建模,并允許由多個維進(jìn)行觀察維表,如item(item_name,brand,type),或time(day,week,month,quarter,year)事實表包含度量(如dollars_sold)和每個相關(guān)維表的鍵在數(shù)據(jù)倉庫的文獻(xiàn)中,一個n-D基本立方體稱作基本方體(basecuboid).最頂部的0-D方體存放最高層的匯總,稱作頂點(diǎn)方體(apexcuboid).方體的格形成數(shù)據(jù)方.72由表和電子數(shù)據(jù)表到數(shù)據(jù)方數(shù)據(jù)倉庫基于多維數(shù)據(jù)模型,多立方體:方體的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(頂點(diǎn))方體1-D方體2-D方體3-D方體4-D(基本)方體73立方體:方體的格alltimeitemlocationsu數(shù)據(jù)倉庫的概念建模數(shù)據(jù)倉庫建模:多維模型,涉及維和度量星型模式:事實表在中央,連接一組維表雪花模式:星型模式的精煉,其中一些維分層結(jié)構(gòu)被規(guī)范化成一組較小的維表,形成類似于雪花的形狀,減少冗余事實星座:多個事實表共享維表,可以看作星星的集合,因此稱作星系模式,或事實星座74數(shù)據(jù)倉庫的概念建模數(shù)據(jù)倉庫建模:多維模型,涉及維和度量15星型模式的例子

time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocation事實表

time_key

item_keybranch_key

location_key

units_sold

dollars_sold

avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch75星型模式的例子time_keytimelocation雪花模式的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTable

time_key

item_keybranch_key

location_key

units_solddollars_sold

avg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycityprovince_or_statecountrycity76雪花模式的例子time_keytimelocation_ke事實星座的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_sold

avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper77事實星座的例子time_keytimelocation_ke數(shù)據(jù)挖掘查詢語言DMQL:語言原語立方體定義(事實表)definecube<cube_name>[<dimension_list>]:<measure_list>維定義(維表)definedimension<dimension_name>as(<attribute_or_subdimension_list>)特殊情況(共享維表)第一次,如“cubedefinition”definedimension<dimension_name>as<dimension_name_first_time>incube<cube_name_first_time>78數(shù)據(jù)挖掘查詢語言DMQL:語言原語立方體定義(事實表)用DMQL定義星型模式definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)79用DMQL定義星型模式definecubesales_s用DMQL定義雪花模式definecubesales_snowflake[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type))definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country))80用DMQL定義雪花模式definecubesales_s用DMQL定義事實星座definecubesales[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)definecubeshipping[time,item,shipper,from_location,to_location]:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesalesdefinedimensionshipperas(shipper_key,shipper_name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales81用DMQL定義事實星座definecubesales[三類度量(數(shù)值函數(shù))分布的(distributive):將數(shù)據(jù)劃分為n個集合,函數(shù)在每一部分上的計算得到一個聚集值.如果將函數(shù)用于n個聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣,則該函數(shù)可以用分布方式計算.例,count(),sum(),min(),max().代數(shù)的(algebraic):如果它能夠由一個具有M(其中,M是一個整數(shù)界)個參數(shù)的代數(shù)函數(shù)計算,而每個參數(shù)都可以用一個分布聚集函數(shù)求得.例,

avg(),min_N(),standard_deviation().整體的(holistic):如果描述它的子聚集所需的存儲沒有一個常數(shù)界.

例,median(),mode(),rank().82三類度量(數(shù)值函數(shù))分布的(distributive):一個概念分層:維LocationallEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity83一個概念分層:維LocationallEuropeNort數(shù)據(jù)倉庫和分層結(jié)構(gòu)視圖84數(shù)據(jù)倉庫和分層結(jié)構(gòu)視圖25多維數(shù)據(jù)多維模型中,數(shù)據(jù)組織成多維,每維包含由概念分層定義的多個抽象層銷售量作為product,month,和region的函數(shù)ProductRegionMonth維:Product,Location,Time的分層結(jié)構(gòu)IndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay85多維數(shù)據(jù)多維模型中,數(shù)據(jù)組織成多維,每維包含由概念分層定義的一個數(shù)據(jù)方的樣本TV在U.S.A.的總銷售DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum86一個數(shù)據(jù)方的樣本TV在U.S.A.的總銷售DatePro對應(yīng)于數(shù)據(jù)方的方體allproductdatecountryproduct,dateproduct,countrydate,countryproduct,date,country0-D(頂點(diǎn))方體1-D方體2-D方體3-D(基本)方體87對應(yīng)于數(shù)據(jù)方的方體allproductdatecountry瀏覽數(shù)據(jù)方可視化OLAP的能力交互式操作88瀏覽數(shù)據(jù)方可視化29典型的OLAP操作上卷(Rollup)/上鉆(drill-up):匯總數(shù)據(jù)下鉆(Drilldown)/下卷(rolldown):上卷的逆操作切片(Slice)和切塊

:投影和選擇轉(zhuǎn)軸(Pivot)/旋轉(zhuǎn)(rotate):調(diào)整數(shù)據(jù)方,目視操作,3D到2D平面.其它操作鉆過(drillacross):涉及多個事實表鉆透(drillthrough):通過數(shù)據(jù)方的最底層,到它背后的關(guān)系表(使用

SQL)89典型的OLAP操作上卷(Rollup)/上鉆(drillOLAP操作:上卷上卷(Rollup)/上鉆(drill-up):匯總數(shù)據(jù)通過沿概念分層攀升或通過維歸約在location上卷(由cities到countries)90OLAP操作:上卷上卷(Rollup)/上鉆(driOLAP操作:下鉆下鉆(Drilldown)/下卷(rolldown):上卷的逆操作由較高層的匯總到較低層的匯總或詳細(xì)數(shù)據(jù),或者引進(jìn)新的維在time下鉆(由quarters到months)91OLAP操作:下鉆下鉆(Drilldown)/下卷(OLAP操作:切片切片(Slice)

:投影和選擇,對一個維進(jìn)行選擇,導(dǎo)致子方體切片條件:time=“Q2”92OLAP操作:切片切片(Slice):33OLAP操作:切塊切塊

:對兩個或多個維執(zhí)行選擇,導(dǎo)致子方體切塊條件:(location=“Montreal”or“Vancouver”)and(time=“Q1”or“Q2”)and(item=“homeentertainment”or“computer”)93OLAP操作:切塊切塊:對兩個或多個維執(zhí)行選擇,導(dǎo)致OLAP操作:轉(zhuǎn)軸轉(zhuǎn)軸(Pivot)/旋轉(zhuǎn)(rotate):調(diào)整數(shù)據(jù)方,可視化操作,提供數(shù)據(jù)的替代表示.94OLAP操作:轉(zhuǎn)軸轉(zhuǎn)軸(Pivot)/旋轉(zhuǎn)(rotat其他操作其它操作鉆過(drillacross):涉及多個事實表鉆透(drillthrough):通過數(shù)據(jù)方的最底層,到它背后的關(guān)系表(使用

SQL)統(tǒng)計計算比率、方差;增長率分析建模,等95其他操作其它操作36第3章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?

多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進(jìn)一步發(fā)展96第3章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫設(shè)計中,必須考慮四種視圖自頂向下視圖選擇數(shù)據(jù)倉庫所需的有關(guān)信息數(shù)據(jù)源視圖揭示(操作)數(shù)據(jù)庫系統(tǒng)捕獲、存儲、和管理的信息

數(shù)據(jù)倉庫視圖由事實表和維表組成商務(wù)查詢視圖從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)97數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫設(shè)計中,必須考慮四種視圖38數(shù)據(jù)倉庫設(shè)計過程

自頂向下,自底向上方法或二者的結(jié)合自頂向下:由總體設(shè)計和規(guī)劃開始(成熟)自底向上:由實驗和原型開始(快速)軟件工程的觀點(diǎn)瀑布式:在進(jìn)行下一步之前,每一步都進(jìn)行結(jié)構(gòu)化和系統(tǒng)的分析螺旋式:功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間的間隔很短,快速轉(zhuǎn)向典型的數(shù)據(jù)倉庫設(shè)計過程選取待建模的商務(wù)處理,例如,訂單,發(fā)票,庫存等.選取商務(wù)處理的粒度(原子層數(shù)據(jù)),例如,單個事務(wù)、一天的快照等選取用于每個事實表記錄的維,如,時間、商品、顧客、供應(yīng)商、倉庫、事務(wù)類型和狀態(tài)等選取將安放在事實表中的度量.典型的度量是可加的數(shù)值量,如dollars_sold和units_sold

98數(shù)據(jù)倉庫設(shè)計過程自頂向下,自底向上方法或二者的結(jié)合39多層結(jié)構(gòu)數(shù)據(jù)倉庫提取變換裝入刷新OLAP引擎分析查詢報告數(shù)據(jù)挖掘Monitor&Integrator元數(shù)據(jù)數(shù)據(jù)源終端工具輸出數(shù)據(jù)集市操作數(shù)據(jù)庫其它數(shù)據(jù)源數(shù)據(jù)存儲OLAP服務(wù)器99多層結(jié)構(gòu)數(shù)據(jù)倉庫提取OLAP引擎分析Monitor元數(shù)據(jù)數(shù)據(jù)三層數(shù)據(jù)倉庫模型企業(yè)倉庫搜集了關(guān)于主題的所有信息,跨越整個組織數(shù)據(jù)集市數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的用戶是有用的.其范圍限于選定的主題,如銷售數(shù)據(jù)獨(dú)立的vs.依賴的(直接來自數(shù)據(jù)倉庫)數(shù)據(jù)集市虛擬倉庫操作數(shù)據(jù)庫上視圖的集合只有部分可能的匯總視圖被物化100三層數(shù)據(jù)倉庫模型企業(yè)倉庫41數(shù)據(jù)倉庫開發(fā):

一種推薦的方法定義一個高層企業(yè)數(shù)據(jù)模型數(shù)據(jù)集市分布式數(shù)據(jù)集市多層數(shù)據(jù)倉庫企業(yè)數(shù)據(jù)倉庫模型提煉數(shù)據(jù)集市模型提煉101數(shù)據(jù)倉庫開發(fā):一種推薦的方法定義一個高層企業(yè)數(shù)據(jù)模型數(shù)據(jù)集OLAP服務(wù)器結(jié)構(gòu)關(guān)系OLAP(ROLAP)

使用關(guān)系或擴(kuò)充關(guān)系的DBMS存放和管理倉庫數(shù)據(jù),使用OLAP中間件支持其它部分包含一個優(yōu)化的DBMS后端,聚集導(dǎo)航邏輯的實現(xiàn),以及附加的工具和服務(wù)較大的可伸縮性多維OLAP(MOLAP)

基于數(shù)組的多維存儲引擎(稀疏矩陣技術(shù))對預(yù)計算的匯總數(shù)據(jù)快速索引混合OLAP(HOLAP)彈性,底層:關(guān)系的,高層:數(shù)組.專門的SQL服務(wù)器對星型/雪花型模式上的SQL查詢提供特殊的支持102OLAP服務(wù)器結(jié)構(gòu)關(guān)系OLAP(ROLAP)43元數(shù)據(jù)存儲元數(shù)據(jù)是定義數(shù)據(jù)倉庫的數(shù)據(jù).有如下類型描述數(shù)據(jù)倉庫的結(jié)構(gòu)模式,視圖,維,分層結(jié)構(gòu),數(shù)據(jù)源定義,數(shù)據(jù)集市的位置和內(nèi)容操作元數(shù)據(jù)數(shù)據(jù)血統(tǒng)(數(shù)據(jù)變遷歷史和轉(zhuǎn)換路徑),數(shù)據(jù)流通(主動,存檔,或凈化),管理信息(數(shù)據(jù)倉庫使用統(tǒng)計,錯誤報告,審計跟蹤)用于匯總的算法由操作環(huán)境到數(shù)據(jù)倉庫的映射涉及系統(tǒng)性能的數(shù)據(jù)倉庫模式,視圖和導(dǎo)出數(shù)據(jù)的定義商務(wù)數(shù)據(jù)商務(wù)術(shù)語和定義,數(shù)據(jù)的所有者,收費(fèi)政策103元數(shù)據(jù)存儲元數(shù)據(jù)是定義數(shù)據(jù)倉庫的數(shù)據(jù).有如下類型44數(shù)據(jù)倉庫的后端工具和實用程序數(shù)據(jù)提取:由多個異種,外部數(shù)據(jù)源收集數(shù)據(jù)數(shù)據(jù)清理:檢測數(shù)據(jù)中的錯誤,可能時訂正它們數(shù)據(jù)變換:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉庫格式裝載:排序,綜合,加固,計算視圖,檢查整體性,并建立索引和劃分刷新傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新104數(shù)據(jù)倉庫的后端工具和實用程序數(shù)據(jù)提取:45第2章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?

多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進(jìn)一步發(fā)展105第2章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?數(shù)據(jù)方的有效計算數(shù)據(jù)方可以視為方體的格最下面的方體是基本方體最上面的(頂點(diǎn))方體只包含一個單元具有L層的n-D數(shù)據(jù)方包含多少個方體?其中Li是與維i相關(guān)聯(lián)的層數(shù)數(shù)據(jù)方的物化(Materialization)物化每一個方體(全物化),不物化任何方體(不物化),或物化某些方體(部分物化)物化方體的選擇基于大小,共享,訪問頻率,等.106數(shù)據(jù)方的有效計算數(shù)據(jù)方可以視為方體的格47數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論