版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第3章
數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)2023/2/81數(shù)據(jù)挖掘:概念與技術(shù)第3章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?
多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實現(xiàn)數(shù)據(jù)立方體的進一步發(fā)展從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘2什么是數(shù)據(jù)倉庫?有不同的方法定義,但不是嚴格的.是一個決策支持數(shù)據(jù)庫,它與組織機構(gòu)的操作數(shù)據(jù)庫分別維護數(shù)據(jù)倉庫系統(tǒng)允許將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,支持信息處理.W.H.Inmon的定義:數(shù)據(jù)倉庫是
面向主題的(subject-oriented),集成的(integrated),時變的(time-variant),和非易失的(nonvolatile)數(shù)據(jù)集合,支持管理決策過程建立數(shù)據(jù)倉庫(Datawarehousing):構(gòu)造和使用數(shù)據(jù)倉庫的過程3數(shù)據(jù)倉庫—集成的通過將多個異種的數(shù)據(jù)源集成在一起,而構(gòu)造比如,關(guān)系數(shù)據(jù)庫,一般文件,聯(lián)機事務(wù)記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù).確保命名約定,編碼結(jié)構(gòu),屬性度量等的一致性例如,飯店價格:貨幣種類,稅,是否含早餐,等.當數(shù)據(jù)裝入數(shù)據(jù)倉庫時,數(shù)據(jù)將被轉(zhuǎn)換.
5數(shù)據(jù)倉庫—時變的數(shù)據(jù)倉庫的時間跨度顯著地比操作數(shù)據(jù)庫長.操作數(shù)據(jù)庫數(shù)據(jù):當前值數(shù)據(jù).數(shù)據(jù)倉庫數(shù)據(jù):從歷史的角度提供數(shù)據(jù)(例如,過去5-10年)數(shù)據(jù)倉庫中的每個鍵結(jié)構(gòu)顯式或隱式地包含時間元素,但是,操作數(shù)據(jù)的鍵可能包含,也可能不包含“時間元素”.6數(shù)據(jù)倉庫—非易失的從操作環(huán)境轉(zhuǎn)換過來的數(shù)據(jù)物理地分離存放.數(shù)據(jù)的更新不在數(shù)據(jù)倉庫環(huán)境中出現(xiàn).不需要事務(wù)處理,恢復(fù),和并發(fā)控制機制只需要兩種數(shù)據(jù)存取操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問.7數(shù)據(jù)倉庫VS.操作數(shù)據(jù)庫OLTP(on-linetransactionprocessing,聯(lián)機事務(wù)處理)傳統(tǒng)關(guān)系DBMS的主要任務(wù)涵蓋日常操作:購買,庫存,銀行,制造,工資單,注冊,記帳,等.OLAP(on-lineanalyticalprocessing,聯(lián)機分析處理)數(shù)據(jù)倉庫系統(tǒng)的主要任務(wù)數(shù)據(jù)分析和決策制定上提供服務(wù)不同的特點(OLTPvs.OLAP):用戶和系統(tǒng)的面向性:顧客vs.市場數(shù)據(jù)內(nèi)容:當前的,細節(jié)的vs.歷史的,合并的數(shù)據(jù)庫設(shè)計:ER+應(yīng)用vs.星型+主題視圖:當前的,局部的vs.進化的,集成的訪問模式:更新vs.只讀的,但是復(fù)雜的查詢9OLTPvs.OLAP10為什么建立分離的數(shù)據(jù)倉庫?為了兩個系統(tǒng)的高性能DBMS—目的是OLTP:存取方法,索引,并發(fā)控制,恢復(fù)數(shù)據(jù)倉庫—目的是OLAP:復(fù)雜的OLAP查詢,多維視圖,統(tǒng)一.不同的功能和不同的數(shù)據(jù):缺少數(shù)據(jù):決策支持需要歷史數(shù)據(jù),通常操作數(shù)據(jù)庫并不維護這些數(shù)據(jù)數(shù)據(jù)統(tǒng)一:決策支持需要將來自異種數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一(聚集,匯總)數(shù)據(jù)質(zhì)量:不同的數(shù)據(jù)源通常使用不同的數(shù)據(jù)表示,編碼,和應(yīng)當遵循的格式11由表和電子數(shù)據(jù)表到數(shù)據(jù)方數(shù)據(jù)倉庫基于多維數(shù)據(jù)模型,多維數(shù)據(jù)模型將數(shù)據(jù)視為數(shù)據(jù)方(datacube)形式數(shù)據(jù)方(如sales)可以將數(shù)據(jù)建模,并允許由多個維進行觀察維表,如item(item_name,brand,type),或time(day,week,month,quarter,year)事實表包含度量(如dollars_sold)和每個相關(guān)維表的鍵在數(shù)據(jù)倉庫的文獻中,一個n-D基本立方體稱作基本方體(basecuboid).最頂部的0-D方體存放最高層的匯總,稱作頂點方體(apexcuboid).方體的格形成數(shù)據(jù)方.13立方體:方體的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(頂點)方體1-D方體2-D方體3-D方體4-D(基本)方體14數(shù)據(jù)倉庫的概念建模數(shù)據(jù)倉庫建模:多維模型,涉及維和度量星型模式:事實表在中央,連接一組維表雪花模式:星型模式的精煉,其中一些維分層結(jié)構(gòu)被規(guī)范化成一組較小的維表,形成類似于雪花的形狀,減少冗余事實星座:多個事實表共享維表,可以看作星星的集合,因此稱作星系模式,或事實星座15雪花模式的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTable
time_key
item_keybranch_key
location_key
units_solddollars_sold
avg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycityprovince_or_statecountrycity17事實星座的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_sold
avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper18數(shù)據(jù)挖掘查詢語言DMQL:語言原語立方體定義(事實表)definecube<cube_name>[<dimension_list>]:<measure_list>維定義(維表)definedimension<dimension_name>as(<attribute_or_subdimension_list>)特殊情況(共享維表)第一次,如“cubedefinition”definedimension<dimension_name>as<dimension_name_first_time>incube<cube_name_first_time>19用DMQL定義雪花模式definecubesales_snowflake[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type))definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country))21用DMQL定義事實星座definecubesales[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)definecubeshipping[time,item,shipper,from_location,to_location]:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesalesdefinedimensionshipperas(shipper_key,shipper_name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales22三類度量(數(shù)值函數(shù))分布的(distributive):將數(shù)據(jù)劃分為n個集合,函數(shù)在每一部分上的計算得到一個聚集值.如果將函數(shù)用于n個聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣,則該函數(shù)可以用分布方式計算.例,count(),sum(),min(),max().代數(shù)的(algebraic):如果它能夠由一個具有M(其中,M是一個整數(shù)界)個參數(shù)的代數(shù)函數(shù)計算,而每個參數(shù)都可以用一個分布聚集函數(shù)求得.例,
avg(),min_N(),standard_deviation().整體的(holistic):如果描述它的子聚集所需的存儲沒有一個常數(shù)界.
例,median(),mode(),rank().23數(shù)據(jù)倉庫和分層結(jié)構(gòu)視圖25多維數(shù)據(jù)多維模型中,數(shù)據(jù)組織成多維,每維包含由概念分層定義的多個抽象層銷售量作為product,month,和region的函數(shù)ProductRegionMonth維:Product,Location,Time的分層結(jié)構(gòu)IndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay26瀏覽數(shù)據(jù)方可視化OLAP的能力交互式操作29典型的OLAP操作上卷(Rollup)/上鉆(drill-up):匯總數(shù)據(jù)下鉆(Drilldown)/下卷(rolldown):上卷的逆操作切片(Slice)和切塊
:投影和選擇轉(zhuǎn)軸(Pivot)/旋轉(zhuǎn)(rotate):調(diào)整數(shù)據(jù)方,目視操作,3D到2D平面.其它操作鉆過(drillacross):涉及多個事實表鉆透(drillthrough):通過數(shù)據(jù)方的最底層,到它背后的關(guān)系表(使用
SQL)30OLAP操作:上卷上卷(Rollup)/上鉆(drill-up):匯總數(shù)據(jù)通過沿概念分層攀升或通過維歸約在location上卷(由cities到countries)31OLAP操作:下鉆下鉆(Drilldown)/下卷(rolldown):上卷的逆操作由較高層的匯總到較低層的匯總或詳細數(shù)據(jù),或者引進新的維在time下鉆(由quarters到months)32OLAP操作:切片切片(Slice)
:投影和選擇,對一個維進行選擇,導(dǎo)致子方體切片條件:time=“Q2”33OLAP操作:切塊切塊
:對兩個或多個維執(zhí)行選擇,導(dǎo)致子方體切塊條件:(location=“Montreal”or“Vancouver”)and(time=“Q1”or“Q2”)and(item=“homeentertainment”or“computer”)34OLAP操作:轉(zhuǎn)軸轉(zhuǎn)軸(Pivot)/旋轉(zhuǎn)(rotate):調(diào)整數(shù)據(jù)方,可視化操作,提供數(shù)據(jù)的替代表示.35其他操作其它操作鉆過(drillacross):涉及多個事實表鉆透(drillthrough):通過數(shù)據(jù)方的最底層,到它背后的關(guān)系表(使用
SQL)統(tǒng)計計算比率、方差;增長率分析建模,等36第3章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?
多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進一步發(fā)展37數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫設(shè)計中,必須考慮四種視圖自頂向下視圖選擇數(shù)據(jù)倉庫所需的有關(guān)信息數(shù)據(jù)源視圖揭示(操作)數(shù)據(jù)庫系統(tǒng)捕獲、存儲、和管理的信息
數(shù)據(jù)倉庫視圖由事實表和維表組成商務(wù)查詢視圖從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)38數(shù)據(jù)倉庫設(shè)計過程
自頂向下,自底向上方法或二者的結(jié)合自頂向下:由總體設(shè)計和規(guī)劃開始(成熟)自底向上:由實驗和原型開始(快速)軟件工程的觀點瀑布式:在進行下一步之前,每一步都進行結(jié)構(gòu)化和系統(tǒng)的分析螺旋式:功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間的間隔很短,快速轉(zhuǎn)向典型的數(shù)據(jù)倉庫設(shè)計過程選取待建模的商務(wù)處理,例如,訂單,發(fā)票,庫存等.選取商務(wù)處理的粒度(原子層數(shù)據(jù)),例如,單個事務(wù)、一天的快照等選取用于每個事實表記錄的維,如,時間、商品、顧客、供應(yīng)商、倉庫、事務(wù)類型和狀態(tài)等選取將安放在事實表中的度量.典型的度量是可加的數(shù)值量,如dollars_sold和units_sold
39多層結(jié)構(gòu)數(shù)據(jù)倉庫提取變換裝入刷新OLAP引擎分析查詢報告數(shù)據(jù)挖掘Monitor&Integrator元數(shù)據(jù)數(shù)據(jù)源終端工具輸出數(shù)據(jù)集市操作數(shù)據(jù)庫其它數(shù)據(jù)源數(shù)據(jù)存儲OLAP服務(wù)器40三層數(shù)據(jù)倉庫模型企業(yè)倉庫搜集了關(guān)于主題的所有信息,跨越整個組織數(shù)據(jù)集市數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的用戶是有用的.其范圍限于選定的主題,如銷售數(shù)據(jù)獨立的vs.依賴的(直接來自數(shù)據(jù)倉庫)數(shù)據(jù)集市虛擬倉庫操作數(shù)據(jù)庫上視圖的集合只有部分可能的匯總視圖被物化41數(shù)據(jù)倉庫開發(fā):
一種推薦的方法定義一個高層企業(yè)數(shù)據(jù)模型數(shù)據(jù)集市分布式數(shù)據(jù)集市多層數(shù)據(jù)倉庫企業(yè)數(shù)據(jù)倉庫模型提煉數(shù)據(jù)集市模型提煉42OLAP服務(wù)器結(jié)構(gòu)關(guān)系OLAP(ROLAP)
使用關(guān)系或擴充關(guān)系的DBMS存放和管理倉庫數(shù)據(jù),使用OLAP中間件支持其它部分包含一個優(yōu)化的DBMS后端,聚集導(dǎo)航邏輯的實現(xiàn),以及附加的工具和服務(wù)較大的可伸縮性多維OLAP(MOLAP)
基于數(shù)組的多維存儲引擎(稀疏矩陣技術(shù))對預(yù)計算的匯總數(shù)據(jù)快速索引混合OLAP(HOLAP)彈性,底層:關(guān)系的,高層:數(shù)組.專門的SQL服務(wù)器對星型/雪花型模式上的SQL查詢提供特殊的支持43元數(shù)據(jù)存儲元數(shù)據(jù)是定義數(shù)據(jù)倉庫的數(shù)據(jù).有如下類型描述數(shù)據(jù)倉庫的結(jié)構(gòu)模式,視圖,維,分層結(jié)構(gòu),數(shù)據(jù)源定義,數(shù)據(jù)集市的位置和內(nèi)容操作元數(shù)據(jù)數(shù)據(jù)血統(tǒng)(數(shù)據(jù)變遷歷史和轉(zhuǎn)換路徑),數(shù)據(jù)流通(主動,存檔,或凈化),管理信息(數(shù)據(jù)倉庫使用統(tǒng)計,錯誤報告,審計跟蹤)用于匯總的算法由操作環(huán)境到數(shù)據(jù)倉庫的映射涉及系統(tǒng)性能的數(shù)據(jù)倉庫模式,視圖和導(dǎo)出數(shù)據(jù)的定義商務(wù)數(shù)據(jù)商務(wù)術(shù)語和定義,數(shù)據(jù)的所有者,收費政策44數(shù)據(jù)倉庫的后端工具和實用程序數(shù)據(jù)提取:由多個異種,外部數(shù)據(jù)源收集數(shù)據(jù)數(shù)據(jù)清理:檢測數(shù)據(jù)中的錯誤,可能時訂正它們數(shù)據(jù)變換:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉庫格式裝載:排序,綜合,加固,計算視圖,檢查整體性,并建立索引和劃分刷新傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新45第2章:數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫?
多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進一步發(fā)展46數(shù)據(jù)方的有效計算數(shù)據(jù)方可以視為方體的格最下面的方體是基本方體最上面的(頂點)方體只包含一個單元具有L層的n-D數(shù)據(jù)方包含多少個方體?其中Li是與維i相關(guān)聯(lián)的層數(shù)數(shù)據(jù)方的物化(Materialization)物化每一個方體(全物化),不物化任何方體(不物化),或物化某些方體(部分物化)物化方體的選擇基于大小,共享,訪問頻率,等.47數(shù)據(jù)方計算用DMQL定義和計算數(shù)據(jù)方definecubesales[item,city,year]:sum(sales_in_dollars)computecubesales將它變換成類——SQL語句(用新的操作cubeby擴充,由Gray等’96引進)SELECTitem,city,year,SUM(amount)FROMSALESCUBEBYitem,city,year需要計算的分組
(city,item,year),(city,item),(city,year),(item,city),(city),(item),(year)()(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)48數(shù)據(jù)方計算:基于ROLAP的方法(1)有效的方計算方法基于ROLAP的方計算算法(Agarwaletal’96)基于數(shù)組的方計算算法(Zhaoetal’97)自底向上的方法(Beyer&Ramarkrishnan’99)混合的方法(Han,Pei,Dong&Wang:SIGMOD’01)基于ROLAP的方計算算法排序,散列,和分組操作用于維屬性,以便對相關(guān)元組重新排序和分簇在某些子聚集上分組,作為“部分分組”由以前計算的聚集計算新的聚集,而不必由基本事實表計算
49數(shù)據(jù)方計算:基于ROLAP的方法(2)取自研究論文基于Hash/排序的方法(Agarwal等.
VLDB’96)最小雙親(Smallest-parent):由最小的,先前計算的方體計算方體存儲結(jié)果(Cache-results):存儲先前計算的方體,由它可以計算其它方體,以減少磁盤I/O分攤掃描(Amortize-scans):同時計算盡可能多的方體,以分攤磁盤的讀操作開銷共享排序(Share-sorts):使用基于排序的方法時,在多個方體之間共享排序開銷共享劃分(Share-partitions):使用基于hash的方法時,在多個方體之間共享劃分開銷50索引OLAP數(shù)據(jù)為了有效的訪問,大部分數(shù)據(jù)倉庫系統(tǒng)支持索引結(jié)構(gòu)兩種常用的方法對OLAP數(shù)據(jù)進行索引位圖索引bitmapindexing連接索引joinindexing51索引OLAP數(shù)據(jù):位圖索引在一個特定列上索引列上的每個值是一個位向量:位操作很快位向量的長度:基本表的記錄數(shù)如果數(shù)據(jù)表中給定行的屬性值為v,則在位圖索引的對應(yīng)行,表示該值的位為1,該行的其它位均為0不適合勢(不同值個數(shù))很高的域基本表在Region上索引在Type上索引52索引OLAP數(shù)據(jù):連接索引連接索引:JI(R-id,S-id),其中R(R-id,…)S(S-id,…)將關(guān)系的連接物化在JI文件中,加快了關(guān)系連接的速度數(shù)據(jù)倉庫中,連接索引將星型模式維表的值關(guān)聯(lián)到事實表
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年八年級統(tǒng)編版語文寒假預(yù)習(xí) 第05講 《莊子》二則
- 【全程復(fù)習(xí)方略】2020年數(shù)學(xué)文(廣西用)課時作業(yè):第六章-第四節(jié)含絕對值的不等式
- 【2021屆備考】2020全國名校物理試題分類解析匯編(11月第二期)D5-萬有引力與天體運動
- 【創(chuàng)新設(shè)計】2021高考英語(四川專用)二輪復(fù)習(xí)-第4部分-閱讀理解解答技巧-專題1-
- 《精準醫(yī)療》課件
- 2021杭州市高考英語閱讀理解、完形填空小練(2)答案(四月)
- 【2021屆備考】2020全國名?;瘜W(xué)試題分類解析匯編(11月第二期):N-單元物質(zhì)結(jié)構(gòu)與性質(zhì)
- 五年級數(shù)學(xué)(小數(shù)四則混合運算)計算題專項練習(xí)及答案
- 【2021屆備考】2020全國名校物理試題分類解析匯編(11月第二期)L2-法拉第電磁感應(yīng)定律
- M2工藝部周工作總結(jié)Week
- 警綜平臺運行管理制度
- 中醫(yī)診療器具清洗消毒(醫(yī)院感染防控專家課堂培訓(xùn)課件)
- 立法學(xué)完整版教學(xué)課件全套ppt教程
- 簡約中國風(fēng)水墨山水工作總結(jié)通用PPT模板
- 礦山測量課程設(shè)計
- 藥廠生產(chǎn)車間現(xiàn)場管理-PPT課件
- 軸與孔標準公差表
- 防火門施工方案
- 人教PEP版2022-2023六年級英語上冊期末試卷及答案(含聽力材料)
- 高速公路瀝青路面設(shè)計計算書(Word)
- 加油機拆卸安裝方案
評論
0/150
提交評論