數(shù)據(jù)挖掘數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLA技術(shù)_第1頁
數(shù)據(jù)挖掘數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLA技術(shù)_第2頁
數(shù)據(jù)挖掘數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLA技術(shù)_第3頁
數(shù)據(jù)挖掘數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLA技術(shù)_第4頁
數(shù)據(jù)挖掘數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLA技術(shù)_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)數(shù)據(jù)倉庫-數(shù)據(jù)挖掘的有效平臺(tái)數(shù)據(jù)倉庫中的數(shù)據(jù)清理和數(shù)據(jù)集成,是數(shù)據(jù)挖掘的重要數(shù)據(jù)預(yù)處理步驟數(shù)據(jù)倉庫提供OLAP工具,可用于不同粒度的數(shù)據(jù)分析很多數(shù)據(jù)挖掘功能都可以和OLAP操作集成,以提供不同概念層上的知識(shí)發(fā)現(xiàn)分類預(yù)測(cè)關(guān)聯(lián)聚集什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫的定義很多,但卻很難有一種嚴(yán)格的定義它是一個(gè)提供決策支持功能的數(shù)據(jù)庫,它與公司的操作數(shù)據(jù)庫分開維護(hù)。為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持?jǐn)?shù)據(jù)倉庫區(qū)別于其他數(shù)據(jù)存儲(chǔ)系統(tǒng)“數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過程.”—W.H.Inmon數(shù)據(jù)倉庫關(guān)鍵特征一——面向主題面向主題,是數(shù)據(jù)倉庫顯著區(qū)別于關(guān)系數(shù)據(jù)庫系統(tǒng)的一個(gè)特征圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品等關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理。排除對(duì)于決策無用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。數(shù)據(jù)倉庫關(guān)鍵特征二——數(shù)據(jù)集成一個(gè)數(shù)據(jù)倉庫是通過集成多個(gè)異種數(shù)據(jù)源來構(gòu)造的。關(guān)系數(shù)據(jù)庫,一般文件,聯(lián)機(jī)事務(wù)處理記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)。確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。當(dāng)數(shù)據(jù)被移到數(shù)據(jù)倉庫時(shí),它們要經(jīng)過轉(zhuǎn)化。數(shù)據(jù)倉庫關(guān)鍵特征三——隨時(shí)間而變化數(shù)據(jù)倉庫是從歷史的角度提供信息數(shù)據(jù)倉庫的時(shí)間范圍比操作數(shù)據(jù)庫系統(tǒng)要長(zhǎng)的多。操作數(shù)據(jù)庫系統(tǒng):主要保存當(dāng)前數(shù)據(jù)。數(shù)據(jù)倉庫:從歷史的角度提供信息(比如過去5-10年)數(shù)據(jù)倉庫中的每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素,而操作數(shù)據(jù)庫中的關(guān)鍵結(jié)構(gòu)可能就不包括時(shí)間元素。數(shù)據(jù)倉庫關(guān)鍵特征四——數(shù)據(jù)不易丟失盡管數(shù)據(jù)倉庫中的數(shù)據(jù)來自于操作數(shù)據(jù)庫,但他們卻是在物理上分離保存的。操作數(shù)據(jù)庫的更新操作不會(huì)出現(xiàn)在數(shù)據(jù)倉庫環(huán)境下。不需要事務(wù)處理,恢復(fù),和并發(fā)控制等機(jī)制只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪問(讀操作)數(shù)據(jù)倉庫的構(gòu)建與使用數(shù)據(jù)倉庫的構(gòu)建包括一系列的數(shù)據(jù)預(yù)處理過程數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)倉庫的使用熱點(diǎn)是商業(yè)決策行為,例如:增加客戶聚焦產(chǎn)品重定位尋找獲利點(diǎn)客戶關(guān)系管理數(shù)據(jù)倉庫與異種數(shù)據(jù)庫集成異種數(shù)據(jù)庫的集成方法傳統(tǒng)的異種數(shù)據(jù)庫集成:(查詢驅(qū)動(dòng))在多個(gè)異種數(shù)據(jù)庫上建立包裝程序(wrappers)和中介程序(mediators)查詢驅(qū)動(dòng)方法——當(dāng)從客戶端傳過來一個(gè)查詢時(shí),首先使用元數(shù)據(jù)字典將查詢轉(zhuǎn)換成相應(yīng)異種數(shù)據(jù)庫上的查詢;然后,將這些查詢映射和發(fā)送到局部查詢處理器數(shù)據(jù)倉庫:(更新驅(qū)動(dòng))將來自多個(gè)異種源的信息預(yù)先集成,并存儲(chǔ)在數(shù)據(jù)倉庫中,供直接查詢和分析查詢驅(qū)動(dòng)方法和更新驅(qū)動(dòng)方法的比較查詢驅(qū)動(dòng)的方法需要復(fù)雜的信息過濾和集成處理與局部數(shù)據(jù)源上的處理競(jìng)爭(zhēng)資源對(duì)于頻繁的查詢,尤其是涉及聚集(匯總)操作的查詢,開銷很大(決策支持中常見的查詢形式)更新驅(qū)動(dòng)的方法(帶來高性能)數(shù)據(jù)經(jīng)預(yù)處理后單獨(dú)存儲(chǔ),對(duì)聚集操作提供良好支持不影響局部數(shù)據(jù)源上的處理集成歷史信息,支持復(fù)雜的多維查詢數(shù)據(jù)倉庫與操操作數(shù)據(jù)庫系系統(tǒng)操作數(shù)據(jù)庫系系統(tǒng)的主要任任務(wù)是聯(lián)機(jī)事事務(wù)處理OLTP日常操作:購買,庫存,,銀行,制造造,工資,注注冊(cè),記帳等等數(shù)據(jù)倉庫的主主要任務(wù)是聯(lián)聯(lián)機(jī)分析處理理OLAP數(shù)據(jù)分析和決決策支持,支支持以不同的的形式顯示數(shù)數(shù)據(jù)以滿足不不同的用戶需需要OLAPVS.OLTP(1)用戶和系統(tǒng)的的面向性面向顧客(事事務(wù))VS.面向市場(chǎng)(分分析)數(shù)據(jù)內(nèi)容當(dāng)前的、詳細(xì)細(xì)的數(shù)據(jù)VS.歷史的、匯總總的數(shù)據(jù)數(shù)據(jù)庫設(shè)計(jì)實(shí)體-聯(lián)系模模型(ER)和面向應(yīng)用的的數(shù)據(jù)庫設(shè)計(jì)計(jì)VS.星型/雪花模型和面面向主題的數(shù)數(shù)據(jù)庫設(shè)計(jì)OLAPVS.OLTP(2)數(shù)據(jù)視圖當(dāng)前的、企業(yè)業(yè)內(nèi)部的數(shù)據(jù)據(jù)VS.經(jīng)過演化的、、集成的數(shù)據(jù)據(jù)訪問模式事務(wù)操作VS.只讀查詢(但但很多是復(fù)雜雜的查詢)任務(wù)單位簡(jiǎn)短的事務(wù)VS.復(fù)雜的查詢?cè)L問數(shù)據(jù)量數(shù)十個(gè)VS.數(shù)百萬個(gè)OLAPVS.OLTP(3)用戶數(shù)數(shù)千個(gè)VS.數(shù)百個(gè)數(shù)據(jù)庫規(guī)模100M-數(shù)GBVS.100GB-數(shù)TB設(shè)計(jì)優(yōu)先性高性能、高可可用性VS.高靈活性、端端點(diǎn)用戶自治治度量事務(wù)吞吐量VS.查詢吞吐量、、響應(yīng)時(shí)間更多的區(qū)別見見教科書P28,表2-1為什么需要一一個(gè)分離的數(shù)數(shù)據(jù)倉庫?提高兩個(gè)系統(tǒng)統(tǒng)的性能DBMS是為OLTP而設(shè)計(jì)的:存存儲(chǔ)方式,索引,并發(fā)控制,恢復(fù)數(shù)據(jù)倉庫是為為OLAP而設(shè)計(jì):復(fù)雜雜的OLAP查詢,多維視圖,匯匯總不同的功能和和不同的數(shù)據(jù)據(jù):歷史數(shù)據(jù):決策支持需要要?dú)v史數(shù)據(jù),,而這些數(shù)據(jù)據(jù)在操作數(shù)據(jù)據(jù)庫中一般不不會(huì)去維護(hù)數(shù)據(jù)匯總:決決策支持需要要將來自異種種源的數(shù)據(jù)統(tǒng)統(tǒng)一(如聚集集和匯總)數(shù)據(jù)質(zhì)量:不同的源使用用不一致的數(shù)數(shù)據(jù)表示、編編碼和格式,,對(duì)這些數(shù)據(jù)據(jù)進(jìn)行有效的的分析需要將將他們轉(zhuǎn)化后后進(jìn)行集成多維數(shù)據(jù)模型型(1)數(shù)據(jù)倉庫和OLAP工具基于多維維數(shù)據(jù)模型在多維數(shù)據(jù)模模型中,數(shù)據(jù)據(jù)以數(shù)據(jù)立方方體(datacube)的形式存在數(shù)據(jù)立方體允許以多維數(shù)數(shù)據(jù)建模和觀觀察。它由維和事實(shí)定義維是關(guān)于一個(gè)組組織想要記錄錄的視角或觀觀點(diǎn)。每個(gè)維維都有一個(gè)表表與之相關(guān)聯(lián)聯(lián),稱為維表。多維數(shù)據(jù)模型型圍繞中心主主題組織,該該主題用事實(shí)表表示事實(shí)表包括事實(shí)的名名稱或度量以以及每個(gè)相關(guān)關(guān)維表的關(guān)鍵鍵字事實(shí)指的是一些數(shù)數(shù)字度量多維數(shù)據(jù)模型型(2)——示例time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcitystate_or_provincecountrylocation事實(shí)表Sales事實(shí)表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem維表branch_keybranch_namebranch_typebranch維表多維數(shù)據(jù)模模型(3)在數(shù)據(jù)倉庫庫中,數(shù)據(jù)據(jù)立方體是是n-D的(n維)(關(guān)系表和和電子表格格是幾維的的?)示例AllElectronics的銷售數(shù)據(jù)據(jù)按維time,item的2-D視圖(P30,表2-2)AllElectronics的銷售數(shù)據(jù)據(jù)按維time,item和location的3-D視圖(P30,表2-3)AllElectronics的銷售數(shù)據(jù)據(jù)按維time,item和location的3-D視圖的3-D數(shù)據(jù)立方體體表示(P31,圖2-1)銷售數(shù)據(jù)的的4-D立方體表示示(P31,圖2-2)多維數(shù)據(jù)模模型為不同同角度上的的數(shù)據(jù)建模模和觀察提提供了一個(gè)個(gè)良好的基基礎(chǔ)多維數(shù)據(jù)模模型(4)在數(shù)據(jù)倉庫庫的研究文文獻(xiàn)中,一一個(gè)n維的數(shù)據(jù)的的立方體叫叫做基本方體。給定一個(gè)個(gè)維的集合合,我們可可以構(gòu)造一一個(gè)方體的格,每個(gè)都在在不同的匯匯總級(jí)或不不同的數(shù)據(jù)據(jù)子集顯示示數(shù)據(jù),方方體的格稱稱為數(shù)據(jù)立方體體。0維方體存放放最高層的的匯總,稱稱作頂點(diǎn)方體;而存放最最底層匯總總的方體則則稱為基本方體。數(shù)據(jù)立方體體——一個(gè)方體的的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(頂點(diǎn))方體1-D方體2-D方體3-D方體4-D(基本)方體數(shù)據(jù)倉庫的的概念模型型最流行的數(shù)數(shù)據(jù)倉庫概概念模型是是多維數(shù)據(jù)據(jù)模型。這這種模型可可以以星型型模式、雪雪花模式、、或事實(shí)星星座模式的的形式存在在。星型模式((Starschema):事實(shí)表在中中心,周圍圍圍繞地連連接著維表表(每維一一個(gè)),事事實(shí)表含有有大量數(shù)據(jù)據(jù),沒有冗冗余。雪花模式((Snowflakeschema):是星型模式式的變種,,其中某些些維表是規(guī)規(guī)范化的,,因而把數(shù)數(shù)據(jù)進(jìn)一步步分解到附附加表中。。結(jié)果,模模式圖形成成類似于雪雪花的形狀狀。事實(shí)星座((Factconstellations):多個(gè)事實(shí)表表共享維表表,這種模式可可以看作星星型模式集集,因此稱稱為星系模模式(galaxyschema),或者事事實(shí)星座((factconstellation)星型模式實(shí)例例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch雪花模式實(shí)例例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity事實(shí)星座模式式實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper一種數(shù)據(jù)挖掘掘查詢語言:DMQLDMQL首先包括定義義數(shù)據(jù)倉庫和和數(shù)據(jù)集市的的語言原語,,這包括兩種種原語定義::一種是立方方體定義,一一種是維定義義立方體定義(事實(shí)表)definecube<cube_name>[<dimension_list>]:<measure_list>維定義(維表)definedimension<dimension_name>as(<attribute_or_subdimension_list>)特殊案例(共享維表的定定義)第一次作為維維表定義“cubedefinition”然后:definedimension<dimension_name>as<dimension_name_first_time>incube<cube_name_first_time>實(shí)例:使用DMQL定義星型模式式definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)實(shí)例:使用DMQL定義雪花模式式definecubesales_snowflake[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type))definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country))實(shí)例::使用用DMQL定義事實(shí)星星座模式definecubesales[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)definecubeshipping[time,item,shipper,from_location,to_location]:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesalesdefinedimensionshipperas(shipper_key,shipper_name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales31December202229ASampleDataCubeTotalannualsalesofTVinU.S.A.DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum度量的的分類類一個(gè)數(shù)數(shù)據(jù)立立方體體的度度量是是一個(gè)個(gè)數(shù)值函數(shù),,該函函數(shù)可可以對(duì)對(duì)數(shù)據(jù)據(jù)立方方體的的每一一個(gè)點(diǎn)點(diǎn)求值值。(剛才的的示例例中用用的是是什么么函數(shù)數(shù)?)度量可可以根根據(jù)其其所用用的聚聚集函函數(shù)分分為三三類::分布的的(distributive):將函函數(shù)用用于n個(gè)聚集集值得得到的的結(jié)果果和將將函數(shù)數(shù)用于于所有有數(shù)據(jù)據(jù)得到到的結(jié)結(jié)果一一樣。。比如::count(),sum(),min(),max()等代數(shù)的的(algebraic):函數(shù)數(shù)可以以由一一個(gè)帶帶M個(gè)參數(shù)數(shù)的代代數(shù)函函數(shù)計(jì)計(jì)算((M為有界界整數(shù)數(shù)),,而每每個(gè)參參數(shù)值值都可可以有有一個(gè)個(gè)分布布的聚聚集函函數(shù)求求得。。比如::avg(),min_N(),standard_deviation()整體的的(holistic):描述述函數(shù)數(shù)的子子聚集集所需需的存存儲(chǔ)沒沒有一一個(gè)常常數(shù)界界。比如::median(),mode(),rank()概念分分層(1)一個(gè)概概念分分層((concepthierarchy)定義義一個(gè)個(gè)映射射序列列,將將低層層概念念映射射到更更一般般的高高層概概念E.g.表示location的概念念:杭杭州浙江江中中國亞洲洲概念分分層允允許我我們?cè)谠诟鞣N種抽象象級(jí)審審查和和處理理數(shù)據(jù)據(jù)概念分分層可可以由由系統(tǒng)統(tǒng)用戶戶、領(lǐng)領(lǐng)域?qū)<?、、知識(shí)識(shí)工程程師人人工的的提供供,也也可以以根據(jù)據(jù)數(shù)據(jù)據(jù)分布布的統(tǒng)統(tǒng)計(jì)分分析自自動(dòng)的的產(chǎn)生生概念分分層(2):location維的一一個(gè)概概念分分層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity許多概概念分分層的的定義義隱含含在數(shù)數(shù)據(jù)庫庫的模模式中中。比比如::location維的定定義,,office<city<country<region;這些些屬性性按按一個(gè)個(gè)全序序相關(guān)關(guān),形形成一一個(gè)層層次結(jié)結(jié)構(gòu)::yeardayquartermonthweek維的的屬屬性性也也可可以以組組成成一一個(gè)個(gè)偏偏序序,,形形成成一一個(gè)個(gè)格格::概念念分分層層(3)———使用用概念念分分層層為為不不同同級(jí)級(jí)別別上上的的數(shù)數(shù)據(jù)據(jù)匯匯總總提提供供了了一一個(gè)個(gè)良良好好的的基基礎(chǔ)礎(chǔ)綜合概念念分層和和多維數(shù)數(shù)據(jù)模型型的潛力力,可以以對(duì)數(shù)據(jù)據(jù)獲得更更深入的的洞察力力通過在多多維數(shù)據(jù)據(jù)模型中中,在不不同的維維上定義義概念分分層,使使得用戶戶在不同同的維上上從不同同的層次次對(duì)數(shù)據(jù)據(jù)進(jìn)行觀觀察成為為可能。。多維數(shù)據(jù)據(jù)模型((數(shù)據(jù)立立方體))使得從從不同的的角度對(duì)對(duì)數(shù)據(jù)進(jìn)進(jìn)行觀察察成為可可能,而而概念分分層則提提供了從從不同層層次對(duì)數(shù)數(shù)據(jù)進(jìn)行行觀察的的能力;;結(jié)合這這兩者的的特征,,我們可可以在多多維數(shù)據(jù)據(jù)模型上上定義各各種OLAP操作,為為用戶從從不同角角度不同同層次觀觀察數(shù)據(jù)據(jù)提供了了靈活性性:多維數(shù)據(jù)據(jù)模型上上的OLAP操作(1)上卷(roll-up):匯總數(shù)據(jù)據(jù)通過一個(gè)個(gè)維的概概念分層層向上攀攀升或者者通過維維規(guī)約當(dāng)用維歸歸約進(jìn)行行上卷時(shí)時(shí),一個(gè)個(gè)或多個(gè)個(gè)維由給給定的數(shù)數(shù)據(jù)立方方體刪除除下鉆(drill-down):上卷的的逆操作作由不太詳詳細(xì)的數(shù)數(shù)據(jù)到更更詳細(xì)的的數(shù)據(jù),,可以通通過沿維維的概念念分層向向下或引引入新的的維來實(shí)實(shí)現(xiàn)(為給定定數(shù)據(jù)據(jù)添加加更多多細(xì)節(jié)節(jié))切片和和切塊塊(sliceanddice)切片操操作在在給定定的數(shù)數(shù)據(jù)立立方體體的一一個(gè)維維上進(jìn)進(jìn)行選選擇,,導(dǎo)致致一個(gè)個(gè)子方方切塊操操作通通過對(duì)對(duì)兩個(gè)個(gè)或多多個(gè)維維進(jìn)行行選擇擇,定定義子子方P40圖2-10多維數(shù)數(shù)據(jù)模模型上上的OLAP操作(2)轉(zhuǎn)軸(pivot)立方體體的重重定位位,可可視化化,或或?qū)⒁灰粋€(gè)3維立方方體轉(zhuǎn)轉(zhuǎn)化為為一個(gè)個(gè)2維平面面序列列轉(zhuǎn)軸是是一種種可視化化操作,,通過過轉(zhuǎn)動(dòng)動(dòng)當(dāng)前前數(shù)據(jù)據(jù)的視視圖來來提供供一個(gè)個(gè)數(shù)據(jù)據(jù)的替替代表表示其他OLAP操作鉆過(drill_across):執(zhí)行行涉及及多個(gè)個(gè)事實(shí)實(shí)表的的查詢?cè)冦@透(drill_through):使用用關(guān)系系SQL機(jī)制,,鉆到到數(shù)據(jù)據(jù)立方方體的的底層層,到到后端端關(guān)系系表其他OLAP操作可可能包包括列列出表表中最最高或或最低低的N項(xiàng),以以及計(jì)計(jì)算移移動(dòng)平平均值值、增增長(zhǎng)率率、利利潤(rùn)、、統(tǒng)計(jì)計(jì)函數(shù)數(shù)等等等P40圖2-1031December202236數(shù)據(jù)倉倉庫設(shè)設(shè)計(jì)::一個(gè)個(gè)商務(wù)務(wù)分析析框架架(1)數(shù)據(jù)倉倉庫給給商業(yè)業(yè)分析析專家家提供供了什什么??通過提提供相相關(guān)數(shù)數(shù)據(jù)與與信息息,獲獲得競(jìng)競(jìng)爭(zhēng)優(yōu)優(yōu)勢(shì)通過有效效的收集集精確的的描述組組織的數(shù)數(shù)據(jù),獲獲得生產(chǎn)產(chǎn)力的提提高通過提供供不同級(jí)級(jí)別(部部門、市市場(chǎng)、商商業(yè))的的客戶視視圖,協(xié)協(xié)助客戶戶關(guān)系管管理通過追蹤蹤長(zhǎng)期趨趨勢(shì)、異異常等,,降低成成本有效構(gòu)建建數(shù)據(jù)倉倉庫的關(guān)關(guān)鍵:理理解和分分析商業(yè)業(yè)需求通過提供供一個(gè)商商業(yè)分析析框架,,綜合各各種不同同的數(shù)據(jù)據(jù)使用者者的視圖圖數(shù)據(jù)倉庫庫設(shè)計(jì)::一個(gè)商商務(wù)分析析框架(2)數(shù)據(jù)倉庫庫設(shè)計(jì)的的四種視視圖自頂向下下視圖允許我們們選擇數(shù)數(shù)據(jù)倉庫庫所需的的相關(guān)信信息數(shù)據(jù)源視視圖揭示被操操作數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)所捕獲獲、存儲(chǔ)儲(chǔ)和管理理的信息息數(shù)據(jù)倉庫庫視圖由事實(shí)表表和維表表所組成成商務(wù)查詢?cè)円晥D從最終用用戶的角角度透視視數(shù)據(jù)倉倉庫中的的數(shù)據(jù)數(shù)據(jù)倉庫庫設(shè)計(jì)::一個(gè)商商務(wù)分析析框架(3)數(shù)據(jù)倉庫庫的構(gòu)建建與使用用涉及多多種技能能商業(yè)技能能理解系統(tǒng)統(tǒng)如何存存儲(chǔ)和管管理數(shù)據(jù)據(jù)數(shù)據(jù)如何何提取數(shù)據(jù)如何何刷新技術(shù)方面面的技能能如何通過過使用各各種數(shù)據(jù)據(jù)或量化化的信息息,到處處可以提提供決策策支持的的模式、、趨勢(shì)、、判斷等等如何通過過審查歷歷史數(shù)據(jù)據(jù),分析析發(fā)展趨趨勢(shì)等計(jì)劃管理理技能如何通過過與不同同的技術(shù)術(shù)、廠商商、用戶戶交互,,來及時(shí)時(shí)、有效效、經(jīng)濟(jì)濟(jì)的提交交結(jié)果數(shù)據(jù)倉庫庫的設(shè)計(jì)計(jì)過程(1)自頂向下下法、自自底向上上法或者者兩者的的混合方方法自頂向下下法:由由總體設(shè)設(shè)計(jì)和規(guī)規(guī)劃開始始在技術(shù)成成熟、商商業(yè)理解解透徹的的情況下下使用自底向上上法:以以實(shí)驗(yàn)和和原型開開始常用在模模型和技技術(shù)開發(fā)發(fā)的初期期,可以以有效的的對(duì)使用用的技術(shù)術(shù)和模型型進(jìn)行評(píng)評(píng)估,降降低風(fēng)險(xiǎn)險(xiǎn)混合方法法:上述述兩者的的結(jié)合從軟件過過程的觀觀點(diǎn)瀑布式方方法:在在進(jìn)行下下一步前前,每一一步都進(jìn)進(jìn)行結(jié)構(gòu)構(gòu)化和系系統(tǒng)的分分析螺旋式方方法:功功能漸增增的系統(tǒng)統(tǒng)的快速速產(chǎn)生,,相繼版版本之間間間隔很很短數(shù)據(jù)倉庫庫的設(shè)計(jì)計(jì)過程(2)典型的數(shù)數(shù)據(jù)倉庫庫設(shè)計(jì)過過程選取待建建模的商務(wù)過程程找到所構(gòu)構(gòu)建的數(shù)數(shù)據(jù)倉庫庫的主題題,比如如:銷售售、貨運(yùn)運(yùn)、訂單單等等選取商務(wù)務(wù)過程的的顆粒度數(shù)據(jù)起始始于多細(xì)細(xì)的顆粒粒度,比比如:記記錄每條條詳細(xì)訂訂單,或或是開始始于每日日的匯總總數(shù)據(jù)選取用于于每個(gè)事事實(shí)表記記錄的維常用的維維有:時(shí)時(shí)間、貨貨物、客客戶、供供應(yīng)商等等選取將安安放在事事實(shí)表中中的度量常用的數(shù)數(shù)字度量量包括::售價(jià)、、貨物數(shù)數(shù)量等三層數(shù)據(jù)據(jù)倉庫架架構(gòu)(1)數(shù)據(jù)倉庫庫提取清理轉(zhuǎn)換裝入刷新OLAP服務(wù)器查詢報(bào)告告分析數(shù)據(jù)挖掘掘監(jiān)控、整合元數(shù)據(jù)存儲(chǔ)數(shù)據(jù)源前端工具具輸出數(shù)據(jù)集市市操作數(shù)據(jù)庫其他外部信息源數(shù)據(jù)倉庫庫服務(wù)器器OLAP服務(wù)器三層數(shù)據(jù)據(jù)倉庫架架構(gòu)(2)底層:數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)庫服務(wù)務(wù)器關(guān)注的問問題:如如何從這這一層提提取數(shù)據(jù)據(jù)來構(gòu)建建數(shù)據(jù)倉倉庫(通通過Gateway(ODBC,JDBC,OLE/DB等)來提提?。┲虚g層::OLAP服務(wù)器關(guān)注的問問題:OLAP服務(wù)器如如何實(shí)施施(關(guān)系系型OLAP,多維OLAP等)前端客戶戶工具層層關(guān)注的問問題:查查詢工具具、報(bào)表表工具、、分析工工具、挖挖掘工具具等三種數(shù)據(jù)據(jù)倉庫模模型從體系結(jié)結(jié)構(gòu)的角角度去看看,數(shù)據(jù)據(jù)倉庫模模型可以以有以下下三種::企業(yè)倉庫庫搜集關(guān)于于跨越整整個(gè)組織織的主題題的所有有信息數(shù)據(jù)集市市企業(yè)范圍圍數(shù)據(jù)的的一個(gè)子子集,對(duì)對(duì)于特定定的客戶戶是有用用的。其其范圍限限于選定定的主題題,比如如一個(gè)商商場(chǎng)的數(shù)數(shù)據(jù)集市市獨(dú)立的數(shù)數(shù)據(jù)集市市VS.非獨(dú)立的的數(shù)據(jù)集集市(數(shù)數(shù)據(jù)來自自于企業(yè)業(yè)數(shù)據(jù)倉倉庫)虛擬倉庫庫操作數(shù)據(jù)據(jù)庫上的的一系列列視圖只有一些些可能的的匯總視視圖被物物化數(shù)據(jù)倉庫庫開發(fā)::困難與與方法數(shù)據(jù)倉庫庫開發(fā)上上的困難難自頂向下下的開發(fā)發(fā)方法從從全系統(tǒng)統(tǒng)的角度度提供解解決方案案,使得得(模塊塊)集成成的問題題最??;;但是該該方法十十分昂貴貴,需要要對(duì)組織織進(jìn)行長(zhǎng)長(zhǎng)期研究究和建模模分析。。自底向上上方法提提供了更更多的開開發(fā)靈活活性,價(jià)價(jià)格便宜宜;但往往往會(huì)遇遇到集成成問題((每個(gè)模模塊單獨(dú)獨(dú)運(yùn)行都都沒有問問題,但但是一集集成就出出異常))解決方法法:使用遞增增性、演演化性的的開發(fā)方方法高層數(shù)據(jù)據(jù)模型企業(yè)倉庫庫和數(shù)據(jù)據(jù)集市并并行開發(fā)發(fā)通過分布布式模型型集成各各數(shù)據(jù)集集市多層數(shù)據(jù)據(jù)倉庫數(shù)據(jù)倉庫庫開發(fā)——一個(gè)推薦薦的方法法定義高層層數(shù)據(jù)模模型數(shù)據(jù)集市市數(shù)據(jù)集市市分布式數(shù)數(shù)據(jù)集市市多層數(shù)據(jù)據(jù)倉庫企業(yè)數(shù)據(jù)據(jù)倉庫模型提煉煉模型提煉煉OLAP服務(wù)器類類型(1)邏輯上,,OLAP服務(wù)器從從數(shù)據(jù)倉倉庫或數(shù)數(shù)據(jù)集市市中給商商業(yè)用戶戶提供多多維數(shù)據(jù)據(jù)物理上,,OLAP的底層數(shù)數(shù)據(jù)存儲(chǔ)儲(chǔ)實(shí)現(xiàn)可可以有多多種不同同的方式式關(guān)系OLAP服務(wù)器(ROLAP)使用關(guān)系系數(shù)據(jù)庫庫或擴(kuò)展展的關(guān)系系數(shù)據(jù)庫庫存放并并管理數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù),而用用OLAP中間件支支持其余余部分包括每個(gè)個(gè)DBMS后端優(yōu)化化,聚集集導(dǎo)航邏邏輯的實(shí)實(shí)現(xiàn),附附加的工工具和服服務(wù)較大的可可擴(kuò)展性性O(shè)LAP服務(wù)器類類型(2)多維OLAP服務(wù)器(MOLAP)基于數(shù)組組的多維維存儲(chǔ)引引擎(稀稀疏矩陣陣技術(shù)))能對(duì)預(yù)計(jì)計(jì)算的匯匯總數(shù)據(jù)據(jù)快速索索引混合OLAP服務(wù)器(HOLAP)結(jié)合上述述兩種技技術(shù),更更大的使使用靈活活性特殊的SQL服務(wù)器在星型和和雪花模模型上支支持SQL查詢數(shù)據(jù)倉庫庫的實(shí)現(xiàn)現(xiàn)——數(shù)據(jù)立方方體的有有效計(jì)算算數(shù)據(jù)倉庫庫中的OLAP查詢是一一種海量量數(shù)據(jù)計(jì)計(jì)算((想象一一下對(duì)過過去10年各地區(qū)區(qū)的軟件件產(chǎn)品銷銷售的匯匯總查詢?cè)儯┯脩魠s希希望這個(gè)個(gè)計(jì)算能能在數(shù)秒秒鐘內(nèi)完完成解決方法法在于給給出一種種有效的的計(jì)算數(shù)數(shù)據(jù)立方方體的方方法數(shù)據(jù)立方方體可以以被看成成是一個(gè)個(gè)方體的格格最底層的的方體是是基本方方體最頂端的的方體((頂點(diǎn)))只包含含一個(gè)單單元的值值一個(gè)n維的數(shù)據(jù)立方方體,每維L層,可能產(chǎn)生生的方體總數(shù)數(shù)是多少?(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)方體的操作DMQL中的方體定義義和計(jì)算definecubesales[item,city,year]:sum(sales_in_dollars)computecubesales上述的computecube子句可以轉(zhuǎn)化化為一個(gè)類似似于SQL的語句SELECTitem,city,year,SUM(amount)FROMSALESCUBEBYitem,city,year這個(gè)相當(dāng)于SQL中以下的groupby子句(item,city,year)–3D(item,city),(itemyear),(city,year)—2D(item),(city),(year)—1D()--0D(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)數(shù)據(jù)立方體的的物化數(shù)據(jù)立方體的的物化可以有以下三三種選擇:全物化預(yù)先計(jì)算所有有方體不物化不預(yù)先計(jì)算算任何“非非基本”方方體部分物化有選擇的計(jì)計(jì)算一個(gè)所所有方體的的適當(dāng)子集集考慮因素:(1)確定要物化化的方體;;(2)在查詢時(shí)利利用物化的的方體;(3)在裝載和刷刷新時(shí),有有效的更新新物化的方方體確定物化哪哪些方體考慮工作負(fù)負(fù)荷下的查查詢、它們們的頻率和和它們的開開銷等等方體計(jì)算::ROLAPvs.MOLAP方體計(jì)算的的挑戰(zhàn):海量數(shù)據(jù),,有限的內(nèi)內(nèi)存和時(shí)間間基于ROLAP的方法(底底層使用關(guān)關(guān)系模型存存儲(chǔ)數(shù)據(jù)))將排序、散散列(hashing)和分組操作作應(yīng)用于維維的屬性,,以便對(duì)相相關(guān)元組重重新排序和和聚類在某些子聚聚集上分組組,作為““部分分組組步驟”。??梢杂梢郧扒坝?jì)算的聚聚集計(jì)算新新的聚集,,而不必有有基本事實(shí)實(shí)表計(jì)算基于MOLAP方法(底層層使用多維維數(shù)組存儲(chǔ)儲(chǔ)數(shù)據(jù))多路數(shù)組聚聚集的計(jì)算算方法將數(shù)組切成成塊(每個(gè)個(gè)塊都可以以整個(gè)裝入入內(nèi)存)通過訪問各各個(gè)塊來計(jì)計(jì)算匯總值值方體計(jì)算的的多路數(shù)組組聚集方法法(1)將數(shù)組分成成塊(chunk,一個(gè)可以裝裝入內(nèi)存的的小子方))通過訪問立立方體單元元,計(jì)算聚聚集??梢砸詢?yōu)化訪問問單元組的的次序,使使得每個(gè)單單元被訪問問的次數(shù)最最小化,從從而減少內(nèi)內(nèi)存訪問和和磁盤I/O的開銷。A(month)40個(gè)值B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000個(gè)值值B(city)400個(gè)值值442856402452362060哪個(gè)個(gè)是是多多路路數(shù)數(shù)組組聚聚集集的的最最佳佳遍遍歷歷次次序序??方體體計(jì)計(jì)算算的的多多路路數(shù)數(shù)組組聚聚集集方方法法(2)A(month)40B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000442856402452362060B(city)400方體計(jì)算算的多路路數(shù)組聚聚集方法法(3)AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C442856402452362060B方體計(jì)算算的多路路數(shù)組聚聚集方法法(4)方法:各各平面要要按他們們大小的的升序排排列進(jìn)行行排序和和計(jì)算思想:將將最小的的平面放放在內(nèi)存存中,對(duì)對(duì)最大的的平面每每次只是是取并計(jì)計(jì)算一塊塊方體計(jì)計(jì)算的的多路路數(shù)組組聚集集方法法(5)根據(jù)1到64的掃描描次序序,在在塊內(nèi)內(nèi)存中中保存存所有有相關(guān)關(guān)的2-D平面所需的的最小存儲(chǔ)儲(chǔ)為:40×400(用于整個(gè)個(gè)AB平面)+40×1000(用于AC平面一行))+100×1000(用于BC平面一塊)=156,000這種方法的的限制:只只有在維數(shù)數(shù)比較小的的情況下,,效果才比比較理想(要計(jì)算的立立方體隨維維數(shù)指數(shù)增增長(zhǎng))如果維的數(shù)數(shù)目比較多多,可以考考慮使用““自底向上上的計(jì)算””或者時(shí)““冰山方體體”計(jì)算算OLAP查詢的有效效處理確定哪些操操作應(yīng)當(dāng)在在可利用的的方體上執(zhí)執(zhí)行:將查詢中的的選擇、投投影、上卷卷和下鉆等等操作轉(zhuǎn)化化為對(duì)應(yīng)的的SQL或/和OLAP操作,如如:dice=selection+projection確定相關(guān)關(guān)操作應(yīng)應(yīng)當(dāng)使用用哪些物物化的方方體找尋MOLAP中可以利利用的索索引結(jié)構(gòu)構(gòu)以及壓壓縮的或或是稠密密的數(shù)組組結(jié)構(gòu)有效處理理OLAP查詢(示示例)立方體的的定義為為:sales[time,item,location]:sum(sales_in_dollar)time的維層次次day<week<month<quater<yearlocation的維層次次street<city<province_or_state<countryitem的維層次次item_name<brand<type現(xiàn)在要處理一一個(gè)year=2000,定位在brand和province_or_state級(jí)別的查詢,,現(xiàn)有四個(gè)可可用的已經(jīng)物物化的方體::{item_name,city,year}{brand,country,year}{brand,province_or_state,year}{item_name,province_or_state}其中year=2000Question:以上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論