數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLA技術(shù)_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLA技術(shù)_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLA技術(shù)_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLA技術(shù)_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLA技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩60頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)數(shù)據(jù)倉(cāng)庫(kù)-數(shù)據(jù)挖掘的有效平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)清理和數(shù)據(jù)集成,是數(shù)據(jù)挖掘的重要數(shù)據(jù)預(yù)處理步驟數(shù)據(jù)倉(cāng)庫(kù)提供OLAP工具,可用于不同粒度的數(shù)據(jù)分析很多數(shù)據(jù)挖掘功能都可以和OLAP操作集成,以提供不同概念層上的知識(shí)發(fā)現(xiàn)分類預(yù)測(cè)關(guān)聯(lián)聚集什么是數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)的定義很多,但卻很難有一種嚴(yán)格的定義它是一個(gè)提供決策支持功能的數(shù)據(jù)庫(kù),它與公司的操作數(shù)據(jù)庫(kù)分開維護(hù)。為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)區(qū)別于其他數(shù)據(jù)存儲(chǔ)系統(tǒng)“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過程.”—W.H.Inmon數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征一——面向主題面向主題,是數(shù)據(jù)倉(cāng)庫(kù)顯著區(qū)別于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的一個(gè)特征圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品等關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理。排除對(duì)于決策無用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征二——數(shù)據(jù)集成一個(gè)數(shù)據(jù)倉(cāng)庫(kù)是通過集成多個(gè)異種數(shù)據(jù)源來構(gòu)造的。關(guān)系數(shù)據(jù)庫(kù),一般文件,聯(lián)機(jī)事務(wù)處理記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)。確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。當(dāng)數(shù)據(jù)被移到數(shù)據(jù)倉(cāng)庫(kù)時(shí),它們要經(jīng)過轉(zhuǎn)化。數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征三——隨時(shí)間而變化數(shù)據(jù)倉(cāng)庫(kù)是從歷史的角度提供信息數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間范圍比操作數(shù)據(jù)庫(kù)系統(tǒng)要長(zhǎng)的多。操作數(shù)據(jù)庫(kù)系統(tǒng):主要保存當(dāng)前數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù):從歷史的角度提供信息(比如過去5-10年)數(shù)據(jù)倉(cāng)庫(kù)中的每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素,而操作數(shù)據(jù)庫(kù)中的關(guān)鍵結(jié)構(gòu)可能就不包括時(shí)間元素。數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征四——數(shù)據(jù)不易丟失盡管數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來自于操作數(shù)據(jù)庫(kù),但他們卻是在物理上分離保存的。操作數(shù)據(jù)庫(kù)的更新操作不會(huì)出現(xiàn)在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下。不需要事務(wù)處理,恢復(fù),和并發(fā)控制等機(jī)制只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪問(讀操作)數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建與使用數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建包括一系列的數(shù)據(jù)預(yù)處理過程數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)倉(cāng)庫(kù)的使用熱點(diǎn)是商業(yè)決策行為,例如:增加客戶聚焦產(chǎn)品重定位尋找獲利點(diǎn)客戶關(guān)系管理數(shù)據(jù)倉(cāng)庫(kù)與異種數(shù)據(jù)庫(kù)集成異種數(shù)據(jù)庫(kù)的集成方法傳統(tǒng)的異種數(shù)據(jù)庫(kù)集成:(查詢驅(qū)動(dòng))在多個(gè)異種數(shù)據(jù)庫(kù)上建立包裝程序(wrappers)和中介程序(mediators)查詢驅(qū)動(dòng)方法——當(dāng)從客戶端傳過來一個(gè)查詢時(shí),首先使用元數(shù)據(jù)字典將查詢轉(zhuǎn)換成相應(yīng)異種數(shù)據(jù)庫(kù)上的查詢;然后,將這些查詢映射和發(fā)送到局部查詢處理器數(shù)據(jù)倉(cāng)庫(kù):(更新驅(qū)動(dòng))將來自多個(gè)異種源的信息預(yù)先集成,并存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,供直接查詢和分析查詢驅(qū)動(dòng)方法和更新驅(qū)動(dòng)方法的比較查詢驅(qū)動(dòng)的方法需要負(fù)責(zé)的信息過濾和集成處理與局部數(shù)據(jù)源上的處理競(jìng)爭(zhēng)資源對(duì)于頻繁的查詢,尤其是涉及聚集(匯總)操作的查詢,開銷很大(決策支持中常見的查詢形式)更新驅(qū)動(dòng)的方法(帶來高性能)數(shù)據(jù)經(jīng)預(yù)處理后單獨(dú)存儲(chǔ),對(duì)聚集操作提供良好支持不影響局部數(shù)據(jù)源上的處理集成歷史信息,支持負(fù)責(zé)的多維查詢數(shù)據(jù)倉(cāng)庫(kù)與與操作數(shù)據(jù)據(jù)庫(kù)系統(tǒng)操作數(shù)據(jù)庫(kù)庫(kù)系統(tǒng)的主主要任務(wù)是是聯(lián)機(jī)事務(wù)務(wù)處理OLTP日常操作:購(gòu)買,,庫(kù)存,銀銀行,制造造,工資,,注冊(cè),記記帳等數(shù)據(jù)倉(cāng)庫(kù)的的主要任務(wù)務(wù)是聯(lián)機(jī)分分析處理OLAP數(shù)據(jù)分析和和決策支持持,支持以以不同的形形式顯示數(shù)數(shù)據(jù)以滿足足不同的用用戶需要OLAPVS.OLTP(1)用戶戶和和系系統(tǒng)統(tǒng)的的面面向向性性面向顧顧客((事務(wù)務(wù))VS.面面向向市場(chǎng)場(chǎng)(分分析))數(shù)據(jù)內(nèi)內(nèi)容當(dāng)前的的、詳詳細(xì)的的數(shù)據(jù)據(jù)VS.歷歷史的的、匯匯總的的數(shù)據(jù)據(jù)數(shù)據(jù)庫(kù)庫(kù)設(shè)計(jì)計(jì)實(shí)體--聯(lián)系系模型型(ER)和面面向應(yīng)應(yīng)用的的數(shù)據(jù)據(jù)庫(kù)設(shè)設(shè)計(jì)VS.星星型型/雪雪花模模型和和面向向主題題的數(shù)數(shù)據(jù)庫(kù)庫(kù)設(shè)計(jì)計(jì)OLAPVS.OLTP(2)數(shù)據(jù)視圖當(dāng)前的、企企業(yè)內(nèi)部的的數(shù)據(jù)VS.經(jīng)經(jīng)過演化的的、集成的的數(shù)據(jù)訪問模式事務(wù)操作VS.只只讀查詢?cè)儯ǖ芏喽嗍菑?fù)雜的的查詢)任務(wù)單位簡(jiǎn)短的事務(wù)務(wù)VS.復(fù)雜的的查詢?cè)L問數(shù)據(jù)量量數(shù)十個(gè)VS.數(shù)數(shù)百萬個(gè)OLAPVS.OLTP(3)用戶數(shù)數(shù)千個(gè)VS.數(shù)數(shù)百個(gè)數(shù)據(jù)庫(kù)規(guī)模模100M-數(shù)GBVS.100GB-數(shù)TB設(shè)計(jì)優(yōu)先性性高性能、高高可用性VS.高高靈活性性、端點(diǎn)用用戶自治度量事務(wù)吞吐量量VS.查詢吞吞吐量、響響應(yīng)時(shí)間更多的區(qū)別別見教科書書P28,,表2-1為什么需要要一個(gè)分離離的數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)?提高兩個(gè)系系統(tǒng)的性能能DBMS是是為OLTP而設(shè)計(jì)計(jì)的:存儲(chǔ)儲(chǔ)方式,索索引,并并發(fā)控制,恢復(fù)數(shù)據(jù)倉(cāng)庫(kù)是是為OLAP而設(shè)計(jì)計(jì):復(fù)雜的的OLAP查詢,多維視視圖,匯總總不同的功能能和不同的的數(shù)據(jù):歷史數(shù)據(jù):決策支支持需要?dú)v歷史數(shù)據(jù),,而這些數(shù)數(shù)據(jù)在操作作數(shù)據(jù)庫(kù)中中一般不會(huì)會(huì)去維護(hù)數(shù)據(jù)匯總::決策支持持需要將來來自異種源源的數(shù)據(jù)統(tǒng)統(tǒng)一(如聚聚集和匯總總)數(shù)據(jù)質(zhì)量:不同的的源使用不不一致的數(shù)數(shù)據(jù)表示、、編碼和格格式,對(duì)這這些數(shù)據(jù)進(jìn)進(jìn)行有效的的分析需要要將他們轉(zhuǎn)轉(zhuǎn)化后進(jìn)行行集成多維數(shù)據(jù)模模型(1)數(shù)據(jù)倉(cāng)庫(kù)和和OLAP工具基于于多維數(shù)據(jù)據(jù)模型在多維數(shù)據(jù)據(jù)模型中,,數(shù)據(jù)以數(shù)數(shù)據(jù)立方體體(datacube)的的形式存在在數(shù)據(jù)立方體體允許以多維維數(shù)據(jù)建模模和觀察。。它由維和事實(shí)定義維是關(guān)于一個(gè)個(gè)組織想要要記錄的視視角或觀點(diǎn)點(diǎn)。每個(gè)維維都有一個(gè)個(gè)表與之相相關(guān)聯(lián),稱稱為維表。多維數(shù)據(jù)模模型圍繞中中心主題組組織,該主主題用事實(shí)表表示事實(shí)表包括事實(shí)的的名稱或度度量以及每每個(gè)相關(guān)維維表的關(guān)鍵鍵字事實(shí)指的是一些些數(shù)字度量量多維數(shù)據(jù)模模型(2)———示例time_keydayday_of_the_weekmonthquarteryeartime維維表location_keystreetcitystate_or_provincecountrylocation事事實(shí)表Sales事實(shí)表表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem維維表branch_keybranch_namebranch_typebranch維表表多維數(shù)據(jù)模模型(3)在數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中,數(shù)據(jù)據(jù)立方體是是n-D的的(n維))(關(guān)系表和和電子表格格是幾維的的?)示例AllElectronics的銷售售數(shù)據(jù)按維維time,item的2-D視圖圖(P30,表表2-2)AllElectronics的銷售售數(shù)據(jù)按維維time,item和location的的3-D視視圖(P30,表表2-3)AllElectronics的銷售售數(shù)據(jù)按維維time,item和location的的3-D視視圖的3-D數(shù)據(jù)立立方體表示示(P31,圖圖2-1)銷售數(shù)據(jù)的的4-D立立方體表示示(P31,圖圖2-2)多維數(shù)據(jù)模模型為不同同角度上的的數(shù)據(jù)建模模和觀察提提供了一個(gè)個(gè)良好的基基礎(chǔ)多維數(shù)據(jù)模模型(4)在數(shù)據(jù)倉(cāng)庫(kù)的的研究文獻(xiàn)中中,一個(gè)n維維的數(shù)據(jù)的立立方體叫做基本方體。給定一個(gè)維維的集合,我我們可以構(gòu)造造一個(gè)方體的格,每個(gè)都在不不同的匯總級(jí)級(jí)或不同的數(shù)數(shù)據(jù)子集顯示示數(shù)據(jù),方體體的格稱為數(shù)據(jù)立方體。0維方體存存放最高層的的匯總,稱作作頂點(diǎn)方體;而存放最底底層匯總的方方體則稱為基本方體。數(shù)據(jù)立方體———一個(gè)方體體的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(頂點(diǎn)點(diǎn))方體1-D方體2-D方體體3-D方體體4-D(基本本)方體數(shù)據(jù)倉(cāng)庫(kù)的概概念模型最流行的數(shù)據(jù)據(jù)倉(cāng)庫(kù)概念模模型是多維數(shù)數(shù)據(jù)模型。這這種模型可以以以星型模式式、雪花模式式、或事實(shí)星星座模式的形形式存在。星型模式(Starschema):事實(shí)實(shí)表在中心,,周圍圍繞地地連接著維表表(每維一個(gè)個(gè)),事實(shí)表表含有大量數(shù)數(shù)據(jù),沒有冗冗余。雪花模式(Snowflakeschema):是是星型模式的的變種,其中中某些維表是是規(guī)范化的,,因而把數(shù)據(jù)據(jù)進(jìn)一步分解解到附加表中中。結(jié)果,模模式圖形成類類似于雪花的的形狀。事實(shí)星座(Factconstellations):多個(gè)事實(shí)實(shí)表共享維表表,這種模模式可以看作作星型模式集集,因此稱為為星系模式((galaxyschema),,或者事實(shí)星星座(factconstellation)星型模式實(shí)例例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch雪花模式實(shí)例例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity事實(shí)星座模式式實(shí)例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper一種數(shù)據(jù)挖掘掘查詢語言:DMQLDMQL首先先包括定義數(shù)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)數(shù)據(jù)集市的語語言原語,這這包括兩種原原語定義:一一種是立方體體定義,一種種是維定義立方體定義(事實(shí)表)definecube<cube_name>[<dimension_list>]:<measure_list>維定義(維維表)definedimension<dimension_name>as(<attribute_or_subdimension_list>)特殊案例(共享維表的的定義)第一次作為維維表定義““cubedefinition”然后:definedimension<dimension_name>as<dimension_name_first_time>incube<cube_name_first_time>實(shí)例例::使使用用DMQL定定義義星星型型模模式式definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)實(shí)例::使用用DMQL定義義雪花花模式式definecubesales_snowflake[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type))definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country))實(shí)例:使用用DMQL定義事實(shí)實(shí)星座模式式definecubesales[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)definecubeshipping[time,item,shipper,from_location,to_location]:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesalesdefinedimensionshipperas(shipper_key,shipper_name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales度量的分分類一個(gè)數(shù)據(jù)立方方體的度量是是一個(gè)數(shù)值函數(shù),該函數(shù)數(shù)可以對(duì)數(shù)據(jù)據(jù)立方體的每每一個(gè)點(diǎn)求值值。(剛才的示例中中用的是什么么函數(shù)?)度量可以根據(jù)據(jù)其所用的聚聚集函數(shù)分為為三類:分布的(distributive):將函數(shù)數(shù)用于n個(gè)聚聚集值得到的的結(jié)果和將函函數(shù)用于所有有數(shù)據(jù)得到的的結(jié)果一樣。。比如:count(),,sum(),min(),max()等代數(shù)的(algebraic):函函數(shù)可以由一一個(gè)帶M個(gè)參參數(shù)的代數(shù)函函數(shù)計(jì)算(M為有界整數(shù)數(shù)),而每個(gè)個(gè)參數(shù)值都可可以有一個(gè)分分布的聚集函函數(shù)求得。比如:avg(),min_N(),standard_deviation()整體的(holistic):描述述函數(shù)的子聚聚集所需的存存儲(chǔ)沒有一個(gè)個(gè)常數(shù)界。比如:median(),mode(),rank()5-6王燦數(shù)據(jù)挖掘0703004概念分層(1)一個(gè)概念分層層(concepthierarchy)定定義一個(gè)映射射序列,將低低層概念映射射到更一般的的高層概念E.g.表表示location的的概念:杭州州浙江中國(guó)國(guó)亞洲概念分層允許許我們?cè)诟鞣N種抽象級(jí)審查查和處理數(shù)據(jù)據(jù)概念分層可以以由系統(tǒng)用戶戶、領(lǐng)域?qū)<壹?、知識(shí)工程程師人工的提提供,也可以以根據(jù)數(shù)據(jù)分分布的統(tǒng)計(jì)分分析自動(dòng)的產(chǎn)產(chǎn)生概念分層(2):location維的一一個(gè)概念分層層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity許多概念分層層的定義隱含含在數(shù)據(jù)庫(kù)的的模式中。比比如:location維的定義,,office<city<country<region;這些屬屬性按一個(gè)個(gè)全序相關(guān),,形成一個(gè)層層次結(jié)構(gòu):yeardayquartermonthweek維的屬性也可可以組成一個(gè)個(gè)偏序,形成成一個(gè)格:概念分層(3)———使用概念分層為不不同級(jí)別上的的數(shù)據(jù)匯總提提供了一個(gè)良良好的基礎(chǔ)綜合概念分層層和多維數(shù)據(jù)據(jù)模型的潛力力,可以對(duì)數(shù)數(shù)據(jù)獲得更深深入的洞察力力通過在多維數(shù)數(shù)據(jù)模型中,,在不同的維維上定義概念念分層,使得得用戶在不同同的維上從不不同的層次對(duì)對(duì)數(shù)據(jù)進(jìn)行觀觀察成為可能能。多維數(shù)據(jù)模型型(數(shù)據(jù)立方方體)使得從從不同的角度度對(duì)數(shù)據(jù)進(jìn)行行觀察成為可可能,而概念念分層則提供供了從不同層層次對(duì)數(shù)據(jù)進(jìn)進(jìn)行觀察的能能力;結(jié)合這這兩者的特征征,我們可以以在多維數(shù)據(jù)據(jù)模型上定義義各種OLAP操作,為為用戶從不同同角度不同層層次觀察數(shù)據(jù)據(jù)提供了靈活活性:多維數(shù)據(jù)模型型上的OLAP操作(1)上卷(roll-up):匯總數(shù)據(jù)據(jù)通過一個(gè)維的的概念分層向向上攀升或者者通過維規(guī)約約當(dāng)用維歸約進(jìn)進(jìn)行上卷時(shí),,一個(gè)或多個(gè)個(gè)維由給定的的數(shù)據(jù)立方體體刪除下鉆(drill-down):上上卷的逆操作作由不太詳細(xì)的的數(shù)據(jù)到更詳詳細(xì)的數(shù)據(jù),,可以通過沿沿維的概念分分層向下或引引入新的維來來實(shí)現(xiàn)(為為給定數(shù)據(jù)添添加更多細(xì)節(jié)節(jié))切片和切塊(sliceanddice)切片操作在給給定的數(shù)據(jù)立立方體的一個(gè)個(gè)維上進(jìn)行選選擇,導(dǎo)致一一個(gè)子方切塊操作通過過對(duì)兩個(gè)或多多個(gè)維進(jìn)行選選擇,定義子子方P40圖2-10多維數(shù)數(shù)據(jù)模模型上上的OLAP操操作(2)轉(zhuǎn)軸(pivot)立方體體的重重定位位,可可視化化,或或?qū)⒁灰粋€(gè)3維立立方體體轉(zhuǎn)化化為一一個(gè)2維平平面序序列轉(zhuǎn)軸是是一種種可視化化操作,,通過過轉(zhuǎn)動(dòng)動(dòng)當(dāng)前前數(shù)據(jù)據(jù)的視視圖來來提供供一個(gè)個(gè)數(shù)據(jù)據(jù)的替替代表表示其他OLAP操操作鉆過(drill_across)::執(zhí)行行涉及及多個(gè)個(gè)事實(shí)實(shí)表的的查詢?cè)冦@透(drill_through):使使用關(guān)關(guān)系SQL機(jī)制制,鉆鉆到數(shù)數(shù)據(jù)立立方體體的底底層,,到后后端關(guān)關(guān)系表表其他OLAP操操作可可能包包括列列出表表中最最高或或最低低的N項(xiàng),,以及及計(jì)算算移動(dòng)動(dòng)平均均值、、增長(zhǎng)長(zhǎng)率、、利潤(rùn)潤(rùn)、統(tǒng)統(tǒng)計(jì)函函數(shù)等等等P40圖圖2-10數(shù)據(jù)倉(cāng)庫(kù)庫(kù)設(shè)計(jì)::一個(gè)商商務(wù)分析析框架(1)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)給商業(yè)業(yè)分析專專家提供供了什么么?通過提供供相關(guān)數(shù)數(shù)據(jù)與信信息,獲獲得競(jìng)爭(zhēng)爭(zhēng)優(yōu)勢(shì)通過有效效的收集集精確的的描述組組織的數(shù)數(shù)據(jù),獲獲得生產(chǎn)產(chǎn)力的提提高通過提供供不同級(jí)級(jí)別(部部門、市市場(chǎng)、商商業(yè))的的客戶視視圖,協(xié)協(xié)助客戶戶關(guān)系管管理通過追蹤蹤長(zhǎng)期趨趨勢(shì)、異異常等,,降低成成本有效構(gòu)建建數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的關(guān)關(guān)鍵:理理解和分分析商業(yè)業(yè)需求通過提供供一個(gè)商商業(yè)分析析框架,,綜合各各種不同同的數(shù)據(jù)據(jù)使用者者的視圖圖數(shù)據(jù)倉(cāng)庫(kù)庫(kù)設(shè)計(jì)::一個(gè)商商務(wù)分析析框架(2)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)設(shè)計(jì)的的四種視視圖自頂向下下視圖允許我們們選擇數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)所需的的相關(guān)信信息數(shù)據(jù)源視視圖揭示被操操作數(shù)據(jù)據(jù)庫(kù)系統(tǒng)統(tǒng)所捕獲獲、存儲(chǔ)儲(chǔ)和管理理的信息息數(shù)據(jù)倉(cāng)庫(kù)庫(kù)視圖由事實(shí)表表和維表表所組成成商務(wù)查詢?cè)円晥D從最終用用戶的角角度透視視數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中的的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)設(shè)計(jì)::一個(gè)商商務(wù)分析析框架(3)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的構(gòu)建建與使用用涉及多多種技能能商業(yè)技能能理解系統(tǒng)統(tǒng)如何存存儲(chǔ)和管管理數(shù)據(jù)據(jù)數(shù)據(jù)如何何提取數(shù)據(jù)如何何刷新技術(shù)方面面的技能能如何通過過使用各各種數(shù)據(jù)據(jù)或量化化的信息息,到處處可以提提供決策策支持的的模式、、趨勢(shì)、、判斷等等如何通過審審查歷史數(shù)數(shù)據(jù),分析析發(fā)展趨勢(shì)勢(shì)等計(jì)劃管理技技能如何通過與與不同的技技術(shù)、廠商商、用戶交交互,來及及時(shí)、有效效、經(jīng)濟(jì)的的提交結(jié)果果數(shù)據(jù)倉(cāng)庫(kù)的的設(shè)計(jì)過程程(1)自頂向下法法、自底向向上法或者者兩者的混混合方法自頂向下法法:由總體體設(shè)計(jì)和規(guī)規(guī)劃開始在技術(shù)成熟熟、商業(yè)理理解透徹的的情況下使使用自底向上法法:以實(shí)驗(yàn)驗(yàn)和原型開開始常用在模型型和技術(shù)開開發(fā)的初期期,可以有有效的對(duì)使使用的技術(shù)術(shù)和模型進(jìn)進(jìn)行評(píng)估,,降低風(fēng)險(xiǎn)險(xiǎn)混合方法::上述兩者者的結(jié)合從軟件過程程的觀點(diǎn)瀑布式方法法:在進(jìn)行行下一步前前,每一步步都進(jìn)行結(jié)結(jié)構(gòu)化和系系統(tǒng)的分析析螺旋式方法法:功能漸漸增的系統(tǒng)統(tǒng)的快速產(chǎn)產(chǎn)生,相繼繼版本之間間間隔很短短數(shù)據(jù)倉(cāng)庫(kù)的的設(shè)計(jì)過程程(2)典型的數(shù)據(jù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)計(jì)過程選取待建模模的商務(wù)過程找到所構(gòu)建建的數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的主題題,比如::銷售、貨貨運(yùn)、訂單單等等選取商務(wù)過過程的顆粒度數(shù)據(jù)起始于于多細(xì)的顆顆粒度,比比如:記錄錄每條詳細(xì)細(xì)訂單,或或是開始于于每日的匯匯總數(shù)據(jù)選取用于每每個(gè)事實(shí)表表記錄的維常用的維有有:時(shí)間、、貨物、客客戶、供應(yīng)應(yīng)商等選取將安放放在事實(shí)表表中的度量常用的數(shù)字字度量包括括:售價(jià)、、貨物數(shù)量量等三層數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)架構(gòu)(1)數(shù)據(jù)倉(cāng)庫(kù)提取清理轉(zhuǎn)換裝入刷新OLAP服服務(wù)器查詢報(bào)告分析數(shù)據(jù)挖掘監(jiān)控、整合元數(shù)據(jù)存儲(chǔ)數(shù)據(jù)源前端工具輸出數(shù)據(jù)集市操作數(shù)據(jù)庫(kù)其他外部信息源數(shù)據(jù)倉(cāng)庫(kù)服服務(wù)器OLAP服服務(wù)器三層數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)架構(gòu)(2)底層:數(shù)據(jù)據(jù)倉(cāng)庫(kù)的數(shù)數(shù)據(jù)庫(kù)服務(wù)務(wù)器關(guān)注的問題題:如何從從這一層提提取數(shù)據(jù)來來構(gòu)建數(shù)據(jù)據(jù)倉(cāng)庫(kù)(通通過Gateway(ODBC,JDBC,OLE/DB等)來來提?。┲虚g層:OLAP服服務(wù)器關(guān)注的問題題:OLAP服務(wù)器器如何實(shí)施施(關(guān)系型型OLAP,多維OLAP等等)前端客戶工工具層關(guān)注的問題題:查詢工工具、報(bào)表表工具、分分析工具、、挖掘工具具等三種數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)模型從體系結(jié)構(gòu)構(gòu)的角度去去看,數(shù)據(jù)據(jù)倉(cāng)庫(kù)模型型可以有以以下三種::企業(yè)倉(cāng)庫(kù)搜集關(guān)于跨跨越整個(gè)組組織的主題題的所有信信息數(shù)據(jù)集市企業(yè)范圍圍數(shù)據(jù)的的一個(gè)子子集,對(duì)對(duì)于特定定的客戶戶是有用用的。其其范圍限限于選定定的主題題,比如如一個(gè)商商場(chǎng)的數(shù)數(shù)據(jù)集市市獨(dú)立的數(shù)數(shù)據(jù)集市市VS.非非獨(dú)立的的數(shù)據(jù)集集市(數(shù)數(shù)據(jù)來自自于企業(yè)業(yè)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù))虛擬倉(cāng)庫(kù)庫(kù)操作數(shù)據(jù)據(jù)庫(kù)上的的一系列列視圖只有一些些可能的的匯總視視圖被物物化數(shù)據(jù)倉(cāng)庫(kù)庫(kù)開發(fā)::困難與與方法數(shù)據(jù)倉(cāng)庫(kù)庫(kù)開發(fā)上上的困難難自頂向下下的開發(fā)發(fā)方法從從全系統(tǒng)統(tǒng)的角度度提供解解決方案案,使得得(模塊塊)集成成的問題題最??;;但是該該方法十十分昂貴貴,需要要對(duì)組織織進(jìn)行長(zhǎng)長(zhǎng)期研究究和建模模分析。。自底向上上方法提提供了更更多的開開發(fā)靈活活性,價(jià)價(jià)格便宜宜;但往往往會(huì)遇遇到集成成問題((每個(gè)模模塊單獨(dú)獨(dú)運(yùn)行都都沒有問問題,但但是一集集成就出出異常))解決方法法:使用遞增增性、演演化性的的開發(fā)方方法高層數(shù)據(jù)據(jù)模型企業(yè)倉(cāng)庫(kù)庫(kù)和數(shù)據(jù)據(jù)集市并并行開發(fā)發(fā)通過分布布式模型型集成各各數(shù)據(jù)集集市多層數(shù)據(jù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)開發(fā)———一個(gè)個(gè)推薦的的方法定義高層層數(shù)據(jù)模模型數(shù)據(jù)集市市數(shù)據(jù)集市市分布式數(shù)數(shù)據(jù)集市市多層數(shù)據(jù)據(jù)倉(cāng)庫(kù)企業(yè)數(shù)據(jù)據(jù)倉(cāng)庫(kù)模型提煉煉模型提煉煉OLAP服務(wù)器器類型(1)邏輯上,,OLAP服務(wù)務(wù)器從數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)或數(shù)據(jù)據(jù)集市中中給商業(yè)業(yè)用戶提提供多維維數(shù)據(jù)物理上,,OLAP的底底層數(shù)據(jù)據(jù)存儲(chǔ)實(shí)實(shí)現(xiàn)可以以有多種種不同的的方式關(guān)系OLAP服服務(wù)器(ROLAP)使用關(guān)系系數(shù)據(jù)庫(kù)庫(kù)或擴(kuò)展展的關(guān)系系數(shù)據(jù)庫(kù)庫(kù)存放并并管理數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的數(shù)據(jù)據(jù),而用用OLAP中間間件支持持其余部部分包括每個(gè)個(gè)DBMS后端端優(yōu)化,,聚集導(dǎo)導(dǎo)航邏輯輯的實(shí)現(xiàn)現(xiàn),附加加的工具具和服務(wù)務(wù)較大的可可擴(kuò)展性性O(shè)LAP服務(wù)器器類型(2)多維OLAP服服務(wù)器(MOLAP)基于數(shù)組組的多維維存儲(chǔ)引引擎(稀稀疏矩陣陣技術(shù)))能對(duì)預(yù)計(jì)計(jì)算的匯匯總數(shù)據(jù)據(jù)快速索索引混合OLAP服服務(wù)器(HOLAP)結(jié)合上述述兩種技技術(shù),更更大的使使用靈活活性特殊的SQL服服務(wù)器在星型和和雪花模模型上支支持SQL查詢?cè)償?shù)據(jù)倉(cāng)庫(kù)庫(kù)的實(shí)現(xiàn)現(xiàn)———數(shù)據(jù)據(jù)立方體體的有效效計(jì)算數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中的OLAP查詢是是一種海海量數(shù)據(jù)據(jù)計(jì)算((想象象一下對(duì)對(duì)過去10年各各地區(qū)的的軟件產(chǎn)產(chǎn)品銷售售的匯總總查詢))用戶卻希希望這個(gè)個(gè)計(jì)算能能在數(shù)秒秒鐘內(nèi)完完成解決方法法在于給給出一種種有效的的計(jì)算數(shù)數(shù)據(jù)立方方體的方方法數(shù)據(jù)立方方體可以以被看成成是一個(gè)個(gè)方體的格格最底層的的方體是是基本方方體最頂端的的方體((頂點(diǎn)))只包含含一個(gè)單單元的值值一個(gè)n維維的數(shù)據(jù)據(jù)立方體體,每維維L層,,可能產(chǎn)產(chǎn)生的方方體總數(shù)數(shù)是多少少?(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)方體的操操作DMQL中的方方體定義義和計(jì)算算definecubesales[item,city,year]:sum(sales_in_dollars)computecubesales上述的computecube子子句可以以轉(zhuǎn)化為為一個(gè)類類似于SQL的的語句SELECTitem,city,year,SUM(amount)FROMSALESCUBEBYitem,city,year這個(gè)相當(dāng)當(dāng)于SQL中以以下的groupby子句句(item,city,year)–3D(item,city),(itemyear),(city,year)—2D(item),(city),(year)—1D()--0D(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)數(shù)據(jù)立方方體的物物化數(shù)據(jù)立方方體的物化可以有以以下三種種選擇::全物化預(yù)先計(jì)算算所有方方體不物化不預(yù)先計(jì)計(jì)算任何何“非基基本”方方體部分物化化有選擇的的計(jì)算一一個(gè)所有有方體的的適當(dāng)子子集考慮因素素:(1)確定要物物化的方方體;(2)在在查詢時(shí)時(shí)利用物物化的方方體;(3)在在裝載和和刷新時(shí)時(shí),有效效的更新新物化的的方體確定定物物化化哪哪些些方方體體考慮慮工工作作負(fù)負(fù)荷荷下下的的查查詢?cè)?、、它它們們的的頻頻率率和和它它們們的的開開銷銷等等等等方體體計(jì)計(jì)算算::ROLAPvs.MOLAP方體體計(jì)計(jì)算算的的挑挑戰(zhàn)戰(zhàn)::海量量數(shù)數(shù)據(jù)據(jù),,有有限限的的內(nèi)內(nèi)存存和和時(shí)時(shí)間間基于于ROLAP的的方方法法((底底層層使使用用關(guān)關(guān)系系模模型型存存儲(chǔ)儲(chǔ)數(shù)數(shù)據(jù)據(jù)))將排排序序、、散散列列(hashing)和和分分組組操操作作應(yīng)應(yīng)用用于于維維的的屬屬性性,,以以便便對(duì)對(duì)相相關(guān)關(guān)元元組組重重新新排排序序和和聚聚類類在某某些些子子聚聚集集上上分分組組,,作作為為““部部分分分分組組步步驟驟””。??梢砸杂捎梢砸郧扒坝?jì)計(jì)算算的的聚聚集集計(jì)計(jì)算算新新的的聚聚集集,,而而不不必必有有基基本本事事實(shí)實(shí)表表計(jì)計(jì)算算基于于MOLAP方方法法((底底層層使使用用多多維維數(shù)數(shù)組組存存儲(chǔ)儲(chǔ)數(shù)數(shù)據(jù)據(jù)))多路路數(shù)數(shù)組組聚聚集集的的計(jì)計(jì)算算方方法法將數(shù)數(shù)組組切切成成塊塊((每每個(gè)個(gè)塊塊都都可可以以整整個(gè)個(gè)裝裝入入內(nèi)內(nèi)存存))通過過訪訪問問各各個(gè)個(gè)塊塊來來計(jì)計(jì)算算匯匯總總值值方體體計(jì)計(jì)算算的的多多路路數(shù)數(shù)組組聚聚集集方方法法(1)將數(shù)數(shù)組組分分成成塊塊((chunk,一一個(gè)個(gè)可可以以裝裝入入內(nèi)內(nèi)存存的的小小子子方方))通過過訪訪問問立立方方體體單單元元,,計(jì)計(jì)算算聚聚集集。??煽梢砸詢?yōu)優(yōu)化化訪訪問問單單元元組組的的次次序序,,使使得得每每個(gè)個(gè)單單元元被被訪訪問問的的次次數(shù)數(shù)最最小小化化,,從從而而減減少少內(nèi)內(nèi)存存訪訪問問和和磁磁盤盤I/O的的開開銷銷。。A(month)40個(gè)個(gè)值值B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000個(gè)個(gè)值值B(city)400個(gè)個(gè)值值442856402452362060哪個(gè)是是多路路數(shù)組組聚集集的最最佳遍遍歷次次序??方體計(jì)計(jì)算的的多路路數(shù)組組聚集集方法法(2)A(month)40B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000442856402452362060B(city)400方體計(jì)計(jì)算的的多路路數(shù)組組聚集集方法法(3)AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C442856402452362060B方體計(jì)算算的多路路數(shù)組聚聚集方法法(4)方法:各各平面要要按他們們大小的的升序排排列進(jìn)行行排序和和計(jì)算詳見書P50例例2.12(P52圖圖2-16有有誤)思想:將將最小的的平面放放在內(nèi)存存中,對(duì)對(duì)最大的的平面每每次只是是取并計(jì)計(jì)算一塊塊方體計(jì)算算的多路路數(shù)組聚聚集方法法(5)根據(jù)1到到64的的掃描次次序,在在塊內(nèi)存存中保存存所有相相關(guān)的2-D平平面所需需的最小小存儲(chǔ)為為:40×400((用于整整個(gè)AB平面))+40×1000((用于AC平面面一行))+100×1000(用于于BC平平面一塊塊)=156,,000這種方法法的限制制:只有有在維數(shù)數(shù)比較小小的情況況下,效效果才比比較理想想(要計(jì)計(jì)算的立立方體隨隨維數(shù)指指數(shù)增長(zhǎng)長(zhǎng))如果維的的數(shù)目比比較多,,可以考考慮使用用“自底底向上的的計(jì)算””或者時(shí)時(shí)“冰山山方體””計(jì)算算OLAP查詢的的有效處處理確定哪些些操作應(yīng)應(yīng)當(dāng)在可可利用的的方體上上執(zhí)行::將查詢中中的選擇擇、投影影、上卷卷和下鉆鉆等操作作轉(zhuǎn)化為為對(duì)應(yīng)的的SQL或/和和OLAP操作作,如::dice=selection+projection確定相關(guān)關(guān)操作應(yīng)應(yīng)當(dāng)使用用哪些物物化的方方體找尋MOLAP中可以以利用的的索引結(jié)結(jié)構(gòu)以及及壓縮的的或是稠稠密的數(shù)數(shù)組結(jié)構(gòu)構(gòu)有效處理理OLAP查詢?cè)儯ㄊ纠┝⒎襟w的的定義為為:sales[time,item,location]:sum(sales_in_dollar)time的維層層次day<week<month<quater<yearlocation的維維層次street<city<province_or_state<countryitem的維層層次item_name<brand<type現(xiàn)在要處處理一個(gè)個(gè)year=2000,定位位在brand和province_or_state級(jí)別的的查詢,,現(xiàn)有四四個(gè)可用用的已經(jīng)經(jīng)物化的的方體::{item_name,city,year}{brand,country,year}{brand,province_or_state,year}{

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論