數(shù)據(jù)挖掘(參照韓家偉的書)_第1頁
數(shù)據(jù)挖掘(參照韓家偉的書)_第2頁
數(shù)據(jù)挖掘(參照韓家偉的書)_第3頁
數(shù)據(jù)挖掘(參照韓家偉的書)_第4頁
數(shù)據(jù)挖掘(參照韓家偉的書)_第5頁
已閱讀5頁,還剩81頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘:概念與技術(shù)Jiawei Han and Micheline Kamber著Monrgan Kaufmann Publishers Inc.范明 孟小峰等譯機械工業(yè)出版社9/20/20221第3章 數(shù)據(jù)倉庫與OLAP技術(shù)中文幻燈片制作:范明9/20/20222第3章: 數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫實現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘9/20/20223什么是數(shù)據(jù)倉庫 9/20/20224什么是數(shù)據(jù)倉庫不同的定義是一個決策支持?jǐn)?shù)據(jù)庫, 它與組織的操作數(shù)據(jù)庫別離地維護數(shù)據(jù)倉庫系統(tǒng)允許將各種應(yīng)用系統(tǒng)集成在一起, 通過為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,

2、支持信息處理.數(shù)據(jù)倉庫是一種信息環(huán)境, 它將各種應(yīng)用系統(tǒng)集成在一起, 提供了企業(yè)信息的完整概括, 為靈活的、交互的數(shù)據(jù)分析提供堅實的平臺, 為決策提供支持. W. H. Inmon的定義: 數(shù)據(jù)倉庫是 面向主題的(subject-oriented), 集成的, 時變的, 和非易失的數(shù)據(jù)集合, 支持管理決策過程建立數(shù)據(jù)倉庫(Data warehousing):構(gòu)造和使用數(shù)據(jù)倉庫的過程9/20/20225數(shù)據(jù)倉庫的特征面向主題的 (subject-oriented)數(shù)據(jù)倉庫圍繞一些主題,如顧客、供給商、產(chǎn)品和銷售組織數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析, 而不是集中于組織機構(gòu)的日常操作和事務(wù)處理.

3、數(shù)據(jù)倉庫排除對于決策無用的數(shù)據(jù), 提供特定主題的簡明視圖 集成的 (integrated)通常, 構(gòu)造數(shù)據(jù)倉庫是將多個異種數(shù)據(jù)源, 如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機事務(wù)處理記錄, 集成在一起使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù), 確保命名約定、編關(guān)鍵字結(jié)構(gòu)、屬性度量等的一致性 當(dāng)數(shù)據(jù)裝入數(shù)據(jù)倉庫時, 數(shù)據(jù)將被轉(zhuǎn)換9/20/20226數(shù)據(jù)倉庫的特征(續(xù))時變的 (time-variant)數(shù)據(jù)存儲從歷史的角度 (例如過去5-10年) 提供信息.操作數(shù)據(jù)庫數(shù)據(jù): 當(dāng)前值數(shù)據(jù)數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu), 隱式或顯式地包含時間元素 非易失的 (nonvolatile)數(shù)據(jù)倉庫總是物理地別離存放數(shù)據(jù); 這些數(shù)據(jù)源于操作環(huán)境

4、下的應(yīng)用數(shù)據(jù)由于這種別離, 數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)和并發(fā)控制機制.通常, 它只需要兩種數(shù)據(jù)訪問操作: 數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問 9/20/20227如何使用數(shù)據(jù)倉庫中的信息數(shù)據(jù)倉庫用于商務(wù)決策活動, 包括 增加顧客關(guān)注包括分析顧客購置模式, 如喜愛買什么、購置時間、預(yù)算周期、消費習(xí)慣根據(jù)季度、年和地區(qū)的營銷情況比較, 重新配置產(chǎn)品和管理產(chǎn)品的投資, 調(diào)整生產(chǎn)策略分析運營情況和查找利潤源管理顧客關(guān)系、進行環(huán)境調(diào)整、管理公司資產(chǎn)開銷 9/20/20228數(shù)據(jù)倉庫和異種數(shù)據(jù)庫傳統(tǒng)的異種數(shù)據(jù)庫集成在異種數(shù)據(jù)庫上建立一個包裝程序(wrappers)或中介程序(mediators)查詢驅(qū)動的方法當(dāng)

5、查詢提交給一個站點時, 使用元數(shù)據(jù)詞典將查詢轉(zhuǎn)換成所涉及的異種站點上的相應(yīng)查詢, 查詢的結(jié)果被集成為一個全局答復(fù)的集合 復(fù)雜的信息過濾, 對資源的競爭數(shù)據(jù)倉庫更新驅(qū)動的, 高性能來自異種信息源的數(shù)據(jù)被預(yù)先集成并存儲在數(shù)據(jù)倉庫中, 直接用于查詢和分析9/20/20229數(shù)據(jù)倉庫 vs. 操作數(shù)據(jù)庫OLTP (on-line transaction processing, 聯(lián)機事務(wù)處理)傳統(tǒng)關(guān)系 DBMS的主要任務(wù)日常事務(wù)處理: 購置, 庫存, 銀行, 制造, 工資單, 注冊, 記帳等.OLAP (on-line analytical processing, 聯(lián)機分析處理)數(shù)據(jù)倉庫系統(tǒng)的主要任務(wù)數(shù)

6、據(jù)分析和決策制定9/20/202210數(shù)據(jù)倉庫 vs. 操作數(shù)據(jù)庫(續(xù))不同的特點 (OLTP vs. OLAP):用戶和系統(tǒng)的面向性: 顧客 vs. 市場OLTP是面向顧客的, 用于辦事員、客戶、和信息技術(shù)專業(yè)人員的事務(wù)和查詢處理OLAP是面向市場的, 用于知識工人 (包括經(jīng)理、主管、和分析人員) 的數(shù)據(jù)分析 數(shù)據(jù)內(nèi)容: 當(dāng)前的, 細(xì)節(jié)的 vs. 歷史的, 合并的OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù)這種數(shù)據(jù)太瑣碎, 很難用于決策OLAP系統(tǒng)管理大量歷史數(shù)據(jù), 提供匯總和聚集機制, 并在不同的粒度級別上存儲和管理信息這些特點使得數(shù)據(jù)更容易用于決策 9/20/202211數(shù)據(jù)倉庫 vs. 操作數(shù)據(jù)庫(續(xù))數(shù)

7、據(jù)庫設(shè)計: ER + 應(yīng)用 vs. 星形 + 主題OLTP系統(tǒng)采用ER數(shù)據(jù)模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計OLAP系統(tǒng)通常采用星形或雪花模型和面向主題的數(shù)據(jù)庫設(shè)計 視圖: 當(dāng)前的, 局部的 vs. 進化的, 集成的OLTP系統(tǒng)主要關(guān)注一個企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù), 而不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù)OLAP系統(tǒng)常??缭綌?shù)據(jù)庫模式的多個版本. OLAP系統(tǒng)還處理來自不同組織的信息, 集成多個數(shù)據(jù)存儲的信息由于數(shù)據(jù)量巨大, OLAP數(shù)據(jù)也存放在多個存儲介質(zhì)上 9/20/202212數(shù)據(jù)倉庫 vs. 操作數(shù)據(jù)庫(續(xù))訪問模式: 更新 vs. 只讀的, 但是復(fù)雜的查詢OLTP系統(tǒng)的訪問主要由短的原子事務(wù)組成,

8、 需要并發(fā)控制和恢復(fù)機制OLAP系統(tǒng)的訪問大局部是只讀操作 (由于大局部數(shù)據(jù)倉庫存放歷史數(shù)據(jù),而不是當(dāng)前數(shù)據(jù)), 盡管許多可能是復(fù)雜的查詢 9/20/202213數(shù)據(jù)倉庫 vs. 操作數(shù)據(jù)庫(續(xù))9/20/202214為什么建立別離的數(shù)據(jù)倉庫為了兩個系統(tǒng)的高性能操作數(shù)據(jù)庫是為的任務(wù)和負(fù)載設(shè)計的需要使用主關(guān)鍵字索引和散列, 檢索特定的記錄, 優(yōu)化“定制的查詢 數(shù)據(jù)倉庫的查詢通常是復(fù)雜的, 涉及大量數(shù)據(jù)在匯總級的計算需要特殊的基于多維視圖的數(shù)據(jù)組織、存取方法和實現(xiàn)方法在操作數(shù)據(jù)庫上處理OLAP查詢, 可能會大大降低操作任務(wù)的性能 操作數(shù)據(jù)庫支持多事務(wù)的并發(fā)處理, 需要加鎖和日志等并發(fā)控制和恢復(fù)機制

9、, 以確保一致性和事務(wù)的魯棒性 OLAP查詢只需要對匯總和聚集數(shù)據(jù)記錄進行只讀訪問如果將并發(fā)控制和恢復(fù)機制用于這種OLAP操作, 就會危害并行事務(wù)的運行, 從而大大降低OLTP系統(tǒng)的吞吐量 9/20/202215為什么建立別離的數(shù)據(jù)倉庫(續(xù))不同的功能和不同的數(shù)據(jù):缺少數(shù)據(jù): 決策支持需要歷史數(shù)據(jù), 通常操作數(shù)據(jù)庫并不維護這些數(shù)據(jù)數(shù)據(jù)統(tǒng)一: 決策支持需要將來自異種數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一 (聚集, 匯總)數(shù)據(jù)質(zhì)量: 不同的數(shù)據(jù)源通常使用不同的數(shù)據(jù)表示, 編碼, 和應(yīng)當(dāng)遵循的格式兩個系統(tǒng)提供很不相同的功能, 需要不同類型的數(shù)據(jù)需要維護別離的數(shù)據(jù)庫 9/20/202216多維數(shù)據(jù)模型9/20/202217

10、多維數(shù)據(jù)模型數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型多維數(shù)據(jù)模型將數(shù)據(jù)看作數(shù)據(jù)立方體 (data cube) 形式 數(shù)據(jù)立方體最初是指具有產(chǎn)品、市場與時間維的簡單三維情況現(xiàn)在, 數(shù)據(jù)立方體不限于三維, 而是n-維的事實上, n-維 (n-D) 數(shù)據(jù)立方體由一系列方體 (coboid) 組成, 每個涉及k (k n) 個維的不同組合數(shù)據(jù)立方體允許以多維對數(shù)據(jù)建模和觀察.多維數(shù)據(jù)模型由維和事實定義9/20/202218多維數(shù)據(jù)模型:主題多維數(shù)據(jù)模型圍繞中心主題 組織主題是分析數(shù)據(jù)的關(guān)注點例如, 連鎖超市的銷售主題用事實表表示事實是數(shù)值度量的根據(jù)它們分析主題與維之間的關(guān)系例如,連鎖超市可能創(chuàng)立一個數(shù)據(jù)

11、倉庫sales, 事實包括dollars_sold 和units_sold事實表包括事實的名稱或度量, 以及每個相關(guān)維表的關(guān)鍵字9/20/202219多維數(shù)據(jù)模型維是觀察事實的角度 例如, 連鎖超市可能創(chuàng)立一個數(shù)據(jù)倉庫sales, 記錄商店的銷售, 涉及維time, item, branch, 和location 每一個維都有一個表與之相關(guān)聯(lián). 該表稱為維表, 它進一步描述維例如, item的維表可以包含屬性item_name, branch, 和type維自然是分層的例如,維location由屬性number, street, city, province, 和country定義. 這些屬性

12、按一個全序相關(guān), 形成一個層次, 如number street as (attribute_or_subdimension_list) 9/20/202232例:定義星形模式/ 定義數(shù)據(jù)立方體sales_star, 對應(yīng)于中心事實表sales; 它包含4個維time, / item, branch和location, 2個度量dollars_sold和units_sold define cube sales_star time, item, branch, location: dollars_sold = sum(sales_in_dollars), units_sold = count(*)

13、/ 定義維表time, item, branch和location define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street

14、, city, province_or_state, country) 9/20/202233例:定義雪花形模式/ 定義數(shù)據(jù)立方體sales_snowflake 與sales_star類似 define cube sales_snowflake time, item, branch, location: dollars_sold = sum(sales_in_dollars), units_sold = count(*)/ 定義維表time, item, branch和location define dimension time as (time_key, day, day_of_week,

15、month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type) define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city(city_key, city, province_or_state, country) 注意supplier的維定義

16、在item的定義中說明,隱式地在item的定義中創(chuàng)立了一個supplier_keycity的維定義在location的定義中說明。用這種方式,city_key在location的定義中隱式地創(chuàng)立 9/20/202234例: 定義事實星座/ 定義事實表sales和維表time, item, branch和location與星形模式相同 define cube sales time, item, branch, location: dollars_sold = sum(sales_in_dollars), units_sold = count(*)define dimension time as

17、(time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country)/ 定義事實表shipping define c

18、ube shipping time, item, shipper, from_location, to_location:dollars_sold = sum(cost_in_dollars), units_sipped = count(*) / 定義shipping的維表define dimension time as time in cube sales define dimension item as item in cube sales define dimension shipper as (shipper_key, shipper_name, location as locatio

19、n in cube sales, shipper_type) define dimension from_location as location in cube sales define dimension to_location as location in cube sales 9/20/202235度量的分類和計算 三類度量: 分布的, 代數(shù)的和整體的分布的(distributive)將數(shù)據(jù)劃分為n個集合, 函數(shù)在每一局部上的計算得到一個聚集值. 如果將函數(shù)用于n個聚集值得到的結(jié)果, 與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣, 那么該函數(shù)可以用分布方式計算.例, count(), sum()

20、, min(), max().代數(shù)的(algebraic)能夠由一個具有M (其中M是一個整數(shù)界) 個參數(shù)的代數(shù)函數(shù)計算, 而每個參數(shù)都可以用一個分布聚集函數(shù)求得 .例, avg(), min_N(), standard_deviation().整體的(holistic)描述它的子聚集所需的存儲沒有一個常數(shù)界 . 例, median(), mode(), rank().9/20/202236度量的分類和計算(續(xù))許多數(shù)據(jù)立方體度量可以用關(guān)系的聚集操作計算 例: AllElectronics的sales星形模式 設(shè)定義AllElectronics的關(guān)系數(shù)據(jù)庫模式如下 time(time_key,

21、 day, day_of_week, month, quarter, year) item(item_key, item_name, branch, type)branch(branch_key, branch_name, branch_type)location(location_key, street, city, province_or_state, country)sales(time_key, item_key, branch_key, location_key, number_of_units_sold, price) 定義星形模式sales_star的 DMQL說明被翻譯成SQL

22、查詢, 這些查詢產(chǎn)生所需要的sales_star數(shù)據(jù)立方體. 其中, 聚集函數(shù)sum用于計算dollars_sold和units_sold 9/20/202237度量的分類和計算(續(xù))select s.time_key, s.item_key, s.branch_key, s.location_key,sum(s.number_of_units_sold*s.price), sum(s.number_of units_sold)from time t, item i, branch b, location l, sales swhere s.time_key=t.time_key and s.

23、item_key=i.item_keyand s.branch_key=b.branch_key and s.location_key=l.location_keygroup by s.time_key,s.item_key,s.branch_key,s.location_key 以上查詢創(chuàng)立的立方體是sales_star數(shù)據(jù)立方體的根本方體 包含數(shù)據(jù)立方體定義中說明的所有維, 其中每個維的粒度在連接鍵 (join key) 層 根本方體關(guān)聯(lián)的事實表稱為根本領(lǐng)實表 (base fact table) 改變group by子句, 可以產(chǎn)生sales_star數(shù)據(jù)立方體的其它方體 9/20/202

24、238概念分層概念分層 (concept hierarchy) 定義一個映射序列, 將低層概念映射到更一般的較高層概念 許多概念分層隱含在數(shù)據(jù)庫模式中概念分層為數(shù)據(jù)庫模式中屬性的全序或偏序的概念分層稱作模式分層 (schema hierarchy) 例如, 假定維location由屬性number, street, city, province_or_state, zipcode和country描述. 這些屬性按一個全序相關(guān), 形成一個層次“street city province_or_state country 許多應(yīng)用共有的概念分層, 如time的概念分層, 可以在數(shù)據(jù)挖掘系統(tǒng)中預(yù)定義

25、也可以通過將給定維或?qū)傩缘闹惦x散化或分組來定義概念分層, 產(chǎn)生集合分組分層 (set-grouping hierarchy) 概念分層可以由系統(tǒng)用戶、領(lǐng)域?qū)<?、知識工程師人工地提供, 或根據(jù)數(shù)據(jù)分布的統(tǒng)計分析自動地產(chǎn)生 9/20/202239典型的OLAP操作上卷 (roll-up)上卷 (又稱“上鉆(drill-up) 操作通過沿維的概念分層向上攀升或者通過維歸約, 在數(shù)據(jù)立方體上進行聚集當(dāng)用維歸約進行上卷時, 一個或多個維由給定的立方體刪除例: 在 location上卷(由 cities 到 countries) 9/20/202240典型的OLAP操作(續(xù))下鉆 (drill-down)

26、下鉆是上卷的逆操作, 它由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù).下鉆可以通過沿維的概念分層向下或引入新的維來實現(xiàn) 在 time下鉆 (由 quarters 到 months)9/20/202241典型的OLAP操作(續(xù))切片 (slice) 在給定的立方體的一個維上進行選擇, 導(dǎo)致一個子立方體 例: 使用條件time = Q1 切片, 對維time選擇銷售數(shù)據(jù) 9/20/202242典型的OLAP操作(續(xù))切塊 (dice) 通過對兩個或多個維執(zhí)行選擇, 定義子立方體 例: 根據(jù)如下條件對立方體切塊:(location = Montreal or Vancouver) and (time = Q1 o

27、r Q2) and (item = home entertainment or computer) 9/20/202243典型的OLAP操作(續(xù))轉(zhuǎn)軸 (pivot)轉(zhuǎn)軸又稱旋轉(zhuǎn) (rotate), 是一種目視操作它轉(zhuǎn)動數(shù)據(jù)的視角, 提供數(shù)據(jù)的替代表示 9/20/202244其他OLAP操作有些OLAP還提供其它鉆取操作鉆過 (drill_across) 執(zhí)行涉及多個事實表的查詢鉆透 (drill_through) 操作使用關(guān)系SQL機制, 鉆到數(shù)據(jù)立方體的底層, 到后端關(guān)系表其它OLAP操作列出表中最高或最低的N項計算移動平均值、增長率、利潤、內(nèi)部返回率、貶值、流通轉(zhuǎn)換統(tǒng)計功能 9/20/2

28、02245OLAP系統(tǒng)與統(tǒng)計數(shù)據(jù)庫 統(tǒng)計數(shù)據(jù)庫(SDB)是一種用于支持統(tǒng)計應(yīng)用的數(shù)據(jù)庫系統(tǒng)OLAP的許多特征, 如使用多維數(shù)據(jù)模型和概念分層、與維關(guān)聯(lián)的度量、上卷和下鉆概念, 也存在于統(tǒng)計數(shù)據(jù)庫 的早期工作中這兩種類型的系統(tǒng)之間的相似性很少討論它們使用了不同的術(shù)語, 并有不同的應(yīng)用領(lǐng)域 OLAP和SDB也有顯著的差異SDB趨向于關(guān)注社會經(jīng)濟應(yīng)用, 而OLAP旨在商務(wù)應(yīng)用概念分層的私有性問題是SDB關(guān)注的主要問題例如,給定匯總的社會經(jīng)濟數(shù)據(jù), 允許用戶觀察對應(yīng)的低層數(shù)據(jù)是有爭議的不象SDB, OLAP需要有效地處理海量數(shù)據(jù) 9/20/202246數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu) 9/20/202247數(shù)據(jù)倉庫

29、設(shè)計 數(shù)據(jù)倉庫為商務(wù)分析提供了什么 擁有數(shù)據(jù)倉庫可以提供競爭優(yōu)勢通過提供相關(guān)信息, 據(jù)此測量性能并作出重要調(diào)整, 以幫助戰(zhàn)勝其它競爭對手 數(shù)據(jù)倉庫可以提高企業(yè)生產(chǎn)力因為它能夠快速有效地搜集準(zhǔn)確描述組織機構(gòu)的信息 數(shù)據(jù)倉庫有利于顧客的聯(lián)系管理因為它跨越所有商務(wù)、所有部門和所有市場, 提供了顧客和商品的一致視圖 數(shù)據(jù)倉庫可以帶來費用的降低通過以一致和可靠的方式長期跟蹤趨勢、模式和異常9/20/202248數(shù)據(jù)倉庫設(shè)計(續(xù))四種視圖自頂向下視圖使得我們可以選擇數(shù)據(jù)倉庫所需的相關(guān)信息. 這些信息能夠滿足當(dāng)前和未來商務(wù)的需求 數(shù)據(jù)源視圖揭示被操作數(shù)據(jù)庫系統(tǒng)捕獲、存儲和管理的信息通常, 數(shù)據(jù)源用傳統(tǒng)的數(shù)據(jù)

30、建模技術(shù), 如實體-聯(lián)系模型或CASE 工具建模 數(shù)據(jù)倉庫視圖包括事實表和維表. 它們提供存放在數(shù)據(jù)倉庫內(nèi)部的信息, 包括預(yù)計算的總和與計數(shù), 以及增加的提供歷史背景的關(guān)于源、原來的日期和時間等信息 商務(wù)查詢視圖從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù) 9/20/202249數(shù)據(jù)倉庫設(shè)計(續(xù))建立和使用數(shù)據(jù)倉庫是一項復(fù)雜的任務(wù), 需要商務(wù)技巧、技術(shù)技巧和程序管理技巧 商務(wù)技巧建立數(shù)據(jù)倉庫涉及理解系統(tǒng)如何存儲和管理數(shù)據(jù); 如何構(gòu)造一個提取程序, 將數(shù)據(jù)由操作數(shù)據(jù)庫轉(zhuǎn)換到數(shù)據(jù)倉庫; 如何構(gòu)造一個倉庫刷新軟件, 合理地保持?jǐn)?shù)據(jù)倉庫中的數(shù)據(jù)相對于操作數(shù)據(jù)庫中數(shù)據(jù)的當(dāng)前性 使用數(shù)據(jù)倉庫涉及理解它所包含的數(shù)據(jù)

31、的含義理解商務(wù)需求并將它轉(zhuǎn)換成數(shù)據(jù)倉庫查詢 9/20/202250數(shù)據(jù)倉庫設(shè)計(續(xù))技術(shù)技巧數(shù)據(jù)分析需要理解如何由定量信息作出估價如何根據(jù)數(shù)據(jù)倉庫中的歷史信息得到的結(jié)論推導(dǎo)事實這些技巧包括發(fā)現(xiàn)模式和趨勢, 根據(jù)歷史推斷趨勢和發(fā)現(xiàn)異?;蚰J狡? 并根據(jù)這種分析提出相應(yīng)的管理建議的能力 程序管理技巧涉及與許多技術(shù)人員、經(jīng)銷商和最終用戶交往, 以便以及時和合算的方式提交結(jié)果 9/20/202251數(shù)據(jù)倉庫設(shè)計(續(xù))數(shù)據(jù)倉庫可以使用自頂向下方法、自底向上方法, 或二者結(jié)合的混合方法設(shè)計自頂向下方法由總體設(shè)計和規(guī)劃開始當(dāng)技術(shù)成熟并且已經(jīng)掌握, 對必須解決的商務(wù)問題清楚并且已經(jīng)很好理解時, 這種方法是有

32、用的 自底向上方法以實驗和原型開始在商務(wù)建模和技術(shù)開發(fā)的早期階段, 這種方法是有用的混合方法既能利用自頂向下方法的規(guī)劃和戰(zhàn)略特點, 又能保持象自底向上方法一樣快速實現(xiàn)和立即應(yīng)用 9/20/202252數(shù)據(jù)倉庫設(shè)計(續(xù))典型的數(shù)據(jù)倉庫設(shè)計過程選取待建模的商務(wù)處理例如, 訂單、發(fā)票、出貨、庫存、記帳管理、銷售或一般分類帳選用數(shù)據(jù)倉庫模型 vs. 選擇數(shù)據(jù)集市 選取商務(wù)處理的粒度該粒度是根本的, 在事實表中是數(shù)據(jù)的原子級例如, 單個事務(wù)、一天的快照等 選取用于每個事實表記錄的維典型的維是時間、商品、顧客、供給商、倉庫、事務(wù)類型和狀態(tài) 選取將安放在事實表中的度量典型的度量是可加的數(shù)值量, 如dolla

33、rs_sold和units_sold 9/20/202253三層數(shù)據(jù)倉庫結(jié)構(gòu)9/20/202254三層數(shù)據(jù)倉庫結(jié)構(gòu)(續(xù))底層是倉庫數(shù)據(jù)效勞器一般是關(guān)系數(shù)據(jù)庫系統(tǒng) 使用后端工具和實用程序, 由操作數(shù)據(jù)庫或其他外部數(shù)據(jù)源 (如由外部咨詢者提供的顧客側(cè)面信息) 提取數(shù)據(jù), 放入底層 這一層還包括元數(shù)據(jù)庫, 存放關(guān)于數(shù)據(jù)倉庫和它的內(nèi)容的信息 中間層是OLAP效勞器 關(guān)系OLAP (ROLAP) 模型即擴充的關(guān)系DBMS, 它將多維數(shù)據(jù)上的操作映射為標(biāo)準(zhǔn)的關(guān)系操作多維OLAP (MOLAP) 模型即專門的效勞器, 它直接實現(xiàn)多維數(shù)據(jù)和操作頂層是前端客戶層包括查詢和報告工具、分析工具和/或數(shù)據(jù)挖掘工具 9

34、/20/202255三種數(shù)據(jù)倉庫 企業(yè)倉庫 (enterprise warehouse)搜集了跨越整個組織的關(guān)于主題的所有信息提供企業(yè)范圍內(nèi)的數(shù)據(jù)集成 數(shù)據(jù)集市 (data mart)包含企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的用戶是有用的根據(jù)數(shù)據(jù)的來源不同,數(shù)據(jù)集市分為獨立的和依賴的兩類獨立的數(shù)據(jù)集市: 數(shù)據(jù)來自一個或多個操作的系統(tǒng)或外部信息提供者, 或者來自在一個特定的部門或地域局部產(chǎn)生的數(shù)據(jù)依賴的數(shù)據(jù)集市中的數(shù)據(jù)直接來自企業(yè)數(shù)據(jù)倉庫 虛擬倉庫 (virtual warehouse)是操作數(shù)據(jù)庫上視圖的集合. 為了有效地處理查詢, 只有一些可能的匯總視圖被物化虛擬倉庫易于建立, 但需要操作數(shù)據(jù)庫

35、效勞器具有剩余能力 9/20/202256數(shù)據(jù)倉庫開發(fā): 一種推薦的方法以遞增、進化的方式實現(xiàn)數(shù)據(jù)倉庫 定義一個高層企業(yè)數(shù)據(jù)模型數(shù)據(jù)集市分布式數(shù)據(jù)集市多層數(shù)據(jù)倉庫企業(yè)數(shù)據(jù)倉庫模型 提煉數(shù)據(jù)集市模型提煉9/20/202257數(shù)據(jù)倉庫后端工具和實用程序 數(shù)據(jù)倉庫系統(tǒng)使用后端工具和實用程序來加載和刷新它的數(shù)據(jù) 提供如下功能數(shù)據(jù)提取: 由多個、異種的外部數(shù)據(jù)源收集數(shù)據(jù) 數(shù)據(jù)清理: 檢測數(shù)據(jù)中的錯誤, 可能時訂正它 數(shù)據(jù)變換: 將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉庫格式 裝入: 排序、匯總、統(tǒng)一、計算視圖、檢查完整性, 并建立索引和劃分 刷新: 傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新一組數(shù)據(jù)倉庫管理工具 9/20/

36、202258元數(shù)據(jù)元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)在數(shù)據(jù)倉庫中, 元數(shù)據(jù)是定義倉庫對象的數(shù)據(jù) 元數(shù)據(jù)包括 數(shù)據(jù)倉庫結(jié)構(gòu)的描述倉庫模式、視圖、維、分層結(jié)構(gòu)、導(dǎo)出數(shù)據(jù)的定義, 以及數(shù)據(jù)集市的位置和內(nèi)容 操作元數(shù)據(jù)數(shù)據(jù)血統(tǒng): 移植數(shù)據(jù)的歷史和它所使用的變換序列數(shù)據(jù)流通: 主動的、檔案的或凈化的)管理信息: 倉庫使用統(tǒng)計量、錯誤報告和審計跟蹤匯總算法度量和維定義算法, 數(shù)據(jù)所處粒度、劃分、主題領(lǐng)域、聚集、匯總、預(yù)定義的查詢和報告 9/20/202259元數(shù)據(jù)(續(xù))由操作環(huán)境到數(shù)據(jù)倉庫的映射源數(shù)據(jù)庫和它們的內(nèi)容,網(wǎng)間連接程序描述, 數(shù)據(jù)劃分, 數(shù)據(jù)提取、清理、轉(zhuǎn)換規(guī)那么和缺省值, 數(shù)據(jù)刷新和凈化規(guī)那么, 平安 (

37、用戶授權(quán)和存取控制) 關(guān)于系統(tǒng)性能的數(shù)據(jù)刷新、更新定時和調(diào)度的規(guī)那么與更新周期改善數(shù)據(jù)存取和檢索性能的索引和配置 商務(wù)元數(shù)據(jù)商務(wù)術(shù)語和定義, 數(shù)據(jù)擁有者信息和收費策略 9/20/202260OLAP效勞器類型 關(guān)系OLAP (ROLAP) 使用關(guān)系或擴充關(guān)系的 DBMS 存放和管理倉庫數(shù)據(jù), 使用OLAP中間件支持其它局部包含一個優(yōu)化的 DBMS 后端, 聚集導(dǎo)航的邏輯實現(xiàn), 以及附加的工具和效勞 較大的可規(guī)模性例: Microstrategy的DSS和Informix的Metacube 多維 OLAP (MOLAP) 基于數(shù)組的多維存儲引擎 許多MOLAP效勞器采用兩級存儲表示: 較稠密的子

38、立方體不變, 并作為數(shù)組結(jié)構(gòu)存儲; 而稀疏子立方體使用壓縮技術(shù) 對預(yù)計算的匯總數(shù)據(jù)快速索引例: Arbor的Essbase 9/20/202261OLAP效勞器類型(續(xù))混合 OLAP (HOLAP)結(jié)合ROLAP和MOLAP技術(shù)ROLAP較大的可規(guī)模性和MOLAP的快速計算 HOLAP效勞器將大量詳細(xì)數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫中,而聚集保持在別離的MOLAP存儲中 例: 微軟的SQL Server 7.0 OLAP 專門的 SQL 效勞器供高級查詢語言和查詢處理在只讀環(huán)境下, 對星形/雪花形模式上的SQL查詢提供特殊的支持大局部數(shù)據(jù)倉庫系統(tǒng)采用客戶-效勞器結(jié)構(gòu)關(guān)系數(shù)據(jù)存儲總是駐留在數(shù)據(jù)倉庫/數(shù)據(jù)集

39、市效勞器站點上多維數(shù)據(jù)存儲可以駐留在數(shù)據(jù)庫效勞器站點或客戶站點 9/20/202262數(shù)據(jù)倉庫實現(xiàn)9/20/202263數(shù)據(jù)立方體的有效計算 數(shù)據(jù)倉庫包含海量數(shù)據(jù)OLAP效勞器要在假設(shè)干秒內(nèi)答復(fù)決策支持查詢至關(guān)重要的是: 數(shù)據(jù)倉庫系統(tǒng)要支持高效的數(shù)據(jù)立方體計算技術(shù)、存取方法和查詢處理技術(shù) 多維數(shù)據(jù)分析的核心是有效地計算多個維集合上的聚集 按SQL的術(shù)語, 這些聚集稱為分組每個分組可以用一個方體表示, 其中分組的集合形成定義數(shù)據(jù)立方體的方體的格 compute cube操作compute cube在操作指定的維的所有子集上計算聚集 對于n個維, compute cube需要計算2n個方體comp

40、ute cube操作首先由Gray等提出并研究 GCB+97 9/20/202264compute cube操作與維災(zāi)難 不同的查詢可能需要訪問不同的方體預(yù)計算所有的或者至少一局部方體帶來快速的響應(yīng)時間, 并防止一些冗余計算 預(yù)計算的主要挑戰(zhàn)如果數(shù)據(jù)立方體中所有的方體都預(yù)先計算, 所需的存儲空間可能爆炸-維災(zāi)難 (curse of dimensionality) 不考慮概念分層, n維數(shù)據(jù)立方體的方體總數(shù)為2n 考慮概念分層, n維數(shù)據(jù)立方體的方體總數(shù)為其中, Li是維i 的層次數(shù) 例: 如果數(shù)據(jù)立方體有10維, 每維5層 (包括all), 那么可能產(chǎn)生的方體總數(shù)將是510 9.8106 9/

41、20/202265局部物化:方體的選擇計算方體物化的三種選擇 不物化 (No materialization): 不預(yù)計算任何“非根本方體答復(fù)查詢時計算昂貴的多維聚集, 可能非常慢 完全物化 (full materialization): 預(yù)計算所有方體這種選擇需要海量存儲空間來存放所有預(yù)計算的方體, 可能面臨維災(zāi)難 局部物化 (partial materialization)有選擇地計算整個可能的方體集中一個適當(dāng)?shù)淖蛹嬎銛?shù)據(jù)立方體的一個子集, 它只包含滿足指定條件 (如每個單元的元組計數(shù)大于某個閾值) 的那些單元-子立方體局部物化是存儲空間和響應(yīng)時間二者之間的很好折衷 9/20/20226

42、6局部物化(續(xù))局部物化應(yīng)考慮三個因素 確定要物化的方體子集或子立方體 在查詢處理時利用物化的方體或子立方體 在裝入和刷新時, 有效地更新物化的方體或子立方體應(yīng)當(dāng)使用并行機制和增量更新技術(shù) 確定要物化的方體子集或子立方體物化這樣的方體集, 其它經(jīng)常引用的方體是基于它們的 物化冰山立方體冰山立方體 (iceberg cube)是一個數(shù)據(jù)立方體,它只存放其聚集值 (如count) 大于某個最小支持度閾值的立方體單元 物化一個外殼立方體 (shell cube) 9/20/202267 索引OLAP數(shù)據(jù):位圖索引位圖索引位圖的列對應(yīng)于屬性的不同值屬性域包含n個值, 那么位圖索引中每項需要n個二進位

43、每一列稱作一個位向量, 對應(yīng)屬性值v位圖的行對應(yīng)于不同的記錄如果數(shù)據(jù)表中給定行的屬性值為v, 那么在位圖索引的對應(yīng)行, 表示該值的二進位為1, 該行的其它位均為0 位圖索引的優(yōu)點缺點:對于基數(shù)較小的域它特別有用, 因為比較、連接和聚集操作都變成了位算術(shù)運算, 大大減少了處理時間由于字符串可以用單個二進位表示, 位圖索引顯著降低了空間和I/O開銷 不太適合基數(shù)較高的域 (可以采用壓縮技術(shù))9/20/202268例:位圖索引假定數(shù)據(jù)存放在100,000行的關(guān)系表中. 維item在頂層有4個值, 代表商品類型: home entertainment (H), computer (C), phone

44、(P)和security (S) item的位圖索引需要4個位向量, 每個100,000個二進位 示意圖9/20/202269索引OLAP 數(shù)據(jù): 連接索引連接索引登記來自關(guān)系數(shù)據(jù)庫的兩個關(guān)系的可連接行例如,如果兩個關(guān)系R(RID, A)和S(B, SID)在屬性A和B上連接, 那么連接索引記錄包含 (RID, SID) 對, 其中RID和SID分別為來自關(guān)系R和S 的記錄標(biāo)識符 連接索引記錄識別可連接的元組 對于維護來自可連接的關(guān)系的外部關(guān)鍵字和與之匹配的主關(guān)鍵字的聯(lián)系, 連接索引特別有用數(shù)據(jù)倉庫中, 事實表的外碼是維表的主碼 連接索引可以跨越多維, 形成復(fù)合連接索引 例: 事實表sales

45、與維表location和item之間的連接索引聯(lián)系 9/20/202270連接索引(續(xù))示意圖維表location的值“Main Street與事實表sales中的元組T57, T238和T884連接 維表item的值“Sony-TV與事實表sales的元組T57和T459連接 9/20/202271連接索引(續(xù))連接索引表9/20/202272OLAP查詢的有效處理 給定物化的視圖, 查詢處理應(yīng)按如下步驟進行: 確定哪些操作應(yīng)當(dāng)在可利用的方體上執(zhí)行 將查詢中的選擇、投影、上卷 (分組) 和下鉆操作轉(zhuǎn)換成對應(yīng)的SQL和/或OLAP操作 例如, 數(shù)據(jù)立方體上的切片和切塊可能對應(yīng)于物化方體上的選擇

46、和/或投影操作 確定相關(guān)操作應(yīng)當(dāng)使用哪些物化的方體找出可能用于答復(fù)查詢的所有物化方體使用方體之間的“支配聯(lián)系知識, 剪去上集合評估使用剩余物化方體的代價, 并選擇代價最低的方體 9/20/202273OLAP查詢的有效處理(續(xù))例: 假定AllElectronics的數(shù)據(jù)立方體為“sales_cube time, item, location: sum(sales_in_dollars)維層次time: day month quarter yearitem是: item_name brand typelocation: street city province country 假設(shè)所處理的查詢

47、在brand, province上, 選擇常量為“year = 2004 假設(shè)有四個物化的方體可用 方體1:year, item_name, city 方體2:year, brand, country 方體3:year, brand, province 方體4:item_name, province, 其中 year = 2004 9/20/202274OLAP查詢的有效處理(續(xù))例(續(xù))選擇可用方體方體2不能用: 較細(xì)粒度的數(shù)據(jù)不能由較粗粒度的數(shù)據(jù)產(chǎn)生選擇代價最小的方體使用方體1代價最高 item_name和city都分別在比查詢中給出的brand和province更低的概念層. 如果沒有許

48、多year值與item相關(guān)聯(lián), 而對于每個brand值有許多item_name值, 那么方體3將比方體4小一些應(yīng)中選擇方體3來處理查詢 如果方體4有有效的索引可用, 方體4可能是較好的選擇 9/20/202275OLAP查詢的有效處理(續(xù))MOLAP效勞器的存儲模型是n維數(shù)組, 前端的多維查詢直接映射到提供直接尋址能力的效勞器存儲結(jié)構(gòu) 當(dāng)數(shù)據(jù)稀疏時, 存儲利用率很差 應(yīng)當(dāng)采用稀疏矩陣和數(shù)據(jù)壓縮技術(shù) MOLAP查詢處理最好采用二級方法對于稠密數(shù)組使用數(shù)組結(jié)構(gòu)對于稀疏數(shù)組使用稀疏矩陣結(jié)構(gòu)處理MOLAP查詢首先需要確定一、二維稠密數(shù)組然后對這些數(shù)組使用傳統(tǒng)的索引結(jié)構(gòu)建立索引兩級方法提高了存儲的利用率, 而不犧牲直接尋址能力 9/20/202276OLAP查詢的有效處理(續(xù))其他策略 聯(lián)機聚集 (on-line aggregation) 數(shù)據(jù)挖掘系統(tǒng)顯示“迄今它知道什么, 而不是等待查詢完全處理結(jié)束 促進了與系統(tǒng)交互用戶可以洞察她是否沿著“正確的方向探查, 而不必等到查詢結(jié)束最高 N查詢 (top N query) 返回最高的N項, 而不是整個排序的列表. 例如, 求“銷售最好的商品 導(dǎo)致較快的響應(yīng)時間, 有助于用戶交互性和減少資源浪費 9/20/202277從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘 9/20/202278數(shù)據(jù)倉庫的使用通常,數(shù)據(jù)倉庫使用時間越長,它進化得越好 數(shù)據(jù)倉庫應(yīng)用的三種類型信息處理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論