




已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
精品文檔 1歡迎下載 1 1 BIBI Business Intelligence 即商業(yè)智能 商務(wù)智能綜合企業(yè)所有沉淀下來(lái)的信息 用科 學(xué)的分析方法 為企業(yè)領(lǐng)導(dǎo)提供科學(xué)決策信息的過(guò)程 BOSSBOSS業(yè)務(wù)運(yùn)營(yíng)支撐系 BPMBPM企業(yè)績(jī)效管理 BPRBPR業(yè)務(wù)流程重整 CRMCRM客戶關(guān)系管理 CUBECUBE立方體 DMDM DatamartDatamart 數(shù)據(jù)集市 數(shù)據(jù)倉(cāng)庫(kù)的子集 它含有較少的主題域且歷史時(shí)間更短數(shù)據(jù)量更 少 一般只能為某個(gè)局部范圍內(nèi)的管理人員服務(wù) 因此也稱之為部門(mén)級(jí)數(shù)據(jù)倉(cāng)庫(kù) DMDM DataMineDataMine 數(shù)據(jù)挖掘 DSSDSS決策支持系統(tǒng) EDMEDM企業(yè)數(shù)據(jù)模型 3 3 ERPERP Enterprise Resourse Planning企業(yè)資源規(guī)劃 它是一個(gè)以管理會(huì)計(jì)為核心的信息系統(tǒng) 識(shí)別和規(guī)劃企業(yè)資源 從而獲取客戶訂單 完成加工和交付 最后得到客戶付款 換言 之 ERP將企業(yè)內(nèi)部所有資源整合在一起 對(duì)八個(gè)采購(gòu) 生產(chǎn) 成本 庫(kù)存 分銷(xiāo) 運(yùn)輸 財(cái)務(wù) 人力資源進(jìn)行規(guī)劃 從而達(dá)到最佳資源組合 取得最佳效益 4 ETLETL 數(shù)據(jù)抽取 Extract 轉(zhuǎn)換 Transform 清洗 Cleansing 裝載 Load 的過(guò) 程 構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán) 用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù) 經(jīng)過(guò)數(shù)據(jù)清洗 最終 按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型 將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去 KDDKDD數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn) 5 5 KPIKPI 企業(yè)關(guān)鍵業(yè)績(jī)指標(biāo) KPI KeyProcessIndication 是通過(guò)對(duì)組織內(nèi)部流程的輸入端 輸出 端的關(guān)鍵參數(shù)進(jìn)行設(shè)置 取樣 計(jì)算 分析 衡量流程績(jī)效的一種目標(biāo)式量化管理指標(biāo) 是把企業(yè)的戰(zhàn)略目標(biāo)分解為可操作的工作目標(biāo)的工具 是企業(yè)績(jī)效管理的基礎(chǔ) LDMLDM邏輯數(shù)據(jù)模型 6 MDDMDD 多維數(shù)據(jù)庫(kù) Multi Dimesional Database MDD 可以簡(jiǎn)單地理解為 將數(shù)據(jù)存放在一 個(gè)n維數(shù)組中 而不是像關(guān)系數(shù)據(jù)庫(kù)那樣以記錄的形式存放 因此它存在大量稀疏矩陣 人們可以通過(guò)多維視圖來(lái)觀察數(shù)據(jù) 多維數(shù)據(jù)庫(kù)增加了一個(gè)時(shí)間維 與關(guān)系數(shù)據(jù)庫(kù)相比 它的優(yōu)勢(shì)在于可以提高數(shù)據(jù)處理速度 加快反應(yīng)時(shí)間 提高查詢效率 MetadataMetadata 元數(shù)據(jù) 它是 關(guān)于數(shù)據(jù)的數(shù)據(jù) 其內(nèi)容主要包括數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)字典 數(shù)據(jù) 的定義 數(shù)據(jù)的抽取規(guī)則 數(shù)據(jù)的轉(zhuǎn)換規(guī)則 數(shù)據(jù)加載頻率等信息 MOLAPMOLAP自行建立了多維數(shù)據(jù)庫(kù) 來(lái)存放聯(lián)機(jī)分析系統(tǒng)數(shù)據(jù) 7 ODSODS 四個(gè)特點(diǎn) 四個(gè)特點(diǎn) Oprational Data Store 操作型數(shù)據(jù)存儲(chǔ) 是建立在數(shù)據(jù)準(zhǔn)備區(qū)和數(shù)據(jù)倉(cāng)庫(kù)之間的一個(gè)部 件 用來(lái)滿足企業(yè)集成的 綜合的操作型處理需要 操作數(shù)據(jù)存儲(chǔ)是個(gè)可選的部件 對(duì)于 一些準(zhǔn)實(shí)時(shí)的業(yè)務(wù)數(shù)據(jù)庫(kù)當(dāng)中的數(shù)據(jù)的暫時(shí)存儲(chǔ) 支持一些同時(shí)關(guān)連到歷史數(shù)據(jù)與實(shí)時(shí)數(shù) 精品文檔 2歡迎下載 據(jù)分析的數(shù)據(jù)暫時(shí)存儲(chǔ)區(qū)域 8 什么是數(shù)據(jù)集市DM 數(shù)據(jù)集市可以看作是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集 它含有較少的主題域且歷史時(shí)間更短數(shù)據(jù)量更 少 一般只能為某個(gè)局部范圍內(nèi)的管理人員服務(wù) 因此也稱之為部門(mén)級(jí)數(shù)據(jù)倉(cāng)庫(kù) 二二 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù) DWDW Datawarehouse 數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)集合或過(guò)程 4要素面向主題 集成 時(shí)間相關(guān) 反映歷 史變化 穩(wěn)定 不可修改的數(shù)據(jù)集合 數(shù)據(jù)倉(cāng)庫(kù)是在企業(yè)管理和決策中面向主題的 集成的 與時(shí)間相關(guān)的 不可修改的數(shù)據(jù)集 合 與其他數(shù)據(jù)庫(kù)應(yīng)用不同的是 數(shù)據(jù)倉(cāng)庫(kù)更像一種過(guò)程 對(duì)分布在企業(yè)內(nèi)部各處的業(yè)務(wù) 數(shù)據(jù)的整合 加工和分析的過(guò)程 特點(diǎn)傳統(tǒng)操作型數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù) 面向主題菜市場(chǎng) 按功能來(lái)分類(lèi) 每一個(gè)模塊就如一個(gè)小攤位 蘿卜 青菜都有 超市 按類(lèi)型分類(lèi) 如都為利潤(rùn)的分為一個(gè)事實(shí)表 事實(shí)表和維表的分類(lèi) 集成的與特定的應(yīng)用相關(guān) 數(shù)據(jù)庫(kù)之間獨(dú) 立的 有聯(lián)系 ETL的過(guò)程已經(jīng)是將多個(gè)數(shù)據(jù) 庫(kù)聯(lián)系統(tǒng)一 去除之間的不一致性 相對(duì)穩(wěn)定通常實(shí)時(shí)更新 數(shù)據(jù)根據(jù)需要及時(shí) 發(fā)生變化 供企業(yè)決策分析之用 數(shù)據(jù)操作主要 是數(shù)據(jù)查詢 一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù) 倉(cāng)庫(kù)以后 一般情況下將被長(zhǎng)期保留 也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢 操作 但修改和刪除操作很少 通常 定期的加載 刷新 反映歷史變 化 主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù) 據(jù) 包含歷史信息 系統(tǒng)記錄了企業(yè)從過(guò) 去某一時(shí)點(diǎn) 精品文檔 3歡迎下載 下圖是一個(gè)典型的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng) 通常包含數(shù)據(jù)源 數(shù)據(jù)存儲(chǔ)與管理 數(shù)據(jù)的訪問(wèn)三 個(gè)部分 最為重要的一張圖最為重要的一張圖 這張圖可以看出四個(gè)特點(diǎn)中 面向?qū)ο?集成 數(shù)據(jù)源 是指企業(yè)操作型數(shù)據(jù)庫(kù)中的各種生產(chǎn)運(yùn)營(yíng)數(shù)據(jù) 即OLIP 數(shù)據(jù)的存儲(chǔ)與管理 數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)主要由元數(shù)據(jù)的存儲(chǔ)及數(shù)據(jù)的存儲(chǔ)兩部分組 成 元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù) 其內(nèi)容主要包括數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)字典 數(shù)據(jù)的定義 數(shù) 據(jù)的抽取規(guī)則 數(shù)據(jù)的轉(zhuǎn)換規(guī)則 數(shù)據(jù)加載頻率等信息 各操作數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照元 數(shù)據(jù)庫(kù)中定義的規(guī)則 經(jīng)過(guò)抽取 清理 轉(zhuǎn)換 集成 按照主題重新組織 依照相應(yīng)的 存儲(chǔ)結(jié)構(gòu)進(jìn)行存儲(chǔ) 數(shù)據(jù)的訪問(wèn) 由OLAPOLAP 聯(lián)機(jī)分析處理 數(shù)據(jù)挖掘 統(tǒng)計(jì)報(bào)表 即席查詢等幾部分組 成 例如OLAP 針對(duì)特定的分析主題 設(shè)計(jì)多種可能的觀察形式 設(shè)計(jì)相應(yīng)的分析主題 結(jié)構(gòu) 即進(jìn)行事實(shí)表和維表的設(shè)計(jì) 使管理決策人員在多維數(shù)據(jù)模型的基礎(chǔ)上進(jìn)行快 速 穩(wěn)定和交互性的訪問(wèn) 并進(jìn)行各種復(fù)雜的分析和預(yù)測(cè)工作 按照存儲(chǔ)方式來(lái)分 OLAP可以分成MOLAP以及ROLAP等方式 MOLAPMOLAP Multi Dimension OLAP 將OLAP分析所需的數(shù)據(jù)存放在多維數(shù)據(jù)庫(kù)中 分析主題的 數(shù)據(jù)可以形成一個(gè)或多個(gè)多維立方體 ROLAPROLAP Relational OLAP 將OLAP分析所需的數(shù)據(jù)存放在關(guān)系型數(shù)據(jù)庫(kù)中 分析主題的數(shù)據(jù) 以 事實(shí)表 維表 的星型模式組織 精品文檔 4歡迎下載 三 企業(yè)信息工廠企業(yè)信息工廠 企業(yè)信息工廠企業(yè)信息工廠 Corporate Information Factory 簡(jiǎn)稱EIFEIF 是一種構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu) 企業(yè)信息工廠企業(yè)信息工廠主要包括五個(gè)集成轉(zhuǎn)換層集成轉(zhuǎn)換層 I T 操作數(shù)據(jù)存儲(chǔ) ODSODS 企業(yè)級(jí)數(shù)據(jù)倉(cāng) 庫(kù) EDWEDW 數(shù)據(jù)集市 DMDM 探索倉(cāng)庫(kù) EWEW 等部件 這些部件有機(jī)的結(jié)合在一起 為企業(yè)提供信息服務(wù) 企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)是企業(yè)信息工廠的核心部件 用來(lái)保存整個(gè)企業(yè)的數(shù)據(jù) 一般 也 稱數(shù)據(jù)倉(cāng)庫(kù) 是用來(lái)滿足企業(yè)戰(zhàn)略決策的需要 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)自數(shù)據(jù)準(zhǔn)備區(qū)和操作 數(shù)據(jù)存儲(chǔ) 數(shù)據(jù)集市 的數(shù)據(jù)來(lái)源是數(shù)據(jù)倉(cāng)庫(kù) 企業(yè)信息工廠中的數(shù)據(jù)集市一般來(lái)說(shuō)是非規(guī)范化的 定制的和 匯總的 而多維體系架構(gòu)中的數(shù)據(jù)集市分為兩種 分別是原子數(shù)據(jù)集市和聚集數(shù)據(jù)集市 一般來(lái)說(shuō) 企業(yè)信息工廠中的數(shù)據(jù)集市相當(dāng)于多維體系架構(gòu)中的聚集數(shù)據(jù)集市 企業(yè)信息工廠中的數(shù)據(jù)流向一般是從源系統(tǒng)到數(shù)據(jù)準(zhǔn)備區(qū)到操作數(shù)據(jù)存儲(chǔ)到數(shù)據(jù) 倉(cāng)庫(kù)到數(shù)據(jù)集市 精品文檔 5歡迎下載 維維DimensionDimension 維 是人們觀察數(shù)據(jù)的特定角度 是考慮問(wèn)題時(shí)的一類(lèi)屬性 屬性集合構(gòu)成一個(gè)維 商店 時(shí)間和產(chǎn)品都是維 各個(gè)商店的集合是一個(gè)維 時(shí)間的集合是一個(gè)維 商品的集合也是一 個(gè)維 代理關(guān)鍵字 維代理關(guān)鍵字 維IDID 代理關(guān)鍵字一般是指維度表中使用順序 序列 分配的整數(shù)值作為主鍵 也稱為 代理鍵 代理關(guān)鍵字用于維度表和事實(shí)表的連接 使用代理關(guān)鍵字可以用來(lái)處理緩慢變化維緩慢變化維 維度表數(shù)據(jù)的歷史變化信息的保存是 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的實(shí)施中非常重要的一部分 Kimball的緩慢變化維處理策略的核心就是 使用代理關(guān)鍵字 優(yōu)點(diǎn) 1緩沖 2性能 3建不存在的維度記錄 4緩慢變化維處理 緩慢變化維緩慢變化維 能力的體現(xiàn) 能力的體現(xiàn) 隨著時(shí)間的流失發(fā)生緩慢的變化 處理緩慢變化維的方法通常有三種方式 第一種方式是直接覆蓋原值 這樣處理 最容易實(shí)現(xiàn) 但是沒(méi)有保留歷史數(shù)據(jù) 無(wú) 法分析歷史變化信息 第一種方式通常簡(jiǎn)稱為 TYPE 1 第二種方式是添加維度行 這樣處理 需要代理鍵的支持 實(shí)現(xiàn)方式是當(dāng)有維度屬 性發(fā)生變化時(shí) 生成一條新的維度記錄 主鍵是新分配的代理鍵 通過(guò)自然鍵可以和原 維度記錄保持關(guān)聯(lián) 第二種方式通常簡(jiǎn)稱為 TYPE 2 第三種方式是添加屬性列 這種處理的實(shí)現(xiàn)方式是對(duì)于需要分析歷史信息的屬性添 加一列 來(lái)記錄該屬性變化前的值 而本屬性字段使用TYPE 1來(lái)直接覆蓋 這種方式 的優(yōu)點(diǎn)是可以同時(shí)分析當(dāng)前及前一次變化的屬性值 缺點(diǎn)是只保留了最后一次變化信 息 第三種方式通常簡(jiǎn)稱為 TYPE 3 退化維度退化維度 事實(shí)表中的部分ID如訂單號(hào) 但他沒(méi)有對(duì)應(yīng)的維度表 這編號(hào)稱為退化維 微型維度微型維度 為了解決快變超大維度 解決的方法是 將分析頻率比較高或者變化 頻率比較大的字段提取出來(lái) 建立一個(gè)單獨(dú)的維度表 這個(gè)單獨(dú)的維度表就是微型維度 表 多維體系結(jié)構(gòu)多維體系結(jié)構(gòu) MD 中的三個(gè)關(guān)鍵性概念 一致性維度一致性維度 總線架構(gòu)總線架構(gòu) Bus Architecture 和一致性事實(shí)一致性事實(shí) Conformed Fact 一致性維度一致性維度 解決數(shù)據(jù)倉(cāng)庫(kù)的集成問(wèn)題 在多維體系結(jié)構(gòu)中 沒(méi)有物理上的數(shù)據(jù)倉(cāng)庫(kù) 由物理上的數(shù)據(jù)集市組合成邏輯上的 數(shù)據(jù)倉(cāng)庫(kù) 而且數(shù)據(jù)集市的建立是可以逐步完成的 最終組合在一起 成為一個(gè)數(shù)據(jù)倉(cāng) 庫(kù) 如果分步建立數(shù)據(jù)集市的過(guò)程出現(xiàn)了問(wèn)題 數(shù)據(jù)集市就會(huì)變成孤立的集市 不能組 合成數(shù)據(jù)倉(cāng)庫(kù) 而一致性維度的提出正式為了解決這個(gè)問(wèn)題 精品文檔 6歡迎下載 一致性維度的范圍是總線架構(gòu)中的維 一致性維度建立的地點(diǎn)是多維體系結(jié)構(gòu)的后臺(tái) Back Room 即數(shù)據(jù)準(zhǔn)備區(qū)數(shù)據(jù)準(zhǔn)備區(qū) 在同一個(gè)集市內(nèi) 一致性維度的意思是兩個(gè)維度如果有關(guān)系在同一個(gè)集市內(nèi) 一致性維度的意思是兩個(gè)維度如果有關(guān)系 事實(shí)表事實(shí)表 主要有三種事實(shí)表 分別是事務(wù)粒度事實(shí)表 Transaction Grain Fact Table 周期快照粒度事實(shí)表 Periodic Snapshot Grain Fact Table 和累積快照粒度事實(shí)表 Accumulating Snapshot Grain Fact Table 從用途 的不同來(lái)說(shuō) 事實(shí)表可以分為三類(lèi) 分別是原子事實(shí)表 聚集事實(shí)表和合并事實(shí)表 粒度分類(lèi) 事務(wù)事實(shí)表事務(wù)事實(shí)表 Transaction fact table 記錄的事務(wù)層面的事實(shí) 保存的是最原子的數(shù) 據(jù) 也稱 原子事實(shí)表 周期快照事實(shí)表周期快照事實(shí)表 Periodic snapshot fact table 以具有規(guī)律性的 可預(yù)見(jiàn)的時(shí)間間 隔來(lái)記錄事實(shí) 時(shí)間間隔如每天 每月 每年等等 用途分類(lèi) 聚集事實(shí)表聚集事實(shí)表 Aggregated Fact Table 是原子事實(shí)表上的匯總數(shù)據(jù) 也稱為匯總事 實(shí)表如只有月度維 求和 平均值等 合并事實(shí)表合并事實(shí)表 建立一個(gè)事實(shí)表 它的維度是兩個(gè)或多個(gè)事實(shí)表的相同維度的集合 聚集事實(shí)表和合并事實(shí)表的主要差別是合并事實(shí)表一般是從多個(gè)事實(shí)表合并而來(lái) 但是它們的差別不是絕對(duì)的 一個(gè)事實(shí)表既是聚集事實(shí)表又是合并事實(shí)表是很有可能 的 因?yàn)橐话愫喜⑹聦?shí)表需要按相同的維度合并 所以很可能在做合并的同時(shí)需要進(jìn)行 聚集 即粒度變粗 非重點(diǎn)非重點(diǎn) 預(yù)連接聚集表 pre joined aggregagte table 是通過(guò)對(duì)事實(shí)表和維度表的聯(lián)合查詢 而生成的一類(lèi)匯總表 在預(yù)連接聚集表中 保存有維度表中的描述信息和事實(shí)表的事實(shí) 值 切片事實(shí)表 切片事實(shí)表的結(jié)構(gòu)與相對(duì)應(yīng)的基礎(chǔ)表相同 數(shù)據(jù)來(lái)源于相對(duì)應(yīng)的基礎(chǔ)表 切片事實(shí) 表由于縮小了表中數(shù)據(jù)的記錄數(shù) 所以查詢的效率得到了很大的提高 蜈蚣事實(shí)表 是指那些一張事實(shí)表中有太多維度的事實(shí)表 事實(shí)表相關(guān)的維度在15個(gè)以下為正常 如果 維度個(gè)數(shù)超過(guò)25個(gè) 就出現(xiàn) 了維度過(guò)多的蜈蚣事實(shí)表 一致性事實(shí)一致性事實(shí) 一致性事實(shí)和一致性維度有些不同 一致性維度是由專(zhuān)人維護(hù)在后臺(tái) Back Room 發(fā)生修改時(shí)同步復(fù)制到每個(gè)數(shù)據(jù)集市 而事實(shí)表一般不會(huì)在多個(gè)數(shù)據(jù)集市間復(fù)制 需要 查詢多個(gè)數(shù)據(jù)集市中的事實(shí)時(shí) 一般通過(guò)交叉探查 drill across 來(lái)實(shí)現(xiàn) 精品文檔 7歡迎下載 1 51 5 數(shù)據(jù)集市 即席查詢即席查詢 即席查詢的位置通常是在關(guān)系型的數(shù)據(jù)倉(cāng)庫(kù)中 操作數(shù)據(jù)存儲(chǔ) ODS 是面向主題的 集成的 可變的 反映當(dāng)前數(shù)據(jù)值的和詳細(xì)的數(shù)據(jù)的集合 用來(lái)滿足企 業(yè)綜合的 集成的以及操作型的處理需求 個(gè)人不建議ODS保存相當(dāng)長(zhǎng)周期的數(shù)據(jù) 同樣 ODS中的數(shù)據(jù)也盡量不做轉(zhuǎn)換 而是原封不動(dòng)地與業(yè)務(wù)數(shù)據(jù)庫(kù)保持一致 即ODS只是 業(yè)務(wù)數(shù)據(jù)庫(kù)的一個(gè)備份或者映像 目的是為了使數(shù)據(jù)倉(cāng)庫(kù)的處理和決策支持要求與 OLTP系統(tǒng)相隔離 減少?zèng)Q策支持要求對(duì)OLTP系統(tǒng)的影響 ODSODS的的四個(gè)四個(gè)作用作用 在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)之間形成一個(gè)隔離層 分擔(dān)轉(zhuǎn)移一部分業(yè)務(wù)系統(tǒng)細(xì)節(jié)查詢的功能 完成數(shù)據(jù)倉(cāng)庫(kù)中不能完成的一些功能 ODS是細(xì)節(jié) 數(shù)據(jù)倉(cāng)庫(kù)是匯總 元數(shù)據(jù)元數(shù)據(jù) 隨著數(shù)據(jù)倉(cāng)庫(kù) DW 技術(shù)的不斷成熟 企業(yè)的數(shù)據(jù)逐漸變成了決策的主要依據(jù) 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從許多業(yè)務(wù)處理系統(tǒng)中抽取 轉(zhuǎn)換而來(lái) 對(duì)于這樣一個(gè)復(fù)雜的企業(yè) 數(shù)據(jù)環(huán)境 如何以安全 高效的方式來(lái)對(duì)它們進(jìn)行管理和訪問(wèn)就變得尤為重要 解決這 一問(wèn)題的關(guān)鍵就是建立數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù) 精品文檔 8歡迎下載 ETLETL 重點(diǎn) 重點(diǎn) ETL BI 1 3 ETL BI 1 3 BI BI的成敗的成敗 T ETL 2 3T ETL 2 3 soso T Bi 2 9 1 4T Bi 2 9 1 4 ETL是BI項(xiàng)目重要的一個(gè)環(huán)節(jié) 通常情況下 在BI項(xiàng)目中ETL會(huì)花掉整個(gè)項(xiàng)目的1 3的時(shí)間 ETL設(shè)計(jì)的好壞直接關(guān)接到BI項(xiàng)目的成敗 ETL三個(gè)部分中 花費(fèi)時(shí)間最長(zhǎng)的是 T Transform 清洗 轉(zhuǎn)換 的部分 一般情況 下這部分工作量是整個(gè)ETL的2 3 就是整個(gè)項(xiàng)目的 差不多四分之一 ETL的實(shí)現(xiàn)有多種方法 常用的有三種 一種是借助ETL工具實(shí)現(xiàn) 一種是SQL方 式實(shí)現(xiàn) 另外一種是ETL工具和SQL相結(jié)合 數(shù)據(jù)抽取數(shù)據(jù)抽取 三種情況 1在DW數(shù)據(jù)庫(kù)服務(wù)器和原業(yè)務(wù)系統(tǒng)之間建立直接的鏈接關(guān)系就可以寫(xiě)select語(yǔ)句直接訪問(wèn) 2不同的數(shù)據(jù)源解決方法 ODBC的方式建立數(shù)據(jù)庫(kù)鏈接或方法三 3 txt xml利用數(shù)據(jù)庫(kù)工具將這些數(shù)據(jù)導(dǎo)入到指定的數(shù)據(jù)庫(kù) 然后從指定的數(shù)據(jù)庫(kù)中抽取 4增量更新的問(wèn)題 數(shù)據(jù)清洗數(shù)據(jù)清洗 1不完整的數(shù)據(jù) 2錯(cuò)誤的數(shù)據(jù) 3重復(fù)的數(shù)據(jù) 數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換 1不一致數(shù)據(jù)轉(zhuǎn)換 抽取過(guò)來(lái)之后統(tǒng)一轉(zhuǎn)換成一個(gè)編碼 2數(shù)據(jù)粒度的轉(zhuǎn)換 業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉(cāng)庫(kù)粒度進(jìn)行聚合 3商務(wù)規(guī)則的計(jì)算 ETL中將這些數(shù)據(jù)指標(biāo)計(jì)算好了之后存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中 以供分析使用 數(shù)據(jù)加載數(shù)據(jù)加載策略 1時(shí)間戳方式 2日志表方式 3全表比對(duì)方式upset 4全表刪除插入方式 精品文檔 9歡迎下載 OLAPOLAP On Line Transaction Processing 聯(lián)聯(lián)機(jī)機(jī)事事務(wù)務(wù)處處理理 系系統(tǒng)統(tǒng) O OL LT TP P 也稱為面向交易的處理系統(tǒng) 其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計(jì)算中 心進(jìn)行處理 并在很短的時(shí)間內(nèi)給出處理結(jié)果 這樣做的最大優(yōu)點(diǎn)是可以即時(shí)地處理輸 入的數(shù)據(jù) 及時(shí)地回答 也稱為 實(shí)實(shí)時(shí)時(shí)系系統(tǒng)統(tǒng) Real time System OLAPOLAP 聯(lián)機(jī)分析處理系統(tǒng) 聯(lián)機(jī)分析處理系統(tǒng) 多維數(shù)據(jù)分析工具的集合 聯(lián)機(jī)分析處理是使分析人員 管理人員或執(zhí)行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出 來(lái)的 能夠真正為用戶所理解的 并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速 一致 交互地 存取 從而獲得對(duì)數(shù)據(jù)的更深入 了解的一類(lèi)軟件技術(shù) 鉆取鉆取 Drill 它是改變維的層次 變換分析的粒度 鉆取包含向下鉆取 Drill down 和向上鉆取 Drill up 上卷 Roll up 操作 roll up是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概 括到高層次的匯總數(shù)據(jù) 或者減少維數(shù) 而drill down則相反 它從匯總數(shù)據(jù)深入到細(xì) 節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維 OLAPOLAP的實(shí)現(xiàn)方法的實(shí)現(xiàn)方法 根據(jù)存儲(chǔ)數(shù)據(jù)的方式不同可以分為ROLAPROLAP MOLAPMOLAP HOLAPHOLAP 表示基于關(guān)系數(shù)據(jù)庫(kù)的OLAP實(shí)現(xiàn) ROLAPROLAP 事實(shí)表維度表的設(shè)計(jì) 事實(shí)表維度表的設(shè)計(jì) 將多維數(shù)據(jù)庫(kù)的多維結(jié)構(gòu)劃分為兩類(lèi)表 一類(lèi)是事實(shí)表 用來(lái)存儲(chǔ)數(shù)據(jù)和維關(guān)鍵字 另一 類(lèi)是維表 即對(duì)每個(gè)維至少使用一個(gè)表來(lái)存放維的層次 成員類(lèi)別等維的描述信息 維表 精品文檔 10歡迎下載 和事實(shí)表通過(guò)主關(guān)鍵字和外關(guān)鍵字聯(lián)系在一起 形成了 星型模型 對(duì)于層次復(fù)雜的維 為避免冗余數(shù)據(jù)占用過(guò)大的存儲(chǔ)空間 可以使用多個(gè)表來(lái)描述 這種星型模型的擴(kuò)展稱為 雪花模型 MOLAPMOLAP 表示基于多維數(shù)據(jù)組織的OLAP實(shí)現(xiàn) Multidimensional OLAP 以多維數(shù)據(jù)組織方式為核 心 也就是說(shuō) MOLAP使用多維數(shù)組存儲(chǔ)數(shù)據(jù) 多維數(shù)據(jù)在存儲(chǔ)中將形成 立方塊立方塊 Cube 的結(jié)構(gòu) 在MOLAP中對(duì)立方塊的 旋轉(zhuǎn)旋轉(zhuǎn) 切塊切塊 切片切片 是產(chǎn)生多維數(shù)據(jù)報(bào)表的主要 技術(shù) 旋轉(zhuǎn)旋轉(zhuǎn) 行列轉(zhuǎn)換行列轉(zhuǎn)換一條記錄中的多個(gè)事實(shí)字段轉(zhuǎn)化為多條記錄 切塊切塊 切片切片的字段結(jié)構(gòu)和相應(yīng)的基礎(chǔ)表完全相同 差別在于存儲(chǔ)的記錄的范圍 切片事實(shí)表中保 存記錄的是相應(yīng)基礎(chǔ)表中記錄的子集 記錄數(shù)通常與某個(gè)維度記錄數(shù)相同 OLAP 存儲(chǔ)方式優(yōu)缺點(diǎn) 一 多維存儲(chǔ)方式 MOLAP MOLAP 在服務(wù)器上對(duì)數(shù)據(jù)立方體數(shù)組及其管理技術(shù)的實(shí)現(xiàn) 可以所有的信息查詢 都從 MOLAP 服務(wù)器上獲得 優(yōu)勢(shì) 性能好 響應(yīng)速度快 支持高性能的決策支持計(jì)算 復(fù)雜的跨維計(jì)算 多用戶的讀寫(xiě)操作 缺點(diǎn) 占用的存儲(chǔ)空間較大 難以達(dá)到 TB 級(jí)數(shù)據(jù)量 需要進(jìn)行預(yù)計(jì)算 可能導(dǎo)致數(shù)據(jù)爆炸 無(wú)法支持維的動(dòng)態(tài)變化 缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問(wèn)的標(biāo)準(zhǔn) 二 關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)方式 ROLAP ROLAP 充分利用關(guān)系數(shù)據(jù)庫(kù)技術(shù)將明細(xì)數(shù)據(jù)和聚合數(shù)據(jù)存儲(chǔ)在一個(gè)關(guān)系型結(jié)構(gòu)中 的存儲(chǔ)方式 優(yōu)勢(shì) 沒(méi)有大小限制 現(xiàn)有的關(guān)系數(shù)據(jù)庫(kù)的技術(shù)可以沿用 可以通過(guò) SQL 實(shí)現(xiàn)詳細(xì)數(shù)據(jù)與概要數(shù)據(jù)的儲(chǔ)存 現(xiàn)有關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)對(duì) OLAP 做了很多優(yōu)化 包括并行存儲(chǔ) 并行 查詢 位圖索引 SQl 的 OLAP 擴(kuò)展等大大提高了 ROALP 的速度 查詢性能較不如 MOLAP 方式 占用的存儲(chǔ)空間較少 缺點(diǎn) 一般比 MDD 響應(yīng)速度慢 SQL 無(wú)法完成部分計(jì)算 主要是無(wú)法完成多行的計(jì)算 無(wú)法完成維之 間的計(jì)算 精品文檔 11歡迎下載 三 混合存儲(chǔ)方式 HOLAP 將聚合存儲(chǔ)到分析服務(wù)器計(jì)算機(jī)上的多維結(jié)構(gòu)中 并將分區(qū)的源數(shù)據(jù)保留在它現(xiàn) 有的關(guān)系型結(jié)構(gòu)中的存儲(chǔ)方式 特點(diǎn) 查詢性能介于以上兩種方式之間 占用的存儲(chǔ)空間介于以
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度紅木家具定制與古建筑修復(fù)合同
- 長(zhǎng)春2025年度貨運(yùn)合同糾紛律師調(diào)解服務(wù)協(xié)議
- 2025年度租賃合同解除函及房屋租賃市場(chǎng)調(diào)研報(bào)告
- 產(chǎn)品入庫(kù)管理表格(零售業(yè)特定)
- 汽車(chē)維修技術(shù)故障診斷與排除試卷及答案解析
- 租賃平臺(tái)房東與租客權(quán)益保障協(xié)議
- 農(nóng)村環(huán)境保護(hù)與生態(tài)恢復(fù)項(xiàng)目合作合同書(shū)
- 鄉(xiāng)村新型產(chǎn)業(yè)開(kāi)發(fā)項(xiàng)目協(xié)議
- 史記中的人物故事深度解讀
- 鋪貨擔(dān)保合同合作協(xié)議
- 2025年黑龍江生態(tài)工程職業(yè)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)及答案一套
- 2025年哈爾濱幼兒師范高等專(zhuān)科學(xué)校單招職業(yè)技能測(cè)試題庫(kù)完整
- 做最勇敢的自己
- 小學(xué)數(shù)學(xué)中巧用信息技術(shù)創(chuàng)造情境教學(xué)
- 安徽省歷年中考語(yǔ)文現(xiàn)代文閱讀之非連續(xù)性文本閱讀6篇(截至2024年)
- GB/T 23694-2024風(fēng)險(xiǎn)管理術(shù)語(yǔ)
- 公司員工生日會(huì)活動(dòng)復(fù)盤(pán)
- 2025年北京青年政治學(xué)院高職單招高職單招英語(yǔ)2016-2024年參考題庫(kù)含答案解析
- 永輝超市存貨管理問(wèn)題及優(yōu)化建議9700字
- 大模型落地應(yīng)用實(shí)踐方案
- 2024糖尿病酮癥酸中毒診斷和治療課件
評(píng)論
0/150
提交評(píng)論