已閱讀5頁(yè),還剩87頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)倉(cāng)庫(kù)實(shí)踐系列課程 第一課昨夜西風(fēng)凋碧樹(shù) 獨(dú)上高樓 望盡天涯路 王國(guó)維在 人間詞話 說(shuō) 古今之成大事業(yè) 大學(xué)問(wèn)者 必經(jīng)過(guò)三種之境界 昨夜西風(fēng)凋碧樹(shù) 獨(dú)上高樓 望盡天涯路 此第一境也 衣帶漸寬終不悔 為伊消得人憔悴 此第二境也 眾里尋他千百度 驀然回首 那人卻在 燈火闌珊處 此第三境也 王國(guó)維認(rèn)為治學(xué)第一境界 昨夜西風(fēng)凋碧樹(shù) 獨(dú)上高樓 望盡天涯路 這詞句出晏殊的 蝶戀花 原意是說(shuō) 我 上高樓眺望所見(jiàn)的更為蕭颯的秋景 西風(fēng)黃葉 山闊水長(zhǎng) 案書(shū)何達(dá) 在王國(guó)維此句中解成 做學(xué)問(wèn)成大事業(yè)者 首先要有執(zhí)著的追求 登高望遠(yuǎn) 瞰察路徑 明確目標(biāo)與方向 了解事物的概貌 王的治學(xué)第二境界是說(shuō) 衣帶漸寬終不悔 為伊消得人憔悴 這引用的是北宋柳永 蝶戀花 最后兩句詞 原詞是表現(xiàn)作者對(duì)愛(ài)的艱辛和愛(ài)的無(wú)悔 若把 伊 字理解為詞人所追求的理想和畢生從事的事業(yè) 亦無(wú)不可 王國(guó)維以此兩句來(lái)比喻成大事業(yè) 大學(xué)問(wèn)者 不是輕而易舉 隨便可得的 必須堅(jiān)定不移 經(jīng)過(guò)一番辛勤勞動(dòng) 廢寢忘食 孜孜以求 直至人瘦帶寬也不后悔 王的治學(xué)第三境界是說(shuō) 眾里尋他千百度 驀然回首 那人卻在 燈火闌珊處 是引用南宋辛棄疾 青玉案 詞中的最后四句 王國(guó)維以此詞最后的四句為 境界 之第三 即最終最高境界 要達(dá)到第三境界 必須有專注的精神 反復(fù)追尋 研究 下足功夫 自然會(huì)豁然貫通 課程安排 一 總學(xué)時(shí) 15學(xué)時(shí) 其中12學(xué)時(shí)理論 3學(xué)時(shí)聯(lián)系 課后作業(yè)估計(jì)有5學(xué)時(shí) 二 考核方法 平時(shí)考勤 30分理論答題 30分隨堂練習(xí) 20分課后作業(yè) 20分 三 教材 數(shù)據(jù)倉(cāng)庫(kù)生命周期工具箱 kimball等著 清華大學(xué)出版社 數(shù)據(jù)倉(cāng)庫(kù)工具箱 維度建模權(quán)威指南 kimball等著 清華大學(xué)出版社 四 教學(xué)方法講師講解課程 布置家庭作業(yè) 利用網(wǎng)絡(luò)資源完成講師制定任務(wù) 隨堂作業(yè) 現(xiàn)場(chǎng)完成作業(yè)結(jié)業(yè)考試 檢查教學(xué)成果綜合練習(xí) 提升學(xué)習(xí)成果 目 2 3 4 5 6 數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)解決方案 數(shù)據(jù)倉(cāng)庫(kù)幾種常見(jiàn)架構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)類項(xiàng)目中人員配置 個(gè)人職業(yè)發(fā)展規(guī)劃建議 匯聚數(shù)據(jù)財(cái)富挖掘潛力無(wú)限 錄 初識(shí)數(shù)據(jù)倉(cāng)庫(kù) 基本概念 1 Kimball生命周期導(dǎo)圖 小明的大學(xué)生活 你們認(rèn)識(shí)小明嗎 小明 男 南京人 父母在職 數(shù)學(xué)系五班 大二 輔導(dǎo)員李華 小明 喜歡吃混沌 口味便辣 每周必有三次吃拉面 每半月吃3一次魚(yú) 幾乎每個(gè)2天吃一次肉類食物 體重75KG 身高170 偏胖 需要改善食物結(jié)構(gòu) 小明 每周二 四 六 日 22點(diǎn)后回校 在外承接的家教任務(wù) 家境條件困難 申請(qǐng)貧困獎(jiǎng)學(xué)金 小明 學(xué)習(xí)成績(jī)良 離散數(shù)學(xué)成績(jī)不好 統(tǒng)籌學(xué)成績(jī)最佳 有3們課程優(yōu)秀 1門課程掛科 體育成績(jī)一般 小明 身體健康狀況正常 頸椎僵硬 小明 多在晚上7點(diǎn)30分進(jìn)入圖書(shū)館自習(xí) 雖然是數(shù)學(xué)系 但喜歡歷史和物理 本學(xué)期借閱歷史書(shū)籍32次 物理數(shù)據(jù)28次 小明 積極參加課外活動(dòng) 涉及足球 演講比賽 圍棋 曾獲得班級(jí)級(jí)別獎(jiǎng)勵(lì)5次 其一等獎(jiǎng)1次 二等獎(jiǎng)2層i 院系級(jí)獎(jiǎng)勵(lì)1次 小明參加工作5年后的求職簡(jiǎn)歷 知識(shí)導(dǎo)引 什么是數(shù)據(jù)倉(cāng)庫(kù) 什么是DSS 什么是經(jīng)營(yíng)分析 什么是EIS 什么是OLTP OLAP 什么是BI BO COGNOS 安訊 BRIO Teradata SAS SPSS 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng) BI 90年代提出 90年代中形成潮流 BI描述了一系列的概念和方法 通過(guò)應(yīng)用基于事實(shí)的支持系統(tǒng)來(lái)輔助商業(yè)決策的制定 GartnerGroup1996商業(yè)智能領(lǐng)域 DSS OLAP 數(shù)據(jù)倉(cāng)庫(kù) ETL 數(shù)據(jù)集市 數(shù)據(jù)挖掘 商業(yè)建模 為提高企業(yè)運(yùn)營(yíng)性能而采用的一系列方法 技術(shù)和軟件的總和 70年代 70年代提出 80年代得到發(fā)展 數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)生背景 需求的變化業(yè)務(wù)系統(tǒng)的建設(shè)逐漸完善分析類需求不斷增加不斷增加的信息孤島導(dǎo)致數(shù)據(jù)集成問(wèn)題不斷增加技術(shù)發(fā)展?fàn)顩r關(guān)系數(shù)據(jù)庫(kù)技術(shù)日趨成熟報(bào)表和復(fù)雜查詢處理起來(lái)非常困難各個(gè)系統(tǒng)之間數(shù)據(jù)不一 OLTP系統(tǒng) 生產(chǎn)系統(tǒng) 面向應(yīng)用事務(wù)驅(qū)動(dòng)的實(shí)時(shí)性高數(shù)據(jù)檢索量相對(duì)少只存當(dāng)前數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng) 決策系統(tǒng) 面向主題分析和決策實(shí)時(shí)性要求不是特別高數(shù)據(jù)檢索量大存儲(chǔ)大量的歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)為用戶提供多樣的功能需求 數(shù)據(jù)倉(cāng)庫(kù)理論的形成 數(shù)據(jù)倉(cāng)庫(kù)的定義 數(shù)據(jù)倉(cāng)庫(kù) DataWarehouse 是一個(gè)面向主題的 SubjectOriented 集成的 Integrated 相對(duì)穩(wěn)定的 Non Volatile 反映歷史變化 TimeVariant 的數(shù)據(jù)集合 用于支持管理決策 DecisionMakingSupport BillInmon 什么是數(shù)據(jù)倉(cāng)庫(kù) 相關(guān)概念 以DataWarehouse技術(shù)為基礎(chǔ) 以O(shè)LAP和DataMining工具為手段實(shí)施的一套解決方案 DSS DecisionSupportSystem 相關(guān)概念 EIS 主管信息系統(tǒng) ExecutiveInformationSystem 指為了滿足無(wú)法專注于計(jì)算機(jī)技術(shù)的領(lǐng)導(dǎo)人員的信息查詢需求 而特意制定的以簡(jiǎn)單的圖形界面訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)的一種應(yīng)用 ETL 數(shù)據(jù)抽取 Extract 轉(zhuǎn)換 Transform 裝載 Load 的過(guò)程 它是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要環(huán)節(jié) DataMart為了特定的應(yīng)用目的或應(yīng)用范圍 而從數(shù)據(jù)倉(cāng)庫(kù)中獨(dú)立出來(lái)的一部分?jǐn)?shù)據(jù) 也可稱為部門數(shù)據(jù)或主題數(shù) subjectarea 經(jīng)營(yíng)分析系統(tǒng) BusinessAnalysisSupportSystem 元數(shù)據(jù) 元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù) 可將其按用途的不同分為技術(shù)元數(shù)據(jù) 業(yè)務(wù)元數(shù)據(jù)和管理元數(shù)據(jù) 數(shù)據(jù)質(zhì)量 數(shù)據(jù)質(zhì)量管理平臺(tái)能夠使得數(shù)據(jù)質(zhì)量管理流程自動(dòng)化 集中化 智能化ROLAP 關(guān)系型在線分析處理 MOLAP 多維在線分析處理 HOLAP 混合型線上分析處理 數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn) 分布式 數(shù)據(jù)集市 集中式 數(shù)據(jù)倉(cāng)庫(kù) 垂直 水平 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市的業(yè)務(wù)分析能力 DW DM的流派之爭(zhēng) BillInmon與RalphKimball 雙方的觀點(diǎn) 圍繞主題來(lái)組織數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù) 每個(gè)主題區(qū)域僅僅包含該主題相關(guān)的信息 數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該一次增加一個(gè)主題 并且當(dāng)需要容易地訪問(wèn)多個(gè)主題時(shí) 創(chuàng)建以數(shù)據(jù)倉(cāng)庫(kù)為來(lái)源的數(shù)據(jù)集市 數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)集市的聯(lián)合 通過(guò)一系列相同維度定義的數(shù)據(jù)集市遞增地構(gòu)建數(shù)據(jù)倉(cāng)庫(kù) 而每個(gè)數(shù)據(jù)集市通過(guò)聯(lián)合多個(gè)數(shù)據(jù)源來(lái)滿足特定的業(yè)務(wù)需求 自上而下 自下而上和自上而下的結(jié)合 雙方的觀點(diǎn) 使用數(shù)據(jù)集市聯(lián)合的方式 開(kāi)始會(huì)帶來(lái)極高的用戶體驗(yàn) 但隨著數(shù)據(jù)集市的增多 會(huì)形成網(wǎng)狀結(jié)構(gòu) 建設(shè)重復(fù) 數(shù)據(jù)質(zhì)量變差 使用數(shù)據(jù)總線的結(jié)構(gòu)來(lái)控制數(shù)據(jù)集市點(diǎn)建設(shè) 所有的數(shù)據(jù)集市在一套總線環(huán)境中 有相同的維度定義 故既可以迅速部署 滿足業(yè)務(wù)需求 也可以規(guī)范的形成數(shù)據(jù)倉(cāng)庫(kù) Inmon Kimball 維度 對(duì)數(shù)據(jù)進(jìn)行分類的一種結(jié)構(gòu) 用于從特定的角度觀察數(shù)據(jù) 例如 時(shí)間 地區(qū) 產(chǎn)品 維度的兩個(gè)用途選擇針對(duì)期望詳細(xì)程度的層次的數(shù)據(jù) 分組對(duì)細(xì)節(jié)數(shù)據(jù)綜合 聚集 到相應(yīng)的詳細(xì)程度的數(shù)據(jù)層次 維的組織方式 維層次路徑 HIERARCHY 維層次路徑由代表不同詳細(xì)程度的維層次 Level 組成 維的層次 特定角度的不同細(xì)節(jié)程度 基本概念 維度 度量 指標(biāo) 數(shù)據(jù)的實(shí)際意義 一般是一個(gè)數(shù)值度量指標(biāo)例如 銷售量 銷售額 一個(gè)度量的兩個(gè)組件數(shù)字型指標(biāo)聚集函數(shù) CUBE 一個(gè)多維模型構(gòu)成的多維數(shù)據(jù)空間我們將其稱做數(shù)據(jù)立方體 Cube 其邏輯上相當(dāng)于一個(gè)多維數(shù)組 基本概念 度量 cube 這個(gè)方格代表在某個(gè)時(shí)間 某個(gè)地區(qū)通過(guò)某個(gè)銷售渠道所銷售的產(chǎn)品的銷售額 基本概念 多維數(shù)據(jù)模型 多維模型通常用Cube來(lái)表示 多維模型可以更加直觀的表示現(xiàn)實(shí)中的復(fù)雜關(guān)系多維模型的基本組成 維 度量 舉例 計(jì)算每一個(gè)商場(chǎng) 每個(gè)產(chǎn)品的銷售額維 Dimension 維層次路徑 維層次 維成員 維實(shí)例 維層次屬性度量 Measure 數(shù)據(jù)立方體 Cube 切片Slice 基本概念 多維分析基本動(dòng)作 切片 切塊 切塊Dice 旋轉(zhuǎn)Rotate 基本概念 多維分析基本動(dòng)作 旋轉(zhuǎn) 鉆取 鉆取Rollup Drilldown 基本概念 多維數(shù)據(jù)模型的實(shí)現(xiàn)技術(shù) RelationalOLAP ROLAP 利用關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)和管理基本數(shù)據(jù)和聚合數(shù)據(jù) 并利用一些中間件來(lái)支持缺失數(shù)據(jù)的處理具有良好的可擴(kuò)展性MultidimensionalOLAP MOLAP 利用多維數(shù)據(jù)庫(kù)來(lái)存放和管理基本數(shù)據(jù)和聚合數(shù)據(jù) 其中需要對(duì)稀疏矩陣處理技術(shù)對(duì)預(yù)綜合的數(shù)據(jù)進(jìn)行快速索引HybridOLAP HOLAP 利用關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)和管理基本數(shù)據(jù) 利用多維數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)和管理聚合數(shù)據(jù) 基本概念 OLTP與OLAP 針對(duì)特定問(wèn)題的聯(lián)機(jī)數(shù)據(jù)訪問(wèn)和數(shù)據(jù)分析技術(shù)滿足對(duì)數(shù)據(jù)進(jìn)行多角度 快速 一致 交互 深入觀察使用預(yù)定義的多維數(shù)據(jù)視圖對(duì)數(shù)據(jù)進(jìn)行分析處理 支持對(duì)數(shù)據(jù)的切片 切塊 鉆取 多維數(shù)據(jù)庫(kù)是一種以多維數(shù)據(jù)存儲(chǔ)形式來(lái)組織數(shù)據(jù)的數(shù)據(jù)管理系統(tǒng) 在使用時(shí)需要將數(shù)據(jù)從關(guān)系數(shù)據(jù)庫(kù)中轉(zhuǎn)載到多維數(shù)據(jù)庫(kù)中方可訪問(wèn) 也稱為面向交易的處理系統(tǒng) 其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計(jì)算中心進(jìn)行處理 并在很短的時(shí)間內(nèi)給出處理結(jié)果 這樣做的最大優(yōu)點(diǎn)是可以即時(shí)地處理輸入的數(shù)據(jù) 及時(shí)地回答 也稱為實(shí)時(shí)系統(tǒng) RealtimeSystem 衡量聯(lián)機(jī)事務(wù)處理系統(tǒng)的一個(gè)重要性能指標(biāo)是系統(tǒng)性能 具體體現(xiàn)為實(shí)時(shí)響應(yīng)時(shí)間 ResponseTime 即用戶在終端上送入數(shù)據(jù)之后 到計(jì)算機(jī)對(duì)這個(gè)請(qǐng)求給出答復(fù)所需要的時(shí)間 OLTP數(shù)據(jù)庫(kù)旨在使事務(wù)應(yīng)用程序僅寫(xiě)入所需的數(shù)據(jù) 以便盡快處理單個(gè)事務(wù) On LineAnalyticalProcessing On LineTransactionProcessing MOLAP表示基于多維數(shù)據(jù)組織的OLAP實(shí)現(xiàn) MultidimensionalOLAP ROLAP表示基于關(guān)系數(shù)據(jù)庫(kù)的OLAP實(shí)現(xiàn) RelationalOLAP ROLAPvsMOLAP 基本概念 星型模式 StarSchema 星形模式是一種多維的數(shù)據(jù)關(guān)系 它由一個(gè)事實(shí)表 FactTable 和一組維表 DimensionTable 組成 每個(gè)維表都有一個(gè)維作為主鍵 所有這些維的主鍵組合成事實(shí)表的主鍵 事實(shí)表的非主鍵屬性稱為事實(shí) Fact 它們一般都是數(shù)值或其他可以進(jìn)行計(jì)算的數(shù)據(jù) 而維大都是文字 時(shí)間等類型的數(shù)據(jù) 按這種方式組織好數(shù)據(jù)我們就可以按照不同的維 事實(shí)表主鍵的部分或全部 來(lái)對(duì)這些事實(shí)數(shù)據(jù)進(jìn)行求和 summary 求平均 average 計(jì)數(shù) count 百分比 percent 的聚集計(jì)算 甚至可以做20 80分析 這樣就可以從不同的角度數(shù)字來(lái)分析業(yè)務(wù)主題的情況 基本概念 雪花模式 SnowFlakeSchema 雪花模型 當(dāng)有一個(gè)或多個(gè)維表沒(méi)有直接連接到事實(shí)表上 而是通過(guò)其他維表連接到事實(shí)表上時(shí) 其圖解就像多個(gè)雪花連接在一起 故稱雪花模型 雪花模型是對(duì)星型模型的擴(kuò)展 它對(duì)星型模型的維表進(jìn)一步層次化 原有的各維表可能被擴(kuò)展為小的事實(shí)表 形成一些局部的 層次 區(qū)域 這些被分解的表都連接到主維度表而不是事實(shí)表 相比星型模型 雪花模型的特點(diǎn)是貼近業(yè)務(wù) 數(shù)據(jù)冗余較少 但由于表連接的增加 導(dǎo)致了效率相對(duì)星星模型來(lái)的要低一些 基本概念 事實(shí)星座形 事實(shí)星座形 一種常見(jiàn)的數(shù)據(jù)倉(cāng)庫(kù)的概念模型 這種模型往往應(yīng)用于數(shù)據(jù)關(guān)系比星型模型和雪花模型更復(fù)雜的場(chǎng)合 事實(shí)星座模型需要多個(gè)事實(shí)表共享維度表 因而可以視為星形模型的集合 故亦被稱為星系模型 基本概念 數(shù)據(jù)架構(gòu) 數(shù)據(jù)架構(gòu)包含內(nèi)容有 1 數(shù)據(jù)流架構(gòu) 設(shè)計(jì)數(shù)據(jù)流層次及每個(gè)層次間的關(guān)系2 數(shù)據(jù)管理架構(gòu) 需要依據(jù)數(shù)據(jù)使用頻率和價(jià)值考慮歷史存儲(chǔ)方式 存儲(chǔ)粒度 數(shù)據(jù)集市的粒度與事實(shí)表的冗余 3 業(yè)務(wù)數(shù)據(jù)架構(gòu) 設(shè)計(jì)模型時(shí) 需要考慮表的拆分與合并 字段的派生與去冗 關(guān)注業(yè)務(wù)過(guò)程 4 數(shù)據(jù)安全架構(gòu) 一般安全管理分為操作系統(tǒng)級(jí) 數(shù)據(jù)庫(kù)級(jí) Schema級(jí) 表 視圖級(jí) 數(shù)據(jù)級(jí) 行數(shù)據(jù) 以及BI界面控制級(jí)別 CUBE控制等多個(gè)層次 這里主要說(shuō)的是數(shù)據(jù)行級(jí) 基本概念 元數(shù)據(jù) 基本概念 元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù) 其內(nèi)容主要包括數(shù)據(jù)的格式 結(jié)構(gòu) 約束 加工過(guò)程 部署情況等 元數(shù)據(jù)管理包括元數(shù)據(jù)采集與關(guān)聯(lián) 元數(shù)據(jù)信息維護(hù) 標(biāo)準(zhǔn)代碼及術(shù)語(yǔ)信息維護(hù)等內(nèi)容 對(duì)元數(shù)據(jù)的分析包括血緣分析 影響分析等 元數(shù)據(jù) 業(yè)務(wù)元數(shù)據(jù) 業(yè)務(wù)屬性 業(yè)務(wù)實(shí)體 數(shù)據(jù)質(zhì)量業(yè)務(wù)規(guī)則 技術(shù)元數(shù)據(jù) 列 字段 表 視圖 文件 數(shù)據(jù)庫(kù) 文件服務(wù)器 數(shù)據(jù)質(zhì)量控制規(guī)則 數(shù)據(jù)映射邏輯 業(yè)務(wù)指標(biāo) 企業(yè)級(jí)數(shù)據(jù)模型 數(shù)據(jù)規(guī)范定義 數(shù)據(jù)質(zhì)量 貸款余額的定義 貸款合同的定義 還款日期 貸款日期 CAPMCURBAL CAPM db2 sybase oracle Len 身份證 15或18 ETL過(guò)程 不良貸款率的口徑 指標(biāo)體系 報(bào)表體系 數(shù)據(jù)質(zhì)量 包含子項(xiàng) 示例 關(guān)聯(lián)工作 數(shù)據(jù)架構(gòu) DataWarehouse ArtificialIntelligence DataMart OLAP DecisionSupportSystem DataMining OperationDatabase BusinessIntelligentSystem DatabaseSystem 各種概念之間的關(guān)系 作業(yè)一 搜集右圖中涉及的概念含義 提交 數(shù)據(jù)倉(cāng)庫(kù)相關(guān)重要術(shù)語(yǔ)定義 作業(yè)二 企業(yè)什么樣要建立數(shù)據(jù)倉(cāng)庫(kù) 提交一頁(yè)紙內(nèi)容進(jìn)行說(shuō)明 目 2 3 4 5 6 數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)解決方案 數(shù)據(jù)倉(cāng)庫(kù)幾種常見(jiàn)架構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)類項(xiàng)目中人員配置 個(gè)人職業(yè)發(fā)展規(guī)劃建議 匯聚數(shù)據(jù)財(cái)富挖掘潛力無(wú)限 錄 初始數(shù)據(jù)倉(cāng)庫(kù) 基本概念 1 Kimball生命周期導(dǎo)圖 數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)建設(shè)過(guò)程 不是一個(gè)產(chǎn)品 是一個(gè)持續(xù)的過(guò)程 35 數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)解決方案 多層結(jié)構(gòu)體現(xiàn)可擴(kuò)展架構(gòu) DataWarehouse OLAP引擎 AnalysisQueryReportsDatamining Monitor Integrator Metadata 數(shù)據(jù)源 前端工具 Serve DataMarts 數(shù)據(jù)存儲(chǔ) OLAPServer 數(shù)據(jù)倉(cāng)庫(kù)解決方案 群雄逐鹿1 數(shù)據(jù)倉(cāng)庫(kù)解決方案 群雄逐鹿2 數(shù)據(jù)倉(cāng)庫(kù)解決方案 群雄逐鹿3 數(shù)據(jù)倉(cāng)庫(kù)解決方案 工欲善其事 必先利其器 商業(yè)工具篇 建模工具 Powerdesigner ErwinETL工具 用于數(shù)據(jù)的集成和處理Datastage Infomatic Automation數(shù)據(jù)質(zhì)量工具 一般集成在ETL工具中分析工具 報(bào)表工具 BO COGNOS 安訊 潤(rùn)乾 BRIOOLAP工具 COGNOS BOBI分析門戶 一般集成在分析工具中數(shù)據(jù)挖掘工具 SAS SPSS元數(shù)據(jù)管理工具 metacenter 石竹 CA Infomatic 數(shù)據(jù)倉(cāng)庫(kù)解決方案 工欲善其事 必先利其器 開(kāi)源工具篇 報(bào)表工具 EclipseBIRTEclipse下面的一個(gè)企業(yè)智能和報(bào)表工具 能為J2EE的WEB應(yīng)用程序創(chuàng)建漂亮醒目的PDF或者HTML格式的報(bào)表 它提供了核心的報(bào)表功能JasperReportsJava報(bào)表工具 始于2001 現(xiàn)在JasperSoft公司持續(xù)開(kāi)發(fā)和支持該工具 該工具類似于商業(yè)軟件CrystalReport 支持PDF HTML XLS CSV和XML文件輸出格式 現(xiàn)在是Java開(kāi)發(fā)者最常用的報(bào)表工具 JFreeReport現(xiàn)在是Pentaho的一部分 它是一個(gè)優(yōu)秀的用來(lái)生成報(bào)表的Java類庫(kù) 它為Java應(yīng)用程序提供一個(gè)靈活的打印功能并支持輸出到打印機(jī)和PDF Excel HTML和XHTML PlainText XML和CSV文件中 Mondrian是Pentaho的一部分 為一個(gè)用Java開(kāi)發(fā)的OLAP服務(wù)器 實(shí)現(xiàn)了MDX語(yǔ)言 XML解析和JOLAP規(guī)范 可以不寫(xiě)SQL就能分析存儲(chǔ)于SQL數(shù)據(jù)庫(kù)的龐大數(shù)據(jù)集 可以封裝JDBC數(shù)據(jù)源并把數(shù)據(jù)以多維的方式展現(xiàn)出來(lái)JPivot一個(gè)JSP自定制的標(biāo)簽庫(kù) 可以繪制一個(gè)OLAP表格和圖表 用戶可以執(zhí)行典型的OLAP導(dǎo)航 如下鉆 切片和方塊 它使用Mondrian作為其OLAP服務(wù)器 它使用WCF WebComponentFramework 基于XML XSLT來(lái)渲染W(wǎng)ebUI組件 KETL由具有IBM和KPMG背景的KineticNetworks公司開(kāi)發(fā) 現(xiàn)在已經(jīng)有三年多的產(chǎn)品應(yīng)用歷史 成功應(yīng)用于一些產(chǎn)品中 在點(diǎn)擊流 ClickStream 分析應(yīng)用中表現(xiàn)出色 KETL采用Plug in的架構(gòu) 使用Java開(kāi)發(fā)KETTLE一個(gè)元數(shù)據(jù)驅(qū)動(dòng)的ETL工具 已經(jīng)加入Pentaho CloverETL一個(gè)基于Java的ETLFramework 可以用來(lái)開(kāi)發(fā)自己的ETL應(yīng)用EnhydraOctopus一個(gè)基于Java的ETL工具 使用JDBC來(lái)連接各種數(shù)據(jù)源 易于使用和部署 數(shù)據(jù)倉(cāng)庫(kù)解決方案 工欲善其事 必先利其器 開(kāi)源工具篇 ETL工具 Pentaho一個(gè)以工作流為核心的 強(qiáng)調(diào)面向解決方案而非工具組件的BI套件 整合了多個(gè)開(kāi)源項(xiàng)目工作流引擎 SharkandJaWE數(shù)據(jù)庫(kù) FirebirdRDBMS集成管理和開(kāi)發(fā)環(huán)境 Eclipse報(bào)表工具 EclipseBIRTETL工具 Enhydra KettleOLAPServer MondrianOLAP展示 JPivot數(shù)據(jù)挖掘組件 Weka應(yīng)用服務(wù)器和Portal服務(wù)器 JBoss單點(diǎn)登陸服務(wù)及LDap認(rèn)證 JOSSO自定義腳本支持 MozillaRhinoJavascript腳本處理器 數(shù)據(jù)倉(cāng)庫(kù)解決方案 工欲善其事 必先利其器 開(kāi)源工具篇 BI工具 SpagoBI集成了Mondrain和JProvit 能夠通過(guò)OpenLaszlo產(chǎn)生實(shí)時(shí)報(bào)表 SpagoBI使用java開(kāi)發(fā) 不依賴于具體的操作系統(tǒng) 有很強(qiáng)的擴(kuò)展能力報(bào)表工具 JasperReports EclipseBIRT iReportOLAPServer MondrianOLAP展示 JPivot數(shù)據(jù)挖掘組件 WekaMap引擎 GeoETL BIE搜索引擎 LuceneDashboard OpenLaszloPortalServer JBoss Tomcat JOnAS 數(shù)據(jù)倉(cāng)庫(kù)解決方案 工欲善其事 必先利其器 開(kāi)源工具篇 BI工具 項(xiàng)目實(shí)施 數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目組織步驟 人員角色 建設(shè)放方案等一系列方法的集合 指導(dǎo)方針 數(shù)據(jù)模型的建模方法 統(tǒng)一的概念模型 邏輯模型 數(shù)據(jù)庫(kù)中對(duì)應(yīng)的組織 物理化 ETL功能組件 前端門戶組件 模版 元數(shù)據(jù)管理 用戶與組織 權(quán)限組織 面向業(yè)務(wù)的分析 面向問(wèn)題的專題 固定報(bào)表 即席查詢分析 KPI 分析 互動(dòng)流程 數(shù)據(jù)的加載 清洗 組織規(guī)劃的過(guò)程 用戶本地的需求整理與實(shí)現(xiàn) 與開(kāi)發(fā)者的經(jīng)驗(yàn) 技能相關(guān) 數(shù)據(jù)倉(cāng)庫(kù)解決方案 工欲善其事 必先利其器 關(guān)注項(xiàng)目實(shí)施過(guò)程 礦工 勘探員 農(nóng)夫 操作員 旅行者 老總 經(jīng)理KPI 儀表盤(pán) 簡(jiǎn)單的綜合信息報(bào)表 營(yíng)銷人員當(dāng)前周期的數(shù)據(jù) 明細(xì)數(shù)據(jù) 直接獲取下載 用來(lái)做業(yè)務(wù) 分析員有一定的分析能力 對(duì)預(yù)定義的報(bào)表 查詢感興趣 偶爾使用靈活的動(dòng)態(tài)報(bào)表組合自己需要的在綜合信息 熟練的分析員精通分析技術(shù) 對(duì)數(shù)據(jù)敏感 除使用固定報(bào)表 查詢外 會(huì)針對(duì)特定的業(yè)務(wù)問(wèn)題 數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行分析 常使用靈活的動(dòng)態(tài)可配置的應(yīng)用 必要時(shí)會(huì)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)直接探索 專業(yè)分析員對(duì)業(yè)務(wù)發(fā)展的趨勢(shì)的假設(shè)作出求證 或者通過(guò)挖掘等技術(shù)找出改善業(yè)務(wù)的途徑 特定用戶進(jìn)行細(xì)分等 一般直接使用數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù)解決方案 工欲善其事 必先利其器 重點(diǎn)關(guān)注業(yè)務(wù)需求 用戶 簡(jiǎn)單圖表展現(xiàn) 固定報(bào)表 動(dòng)態(tài)的可配報(bào)表 圖表互動(dòng)分析 可切片旋轉(zhuǎn)的OLAP KPI指示器 可層級(jí)篩選的明細(xì)查詢 對(duì)以上進(jìn)行組合的復(fù)雜應(yīng)用 帶有分析流程的應(yīng)用 數(shù)據(jù)倉(cāng)庫(kù)解決方案 工欲善其事 必先利其器 重點(diǎn)關(guān)注業(yè)務(wù)需求 需求類型 規(guī)范功能 個(gè)性需求 新需求提出 統(tǒng)一的應(yīng)用框架下管理和開(kāi)發(fā) 數(shù)據(jù)倉(cāng)庫(kù)解決方案 工欲善其事 必先利其器 重點(diǎn)關(guān)注業(yè)務(wù)需求 應(yīng)用框架 作業(yè)三 申請(qǐng)百度文庫(kù)用戶 搜集數(shù)據(jù)倉(cāng)庫(kù)類項(xiàng)目解決方案一個(gè) 提交 解決方案閱讀筆記 要求4 5頁(yè) 參考 閱讀筆記中要求能夠回答如下問(wèn)題 數(shù)據(jù)源有哪些 源系統(tǒng)的數(shù)據(jù)是怎么捕獲加載到數(shù)據(jù)倉(cāng)庫(kù)就中 數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部邏輯層次是如何劃分的 方案解決用戶什么樣的問(wèn)題 用戶群體是哪些 目 2 3 4 5 6 數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)解決方案 數(shù)據(jù)倉(cāng)庫(kù)幾種常見(jiàn)架構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)類項(xiàng)目中人員配置 個(gè)人職業(yè)發(fā)展規(guī)劃建議 匯聚數(shù)據(jù)財(cái)富挖掘潛力無(wú)限 錄 初始數(shù)據(jù)倉(cāng)庫(kù) 基本概念 1 Kimball生命周期導(dǎo)圖 數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域的兩位大師 BillInmon數(shù)據(jù)倉(cāng)庫(kù)之父 數(shù)據(jù)倉(cāng)庫(kù)概念的創(chuàng)始人理論 CorporateInformationFactory CIF 主要著作 數(shù)據(jù)倉(cāng)庫(kù) 企業(yè)信息工廠 主要著作 數(shù)據(jù)倉(cāng)庫(kù)工具箱 維度建模的完全指南 數(shù)據(jù)倉(cāng)庫(kù)生命周期工具箱 設(shè)計(jì) 開(kāi)發(fā)和部署數(shù)據(jù)倉(cāng)庫(kù)的專家方法 RalphKimball數(shù)據(jù)倉(cāng)庫(kù)方面的知名學(xué)者理論 MutildimensionalArchitecture MD BillInmon企業(yè)信息工廠 Kimball企業(yè)數(shù)據(jù)總線 兩種架構(gòu)方案對(duì)比分析 混合架構(gòu)方案 融合 趨勢(shì) 利用EDW 存儲(chǔ)各源系統(tǒng)明細(xì)粒度數(shù)據(jù) 解決源系統(tǒng)變化對(duì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的沖擊 解決代碼標(biāo)準(zhǔn)化的問(wèn)題 利用企業(yè)數(shù)據(jù)總線結(jié)構(gòu) 解決應(yīng)用一致性的問(wèn)題 可以快速見(jiàn)效 實(shí)現(xiàn)投入產(chǎn)出比 敏捷架構(gòu)設(shè)計(jì)方案 企業(yè)數(shù)據(jù)總線 1 基于企業(yè)數(shù)據(jù)總線方案進(jìn)行模型設(shè)計(jì)2 維度模型包含明細(xì)粒度數(shù)據(jù)和匯總數(shù)據(jù)3 維度模型是企業(yè)級(jí) 維度的設(shè)計(jì)圍繞業(yè)務(wù)過(guò)程而不是按照某個(gè)部門進(jìn)行設(shè)計(jì)4 維度模型也是支持?jǐn)U展的5 維度模型設(shè)計(jì)不應(yīng)該僅僅關(guān)注報(bào)表或分析 應(yīng)該以度量過(guò)程為中心6 一致性維度作為集中的 持久的主數(shù)據(jù)建立在ETL系統(tǒng)中7 關(guān)注業(yè)務(wù)度量過(guò)程 而不是僅僅是報(bào)表或分析8 數(shù)據(jù)管理和治理首先應(yīng)該關(guān)注維度數(shù)據(jù)9 維度建模的考慮應(yīng)該早于設(shè)計(jì)星型模型或OLAP多維數(shù)據(jù)庫(kù)10 開(kāi)發(fā)小組與業(yè)務(wù)相關(guān)方的值合作11 以迭代 增量方式處理開(kāi)發(fā)過(guò)程12 避免陷入憑空使用敏捷技術(shù)建立分析或報(bào)表方案的陷進(jìn)中 敏捷架構(gòu)設(shè)計(jì)方案 企業(yè)數(shù)據(jù)總線矩陣示例 數(shù)據(jù)倉(cāng)庫(kù)實(shí)施方法概論 方法論主要描述了項(xiàng)目實(shí)施的步驟 系統(tǒng)建設(shè)的內(nèi)容以及過(guò)程管理中的一系列方法 實(shí)施過(guò)程中的具體內(nèi)容 采用的軟件工程方法 項(xiàng)目管理的內(nèi)容 實(shí)施的目標(biāo)管理 風(fēng)險(xiǎn)管理 重點(diǎn) 螺旋式上升式的建設(shè)模式 對(duì)于應(yīng)用分析建模 數(shù)據(jù)建模乃至整個(gè)系統(tǒng)的建設(shè) 都是適用的 例子 某項(xiàng)目 分析 建設(shè) 培訓(xùn) 使用 反饋 分析 改進(jìn) 國(guó)外常見(jiàn)的項(xiàng)目過(guò)程 ETL工具 展現(xiàn)分析工具 數(shù)據(jù)庫(kù) 元數(shù)據(jù)管理工具 數(shù)據(jù)庫(kù)建模工具 COGNOS BO BRIO ORACLE DB2 SYSBASE CA MetaManager PowerDesigner ERWIN Infomatic DataStage Infomatic 解決方案 方法論 行業(yè)模型 典型分析 項(xiàng)目控制 項(xiàng)目建設(shè) 物理模型 數(shù)據(jù)加載 應(yīng)用開(kāi)發(fā) 上線加載 產(chǎn)品選購(gòu) 方案選擇 項(xiàng)目工作 1 功能組件高度抽象與產(chǎn)品化 ETL 展現(xiàn)分析 建模 元數(shù)據(jù)等 2 項(xiàng)目以解決方案的實(shí)施為主 公司一般具有相關(guān)行業(yè)的通用解決方案 3 建設(shè) 實(shí)施過(guò)程以本地化 個(gè)性化為目的 完成用戶的分析目標(biāo) 技術(shù)方面比重較少 生命周期法的建設(shè)模式 業(yè)務(wù)維度建模的生命周期法 Kimball 業(yè)務(wù)需求定義 技術(shù)軌跡 技術(shù)結(jié)構(gòu)設(shè)計(jì) 產(chǎn)品選擇與安裝數(shù)據(jù)軌跡 維度建模 物理設(shè)計(jì) DataStagingArea設(shè)計(jì)與開(kāi)發(fā)應(yīng)用軌跡 最終用戶應(yīng)用規(guī)范 最終用戶應(yīng)用開(kāi)發(fā)部署維護(hù)與增長(zhǎng) 技術(shù)平臺(tái) 數(shù)據(jù)平臺(tái) 產(chǎn)品平臺(tái) 吉貝克數(shù)據(jù)倉(cāng)庫(kù)實(shí)施方案 目 2 3 4 5 6 數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)解決方案 數(shù)據(jù)倉(cāng)庫(kù)幾種常見(jiàn)架構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)類項(xiàng)目中人員配置 個(gè)人職業(yè)發(fā)展規(guī)劃建議 匯聚數(shù)據(jù)財(cái)富挖掘潛力無(wú)限 錄 初始數(shù)據(jù)倉(cāng)庫(kù) 不是數(shù)據(jù)庫(kù) 1 Kimball生命周期導(dǎo)圖 Kimball生命周期導(dǎo)圖 程序 項(xiàng)目規(guī)劃與管理 評(píng)估準(zhǔn)備 范圍及論證 人員配備 規(guī)劃的開(kāi)發(fā)及維護(hù) 1 強(qiáng)有力的執(zhí)行主管 有相關(guān)經(jīng)驗(yàn) 能夠協(xié)調(diào)內(nèi)部資源 能夠說(shuō)服上層領(lǐng)導(dǎo)支持項(xiàng)目推進(jìn) 2 解決DW BI活動(dòng)的引人注目的動(dòng)機(jī)3 準(zhǔn)備可行性 技術(shù) 資源 數(shù)據(jù)三要素 1 確定項(xiàng)目范圍 對(duì)業(yè)務(wù)有意義 對(duì)IT可管理2 避免太原則 即時(shí)間太短 源系統(tǒng)太多 源系統(tǒng)分布不能太廣 用戶群體太多 3 項(xiàng)目啟動(dòng)利益與成本 關(guān)注后期成本4 業(yè)務(wù)團(tuán)體確定預(yù)期財(cái)務(wù)收益 1 業(yè)務(wù)發(fā)起人 推動(dòng)者 領(lǐng)導(dǎo)者 用戶2 實(shí)施方提供項(xiàng)目經(jīng)理 架構(gòu)師 模型師 業(yè)務(wù)分析師 BI設(shè)計(jì)與開(kāi)發(fā)人員 ETL架構(gòu)師設(shè)與開(kāi)發(fā)人員 數(shù)據(jù)庫(kù)管理員3 實(shí)施方上層領(lǐng)導(dǎo) 銷售人員 協(xié)調(diào)內(nèi)部資源 與外部溝通 1 劃分項(xiàng)目階段 建立里程碑2 項(xiàng)目經(jīng)理組建隊(duì)伍 制定計(jì)劃3 項(xiàng)目經(jīng)理需要非常了解用戶需求 應(yīng)對(duì)項(xiàng)目變化 sayNO 增加范圍與預(yù)算 更換項(xiàng)目?jī)?nèi)容 業(yè)務(wù)需求定義 1 2 3 需求預(yù)規(guī)劃1 選擇討論話題 希望做什么 為什么要做 如何知道決策等2 確定及籌備需求小組 確定懂業(yè)務(wù)的分析師 準(zhǔn)備調(diào)查問(wèn)卷 3 選擇 調(diào)度和準(zhǔn)備業(yè)務(wù)代表 與業(yè)務(wù)人員溝通 與業(yè)務(wù)管理層溝通 關(guān)注戰(zhàn)略方向 不宜過(guò)多關(guān)注戰(zhàn)術(shù) 約談客戶1小時(shí) 1 5小時(shí)為宜 收集業(yè)務(wù)需求1 初啟 主持人點(diǎn)出訪談重點(diǎn) 以業(yè)務(wù)為中心2 訪談流程3 形成最終文檔 提交會(huì)議紀(jì)要 整理收集資料 指導(dǎo)以數(shù)據(jù)為中心的訪談 數(shù)據(jù)探查小組 模型師參與訪談 了解需求可行性 文檔管理 編寫(xiě)需求規(guī)格說(shuō)明書(shū) 需求優(yōu)先級(jí)管理和需求范圍管理 目標(biāo) 明白他們做什么和為什么要做了解訪談?wù)邔?duì)數(shù)據(jù)的數(shù)據(jù)經(jīng)驗(yàn)分析類型 了解業(yè)務(wù)人員對(duì)bi的理解了解潛在的其他需求和管理層的規(guī)劃 業(yè)務(wù)需求定義 關(guān)鍵任務(wù) 用戶訪談 針對(duì)不同的用戶角色 采用不同的訪談方式 提問(wèn)內(nèi)容 技術(shù)架構(gòu)設(shè)計(jì) 46 22 19 數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn) BI架構(gòu)占據(jù)比例雖然沒(méi)有ETL環(huán)節(jié)高 但影響了業(yè)務(wù)人員對(duì)系統(tǒng)的認(rèn)可度 他們關(guān)注需求是否準(zhǔn)確實(shí)現(xiàn) 關(guān)注數(shù)據(jù)模型的設(shè)計(jì)思路 etl加工的便捷性 數(shù)據(jù)是否支持等 ETL環(huán)節(jié)驗(yàn)證占據(jù)比例最高 成功關(guān)鍵環(huán)節(jié) 系統(tǒng)是否好用 是否可管控 影響用戶對(duì)系統(tǒng)的最終評(píng)價(jià) 數(shù)據(jù)管控 及元數(shù)據(jù)與數(shù)據(jù)質(zhì)量 7 6 描繪DW BI環(huán)境的技術(shù)服務(wù)與基礎(chǔ)設(shè)施藍(lán)圖 建立架構(gòu)組 包含ETL BI 甲方技術(shù)負(fù)責(zé)人 架構(gòu)設(shè)計(jì)成果應(yīng)用 收集與架構(gòu)相關(guān)需求架構(gòu)需求文檔化 列出影響架構(gòu)的需求3建立架構(gòu)模型 架構(gòu)需求劃分為主要組件 如ETL BI 元數(shù)據(jù) 數(shù)據(jù)質(zhì)量 數(shù)據(jù)標(biāo)準(zhǔn)等確定架構(gòu)實(shí)現(xiàn)階段 重新審視架構(gòu)需求設(shè)計(jì)并定義子系統(tǒng) 部分需求商業(yè)產(chǎn)品無(wú)法提供 需要構(gòu)建這些產(chǎn)品建立架構(gòu)規(guī)劃 編寫(xiě)架構(gòu)設(shè)計(jì)文檔 初步架構(gòu)設(shè)計(jì) 評(píng)審及確定技術(shù)架構(gòu) 與項(xiàng)目小組內(nèi)部 甲方項(xiàng)目經(jīng)理與技術(shù)負(fù)責(zé)人討論架構(gòu)藍(lán)圖確定架構(gòu)設(shè)計(jì)中待驗(yàn)證的技術(shù)問(wèn)題3準(zhǔn)備驗(yàn)證方案和可接受的驗(yàn)證結(jié)果與標(biāo)準(zhǔn)修訂架構(gòu)設(shè)計(jì)藍(lán)圖再次評(píng)審6評(píng)審?fù)ㄟ^(guò)的架構(gòu)設(shè)計(jì)藍(lán)圖在項(xiàng)目組內(nèi)培訓(xùn) 形成共識(shí) 架構(gòu)設(shè)計(jì)評(píng)審 產(chǎn)品選擇與安裝 3 進(jìn)行市場(chǎng)調(diào)研 2 建立產(chǎn)品評(píng)價(jià)矩陣 4 評(píng)價(jià)選項(xiàng)列表不要太多 5 構(gòu)建原型系統(tǒng) 6 選擇產(chǎn)品 安裝試驗(yàn)及談判 1 了解公司采購(gòu)流程 了解公司內(nèi)部硬件與軟件采購(gòu)流程 了解市場(chǎng)上流行的商業(yè)工具和開(kāi)源工具 羅列核心的重要的評(píng)價(jià)選項(xiàng) 應(yīng)該駕馭評(píng)估過(guò)程 而不是被供應(yīng)商驅(qū)動(dòng) 確定評(píng)價(jià)準(zhǔn)則矩陣及指示重要性的權(quán)衡因素 廠商提供機(jī)器 進(jìn)行POC試驗(yàn) 實(shí)現(xiàn)某個(gè)場(chǎng)景 通知期望的某個(gè)廠商 產(chǎn)品試用 開(kāi)始培訓(xùn) 保留談判的能力 維度建模 確定參與人 特別是業(yè)務(wù)代表 業(yè)務(wù)需求評(píng)審 將需求轉(zhuǎn)為維度模型 支持更廣泛的分析而不是特定報(bào)表利用建模工具 支持將設(shè)計(jì)成果同步到數(shù)據(jù)庫(kù)中 利用數(shù)據(jù)分析工具 編寫(xiě)sql 探查源表結(jié)構(gòu) 字段 關(guān)系 獲取規(guī)則等內(nèi)容利用或建立命名規(guī)則 包含主詞 限定詞 類詞日期與設(shè)施的協(xié)調(diào) 制定計(jì)劃 準(zhǔn)備會(huì)議室或溝通用設(shè)施 如白板 投影儀 統(tǒng)一對(duì)高層氣泡圖的理解 利用氣泡圖 將事實(shí)表和與之關(guān)聯(lián)的維度表之間的關(guān)系清晰的展現(xiàn)給非技術(shù)人員 粒度需要建模小組考慮業(yè)務(wù)需求需要什么以及物理數(shù)據(jù)源能夠提供什么數(shù)據(jù)總線矩陣一行可能對(duì)應(yīng)多個(gè)氣泡圖 每個(gè)氣泡圖對(duì)應(yīng)特定粒度的特定事實(shí)表氣泡圖保證在陷入細(xì)節(jié)前 每個(gè)人能夠具有共同的理解 也有助于與利益相關(guān)方交流時(shí)介紹項(xiàng)目時(shí)使用 確定維度及其屬性 確定事實(shí) 確定緩慢變化維度技術(shù) 建立詳細(xì)的表設(shè)計(jì)文檔 模型問(wèn)題跟蹤 維護(hù)總線矩陣 IT評(píng)審 由IT部門組織同行進(jìn)行評(píng)審 挑戰(zhàn) 不熟悉維度建模 需要提供必要的培訓(xùn) 核心用戶評(píng)審廣泛的業(yè)務(wù)用戶評(píng)審 實(shí)質(zhì)上是教育與培訓(xùn) 啟迪 而不是強(qiáng)迫他們接受 先評(píng)審氣泡圖 在評(píng)審總線矩陣 在到維度 再到事實(shí)表 在到如何應(yīng)用 項(xiàng)目簡(jiǎn)短描述 高級(jí)數(shù)據(jù)模型圖詳細(xì)的針對(duì)每個(gè)事實(shí)和維度表的維度設(shè)計(jì)工作單開(kāi)發(fā)的問(wèn)題 客戶 InsuranceAgency代理機(jī)構(gòu) Geography位置 Demography人口統(tǒng)計(jì)特征 BehaviorScores行為 FinancialScores財(cái)務(wù) Product產(chǎn)品 Psychographics購(gòu)買特征 消費(fèi)行為 SinceDate相關(guān)行為開(kāi)始日期 BeginDate初始日期 EndDate結(jié)束日期 Assets資產(chǎn) Policy保單 PolicyRating相關(guān)費(fèi)率 PolicyLifeCyclestatus保單狀態(tài) ApplicationDate申請(qǐng) PaymentCat支付 InsuredParticipant 保單 MaturityDate到期 滿期日期 DeterminationDate其他重要日期 Currency貨幣 高級(jí)維度模型 氣泡圖 企業(yè)總線矩陣 維度詳細(xì)工單設(shè)計(jì) 維度建模小結(jié) 2 3 4 5 維度建模是一個(gè)迭代的過(guò)程 需要不同技能的人員通力合作 包含業(yè)務(wù)專家 設(shè)計(jì)工作從總線矩陣中抽取的實(shí)體級(jí)別的初始圖形模型開(kāi)始 詳細(xì)建模過(guò)程要深入到定義 資源 關(guān)系 數(shù)據(jù)質(zhì)量問(wèn)題以及每張表的需求轉(zhuǎn)換 確定列和表名的工作始終與設(shè)計(jì)過(guò)程交織開(kāi)展 提供給BI工具的列名必須是業(yè)務(wù)團(tuán)體能夠理解的 最終結(jié)果是維度模型通過(guò)業(yè)務(wù)與數(shù)據(jù)兩方面驗(yàn)證 經(jīng)驗(yàn) 要將甲方的業(yè)務(wù)專家 核心技術(shù)人員納入到建模小組中 切記切記 經(jīng)驗(yàn) 依據(jù)企業(yè)價(jià)值鏈將核心過(guò)程畫(huà)出氣泡圖 經(jīng)驗(yàn) 通過(guò)維度的一致性來(lái)講業(yè)務(wù)過(guò)程串起來(lái) 通過(guò)擴(kuò)展維度或者擴(kuò)展事實(shí)表的方式將多個(gè)源表數(shù)據(jù)納入進(jìn)來(lái) 經(jīng)驗(yàn) 有限級(jí)別 參考核心系統(tǒng)的名稱規(guī)則 參考已有BI系統(tǒng)的命名規(guī)則 參考專業(yè)術(shù)語(yǔ)翻譯規(guī)則 自定義規(guī)則 經(jīng)驗(yàn) 維度的加工規(guī)則整理出來(lái) 數(shù)據(jù)質(zhì)量問(wèn)題和緩慢變化維的問(wèn)題考慮進(jìn)來(lái) 1 物理設(shè)計(jì) 物理設(shè)計(jì)與物理模型的設(shè)計(jì)緊密相關(guān) 表和列名是用戶體驗(yàn)的關(guān)鍵因素 用于數(shù)據(jù)模型和BI應(yīng)用的導(dǎo)航 因此它們對(duì)業(yè)務(wù)來(lái)說(shuō)應(yīng)該是有意義的 空值 異常值處理規(guī)則 增加硬件資源 更多的cpu和內(nèi)存利用聚集表 縮減維度 提高查詢性能獲取用戶的訪問(wèn)模式 通過(guò)評(píng)價(jià)數(shù)據(jù)統(tǒng)計(jì)分布尋找劃算的聚集點(diǎn) 包含塊 文件 磁盤(pán) 分區(qū) 表空間以及數(shù)據(jù)庫(kù)的具體存儲(chǔ)細(xì)節(jié) 索引和聚集表 提供優(yōu)秀的查詢性能 設(shè)計(jì)聚合 包含OLAP數(shù)據(jù)庫(kù) 確定物理存儲(chǔ)細(xì)節(jié) 數(shù)據(jù)庫(kù)規(guī)劃 如數(shù)據(jù)庫(kù)名 表空間 網(wǎng)絡(luò)端口 用戶 索引規(guī)劃 主鍵唯一索引 位圖索引 過(guò)濾和分組 B樹(shù)索引事實(shí)表中日期宜建立位圖索引 主鍵建立B樹(shù)索引或聚集索引 開(kāi)發(fā)命名及數(shù)據(jù)庫(kù)標(biāo)準(zhǔn) 開(kāi)發(fā)數(shù)據(jù)庫(kù)規(guī)劃 BI應(yīng)用規(guī)范 BI應(yīng)用規(guī)范 不是Bi開(kāi)發(fā)規(guī)范 是需求實(shí)現(xiàn)結(jié)果呈現(xiàn)方式的一種描述 在需求明確后著手的一項(xiàng)工作 創(chuàng)建應(yīng)用程序標(biāo)準(zhǔn)和模板 包含報(bào)表名 標(biāo)題 報(bào)表主題 頁(yè)眉頁(yè)腳 報(bào)表文件名 創(chuàng)建儀表板和分析性應(yīng)用程序模板確定初始應(yīng)用程序集 需要將報(bào)表進(jìn)行合并與拆分 確定優(yōu)先級(jí)制定詳細(xì)的應(yīng)用程序規(guī)范 關(guān)注實(shí)體模型 用戶交互 數(shù)據(jù)集 計(jì)算規(guī)則 與其他報(bào)表交互設(shè)計(jì)導(dǎo)航框架和門戶 制定一種策略來(lái)幫助用戶迅速找到他們所需的東西審查以及確認(rèn)應(yīng)用程序和模型 結(jié)合模型設(shè)計(jì)成果和需求對(duì)比 審視如何sql編寫(xiě) olap如何查詢 發(fā)現(xiàn)問(wèn)題與業(yè)務(wù)人士一同審查 BI應(yīng)用規(guī)范 BI應(yīng)用規(guī)范示例 BI應(yīng)用規(guī)范 實(shí)體模型 BI應(yīng)用規(guī)范 應(yīng)用程序詳細(xì)定義 BI應(yīng)用規(guī)范 應(yīng)用導(dǎo)航框架 BI應(yīng)用程序開(kāi)發(fā) 準(zhǔn)備應(yīng)用程序開(kāi)發(fā) 構(gòu)建應(yīng)用程序 應(yīng)用程序和數(shù)據(jù)測(cè)試驗(yàn)證 完成文檔 部署計(jì)劃 BI開(kāi)發(fā)與與ETL開(kāi)發(fā)同步進(jìn)行 優(yōu)先準(zhǔn)備好維度數(shù)據(jù) 部署 測(cè)試環(huán)境 Descriptionofthecontents 生產(chǎn)環(huán)境 程序功能測(cè)試 數(shù)據(jù)集測(cè)試 部署過(guò)程測(cè)試 程序部署 數(shù)據(jù)初始化加載 上線成果驗(yàn)證 Descriptionofthecontents 運(yùn)維與發(fā)展 數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)長(zhǎng)期的過(guò)程 需要不斷的維護(hù)和升級(jí) 系統(tǒng)程序執(zhí)行狀況 日常監(jiān)控 性能調(diào)優(yōu)基礎(chǔ)數(shù)據(jù)維護(hù)日志跟蹤與清理監(jiān)控后臺(tái)資源利用率管理磁盤(pán)空間備份與恢復(fù) 管理磁盤(pán)空間 數(shù)據(jù)庫(kù)空間文件存儲(chǔ)空間應(yīng)用端文件存儲(chǔ)空間BI離線報(bào)表和cube存儲(chǔ)空間 備份與回復(fù) 關(guān)系數(shù)據(jù)庫(kù)配置文件上傳數(shù)據(jù)文件離線數(shù)據(jù)文件日志文件元數(shù)據(jù)資料庫(kù)備份策略有增量備份 全量備份 新增需求 新增需求 體現(xiàn)在基于現(xiàn)有數(shù)據(jù) 新增分析粒度和指標(biāo)新增源系統(tǒng)數(shù)據(jù)入庫(kù) 增加分析應(yīng)用系統(tǒng)對(duì)外供數(shù) 開(kāi)發(fā)接口 需求變更 源系統(tǒng)業(yè)務(wù)規(guī)則變化導(dǎo)致需求變化業(yè)務(wù)用戶提出修訂現(xiàn)有應(yīng)用整合企業(yè)多個(gè)應(yīng)用 數(shù)據(jù)源切換外部接口調(diào)整 應(yīng)用下線 依據(jù)應(yīng)用訪問(wèn)情況統(tǒng)計(jì) 無(wú)人使用或者使用率極低的報(bào)表下線處理 數(shù)據(jù)上傳 計(jì)劃值導(dǎo)入系統(tǒng)外部數(shù)據(jù)文件準(zhǔn)備與導(dǎo)入 系統(tǒng)融合 與多個(gè)應(yīng)用系統(tǒng)進(jìn)行融合 培訓(xùn) 持續(xù)不斷的為DW BI系統(tǒng)提供教育培訓(xùn) 包含入門培訓(xùn) 進(jìn)修課程 高低級(jí)培訓(xùn)鼓勵(lì)思想交流 1 2 3 4 管理前臺(tái) 管理后臺(tái) 新增需求或需求變更 其他 應(yīng)對(duì)避免的常見(jiàn)錯(cuò)誤 10 過(guò)于迷戀技術(shù)和數(shù)據(jù) 而沒(méi)有將重點(diǎn)放在業(yè)務(wù)需求和目標(biāo)上 9 沒(méi)有一個(gè)強(qiáng)有力的項(xiàng)目發(fā)起人 8 將項(xiàng)目處理為持續(xù)性項(xiàng)目 而不是追求更容易管理的 有挑戰(zhàn)性的迭代開(kāi)發(fā)工作 7 過(guò)于耗費(fèi)精力關(guān)注數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)模型 用盡所有預(yù)算 6 過(guò)于關(guān)注后臺(tái)數(shù)據(jù)處理過(guò)程和易于開(kāi)發(fā) 沒(méi)有重點(diǎn)考慮前端查詢性能和易用性 5 展現(xiàn)區(qū)數(shù)據(jù)結(jié)構(gòu)復(fù)雜 花費(fèi)大量時(shí)間支持業(yè)務(wù)用戶 4 維度模型被放入單一基礎(chǔ)之上 不考慮使用可共享的 一致性維度通過(guò)數(shù)據(jù)結(jié)構(gòu)將這些模型聯(lián)系在一起 3 只將匯總數(shù)據(jù)加載到展示區(qū)的維度結(jié)構(gòu)中 2 臆想業(yè)務(wù) 業(yè)務(wù)需求及分析 其涉及的數(shù)據(jù)及支持技術(shù)都是靜態(tài)的 1 忽略數(shù)據(jù)DW BI系統(tǒng)的成功直接來(lái)源于業(yè)務(wù)的認(rèn)可 10 應(yīng)對(duì)關(guān)注業(yè)務(wù)需求和目標(biāo) 技術(shù)是實(shí)現(xiàn)業(yè)務(wù)需求的一種手段而已 9 在立項(xiàng)或者項(xiàng)目啟動(dòng)階段 尋找一個(gè)有影響力 平易近人的高級(jí)管理人員作為項(xiàng)目發(fā)起人 8 需要明確項(xiàng)目可實(shí)現(xiàn)的目標(biāo) 迭代開(kāi)發(fā) 7 經(jīng)常review項(xiàng)目計(jì)劃 數(shù)據(jù)模型建設(shè)規(guī)劃適度為止 關(guān)注項(xiàng)目工期和實(shí)際投入 6 后臺(tái)與前臺(tái)需要均衡考慮 提供一個(gè)較優(yōu)的方案 5 基于需求調(diào)整明確展現(xiàn)區(qū)數(shù)據(jù)結(jié)構(gòu) 部分工作轉(zhuǎn)入后臺(tái)預(yù)處理 4 部分維度信息被納入到事實(shí)表或者維度表的屬性中 應(yīng)用提煉出可共享的 一致性的維度 3 展現(xiàn)區(qū)的數(shù)據(jù)需要保護(hù)較細(xì)粒度的指標(biāo)數(shù)據(jù) 甚至明細(xì)基礎(chǔ)數(shù)據(jù) 一切依據(jù)需求來(lái)設(shè)計(jì)1 如果用戶未將DW BI系統(tǒng)當(dāng)成他們決策的基礎(chǔ) 那么您的工作就是徒勞無(wú)益的 因此需求的實(shí)現(xiàn)程度 易用性及其關(guān)鍵 需要在實(shí)施過(guò)程中重點(diǎn)關(guān)注 目 2 3 4 5 6 數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)解決方案 數(shù)據(jù)倉(cāng)庫(kù)幾種常見(jiàn)架構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)類項(xiàng)目中人員配置 個(gè)人職業(yè)發(fā)展規(guī)劃建議 匯聚數(shù)據(jù)財(cái)富挖掘潛力無(wú)限
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 全國(guó)青島版信息技術(shù)八年級(jí)下冊(cè)專題青春歲月紀(jì)念冊(cè)第7課二、《設(shè)置視頻的標(biāo)牌框架》說(shuō)課稿
- 2025年排球單元教學(xué)計(jì)劃
- 2025年新學(xué)期小學(xué)體衛(wèi)藝工作計(jì)劃例文
- 2025教師教學(xué)工作計(jì)劃
- 全國(guó)閩教版初中信息技術(shù)八年級(jí)上冊(cè)第一單元《綜合活動(dòng)1 展評(píng)平面設(shè)計(jì)作品》說(shuō)課稿
- 2025年春季小班班主任工作計(jì)劃范文
- 2025愚人節(jié)活動(dòng)計(jì)劃書(shū)
- 2025年財(cái)務(wù)部四月份工作計(jì)劃
- 2025年新任工程師工作計(jì)劃范文
- 不同環(huán)境中的動(dòng)物(說(shuō)課稿)-2023-2024學(xué)年科學(xué)四年級(jí)下冊(cè)人教鄂教版
- 水利水電工程安全管理制度例文(三篇)
- 2025年超星爾雅學(xué)習(xí)通《勞動(dòng)通論》章節(jié)測(cè)試題庫(kù)及參考答案(培優(yōu))
- 2024預(yù)防流感課件完整版
- 新疆烏魯木齊市(2024年-2025年小學(xué)六年級(jí)語(yǔ)文)統(tǒng)編版質(zhì)量測(cè)試(上學(xué)期)試卷及答案
- 人教版2024-2025學(xué)年第一學(xué)期八年級(jí)物理期末綜合復(fù)習(xí)練習(xí)卷(含答案)
- 特殊教育多媒體教室方案
- 獸醫(yī)學(xué)英語(yǔ)詞匯【參考】
- 行政個(gè)人年終述職報(bào)告
- 《發(fā)電廠電氣部分》考試題庫(kù)
- 建筑施工安全生產(chǎn)包保責(zé)任實(shí)施方案
- 《上帝擲骰子嗎:量子物理史話》導(dǎo)讀學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
評(píng)論
0/150
提交評(píng)論