數(shù)據(jù)倉庫實(shí)踐第一課__昨夜西風(fēng)凋碧樹獨(dú)上高樓望盡天涯路ppt課件_第1頁
數(shù)據(jù)倉庫實(shí)踐第一課__昨夜西風(fēng)凋碧樹獨(dú)上高樓望盡天涯路ppt課件_第2頁
數(shù)據(jù)倉庫實(shí)踐第一課__昨夜西風(fēng)凋碧樹獨(dú)上高樓望盡天涯路ppt課件_第3頁
數(shù)據(jù)倉庫實(shí)踐第一課__昨夜西風(fēng)凋碧樹獨(dú)上高樓望盡天涯路ppt課件_第4頁
數(shù)據(jù)倉庫實(shí)踐第一課__昨夜西風(fēng)凋碧樹獨(dú)上高樓望盡天涯路ppt課件_第5頁
已閱讀5頁,還剩87頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫實(shí)踐系列課程 第一課昨夜西風(fēng)凋碧樹 獨(dú)上高樓 望盡天涯路 王國維在 人間詞話 說 古今之成大事業(yè) 大學(xué)問者 必經(jīng)過三種之境界 昨夜西風(fēng)凋碧樹 獨(dú)上高樓 望盡天涯路 此第一境也 衣帶漸寬終不悔 為伊消得人憔悴 此第二境也 眾里尋他千百度 驀然回首 那人卻在 燈火闌珊處 此第三境也 王國維認(rèn)為治學(xué)第一境界 昨夜西風(fēng)凋碧樹 獨(dú)上高樓 望盡天涯路 這詞句出晏殊的 蝶戀花 原意是說 我 上高樓眺望所見的更為蕭颯的秋景 西風(fēng)黃葉 山闊水長 案書何達(dá) 在王國維此句中解成 做學(xué)問成大事業(yè)者 首先要有執(zhí)著的追求 登高望遠(yuǎn) 瞰察路徑 明確目標(biāo)與方向 了解事物的概貌 王的治學(xué)第二境界是說 衣帶漸寬終不悔 為伊消得人憔悴 這引用的是北宋柳永 蝶戀花 最后兩句詞 原詞是表現(xiàn)作者對愛的艱辛和愛的無悔 若把 伊 字理解為詞人所追求的理想和畢生從事的事業(yè) 亦無不可 王國維以此兩句來比喻成大事業(yè) 大學(xué)問者 不是輕而易舉 隨便可得的 必須堅(jiān)定不移 經(jīng)過一番辛勤勞動(dòng) 廢寢忘食 孜孜以求 直至人瘦帶寬也不后悔 王的治學(xué)第三境界是說 眾里尋他千百度 驀然回首 那人卻在 燈火闌珊處 是引用南宋辛棄疾 青玉案 詞中的最后四句 王國維以此詞最后的四句為 境界 之第三 即最終最高境界 要達(dá)到第三境界 必須有專注的精神 反復(fù)追尋 研究 下足功夫 自然會豁然貫通 課程安排 一 總學(xué)時(shí) 15學(xué)時(shí) 其中12學(xué)時(shí)理論 3學(xué)時(shí)聯(lián)系 課后作業(yè)估計(jì)有5學(xué)時(shí) 二 考核方法 平時(shí)考勤 30分理論答題 30分隨堂練習(xí) 20分課后作業(yè) 20分 三 教材 數(shù)據(jù)倉庫生命周期工具箱 kimball等著 清華大學(xué)出版社 數(shù)據(jù)倉庫工具箱 維度建模權(quán)威指南 kimball等著 清華大學(xué)出版社 四 教學(xué)方法講師講解課程 布置家庭作業(yè) 利用網(wǎng)絡(luò)資源完成講師制定任務(wù) 隨堂作業(yè) 現(xiàn)場完成作業(yè)結(jié)業(yè)考試 檢查教學(xué)成果綜合練習(xí) 提升學(xué)習(xí)成果 目 2 3 4 5 6 數(shù)據(jù)倉庫是一個(gè)解決方案 數(shù)據(jù)倉庫幾種常見架構(gòu) 數(shù)據(jù)倉庫類項(xiàng)目中人員配置 個(gè)人職業(yè)發(fā)展規(guī)劃建議 匯聚數(shù)據(jù)財(cái)富挖掘潛力無限 錄 初識數(shù)據(jù)倉庫 基本概念 1 Kimball生命周期導(dǎo)圖 小明的大學(xué)生活 你們認(rèn)識小明嗎 小明 男 南京人 父母在職 數(shù)學(xué)系五班 大二 輔導(dǎo)員李華 小明 喜歡吃混沌 口味便辣 每周必有三次吃拉面 每半月吃3一次魚 幾乎每個(gè)2天吃一次肉類食物 體重75KG 身高170 偏胖 需要改善食物結(jié)構(gòu) 小明 每周二 四 六 日 22點(diǎn)后回校 在外承接的家教任務(wù) 家境條件困難 申請貧困獎(jiǎng)學(xué)金 小明 學(xué)習(xí)成績良 離散數(shù)學(xué)成績不好 統(tǒng)籌學(xué)成績最佳 有3們課程優(yōu)秀 1門課程掛科 體育成績一般 小明 身體健康狀況正常 頸椎僵硬 小明 多在晚上7點(diǎn)30分進(jìn)入圖書館自習(xí) 雖然是數(shù)學(xué)系 但喜歡歷史和物理 本學(xué)期借閱歷史書籍32次 物理數(shù)據(jù)28次 小明 積極參加課外活動(dòng) 涉及足球 演講比賽 圍棋 曾獲得班級級別獎(jiǎng)勵(lì)5次 其一等獎(jiǎng)1次 二等獎(jiǎng)2層i 院系級獎(jiǎng)勵(lì)1次 小明參加工作5年后的求職簡歷 知識導(dǎo)引 什么是數(shù)據(jù)倉庫 什么是DSS 什么是經(jīng)營分析 什么是EIS 什么是OLTP OLAP 什么是BI BO COGNOS 安訊 BRIO Teradata SAS SPSS 數(shù)據(jù)倉庫系統(tǒng) BI 90年代提出 90年代中形成潮流 BI描述了一系列的概念和方法 通過應(yīng)用基于事實(shí)的支持系統(tǒng)來輔助商業(yè)決策的制定 GartnerGroup1996商業(yè)智能領(lǐng)域 DSS OLAP 數(shù)據(jù)倉庫 ETL 數(shù)據(jù)集市 數(shù)據(jù)挖掘 商業(yè)建模 為提高企業(yè)運(yùn)營性能而采用的一系列方法 技術(shù)和軟件的總和 70年代 70年代提出 80年代得到發(fā)展 數(shù)據(jù)倉庫產(chǎn)生背景 需求的變化業(yè)務(wù)系統(tǒng)的建設(shè)逐漸完善分析類需求不斷增加不斷增加的信息孤島導(dǎo)致數(shù)據(jù)集成問題不斷增加技術(shù)發(fā)展?fàn)顩r關(guān)系數(shù)據(jù)庫技術(shù)日趨成熟報(bào)表和復(fù)雜查詢處理起來非常困難各個(gè)系統(tǒng)之間數(shù)據(jù)不一 OLTP系統(tǒng) 生產(chǎn)系統(tǒng) 面向應(yīng)用事務(wù)驅(qū)動(dòng)的實(shí)時(shí)性高數(shù)據(jù)檢索量相對少只存當(dāng)前數(shù)據(jù)數(shù)據(jù)倉庫系統(tǒng) 決策系統(tǒng) 面向主題分析和決策實(shí)時(shí)性要求不是特別高數(shù)據(jù)檢索量大存儲大量的歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù) 數(shù)據(jù)倉庫為用戶提供多樣的功能需求 數(shù)據(jù)倉庫理論的形成 數(shù)據(jù)倉庫的定義 數(shù)據(jù)倉庫 DataWarehouse 是一個(gè)面向主題的 SubjectOriented 集成的 Integrated 相對穩(wěn)定的 Non Volatile 反映歷史變化 TimeVariant 的數(shù)據(jù)集合 用于支持管理決策 DecisionMakingSupport BillInmon 什么是數(shù)據(jù)倉庫 相關(guān)概念 以DataWarehouse技術(shù)為基礎(chǔ) 以O(shè)LAP和DataMining工具為手段實(shí)施的一套解決方案 DSS DecisionSupportSystem 相關(guān)概念 EIS 主管信息系統(tǒng) ExecutiveInformationSystem 指為了滿足無法專注于計(jì)算機(jī)技術(shù)的領(lǐng)導(dǎo)人員的信息查詢需求 而特意制定的以簡單的圖形界面訪問數(shù)據(jù)倉庫的一種應(yīng)用 ETL 數(shù)據(jù)抽取 Extract 轉(zhuǎn)換 Transform 裝載 Load 的過程 它是構(gòu)建數(shù)據(jù)倉庫的重要環(huán)節(jié) DataMart為了特定的應(yīng)用目的或應(yīng)用范圍 而從數(shù)據(jù)倉庫中獨(dú)立出來的一部分?jǐn)?shù)據(jù) 也可稱為部門數(shù)據(jù)或主題數(shù) subjectarea 經(jīng)營分析系統(tǒng) BusinessAnalysisSupportSystem 元數(shù)據(jù) 元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù) 可將其按用途的不同分為技術(shù)元數(shù)據(jù) 業(yè)務(wù)元數(shù)據(jù)和管理元數(shù)據(jù) 數(shù)據(jù)質(zhì)量 數(shù)據(jù)質(zhì)量管理平臺能夠使得數(shù)據(jù)質(zhì)量管理流程自動(dòng)化 集中化 智能化ROLAP 關(guān)系型在線分析處理 MOLAP 多維在線分析處理 HOLAP 混合型線上分析處理 數(shù)據(jù)倉庫的特點(diǎn) 分布式 數(shù)據(jù)集市 集中式 數(shù)據(jù)倉庫 垂直 水平 數(shù)據(jù)倉庫與數(shù)據(jù)集市的業(yè)務(wù)分析能力 DW DM的流派之爭 BillInmon與RalphKimball 雙方的觀點(diǎn) 圍繞主題來組織數(shù)據(jù)倉庫中的數(shù)據(jù) 每個(gè)主題區(qū)域僅僅包含該主題相關(guān)的信息 數(shù)據(jù)倉庫應(yīng)該一次增加一個(gè)主題 并且當(dāng)需要容易地訪問多個(gè)主題時(shí) 創(chuàng)建以數(shù)據(jù)倉庫為來源的數(shù)據(jù)集市 數(shù)據(jù)倉庫是數(shù)據(jù)集市的聯(lián)合 通過一系列相同維度定義的數(shù)據(jù)集市遞增地構(gòu)建數(shù)據(jù)倉庫 而每個(gè)數(shù)據(jù)集市通過聯(lián)合多個(gè)數(shù)據(jù)源來滿足特定的業(yè)務(wù)需求 自上而下 自下而上和自上而下的結(jié)合 雙方的觀點(diǎn) 使用數(shù)據(jù)集市聯(lián)合的方式 開始會帶來極高的用戶體驗(yàn) 但隨著數(shù)據(jù)集市的增多 會形成網(wǎng)狀結(jié)構(gòu) 建設(shè)重復(fù) 數(shù)據(jù)質(zhì)量變差 使用數(shù)據(jù)總線的結(jié)構(gòu)來控制數(shù)據(jù)集市點(diǎn)建設(shè) 所有的數(shù)據(jù)集市在一套總線環(huán)境中 有相同的維度定義 故既可以迅速部署 滿足業(yè)務(wù)需求 也可以規(guī)范的形成數(shù)據(jù)倉庫 Inmon Kimball 維度 對數(shù)據(jù)進(jìn)行分類的一種結(jié)構(gòu) 用于從特定的角度觀察數(shù)據(jù) 例如 時(shí)間 地區(qū) 產(chǎn)品 維度的兩個(gè)用途選擇針對期望詳細(xì)程度的層次的數(shù)據(jù) 分組對細(xì)節(jié)數(shù)據(jù)綜合 聚集 到相應(yīng)的詳細(xì)程度的數(shù)據(jù)層次 維的組織方式 維層次路徑 HIERARCHY 維層次路徑由代表不同詳細(xì)程度的維層次 Level 組成 維的層次 特定角度的不同細(xì)節(jié)程度 基本概念 維度 度量 指標(biāo) 數(shù)據(jù)的實(shí)際意義 一般是一個(gè)數(shù)值度量指標(biāo)例如 銷售量 銷售額 一個(gè)度量的兩個(gè)組件數(shù)字型指標(biāo)聚集函數(shù) CUBE 一個(gè)多維模型構(gòu)成的多維數(shù)據(jù)空間我們將其稱做數(shù)據(jù)立方體 Cube 其邏輯上相當(dāng)于一個(gè)多維數(shù)組 基本概念 度量 cube 這個(gè)方格代表在某個(gè)時(shí)間 某個(gè)地區(qū)通過某個(gè)銷售渠道所銷售的產(chǎn)品的銷售額 基本概念 多維數(shù)據(jù)模型 多維模型通常用Cube來表示 多維模型可以更加直觀的表示現(xiàn)實(shí)中的復(fù)雜關(guān)系多維模型的基本組成 維 度量 舉例 計(jì)算每一個(gè)商場 每個(gè)產(chǎn)品的銷售額維 Dimension 維層次路徑 維層次 維成員 維實(shí)例 維層次屬性度量 Measure 數(shù)據(jù)立方體 Cube 切片Slice 基本概念 多維分析基本動(dòng)作 切片 切塊 切塊Dice 旋轉(zhuǎn)Rotate 基本概念 多維分析基本動(dòng)作 旋轉(zhuǎn) 鉆取 鉆取Rollup Drilldown 基本概念 多維數(shù)據(jù)模型的實(shí)現(xiàn)技術(shù) RelationalOLAP ROLAP 利用關(guān)系數(shù)據(jù)庫來存儲和管理基本數(shù)據(jù)和聚合數(shù)據(jù) 并利用一些中間件來支持缺失數(shù)據(jù)的處理具有良好的可擴(kuò)展性MultidimensionalOLAP MOLAP 利用多維數(shù)據(jù)庫來存放和管理基本數(shù)據(jù)和聚合數(shù)據(jù) 其中需要對稀疏矩陣處理技術(shù)對預(yù)綜合的數(shù)據(jù)進(jìn)行快速索引HybridOLAP HOLAP 利用關(guān)系數(shù)據(jù)庫來存儲和管理基本數(shù)據(jù) 利用多維數(shù)據(jù)庫來存儲和管理聚合數(shù)據(jù) 基本概念 OLTP與OLAP 針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和數(shù)據(jù)分析技術(shù)滿足對數(shù)據(jù)進(jìn)行多角度 快速 一致 交互 深入觀察使用預(yù)定義的多維數(shù)據(jù)視圖對數(shù)據(jù)進(jìn)行分析處理 支持對數(shù)據(jù)的切片 切塊 鉆取 多維數(shù)據(jù)庫是一種以多維數(shù)據(jù)存儲形式來組織數(shù)據(jù)的數(shù)據(jù)管理系統(tǒng) 在使用時(shí)需要將數(shù)據(jù)從關(guān)系數(shù)據(jù)庫中轉(zhuǎn)載到多維數(shù)據(jù)庫中方可訪問 也稱為面向交易的處理系統(tǒng) 其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計(jì)算中心進(jìn)行處理 并在很短的時(shí)間內(nèi)給出處理結(jié)果 這樣做的最大優(yōu)點(diǎn)是可以即時(shí)地處理輸入的數(shù)據(jù) 及時(shí)地回答 也稱為實(shí)時(shí)系統(tǒng) RealtimeSystem 衡量聯(lián)機(jī)事務(wù)處理系統(tǒng)的一個(gè)重要性能指標(biāo)是系統(tǒng)性能 具體體現(xiàn)為實(shí)時(shí)響應(yīng)時(shí)間 ResponseTime 即用戶在終端上送入數(shù)據(jù)之后 到計(jì)算機(jī)對這個(gè)請求給出答復(fù)所需要的時(shí)間 OLTP數(shù)據(jù)庫旨在使事務(wù)應(yīng)用程序僅寫入所需的數(shù)據(jù) 以便盡快處理單個(gè)事務(wù) On LineAnalyticalProcessing On LineTransactionProcessing MOLAP表示基于多維數(shù)據(jù)組織的OLAP實(shí)現(xiàn) MultidimensionalOLAP ROLAP表示基于關(guān)系數(shù)據(jù)庫的OLAP實(shí)現(xiàn) RelationalOLAP ROLAPvsMOLAP 基本概念 星型模式 StarSchema 星形模式是一種多維的數(shù)據(jù)關(guān)系 它由一個(gè)事實(shí)表 FactTable 和一組維表 DimensionTable 組成 每個(gè)維表都有一個(gè)維作為主鍵 所有這些維的主鍵組合成事實(shí)表的主鍵 事實(shí)表的非主鍵屬性稱為事實(shí) Fact 它們一般都是數(shù)值或其他可以進(jìn)行計(jì)算的數(shù)據(jù) 而維大都是文字 時(shí)間等類型的數(shù)據(jù) 按這種方式組織好數(shù)據(jù)我們就可以按照不同的維 事實(shí)表主鍵的部分或全部 來對這些事實(shí)數(shù)據(jù)進(jìn)行求和 summary 求平均 average 計(jì)數(shù) count 百分比 percent 的聚集計(jì)算 甚至可以做20 80分析 這樣就可以從不同的角度數(shù)字來分析業(yè)務(wù)主題的情況 基本概念 雪花模式 SnowFlakeSchema 雪花模型 當(dāng)有一個(gè)或多個(gè)維表沒有直接連接到事實(shí)表上 而是通過其他維表連接到事實(shí)表上時(shí) 其圖解就像多個(gè)雪花連接在一起 故稱雪花模型 雪花模型是對星型模型的擴(kuò)展 它對星型模型的維表進(jìn)一步層次化 原有的各維表可能被擴(kuò)展為小的事實(shí)表 形成一些局部的 層次 區(qū)域 這些被分解的表都連接到主維度表而不是事實(shí)表 相比星型模型 雪花模型的特點(diǎn)是貼近業(yè)務(wù) 數(shù)據(jù)冗余較少 但由于表連接的增加 導(dǎo)致了效率相對星星模型來的要低一些 基本概念 事實(shí)星座形 事實(shí)星座形 一種常見的數(shù)據(jù)倉庫的概念模型 這種模型往往應(yīng)用于數(shù)據(jù)關(guān)系比星型模型和雪花模型更復(fù)雜的場合 事實(shí)星座模型需要多個(gè)事實(shí)表共享維度表 因而可以視為星形模型的集合 故亦被稱為星系模型 基本概念 數(shù)據(jù)架構(gòu) 數(shù)據(jù)架構(gòu)包含內(nèi)容有 1 數(shù)據(jù)流架構(gòu) 設(shè)計(jì)數(shù)據(jù)流層次及每個(gè)層次間的關(guān)系2 數(shù)據(jù)管理架構(gòu) 需要依據(jù)數(shù)據(jù)使用頻率和價(jià)值考慮歷史存儲方式 存儲粒度 數(shù)據(jù)集市的粒度與事實(shí)表的冗余 3 業(yè)務(wù)數(shù)據(jù)架構(gòu) 設(shè)計(jì)模型時(shí) 需要考慮表的拆分與合并 字段的派生與去冗 關(guān)注業(yè)務(wù)過程 4 數(shù)據(jù)安全架構(gòu) 一般安全管理分為操作系統(tǒng)級 數(shù)據(jù)庫級 Schema級 表 視圖級 數(shù)據(jù)級 行數(shù)據(jù) 以及BI界面控制級別 CUBE控制等多個(gè)層次 這里主要說的是數(shù)據(jù)行級 基本概念 元數(shù)據(jù) 基本概念 元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù) 其內(nèi)容主要包括數(shù)據(jù)的格式 結(jié)構(gòu) 約束 加工過程 部署情況等 元數(shù)據(jù)管理包括元數(shù)據(jù)采集與關(guān)聯(lián) 元數(shù)據(jù)信息維護(hù) 標(biāo)準(zhǔn)代碼及術(shù)語信息維護(hù)等內(nèi)容 對元數(shù)據(jù)的分析包括血緣分析 影響分析等 元數(shù)據(jù) 業(yè)務(wù)元數(shù)據(jù) 業(yè)務(wù)屬性 業(yè)務(wù)實(shí)體 數(shù)據(jù)質(zhì)量業(yè)務(wù)規(guī)則 技術(shù)元數(shù)據(jù) 列 字段 表 視圖 文件 數(shù)據(jù)庫 文件服務(wù)器 數(shù)據(jù)質(zhì)量控制規(guī)則 數(shù)據(jù)映射邏輯 業(yè)務(wù)指標(biāo) 企業(yè)級數(shù)據(jù)模型 數(shù)據(jù)規(guī)范定義 數(shù)據(jù)質(zhì)量 貸款余額的定義 貸款合同的定義 還款日期 貸款日期 CAPMCURBAL CAPM db2 sybase oracle Len 身份證 15或18 ETL過程 不良貸款率的口徑 指標(biāo)體系 報(bào)表體系 數(shù)據(jù)質(zhì)量 包含子項(xiàng) 示例 關(guān)聯(lián)工作 數(shù)據(jù)架構(gòu) DataWarehouse ArtificialIntelligence DataMart OLAP DecisionSupportSystem DataMining OperationDatabase BusinessIntelligentSystem DatabaseSystem 各種概念之間的關(guān)系 作業(yè)一 搜集右圖中涉及的概念含義 提交 數(shù)據(jù)倉庫相關(guān)重要術(shù)語定義 作業(yè)二 企業(yè)什么樣要建立數(shù)據(jù)倉庫 提交一頁紙內(nèi)容進(jìn)行說明 目 2 3 4 5 6 數(shù)據(jù)倉庫是一個(gè)解決方案 數(shù)據(jù)倉庫幾種常見架構(gòu) 數(shù)據(jù)倉庫類項(xiàng)目中人員配置 個(gè)人職業(yè)發(fā)展規(guī)劃建議 匯聚數(shù)據(jù)財(cái)富挖掘潛力無限 錄 初始數(shù)據(jù)倉庫 基本概念 1 Kimball生命周期導(dǎo)圖 數(shù)據(jù)倉庫是一個(gè)建設(shè)過程 不是一個(gè)產(chǎn)品 是一個(gè)持續(xù)的過程 35 數(shù)據(jù)倉庫是一個(gè)解決方案 多層結(jié)構(gòu)體現(xiàn)可擴(kuò)展架構(gòu) DataWarehouse OLAP引擎 AnalysisQueryReportsDatamining Monitor Integrator Metadata 數(shù)據(jù)源 前端工具 Serve DataMarts 數(shù)據(jù)存儲 OLAPServer 數(shù)據(jù)倉庫解決方案 群雄逐鹿1 數(shù)據(jù)倉庫解決方案 群雄逐鹿2 數(shù)據(jù)倉庫解決方案 群雄逐鹿3 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 商業(yè)工具篇 建模工具 Powerdesigner ErwinETL工具 用于數(shù)據(jù)的集成和處理Datastage Infomatic Automation數(shù)據(jù)質(zhì)量工具 一般集成在ETL工具中分析工具 報(bào)表工具 BO COGNOS 安訊 潤乾 BRIOOLAP工具 COGNOS BOBI分析門戶 一般集成在分析工具中數(shù)據(jù)挖掘工具 SAS SPSS元數(shù)據(jù)管理工具 metacenter 石竹 CA Infomatic 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 開源工具篇 報(bào)表工具 EclipseBIRTEclipse下面的一個(gè)企業(yè)智能和報(bào)表工具 能為J2EE的WEB應(yīng)用程序創(chuàng)建漂亮醒目的PDF或者HTML格式的報(bào)表 它提供了核心的報(bào)表功能JasperReportsJava報(bào)表工具 始于2001 現(xiàn)在JasperSoft公司持續(xù)開發(fā)和支持該工具 該工具類似于商業(yè)軟件CrystalReport 支持PDF HTML XLS CSV和XML文件輸出格式 現(xiàn)在是Java開發(fā)者最常用的報(bào)表工具 JFreeReport現(xiàn)在是Pentaho的一部分 它是一個(gè)優(yōu)秀的用來生成報(bào)表的Java類庫 它為Java應(yīng)用程序提供一個(gè)靈活的打印功能并支持輸出到打印機(jī)和PDF Excel HTML和XHTML PlainText XML和CSV文件中 Mondrian是Pentaho的一部分 為一個(gè)用Java開發(fā)的OLAP服務(wù)器 實(shí)現(xiàn)了MDX語言 XML解析和JOLAP規(guī)范 可以不寫SQL就能分析存儲于SQL數(shù)據(jù)庫的龐大數(shù)據(jù)集 可以封裝JDBC數(shù)據(jù)源并把數(shù)據(jù)以多維的方式展現(xiàn)出來JPivot一個(gè)JSP自定制的標(biāo)簽庫 可以繪制一個(gè)OLAP表格和圖表 用戶可以執(zhí)行典型的OLAP導(dǎo)航 如下鉆 切片和方塊 它使用Mondrian作為其OLAP服務(wù)器 它使用WCF WebComponentFramework 基于XML XSLT來渲染W(wǎng)ebUI組件 KETL由具有IBM和KPMG背景的KineticNetworks公司開發(fā) 現(xiàn)在已經(jīng)有三年多的產(chǎn)品應(yīng)用歷史 成功應(yīng)用于一些產(chǎn)品中 在點(diǎn)擊流 ClickStream 分析應(yīng)用中表現(xiàn)出色 KETL采用Plug in的架構(gòu) 使用Java開發(fā)KETTLE一個(gè)元數(shù)據(jù)驅(qū)動(dòng)的ETL工具 已經(jīng)加入Pentaho CloverETL一個(gè)基于Java的ETLFramework 可以用來開發(fā)自己的ETL應(yīng)用EnhydraOctopus一個(gè)基于Java的ETL工具 使用JDBC來連接各種數(shù)據(jù)源 易于使用和部署 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 開源工具篇 ETL工具 Pentaho一個(gè)以工作流為核心的 強(qiáng)調(diào)面向解決方案而非工具組件的BI套件 整合了多個(gè)開源項(xiàng)目工作流引擎 SharkandJaWE數(shù)據(jù)庫 FirebirdRDBMS集成管理和開發(fā)環(huán)境 Eclipse報(bào)表工具 EclipseBIRTETL工具 Enhydra KettleOLAPServer MondrianOLAP展示 JPivot數(shù)據(jù)挖掘組件 Weka應(yīng)用服務(wù)器和Portal服務(wù)器 JBoss單點(diǎn)登陸服務(wù)及LDap認(rèn)證 JOSSO自定義腳本支持 MozillaRhinoJavascript腳本處理器 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 開源工具篇 BI工具 SpagoBI集成了Mondrain和JProvit 能夠通過OpenLaszlo產(chǎn)生實(shí)時(shí)報(bào)表 SpagoBI使用java開發(fā) 不依賴于具體的操作系統(tǒng) 有很強(qiáng)的擴(kuò)展能力報(bào)表工具 JasperReports EclipseBIRT iReportOLAPServer MondrianOLAP展示 JPivot數(shù)據(jù)挖掘組件 WekaMap引擎 GeoETL BIE搜索引擎 LuceneDashboard OpenLaszloPortalServer JBoss Tomcat JOnAS 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 開源工具篇 BI工具 項(xiàng)目實(shí)施 數(shù)據(jù)倉庫項(xiàng)目組織步驟 人員角色 建設(shè)放方案等一系列方法的集合 指導(dǎo)方針 數(shù)據(jù)模型的建模方法 統(tǒng)一的概念模型 邏輯模型 數(shù)據(jù)庫中對應(yīng)的組織 物理化 ETL功能組件 前端門戶組件 模版 元數(shù)據(jù)管理 用戶與組織 權(quán)限組織 面向業(yè)務(wù)的分析 面向問題的專題 固定報(bào)表 即席查詢分析 KPI 分析 互動(dòng)流程 數(shù)據(jù)的加載 清洗 組織規(guī)劃的過程 用戶本地的需求整理與實(shí)現(xiàn) 與開發(fā)者的經(jīng)驗(yàn) 技能相關(guān) 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 關(guān)注項(xiàng)目實(shí)施過程 礦工 勘探員 農(nóng)夫 操作員 旅行者 老總 經(jīng)理KPI 儀表盤 簡單的綜合信息報(bào)表 營銷人員當(dāng)前周期的數(shù)據(jù) 明細(xì)數(shù)據(jù) 直接獲取下載 用來做業(yè)務(wù) 分析員有一定的分析能力 對預(yù)定義的報(bào)表 查詢感興趣 偶爾使用靈活的動(dòng)態(tài)報(bào)表組合自己需要的在綜合信息 熟練的分析員精通分析技術(shù) 對數(shù)據(jù)敏感 除使用固定報(bào)表 查詢外 會針對特定的業(yè)務(wù)問題 數(shù)據(jù)質(zhì)量問題進(jìn)行分析 常使用靈活的動(dòng)態(tài)可配置的應(yīng)用 必要時(shí)會進(jìn)入數(shù)據(jù)倉庫直接探索 專業(yè)分析員對業(yè)務(wù)發(fā)展的趨勢的假設(shè)作出求證 或者通過挖掘等技術(shù)找出改善業(yè)務(wù)的途徑 特定用戶進(jìn)行細(xì)分等 一般直接使用數(shù)據(jù)倉庫 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 重點(diǎn)關(guān)注業(yè)務(wù)需求 用戶 簡單圖表展現(xiàn) 固定報(bào)表 動(dòng)態(tài)的可配報(bào)表 圖表互動(dòng)分析 可切片旋轉(zhuǎn)的OLAP KPI指示器 可層級篩選的明細(xì)查詢 對以上進(jìn)行組合的復(fù)雜應(yīng)用 帶有分析流程的應(yīng)用 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 重點(diǎn)關(guān)注業(yè)務(wù)需求 需求類型 規(guī)范功能 個(gè)性需求 新需求提出 統(tǒng)一的應(yīng)用框架下管理和開發(fā) 數(shù)據(jù)倉庫解決方案 工欲善其事 必先利其器 重點(diǎn)關(guān)注業(yè)務(wù)需求 應(yīng)用框架 作業(yè)三 申請百度文庫用戶 搜集數(shù)據(jù)倉庫類項(xiàng)目解決方案一個(gè) 提交 解決方案閱讀筆記 要求4 5頁 參考 閱讀筆記中要求能夠回答如下問題 數(shù)據(jù)源有哪些 源系統(tǒng)的數(shù)據(jù)是怎么捕獲加載到數(shù)據(jù)倉庫就中 數(shù)據(jù)倉庫內(nèi)部邏輯層次是如何劃分的 方案解決用戶什么樣的問題 用戶群體是哪些 目 2 3 4 5 6 數(shù)據(jù)倉庫是一個(gè)解決方案 數(shù)據(jù)倉庫幾種常見架構(gòu) 數(shù)據(jù)倉庫類項(xiàng)目中人員配置 個(gè)人職業(yè)發(fā)展規(guī)劃建議 匯聚數(shù)據(jù)財(cái)富挖掘潛力無限 錄 初始數(shù)據(jù)倉庫 基本概念 1 Kimball生命周期導(dǎo)圖 數(shù)據(jù)倉庫領(lǐng)域的兩位大師 BillInmon數(shù)據(jù)倉庫之父 數(shù)據(jù)倉庫概念的創(chuàng)始人理論 CorporateInformationFactory CIF 主要著作 數(shù)據(jù)倉庫 企業(yè)信息工廠 主要著作 數(shù)據(jù)倉庫工具箱 維度建模的完全指南 數(shù)據(jù)倉庫生命周期工具箱 設(shè)計(jì) 開發(fā)和部署數(shù)據(jù)倉庫的專家方法 RalphKimball數(shù)據(jù)倉庫方面的知名學(xué)者理論 MutildimensionalArchitecture MD BillInmon企業(yè)信息工廠 Kimball企業(yè)數(shù)據(jù)總線 兩種架構(gòu)方案對比分析 混合架構(gòu)方案 融合 趨勢 利用EDW 存儲各源系統(tǒng)明細(xì)粒度數(shù)據(jù) 解決源系統(tǒng)變化對數(shù)據(jù)倉庫系統(tǒng)的沖擊 解決代碼標(biāo)準(zhǔn)化的問題 利用企業(yè)數(shù)據(jù)總線結(jié)構(gòu) 解決應(yīng)用一致性的問題 可以快速見效 實(shí)現(xiàn)投入產(chǎn)出比 敏捷架構(gòu)設(shè)計(jì)方案 企業(yè)數(shù)據(jù)總線 1 基于企業(yè)數(shù)據(jù)總線方案進(jìn)行模型設(shè)計(jì)2 維度模型包含明細(xì)粒度數(shù)據(jù)和匯總數(shù)據(jù)3 維度模型是企業(yè)級 維度的設(shè)計(jì)圍繞業(yè)務(wù)過程而不是按照某個(gè)部門進(jìn)行設(shè)計(jì)4 維度模型也是支持?jǐn)U展的5 維度模型設(shè)計(jì)不應(yīng)該僅僅關(guān)注報(bào)表或分析 應(yīng)該以度量過程為中心6 一致性維度作為集中的 持久的主數(shù)據(jù)建立在ETL系統(tǒng)中7 關(guān)注業(yè)務(wù)度量過程 而不是僅僅是報(bào)表或分析8 數(shù)據(jù)管理和治理首先應(yīng)該關(guān)注維度數(shù)據(jù)9 維度建模的考慮應(yīng)該早于設(shè)計(jì)星型模型或OLAP多維數(shù)據(jù)庫10 開發(fā)小組與業(yè)務(wù)相關(guān)方的值合作11 以迭代 增量方式處理開發(fā)過程12 避免陷入憑空使用敏捷技術(shù)建立分析或報(bào)表方案的陷進(jìn)中 敏捷架構(gòu)設(shè)計(jì)方案 企業(yè)數(shù)據(jù)總線矩陣示例 數(shù)據(jù)倉庫實(shí)施方法概論 方法論主要描述了項(xiàng)目實(shí)施的步驟 系統(tǒng)建設(shè)的內(nèi)容以及過程管理中的一系列方法 實(shí)施過程中的具體內(nèi)容 采用的軟件工程方法 項(xiàng)目管理的內(nèi)容 實(shí)施的目標(biāo)管理 風(fēng)險(xiǎn)管理 重點(diǎn) 螺旋式上升式的建設(shè)模式 對于應(yīng)用分析建模 數(shù)據(jù)建模乃至整個(gè)系統(tǒng)的建設(shè) 都是適用的 例子 某項(xiàng)目 分析 建設(shè) 培訓(xùn) 使用 反饋 分析 改進(jìn) 國外常見的項(xiàng)目過程 ETL工具 展現(xiàn)分析工具 數(shù)據(jù)庫 元數(shù)據(jù)管理工具 數(shù)據(jù)庫建模工具 COGNOS BO BRIO ORACLE DB2 SYSBASE CA MetaManager PowerDesigner ERWIN Infomatic DataStage Infomatic 解決方案 方法論 行業(yè)模型 典型分析 項(xiàng)目控制 項(xiàng)目建設(shè) 物理模型 數(shù)據(jù)加載 應(yīng)用開發(fā) 上線加載 產(chǎn)品選購 方案選擇 項(xiàng)目工作 1 功能組件高度抽象與產(chǎn)品化 ETL 展現(xiàn)分析 建模 元數(shù)據(jù)等 2 項(xiàng)目以解決方案的實(shí)施為主 公司一般具有相關(guān)行業(yè)的通用解決方案 3 建設(shè) 實(shí)施過程以本地化 個(gè)性化為目的 完成用戶的分析目標(biāo) 技術(shù)方面比重較少 生命周期法的建設(shè)模式 業(yè)務(wù)維度建模的生命周期法 Kimball 業(yè)務(wù)需求定義 技術(shù)軌跡 技術(shù)結(jié)構(gòu)設(shè)計(jì) 產(chǎn)品選擇與安裝數(shù)據(jù)軌跡 維度建模 物理設(shè)計(jì) DataStagingArea設(shè)計(jì)與開發(fā)應(yīng)用軌跡 最終用戶應(yīng)用規(guī)范 最終用戶應(yīng)用開發(fā)部署維護(hù)與增長 技術(shù)平臺 數(shù)據(jù)平臺 產(chǎn)品平臺 吉貝克數(shù)據(jù)倉庫實(shí)施方案 目 2 3 4 5 6 數(shù)據(jù)倉庫是一個(gè)解決方案 數(shù)據(jù)倉庫幾種常見架構(gòu) 數(shù)據(jù)倉庫類項(xiàng)目中人員配置 個(gè)人職業(yè)發(fā)展規(guī)劃建議 匯聚數(shù)據(jù)財(cái)富挖掘潛力無限 錄 初始數(shù)據(jù)倉庫 不是數(shù)據(jù)庫 1 Kimball生命周期導(dǎo)圖 Kimball生命周期導(dǎo)圖 程序 項(xiàng)目規(guī)劃與管理 評估準(zhǔn)備 范圍及論證 人員配備 規(guī)劃的開發(fā)及維護(hù) 1 強(qiáng)有力的執(zhí)行主管 有相關(guān)經(jīng)驗(yàn) 能夠協(xié)調(diào)內(nèi)部資源 能夠說服上層領(lǐng)導(dǎo)支持項(xiàng)目推進(jìn) 2 解決DW BI活動(dòng)的引人注目的動(dòng)機(jī)3 準(zhǔn)備可行性 技術(shù) 資源 數(shù)據(jù)三要素 1 確定項(xiàng)目范圍 對業(yè)務(wù)有意義 對IT可管理2 避免太原則 即時(shí)間太短 源系統(tǒng)太多 源系統(tǒng)分布不能太廣 用戶群體太多 3 項(xiàng)目啟動(dòng)利益與成本 關(guān)注后期成本4 業(yè)務(wù)團(tuán)體確定預(yù)期財(cái)務(wù)收益 1 業(yè)務(wù)發(fā)起人 推動(dòng)者 領(lǐng)導(dǎo)者 用戶2 實(shí)施方提供項(xiàng)目經(jīng)理 架構(gòu)師 模型師 業(yè)務(wù)分析師 BI設(shè)計(jì)與開發(fā)人員 ETL架構(gòu)師設(shè)與開發(fā)人員 數(shù)據(jù)庫管理員3 實(shí)施方上層領(lǐng)導(dǎo) 銷售人員 協(xié)調(diào)內(nèi)部資源 與外部溝通 1 劃分項(xiàng)目階段 建立里程碑2 項(xiàng)目經(jīng)理組建隊(duì)伍 制定計(jì)劃3 項(xiàng)目經(jīng)理需要非常了解用戶需求 應(yīng)對項(xiàng)目變化 sayNO 增加范圍與預(yù)算 更換項(xiàng)目內(nèi)容 業(yè)務(wù)需求定義 1 2 3 需求預(yù)規(guī)劃1 選擇討論話題 希望做什么 為什么要做 如何知道決策等2 確定及籌備需求小組 確定懂業(yè)務(wù)的分析師 準(zhǔn)備調(diào)查問卷 3 選擇 調(diào)度和準(zhǔn)備業(yè)務(wù)代表 與業(yè)務(wù)人員溝通 與業(yè)務(wù)管理層溝通 關(guān)注戰(zhàn)略方向 不宜過多關(guān)注戰(zhàn)術(shù) 約談客戶1小時(shí) 1 5小時(shí)為宜 收集業(yè)務(wù)需求1 初啟 主持人點(diǎn)出訪談重點(diǎn) 以業(yè)務(wù)為中心2 訪談流程3 形成最終文檔 提交會議紀(jì)要 整理收集資料 指導(dǎo)以數(shù)據(jù)為中心的訪談 數(shù)據(jù)探查小組 模型師參與訪談 了解需求可行性 文檔管理 編寫需求規(guī)格說明書 需求優(yōu)先級管理和需求范圍管理 目標(biāo) 明白他們做什么和為什么要做了解訪談?wù)邔?shù)據(jù)的數(shù)據(jù)經(jīng)驗(yàn)分析類型 了解業(yè)務(wù)人員對bi的理解了解潛在的其他需求和管理層的規(guī)劃 業(yè)務(wù)需求定義 關(guān)鍵任務(wù) 用戶訪談 針對不同的用戶角色 采用不同的訪談方式 提問內(nèi)容 技術(shù)架構(gòu)設(shè)計(jì) 46 22 19 數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn) BI架構(gòu)占據(jù)比例雖然沒有ETL環(huán)節(jié)高 但影響了業(yè)務(wù)人員對系統(tǒng)的認(rèn)可度 他們關(guān)注需求是否準(zhǔn)確實(shí)現(xiàn) 關(guān)注數(shù)據(jù)模型的設(shè)計(jì)思路 etl加工的便捷性 數(shù)據(jù)是否支持等 ETL環(huán)節(jié)驗(yàn)證占據(jù)比例最高 成功關(guān)鍵環(huán)節(jié) 系統(tǒng)是否好用 是否可管控 影響用戶對系統(tǒng)的最終評價(jià) 數(shù)據(jù)管控 及元數(shù)據(jù)與數(shù)據(jù)質(zhì)量 7 6 描繪DW BI環(huán)境的技術(shù)服務(wù)與基礎(chǔ)設(shè)施藍(lán)圖 建立架構(gòu)組 包含ETL BI 甲方技術(shù)負(fù)責(zé)人 架構(gòu)設(shè)計(jì)成果應(yīng)用 收集與架構(gòu)相關(guān)需求架構(gòu)需求文檔化 列出影響架構(gòu)的需求3建立架構(gòu)模型 架構(gòu)需求劃分為主要組件 如ETL BI 元數(shù)據(jù) 數(shù)據(jù)質(zhì)量 數(shù)據(jù)標(biāo)準(zhǔn)等確定架構(gòu)實(shí)現(xiàn)階段 重新審視架構(gòu)需求設(shè)計(jì)并定義子系統(tǒng) 部分需求商業(yè)產(chǎn)品無法提供 需要構(gòu)建這些產(chǎn)品建立架構(gòu)規(guī)劃 編寫架構(gòu)設(shè)計(jì)文檔 初步架構(gòu)設(shè)計(jì) 評審及確定技術(shù)架構(gòu) 與項(xiàng)目小組內(nèi)部 甲方項(xiàng)目經(jīng)理與技術(shù)負(fù)責(zé)人討論架構(gòu)藍(lán)圖確定架構(gòu)設(shè)計(jì)中待驗(yàn)證的技術(shù)問題3準(zhǔn)備驗(yàn)證方案和可接受的驗(yàn)證結(jié)果與標(biāo)準(zhǔn)修訂架構(gòu)設(shè)計(jì)藍(lán)圖再次評審6評審?fù)ㄟ^的架構(gòu)設(shè)計(jì)藍(lán)圖在項(xiàng)目組內(nèi)培訓(xùn) 形成共識 架構(gòu)設(shè)計(jì)評審 產(chǎn)品選擇與安裝 3 進(jìn)行市場調(diào)研 2 建立產(chǎn)品評價(jià)矩陣 4 評價(jià)選項(xiàng)列表不要太多 5 構(gòu)建原型系統(tǒng) 6 選擇產(chǎn)品 安裝試驗(yàn)及談判 1 了解公司采購流程 了解公司內(nèi)部硬件與軟件采購流程 了解市場上流行的商業(yè)工具和開源工具 羅列核心的重要的評價(jià)選項(xiàng) 應(yīng)該駕馭評估過程 而不是被供應(yīng)商驅(qū)動(dòng) 確定評價(jià)準(zhǔn)則矩陣及指示重要性的權(quán)衡因素 廠商提供機(jī)器 進(jìn)行POC試驗(yàn) 實(shí)現(xiàn)某個(gè)場景 通知期望的某個(gè)廠商 產(chǎn)品試用 開始培訓(xùn) 保留談判的能力 維度建模 確定參與人 特別是業(yè)務(wù)代表 業(yè)務(wù)需求評審 將需求轉(zhuǎn)為維度模型 支持更廣泛的分析而不是特定報(bào)表利用建模工具 支持將設(shè)計(jì)成果同步到數(shù)據(jù)庫中 利用數(shù)據(jù)分析工具 編寫sql 探查源表結(jié)構(gòu) 字段 關(guān)系 獲取規(guī)則等內(nèi)容利用或建立命名規(guī)則 包含主詞 限定詞 類詞日期與設(shè)施的協(xié)調(diào) 制定計(jì)劃 準(zhǔn)備會議室或溝通用設(shè)施 如白板 投影儀 統(tǒng)一對高層氣泡圖的理解 利用氣泡圖 將事實(shí)表和與之關(guān)聯(lián)的維度表之間的關(guān)系清晰的展現(xiàn)給非技術(shù)人員 粒度需要建模小組考慮業(yè)務(wù)需求需要什么以及物理數(shù)據(jù)源能夠提供什么數(shù)據(jù)總線矩陣一行可能對應(yīng)多個(gè)氣泡圖 每個(gè)氣泡圖對應(yīng)特定粒度的特定事實(shí)表氣泡圖保證在陷入細(xì)節(jié)前 每個(gè)人能夠具有共同的理解 也有助于與利益相關(guān)方交流時(shí)介紹項(xiàng)目時(shí)使用 確定維度及其屬性 確定事實(shí) 確定緩慢變化維度技術(shù) 建立詳細(xì)的表設(shè)計(jì)文檔 模型問題跟蹤 維護(hù)總線矩陣 IT評審 由IT部門組織同行進(jìn)行評審 挑戰(zhàn) 不熟悉維度建模 需要提供必要的培訓(xùn) 核心用戶評審廣泛的業(yè)務(wù)用戶評審 實(shí)質(zhì)上是教育與培訓(xùn) 啟迪 而不是強(qiáng)迫他們接受 先評審氣泡圖 在評審總線矩陣 在到維度 再到事實(shí)表 在到如何應(yīng)用 項(xiàng)目簡短描述 高級數(shù)據(jù)模型圖詳細(xì)的針對每個(gè)事實(shí)和維度表的維度設(shè)計(jì)工作單開發(fā)的問題 客戶 InsuranceAgency代理機(jī)構(gòu) Geography位置 Demography人口統(tǒng)計(jì)特征 BehaviorScores行為 FinancialScores財(cái)務(wù) Product產(chǎn)品 Psychographics購買特征 消費(fèi)行為 SinceDate相關(guān)行為開始日期 BeginDate初始日期 EndDate結(jié)束日期 Assets資產(chǎn) Policy保單 PolicyRating相關(guān)費(fèi)率 PolicyLifeCyclestatus保單狀態(tài) ApplicationDate申請 PaymentCat支付 InsuredParticipant 保單 MaturityDate到期 滿期日期 DeterminationDate其他重要日期 Currency貨幣 高級維度模型 氣泡圖 企業(yè)總線矩陣 維度詳細(xì)工單設(shè)計(jì) 維度建模小結(jié) 2 3 4 5 維度建模是一個(gè)迭代的過程 需要不同技能的人員通力合作 包含業(yè)務(wù)專家 設(shè)計(jì)工作從總線矩陣中抽取的實(shí)體級別的初始圖形模型開始 詳細(xì)建模過程要深入到定義 資源 關(guān)系 數(shù)據(jù)質(zhì)量問題以及每張表的需求轉(zhuǎn)換 確定列和表名的工作始終與設(shè)計(jì)過程交織開展 提供給BI工具的列名必須是業(yè)務(wù)團(tuán)體能夠理解的 最終結(jié)果是維度模型通過業(yè)務(wù)與數(shù)據(jù)兩方面驗(yàn)證 經(jīng)驗(yàn) 要將甲方的業(yè)務(wù)專家 核心技術(shù)人員納入到建模小組中 切記切記 經(jīng)驗(yàn) 依據(jù)企業(yè)價(jià)值鏈將核心過程畫出氣泡圖 經(jīng)驗(yàn) 通過維度的一致性來講業(yè)務(wù)過程串起來 通過擴(kuò)展維度或者擴(kuò)展事實(shí)表的方式將多個(gè)源表數(shù)據(jù)納入進(jìn)來 經(jīng)驗(yàn) 有限級別 參考核心系統(tǒng)的名稱規(guī)則 參考已有BI系統(tǒng)的命名規(guī)則 參考專業(yè)術(shù)語翻譯規(guī)則 自定義規(guī)則 經(jīng)驗(yàn) 維度的加工規(guī)則整理出來 數(shù)據(jù)質(zhì)量問題和緩慢變化維的問題考慮進(jìn)來 1 物理設(shè)計(jì) 物理設(shè)計(jì)與物理模型的設(shè)計(jì)緊密相關(guān) 表和列名是用戶體驗(yàn)的關(guān)鍵因素 用于數(shù)據(jù)模型和BI應(yīng)用的導(dǎo)航 因此它們對業(yè)務(wù)來說應(yīng)該是有意義的 空值 異常值處理規(guī)則 增加硬件資源 更多的cpu和內(nèi)存利用聚集表 縮減維度 提高查詢性能獲取用戶的訪問模式 通過評價(jià)數(shù)據(jù)統(tǒng)計(jì)分布尋找劃算的聚集點(diǎn) 包含塊 文件 磁盤 分區(qū) 表空間以及數(shù)據(jù)庫的具體存儲細(xì)節(jié) 索引和聚集表 提供優(yōu)秀的查詢性能 設(shè)計(jì)聚合 包含OLAP數(shù)據(jù)庫 確定物理存儲細(xì)節(jié) 數(shù)據(jù)庫規(guī)劃 如數(shù)據(jù)庫名 表空間 網(wǎng)絡(luò)端口 用戶 索引規(guī)劃 主鍵唯一索引 位圖索引 過濾和分組 B樹索引事實(shí)表中日期宜建立位圖索引 主鍵建立B樹索引或聚集索引 開發(fā)命名及數(shù)據(jù)庫標(biāo)準(zhǔn) 開發(fā)數(shù)據(jù)庫規(guī)劃 BI應(yīng)用規(guī)范 BI應(yīng)用規(guī)范 不是Bi開發(fā)規(guī)范 是需求實(shí)現(xiàn)結(jié)果呈現(xiàn)方式的一種描述 在需求明確后著手的一項(xiàng)工作 創(chuàng)建應(yīng)用程序標(biāo)準(zhǔn)和模板 包含報(bào)表名 標(biāo)題 報(bào)表主題 頁眉頁腳 報(bào)表文件名 創(chuàng)建儀表板和分析性應(yīng)用程序模板確定初始應(yīng)用程序集 需要將報(bào)表進(jìn)行合并與拆分 確定優(yōu)先級制定詳細(xì)的應(yīng)用程序規(guī)范 關(guān)注實(shí)體模型 用戶交互 數(shù)據(jù)集 計(jì)算規(guī)則 與其他報(bào)表交互設(shè)計(jì)導(dǎo)航框架和門戶 制定一種策略來幫助用戶迅速找到他們所需的東西審查以及確認(rèn)應(yīng)用程序和模型 結(jié)合模型設(shè)計(jì)成果和需求對比 審視如何sql編寫 olap如何查詢 發(fā)現(xiàn)問題與業(yè)務(wù)人士一同審查 BI應(yīng)用規(guī)范 BI應(yīng)用規(guī)范示例 BI應(yīng)用規(guī)范 實(shí)體模型 BI應(yīng)用規(guī)范 應(yīng)用程序詳細(xì)定義 BI應(yīng)用規(guī)范 應(yīng)用導(dǎo)航框架 BI應(yīng)用程序開發(fā) 準(zhǔn)備應(yīng)用程序開發(fā) 構(gòu)建應(yīng)用程序 應(yīng)用程序和數(shù)據(jù)測試驗(yàn)證 完成文檔 部署計(jì)劃 BI開發(fā)與與ETL開發(fā)同步進(jìn)行 優(yōu)先準(zhǔn)備好維度數(shù)據(jù) 部署 測試環(huán)境 Descriptionofthecontents 生產(chǎn)環(huán)境 程序功能測試 數(shù)據(jù)集測試 部署過程測試 程序部署 數(shù)據(jù)初始化加載 上線成果驗(yàn)證 Descriptionofthecontents 運(yùn)維與發(fā)展 數(shù)據(jù)倉庫是一個(gè)長期的過程 需要不斷的維護(hù)和升級 系統(tǒng)程序執(zhí)行狀況 日常監(jiān)控 性能調(diào)優(yōu)基礎(chǔ)數(shù)據(jù)維護(hù)日志跟蹤與清理監(jiān)控后臺資源利用率管理磁盤空間備份與恢復(fù) 管理磁盤空間 數(shù)據(jù)庫空間文件存儲空間應(yīng)用端文件存儲空間BI離線報(bào)表和cube存儲空間 備份與回復(fù) 關(guān)系數(shù)據(jù)庫配置文件上傳數(shù)據(jù)文件離線數(shù)據(jù)文件日志文件元數(shù)據(jù)資料庫備份策略有增量備份 全量備份 新增需求 新增需求 體現(xiàn)在基于現(xiàn)有數(shù)據(jù) 新增分析粒度和指標(biāo)新增源系統(tǒng)數(shù)據(jù)入庫 增加分析應(yīng)用系統(tǒng)對外供數(shù) 開發(fā)接口 需求變更 源系統(tǒng)業(yè)務(wù)規(guī)則變化導(dǎo)致需求變化業(yè)務(wù)用戶提出修訂現(xiàn)有應(yīng)用整合企業(yè)多個(gè)應(yīng)用 數(shù)據(jù)源切換外部接口調(diào)整 應(yīng)用下線 依據(jù)應(yīng)用訪問情況統(tǒng)計(jì) 無人使用或者使用率極低的報(bào)表下線處理 數(shù)據(jù)上傳 計(jì)劃值導(dǎo)入系統(tǒng)外部數(shù)據(jù)文件準(zhǔn)備與導(dǎo)入 系統(tǒng)融合 與多個(gè)應(yīng)用系統(tǒng)進(jìn)行融合 培訓(xùn) 持續(xù)不斷的為DW BI系統(tǒng)提供教育培訓(xùn) 包含入門培訓(xùn) 進(jìn)修課程 高低級培訓(xùn)鼓勵(lì)思想交流 1 2 3 4 管理前臺 管理后臺 新增需求或需求變更 其他 應(yīng)對避免的常見錯(cuò)誤 10 過于迷戀技術(shù)和數(shù)據(jù) 而沒有將重點(diǎn)放在業(yè)務(wù)需求和目標(biāo)上 9 沒有一個(gè)強(qiáng)有力的項(xiàng)目發(fā)起人 8 將項(xiàng)目處理為持續(xù)性項(xiàng)目 而不是追求更容易管理的 有挑戰(zhàn)性的迭代開發(fā)工作 7 過于耗費(fèi)精力關(guān)注數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)模型 用盡所有預(yù)算 6 過于關(guān)注后臺數(shù)據(jù)處理過程和易于開發(fā) 沒有重點(diǎn)考慮前端查詢性能和易用性 5 展現(xiàn)區(qū)數(shù)據(jù)結(jié)構(gòu)復(fù)雜 花費(fèi)大量時(shí)間支持業(yè)務(wù)用戶 4 維度模型被放入單一基礎(chǔ)之上 不考慮使用可共享的 一致性維度通過數(shù)據(jù)結(jié)構(gòu)將這些模型聯(lián)系在一起 3 只將匯總數(shù)據(jù)加載到展示區(qū)的維度結(jié)構(gòu)中 2 臆想業(yè)務(wù) 業(yè)務(wù)需求及分析 其涉及的數(shù)據(jù)及支持技術(shù)都是靜態(tài)的 1 忽略數(shù)據(jù)DW BI系統(tǒng)的成功直接來源于業(yè)務(wù)的認(rèn)可 10 應(yīng)對關(guān)注業(yè)務(wù)需求和目標(biāo) 技術(shù)是實(shí)現(xiàn)業(yè)務(wù)需求的一種手段而已 9 在立項(xiàng)或者項(xiàng)目啟動(dòng)階段 尋找一個(gè)有影響力 平易近人的高級管理人員作為項(xiàng)目發(fā)起人 8 需要明確項(xiàng)目可實(shí)現(xiàn)的目標(biāo) 迭代開發(fā) 7 經(jīng)常review項(xiàng)目計(jì)劃 數(shù)據(jù)模型建設(shè)規(guī)劃適度為止 關(guān)注項(xiàng)目工期和實(shí)際投入 6 后臺與前臺需要均衡考慮 提供一個(gè)較優(yōu)的方案 5 基于需求調(diào)整明確展現(xiàn)區(qū)數(shù)據(jù)結(jié)構(gòu) 部分工作轉(zhuǎn)入后臺預(yù)處理 4 部分維度信息被納入到事實(shí)表或者維度表的屬性中 應(yīng)用提煉出可共享的 一致性的維度 3 展現(xiàn)區(qū)的數(shù)據(jù)需要保護(hù)較細(xì)粒度的指標(biāo)數(shù)據(jù) 甚至明細(xì)基礎(chǔ)數(shù)據(jù) 一切依據(jù)需求來設(shè)計(jì)1 如果用戶未將DW BI系統(tǒng)當(dāng)成他們決策的基礎(chǔ) 那么您的工作就是徒勞無益的 因此需求的實(shí)現(xiàn)程度 易用性及其關(guān)鍵 需要在實(shí)施過程中重點(diǎn)關(guān)注 目 2 3 4 5 6 數(shù)據(jù)倉庫是一個(gè)解決方案 數(shù)據(jù)倉庫幾種常見架構(gòu) 數(shù)據(jù)倉庫類項(xiàng)目中人員配置 個(gè)人職業(yè)發(fā)展規(guī)劃建議 匯聚數(shù)據(jù)財(cái)富挖掘潛力無限

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論