數(shù)據(jù)治理元數(shù)據(jù)管理建設規(guī)劃方案_第1頁
數(shù)據(jù)治理元數(shù)據(jù)管理建設規(guī)劃方案_第2頁
數(shù)據(jù)治理元數(shù)據(jù)管理建設規(guī)劃方案_第3頁
數(shù)據(jù)治理元數(shù)據(jù)管理建設規(guī)劃方案_第4頁
數(shù)據(jù)治理元數(shù)據(jù)管理建設規(guī)劃方案_第5頁
已閱讀5頁,還剩66頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)治理元數(shù)據(jù)管理建設

規(guī)劃方案C目錄ONTENTS2元數(shù)據(jù)規(guī)劃與建設1DAMA元數(shù)據(jù)管理3元數(shù)據(jù)應用案例4

CWM-元數(shù)據(jù)建設標準參考度量指標:?元數(shù)據(jù)覆蓋范圍記分卡?元數(shù)據(jù)存儲庫分發(fā)?元數(shù)據(jù)使用報告?元數(shù)據(jù)質(zhì)量記分卡元數(shù)據(jù)管理語境圖3定義:通過計劃、實施和控制活動確保訪問到高質(zhì)量的、整合的元數(shù)據(jù)目標:1、提供企業(yè)可理解的業(yè)務術語并使用它2、從不同來源采集和整合元數(shù)據(jù)3、提供訪問元數(shù)據(jù)的標準方法4、確保元數(shù)據(jù)質(zhì)量與安全投入:?業(yè)務需求?元數(shù)據(jù)問題?數(shù)據(jù)架構?業(yè)務元數(shù)據(jù)?技術元數(shù)據(jù)?過程元數(shù)據(jù).操作元數(shù)據(jù)?數(shù)據(jù)治理元數(shù)據(jù)活動:1、定義元數(shù)據(jù)戰(zhàn)略(P)2、理解元數(shù)據(jù)需求(P)

(1)業(yè)務人員需求

(2)技術人員需求3、定義元數(shù)據(jù)架構(P)(1)創(chuàng)建元模型(D)(2)應用元數(shù)據(jù)標準(C)(3)管理元數(shù)據(jù)存儲(C)4、創(chuàng)建和維護元數(shù)據(jù)(0)

(1)整合元數(shù)據(jù)(0)(2)分發(fā)和傳遞元數(shù)據(jù)(0)5、查詢、報告和分析元數(shù)據(jù)(0)產(chǎn)出:?元數(shù)據(jù)戰(zhàn)略?元數(shù)據(jù)標準?元數(shù)據(jù)架構?元模型?統(tǒng)一的元數(shù)據(jù)?元數(shù)據(jù)庫?數(shù)據(jù)血緣?影響分析?依賴分析?元數(shù)據(jù)控制過程供應者:?業(yè)務數(shù)據(jù)管理專員?數(shù)據(jù)管理人員?數(shù)據(jù)治理人員?數(shù)據(jù)建模師?數(shù)據(jù)庫管理員參與者:?數(shù)據(jù)管理專員?項目管理人員?數(shù)據(jù)架構師?業(yè)務分析師?系統(tǒng)分析師供應者:?應用開發(fā)分析師?數(shù)據(jù)整合人員?業(yè)務人員?知識工作者?客戶或合作伙伴?數(shù)據(jù)新聞記者方法:?數(shù)據(jù)血緣與影響分析?應用于大數(shù)據(jù)采集的元數(shù)據(jù)工具:?元數(shù)據(jù)存儲庫管理工具?其它的元數(shù)據(jù)存儲庫業(yè)務驅(qū)動技術驅(qū)動主數(shù)據(jù)業(yè)務驅(qū)動因素1、可靠且良好的元數(shù)據(jù)管理會帶來好處2、元數(shù)據(jù)管理不善導致問題元數(shù)據(jù)管理-基本概念-概念引入數(shù)據(jù)戰(zhàn)略17數(shù)據(jù)管理和組織變革管理01數(shù)據(jù)管理14大數(shù)據(jù)和數(shù)據(jù)科學11數(shù)據(jù)倉庫和商務智能數(shù)據(jù)應用與服務02數(shù)據(jù)處理倫理03數(shù)據(jù)治理促進支撐04數(shù)據(jù)架構05數(shù)據(jù)建模與設計06數(shù)據(jù)存儲和操作07數(shù)據(jù)安全09文件和內(nèi)容管理10參考數(shù)據(jù)和主數(shù)據(jù)04數(shù)據(jù)質(zhì)量管理12元數(shù)據(jù)管理核心領域06數(shù)據(jù)存儲和操作08數(shù)據(jù)集成和互操作16數(shù)據(jù)管理組織與角色期望基礎設施組織保障實現(xiàn)支撐要求、指導主數(shù)據(jù)的質(zhì)量管理是數(shù)據(jù)管理實踐和組織的關鍵能力元數(shù)據(jù)組織管理與角色是數(shù)據(jù)治理領域的一項重要內(nèi)容數(shù)據(jù)架構是數(shù)據(jù)治理方向的一個重要組成元主數(shù)據(jù)管理是數(shù)據(jù)管理實踐和組織的基礎核心能力元數(shù)據(jù)管理-引言元數(shù)據(jù)最常見的定義是“關于數(shù)據(jù)的數(shù)據(jù)”。不僅包括技術和業(yè)務流程、數(shù)據(jù)規(guī)則和約束,還包括邏輯數(shù)據(jù)結構與物理數(shù)據(jù)結構等。它描述了數(shù)據(jù)本身(如數(shù)據(jù)庫、數(shù)據(jù)元素、數(shù)據(jù)模型),數(shù)據(jù)表示的概念(如業(yè)務流程、應用系統(tǒng)、軟件代碼、技術基礎設施),數(shù)據(jù)與概念之間的聯(lián)系(關系)元數(shù)據(jù)管理重要作用:幫助組織理解其自身的數(shù)據(jù)、系統(tǒng)和流程,同時幫助用戶評估數(shù)據(jù)質(zhì)量,對數(shù)據(jù)庫與其他應用程序的管理來說是不可或缺的。它有助于處理、維護、集成、保護和治理其他數(shù)據(jù)元數(shù)據(jù)對于數(shù)據(jù)管理和數(shù)據(jù)使用來說都是必不可少的。在整個組織中,不同的人擁有不同層面的數(shù)據(jù)知識,但沒有人知道關于數(shù)據(jù)的一切。元數(shù)據(jù)管理不僅是知識管理面臨的一個挑戰(zhàn),還是風險管理的一個必要條件,元數(shù)據(jù)可以確保組織識別私有的或敏感的數(shù)據(jù),能夠管理數(shù)據(jù)的生命周期,以實現(xiàn)自身利益,滿足合規(guī)要求,并減少風險敞口。如果沒有元數(shù)據(jù),組織就不能將其數(shù)據(jù)作為資產(chǎn)進行管理;就不知道它擁有什么數(shù)據(jù)、數(shù)據(jù)表示什么、數(shù)據(jù)來自何處、它如何在系統(tǒng)中流轉(zhuǎn),誰有權訪問它等;如果沒有元數(shù)據(jù),組織可能根本無法管理其數(shù)據(jù)。技術元數(shù)據(jù)已經(jīng)成為數(shù)據(jù)遷移和集成方法中不可或缺的一部分,元數(shù)據(jù)注冊標準ISO/IEC11179旨在基于精確數(shù)據(jù)定義,在異構環(huán)境中實現(xiàn)以元數(shù)據(jù)為驅(qū)動的數(shù)據(jù)交換。元數(shù)據(jù)數(shù)據(jù)圖書目錄卡片書籍描述描述隨著企業(yè)采集和存儲的能力提升,要實現(xiàn)數(shù)據(jù)驅(qū)動,組織必須先實現(xiàn)元數(shù)據(jù)驅(qū)動可靠元數(shù)據(jù)有助于(10點)元數(shù)據(jù)管理-業(yè)務驅(qū)動因素元數(shù)據(jù)管理不善導致(5點)通過提供上下文語境和執(zhí)行數(shù)據(jù)質(zhì)量檢查提高數(shù)據(jù)的可信度通過擴展用途增加戰(zhàn)略信息(如主數(shù)據(jù))的價值通過識別冗余數(shù)據(jù)和流程提高運營效率防止使用過時或不正確的數(shù)據(jù)減少數(shù)據(jù)的研究時間改善數(shù)據(jù)使用者和IT專業(yè)人員之間的溝通創(chuàng)建準確的影響分析,從而降低項目失敗的風險通過縮短系統(tǒng)開發(fā)生命周期時間縮短產(chǎn)品上市時間通過全面記錄數(shù)據(jù)背景、歷史和來源降低培訓成本和員工流動的影響滿足監(jiān)管合規(guī)冗余的數(shù)據(jù)和數(shù)據(jù)管理流程。重復和冗余的字典、存儲庫和其他元數(shù)據(jù)存儲。不一致的數(shù)據(jù)元素定義和與數(shù)據(jù)濫用的相關風險。元數(shù)據(jù)的不同版本相互矛盾且有沖突,降低了數(shù)據(jù)使用者的信心。懷疑元數(shù)據(jù)和數(shù)據(jù)的可靠性。沒有元數(shù)據(jù),就沒法管理數(shù)據(jù);元數(shù)據(jù)是用一種標準化的數(shù)據(jù)“語言”從多維度實現(xiàn)數(shù)據(jù)的管理良好的元數(shù)據(jù)管理工作,可以確保對數(shù)據(jù)資源的一致理解和更加高效的跨組織開發(fā)使用。元數(shù)據(jù)有助于采用一致的方式表示信息、簡化工作流程以及保護敏感信息,尤其是在已有監(jiān)管合規(guī)要求的情況下。元數(shù)據(jù)管理-目標與原則目標記錄和管理與數(shù)據(jù)相關的業(yè)務術語的知識體系,以確保人們理解和使用數(shù)據(jù)內(nèi)容的一致性。收集和整合來自不同來源的元數(shù)據(jù),以確保人們了解來自組織不同部門的數(shù)據(jù)之間的相似與差異。確保元數(shù)據(jù)的質(zhì)量、一致性、及時性和安全。提供標準途徑,使元數(shù)據(jù)使用者(人員、系統(tǒng)和流程)可以訪問元數(shù)據(jù)。推廣或強制使用技術元數(shù)據(jù)標準,以實現(xiàn)數(shù)據(jù)交換原則組織承諾。確保組織對元數(shù)據(jù)管理的承諾(高級管理層的支持和資金),將元數(shù)據(jù)管理作為企業(yè)整體戰(zhàn)略的一部分,將數(shù)據(jù)作為企業(yè)資產(chǎn)進行管理。戰(zhàn)略。制定元數(shù)據(jù)戰(zhàn)略,考慮如何創(chuàng)建、維護、集成和訪問元數(shù)據(jù)。戰(zhàn)略能推動需求,這些需求應在評估、購買和安裝元數(shù)據(jù)管理產(chǎn)品之前定義。元數(shù)據(jù)戰(zhàn)略必須與業(yè)務優(yōu)先級保持一致。企業(yè)視角。從企業(yè)視角確保未來的可擴展性,但是要通過迭代和增量交付來實現(xiàn),以帶來價值。潛移默化。宣導元數(shù)據(jù)的必要性和每種元數(shù)據(jù)的用途;潛移默化其價值將鼓勵業(yè)務使用元數(shù)據(jù),同時也為業(yè)務提供知識輔助。訪問。確保員工了解如何訪問和使用元數(shù)據(jù)。質(zhì)量。認識到元數(shù)據(jù)通常是通過現(xiàn)有流程(數(shù)據(jù)建模、SDLC、業(yè)務流程定義)生成的,所以流程所有者應對元數(shù)據(jù)的質(zhì)量負責。審計。制定、實施和審核元數(shù)據(jù)標準,以簡化元數(shù)據(jù)的集成和使用。改進。創(chuàng)建反饋機制,以便數(shù)據(jù)使用者可以將錯誤的或過時的元數(shù)據(jù)反饋給元數(shù)據(jù)管理團隊元數(shù)據(jù)管理-基本概念1、元數(shù)據(jù)與數(shù)據(jù)3、元數(shù)據(jù)注冊標準5、元數(shù)據(jù)來源2、元數(shù)據(jù)類型4、非結構化數(shù)據(jù)元數(shù)據(jù)6、元數(shù)據(jù)架構類型元數(shù)據(jù)管理-基本概念-元數(shù)據(jù)與數(shù)據(jù)元數(shù)據(jù)也是一種數(shù)據(jù),應該用數(shù)據(jù)管理的方式進行管理一些組織面臨的一個問題是,如何在元數(shù)據(jù)和非元數(shù)據(jù)之間劃分界限。從概念上講,這條邊界與數(shù)據(jù)所代表的抽象級別有關。為了管理元數(shù)據(jù),組織不應該擔心理論上的區(qū)別,相反他們應該定義元數(shù)據(jù)需求,重點關注元數(shù)據(jù)能用來做什么(創(chuàng)建新數(shù)據(jù)、了解現(xiàn)有數(shù)據(jù)、實現(xiàn)系統(tǒng)之間的流轉(zhuǎn)、訪問數(shù)據(jù)、共享數(shù)據(jù))和滿足這些需求的源數(shù)據(jù)。元數(shù)據(jù)管理-基本概念-元數(shù)據(jù)類型(1)元數(shù)據(jù)通常分為三種類型:業(yè)務元數(shù)據(jù)、技術元數(shù)據(jù)和操作元數(shù)據(jù)。類別也可能導致混淆。最好是根據(jù)數(shù)據(jù)的來源而不是使用方式來考慮這些類別。技術元數(shù)據(jù)提供有關數(shù)據(jù)的技術細節(jié)、存儲數(shù)據(jù)的系統(tǒng)以及在系統(tǒng)內(nèi)和系統(tǒng)之間數(shù)據(jù)流轉(zhuǎn)過程的信息操作元數(shù)據(jù)描述了處理和訪問數(shù)據(jù)的細節(jié)業(yè)務元數(shù)據(jù)主要關注數(shù)據(jù)的內(nèi)容和條件,另包括與數(shù)據(jù)治理相關的詳細信息業(yè)務元數(shù)據(jù)包括主題域、概念、實體、屬性的非技術名稱和定義、屬性的數(shù)據(jù)類型和其他特征。1)數(shù)據(jù)集、表和字段的定義和描述。2)業(yè)務規(guī)則、轉(zhuǎn)換規(guī)則、計算公式和推導公式。3)數(shù)據(jù)模型。4)數(shù)據(jù)質(zhì)量規(guī)則和檢核結果。5)數(shù)據(jù)的更新計劃。6)數(shù)據(jù)溯源和數(shù)據(jù)血緣。7)數(shù)據(jù)標準。8)特定的數(shù)據(jù)元素記錄系統(tǒng)。9)有效值約束。10)利益相關方聯(lián)系信息(如數(shù)據(jù)所有者、數(shù)據(jù)管理專員)。11)數(shù)據(jù)的安全/隱私級別。12)已知的數(shù)據(jù)問題。13)數(shù)據(jù)使用說明1)物理數(shù)據(jù)庫表名和字段名。2)字段屬性。3)數(shù)據(jù)庫對象的屬性。4)訪問權限。5)數(shù)據(jù)CRUD(增、刪、改、查)規(guī)則。6)物理數(shù)據(jù)模型,包括數(shù)據(jù)表名、鍵和索引。7)記錄數(shù)據(jù)模型與實物資產(chǎn)之間的關系。8)ETL作業(yè)詳細信息。9)文件格式模式定義。10)源到目標的映射文檔。11)數(shù)據(jù)血緣文檔,包括上游和下游變更影響的信息。12)程序和應用的名稱和描述。13)周期作業(yè)(內(nèi)容更新)的調(diào)度計劃和依賴。14)恢復和備份規(guī)則。15)數(shù)據(jù)訪問的權限、組、角色1)批處理程序的作業(yè)執(zhí)行日志。2)抽取歷史和結果。3)調(diào)度異常處理。4)審計、平衡、控制度量的結果。5)錯誤日志。6)報表和查詢的訪問模式、頻率和執(zhí)行時間。7)補丁和版本的維護計劃和執(zhí)行情況,及補丁級別。8)備份、保留、創(chuàng)建日期、災備恢復預案。9)服務水平協(xié)議(SLA)要求和規(guī)定。10)容量和使用模式。11)數(shù)據(jù)歸檔、保留規(guī)則和相關歸檔文件。12)清洗標準。13)數(shù)據(jù)共享規(guī)則和協(xié)議。14)技術人員的角色、職責和聯(lián)系信息結構元數(shù)據(jù)描述資源及其組成組件之間的關系,如頁數(shù)、章節(jié)等元數(shù)據(jù)管理-基本概念-元數(shù)據(jù)注冊標準管理元數(shù)據(jù)用于描述管理生命周期的元數(shù)據(jù),如版本號、存檔日期等描述元數(shù)據(jù)描述資源并支持識別和檢索,如標題、作者和主題等信息技術之外的領域,如在圖書館或信息科學中,元數(shù)據(jù)被描述為不同的類別:描述元數(shù)據(jù)、結構元數(shù)據(jù)、管理元數(shù)據(jù)ISO的元數(shù)據(jù)注冊標準ISO/1EC11179中提供了用于定義元數(shù)據(jù)注冊的框架,旨在基于數(shù)據(jù)的精確定義,從數(shù)據(jù)元素開始,實現(xiàn)元數(shù)據(jù)驅(qū)動的數(shù)據(jù)交換。該標準由以下幾部分組成第1部分:數(shù)據(jù)元素生成和標準化框架。第2部分:數(shù)據(jù)元數(shù)據(jù)分類。第3部分:數(shù)據(jù)元素的基本屬性。第4部分:數(shù)據(jù)定義的形成規(guī)則和指南。第5部分:數(shù)據(jù)元素的命名和識別原則。第6部分:數(shù)據(jù)元素的注冊。元數(shù)據(jù)管理-基本概念-非結構化數(shù)據(jù)的元數(shù)據(jù)任何不在數(shù)據(jù)庫或數(shù)據(jù)文件中的數(shù)據(jù)(包括文檔或其他介質(zhì))都被認為是非結構化數(shù)據(jù)。相比結構化數(shù)據(jù)的管理,元數(shù)據(jù)對非結構化數(shù)據(jù)的管理來說可能更為重要。圖書館目錄卡片中元數(shù)據(jù)的主要用途是找到所需材料,而不用在意其格式非結構化數(shù)據(jù)的元數(shù)據(jù)描述元數(shù)據(jù)結構元數(shù)據(jù)管理元數(shù)據(jù)書目元數(shù)據(jù)保存元數(shù)據(jù)如目錄信息和同義關鍵字如標簽、字段結構、特定格式如來源、更新計劃、訪問權限和導航信息如圖書館目錄條目;記錄元數(shù)據(jù),如保留策略如存儲、歸檔條件和保存規(guī)則非結構化數(shù)據(jù)(文件、文檔和內(nèi)容)管理在大數(shù)據(jù)技術的背景下,出現(xiàn)了新的實踐:大多數(shù)人斷言非結構數(shù)據(jù)的元數(shù)據(jù)管理與傳統(tǒng)的內(nèi)容管理問題相關,但是圍繞著數(shù)據(jù)湖中的非結構化數(shù)據(jù)管理出現(xiàn)了新的實踐。希望利用數(shù)據(jù)湖、使用Hadoop等大數(shù)據(jù)平臺的組織發(fā)現(xiàn),他們必須對采集的數(shù)據(jù)進行編目,以便以后訪問。在多數(shù)情況下,收集元數(shù)據(jù)作為數(shù)據(jù)采集流程的一部分,需要收集關于在數(shù)據(jù)湖中采集的每個對象的最小元數(shù)據(jù)屬性集(如名稱、格式、來源、版本、接收日期等),這將生成數(shù)據(jù)湖內(nèi)容的目錄元數(shù)據(jù)管理-基本概念-元數(shù)據(jù)來源元數(shù)據(jù)的來源各異。元數(shù)據(jù)通常是作為應用程序處理的副產(chǎn)品而不是最終產(chǎn)品創(chuàng)建的(它不是為消費而創(chuàng)造的)。與其他形式的數(shù)據(jù)一樣,在元數(shù)據(jù)集成之前,還需要做大量的準備工作。對現(xiàn)有系統(tǒng)中的數(shù)據(jù)進行逆向工程,并從現(xiàn)有數(shù)據(jù)字典、模型和流程文檔中收集業(yè)務元數(shù)據(jù)。但這樣做是有風險的,最大的風險在于一開始不知道在開發(fā)和細化這些定義時需要花費多少精力。最好是有意識地重新定義而不是簡單地接受現(xiàn)有定義。定義的確定需要時間和正確的技能(如寫作和輔導技能),這就是業(yè)務元數(shù)據(jù)的開發(fā)需要專職崗位的原因管理數(shù)據(jù)庫所需的大部分技術元數(shù)據(jù)和使用數(shù)據(jù)所需的業(yè)務元數(shù)據(jù),可以作為項目工作的一部分進行收集和開發(fā)。數(shù)據(jù)模型本身包含數(shù)據(jù)物理特征的重要細節(jié),應在這些工作上分配足夠的時間,以確保項目產(chǎn)出物包含符合企業(yè)標準的高質(zhì)量元數(shù)據(jù)定義良好的業(yè)務元數(shù)據(jù)可以在不同的項目中重復使用,并促進在不同數(shù)據(jù)集的業(yè)務概念得到一致理解。組織還可以有意規(guī)劃元數(shù)據(jù)的集成作為開發(fā)元數(shù)據(jù)的一部分,以便元數(shù)據(jù)可以重復使用。為元數(shù)據(jù)本身而創(chuàng)建元數(shù)據(jù)很少能行得通,它應該作為有明確定義流程的產(chǎn)品而創(chuàng)建,使用可以保障整體質(zhì)量的工具,管理員和其他數(shù)據(jù)管理專業(yè)人員應確保有適當?shù)牧鞒虂砭S護與這些流程相關的元數(shù)據(jù)。元數(shù)據(jù)管理-基本概念-元數(shù)據(jù)來源(1)應用程序中元數(shù)據(jù)存儲庫元數(shù)據(jù)存儲庫指存儲元數(shù)據(jù)的物理表,這些表通常內(nèi)置在建模工具、BI工具和其他應用程序中。隨著組織元數(shù)據(jù)管理成熟度的提升,希望將不同應用程序中的元數(shù)據(jù)集成,以便數(shù)據(jù)使用者可以查看到各種信息。業(yè)務術語表商務智能工具配置管理工具數(shù)據(jù)字典作用:記錄和存儲組織的業(yè)務概念、術語、定義以及這些術語之間的關系。其應用程序滿足三個核心用戶的功能需求:業(yè)務用戶。使用業(yè)務術語表來理解術語和數(shù)據(jù)數(shù)據(jù)管理專員。數(shù)據(jù)管理專員使用業(yè)務術語表管理和定義術語的生命周期,并通過將數(shù)據(jù)資產(chǎn)與術語表相關聯(lián)增強企業(yè)知識,如將術語與業(yè)務指標、報告、數(shù)據(jù)質(zhì)量分析或技術組件相關聯(lián)。技術用戶。技術用戶使用業(yè)務術語表設計架構、設計系統(tǒng)和開發(fā)決策,并進行影響分析業(yè)務術語表應包含業(yè)務術語屬性,例如:術語名稱、定義、縮寫或簡稱,以及任何同義詞。負責管理與術語相關的數(shù)據(jù)的業(yè)務部門或程序。維護術語的人員姓名和更新日期。術語的分類或分類間的關聯(lián)(業(yè)務功能關聯(lián))。需要解決的沖突定義、問題的性質(zhì)、行動時間表。常見的誤解。支持定義的算法。血緣。支持該術語的官方或權威數(shù)據(jù)來源。每個業(yè)務術語表的實施都應該有一組支持治理過程的基本報告。商務智能工具生成與商務智能設計相關的各類元數(shù)據(jù),包括概述信息、類、對象、衍生信息和計算的項、過濾器、報表、報表字段、報表展現(xiàn)、報表用戶、報表發(fā)布頻率和報表發(fā)布渠道配置管理工具或數(shù)據(jù)庫(CMDB)提供了管理和維護與IT資產(chǎn)、它們之間的關系以及資產(chǎn)的合同細節(jié)相關的元數(shù)據(jù)的功能。CMDB數(shù)據(jù)庫中的每個資產(chǎn)都被稱為配置項(CI)。為每個CI類型收集和管理標準元數(shù)據(jù)。數(shù)據(jù)字典定義數(shù)據(jù)集的結構和內(nèi)容,通常用于單個數(shù)據(jù)庫、應用程序或數(shù)據(jù)倉庫。數(shù)據(jù)字典可用于管理數(shù)據(jù)模型中每個元素的名稱、描述、結構、特征、存儲要求、默認值、關系、唯一性和其他屬性。它還應包含表或文件定義。數(shù)據(jù)字典嵌入在數(shù)據(jù)庫工具中,用于創(chuàng)建、操作和處理其中包含的數(shù)據(jù)。數(shù)據(jù)字典可以幫助組織確保此信息不會完全丟失,以及在生產(chǎn)部署之后邏輯模型與物理模型保持一致。數(shù)據(jù)集成工具任何成功的元數(shù)據(jù)解決方案都應該能夠通過集成工具移動時使用沿襲元數(shù)據(jù),并將其作為從實際源到最終目的地的整體血統(tǒng)進行公開。數(shù)據(jù)集成工具提供了應用程序接口(API),允許外部元數(shù)據(jù)存儲庫提取血緣關系信息和臨時文件元數(shù)據(jù)。一旦元數(shù)據(jù)存儲庫收集了信息,元數(shù)據(jù)管理工具就可以為任何數(shù)據(jù)元素生成全局數(shù)據(jù)地圖。數(shù)據(jù)集成工具還提供有關各種數(shù)據(jù)集成作業(yè)執(zhí)行的元數(shù)據(jù),包括上次成功運行、持續(xù)時間和作業(yè)狀態(tài)。數(shù)據(jù)庫管理與系統(tǒng)目錄數(shù)據(jù)映射管理工具數(shù)據(jù)質(zhì)量工具字典和目錄數(shù)據(jù)庫目錄是元數(shù)據(jù)的重要來源,它們描述了數(shù)據(jù)庫的內(nèi)容、信息大小、軟件版本、部署狀態(tài)、網(wǎng)絡正常運行時間、可用性,以及許多其他操作元數(shù)據(jù)屬性。最常見的關系型數(shù)據(jù)庫中的表包含一個或多個列、索引、約束、視圖和存儲過程。元數(shù)據(jù)解決方案應該能夠連接到各種數(shù)據(jù)庫和數(shù)據(jù)集,并讀取數(shù)據(jù)庫公開的所有元數(shù)據(jù)。一些元數(shù)據(jù)存儲庫工具可以集成系統(tǒng)管理工具中公開的元數(shù)據(jù),以提供描述物理資產(chǎn)的更全面的圖像。映射管理工具用于項目的分析和設計階段,它將需求轉(zhuǎn)換為映射規(guī)范,然后由數(shù)據(jù)集成工具直接使用或由開發(fā)人員用來生成數(shù)據(jù)集成代碼。映射文檔通常也存儲在整個企業(yè)的Excel文檔中。一些廠商現(xiàn)在正在考慮為映射規(guī)范提供集中存儲庫。許多映射工具與數(shù)據(jù)集成工具集成后,便可以自動生成數(shù)據(jù)集成程序,還可以與其他元數(shù)據(jù)和參考數(shù)據(jù)存儲庫進行數(shù)據(jù)交換數(shù)據(jù)質(zhì)量工具通過驗證規(guī)則來評估數(shù)據(jù)質(zhì)量,其中的大多數(shù)工具提供了與其他元數(shù)據(jù)存儲庫交換質(zhì)量分數(shù)和質(zhì)量概況的功能,使元數(shù)據(jù)存儲庫能夠?qū)①|(zhì)量分數(shù)附加到相關的物理資產(chǎn)上。字典或目錄包含有關組織內(nèi)數(shù)據(jù)的系統(tǒng)、源和位置的信息。元數(shù)據(jù)目錄對于開發(fā)人員和數(shù)據(jù)超級用戶(如數(shù)據(jù)管理團隊和數(shù)據(jù)分析師)來說特別有用,可以了解企業(yè)中的數(shù)據(jù)范圍,無論是研究問題還是查找有關尋找新應用程序的信息。元數(shù)據(jù)管理-基本概念-元數(shù)據(jù)來源(2)事件消息工具事件消息工具在不同系統(tǒng)之間移動數(shù)據(jù),需要大量的元數(shù)據(jù),并生成描述此移動的元數(shù)據(jù)。這些工具包括圖形接口,可以管理數(shù)據(jù)移動的邏輯,并將接口實現(xiàn)細節(jié)、移動邏輯和處理統(tǒng)計信息導出到其他元數(shù)據(jù)存儲庫。建模工具和存儲庫參考數(shù)據(jù)庫服務注冊其他元數(shù)據(jù)存儲數(shù)據(jù)建模工具用于構建各種類型的數(shù)據(jù)模型:概念模型、邏輯模型和物理模型。這些工具生成與應用程序或系統(tǒng)模型設計相關的元數(shù)據(jù),如主題域、邏輯實體、邏輯屬性、實體和屬性關系、父類型和子類型、表、字段、索引、主鍵和外鍵、完整性約束以及模型中其他類型的屬性。元數(shù)據(jù)存儲庫可以提取由這些工具創(chuàng)建的模型,并將導入的元數(shù)據(jù)整合到存儲庫中。建模工具通常是數(shù)據(jù)字典內(nèi)容的來源。參考數(shù)據(jù)記錄各種類型的枚舉數(shù)據(jù)(值域)的業(yè)務價值和描述,在系統(tǒng)中的上下文中使用。管理參考數(shù)據(jù)的工具套件通常提供將收集的參考數(shù)據(jù)發(fā)送到元數(shù)據(jù)存儲庫的功能,元數(shù)據(jù)存儲庫則提供將參考數(shù)據(jù)與業(yè)務詞匯表以及物理實現(xiàn)該數(shù)據(jù)的位置(如列或字段)相關聯(lián)的機制。服務注冊是從面向服務的架構(SOA)角度管理和存儲有關服務和服務終端的技術信息,如定義、接口、操作、輸入和輸出參數(shù)、制度、版本和示例使用場景。一些與服務相關的最重要的元數(shù)據(jù)包括服務版本、服務位置、數(shù)據(jù)中心、可用性、部署日期、服務端口、IP地址、統(tǒng)計端口、連接超時和連接重試超時。可以提取服務存儲庫中的元數(shù)據(jù),并將其與從其他工具收集的元數(shù)據(jù)合并,以提供數(shù)據(jù)如何在各種系統(tǒng)之間移動的完整畫面。其他元數(shù)據(jù)的種類繁多,大多是指特定格式的清單,如事件注冊表、源列表或接口、代碼集、詞典、時空模式、空間參考、數(shù)字地理數(shù)據(jù)集的分發(fā)、存儲庫的存儲庫和業(yè)務規(guī)則。元數(shù)據(jù)管理-基本概念-元數(shù)據(jù)來源(3)元數(shù)據(jù)管理-基本概念-元數(shù)據(jù)架構類型(1)元數(shù)據(jù)生命周期包括:1)元數(shù)據(jù)創(chuàng)建和采集。2)元數(shù)據(jù)在一個或多個存儲庫中存儲。3)元數(shù)據(jù)集成。4)元數(shù)據(jù)交付。5)元數(shù)據(jù)使用。6)元數(shù)據(jù)控制和管理。名稱描述優(yōu)點缺點集中式元數(shù)據(jù)架構由單一的元數(shù)據(jù)存儲庫組成,包含來自各種不同源的元數(shù)據(jù)副本。IT資源有限的組織或追求盡可能實現(xiàn)自動化的組織,可能會選擇避免使用此架構選項。在公共元數(shù)據(jù)存儲庫中尋求高度一致性的組織,可以從集中式元數(shù)據(jù)架構中受益。1)高可用性,因為它獨立于源系統(tǒng)。2)快速的元數(shù)據(jù)檢索,存儲庫和查詢功能一起。3)解決了數(shù)據(jù)庫結構問題,使其不受第三方或商業(yè)系統(tǒng)特有屬性的影響。4)抽取元數(shù)據(jù)時可進行轉(zhuǎn)換、自定義或補充其他源系統(tǒng)中的元數(shù)據(jù),提高了元數(shù)據(jù)的質(zhì)量。1)必須使用復雜的流程確保元數(shù)據(jù)源頭中的更改能夠快速同步到存儲庫中。2)維護集中式存儲庫的成本可能很高。3)元數(shù)據(jù)的抽取自定義模塊或中間件。4)驗證和維護自定義代碼會增加對內(nèi)部IT人員和軟件供應商的要求。分布式元數(shù)據(jù)架構一個完全分布式的架構中維護了一個單一的接入點。元數(shù)據(jù)檢索引擎通過實時從源系統(tǒng)檢索數(shù)據(jù)來響應用戶請求;分布式元數(shù)據(jù)架構沒有持久化的存儲庫。在這種架構中,元數(shù)據(jù)管理環(huán)境維護必要的源系統(tǒng)目錄和查找信息,以有效處理用戶查詢和搜索。沒有集中式元數(shù)據(jù)存儲庫,門戶會將用戶的請求傳遞給相應的工具來執(zhí)行,因此不具有跨各種元數(shù)據(jù)源進行全局搜索的功能1)元數(shù)據(jù)總是盡可能保持最新且有效,因為它是從其數(shù)據(jù)源中直接檢索的。2)查詢是分布式的,會提高響應和處理的效率。3)來自專有系統(tǒng)的元數(shù)據(jù)請求僅限于查詢處理,而不需要詳細了解專有數(shù)據(jù)結構,因此最大、限度地減少了實施和維護所需的工作量。4)自動化元數(shù)據(jù)查詢處理的開發(fā)可能更簡單,只需要很少的人工干預。5)減少了批處理,沒有元數(shù)據(jù)復制或同步過程。1)無法支持用戶定義或手動插入的元數(shù)據(jù)項,因沒有存儲庫可以放置。2)需要通過統(tǒng)一的、標準化的展示方式呈現(xiàn)來自不同系統(tǒng)的元數(shù)據(jù)。3)查詢功能受源系統(tǒng)可用性的影響。4)元數(shù)據(jù)的質(zhì)量完全取決于源系統(tǒng)。集中式元數(shù)據(jù)架構分布式元數(shù)據(jù)架構元數(shù)據(jù)管理-基本概念-元數(shù)據(jù)架構類型(2)混合架構結合了集中式和分布式架構的特性,元數(shù)據(jù)仍然直接從源系統(tǒng)移動到集中式存儲庫,但存儲庫設計僅考慮用戶添加的元數(shù)據(jù)、重要的標準化元數(shù)據(jù)以及來通過自手工來源添加的元數(shù)據(jù)。該架構得益于從源頭近乎實時地檢索元數(shù)據(jù)和擴充元數(shù)據(jù),可在需要時最有效地滿足用戶需求。混合方法降低了對專有系統(tǒng)進行手動干預和自定義編碼訪問功能的工作量。基于用戶的優(yōu)先級和要求,元數(shù)據(jù)在使用時盡可能是最新且有效的。許多組織都可以從混合架構中受益,包括那些具有快速變化的操作元數(shù)據(jù)的組織,需要一致、統(tǒng)一的元數(shù)據(jù)組織,以及在元數(shù)據(jù)和元數(shù)據(jù)源正在大幅增長的組織。源系統(tǒng)的可用性是一個限制,因為后端系統(tǒng)的分布式特性處理查詢。在將結果集呈現(xiàn)給最終用戶之前,需要用額外的系統(tǒng)開銷將這些初始結果與中央存儲庫中的元數(shù)據(jù)擴展連接起來。混合架構不會提高系統(tǒng)可用性。對于大多靜態(tài)元數(shù)據(jù)或元數(shù)據(jù)量較小元數(shù)據(jù)增量的組織來說,可能無法發(fā)揮這種架構替代方案的最大潛力。混合式式元數(shù)據(jù)架構缺點混合式式元數(shù)據(jù)架構優(yōu)點雙向元數(shù)據(jù)架構,它允許元數(shù)據(jù)在架構的任何部分(源、數(shù)據(jù)集成、用戶界面)中進行更改,然后將變更從存儲庫(代理)同步到其原始源以實現(xiàn)反饋。雙向架構這種方法存在各種挑戰(zhàn)混合式元數(shù)據(jù)架構元數(shù)據(jù)管理-活動-定義元數(shù)據(jù)戰(zhàn)略理解元數(shù)據(jù)需求定義元數(shù)據(jù)架構創(chuàng)建和維護元數(shù)據(jù)查詢、報告和分析元數(shù)據(jù)定義元數(shù)據(jù)戰(zhàn)略元數(shù)據(jù)戰(zhàn)略描述組織應如何管理其自身元數(shù)據(jù),以及元數(shù)據(jù)從當前狀態(tài)到未來狀態(tài)的實施線路。元數(shù)據(jù)戰(zhàn)略應該為開發(fā)團隊提供一個框架,以提升元數(shù)據(jù)管理能力。開發(fā)元數(shù)據(jù)需求,可以幫助闡明元數(shù)據(jù)戰(zhàn)略的驅(qū)動力,識別潛在障礙并克服它。元數(shù)據(jù)戰(zhàn)略包括定義組織元數(shù)據(jù)架構藍圖和與戰(zhàn)略目標匹配的實施步驟。啟動計劃組織訪談評估規(guī)劃設計實施計劃啟動元數(shù)據(jù)戰(zhàn)略計劃。啟動和計劃的目的是保證元數(shù)據(jù)戰(zhàn)略團隊可以定義出短期和長期目標。計劃包括起草與整體治理措施一致的章程、范圍和具體目標,然后展開溝通計劃以落實治理措施。關鍵利益相關方應參與計劃制訂。組織關鍵利益相關方的訪談。通過對業(yè)務人員和技術人員的訪談,可以得到元數(shù)據(jù)戰(zhàn)略的基礎知識。評估現(xiàn)有的元數(shù)據(jù)資源和信息架構。評估確定解決元數(shù)據(jù)和系統(tǒng)問題的難度,在訪談和文檔復查中識別這些問題。在此階段,對關鍵IT員工做進一步訪談,審查系統(tǒng)架構、數(shù)據(jù)模型等文檔。開發(fā)未來的元數(shù)據(jù)架構。優(yōu)化和確認未來愿景,開發(fā)可以滿足管理現(xiàn)階段元數(shù)據(jù)環(huán)境長期目標的元數(shù)據(jù)架構。這個階段必須考慮戰(zhàn)略組成部分,如組織架構、與數(shù)據(jù)治理所需的管理人員一致、受控的元數(shù)據(jù)架構、元數(shù)據(jù)交付架構、技術架構和安全架構。?制訂分階段的實施計劃。從訪談和數(shù)據(jù)分析中驗證、整合、確定結果的優(yōu)先級,發(fā)布元數(shù)據(jù)戰(zhàn)略,并定義分階段的、可以從當前狀態(tài)邁向未來受控的元數(shù)據(jù)環(huán)境的實施方法。理解元數(shù)據(jù)需求定義元數(shù)據(jù)架構創(chuàng)建和維護元數(shù)據(jù)查詢、報告和分析元數(shù)據(jù)定義元數(shù)據(jù)戰(zhàn)略元數(shù)據(jù)管理-活動-理解元數(shù)據(jù)需求元數(shù)據(jù)需求的具體內(nèi)容是:需要哪些元數(shù)據(jù)和哪種詳細級別;如需要采集表和字段的物理名稱和邏輯名稱。元數(shù)據(jù)綜合解決方案由以下功能需求點組成更新頻次。元數(shù)據(jù)屬性和屬性集更新的頻率。同步情況。數(shù)據(jù)源頭變化后的更新時間。歷史信息。是否需要保留元數(shù)據(jù)的歷史版本。訪問權限。通過特定的用戶界面功能,誰可以訪問元數(shù)據(jù),如何訪問。存儲結構。元數(shù)據(jù)如何通過建模來存儲集成要求。元數(shù)據(jù)從不同數(shù)據(jù)源的整合程度,整合的規(guī)則。運維要求。更新元數(shù)據(jù)的處理過程和規(guī)則(記錄日志和提交申請)。管理要求。管理元數(shù)據(jù)的角色和職責。質(zhì)量要求。元數(shù)據(jù)質(zhì)量需求。安全要求。一些元數(shù)據(jù)不應公開,因為會泄露某些高度保密數(shù)據(jù)的信息理解元數(shù)據(jù)需求定義元數(shù)據(jù)架構創(chuàng)建和維護元數(shù)據(jù)查詢、報告和分析元數(shù)據(jù)定義元數(shù)據(jù)戰(zhàn)略元數(shù)據(jù)管理-活動-定義元數(shù)據(jù)架構(1)元數(shù)據(jù)管理系統(tǒng)必須具有從不同數(shù)據(jù)源采集元數(shù)據(jù)的能力,設計架構時應確??梢話呙璨煌獢?shù)據(jù)源和定期地更新元數(shù)據(jù)存儲庫,系統(tǒng)必須支持手工更新元數(shù)據(jù)、請求元數(shù)據(jù)、查詢元數(shù)據(jù)和被不同用戶組查詢。受控的元數(shù)據(jù)環(huán)境應為最終用戶屏蔽元數(shù)據(jù)的多樣性和差異性。元數(shù)據(jù)架構應為用戶訪問元數(shù)據(jù)存儲庫提供統(tǒng)一的入口,該入口必須向用戶透明地提供所有相關元數(shù)據(jù)資源,這意味著用戶可以在不關注數(shù)據(jù)源的差異的情況下訪問元數(shù)據(jù)組織根據(jù)具體的需求設計元數(shù)據(jù)架構。與設計數(shù)據(jù)倉庫相似,建立公共元數(shù)據(jù)存儲庫通常有三種技術架構方法:集中式、分布式和混合式。這些方法都考慮了存儲庫的實現(xiàn)以及更新機制的操作方式。定義元數(shù)據(jù)架構步驟:創(chuàng)建元模型、應用元數(shù)據(jù)標準、管理元數(shù)據(jù)存儲步驟創(chuàng)建一個元數(shù)據(jù)存儲庫的數(shù)據(jù)模型,也叫元模型,是定義元數(shù)據(jù)戰(zhàn)略和理解業(yè)務需求后的第一個設計步驟。可以根據(jù)需求開發(fā)不同級別的元模型;高級別的概念模型描述了系統(tǒng)之間的關系,低級別的元模型細化了各個屬性,描述了模型組成元素和處理過程。作為一種規(guī)劃工具和表達需求的方案,元模型本身也是一個有價值的元數(shù)據(jù)源。元數(shù)據(jù)存儲庫元模型示例理解元數(shù)據(jù)需求定義元數(shù)據(jù)架構創(chuàng)建和維護元數(shù)據(jù)查詢、報告和分析元數(shù)據(jù)定義元數(shù)據(jù)戰(zhàn)略元數(shù)據(jù)管理-活動-定義元數(shù)據(jù)架構(2)應用元數(shù)據(jù)標準:元數(shù)據(jù)解決方案應遵循在元數(shù)據(jù)戰(zhàn)略中已定義的對內(nèi)和對外的標準,數(shù)據(jù)治理活動應監(jiān)督元數(shù)據(jù)的標準遵從情況。組織對內(nèi)元數(shù)據(jù)標準包括命名規(guī)范、自定義屬性、安全、可見性和處理過程文檔,組織對外元數(shù)據(jù)標準包括數(shù)據(jù)交換格式和應程序接口設計。管理元數(shù)據(jù)存儲:實施控制活動以管理元數(shù)據(jù)環(huán)境。存儲庫的控制活動是由元數(shù)據(jù)專家執(zhí)行的元數(shù)據(jù)遷移和存儲庫更新的控制。這些活動本質(zhì)是可管理的、可監(jiān)控的、可報告的、可預警的、有作業(yè)日志的,同時可以解決各種已實施的元數(shù)據(jù)存儲庫環(huán)境的各種問題。許多控制活動是數(shù)據(jù)操作和接口維護的標準,控制活動應受到數(shù)據(jù)治理過程的監(jiān)督。1)作業(yè)調(diào)度和監(jiān)控。2)加載統(tǒng)計分析。3)備份、恢復、歸檔、消除。4)配置修改。5)性能調(diào)優(yōu)。6)查詢統(tǒng)計分析。7)查詢和報表生成。8)安全管理。1)質(zhì)量保證,質(zhì)量控制。2)數(shù)據(jù)更新頻率—與時間表匹配。3)缺失元數(shù)據(jù)報告。4)未更新的元數(shù)據(jù)報告。1)加載、探測、導入和標記數(shù)據(jù)資產(chǎn)。2)記錄與源的映射和遷移關系。3)記錄版本。4)用戶界面管理。5)連接數(shù)據(jù)集的元數(shù)據(jù)維護—為NOSQL提供支持。6)數(shù)據(jù)與對內(nèi)數(shù)據(jù)采集建立連接——自定義連接和作業(yè)元數(shù)據(jù)。7)外部數(shù)據(jù)源和訂閱源的許可。8)數(shù)據(jù)增強元數(shù)據(jù),如關聯(lián)GIS。1)教育和培訓用戶和數(shù)據(jù)專員。2)生成和分析管理指標。3)對控制活動、查詢、報告進行培訓控制活動質(zhì)量控制活動元數(shù)據(jù)管理活動培訓活動元數(shù)據(jù)管理-活動-創(chuàng)建和維護元數(shù)據(jù)理解元數(shù)據(jù)需求定義元數(shù)據(jù)架構創(chuàng)建和維護元數(shù)據(jù)查詢、報告和分析元數(shù)據(jù)定義元數(shù)據(jù)戰(zhàn)略元數(shù)據(jù)是通過一系列過程創(chuàng)建的,并存儲在組織中的不同地方。為保證高質(zhì)量的元數(shù)據(jù),應把其當作產(chǎn)品進行管理。好的元數(shù)據(jù)是認真計劃的結果。元數(shù)據(jù)管理的幾個一般原則描述了管理元數(shù)據(jù)質(zhì)量的方法責任。認識到元數(shù)據(jù)通常通過現(xiàn)有流程產(chǎn)生(數(shù)據(jù)建模,SDLC,業(yè)務流程定義),因此流程的執(zhí)行者對元數(shù)據(jù)的質(zhì)量負責。標準。制定、執(zhí)行和審計元數(shù)據(jù)標準,簡化集成過程,并且適用。改進。建立反饋機制保障用戶可以將不準確或已過時的元數(shù)據(jù)通知元數(shù)據(jù)管理團隊。集成過程中從整個企業(yè)范圍內(nèi)收集和整合元數(shù)據(jù),包括從企業(yè)外部獲取的數(shù)據(jù)中的元數(shù)據(jù)。元數(shù)據(jù)存儲庫應將提取的技術元數(shù)據(jù)與相關的業(yè)務、流程和管理元數(shù)據(jù)集成在一起,可使用適配器、掃描儀、網(wǎng)橋應用程序或直接訪問源數(shù)據(jù)存儲中的方式來提取元數(shù)據(jù)。第三方廠商的軟件和元數(shù)據(jù)整合工具都提供采集適配器程序。在某些情況下,需要通過API來開發(fā)適配器。元數(shù)據(jù)整合過程中可能存在一些挑戰(zhàn),可能會出現(xiàn)大量類似質(zhì)量和語義方面的問題進行協(xié)調(diào)。對元數(shù)據(jù)存儲庫的掃描有兩種不同的方式:專用接口:采用單步方式,掃描程序從來源系統(tǒng)中采集元數(shù)據(jù),直接調(diào)用特定格式的裝載程序,將元數(shù)據(jù)加載到元數(shù)據(jù)存儲中。在此過程中,不需要輸出任何中間元數(shù)據(jù)文件,元數(shù)據(jù)的采集和裝載也是一步完成的半專用接口:采用兩步方式,掃描程序從來源系統(tǒng)中采集元數(shù)據(jù),并輸出到特定格式的數(shù)據(jù)文件中。掃描程序只產(chǎn)生目標存儲庫能夠正確讀取和加載的數(shù)據(jù)文件。數(shù)據(jù)文件可以被多種方式讀取,所以這種接口的架構更加開放。文件類型包括:控制文件、重用文件、日志文件、臨時和備份文件元數(shù)據(jù)可傳遞給數(shù)據(jù)消費者和需要處理元數(shù)據(jù)的應用或工具。傳遞機制包括:1)元數(shù)據(jù)內(nèi)部網(wǎng)站,提供瀏覽、搜索、查詢、報告和分析功能。2)報告、術語表和其他文檔。3)數(shù)據(jù)倉庫、數(shù)據(jù)集市和BI(商務智能)工具。4)建模和軟件開發(fā)工具。5)消息傳送和事務。6)Web服務和應用程序接口(API)。7)外部組織接口方案(如供應鏈解決方案)元數(shù)據(jù)方案通常與商務智能方案有聯(lián)系,所以元數(shù)據(jù)方案的范圍和流轉(zhuǎn)與商務智能內(nèi)容同步。有時,需要通過文件(文本、XML或JSON格式)或Web服務方式將元數(shù)據(jù)與外部組織進行交互集成與整合元數(shù)據(jù)分發(fā)和傳遞元數(shù)據(jù)元數(shù)據(jù)管理-活動-查詢、報告和分析元數(shù)據(jù)理解元數(shù)據(jù)需求定義元數(shù)據(jù)架構創(chuàng)建和維護元數(shù)據(jù)查詢、報告和分析元數(shù)據(jù)定義元數(shù)據(jù)戰(zhàn)略元數(shù)據(jù)指導如何使用數(shù)據(jù)資產(chǎn):在商務智能(報表和分析)、商業(yè)決策(操作型、運營型和戰(zhàn)略型)以及業(yè)務語義(業(yè)務所述內(nèi)容及其含義)方面使用元數(shù)據(jù)。元數(shù)據(jù)存儲庫應具有前端應用程序,并支持查詢和獲取功能,從而滿足以上各類數(shù)據(jù)資產(chǎn)管理的需要。提供給業(yè)務用戶的應用界面和功能與提供給技術用戶和開發(fā)人員的界面和功能有所不同,后者可能會包括有助于新功能開發(fā)(如變更影響分析)或有助于解決數(shù)據(jù)倉庫和商務智能項目中數(shù)據(jù)定義問題(如數(shù)據(jù)血緣關系報告)的功能。元數(shù)據(jù)管理-工具工具作用提供了在集中位置(存儲庫)管理元數(shù)據(jù)的功能。元數(shù)據(jù)可以手動輸入,也可以通過專門的連接器從其他各種源中提取。元數(shù)據(jù)存儲庫還提供與其他系統(tǒng)交換元數(shù)據(jù)的功能特點元數(shù)據(jù)管理工具和存儲庫本身也是一種元數(shù)據(jù)的數(shù)據(jù)源,特別是在混合型元數(shù)據(jù)架構模型或大型企業(yè)架構中。元數(shù)據(jù)管理工具允許已采集的元數(shù)據(jù)與其他元數(shù)據(jù)存儲庫進行交換,支持采集多種多樣的、不同來源的元數(shù)據(jù)到中央倉庫中,支持有差異的元數(shù)據(jù)在兩個存儲庫遷移時進行提煉和標準化主要工具管理元數(shù)據(jù)的主要工具是元數(shù)據(jù)存儲庫。元數(shù)據(jù)存儲庫包括整合層和手工更新的接口。處理和使用元數(shù)據(jù)的工具集成到元數(shù)據(jù)存儲庫中作為元數(shù)據(jù)來源元數(shù)據(jù)管理-方法-數(shù)據(jù)血緣和影響分析(1)數(shù)據(jù)血緣實現(xiàn)方法元數(shù)據(jù)管理系統(tǒng)通過可以提供數(shù)據(jù)血緣詳情的工具導入“實現(xiàn)態(tài)血緣”,并從無法自動抽取的“設計態(tài)血緣”文件中獲取實施細節(jié)加以補充。將數(shù)據(jù)血緣的各個部分連接起來的過程稱為“拼接”,“拼接”結果是一個表示數(shù)據(jù)從原始位置(數(shù)據(jù)源或記錄系統(tǒng))轉(zhuǎn)移到最終位置的全景視圖作用記錄血緣關系有助于業(yè)務和技術人員使用數(shù)據(jù),如缺失數(shù)據(jù)血緣,用戶將需花費大量時間來檢查異常現(xiàn)象、潛在的變更影響和其他未知結果。實現(xiàn)一個集成的影響和血緣工具,以理解加載過程中涉及的所有移動部分以及最終用戶報告和分析。發(fā)現(xiàn)和記錄數(shù)據(jù)資產(chǎn)的元數(shù)據(jù)的一個重要意義在于提供了數(shù)據(jù)如何在系統(tǒng)間轉(zhuǎn)移的信息。許多元數(shù)據(jù)工具中存儲著某環(huán)境中數(shù)據(jù)現(xiàn)況的信息,并提供查看跨系統(tǒng)或程序接口的血緣功能。基于程序編碼的當前版本的血緣稱為“實現(xiàn)態(tài)血緣”。映射規(guī)范檔中描述的血緣稱為“設計態(tài)血緣”。血緣創(chuàng)建的局限性數(shù)據(jù)血緣創(chuàng)建的局限性在于元數(shù)據(jù)管理系統(tǒng)的覆蓋范圍。特定功能的元數(shù)據(jù)存儲庫或數(shù)據(jù)可視化工具在其管理范圍內(nèi)提供數(shù)據(jù)血緣的信息,超出管理范圍時將無法提供相關信息。血緣分析—屬性級示例血緣分析-系統(tǒng)或應用示例元數(shù)據(jù)管理-方法-數(shù)據(jù)血緣和影響分析(2)業(yè)務焦點根據(jù)業(yè)務優(yōu)先級尋找數(shù)據(jù)元的血緣關系。從目標位置回溯到具體數(shù)據(jù)起源的源系統(tǒng)。通過掃描那些發(fā)生遷移、傳送或更新的數(shù)據(jù)元,確保業(yè)務數(shù)據(jù)使用者理解特定數(shù)據(jù)元在系統(tǒng)間遷移時發(fā)生了什么。技術焦點從源系統(tǒng)開始識別直接相關的數(shù)據(jù)使用者,依次識別間接的數(shù)據(jù)使用者,直到識別出所有系統(tǒng)為止。技術人員可以從這個系統(tǒng)的識別策略中獲益,有助于回答各種各樣的數(shù)據(jù)問題。隨著系統(tǒng)中數(shù)據(jù)元的大量增加,數(shù)據(jù)血緣關系的發(fā)現(xiàn)變得復雜且難以管理。為了成功實現(xiàn)業(yè)務目標,需要計劃和設計一個策略來發(fā)現(xiàn)和采集元數(shù)據(jù)到元數(shù)據(jù)存儲庫。要想成功發(fā)現(xiàn)數(shù)據(jù)血緣關系,需要兼顧業(yè)務焦點和技術焦點元數(shù)據(jù)管理-方法-應用于大數(shù)據(jù)采集的元數(shù)據(jù)大部分數(shù)據(jù)管理專業(yè)人員更熟悉和適應結構化數(shù)據(jù)存儲,結構化數(shù)據(jù)的每個數(shù)據(jù)項都有清晰的定義和標記。然而,如今越來越多的數(shù)據(jù)以非結構化格式存儲,這些非結構化數(shù)據(jù)源來自組織的內(nèi)外部。無論是內(nèi)部,還是外部,都不再需要移動數(shù)據(jù)到物理環(huán)境下同一位置。通過新技術,程序?qū)@數(shù)據(jù),而不是把數(shù)據(jù)移動到程序里,這樣可以減少大量的數(shù)據(jù)移動,并提高程序執(zhí)行速度。數(shù)據(jù)湖中的成功數(shù)據(jù)管理依然依賴于管好元數(shù)據(jù)。元數(shù)據(jù)標簽應在采集時應用于數(shù)據(jù),然后元數(shù)據(jù)可以用來識別可訪問的數(shù)據(jù)湖中的數(shù)據(jù)內(nèi)容。大部分采集引擎采集數(shù)據(jù)后進行數(shù)據(jù)剖析,數(shù)據(jù)剖析可以識別出數(shù)據(jù)域、數(shù)據(jù)關系和數(shù)據(jù)質(zhì)量問題,并打上標簽。采集數(shù)據(jù)時,識別到敏感或隱私(如個人身份信息、,PPI)數(shù)據(jù)時應添加元數(shù)據(jù)標簽。元數(shù)據(jù)管理-實施指南使用漸進的步驟建設實施受控的元數(shù)據(jù)管理環(huán)境,可減少組織的風險,并便于用戶接受。使用開源的關系型數(shù)據(jù)庫平臺來實施元數(shù)據(jù)存儲,可以應對實施存儲庫項目開始時可能無法預料的各種控制和接口問題。存儲庫的內(nèi)容在設計上應該是通用的,而不只是反映源系統(tǒng)的數(shù)據(jù)庫設計。應基于易理解的元數(shù)據(jù)模型與企業(yè)領域?qū)<夜餐M行設計。規(guī)劃設計時應考慮集成元數(shù)據(jù),以確保數(shù)據(jù)使用者無須關注數(shù)據(jù)源的差異。通常來說,第一個實施的是驗證概念并學習管理元數(shù)據(jù)環(huán)境的試點項目。把元數(shù)據(jù)相關項目與IT開發(fā)方法論整合是必要的。擁有堅定的元數(shù)據(jù)戰(zhàn)略,有助于所有人進行更高效率的決策。評估缺失高質(zhì)量元數(shù)據(jù)可能帶來的影響如下:1)因不正確、不完整和不合理的假設或缺乏數(shù)據(jù)內(nèi)容的知識導致錯誤判斷。2)暴露敏感數(shù)據(jù),使客戶或員工面臨風險,影響商業(yè)信譽和導致法律糾紛。3)如果了解數(shù)據(jù)的那些領域?qū)<覀冸x開了,那么他們了解的知識也隨之被帶走了。組織采用堅定的元數(shù)據(jù)戰(zhàn)略時可以減少風險。組織準備情況的評估解決方法為:對元數(shù)據(jù)相關活動現(xiàn)狀進行正式的成熟度評估,評估內(nèi)容應包括重要的業(yè)務數(shù)據(jù)元、可用的元數(shù)據(jù)術語表、數(shù)據(jù)血緣、數(shù)據(jù)剖析和數(shù)據(jù)質(zhì)量管理過程、主數(shù)據(jù)管理成熟度和其他方面。元數(shù)據(jù)戰(zhàn)略是整體數(shù)據(jù)治理戰(zhàn)略的一部分,是實現(xiàn)有效數(shù)據(jù)治理的第一步。元數(shù)據(jù)評估應通過對現(xiàn)有元數(shù)據(jù)的客觀檢查來進行,包括對關鍵利益相關方的訪談。就緒評估/風險評估元數(shù)據(jù)從非托管環(huán)境轉(zhuǎn)移到托管環(huán)境需要工作和規(guī)范,而即使大多數(shù)人已認識到可靠元數(shù)據(jù)的價值,也不容易做到這一點。因此,組織準備程度是一個主要關注點。元數(shù)據(jù)管理在許多組織中是一項低優(yōu)先級的工作。一組基本的元數(shù)據(jù)需要組織中各團隊的協(xié)調(diào)和承諾,如果要更改這些結構(如員工身份信息),需要對許多企業(yè)系統(tǒng)進行重大檢修。企業(yè)數(shù)據(jù)治理戰(zhàn)略的實現(xiàn)需要高級管理層的支持和參與,要求業(yè)務人員和技術人員能夠以跨職能的方式緊密合作。組織和文化變革組織應確定他們管理元數(shù)據(jù)生命周期的具體需求,并開展元數(shù)據(jù)治理工作以滿足這些需求。建立正式的角色和職責并分配專用資源,特別是在大型或業(yè)務關鍵領域中。負責管理元數(shù)據(jù)的團隊可在創(chuàng)建和使用元數(shù)據(jù)的過程中對管理原則進行驗證測試。元數(shù)據(jù)管理-元數(shù)據(jù)治理(1)數(shù)據(jù)管理團隊應負責定義標準和管理元數(shù)據(jù)的狀態(tài)變化同時可以負責組織內(nèi)的質(zhì)量提升活動、培訓計劃或?qū)嶋H培訓活動。更成熟的元數(shù)據(jù)治理需要通過多個不同階段和狀態(tài)的決策來確定業(yè)務術語和定義,治理團隊還可以管理與業(yè)務術語關聯(lián)的其他術語,以及術語的分類和分組。需要將元數(shù)據(jù)戰(zhàn)略集成到軟件開發(fā)的生命周期中,確保變更過的元數(shù)據(jù)及時得到收集,以確保元數(shù)據(jù)保持最新。元數(shù)據(jù)的主目錄包括當前作用域中的源和目標。元數(shù)據(jù)資源面向技術及業(yè)務用戶,可發(fā)布到用戶社區(qū),并可作為“元數(shù)據(jù)在哪里”的指引。告知用戶能夠滿足他們的需求:1)元數(shù)據(jù)管理實施狀態(tài)。2)源和目標元數(shù)據(jù)存儲。3)元數(shù)據(jù)更新的調(diào)度計劃信息。4)留存和保持的版本。5)內(nèi)容。6)質(zhì)量聲明或警告(如缺失的值)。7)記錄系統(tǒng)和其他數(shù)據(jù)源狀態(tài)(如數(shù)據(jù)內(nèi)容歷史加載、刪除或更新標志)。8)相關的工具、架構和人員。9)敏感信息和數(shù)據(jù)源的移除或脫敏策略。文件和內(nèi)容管理中,數(shù)據(jù)地圖展示了類似的信息。整個元數(shù)據(jù)整合系統(tǒng)的全景視圖也作為元數(shù)據(jù)文檔的一部分進行維護過程控制元數(shù)據(jù)解決方案的文檔元數(shù)據(jù)管理-元數(shù)據(jù)治理(2)在與業(yè)務貿(mào)易伙伴交換數(shù)據(jù)時,元數(shù)據(jù)標準是必不可少的。為了支持共享信息的最佳使用,需要共享公共元數(shù)據(jù),這催生了許多專業(yè)領域的標準。在計劃周期的早期采用基于行業(yè)的、行業(yè)特有的元數(shù)據(jù)標準,并使用這些標準評估元數(shù)據(jù)管理技術。工具廠商提供XML、JSON或REST技術支持其數(shù)據(jù)管理產(chǎn)品的數(shù)據(jù)交換,他們使用相同的策略將工具綁定到解決方案套件中,包括數(shù)據(jù)整合、關系和多維數(shù)據(jù)庫、需求管理、BI報告、數(shù)據(jù)建模和業(yè)務規(guī)則在內(nèi)的技術使用XML提供了數(shù)據(jù)和元數(shù)據(jù)導入和導出功能。指導方針包括模板、相關示例、有關預期輸入和更新的培訓和完整性聲明。元數(shù)據(jù)的ISO標準為工具開發(fā)人員提供了指導,但不太可能成為使用商業(yè)工具的組織所關注的問題,因為工具應該滿足這些標準。作為風險評估的一部分,將數(shù)據(jù)使用者搜索信息所花費的時間作為評估指標。元數(shù)據(jù)管理實施的有效性可以根據(jù)元數(shù)據(jù)本身的完整性、與其關聯(lián)的日常管理操作以及元數(shù)據(jù)的使用情況來度量。元數(shù)據(jù)管理環(huán)境的建議指標包括:1)元數(shù)據(jù)存儲庫完整性。將企業(yè)元數(shù)據(jù)(范圍內(nèi)的所有產(chǎn)品和實例)的理想覆蓋率與實際覆蓋率進行比較。2)元數(shù)據(jù)管理成熟度。根據(jù)能力成熟度模型(CMM-DMM)的成熟度評估方法,開發(fā)用于判斷企業(yè)元數(shù)據(jù)成熟度的指標。3)專職人員配備。通過專職人員的任命情況、整個企業(yè)的專職人員覆蓋范圍,以及職位描述中的角色定義說明,來評估的組織對元數(shù)據(jù)的承諾。4)元數(shù)據(jù)使用情況。可以通過存儲庫的訪問次數(shù)衡量用戶對元數(shù)據(jù)存儲庫的使用情況和接受程度。5)業(yè)務術語活動。使用、更新、定義解析、覆蓋范圍。6)主數(shù)據(jù)服務數(shù)據(jù)遵從性。顯示SOA解決方案中數(shù)據(jù)的重用情況。主數(shù)據(jù)服務上的元數(shù)據(jù)幫助開發(fā)人員決定新的開發(fā)任務可以使用哪些現(xiàn)有服務。7)元數(shù)據(jù)文檔質(zhì)量。一個質(zhì)量指標是通過自動和手動兩種方式評估元數(shù)據(jù)文檔的質(zhì)量。8)元數(shù)據(jù)存儲庫可用性。正常運行時間、處理時間(批處理和查詢)。元數(shù)據(jù)標準和指南元數(shù)據(jù)解決方案的文檔C目錄ONTENTS2元數(shù)據(jù)規(guī)劃與建設1DAMA元數(shù)據(jù)管理3元數(shù)據(jù)應用案例4

CWM-元數(shù)據(jù)建設標準參考元數(shù)據(jù)元數(shù)據(jù)最常見的定義是“關于數(shù)據(jù)的數(shù)據(jù)”。不僅包括技術和業(yè)務流程、數(shù)據(jù)規(guī)則和約束,還包括邏輯數(shù)據(jù)結構與物理數(shù)據(jù)結構等。它描述了數(shù)據(jù)本身(如數(shù)據(jù)庫、數(shù)據(jù)元素、數(shù)據(jù)模型),數(shù)據(jù)表示的概念(如業(yè)務流程、應用系統(tǒng)、軟件代碼、技術基礎設施),數(shù)據(jù)與概念之間的聯(lián)系(關系)當你拿著自己的數(shù)據(jù)光盤去入庫歸檔的時候,管理員要求我填寫一張關于要入庫數(shù)據(jù)的表格,以便于管理和查閱。填好這張關于要入庫光盤的表格,就是這張光盤中數(shù)據(jù)的元數(shù)據(jù)!而這一張表格所規(guī)定的要填寫的內(nèi)容(以及填寫規(guī)定),就可以看作是這個單位內(nèi)部的“元數(shù)據(jù)標準”!元數(shù)據(jù)的理解知識類型定義應用示例業(yè)務示例Who誰誰提供?誰加工?誰使用?誰是采購訂單的負責人?What干什么或是什么有什么資源?資源的內(nèi)容是什么?企業(yè)市場管理業(yè)務域的指標體系包含哪些指標?When什么時候提取、轉(zhuǎn)換和加載(ETL)作業(yè)什么時候運行?什么時間可以使用?什么時間可以提供?什么時間用的?最新版的庫存周轉(zhuǎn)率報表是什么時候?Where在哪里信息從哪里來?需要的信息在哪里?信息到哪里去?在哪里使用?在哪里可以快速找到供應商的評估信息?How怎么樣,怎么做如何發(fā)布?如何查找?如何呈現(xiàn)?如何使用?如何管理如何獲得產(chǎn)品的競爭優(yōu)勢?Why為什么出現(xiàn)數(shù)據(jù)質(zhì)量問題的根本原因是什么?為什么老客戶會不斷流失?關于數(shù)據(jù)的結構化數(shù)據(jù);用于描述數(shù)據(jù)的內(nèi)容、覆蓋范圍、質(zhì)量、管理方式、數(shù)據(jù)的所有者、數(shù)據(jù)的提供方式等信息的數(shù)據(jù),是數(shù)據(jù)與數(shù)據(jù)用戶之間的橋梁;資源的信息

;編目信息

;管理、控制信息;是一組獨立的關于資源的說明;定義和描述其它數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)類型(根據(jù)應用領域)技術元數(shù)據(jù)提供有關數(shù)據(jù)的技術細節(jié)、存儲數(shù)據(jù)的系統(tǒng)以及在系統(tǒng)內(nèi)和系統(tǒng)之間數(shù)據(jù)流轉(zhuǎn)過程的信息操作元數(shù)據(jù)描述了處理和訪問數(shù)據(jù)的細節(jié)業(yè)務元數(shù)據(jù)主要關注數(shù)據(jù)的內(nèi)容和條件,另包括與數(shù)據(jù)治理相關的詳細信息資源名稱、創(chuàng)建者、資源描述、資源分類、數(shù)據(jù)集、業(yè)務規(guī)則、轉(zhuǎn)換規(guī)則、指標計算公式、數(shù)據(jù)模型、數(shù)據(jù)質(zhì)量規(guī)則和檢核結果、數(shù)據(jù)溯源、有效值約束、數(shù)據(jù)所有者、數(shù)據(jù)的安全或敏感級別、數(shù)據(jù)使用說明物理數(shù)據(jù)庫表名和字段名、字段屬性、數(shù)據(jù)庫對象的屬性、訪問權限、物理數(shù)據(jù)模型,包括數(shù)據(jù)表名、鍵和索引、ETL抽取加載轉(zhuǎn)換信息、數(shù)據(jù)存儲文件格式或數(shù)據(jù)壓縮類型、源到目標的映射文檔、恢復和備份規(guī)則。數(shù)據(jù)的訪問方式、訪問時間、訪問限制、作業(yè)日志、抽取結果、錯誤日志、頻率和執(zhí)行時間、備份、保留、創(chuàng)建日期、災備恢復預案、容量和使用模式、數(shù)據(jù)歸檔、清洗標準、數(shù)據(jù)訪問權限;讓人們更容易理解和使用業(yè)務元數(shù)據(jù)。元數(shù)據(jù)消除了數(shù)據(jù)二義性,讓人們對數(shù)據(jù)有一致的認知,進而為數(shù)據(jù)分析和應用提供支撐。技術元數(shù)據(jù)是對數(shù)據(jù)的結構化,方便計算機或數(shù)據(jù)庫對數(shù)據(jù)進行識別、存儲、傳輸和交換。技術元數(shù)據(jù)可讓開發(fā)人員更加明確數(shù)據(jù)的存儲、結構,從而為應用開發(fā)和系統(tǒng)集成奠定基礎。也可讓業(yè)務人員更快速地找到想要的數(shù)據(jù),進而對數(shù)據(jù)的來源、去向、血緣追溯的分析。操作元數(shù)據(jù)描述數(shù)據(jù)的操作屬性,明確管理屬性有利于數(shù)據(jù)管理責任到部門和個人,是數(shù)據(jù)安全管理的基礎。DAMA定義類別說明主要內(nèi)容元數(shù)據(jù)來源元數(shù)據(jù)類型(根據(jù)來源)應用程序中元數(shù)據(jù)存儲庫業(yè)務術語表商務智能工具配置管理工具數(shù)據(jù)字典數(shù)據(jù)集成工具數(shù)據(jù)庫管理與系統(tǒng)目錄數(shù)據(jù)映射管理工具數(shù)據(jù)質(zhì)量工具字典和目錄事件消息工具建模工具和存儲庫參考數(shù)據(jù)庫服務注冊其他元數(shù)據(jù)存儲元數(shù)據(jù)常用來解決的業(yè)務痛點規(guī)劃人員倉庫那么多數(shù)據(jù),都有多少數(shù)據(jù)?占了多少存儲?增長速度怎么樣?“不識廬山真面目”開發(fā)人員倉庫那么多數(shù)據(jù),都有什么數(shù)據(jù)?數(shù)據(jù)存儲在哪?數(shù)據(jù)的含義是什么?業(yè)務快速要出結果,這么多開發(fā)工具適配真復雜,猶如大海撈針業(yè)務人員倉庫那么多數(shù)據(jù),都支持了哪些應用?數(shù)據(jù)價值如何?這些數(shù)據(jù)還能用來做什么?技術人員能不能快速的給我提供彈藥。黑盒子運維人員不同運維人員負責各自的應用和數(shù)據(jù)維護,倉庫中其他的數(shù)據(jù)不清楚。冰山一角缺乏完整體系化的數(shù)據(jù)開發(fā)服務平臺01傳統(tǒng)的大數(shù)據(jù)建設,缺乏統(tǒng)一體系化建設規(guī)劃,且往往通過拼接不同廠家的產(chǎn)品和工具來完成,這期間需要花費大量時間來做的異構產(chǎn)品的集成適配,費時費力,且運維成本較高;治理能力不足02缺乏大數(shù)據(jù)治理與管理的方法論,不具備承載數(shù)據(jù)標準的平臺技術設施,缺乏可衡量、可管控的數(shù)據(jù)質(zhì)量,難以形成可見、可控、可用、可信的數(shù)據(jù)資產(chǎn)服務能力;應用價值低03受制于傳統(tǒng)數(shù)據(jù)庫/數(shù)據(jù)倉庫發(fā)展的技術路線的制約,在新的互聯(lián)網(wǎng)背景下,存量客戶的優(yōu)化、激活、流失預警,增量客戶的獲客、提升、傳播的體系仍欠缺,產(chǎn)品、權益豐富但同質(zhì)化程度比較高,難以針對客戶尋求差異化的營銷方案觸達。?元數(shù)據(jù)解決的問題及應用價值對數(shù)據(jù)再組織并形成全局性的視圖;幫助用戶更好的理解各環(huán)節(jié)的數(shù)據(jù)和系統(tǒng)的建設現(xiàn)狀;是保障企業(yè)數(shù)據(jù)質(zhì)量的基礎;支持企業(yè)信息化的知識傳承;提升數(shù)據(jù)平臺建設和管理水平龐大的數(shù)據(jù)資產(chǎn)如何管理?形態(tài)萬千、散落在企業(yè)各處的數(shù)據(jù)資產(chǎn)如何管理?數(shù)據(jù)資產(chǎn)之間的關系怎樣?如何讓數(shù)據(jù)資產(chǎn)正確、有效的被使用并產(chǎn)生價值?enterpriseASSET企業(yè)數(shù)據(jù)資產(chǎn)管理的困惑元數(shù)據(jù)應用價值提高數(shù)據(jù)共享復用的能力形成集中可統(tǒng)一管理和服務的元數(shù)據(jù)資產(chǎn)目錄,為使用者提供統(tǒng)一的數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)和定位服務,實現(xiàn)集團、公司、單位間數(shù)據(jù)資源共享和交換的數(shù)據(jù)資源管理體系,減少IT開發(fā)和重復投資。提高數(shù)據(jù)溯源能力讓用戶能夠清晰地了解數(shù)據(jù)倉庫中數(shù)據(jù)流的來龍去脈、業(yè)務處理規(guī)則、轉(zhuǎn)換情況等,提高數(shù)據(jù)的溯源能力,支持數(shù)據(jù)倉庫和BI成長需求。建立規(guī)范的數(shù)據(jù)資產(chǎn)體系滿足用戶對業(yè)務和數(shù)據(jù)理解的需求,建立統(tǒng)一口徑、標準規(guī)范的數(shù)據(jù)資產(chǎn)及指標體系,建立標準的企業(yè)內(nèi)部知識傳承的信息承載平臺,建立業(yè)務分析知識庫,實現(xiàn)知識共享;可以回答如下問題:真?zhèn)€企業(yè)的數(shù)據(jù)資產(chǎn)有哪些數(shù)據(jù)?數(shù)據(jù)資產(chǎn)在哪里?數(shù)據(jù)口徑如何統(tǒng)一?計算指標如何統(tǒng)一?數(shù)據(jù)之間的關系如何、數(shù)據(jù)的上下游關聯(lián)數(shù)據(jù)是什么?那些呆滯料的庫存金額最高?目前公司供應商信息在哪里可以那些?數(shù)據(jù)倉庫中的存儲過程是誰寫的?它用來干什么?現(xiàn)在還有在用嗎?…數(shù)據(jù)質(zhì)量稽核體系通過非冗余、非重復的元數(shù)據(jù)信息提高數(shù)據(jù)完整性、準確性。元數(shù)據(jù)管理解決的問題是如何將業(yè)務系統(tǒng)中的數(shù)據(jù)分門別類地進行管理,建立報警、監(jiān)控機制,出現(xiàn)故障時能及時發(fā)現(xiàn)問題,為數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量監(jiān)控提供基礎素材。元數(shù)據(jù)管理目標數(shù)倉和商務智能的建設往往源于公司戰(zhàn)略和業(yè)務能力的提升數(shù)據(jù)決策者根據(jù)集團戰(zhàn)略制定的KPI目標,選取業(yè)務價值高、涉及面廣的業(yè)務域或數(shù)據(jù)專題進行專項改造,通過主題庫和數(shù)倉建設建設來實現(xiàn)集團數(shù)據(jù)資產(chǎn)體系(主要數(shù)據(jù)資產(chǎn)目錄和元數(shù)據(jù))和商務智能決策的應用,從從保證集團業(yè)務能力的提升及集團KPI指標落地。商務智能數(shù)據(jù)應用KPI或數(shù)據(jù)驅(qū)動資源資產(chǎn)目錄(管理體系)元數(shù)據(jù)建設(數(shù)據(jù)資產(chǎn))集團戰(zhàn)略業(yè)務能力戰(zhàn)略分解實現(xiàn)集團戰(zhàn)略決策分析業(yè)務能力提高數(shù)據(jù)資產(chǎn)應用價值高的業(yè)務域數(shù)據(jù)資產(chǎn)數(shù)倉建設(含主題庫)元數(shù)據(jù)管理流程數(shù)據(jù)開發(fā)者(企業(yè)或部門)數(shù)據(jù)管理者元數(shù)據(jù)使用者數(shù)據(jù)開發(fā)元數(shù)據(jù)采集數(shù)據(jù)倉庫元數(shù)據(jù)編輯元數(shù)據(jù)發(fā)布元數(shù)據(jù)存儲申請數(shù)據(jù)受理審批檢索元數(shù)據(jù)數(shù)據(jù)使用應用開發(fā)者數(shù)據(jù)需求提出①⑧③領導⑤⑥④⑦⑦①⑨資產(chǎn)臺賬資產(chǎn)目錄元數(shù)據(jù)分析⑥②⑥數(shù)據(jù)采集和存儲元數(shù)據(jù)發(fā)布和維護元數(shù)據(jù)應用元數(shù)據(jù)庫從技術層面來看,元數(shù)據(jù)管理的技術主要包括元數(shù)據(jù)采集&存儲、元數(shù)據(jù)管理、元數(shù)據(jù)應用和元數(shù)據(jù)接口等。元數(shù)據(jù)采集在數(shù)據(jù)治理項目中,常見的元數(shù)據(jù)有數(shù)據(jù)源的、數(shù)據(jù)加工處理過程的、數(shù)據(jù)倉庫或數(shù)據(jù)主題庫的、數(shù)據(jù)應用層的、數(shù)據(jù)接口服務的元數(shù)據(jù)等。元數(shù)據(jù)采集服務提供各類適配器來滿足以上各類元數(shù)據(jù)的采集需求,并將元數(shù)據(jù)整合處理后統(tǒng)一存儲于中央元數(shù)據(jù)倉庫,實現(xiàn)元數(shù)據(jù)的統(tǒng)一管理。在這個過程中,元數(shù)據(jù)采集不僅要能夠適配各種數(shù)據(jù)庫、各類ETL、各類數(shù)據(jù)倉庫和報表產(chǎn)品,還需要適配各類結構化或半結構化數(shù)據(jù)源。關系型數(shù)據(jù)庫:通過元數(shù)據(jù)適配器采集來自Oracle、DB2、SQLServer、MySQL、Teradata、Sybase等關系型數(shù)據(jù)庫的庫表結構、視圖、存儲過程等元數(shù)據(jù)。關系型數(shù)據(jù)庫一般都提供了元數(shù)據(jù)的橋接器。NoSQL數(shù)據(jù)庫:元數(shù)據(jù)采集工具應支持來自MongoDB、CouchDB、Redis、Neo4j、HBase等NoSQL數(shù)據(jù)庫中的元數(shù)據(jù),NoSQL數(shù)據(jù)庫適配器多半利用了自身管理和查詢Schema的能力。數(shù)據(jù)倉庫:對主流的可基于其內(nèi)在的查詢腳本,定制開發(fā)相應的適配器對其元數(shù)據(jù)進行采集。通過SQL腳本就可對其元數(shù)據(jù)進行采集。云中的元數(shù)據(jù):云端企業(yè)元數(shù)據(jù)管理通過各種上下文改善信息訪問,并將實時元數(shù)據(jù)管理、機器學習模型、元數(shù)據(jù)API推進流數(shù)據(jù)管道,可更好地管理企業(yè)數(shù)據(jù)資產(chǎn)。其他元數(shù)據(jù)適配器:ETL工具:PowerCenter、DataStage、Kettle等ETL工具適配器;BI工具:Cognos、PowerBI等前端工具中的二維報表元數(shù)據(jù)采集適配器;Excel適配器:采集Excel格式文件的元數(shù)據(jù)?;跇藴实闹醒朐獢?shù)據(jù)管理中央元數(shù)據(jù)存儲元數(shù)據(jù)存儲所有存取必須通過中央存儲元數(shù)據(jù)交換不方便中央元數(shù)據(jù)存儲必須對每一個系統(tǒng)有轉(zhuǎn)換接口有利于元數(shù)據(jù)的交換屏蔽系統(tǒng)內(nèi)部變化中央元數(shù)據(jù)只需要統(tǒng)一接口元數(shù)據(jù)管理參考元數(shù)據(jù)審核元數(shù)據(jù)審核主要是審核采集到元數(shù)據(jù)倉庫但還未正式發(fā)布到數(shù)據(jù)資產(chǎn)目錄中的元數(shù)據(jù)。審核過程中支持對數(shù)據(jù)進行有效性驗證并修復一些問題,例如缺乏語義描述、缺少字段、類型錯誤、編碼缺失或不可識別的字符編碼等。元模型管理元模型管理即基于元數(shù)據(jù)平臺構建符合CWM規(guī)范的元數(shù)據(jù)倉庫,實現(xiàn)元模型統(tǒng)一、集中化管理,提供元模型的查詢、增加、修改、刪除、元數(shù)據(jù)關系管理、權限設置等功能,支持概念模型、邏輯模型、物理模型的采集和管理,讓用戶直觀地了解已有元模型的分類、統(tǒng)計、使用情況、變更追溯,以及每個元模型的生命周期管理。同時,支持應用開發(fā)的模型管理。元數(shù)據(jù)維護是對信息對象的基本信息、屬性、被依賴關系、依賴關系、組合關系等元數(shù)據(jù)的新增、修改、刪除、查詢、發(fā)布等操作。元數(shù)據(jù)創(chuàng)建目錄將不同的元數(shù)據(jù)按照公司規(guī)范要求掛在對應的目錄下,按照業(yè)務流程、業(yè)務主題域、開發(fā)流程設計對應的目錄。元數(shù)據(jù)維護是最基本的元數(shù)據(jù)管理功能之一,技術人員和業(yè)務人員都會使用這個功能查看元數(shù)據(jù)的基本信息。元數(shù)據(jù)版本管理在元數(shù)據(jù)處于一個相對完整、穩(wěn)定的時期,或者處于一個里程碑結束時期,可以對元數(shù)據(jù)定版以發(fā)布一個基線版本,以便日后對存異的或錯誤的元數(shù)據(jù)進行追溯、檢查和恢復。元數(shù)據(jù)變更管理用戶可以自行訂閱元數(shù)據(jù),當訂閱的元數(shù)據(jù)發(fā)生變更時,系統(tǒng)將自動通知用戶,用戶可根據(jù)指引進一步在系統(tǒng)中查詢到變更的具體內(nèi)容及相關的影響分析。從技術的角度看,元數(shù)據(jù)管理一般包括元模型管理、元數(shù)據(jù)審核、元數(shù)據(jù)維護、元數(shù)據(jù)版本管理、元數(shù)據(jù)變更管理等功能。元數(shù)據(jù)應用-數(shù)據(jù)資產(chǎn)地圖按數(shù)據(jù)域?qū)ζ髽I(yè)數(shù)據(jù)資源進行全面盤點和分類,并根據(jù)元數(shù)據(jù)字典自動生成企業(yè)數(shù)據(jù)資產(chǎn)的全景地圖。該地圖可以告訴你有哪些數(shù)據(jù),在哪里可以找到這些數(shù)據(jù),能用這些數(shù)據(jù)干什么??梢园凑諛I(yè)務能力域,數(shù)據(jù)主題域,業(yè)務部門、數(shù)據(jù)類型進行快速搜素數(shù)據(jù)資源。生產(chǎn)計劃元數(shù)據(jù)應用-元數(shù)據(jù)血緣分析數(shù)據(jù)血緣是體現(xiàn)數(shù)據(jù)產(chǎn)生、加工處理、流轉(zhuǎn)流通到最終銷毀的過程;元數(shù)據(jù)血緣分析會告訴你數(shù)據(jù)來自哪里,經(jīng)過了哪些加工。其價值在于當發(fā)現(xiàn)數(shù)據(jù)問題時可以通過數(shù)據(jù)的血緣關系追根溯源,快速定位到問題數(shù)據(jù)的來源和加工過程,減少數(shù)據(jù)問題排查分析的時間和難度。元數(shù)據(jù)應用-冷熱度分析元數(shù)據(jù)冷熱度分析會告訴你哪些數(shù)據(jù)是企業(yè)常用數(shù)據(jù),哪些數(shù)據(jù)屬于僵死數(shù)據(jù)。其價值在于讓數(shù)據(jù)活躍程度可視化,讓企業(yè)中的業(yè)務人員、管理人員都能夠清晰地看到數(shù)據(jù)的活躍程度,以便他們更好地駕馭數(shù)據(jù),處置或激活僵死數(shù)據(jù),從而為數(shù)據(jù)的自助式分析提供支撐。元數(shù)據(jù)應用-運營駕駛艙元數(shù)據(jù)應用-共享服務化服務需求方申請服務權限獲取ACCESSTOKEN獲取服務列表安全的使?數(shù)據(jù)服務授權有哪些數(shù)據(jù)服務使用效果評估反饋注冊登錄建設元數(shù)據(jù)資產(chǎn)數(shù)據(jù)引擎創(chuàng)建服務API發(fā)布服務API服務API上線監(jiān)控審計服務建設方根據(jù)反饋情況調(diào)整修改調(diào)用服務使用情況統(tǒng)計數(shù)據(jù)應用全鏈路分析模型數(shù)據(jù)端服務端產(chǎn)品端實時服務、離線同步日志記錄、業(yè)務數(shù)據(jù)回流數(shù)據(jù)返回URI訪問監(jiān)控點配置全鏈路追蹤統(tǒng)一元數(shù)據(jù)中心建立元數(shù)據(jù)查詢、訪問的統(tǒng)一接口規(guī)范,以將企業(yè)核心元數(shù)據(jù)完整、準確地提取到元數(shù)據(jù)倉庫中進行集中管理和統(tǒng)一共享。元數(shù)據(jù)接口規(guī)范主要包括接口的編碼方式、接口響應、接口協(xié)議、接口安全、連接方式、調(diào)用方式、數(shù)據(jù)格式等方面的內(nèi)容。元數(shù)據(jù)管理-元數(shù)據(jù)管理從企業(yè)級出發(fā),企業(yè)級元數(shù)據(jù)管理需要具備的基本能力要想真正實現(xiàn)企業(yè)級元數(shù)據(jù)的集成,只靠這能力是不夠的,企業(yè)必須不斷地提升自己的技術實力,在這些能力的基礎上達到更高的要求1、在數(shù)據(jù)被加載時,就能夠獲取和補充元數(shù)據(jù)2、通過各行業(yè)專家使用數(shù)據(jù)的方法定義出眾包元數(shù)據(jù),并將這些元數(shù)據(jù)與機器學習結合3、支持復雜的多廠商環(huán)境,能提供端到端的數(shù)據(jù)血統(tǒng)分析能力4、將語義建模與非模型化的靈活性相結合,使用圖形化的表示方法,幫助企業(yè)更高效地建立一個全面精確的業(yè)務領域模型1、元數(shù)據(jù)存儲庫——信息管理者用其來定義和管理元數(shù)據(jù),以方便利用元數(shù)據(jù)進行分析,他們也可以利用此庫來發(fā)布關于可重復使用資產(chǎn)的信息,讓用戶能在生命周期活動中(例如設計、測試和版本管理等)瀏覽元數(shù)據(jù)。2、業(yè)務術語——用來管理企業(yè)業(yè)務術語以及這些術語之間關系的庫。3、數(shù)據(jù)血統(tǒng)——分析數(shù)據(jù)的起源和數(shù)據(jù)隨著時間的流向,描述多個過程中數(shù)據(jù)發(fā)生了什么,數(shù)據(jù)血統(tǒng)還可以幫助企業(yè)分析信息的使用細節(jié),對關鍵信息進行跟蹤。4、影響分析——描述了信息之間依賴性的細節(jié),分析一個數(shù)據(jù)源發(fā)生變化時帶來的影響。5、符合MOF規(guī)范——MOF規(guī)范位于模型體系最底層,是所有模型體系規(guī)范的基礎,UML,CWM都是由MOF擴展而來,元數(shù)據(jù)圍繞MOF設計和擴展,不用修改元數(shù)據(jù)管理核心部分,就可以適應元數(shù)據(jù)種類的不斷擴展。6、語義框架——包括對分類的支持,實體關系(ER)模型、本體和模型語言,例如RDF、OWL和UML。7、元數(shù)據(jù)獲取和翻譯——使用多種技術作為橋梁,來應對不同的數(shù)據(jù)源C目錄ONTENTS2元數(shù)據(jù)規(guī)劃與建設1DAMA元數(shù)據(jù)管理3元數(shù)據(jù)應用案例4

CWM-元數(shù)據(jù)建設標準參考在公共模型(CIM)數(shù)據(jù)資產(chǎn)建設上的應用在非結構化數(shù)據(jù)管理上的應用基于專業(yè)元數(shù)據(jù)標準進行CIM(公共數(shù)據(jù)模型)設計在DAMA元數(shù)據(jù)標準和指南中提到:在與業(yè)務貿(mào)易伙伴交換數(shù)據(jù)時,元數(shù)據(jù)標準是必不可少的。為了支持共享信息的最佳使用,需要共享公共元數(shù)據(jù),這催生了許多專業(yè)領域的標準。在計劃周期的早期采用基于行業(yè)的、行業(yè)特有的元數(shù)據(jù)標準,并使用這些標準評估元數(shù)據(jù)管理技術。技術元數(shù)據(jù)已經(jīng)成為數(shù)據(jù)遷移和集成方法中不可或缺的一部分,元數(shù)據(jù)注冊標準ISO/IEC11179旨在基于精確數(shù)據(jù)定義,在異構環(huán)境中實現(xiàn)以元數(shù)據(jù)為驅(qū)動的數(shù)據(jù)交換。IEC-CIM是IEC-61970/61968系列標準(草案)的靈魂和基礎。它是一個根據(jù)電力系統(tǒng)物理特性而構建的抽象邏輯模型,是國際上公認比較完善的電力系統(tǒng)元數(shù)據(jù)模型。它覆蓋了電力信息模型中典型包含的電力企業(yè)的所有主要對象,包括這些對象的公共類和屬性,以及它們之間的關系——繼承、簡單關聯(lián)和聚合。各類應用在這個統(tǒng)一的元數(shù)據(jù)的定義范圍內(nèi)交換數(shù)據(jù),進行互聯(lián)操作。IEC-CIM實現(xiàn)了電力行業(yè)同構或異構系統(tǒng)之間互操作和集成的基礎。IEC-61970CIMPackagesIEC-61968CIMPackages采用數(shù)據(jù)元管理方法按主題按活動按實體屬性數(shù)據(jù)集元數(shù)據(jù)Metadata對數(shù)據(jù)集外部特征的描述,包括標識、內(nèi)容、質(zhì)量等信息.數(shù)據(jù)模式DataSchema對數(shù)據(jù)集組織方式的描述,包括主題域、類關系和實體屬性等數(shù)據(jù)元DataElement對數(shù)據(jù)集內(nèi)部基本元素的規(guī)范化描述,包括標識、定義等.外部特征規(guī)范描述分類編碼ClassifyAndcoding將相同主題數(shù)據(jù)集歸并在一起,不同主題數(shù)據(jù)集區(qū)分開.分類體系編碼體系不同類別的數(shù)據(jù)集H01023342PH01023342MD01023342CMI01023342組織方式規(guī)范描述內(nèi)部元素規(guī)范描述公共數(shù)據(jù)模型設計過程元數(shù)據(jù)資產(chǎn)體系主要根據(jù)按照面向?qū)ο蟮脑O計方法和對公司核心業(yè)務管理實體的抽象文檔(DocumentInherit95598申請單故障申請時間信息基準電壓(Core)派工信息用電客戶(客戶信息)申請(WorkInitiation)設備資產(chǎn)(AssetBasics)車輛(PointAssetHiera班組(Crew)ERP人員(ERP_Support)工作工作任務故障處理信息ERP應收(ERP_Support)ERP發(fā)票(ERP_Support)ERP發(fā)票項目(ERP_Support)客戶(Consumers)發(fā)票公司(Core)應收發(fā)票項目ERP人員(ERP_Support)業(yè)務收費客戶帳戶(Consumers)能能能費發(fā)(Financial)傳傳發(fā)發(fā)發(fā)(Financial)協(xié)協(xié)(TopLevel)購發(fā)協(xié)協(xié)能能能能(EnergyScheduli開開開開能能(Financial)傳傳能能(Financial)發(fā)電電電(Financial)發(fā)發(fā)發(fā)發(fā)(Production)標標標標(Core)發(fā)組(TopLevel)發(fā)發(fā)發(fā)發(fā)發(fā)

控控控控控發(fā)(Financial)(Financial)交交交交協(xié)協(xié)(Financial)ERP發(fā)話號碼(ERP_Support)ERP人員(ERP_Support)發(fā)組ERP人員角(TopLevel)項目各階段時間及信息項目基本信息項目進度信息項目合同信息物料信息項目結算費用信息項目決算費用信息項目概算信息項目(

Wor

kInit

i

at

ion)物料需求(

Wor

kSchedul

e)文檔:

1(

Document

I

nher

it

anc大修技改項目單位信息(

組織信息)物料主數(shù)據(jù)

(物資)工作(

Wor

kI

ni

t

iat

i

on)項目WBS文檔:

2(

Document

I

nher

it

anc基建管理

安全先進申報事故統(tǒng)交

任務中心安全基礎信息

安全匯

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論