版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)治理——為業(yè)務(wù)提供持續(xù)的、可度量的價(jià)值目錄TOC\o"1-2"\h\z\u大數(shù)據(jù)治理——為業(yè)務(wù)提供持續(xù)的、可度量的價(jià)值1概述1大數(shù)據(jù)治理系列1第一局部:大數(shù)據(jù)治理統(tǒng)一流程模型概述和明確元數(shù)據(jù)管理策略2第二局部:元數(shù)據(jù)集成體系結(jié)構(gòu)14第三局部:實(shí)施元數(shù)據(jù)管理24第四局部:大數(shù)據(jù)治理統(tǒng)一流程參考模型的第四步到第九步36第五局部:定義度量值和主數(shù)據(jù)監(jiān)管52第六局部:大數(shù)據(jù)監(jiān)管和信息單一視圖監(jiān)管66第七局部:分析監(jiān)管、平安與隱私管理和信息生命周期監(jiān)管79概述面對(duì)我們身邊每時(shí)每刻迅速增長(zhǎng)的龐大數(shù)據(jù),因?yàn)槠鋽?shù)量大、速度快、種類多和準(zhǔn)確性的特征,如何更好地利用大數(shù)據(jù)創(chuàng)造出有意義的價(jià)值,一直是我們探索的重要話題。而在這之前,就需要用科學(xué)正確的方法策略對(duì)大數(shù)據(jù)進(jìn)行治理。大數(shù)據(jù)治理是指制定與大數(shù)據(jù)有關(guān)的數(shù)據(jù)優(yōu)化、隱私保護(hù)與數(shù)據(jù)變現(xiàn)的政策,是傳統(tǒng)信息治理的延續(xù)和擴(kuò)展,也是大數(shù)據(jù)分析的根底,還是連接大數(shù)據(jù)科學(xué)和應(yīng)用的橋梁,因此大數(shù)據(jù)治理是大數(shù)據(jù)再創(chuàng)頂峰的“必修課〞。下面我們將與您分享新鮮出爐的大數(shù)據(jù)治理方案。大數(shù)據(jù)治理系列本系列共分為七個(gè)局部,圍繞大數(shù)據(jù)治理統(tǒng)一流程參考模型,并結(jié)合實(shí)際業(yè)務(wù)問(wèn)題和IBM相應(yīng)的產(chǎn)品解決方案展開(kāi)表達(dá)。第一局部:大數(shù)據(jù)治理統(tǒng)一流程模型概述和明確元數(shù)據(jù)管理策略為了更好地幫助企業(yè)進(jìn)行大數(shù)據(jù)治理,筆者在IBM數(shù)據(jù)治理統(tǒng)一流程模型根底上結(jié)合在電信、金融、政府等行業(yè)進(jìn)行大數(shù)據(jù)治理的經(jīng)驗(yàn),整理出了大數(shù)據(jù)治理統(tǒng)一流程參考模型。本文主要介紹了大數(shù)據(jù)治理的根本概念,以及結(jié)合圖文并茂的方式講解了大數(shù)據(jù)治理統(tǒng)一流程參考模型的前兩步:“明確元數(shù)據(jù)管理策略〞和“元數(shù)據(jù)集成體系結(jié)構(gòu)〞內(nèi)容。大數(shù)據(jù)治理概述〔狹義〕大數(shù)據(jù)是指無(wú)法使用傳統(tǒng)流程或工具在合理的時(shí)間和本錢(qián)內(nèi)處理或分析的信息,這些信息將用來(lái)幫助企業(yè)更智慧地經(jīng)營(yíng)和決策。而廣義的大數(shù)據(jù)更是指企業(yè)需要處理的海量數(shù)據(jù),包括傳統(tǒng)數(shù)據(jù)以及狹義的大數(shù)據(jù)?!矎V義〕大數(shù)據(jù)可以分為五個(gè)類型:Web和社交媒體數(shù)據(jù)、機(jī)器對(duì)機(jī)器〔M2M〕數(shù)據(jù)、海量交易數(shù)據(jù)、生物計(jì)量學(xué)數(shù)據(jù)和人工生成的數(shù)據(jù)。Web和社交媒體數(shù)據(jù):比方各種微博、博客、社交網(wǎng)站、購(gòu)物網(wǎng)站中的數(shù)據(jù)和內(nèi)容。M2M數(shù)據(jù):也就是機(jī)器對(duì)機(jī)器的數(shù)據(jù),比方RFID數(shù)據(jù)、GPS數(shù)據(jù)、智能儀表、監(jiān)控記錄數(shù)據(jù)以及其他各種傳感器、監(jiān)控器的數(shù)據(jù)。海量交易數(shù)據(jù):是各種海量的交易記錄以及交易相關(guān)的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),比方電信行業(yè)的CDR、3G上網(wǎng)記錄等,金融行業(yè)的網(wǎng)上交易記錄、corebanking記錄、理財(cái)記錄等,保險(xiǎn)行業(yè)的各種理賠等。生物計(jì)量學(xué)數(shù)據(jù):是指和人體識(shí)別相關(guān)的生物識(shí)別信息,如指紋、DNA、虹膜、視網(wǎng)膜、人臉、聲音模式、筆跡等。人工生成的數(shù)據(jù):比方各種調(diào)查問(wèn)卷、電子郵件、紙質(zhì)文件、掃描件、錄音和電子病歷等。在各行各業(yè)中,隨處可見(jiàn)因數(shù)量、速度、種類和準(zhǔn)確性結(jié)合帶來(lái)的大數(shù)據(jù)問(wèn)題,為了更好地利用大數(shù)據(jù),大數(shù)據(jù)治理逐漸提上日程。在傳統(tǒng)系統(tǒng)中,數(shù)據(jù)需要先存儲(chǔ)到關(guān)系型數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)后再進(jìn)行各種查詢和分析,這些數(shù)據(jù)我們稱之為靜態(tài)數(shù)據(jù)。而在大數(shù)據(jù)時(shí)代,除了靜態(tài)數(shù)據(jù)以外,還有很多數(shù)據(jù)對(duì)實(shí)時(shí)性要求非常高,需要在采集數(shù)據(jù)時(shí)就進(jìn)行相應(yīng)的處理,處理結(jié)果存入到關(guān)系型數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)、MPP數(shù)據(jù)庫(kù)、Hadoop平臺(tái)、各種NoSQL數(shù)據(jù)庫(kù)等,這些數(shù)據(jù)我們稱之為動(dòng)態(tài)數(shù)據(jù)。比方高鐵機(jī)車(chē)的關(guān)鍵零部件上裝有成百上千的傳感器,每時(shí)每刻都在生成設(shè)備狀態(tài)信息,企業(yè)需要實(shí)時(shí)收集這些數(shù)據(jù)并進(jìn)行分析,當(dāng)發(fā)現(xiàn)設(shè)備可能出現(xiàn)問(wèn)題時(shí)及時(shí)告警。再比方在電信行業(yè),基于用戶通信行為的精準(zhǔn)營(yíng)銷(xiāo)、位置營(yíng)銷(xiāo)等,都會(huì)實(shí)時(shí)的采集用戶數(shù)據(jù)并根據(jù)業(yè)務(wù)模型進(jìn)行相應(yīng)的營(yíng)銷(xiāo)活動(dòng)。大數(shù)據(jù)治理的核心是為業(yè)務(wù)提供持續(xù)的、可度量的價(jià)值。大數(shù)據(jù)治理人員需要定期與企業(yè)高層管理人員進(jìn)行溝通,保證大數(shù)據(jù)治理方案可以持續(xù)獲得支持和幫助。相信隨著時(shí)間的推移,大數(shù)據(jù)將成為主流,企業(yè)可以從海量的數(shù)據(jù)中獲得更多的價(jià)值,而大數(shù)據(jù)治理的范圍和嚴(yán)格程度也將逐步上升。為了更好地幫助企業(yè)進(jìn)行大數(shù)據(jù)治理,筆者在IBM數(shù)據(jù)治理統(tǒng)一流程模型根底上結(jié)合在電信、金融、政府等行業(yè)進(jìn)行大數(shù)據(jù)治理的經(jīng)驗(yàn),整理了大數(shù)據(jù)治理統(tǒng)一流程參考模型,整個(gè)參考模型分為必選步驟和可選步驟兩局部。大數(shù)據(jù)治理統(tǒng)一流程參考模型如圖1所示,大數(shù)據(jù)治理統(tǒng)一流程參考模型必要步驟分為兩個(gè)方向:一條子線是在制定元數(shù)據(jù)管理策略和確立體系結(jié)構(gòu)的根底上實(shí)施全面的元數(shù)據(jù)管理,另一條子線是在定義業(yè)務(wù)問(wèn)題、執(zhí)行成熟度評(píng)估的根底上定義數(shù)據(jù)治理路線圖以及定義數(shù)值治理相關(guān)的度量值。在11個(gè)必要步驟的根底上,企業(yè)可以在7個(gè)可選步驟中選擇一個(gè)或多個(gè)途徑進(jìn)行特定領(lǐng)域的數(shù)據(jù)治理,可選步驟為:主數(shù)據(jù)監(jiān)管、〔狹義〕大數(shù)據(jù)監(jiān)管、信息單一視圖監(jiān)管、運(yùn)營(yíng)分析監(jiān)管、預(yù)測(cè)分析監(jiān)管、管理平安與隱私以及監(jiān)管信息生命周期。企業(yè)需要定期對(duì)大數(shù)據(jù)治理統(tǒng)一流程進(jìn)行度量并將結(jié)果發(fā)送給主管級(jí)發(fā)起人。圖1大數(shù)據(jù)治理統(tǒng)一流程參考模型第一步:明確元數(shù)據(jù)管理策略在最開(kāi)始的時(shí)候,元數(shù)據(jù)〔MetaData〕是指描述數(shù)據(jù)的數(shù)據(jù),通常由信息結(jié)構(gòu)的描述組成,隨著技術(shù)的開(kāi)展元數(shù)據(jù)內(nèi)涵有了非常大的擴(kuò)展,比方UML模型、數(shù)據(jù)交易規(guī)那么、用Java,.NET,C++等編寫(xiě)的APIs、業(yè)務(wù)流程和工作流模型、產(chǎn)品配置描述和調(diào)優(yōu)參數(shù)以及各種業(yè)務(wù)規(guī)那么、術(shù)語(yǔ)和定義等[1]。在大數(shù)據(jù)時(shí)代,元數(shù)據(jù)還應(yīng)該包括對(duì)各種新數(shù)據(jù)類型的描述,如對(duì)位置、名字、用戶點(diǎn)擊次數(shù)、音頻、視頻、圖片、各種無(wú)線感知設(shè)備數(shù)據(jù)和各種監(jiān)控設(shè)備數(shù)據(jù)等的描述等。元數(shù)據(jù)通常分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)等。業(yè)務(wù)元數(shù)據(jù)主要包括業(yè)務(wù)規(guī)那么、定義、術(shù)語(yǔ)、術(shù)語(yǔ)表、運(yùn)算法那么和系統(tǒng)使用業(yè)務(wù)語(yǔ)言等,主要使用者是業(yè)務(wù)用戶。技術(shù)元數(shù)據(jù)主要用來(lái)定義信息供給鏈〔InformationSupplyChain,ISC〕各類組成局部元數(shù)據(jù)結(jié)構(gòu),具體包括各個(gè)系統(tǒng)表和字段結(jié)構(gòu)、屬性、出處、依賴性等,以及存儲(chǔ)過(guò)程、函數(shù)、序列等各種對(duì)象。操作元數(shù)據(jù)是指應(yīng)用程序運(yùn)行信息,比方其頻率、記錄數(shù)以及各個(gè)組件的分析和其它統(tǒng)計(jì)信息等。從整個(gè)企業(yè)層面來(lái)說(shuō),各種工具軟件和應(yīng)用程序越來(lái)越復(fù)雜,相互依存度逐年增加,相應(yīng)的追蹤整個(gè)信息供給鏈各組件之間數(shù)據(jù)流動(dòng)、了解數(shù)據(jù)元素含義和上下文的需求越來(lái)越強(qiáng)烈。在從應(yīng)用議程往信息議程的轉(zhuǎn)變過(guò)程中,元數(shù)據(jù)管理也逐漸從局部存儲(chǔ)和管理轉(zhuǎn)向共享。從總量上來(lái)看,整個(gè)企業(yè)的元數(shù)據(jù)越來(lái)越多,光現(xiàn)有的數(shù)據(jù)模型中就包含了成千上萬(wàn)的表,同時(shí)還有更多的模型等著上線,同時(shí)隨著大數(shù)據(jù)時(shí)代的來(lái)臨,企業(yè)需要處理的數(shù)據(jù)類型越來(lái)越多。為了企業(yè)更高效地運(yùn)轉(zhuǎn),企業(yè)需要明確元數(shù)據(jù)管理策略和元數(shù)據(jù)集成體系結(jié)構(gòu),依托成熟的方法論和工具實(shí)現(xiàn)元數(shù)據(jù)管理,并有步驟的提升其元數(shù)據(jù)管理成熟度。為了實(shí)現(xiàn)大數(shù)據(jù)治理,構(gòu)建智慧的分析洞察,企業(yè)需要實(shí)現(xiàn)貫穿整個(gè)企業(yè)的元數(shù)據(jù)集成,建立完整且一致的元數(shù)據(jù)管理策略,該策略不僅僅針對(duì)某個(gè)數(shù)據(jù)倉(cāng)庫(kù)工程、業(yè)務(wù)分析工程、某個(gè)大數(shù)據(jù)工程或某個(gè)應(yīng)用單獨(dú)制定一個(gè)管理策略,而是針對(duì)整個(gè)企業(yè)構(gòu)建完整的管理策略。元數(shù)據(jù)管理策略也不是技術(shù)標(biāo)準(zhǔn)或某個(gè)軟件工具可以取代的,無(wú)論軟件工具功能多強(qiáng)大都不能完全替代一個(gè)完整一致的元數(shù)據(jù)管理策略,反而在定義元數(shù)據(jù)集成體系結(jié)構(gòu)以及選購(gòu)元數(shù)據(jù)管理工具之前需要定義元數(shù)據(jù)管理策略。元數(shù)據(jù)管理策略需要明確企業(yè)元數(shù)據(jù)管理的愿景、目標(biāo)、需求、約束和策略等,依據(jù)企業(yè)自身當(dāng)前以及未來(lái)的需要確定要實(shí)現(xiàn)的元數(shù)據(jù)管理成熟度以及實(shí)現(xiàn)目標(biāo)成熟度的路線圖,完成根底本體、領(lǐng)域本體、任務(wù)本體和應(yīng)用本體的構(gòu)建,確定元數(shù)據(jù)管理的平安策略、版本控制、元數(shù)據(jù)訂閱推送等。企業(yè)需要對(duì)業(yè)務(wù)術(shù)語(yǔ)、技術(shù)術(shù)語(yǔ)中的敏感數(shù)據(jù)進(jìn)行標(biāo)記和分類,制定相應(yīng)的數(shù)據(jù)隱私保護(hù)政策,確保企業(yè)在隱私保護(hù)方面符合當(dāng)?shù)仉[私方面的法律法規(guī),如果企業(yè)有跨國(guó)數(shù)據(jù)交換、元數(shù)據(jù)交換的需求,也要遵循涉及國(guó)家的法律法規(guī)要求。企業(yè)需要保證每個(gè)元數(shù)據(jù)元素在信息供給鏈中每個(gè)組件中語(yǔ)義上保持一致,也就是語(yǔ)義等效〔semanticequivalence〕。語(yǔ)義等效可以強(qiáng)也可以弱,在一個(gè)元數(shù)據(jù)集成方案中,語(yǔ)義等效〔平均〕越強(qiáng)那么整個(gè)方案的效率越高。語(yǔ)義等效的強(qiáng)弱程度直接影響元數(shù)據(jù)的共享和重用。本體〔人工智能和計(jì)算機(jī)科學(xué)〕本體〔Ontology〕源自哲學(xué)本體論,而哲學(xué)本體論那么是源自哲學(xué)中“形而上學(xué)〞分支。本體有時(shí)也被翻譯本錢(qián)體論,在人工智能和計(jì)算機(jī)科學(xué)領(lǐng)域本體最早源于上世紀(jì)70年代中期,隨著人工智能的開(kāi)展人們發(fā)現(xiàn)知識(shí)的獲取是構(gòu)建強(qiáng)大人工智能系統(tǒng)的關(guān)鍵,于是開(kāi)始將新的本體創(chuàng)立為計(jì)算機(jī)模型從而實(shí)現(xiàn)特定類型的自動(dòng)化推理。之后到了上世紀(jì)80年代,人工智能領(lǐng)域開(kāi)始使用本體表示模型化時(shí)間的一種理論以及知識(shí)系統(tǒng)的一種組件,認(rèn)為本體〔人工智能〕是一種應(yīng)用哲學(xué)。最早的本體〔人工智能和計(jì)算機(jī)科學(xué)〕定義是Neches等人在1991給出的:“一個(gè)本體定義了組成主題領(lǐng)域的詞匯的根本術(shù)語(yǔ)和關(guān)系,以及用于組合術(shù)語(yǔ)和關(guān)系以及定義詞匯外延的規(guī)那么〞。而第一次被業(yè)界廣泛接受的本體定義出自TomGruber,其在1993年提出:“本體是概念化的顯式的表示〔規(guī)格說(shuō)明〕〞。Borst在1997年對(duì)TomGruber的本體定義做了進(jìn)一步的擴(kuò)展,認(rèn)為:“本體是共享的、概念化的一個(gè)形式的標(biāo)準(zhǔn)說(shuō)明〞。在前人的根底上,Stude在1998年進(jìn)一步擴(kuò)展了本體的定義,這也是今天被廣泛接受的一個(gè)定義:“本體是共享概念模型的明確形式化標(biāo)準(zhǔn)說(shuō)明〞。本體提供一個(gè)共享詞匯表,可以用來(lái)對(duì)一個(gè)領(lǐng)域建模,具體包括那些存在的對(duì)象或概念的類型、以及他們的屬性和關(guān)系[2]。一個(gè)簡(jiǎn)單的本體例如發(fā)票概念及其相互關(guān)系所構(gòu)成的語(yǔ)義網(wǎng)絡(luò)如圖2所示:圖2簡(jiǎn)單本體〔發(fā)票〕例如隨著時(shí)間的推移和技術(shù)的開(kāi)展,本體從最開(kāi)始的人工智能領(lǐng)域逐漸擴(kuò)展到圖書(shū)館學(xué)、情報(bào)學(xué)、軟件工程、信息架構(gòu)、生物醫(yī)學(xué)和信息學(xué)等越來(lái)越多的學(xué)科。與哲學(xué)本體論類似,本體〔人工智能和計(jì)算機(jī)科學(xué)〕依賴某種類別體系來(lái)表達(dá)實(shí)體、概念、事件及其屬性和關(guān)系。本體的核心是知識(shí)共享和重用,通過(guò)減少特定領(lǐng)域內(nèi)概念或術(shù)語(yǔ)上的分歧,使不同的用戶之間可以順暢的溝通和交流并保持語(yǔ)義等效性,同時(shí)讓不同的工具軟件和應(yīng)用系統(tǒng)之間實(shí)現(xiàn)互操作。根據(jù)研究層次可以將本體的種類劃分為“頂級(jí)本體〞〔top-levelontology〕、應(yīng)用本體〔applicationontology〕、領(lǐng)域本體〔domainontology〕和任務(wù)本體〔taskontology〕,各個(gè)種類之間的層次關(guān)系如圖3所示。圖3本體層次關(guān)系頂級(jí)本體,也被稱為上層本體〔upperontology〕或根底本體〔foundationontology〕,是指獨(dú)立于具體的問(wèn)題或領(lǐng)域,在所有領(lǐng)域都適用的共同對(duì)象或概念所構(gòu)成的模型,主要用來(lái)描述高級(jí)別且通用的概念以及概念之間的關(guān)系。領(lǐng)域本體是指對(duì)某個(gè)特定的領(lǐng)域建模,顯式的實(shí)現(xiàn)對(duì)領(lǐng)域的定義,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯、詞匯業(yè)務(wù)含義和對(duì)應(yīng)的信息資產(chǎn)等,提供對(duì)該領(lǐng)域知識(shí)的共同理解。領(lǐng)域本體所表達(dá)的是適合自己領(lǐng)域的術(shù)語(yǔ)的特定含義,缺乏兼容性,因而在其他領(lǐng)域往往不適用。在同一領(lǐng)域內(nèi),由于文化背景、語(yǔ)言差異、受教育程度或意識(shí)形態(tài)的差異,也可能會(huì)出現(xiàn)不同的本體。很多時(shí)候,隨著依賴領(lǐng)域本體系統(tǒng)的擴(kuò)展,需要將不同的領(lǐng)域本體合并為更通用的標(biāo)準(zhǔn)說(shuō)明,對(duì)并非基于同一頂級(jí)本體所構(gòu)建的本體進(jìn)行合并是一項(xiàng)非常具有挑戰(zhàn)的任務(wù),很多時(shí)候需要靠手工來(lái)完成,相反,對(duì)那些基于同一頂級(jí)本體構(gòu)建的領(lǐng)域本體可以實(shí)現(xiàn)自動(dòng)化的合并。任務(wù)本體是針對(duì)任務(wù)元素及其之間關(guān)系的標(biāo)準(zhǔn)說(shuō)明或詳細(xì)說(shuō)明,用來(lái)解釋任務(wù)存在的條件以及可以被用在哪些領(lǐng)域或環(huán)境中。是一個(gè)通用術(shù)語(yǔ)的集合用來(lái)描述關(guān)于任務(wù)的定義和概念等。應(yīng)用本體:描述依賴于特定領(lǐng)域和任務(wù)的概念及概念之間的關(guān)系,是用于特定應(yīng)用或用途的本體,其范疇可以通過(guò)可測(cè)試的用例來(lái)指定。從詳細(xì)程度上來(lái)分,本體又可以分為參考本體〔referenceontologies〕和共享本體〔shareontologies〕,參考本體的詳細(xì)程度高,而共享本體的詳細(xì)程度低。本體〔哲學(xué)〕哲學(xué)中的本體〔ontology〕也被稱為存在論,源自哲學(xué)中“形而上學(xué)〞分支,主要探討存在的本質(zhì),也就是存在的存在。英文ontology實(shí)際上就是來(lái)源于希臘文“ον〞〔存在〕和“λ?γο?〞〔學(xué)科〕的組合。本體是由早期希臘哲學(xué)在公元前6世紀(jì)到公元前4世紀(jì)提出的“始基〞延伸出來(lái)的。始基〔Principle,又稱本原〕最早由泰勒斯〔米利都學(xué)派〕最早提出來(lái),認(rèn)為萬(wàn)物由水而生,其學(xué)生阿那克西曼德認(rèn)為萬(wàn)物由一種簡(jiǎn)單的原質(zhì)組成,該原質(zhì)不是水[3]。而畢達(dá)哥拉斯〔學(xué)派〕認(rèn)為“萬(wàn)物都是數(shù)〞,數(shù)不僅被看作萬(wàn)物的本原,而且被看作萬(wàn)物的原型、世界的本體。后來(lái)巴門(mén)尼德〔愛(ài)利亞學(xué)派〕提出了“存在〞的概念,認(rèn)為存在才是唯一真正存在的真理,其創(chuàng)造了一種形而上學(xué)論證方式,之后的哲學(xué)一直到近時(shí)期為止,都從巴門(mén)尼德處接受了其“實(shí)體的不可消滅性〞。蘇格拉底繼承了巴門(mén)尼德的存在概念,主張“真正的善〞并完善了巴門(mén)尼德弟子芝諾的辯證法,其學(xué)生柏拉圖提出了“理念論〞,認(rèn)為只要假設(shè)干個(gè)個(gè)體擁有一個(gè)共同的名字,它們就有一個(gè)共同的理念或形式。亞里士多德〔柏拉圖學(xué)生〕總結(jié)了先哲們的思想,完成了《形而上學(xué)》,并將本體總結(jié)為:對(duì)世界上客觀存在事物的系統(tǒng)的描述,即存在論,也就是最形而上學(xué)的知識(shí)。形而上學(xué)不是指孤立、靜止之類的意思,而是指超越具體形態(tài)的抽象意思,是關(guān)于物質(zhì)世界最普遍的、最一般的、最不具體的規(guī)律的學(xué)問(wèn)。第二步:元數(shù)據(jù)集成體系結(jié)構(gòu)在明確了元數(shù)據(jù)管理策略后需要確定實(shí)現(xiàn)該管理策略所需的技術(shù)體系結(jié)構(gòu),即元數(shù)據(jù)集成體系結(jié)構(gòu)。各個(gè)企業(yè)的元數(shù)據(jù)管理策略和元數(shù)據(jù)管理成熟度差異較大,因此元數(shù)據(jù)集成體系結(jié)構(gòu)也多種多樣。大體上元數(shù)據(jù)集成體系結(jié)構(gòu)可以分為點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)、中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)、基于CWM〔CommonWarehouseMetaModel,公共倉(cāng)庫(kù)元模型〕模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)、基于CWM模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)、分布式〔聯(lián)邦式〕元數(shù)據(jù)集成體系結(jié)構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)等。針對(duì)信息供給鏈中不同的組件,為了實(shí)現(xiàn)跨組件的元數(shù)據(jù)交換和集成,最開(kāi)始人們采用點(diǎn)對(duì)點(diǎn)的方式進(jìn)行,也就是每一對(duì)組件之間通過(guò)一個(gè)獨(dú)立的元數(shù)據(jù)橋〔metadatabridge〕進(jìn)行元數(shù)據(jù)交換,橋一般是雙向的能夠理解兩個(gè)方向的元數(shù)據(jù)映射[4]。點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)幫助用戶實(shí)現(xiàn)了跨企業(yè)的元數(shù)據(jù)集成和元數(shù)據(jù)交換,對(duì)提升信息化水平提供了巨大幫助。這種體系結(jié)構(gòu)在應(yīng)用過(guò)程中,也暴露了很多問(wèn)題,比方元數(shù)據(jù)橋的構(gòu)建工作量和耗時(shí)都非常大,對(duì)中間件廠商、應(yīng)用廠商、集成商和用戶來(lái)說(shuō)都是一個(gè)巨大的挑戰(zhàn),而且構(gòu)建元數(shù)據(jù)橋還必須具有所有者的元數(shù)據(jù)模型和接口的詳細(xì)信息。構(gòu)建完成的橋很多時(shí)候無(wú)法在構(gòu)建其他元數(shù)據(jù)橋時(shí)進(jìn)行重用,因此開(kāi)發(fā)和維護(hù)費(fèi)用大幅度增加,用戶投資回報(bào)率〔ROI〕不高。以動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)為例,其點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)具體如圖4所示,信息供給鏈各組件之間的空心箭頭表示全部的數(shù)據(jù)流,實(shí)心箭頭表示不同的元數(shù)據(jù)橋和與之關(guān)聯(lián)的元數(shù)據(jù)流。圖4點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)通過(guò)使用中央元數(shù)據(jù)存儲(chǔ)庫(kù)〔centralmetadatarepository〕取代各個(gè)工具軟件和應(yīng)用程序之間的點(diǎn)對(duì)點(diǎn)連接方式,改成中央元數(shù)據(jù)存儲(chǔ)庫(kù)與各個(gè)工具軟件和應(yīng)用程序?qū)崿F(xiàn)元數(shù)據(jù)交換的訪問(wèn)層〔也是一種橋〕,可以有效降低總本錢(qián),減少建立點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)橋的工作,提高投資回報(bào)率。信息供給鏈各組件可以從存儲(chǔ)庫(kù)訪問(wèn)元數(shù)據(jù),不必與其他產(chǎn)品進(jìn)行點(diǎn)對(duì)點(diǎn)交互。這種使用中央元數(shù)據(jù)存儲(chǔ)庫(kù)方式進(jìn)行元數(shù)據(jù)集成的方式就是中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)〔hub-and-spokemetadataarchitecture〕,具體如圖5所示。由于特定的元數(shù)據(jù)存儲(chǔ)庫(kù)是圍繞其自身的元模型、接口和交付效勞建立的,所以仍需要建立元數(shù)據(jù)橋?qū)崿F(xiàn)與ISC各組件的互相訪問(wèn)。圖5中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)采用模型驅(qū)動(dòng)的元數(shù)據(jù)集成方法〔比方使用CWM〕可以有效降低元數(shù)據(jù)集成的本錢(qián)和復(fù)雜度,無(wú)論點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)還是中央輻射式元數(shù)據(jù)集成體系結(jié)構(gòu)都可以因此受益。在點(diǎn)對(duì)點(diǎn)體系結(jié)構(gòu)中,通過(guò)使用基于模型的方法可以不必在每一對(duì)需要集成的產(chǎn)品之間構(gòu)建元數(shù)據(jù)橋,每個(gè)產(chǎn)品只需要提供一個(gè)適配器〔adapter〕即可實(shí)現(xiàn)各個(gè)產(chǎn)品之間的元數(shù)據(jù)交換,適配器既了解公共的元模型也了解本產(chǎn)品元模型的內(nèi)部實(shí)現(xiàn)。如圖6所示,基于CWM模型驅(qū)動(dòng)點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)使用通用元模型,不再需要在各個(gè)產(chǎn)品間建立元數(shù)據(jù)橋,在各個(gè)產(chǎn)品之間通過(guò)適配器實(shí)現(xiàn)了語(yǔ)義等價(jià)性。圖6基于CWM模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)如圖7所示,在基于模型驅(qū)動(dòng)〔比方CWM〕的中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)中,中央存儲(chǔ)庫(kù)包含公共元模型和整個(gè)領(lǐng)域〔domain〕用到的該元模型的各個(gè)實(shí)例〔模型〕、存儲(chǔ)庫(kù)自身元模型及其實(shí)例、理解元模型〔公共元模型和自身元模型〕的適配器層,當(dāng)然存儲(chǔ)庫(kù)也可以直接實(shí)現(xiàn)公共元模型的某些內(nèi)部表示。圖7基于CWM模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)如圖8所示,這種體系架構(gòu)是基于CWM模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)的一個(gè)變種,兩個(gè)中央輻射式的拓?fù)浣Y(jié)構(gòu)通過(guò)各自的元數(shù)據(jù)存儲(chǔ)庫(kù)連接起來(lái),也被稱為分布式〔Distributed〕或聯(lián)邦〔Federated〕體系結(jié)構(gòu)。兩個(gè)元數(shù)據(jù)存儲(chǔ)庫(kù)之間通過(guò)元數(shù)據(jù)橋連接,兩個(gè)存儲(chǔ)庫(kù)使用相同的元模型和接口,也可以使用不同的元模型和接口。建立分布式元數(shù)據(jù)集成體系結(jié)構(gòu)的原因有很多種,比方企業(yè)基于多個(gè)區(qū)域單獨(dú)部署自己的應(yīng)用,每個(gè)區(qū)域有自己的數(shù)據(jù)中心。圖8分布式〔聯(lián)邦式〕元數(shù)據(jù)集成體系結(jié)構(gòu)如圖9所示,這種體系結(jié)構(gòu)是分布式體系結(jié)構(gòu)的變體,根存儲(chǔ)庫(kù)實(shí)現(xiàn)了元模型的公共局部〔橫跨整個(gè)企業(yè)〕,葉子存儲(chǔ)庫(kù)實(shí)現(xiàn)了一個(gè)或多個(gè)特定的公共元模型子集,并只保存這些自己所對(duì)應(yīng)的元數(shù)據(jù)實(shí)例。特定客戶可以主要訪問(wèn)其感興趣的元數(shù)據(jù)所在的葉子存儲(chǔ)庫(kù),也可以訪問(wèn)其它葉子存儲(chǔ)庫(kù)和根存儲(chǔ)庫(kù)。這種體系結(jié)構(gòu)被稱為層次或星型拓?fù)浣Y(jié)構(gòu)。圖9層次或星型元數(shù)據(jù)集成體系結(jié)構(gòu)結(jié)束語(yǔ)本文詳細(xì)介紹了大數(shù)據(jù)治理的根本概念和統(tǒng)一流程參考模型,并闡述了該模型的第一步“明確元數(shù)據(jù)管理策略〞和第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)〞等內(nèi)容。在第一步“明確元數(shù)據(jù)管理策略〞中講述了元數(shù)據(jù)的根本概念以及本體在人工智能/計(jì)算機(jī)科學(xué)和哲學(xué)中的含義。在第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)〞講述了元數(shù)據(jù)集成體系結(jié)構(gòu)的六種例如,分別為:點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)、中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)、基于CWM模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)、基于CWM模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)、分布式〔聯(lián)邦式〕元數(shù)據(jù)集成體系結(jié)構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)。在本系列文章的下一局部將繼續(xù)介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)〞,具體包括元模型、元-元模型、公共倉(cāng)庫(kù)元模型〔CWM〕、CWM開(kāi)展史、OMG的模型驅(qū)動(dòng)體系結(jié)構(gòu)〔ModelDrivenArchitecture,MDA〕。參考文獻(xiàn)DavidFrankelConsulting,〞UsingModelDrivenArchitecture?toManageMetadata〞,P3;FredrikArvidssonandAnnikaFlycht-Eriksson,2023,OntologiesI,〞Anontologyprovideasharedvocabulary,whichcanbeusedtomodeladomain,thatis,thetypeofobjectsand/orconceptsthatexist,andtheirpropertiesandrelations〞;更多內(nèi)容請(qǐng)參考:[專著]/(英)伯特蘭.羅素/著孫紹武/主編<<西方哲學(xué)史>>;JohnPoole,DanChang,DouglasTolbertandDavidMellor,2002,CommonWarehouseMetamodel,p18-32,p180-202;本系列文章參考了SunilSoares編寫(xiě)的《TheIBMDataGovernanceUnifiedProcess》和《BigdataGovernance》書(shū)中內(nèi)容?第二局部:元數(shù)據(jù)集成體系結(jié)構(gòu)在明確了元數(shù)據(jù)管理策略后需要確定實(shí)現(xiàn)該管理策略所需的技術(shù)體系結(jié)構(gòu),即元數(shù)據(jù)集成體系結(jié)構(gòu)。元數(shù)據(jù)集成體系結(jié)構(gòu)涉及到多個(gè)概念,如元模型、元-元模型、公共倉(cāng)庫(kù)元模型〔CWM〕等,本局部將繼續(xù)介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)〞的相關(guān)內(nèi)容。在本系列的第一篇文章中,我們主要介紹了大數(shù)據(jù)治理的根本概念和統(tǒng)一流程參考模型,并闡述了該模型的第一步“明確元數(shù)據(jù)管理策略〞和第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)〞的六種例如等內(nèi)容。大數(shù)據(jù)治理統(tǒng)一流程參考模型的第二步是“元數(shù)據(jù)集成體系結(jié)構(gòu)〞,具體包括元模型、元-元模型、公共倉(cāng)庫(kù)元模型〔CWM〕、CWM開(kāi)展史、OMG的模型驅(qū)動(dòng)體系結(jié)構(gòu)〔ModelDrivenArchitecture,MDA〕本文將對(duì)元數(shù)據(jù)集成體系結(jié)構(gòu)包含的各種模型展開(kāi)表達(dá)。大數(shù)據(jù)治理統(tǒng)一流程參考模型,第二步:元數(shù)據(jù)集成體系結(jié)構(gòu)元模型〔Metamodel〕模型〔Model〕是用來(lái)描述特定的系統(tǒng)、過(guò)程、事物或概念的準(zhǔn)確而抽象的表示。例如軟件架構(gòu)師可以用概要設(shè)計(jì)的形式建立一個(gè)應(yīng)用系統(tǒng)的模型。本質(zhì)上來(lái)說(shuō),元數(shù)據(jù)是數(shù)據(jù)的形式化模型,是數(shù)據(jù)的抽象描述,該描述準(zhǔn)確地描述了數(shù)據(jù)。元模型〔Metamodel〕也就是模型的模型〔或者元-元數(shù)據(jù)〕,是用來(lái)描述元數(shù)據(jù)的模型。下面基于關(guān)系型表實(shí)體-關(guān)系〔ER〕模型舉例說(shuō)明什么是元模型。如圖1所示,一個(gè)簡(jiǎn)單的關(guān)系型表元模型描述了如何定義一個(gè)關(guān)系型表,規(guī)定了每個(gè)表必須有一個(gè)名字〔字符串〕,一個(gè)表可以有1到多個(gè)列,每個(gè)列必須有一個(gè)名字〔字符串〕和數(shù)據(jù)類型〔字符串〕:圖1簡(jiǎn)單關(guān)系型表元模型如果要?jiǎng)?chuàng)立一個(gè)關(guān)系型表模型,基于該表元模型創(chuàng)立一個(gè)實(shí)例即可,比方創(chuàng)立一個(gè)常見(jiàn)的雇員表Employees表模型,具體如圖2所示,Employees表包含6個(gè)列,分別是編號(hào)、姓、名字、部門(mén)編號(hào)、經(jīng)理編號(hào)和職位編號(hào)。圖2Employees表實(shí)例比方在DB2中創(chuàng)立employees表,可以很容易的從employees表模型中得到相應(yīng)的DDL語(yǔ)句,執(zhí)行DDL語(yǔ)句時(shí)DB2會(huì)生成描述employees表的內(nèi)部元數(shù)據(jù)并存儲(chǔ)在目錄〔DB2內(nèi)部的元數(shù)據(jù)存儲(chǔ)庫(kù)〕中。清單1在DB2中創(chuàng)立employees表例如Createtableemployees(Idintegernotnull,F(xiàn)irst_nameStringnotnull,Last_nameStringnotnull,Depart_IDIntegernotnull,Manager_IDIntegernotnull,Job_IDIntegernotnull)同樣基于圖1簡(jiǎn)單關(guān)系型表元模型創(chuàng)立另一個(gè)實(shí)例department表模型。department表包含2個(gè)列,分別是編號(hào)和部門(mén)名稱,具體如圖3所示。由于department表模型和employees表模型都是基于相同的公共元模型,其它工具和應(yīng)用程序軟件〔了解關(guān)系型表的公共元模型〕可以很容易理解department表和employees表,因?yàn)樗鼈兌际峭粋€(gè)元模型的實(shí)例。其它工具或應(yīng)用程序通過(guò)調(diào)用導(dǎo)入映射〔importmapping〕將該department表模型或employees表模型翻譯成自己內(nèi)部的元數(shù)據(jù)實(shí)例。同樣,也可以將該軟件內(nèi)部元數(shù)據(jù)翻譯成一個(gè)與平臺(tái)無(wú)關(guān)的形式化模型,也就是導(dǎo)出映射〔exportmapping〕,以便其他軟件使用其專有的元數(shù)據(jù)。這種基于公共元模型的集成方法就是模型驅(qū)動(dòng)的元數(shù)據(jù)集成體系結(jié)構(gòu)[1]。圖3department表實(shí)例元-元模型〔Meta-metamodel〕元-元模型就是元模型的模型,有時(shí)也被稱為本體〔ontology〕,是模型驅(qū)動(dòng)的元數(shù)據(jù)集成體系結(jié)構(gòu)的根底,其定義了描述元模型的語(yǔ)言,規(guī)定元模型必須依照一定的形式化規(guī)那么來(lái)建立,以便所有的軟件工具都能夠?qū)ζ溥M(jìn)行理解。元-元模型比元模型具有更高的抽象級(jí)別,一個(gè)元模型是一個(gè)元-元模型的實(shí)例,元模型比元-元模型更加精細(xì),而元-元模型比元模型更加抽象。元數(shù)據(jù)〔模型〕那么是一個(gè)元模型的實(shí)例,遵守元模型的規(guī)定和約束。用戶對(duì)象〔或用戶數(shù)據(jù)〕那么是元數(shù)據(jù)〔或者稱為模型〕的實(shí)例。元數(shù)據(jù)層次結(jié)構(gòu)具體如表1所示,共分為4層,最高層L3是元-元模型,之下是L2元模型和L1模型/元數(shù)據(jù),最底層是L0用戶對(duì)象/用戶數(shù)據(jù):表1元數(shù)據(jù)層次結(jié)構(gòu)元層次名稱例如L3元-元模型元類、元屬性、元操作L2元模型類、屬性、操作、構(gòu)件L1模型/元數(shù)據(jù)實(shí)體-關(guān)系〔ER〕圖L0用戶對(duì)象/用戶數(shù)據(jù)交易數(shù)據(jù)、ODS數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)、數(shù)據(jù)集市數(shù)據(jù)、數(shù)據(jù)中心數(shù)據(jù)等公共倉(cāng)庫(kù)元模型〔CWM〕概述公共倉(cāng)庫(kù)元模型〔CommonWarehouseMetaModel,CWM〕是被對(duì)象管理組織OMG〔ObjectManagementGroup〕采納的數(shù)據(jù)倉(cāng)庫(kù)和業(yè)務(wù)分析領(lǐng)域元數(shù)據(jù)交換開(kāi)放式行業(yè)標(biāo)準(zhǔn),在數(shù)據(jù)倉(cāng)庫(kù)和業(yè)務(wù)分析領(lǐng)域?yàn)樵獢?shù)據(jù)定義公共的元模型和基于XML的元數(shù)據(jù)交換〔XMI〕。CWM作為一個(gè)標(biāo)準(zhǔn)的接口,可以幫助分布式、異構(gòu)環(huán)境中的數(shù)據(jù)倉(cāng)庫(kù)工具,數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)和數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)存儲(chǔ)庫(kù)之間輕松實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)和業(yè)務(wù)分析元數(shù)據(jù)交換。CWM提供一個(gè)框架為數(shù)據(jù)源、數(shù)據(jù)目標(biāo)、轉(zhuǎn)換、分析、流程和操作等創(chuàng)立和管理元數(shù)據(jù),并提供元數(shù)據(jù)使用的世系信息[2]。CWM是一個(gè)基于模型驅(qū)動(dòng)方法的完整地描述數(shù)據(jù)倉(cāng)庫(kù)和業(yè)務(wù)分析領(lǐng)域的元模型,提供構(gòu)建元數(shù)據(jù)所需的語(yǔ)法和語(yǔ)義,由假設(shè)干個(gè)不相同又緊密相關(guān)的子元模型組成。CWM模型的目的是最大限度的重用對(duì)象模型〔ObjectModel,UML的一個(gè)子集〕,并在可能的地方共享通用模型結(jié)構(gòu)。如圖4所示,CWM元模型使用包〔package〕和層次來(lái)簡(jiǎn)化管理的復(fù)雜度并便于理解,共包含21個(gè)單獨(dú)的包,這些包被分為5個(gè)層次。對(duì)象模型層包含定義根本元模型的概念、關(guān)系和約束的包,其它CWM包都需要用到這些定義,對(duì)象模型層的包構(gòu)成了其它CWM包所需要的根本元模型效勞的全部集合。對(duì)象模型層主要包括核心包〔Corepackage〕、行為包〔Behavioralpackage〕、關(guān)系包〔Relationshipspackage〕和實(shí)例包〔Instancepackage〕。數(shù)據(jù)源層〔DataResources〕:主要描述CWM元數(shù)據(jù)交換中既可作為源又可以作為目標(biāo)的數(shù)據(jù)源的結(jié)構(gòu),本層含有的元模型主要描述面向?qū)ο蟮臄?shù)據(jù)庫(kù)和應(yīng)用、關(guān)系型數(shù)據(jù)庫(kù)、面向記錄的數(shù)據(jù)源〔如文件、記錄數(shù)據(jù)庫(kù)管理系統(tǒng)等〕、多維數(shù)據(jù)庫(kù)和XML數(shù)據(jù)源等。對(duì)于面向?qū)ο髷?shù)據(jù)源,CWM一般情況下重用根本的對(duì)象模型〔位于對(duì)象模型層〕,如果該數(shù)據(jù)源具有對(duì)象模型層無(wú)法處理的一些特征和功能時(shí),可以通過(guò)定義一個(gè)擴(kuò)展包來(lái)解決。數(shù)據(jù)分析層〔DataAnalysis〕:本層含有的元模型主要描述數(shù)據(jù)轉(zhuǎn)換、在線分析處理OLAP、數(shù)據(jù)挖掘、信息可視化和業(yè)務(wù)術(shù)語(yǔ)等。倉(cāng)庫(kù)管理層〔WarehouseManagement〕:本層含有的元模型主要描述數(shù)據(jù)倉(cāng)庫(kù)處理和數(shù)據(jù)倉(cāng)庫(kù)操作。圖4CWM1.1元模型CWM1.1是在2003年3月發(fā)布的,與之相關(guān)的OMG組織標(biāo)準(zhǔn)還有MOF、UML和XMI。CWM使用統(tǒng)一建模語(yǔ)言〔UML〕定義公共元數(shù)據(jù)的模型〔CWM元模型〕,使用可擴(kuò)展標(biāo)記語(yǔ)言〔XML〕生成CWM元數(shù)據(jù)交換標(biāo)準(zhǔn)〔也就是XML元數(shù)據(jù)交換,XMI〕,使用CORBA接口定義語(yǔ)言〔IDL〕為訪問(wèn)CWM元數(shù)據(jù)生成編程語(yǔ)言API的標(biāo)準(zhǔn)〔依賴MOF到IDL的映射〕。UML是一種標(biāo)準(zhǔn)化、可視化、描述明確、結(jié)構(gòu)化和文檔化的定義分布式對(duì)象系統(tǒng)的圖形化語(yǔ)言。1996年,業(yè)內(nèi)三種最杰出的面向?qū)ο蠼UZ(yǔ)言:GradyBooch的Booch方法、IvarJacobson的面向?qū)ο筌浖こ獭睴OSE〕和JimRumbaugh的對(duì)象建模技術(shù)〔OMT〕被統(tǒng)一起來(lái)發(fā)布,也就是UML0.9。2023年,發(fā)布。CWM依賴于UML標(biāo)準(zhǔn)的前三個(gè)局部,即UML語(yǔ)義、UML符號(hào)向?qū)Ш蛯?duì)象約束語(yǔ)言標(biāo)準(zhǔn)。UML語(yǔ)義定義UML元模型的語(yǔ)義,UML元模型是層次結(jié)構(gòu)并以包為單位進(jìn)行組織,每個(gè)包按照抽象語(yǔ)言〔使用類圖〕、結(jié)構(gòu)良好規(guī)那么〔采用OCL〕和語(yǔ)義〔采用英語(yǔ)〕來(lái)定義。UML符號(hào)指定表達(dá)UML元模型語(yǔ)義的圖形語(yǔ)法〔例如類圖〕。對(duì)象約束語(yǔ)言標(biāo)準(zhǔn)定義對(duì)象約束語(yǔ)言〔OCL〕的句法、語(yǔ)義和語(yǔ)法,OCL是一種表述約束的形式化語(yǔ)言[3]。構(gòu)造塊和結(jié)構(gòu)良好規(guī)那么:UML提供了組成構(gòu)造塊和結(jié)構(gòu)良好規(guī)那么的面向?qū)ο蠼UZ(yǔ)言,根本的構(gòu)造塊包括模型元素〔如類、對(duì)象、接口、組件、用例等〕、關(guān)系〔如關(guān)聯(lián)、泛化、依賴等〕和圖〔如類圖、對(duì)象圖、用例圖等〕等。UML可以為一個(gè)系統(tǒng)進(jìn)行不同方面的建模,比方結(jié)構(gòu)建模〔又包括使用類圖和對(duì)象圖的靜態(tài)結(jié)構(gòu)建模、使用組件圖和部署圖實(shí)現(xiàn)建?!?、用例建模和行為建模等。元數(shù)據(jù)建模只需要靜態(tài)結(jié)構(gòu)建模,靜態(tài)結(jié)構(gòu)的核心元素是類、對(duì)象、屬性和操作。UML用包來(lái)將模型元素組織成語(yǔ)義上相關(guān)聯(lián)的分組,每個(gè)包擁有其自己的模型元素,每個(gè)模型元素不能同時(shí)被多個(gè)包擁有。UML在CWM中主要作為三種角色出現(xiàn)[4]:1、UML作為和MOF等價(jià)的元-元模型。UML,或者局部對(duì)應(yīng)MOF模型、UML符號(hào)和OCL的UML分別被用作建模語(yǔ)言、圖形符號(hào)和約束語(yǔ)言,用來(lái)定義和表示CWM。2、UML作為根底元模型。對(duì)象模型層〔ObjectModel〕與UML關(guān)系密切,是UML的一個(gè)子集。3、UML用來(lái)作為面向?qū)ο笤P?。元?duì)象框架〔MetaObjectFramework,MOF,本文以版本為例〕是一個(gè)以獨(dú)立于平臺(tái)的方式定義、操作、集成元數(shù)據(jù)和數(shù)據(jù)的、可擴(kuò)展、模型驅(qū)動(dòng)的分布式對(duì)象集成框架。此框架支持各種類型的元數(shù)據(jù),還可以根據(jù)需求添加新類型的元數(shù)據(jù)。MOF包括MOF模型〔定義建立元模型的建模元素和使用規(guī)那么〕、MOF反射接口〔允許程序在不使用元模型指定接口時(shí)對(duì)元數(shù)據(jù)進(jìn)行各種操作〕和MOF到IDL的映射〔定義MOF模型定義的元模型到CORBAIDL之間的標(biāo)準(zhǔn)映射〕。MOF模型是以UML的概念和結(jié)構(gòu)為根底,尤其是以UML的靜態(tài)結(jié)構(gòu)模型和模型管理為根底。MOF模型沒(méi)有定義自己的圖形符號(hào)和約束語(yǔ)言,而是采用UML的圖形符號(hào)和OCL來(lái)實(shí)現(xiàn)。MOF模型也是層次結(jié)構(gòu),并以包為單位進(jìn)行組織。MOF支持各種類型的元數(shù)據(jù),采用四層元數(shù)據(jù)體系結(jié)構(gòu)〔也就是OMG元數(shù)據(jù)體系結(jié)構(gòu)〕[5],具體如表2所示,該體系架構(gòu)將元數(shù)據(jù)〔M1〕視同為數(shù)據(jù)〔M0〕,并對(duì)之進(jìn)行形式化建?!布丛P停琈2〕。元模型〔M2〕使用元-元模型〔M3〕所提供的元建模結(jié)構(gòu)來(lái)表示。表2說(shuō)明MOF模型〔元-元模型〕、UML元模型、用戶模型和用戶對(duì)象/數(shù)據(jù)之間的關(guān)系。表2MOF四層元數(shù)據(jù)體系結(jié)構(gòu)描述例如M3MOF,i.e.thesetofconstructsusedtodefinemetamodelsMOFClass,MOFAttribute,MOFAssociation,etc.M2Metamodels,consistingof
instancesofMOFconstructs.UMLClass,UMLAssociation,UMLAttribute,UMLState,UMLActivity,etc.CWMTable,CWMColumn,etc.M1Models,consistingofinstances
ofM2metamodelconstructs.Class“Customer〞,Class“Account〞
Table“Employee〞,Table“Vendor〞,etc.M0Objectsanddata,i.e.instancesofM1modelconstructsCustomerJaneSmith,CustomerJoeJones,Account2989,Account2344,EmployeeA3949,Vendor78988,etc.XML元數(shù)據(jù)交換〔XMI〕是在工具軟件、應(yīng)用程序之間進(jìn)行元數(shù)據(jù)交換的XML語(yǔ)言,整合了UML、MOF和XML三種技術(shù),允許MOF元數(shù)據(jù)〔即遵從MOF或基于MOF的元模型的元數(shù)據(jù)〕以流或文件的形式按照XML的標(biāo)準(zhǔn)格式進(jìn)行交換。XMI是OMG在元數(shù)據(jù)交換方面的標(biāo)準(zhǔn)之一,同時(shí)也是W3C認(rèn)可的標(biāo)準(zhǔn)。本質(zhì)上,XMI是W3C的XML和MOF之間,以及XML文檔和MOF元數(shù)據(jù)之間的一對(duì)平行映射。2023年8月,XML發(fā)布了。CWM開(kāi)展史其實(shí)早在上世紀(jì)80年代末90年代初,很多企業(yè)就嘗試使用一種元模型實(shí)現(xiàn)元數(shù)據(jù)集成以整合分布于各個(gè)業(yè)務(wù)豎井中的元數(shù)據(jù),但最終失敗了,因?yàn)楹芏嗟睦嫦嚓P(guān)者各自擁有不同的觀點(diǎn),且需要不同的模型結(jié)構(gòu)。1997年,OMG將UML采納為標(biāo)準(zhǔn),為CWM標(biāo)準(zhǔn)制定打下了第一個(gè)根底。同樣在1997年,MOF被OMG采納為標(biāo)準(zhǔn),為CWM的產(chǎn)生打下了第二個(gè)根底。1999年初,OMG采納XMI作為標(biāo)準(zhǔn),為CWM的出現(xiàn)打下了第三個(gè)根底。1998年5月,IBM、ORACLE和Unisys向OMG提交了公共倉(cāng)庫(kù)元數(shù)據(jù)交換〔CommonWarehouseMetadataInterchange,CWMI〕征求意見(jiàn)稿〔RFP〕,同年9月OMG發(fā)布了該征求意見(jiàn)稿,經(jīng)過(guò)8個(gè)公司〔IBM、Unisys、Oracle、Hyperion、UBS、NCR、Genesis和DimensionEDI〕2年半的努力和協(xié)作,OMG于2001年4月正式采納CWM為標(biāo)準(zhǔn)。在CWM開(kāi)展的同時(shí),其他一些元數(shù)據(jù)標(biāo)準(zhǔn)的制定也在進(jìn)行中。最早在1993年,電子信息組織就發(fā)布了計(jì)算機(jī)輔助工程數(shù)據(jù)交換格式〔CASEDataInterchangeFormat,CDIF〕并得到了一定的認(rèn)可。1995年10月,元數(shù)據(jù)聯(lián)盟〔MetaDataCoalition,MDC〕成立,并與1996年4月發(fā)布了元數(shù)據(jù)交換標(biāo)準(zhǔn)1.0〔MetaDataInterchangeSpecification,MDIS〕,與CWM相比,MDIS涉及的范疇少很多,且其標(biāo)準(zhǔn)和交換語(yǔ)言都是自身獨(dú)有的。此時(shí)微軟也在和其他一些合作者一起開(kāi)發(fā)開(kāi)放信息模型〔OpenInformationModel,OIM〕,該模型于1996年10月成形,采用UML作為其標(biāo)準(zhǔn)語(yǔ)言。1998年11月,微軟參加MDC并提交OIM標(biāo)準(zhǔn),1999年7月MDC發(fā)布了OIMv1.0版本,由此業(yè)內(nèi)面臨著兩種元數(shù)據(jù)集成標(biāo)準(zhǔn)的競(jìng)爭(zhēng)局面,之后考慮到業(yè)內(nèi)對(duì)CWM的認(rèn)可,MDC于2000年9月決定終止其OIM后續(xù)工作,將其元數(shù)據(jù)標(biāo)準(zhǔn)歸入到OMG中,從此CWM影響力和范圍持續(xù)擴(kuò)大并得到了業(yè)內(nèi)的統(tǒng)一認(rèn)可。OMG的模型驅(qū)動(dòng)體系結(jié)構(gòu)〔ModelDrivenArchitecture,MDA〕OMG組織成立不久制定了對(duì)象管理體系結(jié)構(gòu)〔ObjectManagementArchitecture,OMA〕參考模型,描述了OMG標(biāo)準(zhǔn)所遵循的概念化的根底結(jié)構(gòu)。OMA是由對(duì)象請(qǐng)求代理〔ObjectRequestBroker,ORB〕、對(duì)象效勞、公共設(shè)施、域接口和應(yīng)用接口等幾個(gè)局部組成,其核心是對(duì)象請(qǐng)求代理〔ORB〕。對(duì)象請(qǐng)求代理〔ORB〕是公共對(duì)象請(qǐng)求代理體系結(jié)構(gòu)〔CommonObjectRequestBrokerArchitecture,CORBA〕的核心組件,提供了識(shí)別和定位對(duì)象、處理連接管理、傳送數(shù)據(jù)和請(qǐng)求通信所需的框架結(jié)構(gòu)。OMA和CORBA被定位為軟件框架,用來(lái)指導(dǎo)基于OMG標(biāo)準(zhǔn)的技術(shù)開(kāi)發(fā)。從1995年開(kāi)始,OMG開(kāi)始非正式的采用針對(duì)特定行業(yè)〔“領(lǐng)域〞,Domain〕的技術(shù)標(biāo)準(zhǔn),為了保持?jǐn)U張重點(diǎn),OMG在2001年正式采用第二個(gè)框架,模型驅(qū)動(dòng)體系架構(gòu)〔ModelDrivenArchitecture,MDA〕。與OMA和CORBA不一樣,MDA不是部署分布式系統(tǒng)的框架,而是在軟件開(kāi)發(fā)中基于模型驅(qū)動(dòng)的方法。為了實(shí)現(xiàn)MDA,OMG隨后制定了一系列標(biāo)準(zhǔn)如UML、MOF、XMI和CWM等,解決了MDA的模型建立、擴(kuò)展、交換等幾個(gè)方面的問(wèn)題。模型驅(qū)動(dòng)體系結(jié)構(gòu)源自眾所周知的和長(zhǎng)期建立的思想:“將系統(tǒng)操作標(biāo)準(zhǔn)從系統(tǒng)利用底層平臺(tái)能力的細(xì)節(jié)中別離出來(lái)〞。MDA提供了一種方法〔基于相關(guān)工具〕來(lái)標(biāo)準(zhǔn)化一個(gè)平臺(tái)獨(dú)立的系統(tǒng),為系統(tǒng)選擇一個(gè)特定的實(shí)現(xiàn)平臺(tái),并把系統(tǒng)標(biāo)準(zhǔn)轉(zhuǎn)換到特定的實(shí)現(xiàn)平臺(tái)。MDA的首要三個(gè)目標(biāo)是:可移植性、互操作性和可重用性。MDA三個(gè)視角〔viewpoint〕[6]分別是:計(jì)算無(wú)關(guān)視角〔ComputationIndependentViewpoint〕:側(cè)重系統(tǒng)環(huán)境和系統(tǒng)需求;系統(tǒng)結(jié)構(gòu)和流程細(xì)節(jié)被隱藏或尚未確定。其對(duì)應(yīng)的是計(jì)算無(wú)關(guān)模型〔ComputationIndependentModel,CIM〕。平臺(tái)無(wú)關(guān)視角〔PlatformIndependentViewpoint〕:側(cè)重系統(tǒng)的操作,同時(shí)隱藏用于特定平臺(tái)的必要細(xì)節(jié)。其對(duì)應(yīng)的是平臺(tái)無(wú)關(guān)模型〔PlatformIndependentModel,PIM〕,PIM是抽出技術(shù)和具體工程細(xì)節(jié)之后的模型。平臺(tái)相關(guān)視角〔PlatformSpecificViewpoint〕:結(jié)合平臺(tái)無(wú)關(guān)系視角和系統(tǒng)所使用的特定平臺(tái)細(xì)節(jié)。其對(duì)應(yīng)的是平臺(tái)相關(guān)模型〔PlatformSpecificViewpointModel,PSM〕,PSM是包含技術(shù)和具體工程細(xì)節(jié)的模型。OMG模型驅(qū)動(dòng)體系結(jié)構(gòu)如圖5所示:圖5OMG模型驅(qū)動(dòng)體系架構(gòu)CWM元模型、標(biāo)準(zhǔn)以及生成的產(chǎn)品同MDA非常契合,從技術(shù)平臺(tái)角度來(lái)說(shuō),所有的平臺(tái)相關(guān)模型〔CWMXML、CWMIDL和CWMJava等〕都是自動(dòng)地從平臺(tái)無(wú)關(guān)模型〔CWM元模型和標(biāo)準(zhǔn)〕中產(chǎn)生的;從產(chǎn)品平臺(tái)角度來(lái)說(shuō),平臺(tái)相關(guān)模型〔比方DB2、ORACLE、SQLSERVER等〕都是人工從平臺(tái)無(wú)關(guān)模型〔CWM元模型和標(biāo)準(zhǔn)〕中構(gòu)造出來(lái)的。結(jié)束語(yǔ)本文詳細(xì)介紹了大數(shù)據(jù)治理統(tǒng)一流程參考模型第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)〞的后續(xù)內(nèi)容,主要包括元模型、元-元模型、公共倉(cāng)庫(kù)元模型〔CWM〕、CWM開(kāi)展史、對(duì)象管理組織OMG的模型驅(qū)動(dòng)體系結(jié)構(gòu)〔ModelDrivenArchitecture,MDA〕。在本系列文章的下一局部將重點(diǎn)介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型的第三步:“實(shí)施元數(shù)據(jù)管理〞,講述在大數(shù)據(jù)時(shí)代如何實(shí)施元數(shù)據(jù)管理,如何使用元數(shù)據(jù)管理成熟度模型,以及IBM在元數(shù)據(jù)管理方面的產(chǎn)品:業(yè)務(wù)元數(shù)據(jù)管理工具IBMInfoSphereBusinessGlossary、業(yè)務(wù)詞匯表小工具InfoSphereBusinessGlossaryAnywhere和技術(shù)元數(shù)據(jù)管理工具InfoSphereMetadataWorkbench。參考文獻(xiàn)更多信息請(qǐng)參考:OMGModelDrivenArchitecture:
;OMG,CommonWarehouseMetamodel(CWM)Specificationv1.1,P44;JohnPoole,DanChang,DouglasTolbertandDavidMellor,2002,CommonWarehouseMetamodel,p48-53,p58-63;OMG,CommonWarehouseMetamodel(CWM)Specificationv1.1,P45;DavidFrankelConsulting,〞UsingModelDrivenArchitecture?toManageMetadata〞,P46;OMG,2003,MDAGuideVersion1.0.1,p11-12,P15-16;第三局部:實(shí)施元數(shù)據(jù)管理了解了元數(shù)據(jù)管理策略和元數(shù)據(jù)集成體系結(jié)構(gòu)之后,企業(yè)可以根據(jù)需要選擇適宜的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)管理工具,并制定相應(yīng)的元數(shù)據(jù)管理制度進(jìn)行全面的元數(shù)據(jù)管理。本局部主要介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型第三步“實(shí)施元數(shù)據(jù)管理〞,元數(shù)據(jù)管理成熟度模型、IBM元數(shù)據(jù)管理相關(guān)工具等內(nèi)容。第三步:實(shí)施元數(shù)據(jù)管理在明確了元數(shù)據(jù)管理策略和元數(shù)據(jù)集成體系結(jié)構(gòu)之后,企業(yè)可以根據(jù)需要選擇適宜的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)管理工具,并制定相應(yīng)的元數(shù)據(jù)管理制度進(jìn)行全面的元數(shù)據(jù)管理。比方可以使用IBMInfoSphereBusinessGlossary進(jìn)行業(yè)務(wù)元數(shù)據(jù)的管理,使用IBMInfoSphereMetadataWorkbench作為元數(shù)據(jù)管理統(tǒng)一工具并進(jìn)行圖形化的元數(shù)據(jù)分析。大數(shù)據(jù)擴(kuò)大了數(shù)據(jù)的容量、速度和多樣性,給元數(shù)據(jù)管理帶來(lái)了新的挑戰(zhàn)。在構(gòu)建關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)、動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)和關(guān)系型數(shù)據(jù)中心時(shí)進(jìn)行元數(shù)據(jù)管理,有助于保證數(shù)據(jù)被正確地使用、重用并滿足各種規(guī)定。同樣,對(duì)大數(shù)據(jù)來(lái)說(shuō),元數(shù)據(jù)管理過(guò)程中出現(xiàn)的任何錯(cuò)誤,都會(huì)導(dǎo)致數(shù)據(jù)重復(fù)、數(shù)據(jù)質(zhì)量差和無(wú)法訪問(wèn)關(guān)鍵信息等問(wèn)題[1]。隨著大數(shù)據(jù)技術(shù)在企業(yè)中的應(yīng)用越來(lái)越廣泛,企業(yè)需要在原有的元數(shù)據(jù)管理策略中增加大數(shù)據(jù)相關(guān)的內(nèi)容。通常,大數(shù)據(jù)分析是受用例驅(qū)動(dòng)的,企業(yè)可以通過(guò)梳理大數(shù)據(jù)用例的方式逐步完善大數(shù)據(jù)的元數(shù)據(jù)管理。針對(duì)大數(shù)據(jù)的業(yè)務(wù)元數(shù)據(jù),依舊可以通過(guò)構(gòu)建根底本體、領(lǐng)域本體、任務(wù)本體和應(yīng)用本體等的方式來(lái)實(shí)現(xiàn)。通過(guò)構(gòu)建根底本體,實(shí)現(xiàn)對(duì)級(jí)別且通用的概念以及概念之間關(guān)系的描述;通過(guò)構(gòu)建領(lǐng)域本體,實(shí)現(xiàn)對(duì)于領(lǐng)域的定義,并確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯、詞匯業(yè)務(wù)含義和對(duì)應(yīng)的信息資產(chǎn)等,提供對(duì)該領(lǐng)域知識(shí)的共同理解;通過(guò)構(gòu)建任務(wù)本體,實(shí)現(xiàn)任務(wù)元素及其之間關(guān)系的標(biāo)準(zhǔn)說(shuō)明或詳細(xì)說(shuō)明;通過(guò)構(gòu)建應(yīng)用本體,實(shí)現(xiàn)對(duì)特定應(yīng)用的概念描述,其是依賴于特定領(lǐng)域和任務(wù)的。這樣就通過(guò)構(gòu)建各種本體,在整個(gè)企業(yè)范圍提供一個(gè)完整的共享詞匯表,保證每個(gè)元數(shù)據(jù)元素在信息供給鏈中每個(gè)組件的語(yǔ)義上保持一致,實(shí)現(xiàn)是語(yǔ)義等效。為了實(shí)現(xiàn)信息供給鏈中各個(gè)組件元數(shù)據(jù)的交互和集成,大數(shù)據(jù)平臺(tái)的元數(shù)據(jù)集成體系結(jié)構(gòu)依然可以采用基于模型驅(qū)動(dòng)的中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)。對(duì)大數(shù)據(jù)平臺(tái)中的結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)管理可以遵循公共倉(cāng)庫(kù)元模型〔CWM〕構(gòu)建元數(shù)據(jù)體系結(jié)構(gòu),以便方便的實(shí)現(xiàn)各個(gè)組件間元數(shù)據(jù)的交互;對(duì)大數(shù)據(jù)平臺(tái)中的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)管理,因?yàn)闃I(yè)內(nèi)還沒(méi)有通用的公共元模型,企業(yè)可以嘗試采用基于自定義模型驅(qū)動(dòng)的方式構(gòu)建中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)。簡(jiǎn)單來(lái)說(shuō),企業(yè)可以嘗試以下步驟進(jìn)行大數(shù)據(jù)的元數(shù)據(jù)管理:1、考慮到企業(yè)可以獲取數(shù)據(jù)的容量和多樣性,應(yīng)該創(chuàng)立一個(gè)表達(dá)關(guān)鍵大數(shù)據(jù)業(yè)務(wù)術(shù)語(yǔ)的業(yè)務(wù)定義詞庫(kù)〔本體〕,該業(yè)務(wù)定義詞庫(kù)不僅僅包含結(jié)構(gòu)化數(shù)據(jù),還可以將半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)納入其中。2、及時(shí)跟進(jìn)和理解各種大數(shù)據(jù)技術(shù)中的元數(shù)據(jù),提供對(duì)其連續(xù)、及時(shí)地支持,比方MPP數(shù)據(jù)庫(kù)、流計(jì)算引擎、ApacheHadoop/企業(yè)級(jí)Hadoop、NoSQL數(shù)據(jù)庫(kù)以及各種數(shù)據(jù)治理工具如審計(jì)/平安工具、信息生命周期管理工具等。3、對(duì)業(yè)務(wù)術(shù)語(yǔ)中的敏感大數(shù)據(jù)進(jìn)行標(biāo)記和分類,并執(zhí)行相應(yīng)的大數(shù)據(jù)隱私政策。4、將業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)進(jìn)行鏈接,可以通過(guò)操作元數(shù)據(jù)〔如流計(jì)算或ETL工具所生成的數(shù)據(jù)〕監(jiān)測(cè)大數(shù)據(jù)的流動(dòng);可以通過(guò)數(shù)據(jù)世系分析〔血緣分析〕在整個(gè)信息供給鏈中實(shí)現(xiàn)數(shù)據(jù)的正向追溯或逆向追溯,了解數(shù)據(jù)都經(jīng)歷了哪些變化,查看字段在信息供給鏈各組件間轉(zhuǎn)換是否正確等;可以通過(guò)影響分析可以了解具體某個(gè)字段的變更會(huì)對(duì)信息供給鏈中其他組件中的字段造成哪些影響等。5、擴(kuò)展企業(yè)現(xiàn)有的元數(shù)據(jù)管理角色,以適應(yīng)大數(shù)據(jù)治理的需要,比方可以擴(kuò)充數(shù)據(jù)治理管理者、元數(shù)據(jù)管理者、數(shù)據(jù)主管、數(shù)據(jù)架構(gòu)師以及數(shù)據(jù)科學(xué)家的職責(zé),參加大數(shù)據(jù)治理的相關(guān)內(nèi)容。在實(shí)施元數(shù)據(jù)管理的過(guò)程中,可以參照元數(shù)據(jù)管理的成熟度模型確定企業(yè)當(dāng)前元數(shù)據(jù)管理所在層次,并根據(jù)業(yè)務(wù)需要制定路線圖實(shí)現(xiàn)元數(shù)據(jù)管理水平的提升。元數(shù)據(jù)管理成熟度模型具體如圖1所示:圖1元數(shù)據(jù)管理成熟度模型根據(jù)元數(shù)據(jù)管理的成熟度,大體可以分成6個(gè)級(jí)別,具體如圖1所示:L0:初始狀態(tài)元數(shù)據(jù)分散于日常的業(yè)務(wù)和職能管理中,由某個(gè)人或某一組人員在局部產(chǎn)生或獲取,并在局部使用,其他人如果想獲得該元數(shù)據(jù)需要找到相應(yīng)的人進(jìn)行溝通獲取。L1:附屬于業(yè)務(wù)系統(tǒng)在這個(gè)階段,隨著各個(gè)業(yè)務(wù)系統(tǒng)自動(dòng)化構(gòu)建完成,相應(yīng)的元數(shù)據(jù)也隨著需求整理、設(shè)計(jì)、開(kāi)發(fā)、實(shí)施和維護(hù)等過(guò)程被各個(gè)業(yè)務(wù)系統(tǒng)孤立的全部或局部管理起來(lái)。業(yè)務(wù)元數(shù)據(jù)可能分散在各種業(yè)務(wù)規(guī)章、流程規(guī)定、需求、需求分析和概要設(shè)計(jì)等文檔以及業(yè)務(wù)系統(tǒng)中,技術(shù)元數(shù)據(jù)可能分散在詳細(xì)設(shè)計(jì)、模型設(shè)計(jì)和部署方案等各種文檔和各種中間件以及業(yè)務(wù)系統(tǒng)中。由于各個(gè)業(yè)務(wù)系統(tǒng)處于一個(gè)個(gè)豎井之中,元數(shù)據(jù)之間互通互聯(lián)困難,如果需要獲取其他系統(tǒng)的元數(shù)據(jù),除了調(diào)閱各種文檔外,對(duì)分散在各種中間件和業(yè)務(wù)系統(tǒng)中的技術(shù)元數(shù)據(jù)需要通過(guò)橋〔bridge〕的方式實(shí)現(xiàn)互通互聯(lián)。L2:元數(shù)據(jù)統(tǒng)一存儲(chǔ)元數(shù)據(jù)依然在局部產(chǎn)生和獲取,但會(huì)集中到中央存儲(chǔ)庫(kù)進(jìn)行存儲(chǔ),業(yè)務(wù)元數(shù)據(jù)會(huì)手工錄入到中央存儲(chǔ)庫(kù)中,技術(shù)元數(shù)據(jù)分散在文檔中的局部也通過(guò)手工錄入到中央存儲(chǔ)庫(kù)中,而散落在各個(gè)中間件和業(yè)務(wù)系統(tǒng)中的技術(shù)元數(shù)據(jù)那么通過(guò)橋〔bridge〕的方式被讀取到中央存儲(chǔ)庫(kù)中。業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)之間全部或局部通過(guò)手工方式做了關(guān)聯(lián)。中央存儲(chǔ)庫(kù)的構(gòu)建,使得元數(shù)據(jù)在整個(gè)企業(yè)層面可被感知和搜索,極大地方便了企業(yè)獲取和查找元數(shù)據(jù)。缺點(diǎn)是,元數(shù)據(jù)仍然在各業(yè)務(wù)系統(tǒng)上維護(hù),然后更新到中央存儲(chǔ)庫(kù),各業(yè)務(wù)豎井之間仍然使用不同的命名法,經(jīng)常會(huì)造成相同的名字代表不同意義的事情,而同一件事情那么使用了多個(gè)不同的名字,有些沒(méi)有納入業(yè)務(wù)系統(tǒng)管理的元數(shù)據(jù)那么容易缺失。元數(shù)據(jù)沒(méi)有有效的權(quán)限管理,局部元數(shù)據(jù)更改后也不自動(dòng)通知其他人。L3:元數(shù)據(jù)集中管理在L2的根底上做了改良,增強(qiáng)了元數(shù)據(jù)的集中控制,局部業(yè)務(wù)單元或開(kāi)發(fā)小組如不事先通知其他人,將無(wú)法對(duì)元數(shù)據(jù)進(jìn)行修改。局部元數(shù)據(jù)的修改完成后將被播送給其他人。和其他中間件和應(yīng)用系統(tǒng)的交互,仍然通過(guò)橋〔bridge〕的方式進(jìn)行,中央存儲(chǔ)庫(kù)中的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)之間還是通過(guò)手工方式進(jìn)行映射。L4:元模型驅(qū)動(dòng)管理在L3的根底上,通過(guò)構(gòu)建元模型以及元元模型,優(yōu)化各業(yè)務(wù)單元之間的各種沖突和各種副本,創(chuàng)立、管理和共享業(yè)務(wù)詞匯表和分類系統(tǒng)〔基于主題領(lǐng)域的層次結(jié)構(gòu)〕。業(yè)務(wù)詞匯表〔業(yè)務(wù)元數(shù)據(jù)〕包含與企業(yè)相關(guān)的詞匯、詞匯業(yè)務(wù)含義以及詞匯與信息資產(chǎn)〔技術(shù)元數(shù)據(jù)〕的關(guān)系,可以有效幫助企業(yè)用戶了解其業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)對(duì)應(yīng)的業(yè)務(wù)含義。分類是基于主題領(lǐng)域的層次結(jié)構(gòu),用以對(duì)業(yè)務(wù)術(shù)語(yǔ)歸類。和其他中間件和應(yīng)用系統(tǒng)的交換,通過(guò)基于CWM的適配器方式進(jìn)行連接。L5:元數(shù)據(jù)管理自動(dòng)化在L5元數(shù)據(jù)管理是高度自動(dòng)化的,當(dāng)邏輯層次元數(shù)據(jù)變更時(shí),會(huì)被傳播到物理層次,同樣物理層次變更時(shí)邏輯層次將被更新。元數(shù)據(jù)中的任何變化將觸發(fā)業(yè)務(wù)工作流,以便其他業(yè)務(wù)系統(tǒng)進(jìn)行相應(yīng)的修改。由于各個(gè)業(yè)務(wù)系統(tǒng)遵照相同的業(yè)務(wù)詞匯表和分類系統(tǒng)〔元模型〕,他們之間的關(guān)系可以通過(guò)知識(shí)本體進(jìn)行推斷,因此各個(gè)應(yīng)用系統(tǒng)之間的數(shù)據(jù)格式的映射自動(dòng)產(chǎn)生。IBMInfoSphereInformationServer元數(shù)據(jù)管理組件介紹IBMInfoSphereInformationServer可以幫助組織從分散在其系統(tǒng)中的各種復(fù)雜信息中獲取更多價(jià)值。它讓組織能夠整合分散的數(shù)據(jù),在需要的地方和時(shí)間,按順序和關(guān)聯(lián)關(guān)系把可信的信息交付給特定的人員、應(yīng)用程序和流程。InfoSphereInformationServer幫助業(yè)務(wù)人員和IT人員進(jìn)行協(xié)作,理解來(lái)自任何來(lái)源的任何類型的信息的含義、結(jié)構(gòu)和內(nèi)容。它可以顯著提高在整個(gè)企業(yè)內(nèi)一致且平安地清理、轉(zhuǎn)換和交付信息的生產(chǎn)力和效率,這樣就可以以新的方式訪問(wèn)和使用信息,從而促進(jìn)創(chuàng)新、提高運(yùn)營(yíng)效率并降低風(fēng)險(xiǎn)。InfoSphereInformationServer讓客戶可以跨分析、運(yùn)營(yíng)和事務(wù)環(huán)境應(yīng)用一致的可重復(fù)的流程以解決企業(yè)級(jí)數(shù)據(jù)問(wèn)題,不受數(shù)據(jù)量、復(fù)雜性或延遲的限制。InfoSphereInformationServer的每個(gè)核心產(chǎn)品可以作為集成平臺(tái)的一局部使用,也可以作為單獨(dú)的集成產(chǎn)品使用。這些產(chǎn)品由一個(gè)全面的集成效勞平臺(tái)支持,提供全程數(shù)據(jù)集成、元數(shù)據(jù)管理、任何數(shù)據(jù)源與任何平臺(tái)上的任何應(yīng)用程序之間的連接以及通過(guò)并行處理技術(shù)無(wú)限制地?cái)U(kuò)展??梢园慈魏闻渲貌渴疬@些功能以支持事件驅(qū)動(dòng)或按時(shí)間表執(zhí)行的處理。還可以通過(guò)InfoSphereInformationServicesDirector交付根底設(shè)施“隨需〞使用InfoSphereInformationServer數(shù)據(jù)集成功能,從而補(bǔ)充EnterpriseApplicationIntegration(EAI)、BusinessProcessManagement(BPM)、EnterpriseInformationIntegration(EII)和ApplicationServers集成根底設(shè)施。InfoSphereInformationServer提供一個(gè)全面的模塊化解決方案,可以根據(jù)業(yè)務(wù)需求和客戶預(yù)算擴(kuò)展。客戶既可以部署完整的InfoSphereInformationServer以處理整個(gè)企業(yè)數(shù)據(jù)集成生命周期,也可以使用單獨(dú)的集成產(chǎn)品并根據(jù)需要添加其他組件。這種靈活的方式讓客戶既可以通過(guò)完整的InfoSphereInformationServer實(shí)現(xiàn)全面集成,也可以通過(guò)購(gòu)置一個(gè)或更多組件的許可證實(shí)現(xiàn)局部集成,以后可以添加其他組件以創(chuàng)立單一的集成解決方案。InfoSphereInformationServer可以提高從事數(shù)據(jù)集成工程的開(kāi)發(fā)團(tuán)隊(duì)的生產(chǎn)力,改良這些開(kāi)發(fā)團(tuán)隊(duì)之間以及開(kāi)發(fā)人員與提出需求的業(yè)務(wù)用戶之間的協(xié)作,促進(jìn)工程團(tuán)隊(duì)內(nèi)部和之間的重用,這些都會(huì)產(chǎn)生價(jià)值。為SAP、Oracle、PeopleSoft、Siebel、SalesForce等公司的企業(yè)應(yīng)用程序預(yù)先構(gòu)建的接口擴(kuò)展了InfoSphereInformationServer的功能范圍。這些包幫助公司通過(guò)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)或ERP廠商業(yè)務(wù)智能化解決方案集成來(lái)自這些企業(yè)應(yīng)用程序的數(shù)據(jù),構(gòu)建分析解決方案。InfoSphereInformationServer提供一套統(tǒng)一的可單獨(dú)購(gòu)置的產(chǎn)品模塊(即套件組件),可以解決多種類型的業(yè)務(wù)問(wèn)題??梢钥绻こ讨赜眯畔z驗(yàn)、訪問(wèn)和處理規(guī)那么,這會(huì)提高一致性、增強(qiáng)對(duì)數(shù)據(jù)的管控并提高IT工程的效率。IBMInformationServer讓企業(yè)能夠?qū)崿F(xiàn)5種關(guān)鍵的集成功能:連接任何數(shù)據(jù)或內(nèi)容,無(wú)論它駐留在什么地方:大型機(jī)或分布式系統(tǒng),內(nèi)部或外部;了解并分析信息,理解數(shù)據(jù)源的內(nèi)容、質(zhì)量和結(jié)構(gòu),從而在整個(gè)企業(yè)中集成和傳播數(shù)據(jù)之前全面了解數(shù)據(jù);清理數(shù)據(jù),確保數(shù)據(jù)的質(zhì)量和一致性,讓公司可以訪問(wèn)任何個(gè)人或業(yè)務(wù)實(shí)體及其關(guān)系的權(quán)威且一致的視圖;轉(zhuǎn)換大量數(shù)據(jù),從而有效且高效地從原數(shù)據(jù)源向目標(biāo)提供豐富的有針對(duì)性的信息;交付數(shù)據(jù),讓人員、流程和應(yīng)用程序可以像訪問(wèn)單一資源一樣訪問(wèn)和集成不同類型的數(shù)據(jù)和內(nèi)容,無(wú)論信息駐留在什么地方。這些功能的根底是一個(gè)共用的元數(shù)據(jù)和并行處理根底設(shè)施,它為整個(gè)平臺(tái)提供支持和自動(dòng)化。產(chǎn)品組合中的每個(gè)產(chǎn)品還可以連接許多數(shù)據(jù)和內(nèi)容源,能夠通過(guò)多種機(jī)制交付信息。另外,可以通過(guò)便于發(fā)布的共享效勞在面向效勞架構(gòu)中使用這些功能。IBMInformationServer提供:最廣泛的訪問(wèn)信息源的能力;最全面的集成功能,包括聯(lián)合、ETL、內(nèi)聯(lián)轉(zhuǎn)換、復(fù)制和事件發(fā)布;在使用這些功能的方式方面的靈活性,包括支持面向效勞架構(gòu)、事件驅(qū)動(dòng)的處理、按時(shí)間表執(zhí)行的批處理以及SQL和Java等標(biāo)準(zhǔn)API平臺(tái)的功能廣度和靈活性讓它能夠解決許多類型的業(yè)務(wù)問(wèn)題,滿足許多類型的工程的需求。這可以增加重用的時(shí)機(jī),加快工程的速度,提高信息的一致性,增強(qiáng)信息治理。IBMInfoSphereInformationServer由以下組件組成:元數(shù)據(jù)效勞InfoSphereBusinessGlossaryInfoSphereBusinessGlossaryAnywhereInfoSphereMetadataWorkbenchInfoSphereInformationAnalyzerIBMInformationServerFastTrackInfoSphereQualityStageInfoSphereDataStageInfoSphereInformationServicesDirectorInfoSphereChangeDataDeliveryforInformationServerInfoSphereFederationServer元數(shù)據(jù)效勞是IBMInformationServer所基于的平臺(tái)的組成局部??梢酝ㄟ^(guò)使用元數(shù)據(jù)效勞訪問(wèn)數(shù)據(jù)以及完成分析、建模、清理和轉(zhuǎn)換等數(shù)據(jù)集成任務(wù)。IBMInformationServer的主要元數(shù)據(jù)效勞組件是InfoSphereBusinessGlossary、InfoSphereMetadataServer以及InfoSphereMetaBrokers和橋。InfoSphereBusinessGlossary是一個(gè)基于web的交互式工具,可以幫助用戶創(chuàng)立、管理和共享業(yè)務(wù)詞匯表和分類系統(tǒng)。業(yè)務(wù)詞匯和技術(shù)信息資產(chǎn)保持一致可以促進(jìn)業(yè)務(wù)和IT群體的協(xié)作,有助于更有效地治理數(shù)據(jù)。另外,這個(gè)工具的數(shù)據(jù)專員功能可以提升責(zé)任感,支持?jǐn)?shù)據(jù)治理策略。InfoSphereMetadataWorkbench允許以基于web的方式查看IBMInfoSphereInformationServer和其他第三方應(yīng)用程序生成和使用的信息資產(chǎn)。這個(gè)瀏覽工具可以提高對(duì)最重要的信息的信任程度。另外,InfoSphereMetadataWorkbench向IT人員提供健壯的查詢功能和全面且靈活的數(shù)據(jù)世系報(bào)告,讓他們可以深入了解環(huán)境中使用的數(shù)據(jù),還可以監(jiān)視數(shù)據(jù)集成活動(dòng)。在處理數(shù)據(jù)集成工程中的變動(dòng)時(shí),強(qiáng)大的影響分析工具可以幫助數(shù)據(jù)分析師和開(kāi)發(fā)人員做出更好的決策。InfoSphereBusinessGlossary介紹BusinessGlossary是用來(lái)管理和展示企業(yè)業(yè)務(wù)元數(shù)據(jù)的基于Web的交互式工具,支持用戶創(chuàng)立、管理和共享業(yè)務(wù)詞匯表和分類系統(tǒng)〔基于主題領(lǐng)域的層次結(jié)構(gòu)〕。業(yè)務(wù)詞匯表〔業(yè)務(wù)元數(shù)據(jù)〕包含與企業(yè)相關(guān)的詞匯、詞匯業(yè)務(wù)含義以及詞匯與信息資產(chǎn)〔技術(shù)元數(shù)據(jù)〕的關(guān)系,可以有效幫助企業(yè)用戶了解其業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)的對(duì)應(yīng)的業(yè)務(wù)含義。BusinessGlossary可以使所有用戶協(xié)同管理業(yè)務(wù)元數(shù)據(jù)比方元數(shù)據(jù)定義、同義詞、樣例和分類等,并提供多種查詢方式,比方報(bào)表、條件查詢、影響分析等。元數(shù)據(jù)應(yīng)該由了解信息資產(chǎn)對(duì)業(yè)務(wù)的意義和重要性的人員進(jìn)行管理。InfoSphereBusinessGlossary設(shè)計(jì)用于協(xié)作授權(quán),使用戶能夠共享關(guān)于數(shù)據(jù)的見(jiàn)解和體驗(yàn)。產(chǎn)品為用戶提供關(guān)于數(shù)據(jù)資源的以下信息:數(shù)據(jù)的商業(yè)意義和說(shuō)明;數(shù)據(jù)和流程的管家;保證的業(yè)務(wù)等級(jí);獲準(zhǔn)使用的術(shù)語(yǔ);用戶可根據(jù)可控詞匯表定義的語(yǔ)義來(lái)組織并查找InfoSphereBusinessGlossary,您可使用Web控制臺(tái)來(lái)創(chuàng)立可控詞匯表。IBMBusinessGlossary業(yè)務(wù)術(shù)語(yǔ)管理分類如圖2所示,通過(guò)業(yè)務(wù)術(shù)語(yǔ)管理可以實(shí)現(xiàn):定義權(quán)威性的含義;增加對(duì)整個(gè)企業(yè)機(jī)構(gòu)的業(yè)務(wù)理解;建立職責(zé)和可追溯的制度;描繪業(yè)務(wù)層次;記錄業(yè)務(wù)描述,例如縮寫(xiě)和同義詞;查找相關(guān)的信息資產(chǎn);鼓勵(lì)使用、重用和更正業(yè)務(wù)術(shù)語(yǔ);讓IT與業(yè)務(wù)目標(biāo)更有效地結(jié)合;提供業(yè)務(wù)內(nèi)容與IT資產(chǎn)的對(duì)應(yīng)聯(lián)系;建立職責(zé)和數(shù)據(jù)管控的政策。圖2IBMInfoSphereBusinessGlossary業(yè)務(wù)術(shù)語(yǔ)管理分類通過(guò)使用BusinessGlossary解決方案可以幫企業(yè)帶來(lái)很多價(jià)值,比方:獲取業(yè)務(wù)術(shù)語(yǔ)并進(jìn)行分類,基于Web的業(yè)務(wù)元數(shù)據(jù)生成、管理和共享;把業(yè)務(wù)術(shù)語(yǔ)及其分類與IT資產(chǎn)關(guān)聯(lián),為信息技術(shù)資產(chǎn)提供業(yè)務(wù)環(huán)境;識(shí)別數(shù)據(jù)使用者讓業(yè)務(wù)術(shù)語(yǔ)可被訪問(wèn),讓每個(gè)用戶可立刻訪問(wèn)有內(nèi)涵的信息;讓IT工程向數(shù)據(jù)管理看齊,創(chuàng)立和管理業(yè)務(wù)術(shù)語(yǔ)及關(guān)系,同時(shí)鏈接到物理數(shù)據(jù)源。加強(qiáng)業(yè)務(wù)與IT人員的通力合作,確立責(zé)任和義務(wù),使IT部門(mén)的工作與業(yè)務(wù)部門(mén)的目標(biāo)保持一致。BusinessGlossary與InformationServer其他組件以及第三方產(chǎn)品交互如圖3所示,BusinessGlossary負(fù)責(zé)對(duì)業(yè)務(wù)元數(shù)據(jù)進(jìn)行管理,MetadataServer作為中央共享元數(shù)據(jù)庫(kù)負(fù)責(zé)存儲(chǔ)業(yè)務(wù)、技術(shù)和操作元數(shù)據(jù),InformationServer組件的各種開(kāi)發(fā)和運(yùn)行元數(shù)據(jù)將會(huì)自動(dòng)存儲(chǔ)在MetadataServer中,通過(guò)import/exportmanager還可以將第三方各種元數(shù)據(jù)與MetadataServer進(jìn)行元數(shù)據(jù)交互,MetadataServer還支持導(dǎo)入CSV、XML、Glossaryarchive和InfoSphereDataArchitect等內(nèi)容。MetadataWorkbench允許用戶瀏覽、分析和管理在MetadataServer中的元數(shù)據(jù)并為企業(yè)用戶提供信息供給鏈全程的數(shù)據(jù)流報(bào)告、數(shù)據(jù)沿襲和依賴性分析等。InformationServer其他組件〔如FastTrack/InformationAnalyzer/InfoSphereDataArchitect等〕可以直接訪問(wèn)MetadataServer獲取元數(shù)據(jù),DataStage和QualityStage可以通過(guò)DataStageConnectors訪問(wèn)MetadataServer。如右下方所示,訪問(wèn)業(yè)務(wù)元數(shù)據(jù)的方法有多種,可以通過(guò)BusinessGlossary瀏覽器瀏覽和搜索詞匯表,可以通過(guò)BusinessGlossaryAnywhere客戶機(jī)瀏覽詞匯表內(nèi)容并支持屏幕取詞功能,可以通過(guò)BusinessGlossaryRESTAPI〔RepresentationalStateTransfer應(yīng)用程序編程接口〕編寫(xiě)自己的程序來(lái)訪問(wèn)和修改業(yè)務(wù)詞匯表內(nèi)容,還可以通過(guò)BusinessGlossaryClientforEclipse插件讓基于Eclipse的應(yīng)用程序直接訪問(wèn)詞匯表內(nèi)容。BusinessGlossary還支持與CognosBI和IBMIndustryModels等集成。圖3元數(shù)據(jù)管理體系結(jié)構(gòu)圖InfoSphereBusinessGlossaryAnywhere介紹IBMInfoSphereBusinessGlossaryAnywhere可以從在MicrosoftWindows計(jì)算機(jī)上翻開(kāi)的任何文本文件直接訪問(wèn)業(yè)務(wù)詞匯表。另外,InfoSphereBusinessGlossaryAnywhere附帶IBMInfoSphereBusinessGlossaryClientforEclipse和IBMInfoSphereBusinessGlossaryRESTAPI。通過(guò)使用IBMInfoSphereBusinessGlossaryAnywhere,用戶可以在執(zhí)行其他基于計(jì)算機(jī)的任務(wù)的同時(shí)搜索業(yè)務(wù)詞匯表,不會(huì)喪失上下文或分散注意力。用戶可以通過(guò)鼠標(biāo)或鍵盤(pán)操作在MicrosoftWindows桌面上翻開(kāi)的文檔中捕捉單詞或短語(yǔ),然后在業(yè)務(wù)詞匯表內(nèi)容中搜索它。用戶不必另外翻開(kāi)并登錄InfoSphereBusinessGlossary,就可以使用大多數(shù)業(yè)務(wù)詞匯表信息。InfoSphereMetadataWorkbench介紹IBMInfoSphereMetadataWorkbench是基于Web界面的元數(shù)據(jù)管理工具,對(duì)MetadaServer中的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)提供完整的管理并提供元數(shù)據(jù)的完整視圖,提供多種元數(shù)據(jù)導(dǎo)入導(dǎo)出功能。InfoSphereMetadataWorkbench可以在整個(gè)數(shù)據(jù)集成工程中跟蹤和維護(hù)信息的關(guān)系,從而提高IT對(duì)業(yè)務(wù)人員的透明性和IT的響應(yīng)能力。使用InfoSphereInformationServer產(chǎn)品中不同的模塊用戶,可以通過(guò)InfoSphereMetadataWorkbench查看InfoSphereInformationServer元數(shù)據(jù)存儲(chǔ)庫(kù)中的元數(shù)據(jù)和數(shù)據(jù)資產(chǎn)。MetadataWorkbench可以提供豐富的元數(shù)據(jù)分析,為整個(gè)信息供給鏈的元數(shù)據(jù)提供全程的數(shù)據(jù)流報(bào)告,提供基于字段或作業(yè)的數(shù)據(jù)沿襲〔也就是數(shù)據(jù)世系分析或血緣分析〕、影響分析和系統(tǒng)相關(guān)性分析等。例如某電信公司在前端展示工具CognosReportStudio中展示的掉話率指標(biāo)明顯和實(shí)際不符,可以通過(guò)MetadataWorkbench使用血緣分析上溯到數(shù)據(jù)源〔數(shù)據(jù)倉(cāng)庫(kù)、ODS、ETL、網(wǎng)管系統(tǒng)、EOMS〕并圖形化的顯示出該路徑上的所有對(duì)象,方便查找在哪個(gè)環(huán)節(jié)出現(xiàn)問(wèn)題。數(shù)據(jù)流報(bào)告顯示數(shù)據(jù)從最開(kāi)始的業(yè)務(wù)系統(tǒng)〔粒度到列級(jí)別〕、復(fù)制、ETL、ODS或數(shù)據(jù)倉(cāng)庫(kù)到前端展示報(bào)告或Dashboad完整的轉(zhuǎn)移路徑,包括其中對(duì)數(shù)據(jù)執(zhí)行的處理的類型等。數(shù)據(jù)流報(bào)告方便業(yè)務(wù)人員了解信息的起源以及具體的轉(zhuǎn)移過(guò)程,有助于進(jìn)行數(shù)據(jù)世系分析,滿足法律遵從性和可審計(jì)性需求。比方可以方便的找出前端展示報(bào)告中的某個(gè)字段的來(lái)源,某個(gè)Datastage作業(yè)將數(shù)據(jù)移動(dòng)到什么位置等。數(shù)據(jù)世系分析可以跟蹤整個(gè)企業(yè)的數(shù)據(jù)流〔即便數(shù)據(jù)沒(méi)有保存在MetadataServer中〕,可以通過(guò)創(chuàng)立擴(kuò)展映射和擴(kuò)展數(shù)據(jù)源來(lái)跟蹤數(shù)據(jù)流,為數(shù)據(jù)流中的任何資產(chǎn)創(chuàng)立擴(kuò)展的數(shù)據(jù)世系分析報(bào)告。結(jié)束語(yǔ)本文詳細(xì)介紹了大數(shù)據(jù)治理統(tǒng)一流程參考模型的第三步:“實(shí)施元數(shù)據(jù)管理〞,并詳細(xì)講述了在大數(shù)據(jù)時(shí)代如何實(shí)施元數(shù)據(jù)管理,隨后介紹了元數(shù)據(jù)管理成熟度模型,幫助企業(yè)可以參考該模型衡量自己當(dāng)前元數(shù)據(jù)管理水平,最后簡(jiǎn)單介紹了IBM在元數(shù)據(jù)管理方面的產(chǎn)品:業(yè)務(wù)元數(shù)據(jù)管理工具IBMInfoSphereBusinessGlossary、業(yè)務(wù)詞匯表小工具InfoSphereBusinessGlossaryAnywhere和技術(shù)元數(shù)據(jù)管理工具InfoSphereMetadataWorkbench。在本系列文章的下一局部將重點(diǎn)介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型第四步“定義業(yè)務(wù)問(wèn)題〞、第五步“獲得主管支持〞、第六步“執(zhí)行成熟度評(píng)估〞、第七步“構(gòu)建路線圖〞、第八步“建立組織藍(lán)圖〞和第九步“了解數(shù)據(jù)〞等內(nèi)容,并繼續(xù)介紹IBM信息效勞器中的InfoSphereInformationAnalyze、InfoSphereFederationServer、InfoSphereReplicationServer和InfoSphereChangeDataCapture等。InfoSphereInformationAnalyze是一款數(shù)據(jù)質(zhì)量分析工具軟件,用來(lái)在工程初期對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)質(zhì)量分析,以便真正地了解源數(shù)據(jù)的結(jié)構(gòu)、質(zhì)量和數(shù)據(jù)分布等,提早發(fā)現(xiàn)數(shù)據(jù)的缺失、錯(cuò)誤、重復(fù)和不一致等問(wèn)題,為后面的數(shù)據(jù)復(fù)制、ETL等過(guò)程提供支持,以便降低工程實(shí)施風(fēng)險(xiǎn)。參考文獻(xiàn)SunilSoares,“BigDataGovernance〞,Part7;本章參考了IBM相關(guān)產(chǎn)品的信息中心、白皮書(shū)、方案建議書(shū)以及其他各種資料。第四局部:大數(shù)據(jù)治理統(tǒng)一流程參考模型的第四步到第九步如果想要成功地實(shí)施大數(shù)據(jù)治理方案,需要了解信息供給鏈中的各個(gè)環(huán)節(jié)的數(shù)據(jù)模型、主外鍵關(guān)系等。本局部主要介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型第四步“定義業(yè)務(wù)問(wèn)題〞、第五步“獲得主管支持〞、第六步“執(zhí)行成熟度評(píng)估〞、第七步“構(gòu)建路線圖〞、第八步“建立組織藍(lán)圖〞和第九步“了解數(shù)據(jù)〞等內(nèi)容。第四步:定義業(yè)務(wù)問(wèn)題如何準(zhǔn)確的定義和描述業(yè)務(wù)問(wèn)題是數(shù)據(jù)治理方案成功的關(guān)鍵,企業(yè)可以從對(duì)特定問(wèn)題或領(lǐng)域進(jìn)行數(shù)據(jù)治理的緊迫程度以及數(shù)據(jù)治理能夠帶來(lái)的價(jià)值來(lái)綜合衡量,對(duì)排名靠前的問(wèn)題或領(lǐng)域優(yōu)先進(jìn)行數(shù)據(jù)治理,這樣能充分獲得業(yè)務(wù)職能部門(mén)以及IT部門(mén)的支持,從而保證數(shù)據(jù)治理方案的成功。數(shù)據(jù)治理初始范圍確定后,執(zhí)行具體的數(shù)據(jù)治理工作,等成功后再考慮擴(kuò)展至其他領(lǐng)域。總結(jié)以往很多企業(yè)進(jìn)行數(shù)據(jù)治理失敗的原因時(shí)可以發(fā)現(xiàn)很多經(jīng)常出現(xiàn)的病癥,比方:企業(yè)未從數(shù)據(jù)治理中獲得任何價(jià)值;數(shù)據(jù)治理過(guò)于長(zhǎng)期,和企業(yè)專注短期目標(biāo)不符;IT部門(mén)應(yīng)對(duì)數(shù)據(jù)質(zhì)量負(fù)責(zé);IT部門(mén)認(rèn)為數(shù)據(jù)治理過(guò)于復(fù)雜,無(wú)法順利落地;企業(yè)為數(shù)據(jù)管理員分配了其他職責(zé)。分析以上問(wèn)題出現(xiàn)的根源,可以發(fā)現(xiàn)數(shù)據(jù)治理方案失敗的根本原因在于與業(yè)務(wù)價(jià)值缺乏關(guān)聯(lián),IT部門(mén)單獨(dú)進(jìn)行數(shù)據(jù)治理,沒(méi)有和相關(guān)業(yè)務(wù)部門(mén)進(jìn)行聯(lián)動(dòng)。數(shù)據(jù)治理需要所有利益相關(guān)方參與,可以從業(yè)務(wù)角度〔而不是技術(shù)角度〕總結(jié)出各種數(shù)據(jù)治理的價(jià)值,從而吸引相關(guān)業(yè)務(wù)領(lǐng)域高層領(lǐng)導(dǎo)的支持,從而保證數(shù)據(jù)治理可以獲得更高的業(yè)務(wù)收益。舉例說(shuō)明如何定義業(yè)務(wù)問(wèn)題,很多上市公司財(cái)報(bào)都被監(jiān)管機(jī)構(gòu)要求提供其數(shù)據(jù)來(lái)源并證明其數(shù)據(jù)可信,而報(bào)告本身所使用的數(shù)據(jù)流經(jīng)信息供給鏈多個(gè)組件〔如立方體、數(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度跑步活動(dòng)志愿者服務(wù)合同3篇
- 2024-2025學(xué)年貴州省畢節(jié)市大方縣東關(guān)鄉(xiāng)教育管理中心三年級(jí)數(shù)學(xué)第一學(xué)期期末綜合測(cè)試試題含解析
- 創(chuàng)新教育與文化融合學(xué)校國(guó)際交流實(shí)踐探索
- 2024年科技園區(qū)商鋪代理合作協(xié)議3篇
- 商業(yè)中心大門(mén)的智能化改造與升級(jí)方案
- 2025中國(guó)鐵物物資集團(tuán)限公司校園招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025中國(guó)遠(yuǎn)洋海運(yùn)集團(tuán)校園招聘995人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025中國(guó)移動(dòng)浙江公司校園招聘595人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025中國(guó)石油獨(dú)山子石化分公司校園招聘145人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025中國(guó)建材集團(tuán)總部招聘1人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 果園水果采摘升降平臺(tái)的設(shè)計(jì)
- 電子工程師職位合同
- 2025屆青海省西寧二十一中學(xué)七年級(jí)數(shù)學(xué)第一學(xué)期期末考試試題含解析
- 湖北省宜昌市2025屆九年級(jí)物理第一學(xué)期期末達(dá)標(biāo)測(cè)試試題含解析
- 人教版四年級(jí)數(shù)學(xué)上冊(cè)單位換算專項(xiàng)練習(xí)
- DL-T5394-2021電力工程地下金屬構(gòu)筑物防腐技術(shù)導(dǎo)則
- 新媒體數(shù)據(jù)分析 實(shí)訓(xùn)題 項(xiàng)目2 新媒體數(shù)據(jù)分析的工具與方法
- 【魚(yú)糜生產(chǎn)工藝及車(chē)間布置設(shè)計(jì)14000字(論文)】
- 行政復(fù)議法-形考作業(yè)4-國(guó)開(kāi)(ZJ)-參考資料
- 分離技術(shù)發(fā)展趨勢(shì)
- 兒科護(hù)理技術(shù)操作規(guī)范
評(píng)論
0/150
提交評(píng)論