Oracle--SOA-主數(shù)據(jù)管理解決方案_第1頁
Oracle--SOA-主數(shù)據(jù)管理解決方案_第2頁
Oracle--SOA-主數(shù)據(jù)管理解決方案_第3頁
Oracle--SOA-主數(shù)據(jù)管理解決方案_第4頁
Oracle--SOA-主數(shù)據(jù)管理解決方案_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、Oracle技術解決方案目 錄1.概述41.1背景41.1.1南方電網(wǎng)“十一五”信息化現(xiàn)狀41.1.2南方電網(wǎng)“十二五”信息化定位51.2項目建設目標61.3項目建設范圍71.4項目建設內(nèi)容71.5需求分析82.Oracle主數(shù)據(jù)管理方案102.1Oracle主數(shù)據(jù)管理設計132.1.1Oracle主數(shù)據(jù)管理總體架構設計132.1.2主數(shù)據(jù)方案設計212.1.3交換數(shù)據(jù)方案設計262.1.4數(shù)據(jù)交換系統(tǒng)功能設計283.Oracle主數(shù)據(jù)管理設計產(chǎn)品介紹463.1Oracle BPM Suite(業(yè)務流程)463.1.1BPM方案總體架構463.1.2閉環(huán)的Oracle BPM解決方案473.1

2、.2.1業(yè)務流程分析BPA階段483.1.2.2業(yè)務流程執(zhí)行BPE與業(yè)務流程監(jiān)視BAM階段503.1.3Oracle BPM平臺中主要模塊介紹513.1.3.1Oracle BPM服務器523.1.3.2Oracle業(yè)務規(guī)則523.1.3.3Oracle流程建模與模擬工具543.1.3.4Oracle元數(shù)據(jù)資料庫543.1.4Oracle BPM解決方案的優(yōu)勢553.2Oracle SOA Suite(應用集成)563.2.1價值主張563.2.2創(chuàng)建服務563.2.3服務連通與轉換563.2.4流程編排和整合573.2.5服務發(fā)布與注冊583.2.6服務的安全管理593.2.7用戶身份管理6

3、03.2.8SOA平臺的系統(tǒng)管理603.3Oracle Data Integrator(批量數(shù)據(jù)抽取)643.3.1產(chǎn)品概述643.3.2ODI產(chǎn)品體系結構653.3.3數(shù)據(jù)分發(fā)和傳輸663.3.4數(shù)據(jù)集成核心683.3.5數(shù)據(jù)質(zhì)量核心683.3.6數(shù)據(jù)連接703.3.7ODI主要優(yōu)勢713.4GoldenGate(實時數(shù)據(jù)同步方案)713.4.1高可用和容災解決方案723.4.2實時數(shù)據(jù)整合解決方案723.4.3復制模式733.4.4關鍵特性763.4.5應用方式774.軟件配置及部署方案794.1軟件配置及硬件推薦794.2部署架構圖801. 概述1.1 背景1.1.1 南方電網(wǎng)“十一五”

4、信息化現(xiàn)狀 Oracle主數(shù)據(jù)管理方案南方電網(wǎng)的數(shù)據(jù)質(zhì)量管理必須有一整套的用于生成和維護企業(yè)主數(shù)據(jù)的規(guī)范、技術和方案,以保證主數(shù)據(jù)的完整性、一致性和準確性。(1)數(shù)據(jù)標準管理數(shù)據(jù)標準包括各業(yè)務域的數(shù)據(jù)集標準、數(shù)據(jù)模型標準及信息分類編碼標準。這些標準用于指導各業(yè)務系統(tǒng)建設與實施。在標準管理上,數(shù)據(jù)資源管理工具應能有效管控標準的變更與執(zhí)行。尤其是“十二五”期間,如何管理網(wǎng)省兩級、省級集中的業(yè)務系統(tǒng)的統(tǒng)一版本問題是關鍵。(2)主數(shù)據(jù)管理通過企業(yè)范圍內(nèi)的統(tǒng)一視圖,即ECIM模型,實現(xiàn)主數(shù)據(jù)管理,促進業(yè)務系統(tǒng)的數(shù)據(jù)集成與共享。主數(shù)據(jù)管理需要解決主數(shù)據(jù)的定義、標識、存儲、匯集、清洗、監(jiān)管與共享。主數(shù)據(jù)可以

5、為業(yè)務系統(tǒng)或數(shù)據(jù)中心服務。(3)數(shù)據(jù)質(zhì)量管理數(shù)據(jù)管理的最終的目標是為了提升系統(tǒng)數(shù)據(jù)質(zhì)量。在主數(shù)據(jù)的清洗階段,通過數(shù)據(jù)質(zhì)量管理工作,對數(shù)據(jù)進行解析、標準化、匹配&去重、補充及驗證建立可靠的數(shù)據(jù)。對于核心結構化數(shù)據(jù)在加載到數(shù)據(jù)中心時也進行相似的工作,提高決策支持水平。南方電網(wǎng)的主數(shù)據(jù)管理系統(tǒng)從 IT 建設的角度而言都會是一個相對復雜的系統(tǒng),往往會和企業(yè)數(shù)據(jù)倉庫 / 決策支持系統(tǒng)以及企業(yè)內(nèi)的各個業(yè)務系統(tǒng)發(fā)生關系,技術實現(xiàn)上也會涉及到 ETL、流程、SOA、企業(yè)服務總線等多個方面,一個典型的主數(shù)據(jù)管理的信息流為: 某個業(yè)務系統(tǒng)觸發(fā)對企業(yè)主數(shù)據(jù)的改動; 主數(shù)據(jù)管理系統(tǒng)將整合之后完整、準確的主數(shù)據(jù)分發(fā)給所

6、有有關的應用系統(tǒng); 主數(shù)據(jù)管理系統(tǒng)為業(yè)務系統(tǒng)和決策支持以及數(shù)據(jù)倉庫系統(tǒng)提供準確的數(shù)據(jù)源。因此對于南方電網(wǎng)數(shù)據(jù)質(zhì)量管理的建設,必須從項目建設初期就考慮整體的平臺框架和技術實現(xiàn)。Oracle主數(shù)據(jù)管理(Master Data Management,MDM)是當前業(yè)界最完整的是一種集成的、完整的企業(yè)主數(shù)據(jù)(企業(yè)業(yè)務運行和商務分析所依賴的關鍵性基礎數(shù)據(jù))管理平臺,具有企業(yè)級主數(shù)據(jù)存儲、主數(shù)據(jù)整合、主數(shù)據(jù)清洗、主數(shù)據(jù)監(jiān)管以及主數(shù)據(jù)共享等五大功能,可全面連接企業(yè)數(shù)據(jù)內(nèi)容(廣泛使用和在部門間共享的數(shù)據(jù))和實現(xiàn)企業(yè)范圍內(nèi)的主數(shù)據(jù)統(tǒng)一、完整和一致。作為企業(yè)的真實數(shù)據(jù)來源,Oracle主數(shù)據(jù)管理(MDM)平臺通過

7、數(shù)據(jù)治理服務以及對周邊應用系統(tǒng)的集成和對商務智能系統(tǒng)的支持,來統(tǒng)一管理企業(yè)內(nèi)重要的基礎數(shù)據(jù)信息,可以整合并維護企業(yè)范圍的全面、準確且權威的主數(shù)據(jù),并將這些主數(shù)據(jù)信息作為共享服務分發(fā)到所需的業(yè)務和分析系統(tǒng)。Oracle主數(shù)據(jù)管理解決方案具有以下特性: 保證數(shù)據(jù)的唯一性和準確性:有效整理和集中分散在關鍵企業(yè)流程和應用軟件中的數(shù)據(jù)片斷,通過一系列匹配、整合和清洗規(guī)則使之形成單一真實數(shù)據(jù)源,并提供基于工作流的數(shù)據(jù)監(jiān)管流程來實現(xiàn)持續(xù)的數(shù)據(jù)質(zhì)量維護。最后將統(tǒng)一的數(shù)據(jù)資產(chǎn)作為Web服務提供給周邊的業(yè)務系統(tǒng),實現(xiàn)企業(yè)范圍的主數(shù)據(jù)協(xié)同; 有效降低數(shù)據(jù)管理成本:提供統(tǒng)一的資源庫來集中管理企業(yè)重要的數(shù)據(jù)資產(chǎn),并能將

8、對這些數(shù)據(jù)資產(chǎn)的訪問以服務的方式提供給周邊應用系統(tǒng),實時地提供訪問主數(shù)據(jù)的WEB服務,包括匹配、申請全部信息以及申請所需信息等; 實現(xiàn)更好的報表:準確、有效的數(shù)據(jù)是準確、有效的報表的基礎,Oracle MDM可以將清洗、排重、整理之后的準確數(shù)據(jù)提供給企業(yè)的商務分析系統(tǒng),得到更加準確的決策支持; 提供企業(yè)系統(tǒng)架構靈活性和創(chuàng)新性的基礎:維護持續(xù)的、唯一而準確的主數(shù)據(jù)資產(chǎn),能夠在不斷變化的業(yè)務環(huán)境中增強IT彈性,滿足爆炸式數(shù)據(jù)增長的需求。 Oracle主數(shù)據(jù)管理能支持以下六大功能: 指定每個特定主數(shù)據(jù)域的業(yè)務職責,例如,產(chǎn)品、客戶、供應商和組織結構。 嚴格履行職責可保證接入共享資源的系統(tǒng)始終保持高質(zhì)

9、量主數(shù)據(jù)。 提取分散在各個應用系統(tǒng)中的主數(shù)據(jù)集中到主數(shù)據(jù)存儲庫,主數(shù)據(jù)存儲庫一般采用二維數(shù)據(jù)庫存儲主數(shù)據(jù)。 根據(jù)企業(yè)業(yè)務規(guī)則和企業(yè)數(shù)據(jù)質(zhì)量標準對收集到的主數(shù)據(jù)進行加工清理,從而形成符合企業(yè)需求的主數(shù)據(jù)。 制定主數(shù)據(jù)變更的流程審批機制,從而保證主數(shù)據(jù)修改的一致性和穩(wěn)定性。 實現(xiàn)各個數(shù)據(jù)利用系統(tǒng)與主數(shù)據(jù)存儲庫的數(shù)據(jù)同步,從而保證每個系統(tǒng)使用的主數(shù)據(jù)相同。)隨著IT系統(tǒng)的建設,主數(shù)據(jù)的修改動作必然從現(xiàn)有分散的各個系統(tǒng)轉移到主數(shù)據(jù)存儲庫集中進行,因此必須保證當前主數(shù)據(jù)管理系統(tǒng)的靈活性,方便修改、監(jiān)控、更新關聯(lián)系統(tǒng)主數(shù)據(jù)的變化。Oracle主數(shù)據(jù)管理在企業(yè)范圍內(nèi)主數(shù)據(jù)協(xié)同方面完善了一套端到端的模式可滿足

10、客戶不同的實施需要,即“推動模式”和“拉動模式”,前者通過前端獨立應用軟件(包括Oracle應用系統(tǒng)、企業(yè)自主開發(fā)以及第三方軟件)的主數(shù)據(jù)改動,經(jīng)過Oracle 應用集成架構自動且快速地同步到Oracle MDM主數(shù)據(jù)平臺,可實現(xiàn)企業(yè)范圍內(nèi)的全面數(shù)據(jù)整合,而后者則是由主數(shù)據(jù)平臺主動對前端應用軟件進行實時的訪問,獲取新增、更改和補充數(shù)據(jù),并經(jīng)過 Oracle 應用集成架構和內(nèi)部數(shù)據(jù)規(guī)則實現(xiàn)標準化,從而最終在主數(shù)據(jù)平臺實現(xiàn)唯一準確地共享數(shù)據(jù)。22.1 Oracle主數(shù)據(jù)管理設計22.12.1.1 Oracle主數(shù)據(jù)管理總體架構設計Oracle主數(shù)據(jù)管理的主要功能可歸結為以下六大功能: 主數(shù)據(jù)存儲

11、主數(shù)據(jù)整合與連接 主數(shù)據(jù)質(zhì)量管理 主數(shù)據(jù)管理監(jiān)控 主數(shù)據(jù)共享 安全可靠的平臺主數(shù)據(jù)存儲 一個具有無限可擴展性的內(nèi)置、靈活(隨時間變化)的開放數(shù)據(jù)模型可維護南方電網(wǎng)主數(shù)據(jù)和所有需要的屬性(結構化和非結構化的)、相關實體、分類和關系; 可跟蹤主數(shù)據(jù)屬性、審計跟蹤信息和歷史主數(shù)據(jù)剖析的來源主要用于存儲整合后主數(shù)據(jù),將各系統(tǒng)的需求信息概括形成一條完整的記錄并進行存儲供應,提供一個完整的數(shù)據(jù)模型。主數(shù)據(jù)的不同部分分布在不同的業(yè)務系統(tǒng)中,比如一個call center系統(tǒng)需要保存客戶的所有聯(lián)系信息,但是一個計費系統(tǒng)可能只需要保留客戶的與計費相關的信息,如何將客戶信息形成一條完整的記錄并進行存儲供應,當然是

12、需要概括所有這些系統(tǒng)的需求,提供一個完整的數(shù)據(jù)模型。 數(shù)據(jù)整合與連接 領先的嵌入式數(shù)據(jù)質(zhì)量管理工具及與第三方數(shù)據(jù)源的集成,用于驗證和充實數(shù)據(jù) 可保持數(shù)據(jù)最新的持續(xù)數(shù)據(jù)清理功能集 快速安全的參數(shù)化搜索引擎,能識別和避免重復數(shù)據(jù) 智能合并和自動合并功能,消除數(shù)據(jù)重復,同時確保正確的數(shù)據(jù)屬性排除 利用與外部內(nèi)容提供商的預建集成來充實主數(shù)據(jù)內(nèi)容 包括主數(shù)據(jù)生命周期管理工作流主數(shù)據(jù)分散在不同的業(yè)務系統(tǒng)中,要進行數(shù)據(jù)整合,第一步是實現(xiàn)這些異構系統(tǒng)的互聯(lián)互通,然后通過一定的觸發(fā)機制將各個系統(tǒng)針對主數(shù)據(jù)的修改同步到主數(shù)據(jù)存儲庫。但是在實施數(shù)據(jù)集成的過程中,由于不同系統(tǒng)提供的數(shù)據(jù)內(nèi)容、數(shù)據(jù)格式和數(shù)據(jù)質(zhì)量千差萬別

13、,甚至會遇到數(shù)據(jù)格式不能轉換或數(shù)據(jù)轉換格式后丟失信息等問題,將會嚴重阻礙數(shù)據(jù)在各部門和各應用系統(tǒng)中的流動與共享。因此,如何對數(shù)據(jù)進行有效的集成管理是數(shù)據(jù)共享中心建設的一個關鍵難點。ETL是實現(xiàn)數(shù)據(jù)集成的主要技術。ETL中三個字母分別代表的是Extract、Transform、Load,即抽取、轉換、加載。(1)數(shù)據(jù)抽?。簭脑磾?shù)據(jù)源系統(tǒng)抽取目的數(shù)據(jù)源系統(tǒng)需要的數(shù)據(jù);(2)數(shù)據(jù)轉換:將從源數(shù)據(jù)源獲取的數(shù)據(jù)按照業(yè)務需求,轉換成目的數(shù)據(jù)源要求的形式,并對錯誤、不一致的數(shù)據(jù)進行清洗和加工。(3)數(shù)據(jù)加載:將轉換后的數(shù)據(jù)裝載到目的數(shù)據(jù)源。ETL過程中的主要環(huán)節(jié)就是數(shù)據(jù)抽取、數(shù)據(jù)轉換和加工、數(shù)據(jù)裝載。Ora

14、cle的主數(shù)據(jù)整合管理ETL基于ODI來實現(xiàn),使用ODI設計和生成典型格式;利用已有的元數(shù)據(jù)格式設計MDM 應用 (實體, 字段, 關系);生成和維護主數(shù)據(jù)結構;生成和部署轉換。主數(shù)據(jù)質(zhì)量管理 為每個主數(shù)據(jù)實體創(chuàng)建通用ID并構建針對每個所連接記錄/系統(tǒng)對的交叉引用 一個數(shù)據(jù)導入工作臺和用戶界面,以幫助數(shù)據(jù)管理員管理源系統(tǒng)的映射和數(shù)據(jù)加載及主數(shù)據(jù)剖析 使用預建、符合標準的業(yè)務服務和適配器實現(xiàn)集成 使用可配置的屬性“排除”規(guī)則,根據(jù)多個數(shù)據(jù)源創(chuàng)建單一的記錄 利用基礎服務框架的數(shù)據(jù)聯(lián)合功能 主數(shù)據(jù)維護著企業(yè)里該種類型數(shù)據(jù)的最值得信任的數(shù)據(jù),所以使用質(zhì)量管理技術來保證這些數(shù)據(jù)的準確是主數(shù)據(jù)管理里非常重

15、要的一環(huán)。 1. 數(shù)據(jù)清洗:數(shù)據(jù)清洗是對數(shù)據(jù)進行校驗和標準化,比如地址郵編是否存在等等。2. 數(shù)據(jù)匹配:數(shù)據(jù)匹配是找出有可能重復的記錄。比如MDM系統(tǒng)里有兩個閾值是用于控制數(shù)據(jù)匹配的流程,第一個閾值是高分閾值,對于數(shù)據(jù)匹配分值高于高分閾值的記 錄將會使用數(shù)據(jù)存活規(guī)則進行自動合并;第二個閾值是中分閾值,數(shù)據(jù)匹配得分在高分閾值和中分閾值之間的記錄將會進入人工判斷工作流,由管理員或者其他指定 的人決定合并還是作為新記錄。低于中分閾值的記錄都將會被作為新記錄。數(shù)據(jù)存活規(guī)則(Survivorship rules)一般而言,企業(yè)里的主數(shù)據(jù)來源于企業(yè)里的各個系統(tǒng),當不同系統(tǒng)的同一個屬性值有不同的值的時候,就

16、需要決定哪一個系統(tǒng)的值是準確的。數(shù)據(jù)存活規(guī)則指定各種規(guī)則來決定新的數(shù)據(jù)進入到主數(shù)據(jù)庫或者當新數(shù)據(jù)和舊有主數(shù)據(jù)沖突的時候的處理方法。數(shù)據(jù)存活規(guī)則主要有三種: Recent規(guī)則:當相同的數(shù)據(jù)進入主數(shù)據(jù)系統(tǒng)的時候,以后來的數(shù)據(jù)為準,后來數(shù)據(jù)替換原來的數(shù)據(jù)。比如contact(聯(lián)系人)信息,缺省是以后來的更新為主。 History規(guī)則:當相同的數(shù)據(jù)進入主數(shù)據(jù)系統(tǒng)的時候,以原來的數(shù)據(jù)為準,不接受后來數(shù)據(jù)的更新。 Source規(guī)則: 當相同的數(shù)據(jù)進入主數(shù)據(jù)系統(tǒng)的時候,以數(shù)據(jù)來源系統(tǒng)的可信度為作為使用哪個數(shù)據(jù)最后存活的規(guī)則。比如當源系統(tǒng)有A,B,C三個系統(tǒng)的時候,我們需要在主數(shù) 據(jù)管理系統(tǒng)里注冊這三個系統(tǒng)的

17、時候,同時給這些源系統(tǒng)評分,則當使用source規(guī)則的時候,則以后的數(shù)據(jù)將以評分高的系統(tǒng)為準。比如有三個系 統(tǒng),CRM,財務,物流,對于客戶信息而言,我們認為CRM系統(tǒng)里的客戶信息應該是最準的,我們應該給于CRM系統(tǒng)較高的分值,則這個時候?qū)τ诳蛻魯?shù)據(jù)我 們將使用Source規(guī)則,則以后所有的CRM系統(tǒng)相應客戶的更新會覆蓋原來不是CRM系統(tǒng)的更新。3.數(shù)據(jù)質(zhì)量管理流程數(shù)據(jù)質(zhì)量的大致控制流程,即當記錄進入主數(shù)據(jù)系統(tǒng)時,先會在主數(shù)據(jù)系統(tǒng)里尋找可能匹配的記錄,如果結果認為是不匹配, 則將進入處理不匹配流程來增加一條新記錄;如果是分值足夠高,則進入自動匹配流程把該記錄和原有記錄進行數(shù)據(jù)存活規(guī)則處理并合并

18、記錄;如果是分值不足夠 高,則需要人工來決定該記錄是新記錄還是需要和原有記錄合并。主數(shù)據(jù)管理監(jiān)控 最佳的工作流功能(例如針對南方電網(wǎng)主數(shù)據(jù)定義和審批路由的可配置工作流)響應整個主數(shù)據(jù)管理生命周期事件;oracle BPEL 規(guī)范制定自動化業(yè)務處理流程,支持用戶自定義變更類型 確保堅如磐石的安全性和法規(guī)遵守證明的完整歷史和審計跟蹤 納稅人數(shù)據(jù)認證,支持機構創(chuàng)建數(shù)據(jù)質(zhì)量標準,遵守這些標準并提升用戶對數(shù)據(jù)的信心 商務智能基礎架構,支持剖析、法規(guī)遵守和業(yè)務績效指標 自動化、人工流程,提供良好的用戶界面UI,多種通知方式 自動化、人工的審核和批準,逐級審批 易于多組織的協(xié)同工作主數(shù)據(jù)發(fā)布和共享 面向終端

19、用戶和數(shù)據(jù)管理員的直觀GUI,管理主數(shù)據(jù)的整個生命周期從創(chuàng)建或?qū)胫鲾?shù)據(jù)信息到清理、匹配、增強和發(fā)布。使用預建的流程使南方電網(wǎng)更輕松地管理主數(shù)據(jù) 對所有集成模式實時(緊耦合和松耦合)、近實時(松耦合)和批量的嚴格的多模型支持 提供作為業(yè)務服務和Web服務的常用功能 一個內(nèi)部觸發(fā)的機制,創(chuàng)建變更信息并向所有相連系統(tǒng)部署 為所有的管理軟件和分析系統(tǒng)提供主數(shù)據(jù)記錄和所選屬性 在面向服務的架構(SOA)和/或消息傳遞總線上的運營管理軟件和數(shù)據(jù)倉庫雙向交互 通過Oracle應用集成架構 (AIA) 流程集成包 (PIP) 預建的集成 與Oracle商務智能企業(yè)版 (OBI EE) 預建的集成為了實現(xiàn)主數(shù)

20、據(jù)共享,首先全網(wǎng)應該各個分散的業(yè)務系統(tǒng)連接起來,實現(xiàn)各個業(yè)務系統(tǒng)與主數(shù)據(jù)存儲的互聯(lián)互通,目前的南網(wǎng)主數(shù)據(jù)管理解決方案主要采用兩種方式來實現(xiàn):基于ETL工具的方式和基于SOA體系架構的方式。1.基于ODI的方式基于ODI這樣的ETL工具設計的架構更適合全網(wǎng)業(yè)務系統(tǒng)中的非實時數(shù)據(jù)量大的主數(shù)據(jù)共享發(fā)布。如上圖所示,采用基于ODI的ETL工具具有連接各種異構數(shù)據(jù)源和變化捕捉的能力,采用它來實現(xiàn)MDM中異構系統(tǒng)的數(shù)據(jù)觸發(fā)、整合和發(fā)布應該是順理成章的事情,當某個主數(shù)據(jù)的源發(fā)生變化時,ETL的CDC(變化數(shù)據(jù)捕捉)功能就會捕獲到變化,進而將變化的數(shù)據(jù)傳輸?shù)街鲾?shù)據(jù)管理系統(tǒng)的臨時存儲區(qū),然后ETL工具根據(jù)定義的

21、數(shù)據(jù)轉化規(guī)則對數(shù)據(jù)進行清洗轉化,形成主數(shù)據(jù),進而ETL調(diào)用審批監(jiān)管流程,一旦獲得審批,ETL即可將主數(shù)據(jù)同步到主數(shù)據(jù)存儲系統(tǒng),同時分發(fā)給各個訂閱該主數(shù)據(jù)的業(yè)務系統(tǒng)。同時ODI可以支撐流程的設計、運行、監(jiān)控,否則ETL工具必須可以調(diào)用其它的工作流引擎,ODI可以實現(xiàn)與SOA的無縫集成,既可以將數(shù)據(jù)或者轉化封裝為Web Service服務,也可以調(diào)用外部的Web Service服務。 2.基于SOA架構的方式:在該方案更適合實時的數(shù)據(jù)量小的主數(shù)據(jù)共享發(fā)布,采用OSB(企業(yè)服務總線)技術構建應用集成平臺,采用web service方式實現(xiàn)在多個系統(tǒng)間應用集成和互聯(lián)互通。應用集成平臺是數(shù)據(jù)采集、數(shù)據(jù)交

22、換及服務提供能力的直接承載。數(shù)據(jù)的收集和分發(fā)采用各種應用和適配器實現(xiàn),各種應用適配器一般提供變化數(shù)據(jù)的的輪詢或者推送功能。監(jiān)控管理可以采用SOA中的工作流引擎來實現(xiàn),同時SOA中的流程監(jiān)控系統(tǒng)可以對整個主數(shù)據(jù)的收集、轉化、審批分發(fā)提供端到端的監(jiān)控。采用SOA技術設計的主數(shù)據(jù)管理架構基于J2EE的開放架構,會非常靈活,同時便于和其它系統(tǒng)集成,系統(tǒng)的擴展性比較好,其問題在于如果主數(shù)據(jù)同步的量非常大,效率會有一定問題。安全可靠的平臺 基于標準的開放平臺 多語言和多國家支持 經(jīng)驗證的平臺,全球各行業(yè)(包括公共部門)數(shù)千客戶的選擇 面向混合的重工作負載Oracle擁有巨大數(shù)目的客戶下關鍵數(shù)據(jù)訪問的高度可

23、用和可伸縮的平臺。 安全特性包括全面且靈活的認證、全面的審計和監(jiān)控以及所有架構級別的加密。Oracle已經(jīng)獲得了17項獨立安全性評估的擔保,確立了Oracle在該領域的領導地位。這些評估包括TCSEC、ITSEC、FIPS和各種通用標準評估。2.1.2 主數(shù)據(jù)方案設計主數(shù)據(jù)管理的核心是數(shù)據(jù)整合、數(shù)據(jù)管控和數(shù)據(jù)服務。在橫跨這三個層次需要進行數(shù)據(jù)安全管理、質(zhì)量管理和元數(shù)據(jù)管理。下面分別進行介紹:數(shù)據(jù)整合:數(shù)據(jù)整合就是將離散于各個業(yè)務系統(tǒng)中的數(shù)據(jù)進行集中化,統(tǒng)一整合集成至數(shù)據(jù)中心。數(shù)據(jù)整合將通過ETL工具實現(xiàn)數(shù)據(jù)的抽取、轉換和加載等功能。數(shù)據(jù)管控:主要包含數(shù)據(jù)中心物理模型、邏輯模型的設計,數(shù)據(jù)的維護

24、管理以及存儲管理等管控功能。數(shù)據(jù)服務管控:數(shù)據(jù)服務管控主要是對采集至數(shù)據(jù)中心的數(shù)據(jù)進行數(shù)據(jù)交換和管控,主要包括數(shù)據(jù)交換服務設計,數(shù)據(jù)總線交換共享,以及數(shù)據(jù)交換管理等功能。元數(shù)據(jù)管理:元數(shù)據(jù)管理是整個數(shù)據(jù)共享中心中基礎信息的管理,包括ETL元數(shù)據(jù)、接口元數(shù)據(jù)、模型元數(shù)據(jù)和數(shù)據(jù)服務元數(shù)據(jù)等的管理功能。質(zhì)量管理:在數(shù)據(jù)管理的不同階段,數(shù)據(jù)管理對數(shù)據(jù)質(zhì)量管理的側重點也有所不同。數(shù)據(jù)質(zhì)量管理的目標,逐步從單純地提高數(shù)據(jù)準確性,延伸至保障數(shù)據(jù)的完整性、唯一性、合法性、一致性、及時性等屬性;從單純以技術角度考慮數(shù)據(jù)質(zhì)量問題,發(fā)展至從用戶視角衡量數(shù)據(jù)質(zhì)量問題,提高用戶對數(shù)據(jù)的滿意度;建立數(shù)據(jù)質(zhì)量監(jiān)控機制,及時

25、發(fā)現(xiàn)、報告、處理數(shù)據(jù)共享中心中的數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)質(zhì)量管理子系統(tǒng)是數(shù)據(jù)共享中心中數(shù)據(jù)質(zhì)量管理體系的重要組成部分。安全管理:主要包括數(shù)據(jù)存儲安全、數(shù)據(jù)管控安全和數(shù)據(jù)交換等安全管理。主數(shù)據(jù)方案設計原則主數(shù)據(jù)方案設計,遵循以下一般原則: 每類業(yè)務數(shù)據(jù)實體的屬性有且僅有一個所有者(Owner),零個或多個消費者(Consumer); 對數(shù)據(jù)的維護必須通過所有者進行,消費者對數(shù)據(jù)只有只讀功能;如果消費者需要對數(shù)據(jù)進行維護,必須調(diào)用所有者數(shù)據(jù)維護服務; 數(shù)據(jù)有且僅有一個主數(shù)據(jù)源(Master Location),主數(shù)據(jù)源可以是數(shù)據(jù)所有者的應用數(shù)據(jù)庫(ADB)或者數(shù)據(jù)中心數(shù)據(jù)庫?;谛阅艿目紤],消費者可以在

26、ADB保存數(shù)據(jù)的備份,由主數(shù)據(jù)源實時或定時發(fā)起數(shù)據(jù)同步; 主數(shù)據(jù)源提供相應的數(shù)據(jù)存儲和數(shù)據(jù)服務;主數(shù)據(jù)集成方案設計根據(jù)主數(shù)據(jù)源位置(Location)、數(shù)據(jù)冗余方式(Redundant)和數(shù)據(jù)維護的歸屬(Owner),一般的主數(shù)據(jù)集成方案分析如下表:方案123456主數(shù)據(jù)源數(shù)據(jù)中心數(shù)據(jù)中心數(shù)據(jù)中心數(shù)據(jù)中心ADBADBOwner 數(shù)據(jù)中心數(shù)據(jù)中心ADBADBADBADBConsumer是否有備份YNYNYN數(shù)據(jù)維護方式Owner讀直接讀Owner ADB中的數(shù)據(jù)備份同1調(diào)用數(shù)據(jù)中心數(shù)據(jù)訪問服務調(diào)用數(shù)據(jù)中心數(shù)據(jù)訪問服務直接讀Owner ADB直接讀Owner ADBOwner寫Step 1、在一個

27、交易內(nèi)寫Owner ADB和數(shù)據(jù)中心;Step 2、通過數(shù)據(jù)中心啟動對Consumer ADB的數(shù)據(jù)同步在一個交易內(nèi)寫Owner ADB和數(shù)據(jù)中心Step 1、調(diào)用數(shù)據(jù)中心數(shù)據(jù)維護服務;Step 2、通過數(shù)據(jù)中心啟動對Consumer ADB的數(shù)據(jù)同步調(diào)用數(shù)據(jù)中心數(shù)據(jù)維護服務Step 1、寫Owner ADB;Step 2、通過數(shù)據(jù)中心或主數(shù)據(jù)源啟動對Consumer ADB的數(shù)據(jù)同步寫Owner ADBConsumer讀直接讀Consumer ADB中的數(shù)據(jù)備份調(diào)用數(shù)據(jù)中心數(shù)據(jù)訪問服務直接讀Consumer ADB中的數(shù)據(jù)備份調(diào)用數(shù)據(jù)中心數(shù)據(jù)訪問服務直接讀Consumer ADB中的數(shù)據(jù)備份

28、通過數(shù)據(jù)中心的統(tǒng)一視圖獲取數(shù)據(jù);Consumer寫Option1:在一個交易內(nèi),Consumer調(diào)用Owner的數(shù)據(jù)維護服務,同時寫Consumer ADB;Option2:集成Owner的數(shù)據(jù)維護界面,由數(shù)據(jù)中心啟動同步Consumer ADBOption1:Consumer調(diào)用Owner的數(shù)據(jù)維護服務;Option2:集成Owner的數(shù)據(jù)維護界面同1同2同1同2下面就各個方案進行分析,對于方案1和方案2:這兩種方案主要適用于尚無任何系統(tǒng)時,進行一體化系統(tǒng)建設,如應用于已有系統(tǒng)則改造量較大。同時,這兩種方案均以數(shù)據(jù)中心做為主數(shù)據(jù)的維護中心。對于方案3、4和方案5、6:方案5、6較適合已有大量

29、系統(tǒng)的情況,帶來的系統(tǒng)改造量最小。方案3、4適合在主數(shù)據(jù)維護職能不變的情況下將主數(shù)據(jù)在數(shù)據(jù)中心中進行集中,并提供給新建應用。主數(shù)據(jù)實施方案設計1、主數(shù)據(jù)創(chuàng)建抽取設計主數(shù)據(jù)創(chuàng)建抽取過程如下:其一、先對現(xiàn)有業(yè)務系統(tǒng)進行解耦,解決目前各業(yè)務系統(tǒng)間交叉訪問,耦合度過高的問題。通過建設共享數(shù)據(jù)庫,并將目前南方電網(wǎng)各系統(tǒng)交叉訪問的共享數(shù)據(jù)通過數(shù)據(jù)復制機制同步或異步復制到共享數(shù)據(jù)庫,然后再更改各業(yè)務系統(tǒng)現(xiàn)有的共享視圖或物化視圖定義,將共享訪問數(shù)據(jù)源統(tǒng)一指向共享數(shù)據(jù)庫。通過共享數(shù)據(jù)庫的建設及數(shù)據(jù)復制機制的建立,可以將目前網(wǎng)狀的交叉訪問接口平滑過渡到基于共享數(shù)據(jù)庫的星狀接口,有效解決各系統(tǒng)依賴度過高的問題,同時

30、也為下一步各系統(tǒng)的升級改造打下基礎。這里的數(shù)據(jù)復制產(chǎn)品可以考慮Oracle的GoldenGate實時復制產(chǎn)品,先將數(shù)據(jù)復制到共享數(shù)據(jù)庫,完成“系統(tǒng)解耦”工作。其二、是進行數(shù)據(jù)共享協(xié)同平臺的建設。在進行系統(tǒng)解耦時,我們會構建共享數(shù)據(jù)庫,但該共享庫僅僅是將當前分散到各業(yè)務系統(tǒng)的共享數(shù)據(jù)進行了集中,還缺乏統(tǒng)一的規(guī)劃,因此還需要對共享庫進行重新規(guī)劃設計,同時也需要對共享協(xié)同平臺和外部交換庫進行規(guī)劃設計??傮w規(guī)劃設計完成后,即可開始構建數(shù)據(jù)共享中心和業(yè)務協(xié)同平臺,其中數(shù)據(jù)共享中心構建完成后,就可以逐步將各系統(tǒng)間原來基于視圖和物化視圖的數(shù)據(jù)共享訪問調(diào)整為基于數(shù)據(jù)共享中心的訪問模式。共享庫規(guī)劃生成主數(shù)據(jù)管理

31、,可以考慮Oracle Data Integrator產(chǎn)品,實現(xiàn)數(shù)據(jù)ETL的工作。2、主數(shù)據(jù)共享分發(fā)流程設計主數(shù)據(jù)創(chuàng)建生成后,就是對主數(shù)據(jù)進行有效管理和利用。同其他系統(tǒng)進行可以進行實時或半實時的同步從多個源系統(tǒng)建立統(tǒng)一、完整的記錄,再將主數(shù)據(jù)信息同步到其他系統(tǒng)中。通過內(nèi)嵌的集成服務同其他系統(tǒng)進行集成,例如豐富的公共API和業(yè)務事件。通過不斷的數(shù)據(jù)清理和轉換規(guī)則來確保同步數(shù)據(jù)的質(zhì)量。主數(shù)據(jù)管理功能設計主數(shù)據(jù)的管理功能基本與內(nèi)部交換數(shù)據(jù)、外部交換數(shù)據(jù)相似。2.1.3 交換數(shù)據(jù)方案設計內(nèi)部數(shù)據(jù)、外部數(shù)據(jù)在數(shù)據(jù)交換上的業(yè)務功能和邏輯,以及技術實現(xiàn)都是相似的,可以采用相同的數(shù)據(jù)交換方案框架。數(shù)據(jù)交換方案

32、框架涵蓋了數(shù)據(jù)交換,質(zhì)量清洗,數(shù)據(jù)管控和數(shù)據(jù)使用,解決了如何在核心數(shù)據(jù)上實現(xiàn)統(tǒng)一的存儲,維護和使用的問題。 數(shù)據(jù)集成:數(shù)據(jù)集成就是將離散于各個業(yè)務系統(tǒng)中的數(shù)據(jù)進行集中化,統(tǒng)一整合集成至數(shù)據(jù)共享中心。數(shù)據(jù)集成需要對南方電網(wǎng)內(nèi)部系統(tǒng)以及外部系統(tǒng)進行數(shù)據(jù)集成。對于不同的數(shù)據(jù)集成場景,有不同的數(shù)據(jù)集成實現(xiàn)模式,比如有基于Oracle ODI的“拉”數(shù)據(jù)集成模式和基于ESB總線的“推”數(shù)據(jù)集成模式等。 質(zhì)量管理:在數(shù)據(jù)管理的不同階段,數(shù)據(jù)管理對數(shù)據(jù)質(zhì)量管理的側重點也有所不同。數(shù)據(jù)質(zhì)量管理的目標,逐步從單純地提高數(shù)據(jù)準確性,延伸至保障數(shù)據(jù)的完整性、唯一性、合法性、一致性、及時性等屬性;從單純以技術角度考慮

33、數(shù)據(jù)質(zhì)量問題,發(fā)展至從用戶視角衡量數(shù)據(jù)質(zhì)量問題,提高用戶對數(shù)據(jù)的滿意度;建立數(shù)據(jù)質(zhì)量監(jiān)控機制,及時發(fā)現(xiàn)、報告、處理數(shù)據(jù)共享中心中的數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)質(zhì)量管理子系統(tǒng)是數(shù)據(jù)共享中心中數(shù)據(jù)質(zhì)量管理體系的重要組成部分。圖:數(shù)據(jù)質(zhì)量管理 數(shù)據(jù)管控:數(shù)據(jù)管控不是純粹的技術問題,而是由技術、人、信息和流程4個方面共同影響的綜合管理問題。數(shù)據(jù)管控的演進思路劃分為4個步驟:提出管理需求、制定管理流程框架、細化具體管理流程、與組織機構具體角色進行對應。 數(shù)據(jù)使用:存在于數(shù)據(jù)共享中心中的數(shù)據(jù)主要有兩大方面的使用,一是封裝成數(shù)據(jù)服務,并集成于業(yè)務協(xié)同平臺(服務總線平臺)進行數(shù)據(jù)服務共享,南方電網(wǎng)信息內(nèi)部系統(tǒng)和其他外部

34、系統(tǒng)統(tǒng)一通過業(yè)務協(xié)同平臺獲取所需業(yè)務數(shù)據(jù);二是基于數(shù)據(jù)共享中心的集成化數(shù)據(jù)進行綜合查詢分析的應用,查詢分析統(tǒng)計功能不再基于核心業(yè)務數(shù)據(jù)庫,避免造成對核心業(yè)務系統(tǒng)的性能影響。圖:數(shù)據(jù)服務共享2.1.4 數(shù)據(jù)交換系統(tǒng)功能設計基于內(nèi)部數(shù)據(jù)交換方案框架,并結合南方電網(wǎng)數(shù)據(jù)共享協(xié)同平臺總體功能需求分析的基礎上,梳理出南方電網(wǎng)共享中心的總體功能組織結構如下圖所示:以下將分別對數(shù)據(jù)共享中心數(shù)據(jù)集成域、數(shù)據(jù)管控域、質(zhì)量檢測域和數(shù)據(jù)使用域的功能規(guī)劃進行詳細介紹:數(shù)據(jù)集成數(shù)據(jù)集成引擎(Data Integration Engine)面向應用系統(tǒng),在各個應用系統(tǒng)的數(shù)據(jù)源中提取數(shù)據(jù),是一個跨平臺的用于整合異構系統(tǒng)數(shù)據(jù)

35、的ETL工具,在數(shù)據(jù)共享中心中,數(shù)據(jù)集成引擎實現(xiàn)了從各業(yè)務應用系統(tǒng)的數(shù)據(jù)源中提取用于整合共享的數(shù)據(jù),經(jīng)過質(zhì)量檢查后,按新的數(shù)據(jù)模型對數(shù)據(jù)進行轉換和清洗,正確無誤后加載到目標數(shù)據(jù)共享中心中。下面對數(shù)據(jù)集成引擎中的各個部分的功能進行詳細介紹。元數(shù)據(jù)模型為了可以自動完數(shù)據(jù)提取、質(zhì)量檢查、數(shù)據(jù)轉換清洗和數(shù)據(jù)加載這個數(shù)據(jù)整合過程,數(shù)據(jù)集成引擎需要知道源數(shù)據(jù)、目標數(shù)據(jù)的數(shù)據(jù)結構,源數(shù)據(jù)到目標數(shù)據(jù)的轉換及清洗規(guī)則,還有源數(shù)據(jù)的質(zhì)量檢查規(guī)則等數(shù)據(jù),這些用于描述數(shù)據(jù)本身的數(shù)據(jù)被稱為數(shù)據(jù)集成的元數(shù)據(jù),而元數(shù)據(jù)模型是元數(shù)據(jù)的一個實例集合,描述了具體的數(shù)據(jù)結構和規(guī)則,在數(shù)據(jù)進行集成前,必須先定義好元數(shù)據(jù)模型。具體的元

36、數(shù)據(jù)包括:1)數(shù)據(jù)源定義2)目標庫定義3)數(shù)據(jù)物理模型4)數(shù)據(jù)檢查規(guī)則5)數(shù)據(jù)轉換規(guī)則6)數(shù)據(jù)清洗規(guī)則批量數(shù)據(jù)提取批量數(shù)據(jù)提取(Bulk Data Extract)從數(shù)據(jù)源定時批量提取數(shù)據(jù)進行整合,是數(shù)據(jù)集成引擎的前端功能,與元數(shù)據(jù)模型中定義的各個數(shù)據(jù)源進行連接,獲取需要整合的數(shù)據(jù),然后存儲到中間數(shù)據(jù)庫(Staging Database)進行后續(xù)的質(zhì)量檢查、清洗和轉換處理。批量數(shù)據(jù)提取因為提取的數(shù)據(jù)量較多,對于性能的影響也較大,一般用于非實時的數(shù)據(jù)整合,適用于時效性要求不高并且不希望過多影響源系統(tǒng)數(shù)據(jù)處理性能的情況。對于關系型數(shù)據(jù)庫的批量數(shù)據(jù)提取可以使用兩種接口方式來進實現(xiàn):1)ORACLE

37、DB LINK:這種方式適用于目標數(shù)據(jù)庫和數(shù)據(jù)源數(shù)據(jù)庫都是Oracle的情況,直接在目標數(shù)據(jù)庫建立源數(shù)據(jù)庫的DB LINK,通過DB LINK就可以像在一個數(shù)據(jù)庫一樣通過SQL直接提取數(shù)據(jù)源的數(shù)據(jù)。2)JDBC Data Source:這種方式適合源數(shù)據(jù)庫是非Oracle并且支持JDBC協(xié)議的數(shù)據(jù)庫,目前大部分主流數(shù)據(jù)庫都支持JDBC協(xié)議,在JDBC協(xié)議上建立Data Source,通過JDBC在源數(shù)據(jù)庫上執(zhí)行SQL進行數(shù)據(jù)提取。使用批量數(shù)據(jù)提取的方式來提取數(shù)據(jù)可以用于首次初始化加載全量數(shù)據(jù),也可在首次加載數(shù)據(jù)后通過兩種方式實現(xiàn)非實時的增量更新,這兩種方式分別是:1)基于時間戳的增量更新這種方

38、式提取數(shù)據(jù)速度較快,源數(shù)據(jù)庫通過物理表或者試圖的方式暴露數(shù)據(jù),但要求數(shù)據(jù)源的表或者視圖必須有時間戳的字段并且不能對數(shù)據(jù)記錄進行物理刪除。2)基于主鍵比對的增量更新這種方式需要每次都提取全部數(shù)據(jù),然后在目標數(shù)據(jù)庫上按主鍵標識對所有數(shù)據(jù)進行全量比對來識別增量更新的數(shù)據(jù)記錄,效率低,數(shù)據(jù)源的壓力較大,只適合小數(shù)據(jù)量的提取,基于主鍵比對的更新對源數(shù)據(jù)的表或者視圖無特殊要求。變化數(shù)據(jù)捕獲和批量數(shù)據(jù)提取一樣,變化數(shù)據(jù)捕獲(Change Data Capture)同樣是數(shù)據(jù)集成引擎的前端功能,和數(shù)據(jù)源進行隊列;但顧名思義,變化數(shù)據(jù)捕獲只提供增量數(shù)據(jù)提取的功能,通過對源數(shù)據(jù)庫上變更數(shù)據(jù)的捕獲,數(shù)據(jù)集成引擎可以

39、實現(xiàn)實時或準實時數(shù)據(jù)同步,此方式適用于整合有較高時效性要求的數(shù)據(jù)。變化數(shù)據(jù)捕獲提供多種技術實現(xiàn)方式,包括數(shù)據(jù)庫觸發(fā)器、數(shù)據(jù)庫日志采集器、基于消息隊列的變更數(shù)據(jù)訂閱和基于Web Service的數(shù)據(jù)變化通知,下面對幾種方式進行描述:集成數(shù)據(jù)引擎主動捕獲數(shù)據(jù)變化的方式:1) 數(shù)據(jù)庫觸發(fā)器(Database Triggers):通過在源數(shù)據(jù)表上創(chuàng)建觸發(fā)器來獲取變化的數(shù)據(jù),此方式實時性高,但需要對源數(shù)據(jù)庫進行改動,對高負載應用的性能有一定的影響,此方式支持主流的關系數(shù)據(jù)庫。2) 數(shù)據(jù)庫日志采集器(Log Miner):通過對源數(shù)據(jù)庫日志文件進行分析,實時捕獲數(shù)據(jù)庫數(shù)據(jù)的變化情況,此方式速度較快,對源系

40、統(tǒng)不會造成太大的壓力,但需要數(shù)據(jù)庫本身的功能進行實現(xiàn),目前只支持Oracle和DB2兩種數(shù)據(jù)庫類型。上面兩種方式是數(shù)據(jù)集成引擎主動捕獲變化數(shù)據(jù),而下面的兩種方式則是數(shù)據(jù)集成引擎被動接收源系統(tǒng)的通知:1) 變更數(shù)據(jù)訂閱(Change Data Subscriber):通過消息隊列技術,變化數(shù)據(jù)捕獲功能在數(shù)據(jù)源應用提供的基于JMS標準的消息隊列上訂閱數(shù)據(jù)的變化消息,通過監(jiān)聽數(shù)據(jù)變更隊列,實時獲得數(shù)據(jù)源應用放到隊列中的數(shù)據(jù)變化消息,此方式的提取速度快,并且JMS消息隊列提供了消息傳輸?shù)母呖煽啃裕珜崟r性取決于數(shù)據(jù)源應用,并且數(shù)據(jù)源應用需要開發(fā)相應的功能來實現(xiàn)。2) 數(shù)據(jù)變化通知(Data Chang

41、e Notification):和變更數(shù)據(jù)訂閱相同的原理,數(shù)據(jù)變化通知技術是通過暴露數(shù)據(jù)變化通知的Web Service接口給數(shù)據(jù)源應用,當數(shù)據(jù)的變化被數(shù)據(jù)源應用捕獲后,數(shù)據(jù)源應用調(diào)用通知接口把變化的數(shù)據(jù)傳遞給數(shù)據(jù)變化捕獲功能,此方式提取速度快,并且可通過ESB統(tǒng)一暴露服務接口,消息傳輸可靠性也可以通過ESB的獲得支持(需要ESB的實現(xiàn)支持此功能),但實時性同樣取決于數(shù)據(jù)源應用,需要數(shù)據(jù)源應用做相應的開發(fā)。對比主動和被動捕獲的幾種實現(xiàn),主動捕獲技術更適用于數(shù)據(jù)源是關系數(shù)據(jù)庫并且數(shù)據(jù)變化不需要進行邏輯處理的情況;而當數(shù)據(jù)源不是關系數(shù)據(jù)庫又或者數(shù)據(jù)的變化后需要進行邏輯處理,不能直接通過數(shù)據(jù)庫觸發(fā)器

42、或者日志分析進行判斷數(shù)據(jù)是否發(fā)生變化的情況下,則需要改造數(shù)據(jù)源,使用被動捕獲技術來實現(xiàn)。在數(shù)據(jù)共享中心中,為減少對數(shù)據(jù)源的影響和改造,建議主要通過數(shù)據(jù)庫觸發(fā)器和數(shù)據(jù)庫日志采集這兩種方式來實現(xiàn)實時/準實時數(shù)據(jù)提取。數(shù)據(jù)質(zhì)量檢查在數(shù)據(jù)集成引擎中的數(shù)據(jù)質(zhì)量檢查(Data Quality Check)功能是數(shù)據(jù)質(zhì)量的第一道防火墻,在數(shù)據(jù)的來源入口根據(jù)元數(shù)據(jù)模型中設定的數(shù)據(jù)檢查規(guī)則對從數(shù)據(jù)源中提取的最原始數(shù)據(jù)進行規(guī)則驗證,當某條數(shù)據(jù)記錄不符合檢查規(guī)則,會被數(shù)據(jù)質(zhì)量檢查工具自動標記為問題數(shù)據(jù),同時在質(zhì)量問題表中對引起質(zhì)量問題的原因和出現(xiàn)問題的數(shù)據(jù)記錄進行記錄。數(shù)據(jù)質(zhì)量檢查功能實現(xiàn)的檢查規(guī)則類型可分為數(shù)據(jù)約

43、束檢查和業(yè)務規(guī)則檢查,具體如下:(一)數(shù)據(jù)約束檢查:基本數(shù)據(jù)約束,如:人員名稱不能為空唯一性約束,如:人員身份證號碼不能相同有效引用約束等(二)業(yè)務規(guī)則檢查數(shù)據(jù)約束檢查可通過關系數(shù)據(jù)庫約束實現(xiàn),而業(yè)務規(guī)則檢查需要執(zhí)行SQL查詢分析才能完成,而由于數(shù)據(jù)質(zhì)量檢查功能是在數(shù)據(jù)整合的過程中執(zhí)行,只能做到事前控制,并且是使用關系數(shù)據(jù)庫提供的功能進行檢查,復雜的數(shù)據(jù)質(zhì)量問題檢測或者要在多個數(shù)據(jù)源的數(shù)據(jù)集成后(事后控制)才能進行檢查的問題則需要在數(shù)據(jù)質(zhì)量服務器中的質(zhì)量檢測服務中執(zhí)行或檢測。數(shù)據(jù)轉換清洗數(shù)據(jù)集成引擎把各個數(shù)據(jù)源的數(shù)據(jù)提取后進行了集中存儲共享,并建立唯一的數(shù)據(jù)標準,使用一致的方式向應用提供數(shù)據(jù);

44、實際情況中,集中存儲和共享的數(shù)據(jù)數(shù)據(jù)模型和數(shù)據(jù)源的模型大部分情況下都不會完全一致,這就需要在數(shù)據(jù)源的數(shù)據(jù)進入到目標數(shù)據(jù)庫前進行轉換或被清除掉不需要和無效的數(shù)據(jù)。數(shù)據(jù)轉換清洗功能根據(jù)元數(shù)據(jù)模型中定義的轉換和清洗規(guī)則進行數(shù)據(jù)自動轉換清洗。目標數(shù)據(jù)加載目標數(shù)據(jù)加載(Target Data Loading)把經(jīng)過了質(zhì)量檢查、數(shù)據(jù)轉換與清洗后的數(shù)據(jù)加載到目標數(shù)據(jù)庫中進行存儲。目標數(shù)據(jù)存儲可以是標準的關系型數(shù)據(jù)庫或者數(shù)據(jù)文件(如XML、Excel等),在此方案建議書中使用Oracle關系數(shù)據(jù)庫作為數(shù)據(jù)集成的目標數(shù)據(jù)存儲庫。質(zhì)量檢測數(shù)據(jù)質(zhì)量檢測是數(shù)據(jù)共享中心數(shù)據(jù)質(zhì)量控制的核心,負責數(shù)據(jù)質(zhì)量問題的檢測與收集,

45、當檢測到質(zhì)量問題時,產(chǎn)生相應的事件并進行事件記錄與通知,讓用戶可以快速和直觀的了解到數(shù)據(jù)產(chǎn)生了質(zhì)量問題并進行及時處理;對于系統(tǒng)可以按規(guī)則設定進行自動修正的質(zhì)量問題,數(shù)據(jù)質(zhì)量管理內(nèi)置的自動數(shù)據(jù)修正(Auto Data Correct)功能將自動修正并記錄修正日志。上圖中的質(zhì)量檢測服務提供數(shù)據(jù)質(zhì)量問題的自動檢測功能,通過調(diào)用數(shù)據(jù)質(zhì)量規(guī)則引擎執(zhí)行預設的規(guī)則或者通過定制開發(fā)的檢測代碼,定時掃描檢測目標數(shù)據(jù)庫中的數(shù)據(jù),當發(fā)現(xiàn)問題后如果可以進行自動修正則調(diào)用自動數(shù)據(jù)修正功能進行修正,否則直接通知質(zhì)量監(jiān)控引擎,告知產(chǎn)生一個質(zhì)量問題事件。數(shù)據(jù)質(zhì)量規(guī)則引擎是自動質(zhì)量檢測和自動數(shù)據(jù)修正的基礎運行引擎,可支持通過規(guī)

46、則來設定與實現(xiàn)簡單問題的檢測和數(shù)據(jù)修正。質(zhì)量監(jiān)控引擎除了收集質(zhì)量檢測服務產(chǎn)生的質(zhì)量事件,同時也會監(jiān)控其他模塊檢測到的質(zhì)量問題記錄(如數(shù)據(jù)集成引擎中的數(shù)據(jù)質(zhì)量檢查)并轉化為統(tǒng)一的質(zhì)量事件,通過分析后,設定事件的等級、處理人等信息,然后進行事件處理(記錄和告警)下面對幾部分的功能進行詳細描述。質(zhì)量監(jiān)控引擎質(zhì)量監(jiān)控引擎不負責具體的質(zhì)量問題檢測,而是對分布在各個環(huán)節(jié)中被檢測出來的問題進行統(tǒng)一收集,經(jīng)過分析處理,封裝為統(tǒng)一的質(zhì)量事件,并對事件進行處理。(1)質(zhì)量事件收集在整個數(shù)據(jù)共享中心中有兩個環(huán)節(jié)會產(chǎn)生質(zhì)量問題,一個是數(shù)據(jù)集成引擎中的數(shù)據(jù)質(zhì)量檢查功能,該功能會在檢測到質(zhì)量問題后把問題描述保存在數(shù)據(jù)庫中

47、的錯誤表中;另外一個事下面提到的同樣是在數(shù)據(jù)質(zhì)量服務器中內(nèi)置的功能“質(zhì)量檢測服務”,該功能根據(jù)質(zhì)量規(guī)則引擎的規(guī)則定期執(zhí)行質(zhì)量檢測,發(fā)現(xiàn)問題后也會把問題描述存放在質(zhì)量問題表中。事件收集提供主動監(jiān)測和被動監(jiān)聽兩種模式來收集質(zhì)量問題并產(chǎn)生質(zhì)量事件。對于數(shù)據(jù)集成引擎中的質(zhì)量問題,事件收集功能使用主動監(jiān)測模式,準實時的掃描數(shù)據(jù)庫中的錯誤表,一旦發(fā)現(xiàn)新的錯誤產(chǎn)生,馬上捕獲并進行處理。對于數(shù)據(jù)質(zhì)量服務器中的質(zhì)量檢測服務,事件收集功能使用被動監(jiān)聽模式,接受質(zhì)量檢測服務報告的質(zhì)量問題,一旦收到信的通知,馬上進行處理。除了內(nèi)置的兩種問題收集的實現(xiàn),質(zhì)量監(jiān)控引擎的時間收集模型還提供了可擴展的主動監(jiān)測開發(fā)接口和面向其

48、他模塊或者應用的監(jiān)聽接口,主動監(jiān)測使用API的方式進行擴展開發(fā),而監(jiān)聽接口通過準實時掃描標準的質(zhì)量事件隊列表的方式實現(xiàn),其他模塊或者外部應用如果需要向數(shù)據(jù)質(zhì)量服務器報告質(zhì)量事件,直接通過數(shù)據(jù)庫訪問接口在質(zhì)量事件監(jiān)聽表插入記錄即可。(2)質(zhì)量事件分析事件一旦被收集馬上被創(chuàng)建并轉到事件分析模塊中進行分析,事件分析模塊根據(jù)事件關聯(lián)的數(shù)據(jù)實體找到該數(shù)據(jù)實體的質(zhì)量元數(shù)據(jù),分析出事件的嚴重等級、事件的處理人、事件的處理動作(EMAIL或短信通知等)和處理流程等信息,補充完成事件的詳細屬性信息并封裝為完整的事件消息轉交給事件處理模塊進行處理。系統(tǒng)內(nèi)置一條默認規(guī)則,如果質(zhì)量問題是可以被系統(tǒng)自動修正并且已經(jīng)被質(zhì)

49、量服務器中的自動修正功能進行修正,那么該事件不需要后續(xù)的處理,只產(chǎn)生信息基本的事件記錄。其他規(guī)則需要用戶在數(shù)據(jù)管理系統(tǒng)中數(shù)據(jù)管控模塊的質(zhì)量管理功能中進行設置。(3)質(zhì)量事件處理事件處理模塊完成提供兩個功能,一個是往數(shù)據(jù)管理系統(tǒng)中的質(zhì)量事件通知表中保存事件的詳細記錄;另外一個是根據(jù)事件分析模塊中獲取到的事件處理動作信息執(zhí)行事件處理動作。此方案建議實現(xiàn)以下三種類型的事件處理動作:1.發(fā)送郵件2.發(fā)送短信3.發(fā)送代辦質(zhì)量規(guī)則引擎質(zhì)量規(guī)則引擎(Quality Rule Engine)中的質(zhì)量規(guī)則分為問題檢測規(guī)則和數(shù)據(jù)修正規(guī)則,規(guī)則引擎能根據(jù)配置的規(guī)則或簡單的編碼就可進行自動問題檢測和自動數(shù)據(jù)修正,而無

50、須全部重新開發(fā)。對單條數(shù)據(jù)的基本約束規(guī)則檢查,如屬性是否為空,某字段是否符合范圍等都在數(shù)據(jù)集成引擎中的數(shù)據(jù)質(zhì)量檢查功能完成,質(zhì)量規(guī)則引擎執(zhí)行的是事后檢查,也就是數(shù)據(jù)已經(jīng)經(jīng)過基本檢查并抽取到目標庫后,規(guī)則引擎才通過質(zhì)量檢測服務的定期調(diào)度,對數(shù)據(jù)執(zhí)行問題分析。在本次建設范圍內(nèi),質(zhì)量規(guī)則引擎會內(nèi)置實現(xiàn)一些通過配置即可完成質(zhì)量檢查的規(guī)則實現(xiàn);同時提供可擴展的開發(fā)模型,使得復雜的業(yè)務規(guī)則可以通過擴展開發(fā)來完成檢測和數(shù)據(jù)修正,具體提供的功能如下:(1)內(nèi)置實現(xiàn)規(guī)則內(nèi)置實現(xiàn)規(guī)則按使用和數(shù)據(jù)檢測修正邏輯的復雜度分為基本規(guī)則和高級規(guī)則,基本規(guī)則面向普通用戶,使用上較為具體,如重復數(shù)據(jù)記錄識別規(guī)則,參數(shù)的配置也較

51、為簡單,高級規(guī)則面向?qū)I(yè)用戶或者維護人員,較為抽象,如下面提到的自定義公式規(guī)則,提供了強大和靈活的自定義質(zhì)量檢測與數(shù)據(jù)修正功能,相對基本規(guī)則來說,使用上也較為專業(yè),下面分別對基本規(guī)則和高級規(guī)則支持的功能進行介紹:l 基本規(guī)則n 檢測規(guī)則編號規(guī)則名稱規(guī)則說明1重復數(shù)據(jù)記錄識別規(guī)則根據(jù)配置的數(shù)據(jù)實體屬性(可配置多個)的值完全相同來判斷數(shù)據(jù)是否重復2數(shù)值內(nèi)容匹配檢查規(guī)則如果數(shù)據(jù)的某些字段等于、大于、小于或者包含指定的內(nèi)容,那么認為該記錄存在質(zhì)量問題3n 修正規(guī)則編號規(guī)則名稱規(guī)則說明1更改數(shù)據(jù)字段的值為固定內(nèi)容可修改數(shù)據(jù)記錄中的一個或多個字段的數(shù)值為指定的內(nèi)容2執(zhí)行刪除對數(shù)據(jù)記錄進行硬刪除或者軟刪除3

52、l 高級規(guī)則質(zhì)量規(guī)則引擎內(nèi)置實現(xiàn)了基于元數(shù)據(jù)的自定義公式質(zhì)量規(guī)則,用戶或者開發(fā)人員通過表達式編輯工具或者手工編寫表達式的方式可實現(xiàn)常規(guī)的質(zhì)量自動檢測和自動數(shù)據(jù)修正功能。自定義公式質(zhì)量規(guī)則分為設計時(Design Time)和運行時(Runtime)功能,設計時面向最終用戶或者維護人員,提供統(tǒng)一的規(guī)則配置模型,而運行時則根據(jù)執(zhí)行環(huán)境分為數(shù)據(jù)庫運行時和應用運行時。自定義公式規(guī)則的規(guī)則配置模型按數(shù)據(jù)檢測和數(shù)據(jù)修正的用途而分為條件表達式配置和計算表達式配置,條件表達式用于判斷數(shù)據(jù)是否符合設定的條件(檢測),而計算表達式用于設定數(shù)據(jù)的數(shù)值如何計算(修正);統(tǒng)一的規(guī)則配置是指表達式是基于標準的數(shù)學公式來進

53、行設定和展現(xiàn)。自定義公式質(zhì)量規(guī)則運行時指公式規(guī)則的運行是在什么環(huán)境中執(zhí)行,由于數(shù)據(jù)共享中心的數(shù)據(jù)都存放在數(shù)據(jù)庫中,所以自定義公式質(zhì)量規(guī)則運行時內(nèi)置支持在數(shù)據(jù)庫中運行,數(shù)據(jù)庫運行時負責把統(tǒng)一的數(shù)據(jù)公式翻譯為數(shù)據(jù)庫可執(zhí)行的SQL語句,然后在數(shù)據(jù)庫中執(zhí)行。(2)擴展開發(fā)支持質(zhì)量規(guī)則引擎設計上是基于接口的設計和開發(fā),其核心的功能不實現(xiàn)任何檢測和修正規(guī)則,只完成對外調(diào)用接口的實現(xiàn)(如給質(zhì)量檢測服務和自動數(shù)據(jù)修正功能進行調(diào)用),當出現(xiàn)內(nèi)置規(guī)則不能支持的復雜檢測或者修正規(guī)則時,可重新擴展開發(fā)新的規(guī)則,基本規(guī)則或高級規(guī)則都可進行擴展,實現(xiàn)上沒有區(qū)別。通過擴展開發(fā)支持,即使將來引入了第三方的強大的規(guī)則引擎,也可

54、以在數(shù)據(jù)共享中心中實現(xiàn)的質(zhì)量管理模型上進行統(tǒng)一調(diào)度、檢測和管理。質(zhì)量檢測服務質(zhì)量檢測服務是一個調(diào)度程序,按照系統(tǒng)設定的時間周期定期對各個業(yè)務實體的數(shù)據(jù)記錄執(zhí)行檢測規(guī)則并捕獲檢測規(guī)則返回的結果,判斷是否存在符合檢測規(guī)則的質(zhì)量問題,如果發(fā)現(xiàn)出現(xiàn)問題,再判斷該質(zhì)量檢測規(guī)則是否關聯(lián)了自動修正規(guī)則,如果是,那么調(diào)用自動數(shù)據(jù)修正功能并傳入修正規(guī)則和問題數(shù)據(jù)信息對問題進行自動修正。每次調(diào)用執(zhí)行完成后,質(zhì)量檢測服務把執(zhí)行的結果,是否出現(xiàn)問題,問題原因,執(zhí)行時間,是否進行修正,修正動作等信息保存在質(zhì)量檢測問題表中進行日志記錄。自動數(shù)據(jù)修正自動數(shù)據(jù)修正功能是一個控制程序,由質(zhì)量檢測服務進行調(diào)用,其功能是調(diào)用質(zhì)量規(guī)

55、則引擎執(zhí)行自動修正規(guī)則,傳入規(guī)則執(zhí)行所需的參數(shù)數(shù)據(jù),執(zhí)行完成后把結果返回給質(zhì)量檢測服務進行后續(xù)處理。數(shù)據(jù)管控數(shù)據(jù)管控是指對一個企業(yè)數(shù)據(jù)的可用性、實用性、完整性和安全性等的全面管理。一個有效的數(shù)據(jù)管控包括一個管控主體、定義好的一組程序和一個執(zhí)行這組程序的計劃。簡要的說,數(shù)據(jù)管控的定義可以理解成對所有信息相關過程進行決策和管理。數(shù)據(jù)管控功能主要包括元數(shù)據(jù)管理、質(zhì)量管理、數(shù)據(jù)管理和統(tǒng)計分析。元數(shù)據(jù)管理(1)元數(shù)據(jù)維護元數(shù)據(jù)維護提供對元數(shù)據(jù)的增加、刪除、修改等基本操作。另外,還應支持實體和實體關系的建模、數(shù)據(jù)處理過程描述等功能。對于元數(shù)據(jù)的增量維護,要求能保留歷史版本信息。在實施元數(shù)據(jù)維護操作的過程中

56、,需要對這部分操作的過程進行一定的約束和限制。元數(shù)據(jù)定義為如下的四種狀態(tài):審核狀態(tài) 對于需要進行維護的元數(shù)據(jù),首先進入審核狀態(tài),等待審核人員的核查,確定該元數(shù)據(jù)是否需要進行修改;公示狀態(tài) 審核通過后,進入公示狀態(tài),即處于對元數(shù)據(jù)定義征求意見的狀態(tài),尚未最后定稿,公示狀態(tài)有一定的期限要求;發(fā)布狀態(tài) 公示狀態(tài)到期后,根據(jù)在公示狀態(tài)期間回饋的意見,給出元數(shù)據(jù)維護的準確方案,進入發(fā)布狀態(tài);維護狀態(tài) 發(fā)布狀態(tài)結束后,相關元數(shù)據(jù)進入維護狀態(tài),對相關元數(shù)據(jù)的維護需要保留其歷史版本信息。(2)實體查詢實體查詢指對元數(shù)據(jù)庫中的數(shù)據(jù)實體基本信息進行查詢的功能,通過該功能可以查詢數(shù)據(jù)庫表、維表、指標及其它納入管理實體的基本信息,查詢的信息按處理的層次及業(yè)務主題進行組織,實體查詢返回實體及其所屬的相關信息。實體查詢要求能支持對歷史版本信息的查詢,以了解具體實體的歷史變更情況。(3)過程查詢過程查詢是針對具體的數(shù)據(jù)轉換、匯總等處理過程,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論