大數(shù)據(jù)治理管理平臺解決方案相關兩份資料_第1頁
大數(shù)據(jù)治理管理平臺解決方案相關兩份資料_第2頁
大數(shù)據(jù)治理管理平臺解決方案相關兩份資料_第3頁
大數(shù)據(jù)治理管理平臺解決方案相關兩份資料_第4頁
大數(shù)據(jù)治理管理平臺解決方案相關兩份資料_第5頁
已閱讀5頁,還剩94頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

大數(shù)據(jù)治理管理平臺解決方案目錄CONTENTS背景與需求分析功能框架設計平臺功能設計010302PARTONE01背景與需求分析背景與需求分析1.發(fā)展背景2.架構(gòu)需求分析3.需求分析背景與需求分析1.發(fā)展背景2.架構(gòu)需求分析3.需求分析

建立自身的統(tǒng)一技術棧:建立中心技術棧準入標準,一方面保障整體技術架構(gòu)中組件的標準性,避免因為版本不一致和功能特性相近,增加不必要的運維成本,另外一方面,減少因為架構(gòu)中采用組件的選型調(diào)整,增加不必要的集成開發(fā)工作。技術棧中的組件會持續(xù)補充完善,通過POC測試后,并經(jīng)過專家委員會集體論證,且符合準入標準,才準許對應技術組件進入到統(tǒng)一技術棧。開放架構(gòu)平臺本身具備模塊化開放和集成能力,平臺功能所對應的技術組件避免被某一家集成開發(fā)廠商捆綁,或者被某個單一組件產(chǎn)品捆綁。架構(gòu)的先進性技術架構(gòu)中的技術組件選型,從技術成熟度、性能、穩(wěn)定性、持續(xù)研發(fā)升級、使用后業(yè)內(nèi)評價、易維護性、適配性等方面做出考量,為架構(gòu)選型提供參考,保證整體架構(gòu)中的組件的先進性。架構(gòu)的高可用在長時間、多任務場景下的穩(wěn)定運行。在計算機硬件、操作系統(tǒng)、存儲系統(tǒng)及應用系統(tǒng)業(yè)務進程出現(xiàn)故障時能迅速響應并進行任務的切換;某一節(jié)點出現(xiàn)故障時,其他節(jié)點應能夠自動分擔故障節(jié)點的處理任務,保證服務持續(xù)可用。010302數(shù)據(jù)治理管理平臺-需求分析1.發(fā)展背景2.架構(gòu)需求分析3.需求分析

數(shù)據(jù)治理管理平臺基于元模型驅(qū)動模式,構(gòu)建一體化的數(shù)據(jù)資產(chǎn)管控,實現(xiàn)全流程、全生命周期和全景式的“三全”治理,確保每一份數(shù)據(jù)資產(chǎn)皆可靠、可信、可用。

通過對數(shù)據(jù)、應用、系統(tǒng)綜合管理,構(gòu)建標準化、流程化、自動化、一體化的數(shù)據(jù)管理體系。PARTTWO02功能架構(gòu)設計子平臺關系定位1.子平臺關系定位2.功能架構(gòu)功能架構(gòu)數(shù)據(jù)平臺數(shù)據(jù)資源管理數(shù)據(jù)加工處理數(shù)據(jù)質(zhì)量管理質(zhì)量模型方案配置規(guī)則管理質(zhì)檢報告數(shù)據(jù)質(zhì)檢質(zhì)量統(tǒng)計數(shù)據(jù)標準管理元數(shù)據(jù)管理分類管理數(shù)據(jù)元管理標準代碼配置常用規(guī)則配置元數(shù)據(jù)自動獲取元數(shù)據(jù)維護元數(shù)據(jù)掃描元數(shù)據(jù)檢索元數(shù)據(jù)版本權(quán)限管理及查詢元數(shù)據(jù)導入/導出元數(shù)據(jù)分析基礎標簽管理標簽關系展現(xiàn)元數(shù)據(jù)管理數(shù)據(jù)資產(chǎn)資產(chǎn)目錄資產(chǎn)地圖資產(chǎn)總覽資產(chǎn)報告實時數(shù)據(jù)管理流數(shù)據(jù)處理實時采集流數(shù)據(jù)計算模型管理流數(shù)據(jù)計算公共模型開發(fā)流數(shù)據(jù)引擎流數(shù)據(jù)計算結(jié)果接口開發(fā)流數(shù)據(jù)計算模型查詢支持流媒體采集及轉(zhuǎn)發(fā)管理數(shù)據(jù)集成管理異常數(shù)據(jù)分析數(shù)據(jù)建模配置集成方案管理數(shù)據(jù)來源統(tǒng)計數(shù)據(jù)架構(gòu)管理數(shù)據(jù)架構(gòu)定義業(yè)務架構(gòu)管理存儲架構(gòu)管理數(shù)據(jù)異常管理異常對接管理人工處理管理異常處理統(tǒng)計分析異常問題列表實時數(shù)據(jù)質(zhì)量管理系統(tǒng)處理管理數(shù)據(jù)質(zhì)量定制化開發(fā)數(shù)據(jù)開發(fā)管理數(shù)據(jù)開發(fā)管理統(tǒng)一調(diào)度管理統(tǒng)一調(diào)度管理數(shù)據(jù)標準管理監(jiān)控運維運維任務實時分析數(shù)據(jù)運維定制化開發(fā)運維概覽監(jiān)控告警統(tǒng)一流程管理平臺運維定制化開發(fā)數(shù)據(jù)分級1.子平臺關系定位2.功能架構(gòu)PARTTWO03平臺功能設計數(shù)據(jù)資源管理1.數(shù)據(jù)標準管理2.元數(shù)據(jù)管理3.數(shù)據(jù)分級分類管理4.數(shù)據(jù)資產(chǎn)管理通過對數(shù)據(jù)標準管理、落地實施機制、及數(shù)據(jù)標準管理平臺維護三部分進行數(shù)據(jù)資源管理,制定數(shù)據(jù)標準管理制度和流程,明確數(shù)據(jù)標準管理組織和職責,以明確的組織、職責、流程設計。落地實施機制從規(guī)范推廣、技術平臺支撐兩方面保障;數(shù)據(jù)標準平臺維護主要包括建設數(shù)據(jù)標準技術平臺,支撐數(shù)據(jù)標準日常管理工作兩方面。支持數(shù)據(jù)元版本管理及版本之間的差異核對功能以及支持基于基礎庫、主題庫的元數(shù)據(jù)快速創(chuàng)建標準數(shù)據(jù)元,并建立和相關元數(shù)據(jù)的關聯(lián)關系數(shù)據(jù)元管理數(shù)據(jù)元刪除數(shù)據(jù)元檢索數(shù)據(jù)元停用數(shù)據(jù)元導入數(shù)據(jù)元修改數(shù)據(jù)源發(fā)布數(shù)據(jù)元新增支持代碼的分類、標準代碼項的新增、導入、導出功能,提供了標準代碼維護的能力;標準代碼配置新增導入導出可關聯(lián)到國標、地標代碼字典通過固定的值組成規(guī)則來規(guī)范數(shù)據(jù)源值的格式,例如身份證、電話號碼、電子郵箱等格式。常用規(guī)則配置通用規(guī)則實際制定規(guī)則常用規(guī)則配置會針對公共數(shù)據(jù)的特性內(nèi)置部分常用的規(guī)則,同時提供了規(guī)則的配置修改能力數(shù)據(jù)資源管理1.數(shù)據(jù)標準管理2.元數(shù)據(jù)管理3.數(shù)據(jù)分級分類管理4.數(shù)據(jù)資產(chǎn)管理通過對數(shù)據(jù)整合的層次結(jié)構(gòu)、主題域劃分,實現(xiàn)各層的各種對象,如表、存儲過程、索引、數(shù)據(jù)鏈、函數(shù)和包等的管理。清晰的表示各層次結(jié)構(gòu)之間的數(shù)據(jù)流程、各對象之間的關系,以及向外提供的各類數(shù)據(jù)服務的信息。元數(shù)據(jù)管理元數(shù)據(jù)管理包括元數(shù)據(jù)基礎數(shù)據(jù)管理和元數(shù)據(jù)應用,由元數(shù)據(jù)自動獲取、元數(shù)據(jù)檢索、數(shù)據(jù)模型管理、元數(shù)據(jù)管理、血緣關系等功能組成等。元數(shù)據(jù)自動獲取元數(shù)據(jù)維護元數(shù)據(jù)掃描元數(shù)據(jù)檢索元數(shù)據(jù)版本權(quán)限管理及查詢元數(shù)據(jù)的導入/導出配置自動獲取策略和調(diào)度時間等,使元數(shù)據(jù)能夠按預設的調(diào)度策略觸發(fā)相應的元數(shù)據(jù)自動獲取過程,滿足元數(shù)據(jù)自動獲取的時效性。包括元數(shù)據(jù)的定義、變更及版本管理,對主機信息、數(shù)據(jù)庫信息、用戶信息、數(shù)據(jù)對象信息、業(yè)務規(guī)則信息、加工邏輯等進行維護和管控。支持以手動或定時的方式掃描指定的數(shù)據(jù)庫資源,并提取和解析相關的信息在比較掃描數(shù)據(jù)和原有數(shù)據(jù)的差異后自動將差異數(shù)據(jù)維護到指定的元數(shù)據(jù)目錄。在元數(shù)據(jù)管理首頁用戶通過輸入關鍵字后,系統(tǒng)采用全文檢索的方式迅速查找和關鍵字匹配的權(quán)限范圍內(nèi)的元數(shù)據(jù)信息,并將信息返回給用戶。用戶能夠通過展示的路徑信息快速定位到元數(shù)據(jù)組織樹上的節(jié)點。版本管理分為元數(shù)據(jù)對象版本管理與基線版本管理兩種類型。元數(shù)據(jù)對象版本:對元數(shù)據(jù)的每次提交形成版本(上一版本形成歷史版本),提供歷史版本間,歷史版本與當前版本對比功能;基線版本:對某一階段產(chǎn)生的元數(shù)據(jù)對象形成數(shù)據(jù)集,提供不同階段產(chǎn)生的數(shù)據(jù)集的版本比較。統(tǒng)一實現(xiàn)數(shù)據(jù)庫的訪問和操作管控,對用戶進行角色權(quán)限、對象權(quán)限、數(shù)據(jù)權(quán)限等方面的管控和查詢;統(tǒng)一實現(xiàn)數(shù)據(jù)庫的訪問和操作管控,對用戶進行角色權(quán)限、對象權(quán)限、數(shù)據(jù)權(quán)限等方面的管控和查詢;數(shù)據(jù)資源管理1.數(shù)據(jù)標準管理2.元數(shù)據(jù)管理3.數(shù)據(jù)分級分類管理4.數(shù)據(jù)資產(chǎn)管理通過對數(shù)據(jù)整合的層次結(jié)構(gòu)、主題域劃分,實現(xiàn)各層的各種對象,如表、存儲過程、索引、數(shù)據(jù)鏈、函數(shù)和包等的管理。清晰的表示各層次結(jié)構(gòu)之間的數(shù)據(jù)流程、各對象之間的關系,以及向外提供的各類數(shù)據(jù)服務的信息。元數(shù)據(jù)分析元數(shù)據(jù)分析算法包括以網(wǎng)狀模式展示對象等血緣關系和以父子依賴關系展示對象等有向血緣關系。影響性分析重要性分析無關性分析●包括血統(tǒng)分析和影響分析兩類,以便于掌握和追溯對象變更時的緣由和影響關系?!裨獢?shù)據(jù)對象和對象之間以連線方式表現(xiàn)出血緣分析的結(jié)果?!裢ㄟ^分析各元數(shù)據(jù)對象之間的關聯(lián)密集度及數(shù)據(jù)資源平臺中各層次的包、表等對象的重要程度,指導數(shù)據(jù)資源平臺開發(fā)和維護團隊對重點元數(shù)據(jù)進行重點關注和質(zhì)量監(jiān)控。●通過系統(tǒng)的規(guī)模不斷擴大,業(yè)務需求的變化,會產(chǎn)生無關數(shù)據(jù)、信息和報表,這些無關的內(nèi)容,結(jié)合業(yè)務需求分析其產(chǎn)生的根源,從而為用戶簡化工作負載,降低項目總擁有成本,為用戶提供可信賴的數(shù)據(jù)和分析能力。數(shù)據(jù)資源管理1.數(shù)據(jù)標準管理2.元數(shù)據(jù)管理3.數(shù)據(jù)分級分類管理4.數(shù)據(jù)資產(chǎn)管理

在數(shù)據(jù)資源的分類管理中,平臺按照數(shù)據(jù)資源的生命周期對數(shù)據(jù)資源進行分層,即輸入層、加工層和輸出層。輸入層是指數(shù)據(jù)從各個數(shù)據(jù)源抽取到大數(shù)據(jù)平臺,輸出層是指大數(shù)據(jù)平臺數(shù)據(jù)輸出到外部渠道或渠道,加工層指數(shù)據(jù)在大數(shù)據(jù)平臺內(nèi)進行加工處理的過程?;A標簽管理在設置的基礎標簽進行呈現(xiàn)列表形式將所有的基礎標簽一一列出,并可以按照熱度進行排序智能推薦形式是指根據(jù)最近時間段內(nèi)的標簽的訪問頻率、搜索頻率等,以輪播的形式循環(huán)展現(xiàn)熱門標簽的功能。標簽關系管理

通過標簽將相關聯(lián)的數(shù)據(jù)目錄關聯(lián)在動圖中展現(xiàn)給用戶,形成豐富數(shù)據(jù)盛筵的展示效果,做到通過一張圖就可以將某一條數(shù)據(jù)的關聯(lián)數(shù)據(jù)、以及數(shù)據(jù)之間的關系全部展示出來的功能。數(shù)據(jù)資源管理1.數(shù)據(jù)標準管理2.元數(shù)據(jù)管理3.數(shù)據(jù)分級分類管理4.數(shù)據(jù)資產(chǎn)管理通過對數(shù)據(jù)資產(chǎn)的治理,讓系統(tǒng)數(shù)據(jù)更加準確、一致、完整、安全,降低IT成本;針對數(shù)據(jù)資產(chǎn)應用使得系統(tǒng)數(shù)據(jù)的使用過程更為人性、便捷、智能,從而提升管理決策水平。關于數(shù)據(jù)資產(chǎn)運營是支持系統(tǒng)數(shù)據(jù)資產(chǎn)的分發(fā)、開發(fā)、交易等數(shù)據(jù)嫁接的實現(xiàn)。從而促進數(shù)據(jù)資產(chǎn)的價值實現(xiàn)。數(shù)據(jù)資產(chǎn)資產(chǎn)管理主要是針對數(shù)據(jù)資產(chǎn)類目編制的過程梳理、明確職責等內(nèi)容,同時也可以對數(shù)據(jù)表的元數(shù)據(jù)信息進行有效管理資產(chǎn)總覽從數(shù)據(jù)規(guī)模、類目分布、熱門訪問等多個角度,對數(shù)據(jù)資源平臺上的數(shù)據(jù)資產(chǎn)狀況進行全景式展現(xiàn)。資產(chǎn)目錄對平臺元數(shù)據(jù)的有序組織,是記錄數(shù)據(jù)體系的保障數(shù)據(jù)類目是目錄信息與服務、保障與支撐所組成的一個整體針對資產(chǎn)的合理組織,需要對資產(chǎn)進行對應分類資產(chǎn)報告針對整體平臺上的對應數(shù)據(jù),提供定周期了解其對應資產(chǎn)情況,對總體資產(chǎn)情況進行分析。資產(chǎn)地圖通過元數(shù)據(jù)信息收集、數(shù)據(jù)血緣探查、數(shù)據(jù)權(quán)限申請授權(quán)等手段,幫助數(shù)據(jù)資源平臺完成數(shù)據(jù)信息的收集和管理,解決數(shù)據(jù)資源平臺數(shù)據(jù)開發(fā)者有哪些數(shù)據(jù)可用、到哪里可以找到數(shù)據(jù)的難題,并且提升數(shù)據(jù)資源的利用率。實時數(shù)據(jù)管理提供針對實時數(shù)據(jù)的元數(shù)據(jù)管理功能,包括:元數(shù)據(jù)采集、元數(shù)據(jù)存儲、元數(shù)據(jù)運維、數(shù)據(jù)質(zhì)量檢查、元數(shù)據(jù)分析、權(quán)限管理、數(shù)據(jù)生命周期管理、元數(shù)據(jù)服務。數(shù)據(jù)加工處理1.流數(shù)據(jù)處理2.數(shù)據(jù)集成管理3.數(shù)據(jù)架構(gòu)管理4.數(shù)據(jù)異常管理5.數(shù)據(jù)開發(fā)管理6.統(tǒng)一調(diào)度管理7.數(shù)據(jù)運維管理1.實時采集2.流數(shù)據(jù)引擎3.流數(shù)據(jù)計算模型管理4.流數(shù)據(jù)計算公共模型開發(fā)流數(shù)據(jù)的處理過程:數(shù)據(jù)實時采集;數(shù)據(jù)實時計算;數(shù)據(jù)實時查詢服務;支持的數(shù)據(jù)源類型可以分為以下四類:●網(wǎng)絡協(xié)議數(shù)據(jù)源,包括Socket、JMS、HTTP、HTTPS等常見類型的網(wǎng)絡協(xié)議?!癖?異地文件數(shù)據(jù)源,包括目錄掃描、文本文件,F(xiàn)TP,SDTP等數(shù)據(jù)?!穹植际轿募到y(tǒng)數(shù)據(jù)源,包括HDFS,HBase,Hive等數(shù)據(jù)?!耜P系型數(shù)據(jù)庫數(shù)據(jù)源,包括DB2,Teradata,vertica等數(shù)據(jù)。提供數(shù)據(jù)融合,統(tǒng)計,分析的高速處理能力,對于實時性要求較高的數(shù)據(jù)計算提供支撐的功能提供對已設計完成的數(shù)據(jù)計算模型進行申請,注冊,提交,執(zhí)行,監(jiān)控的統(tǒng)一管理的功能提供對于場景需求較多的數(shù)據(jù)模型可開發(fā)公共模型的功能,公共模型可以供其他用戶調(diào)用,可重復使用的功能數(shù)據(jù)加工處理1.流數(shù)據(jù)處理2.數(shù)據(jù)集成管理3.數(shù)據(jù)架構(gòu)管理4.數(shù)據(jù)異常管理5.數(shù)據(jù)開發(fā)管理6.統(tǒng)一調(diào)度管理7.數(shù)據(jù)運維管理5.流數(shù)據(jù)計算結(jié)果接口開發(fā)6.流數(shù)據(jù)計算模型查詢7.支持流媒體采集及轉(zhuǎn)發(fā)管理流數(shù)據(jù)的處理過程:數(shù)據(jù)實時采集;數(shù)據(jù)實時計算;數(shù)據(jù)實時查詢服務;提供對流數(shù)據(jù)計算結(jié)果接口開發(fā)功能和計算結(jié)果數(shù)據(jù)可通過接口形式供可視化調(diào)用或其他應用的功能提供流數(shù)據(jù)計算模型查詢功能,通過對流數(shù)據(jù)計算模型發(fā)布可以是其他用戶查看計算模型邏輯,進行模型再利用,減少其他用戶開發(fā)工作量的功能針對音頻、視頻等流媒體提供數(shù)據(jù)采集功能,同時配套流媒體數(shù)據(jù)存儲和快速檢索功能,同時需要采集對應流媒體設備的系統(tǒng)參數(shù)、通道參數(shù)、網(wǎng)絡參數(shù)、外設設備參數(shù)、以及外設設備的地理位置等。數(shù)據(jù)加工處理1.流數(shù)據(jù)處理2.數(shù)據(jù)集成管理3.數(shù)據(jù)架構(gòu)管理4.數(shù)據(jù)異常管理5.數(shù)據(jù)開發(fā)管理6.統(tǒng)一調(diào)度管理7.數(shù)據(jù)運維管理

主要在數(shù)據(jù)治理平臺承擔數(shù)據(jù)管道作用,通過數(shù)據(jù)集成現(xiàn)實不通業(yè)務數(shù)據(jù)的匯聚、數(shù)據(jù)中心基礎庫的清洗等流程,通過在線簡單靈活的可視化頁面針對不同的數(shù)據(jù)匯聚、清洗流程進行配置建立,平臺直接對接調(diào)度底層的數(shù)據(jù)傳輸工具進行數(shù)據(jù)管道的打通;實現(xiàn)了數(shù)據(jù)集成建模與數(shù)據(jù)集成匯聚快速、高效流轉(zhuǎn)的全過程。數(shù)據(jù)建模配置集成方案管理數(shù)據(jù)來源統(tǒng)計異常數(shù)據(jù)分析提供數(shù)據(jù)集成中數(shù)據(jù)單元集模型配置,數(shù)據(jù)模型即為數(shù)據(jù)集成中的數(shù)據(jù)單元集;統(tǒng)計集成模型中所有數(shù)據(jù)的來源方向,以及各庫表、各字段的精確來源,并且提供基于領域的快速篩選;通過構(gòu)建的數(shù)據(jù)模型實現(xiàn)多維度的數(shù)據(jù)匯聚、清洗等數(shù)據(jù)處理流程,解決了公共數(shù)據(jù)中大量的數(shù)據(jù)梳理處理工作;基于集成方案,反饋統(tǒng)計分析集成過程中不符合方案中各字段清洗規(guī)則的異常數(shù)據(jù)結(jié)果,同時支持多維度的問題分析以及排查;數(shù)據(jù)加工處理1.流數(shù)據(jù)處理2.數(shù)據(jù)集成管理3.數(shù)據(jù)架構(gòu)管理4.數(shù)據(jù)異常管理5.數(shù)據(jù)開發(fā)管理6.統(tǒng)一調(diào)度管理7.數(shù)據(jù)運維管理

定義全企業(yè)的數(shù)據(jù)架構(gòu),包括數(shù)據(jù)的主題、層次,所涉及的部門、所用到的數(shù)據(jù)庫類型。功能包括數(shù)據(jù)架構(gòu)節(jié)點的增加,刪除。業(yè)務架構(gòu)管理存儲架構(gòu)管理從數(shù)據(jù)架構(gòu)中選擇適合團隊的數(shù)據(jù)架構(gòu),并綁定到團隊,以約束開發(fā)團隊在開發(fā)過程中選擇數(shù)據(jù)架構(gòu)。在異構(gòu)數(shù)據(jù)庫的環(huán)境下,不同的數(shù)據(jù)庫有不同的參數(shù)設置,為減少開發(fā)人員在模型開發(fā)過程中的操作,同時也保障模型在落地到物理環(huán)境的正確性,通過在存儲架構(gòu)中設置默認的參數(shù)配置來保障開發(fā)的準備性。綁定團隊、約束團隊數(shù)據(jù)加工處理1.流數(shù)據(jù)處理2.數(shù)據(jù)集成管理3.數(shù)據(jù)架構(gòu)管理4.數(shù)據(jù)異常管理5.數(shù)據(jù)開發(fā)管理6.統(tǒng)一調(diào)度管理7.數(shù)據(jù)運維管理數(shù)據(jù)異常管理異常對接管理異常問題列表人工處理管理系統(tǒng)處理管理異常處理統(tǒng)計分析實時數(shù)據(jù)質(zhì)量管理數(shù)據(jù)質(zhì)量定制化開發(fā)異常對接管理開發(fā)可以對接數(shù)據(jù)交換總線、數(shù)據(jù)集成總線、數(shù)據(jù)服務總線系統(tǒng)中異常日志模塊的功能。異常問題列表展示異常問題推送并歸類整理異常問題定義規(guī)則忽略提醒人工處理管理指定人員分類授權(quán)針對異常問題所登記的臺賬信息系統(tǒng)處理管理子平臺子平臺子平臺系統(tǒng)處理管理異常信息無需人工干預數(shù)據(jù)加工處理1.流數(shù)據(jù)處理2.數(shù)據(jù)集成管理3.數(shù)據(jù)架構(gòu)管理4.數(shù)據(jù)異常管理5.數(shù)據(jù)開發(fā)管理6.統(tǒng)一調(diào)度管理7.數(shù)據(jù)運維管理數(shù)據(jù)異常管理異常對接管理異常問題列表人工處理管理系統(tǒng)處理管理異常處理統(tǒng)計分析實時數(shù)據(jù)質(zhì)量管理數(shù)據(jù)質(zhì)量定制化開發(fā)異常處理統(tǒng)計分析按照異常分類、處理情況、時間、等級等維度進行分類統(tǒng)計,以圖表的形式展現(xiàn)便于管理人員匯總分析的功能。實時數(shù)據(jù)質(zhì)量管理數(shù)據(jù)質(zhì)量定制化開發(fā)定制質(zhì)量監(jiān)控的規(guī)則自定義擴展規(guī)則能力針對實時流數(shù)據(jù)需要提供數(shù)據(jù)質(zhì)量管理功能,輔助數(shù)據(jù)質(zhì)量管理人員快速定位問題的原因及處理方案。設置維護調(diào)度實時流管理功能優(yōu)化…接口監(jiān)控告警定期生成實時流數(shù)據(jù)的數(shù)據(jù)質(zhì)量評估報告問題數(shù)據(jù)的檢測規(guī)則問題數(shù)據(jù)的清洗回收的方式數(shù)據(jù)加工處理1.流數(shù)據(jù)處理2.數(shù)據(jù)集成管理3.數(shù)據(jù)架構(gòu)管理4.數(shù)據(jù)異常管理5.數(shù)據(jù)開發(fā)管理6.統(tǒng)一調(diào)度管理7.數(shù)據(jù)運維管理

數(shù)據(jù)開發(fā)完成多種環(huán)境的全量與增量數(shù)據(jù)處理能力,簡化開發(fā)過程。統(tǒng)一數(shù)據(jù)開發(fā)入口,支持可視化開發(fā)和原生態(tài)開發(fā)兩種開發(fā)模式,實現(xiàn)原生態(tài)開發(fā)與可視化編排的互相轉(zhuǎn)換,提升開發(fā)效率。數(shù)據(jù)加工處理1.流數(shù)據(jù)處理2.數(shù)據(jù)集成管理3.數(shù)據(jù)架構(gòu)管理4.數(shù)據(jù)異常管理5.數(shù)據(jù)開發(fā)管理6.統(tǒng)一調(diào)度管理7.數(shù)據(jù)運維管理

以一個業(yè)務量生產(chǎn)過程為例。傳統(tǒng)做法是通過接口通信表或時序依賴進行協(xié)同生產(chǎn)。在統(tǒng)一調(diào)度平臺中以數(shù)據(jù)流作為驅(qū)動,通過控制中心進行作業(yè)命令下發(fā),狀態(tài)收集進行控制,達到各個異構(gòu)系統(tǒng),多個子系統(tǒng)的協(xié)同調(diào)度。統(tǒng)一調(diào)度管理流程設計與管理調(diào)度策略管控任務調(diào)度控制標準化控件……作業(yè)/任務管理作業(yè)/任務調(diào)度作業(yè)/任務執(zhí)行采集轉(zhuǎn)換加載調(diào)度監(jiān)控數(shù)據(jù)加工處理1.流數(shù)據(jù)處理2.數(shù)據(jù)集成管理3.數(shù)據(jù)架構(gòu)管理4.數(shù)據(jù)異常管理5.數(shù)據(jù)開發(fā)管理6.統(tǒng)一調(diào)度管理7.數(shù)據(jù)運維管理數(shù)據(jù)運維管理監(jiān)控運維運維概覽運維任務監(jiān)控告警實時分析統(tǒng)一流程管理數(shù)據(jù)運維定制化開發(fā)平臺運維定制化開發(fā)監(jiān)控運維開發(fā)者維護者作業(yè)部署作業(yè)優(yōu)先級數(shù)據(jù)監(jiān)控運維指標數(shù)據(jù)情況任務運行情況監(jiān)控異常情況告警日常運維數(shù)據(jù)統(tǒng)計運維概覽任務完成情況任務運行情況任務執(zhí)行時長排行調(diào)度任務數(shù)量趨勢……運維任務1)提供任務運行狀態(tài)監(jiān)控告警2)提供單任務重跑、多任務重跑、kill、置成功、暫停等操作3)提供列表和DAG兩種模式4)實現(xiàn)針對周期運行、測試運行、手動運行任務查看任務運行狀態(tài)5)實現(xiàn)針對任務進行重跑、停止、查看運行日志、查看節(jié)點代碼、查看節(jié)點屬性。監(jiān)控告警自定義配置告警規(guī)則規(guī)則一規(guī)則二規(guī)則三規(guī)則……告警:任務失敗數(shù)據(jù)加工處理1.流數(shù)據(jù)處理2.數(shù)據(jù)集成管理3.數(shù)據(jù)架構(gòu)管理4.數(shù)據(jù)異常管理5.數(shù)據(jù)開發(fā)管理6.統(tǒng)一調(diào)度管理7.數(shù)據(jù)運維管理數(shù)據(jù)運維管理監(jiān)控運維運維概覽運維任務監(jiān)控告警實時分析統(tǒng)一流程管理數(shù)據(jù)運維定制化開發(fā)平臺運維定制化開發(fā)數(shù)據(jù)質(zhì)量管理1.質(zhì)量模型配置2.質(zhì)量規(guī)則管理3.方案配置調(diào)度4.質(zhì)檢結(jié)果查看5.質(zhì)檢分析報告

數(shù)據(jù)質(zhì)量管理主要包含對數(shù)據(jù)完整性、準確性、鮮活性、權(quán)威性的分析和管理,并對數(shù)據(jù)進行跟蹤、處理和解決,實現(xiàn)對數(shù)據(jù)質(zhì)量的全程管理,提高數(shù)據(jù)的質(zhì)量。

能夠提供規(guī)則配置、質(zhì)量監(jiān)控、問題處理等功能,及時發(fā)現(xiàn)并分析數(shù)據(jù)質(zhì)量問題,不斷改善數(shù)據(jù)的使用質(zhì)量,從而提升數(shù)據(jù)的可用性,挖掘數(shù)據(jù)更大的價值。根據(jù)業(yè)務需要選擇實體表和規(guī)則,方案與方案之間相互獨立,互不干擾。通過執(zhí)行模型下的質(zhì)檢方案,可以得到用戶關心的數(shù)據(jù)質(zhì)量分析結(jié)果,如問題數(shù)據(jù)明細信息、數(shù)據(jù)質(zhì)量分析結(jié)果等。數(shù)據(jù)質(zhì)量管理1.質(zhì)量模型配置2.質(zhì)量規(guī)則管理3.方案配置調(diào)度4.質(zhì)檢結(jié)果查看5.質(zhì)檢分析報告

系統(tǒng)支持多種規(guī)則類型,提供了全方位的視角來為用戶解析數(shù)據(jù)質(zhì)量。一套規(guī)則能在多套方案中復用,在保證多角度準確數(shù)據(jù)質(zhì)量分析的前提下,大大減少了用戶投入的精力與時間,為用戶提供了一種靈活而全面的數(shù)據(jù)質(zhì)量分析方式。系統(tǒng)包括以下質(zhì)量規(guī)則:空值檢查空值檢查用于檢查關鍵字段非空值域檢查值域檢查用于檢查關鍵字段的取值范圍,支持數(shù)值型、字符型、日期型字段檢查規(guī)范檢查規(guī)范檢查用于檢查指標值的格式是否規(guī)范,支持身份證、手機號碼、郵箱、日期等多種數(shù)據(jù)類型的檢測,支持自定義正則表達式邏輯檢查邏輯檢查用于檢查指標之間是否滿足一定的邏輯關系重復數(shù)據(jù)檢查●重復數(shù)據(jù)檢查用于檢查表內(nèi)是否有重復數(shù)據(jù)。●規(guī)則算法:groupby重復依據(jù)字段,count(1)>1的算重復及時性檢查規(guī)則算法:算出上報時間字段的值,如果沒寫上報時間表達式,則最佳上報時間都是以下一期的第一天做為參照依據(jù),再將上報時間與最佳上報時間做為比較,看是否在允許誤差最大天數(shù)范圍內(nèi)缺失記錄檢查規(guī)則算法:對檢查表字段和比照字段進行groupby并求count,根據(jù)兩個字段groupby的結(jié)果來outerjoin,count不相等或檢查字段值和比照字段值有一個為空時,此行結(jié)果都算錯引用完整性檢查規(guī)則算法:實體表的檢查字段關聯(lián)distinct后的比照表的字段,關聯(lián)后,如果比照字段為空,則檢查字段的值非來源于比照表,則該規(guī)則對應結(jié)果為false數(shù)據(jù)質(zhì)量管理1.質(zhì)量模型配置2.質(zhì)量規(guī)則管理3.方案配置調(diào)度4.質(zhì)檢結(jié)果查看5.質(zhì)檢分析報告

通過圖形化界面配置多種質(zhì)檢規(guī)則組成可執(zhí)行方案,依據(jù)執(zhí)行規(guī)則管控平臺自動執(zhí)行質(zhì)量規(guī)則檢查。質(zhì)量規(guī)則執(zhí)行觸發(fā)方式支持按固定時間周期(如月、周、日)、事件觸發(fā)等執(zhí)行方式,并且在控制臺可以查看質(zhì)檢方案執(zhí)行歷史,對數(shù)據(jù)質(zhì)檢全流程進行管控。界面配置通過圖形化界面配置多種質(zhì)檢規(guī)則組成可執(zhí)行方案,通過界面進行數(shù)據(jù)傳參全流程管控固定時間監(jiān)控業(yè)務系統(tǒng)運行的各類數(shù)據(jù),及時發(fā)現(xiàn)并整改數(shù)據(jù)異常,完善系統(tǒng)運行機制。觸發(fā)方式質(zhì)量規(guī)則執(zhí)行觸發(fā)方式支持按固定時間周期(如月、周、日)、事件觸發(fā)等執(zhí)行方式數(shù)據(jù)質(zhì)量管理1.質(zhì)量模型配置2.質(zhì)量規(guī)則管理3.方案配置調(diào)度4.質(zhì)檢結(jié)果查看5.質(zhì)檢分析報告

基于質(zhì)檢方案執(zhí)行過程,反饋每次質(zhì)檢產(chǎn)生的異常數(shù)據(jù),根據(jù)問題數(shù)據(jù)所配置的規(guī)則提供問題詳情、比對及整改重檢的能力;結(jié)合實際可執(zhí)行和可實現(xiàn)的原則,分析系統(tǒng)存在的數(shù)據(jù)質(zhì)量問題分析與檢測:著重于在數(shù)據(jù)的定義基礎上,利用數(shù)據(jù)的邏輯和業(yè)務規(guī)則度數(shù)據(jù)質(zhì)量進行檢測和分析;整改與重建:著重與在數(shù)據(jù)的分析和檢測基礎上,利用起結(jié)果對數(shù)據(jù),特別是源數(shù)據(jù)的數(shù)據(jù)管理提出整改意見,重建數(shù)據(jù)質(zhì)量的管理能力。數(shù)據(jù)質(zhì)量管理1.質(zhì)量模型配置2.質(zhì)量規(guī)則管理3.方案配置調(diào)度4.質(zhì)檢結(jié)果查看5.質(zhì)檢分析報告

基于質(zhì)檢方案及質(zhì)檢結(jié)果,對每次質(zhì)檢的檢查數(shù)、問題數(shù)、整改數(shù)等進行統(tǒng)計,形成統(tǒng)計圖。支持按日、按月統(tǒng)計及柱狀圖、折線圖。感謝聆聽

大數(shù)據(jù)治理方案一.背景與數(shù)據(jù)治理現(xiàn)狀所涉及行業(yè):政府、公安、政法、人社、審計、水務、醫(yī)療、教育、電力、保險、銀行等。沒有數(shù)據(jù)因為業(yè)務系統(tǒng)沒有對數(shù)據(jù)加以保存,或者因為行政原因不能開放,即使上了大數(shù)據(jù)平臺,那也只是有了“殼”而并不能發(fā)揮大數(shù)據(jù)的作用和價值。數(shù)據(jù)采集影響源端業(yè)務系統(tǒng)大多數(shù)廠商通過各種開源工具從業(yè)務系統(tǒng)抽取數(shù)據(jù),侵入式的工具不但影響了源端業(yè)務系統(tǒng)的正常使用,而且穩(wěn)定性極差,經(jīng)常出現(xiàn)各種丟數(shù)據(jù)的情況。人員消耗大,服務成本高,不僅沒有發(fā)揮大數(shù)據(jù)的價值,而且變成一種負擔。缺乏數(shù)據(jù)治理、不準確、周期長缺乏數(shù)據(jù)治理,對數(shù)據(jù)中存在的數(shù)據(jù)缺失、數(shù)據(jù)散亂、數(shù)據(jù)不一致,元數(shù)據(jù)頻繁變更,元數(shù)據(jù)類型多樣的問題并沒有真正的處理和解決,即使有了大數(shù)據(jù)平臺其分析結(jié)果也不準確。導致錯誤的決策,大數(shù)據(jù)分析失去可信度。智能應用并不智能通過對大數(shù)據(jù)與人工智能的營銷,聲稱可以通過機器學習和深度學習的算法等,開發(fā)各種類型的智能應用,然而這些智能應用因為數(shù)據(jù)缺失、數(shù)據(jù)不準確并不能真正的落地,最后變成一個”噱頭”。數(shù)據(jù)孤島,信息不一致,數(shù)據(jù)難以整合由于在不同時期、應用不同技術、與不同廠商合作,建設了不同規(guī)模的業(yè)務應用系統(tǒng),導致大量數(shù)據(jù)孤島問題,系統(tǒng)間信息不一致且難以整合,希望通過數(shù)據(jù)治理和大數(shù)據(jù)的建設對數(shù)據(jù)加以融合,解決數(shù)據(jù)中存在的各種問題并讓各系統(tǒng)間數(shù)據(jù)能夠互聯(lián)互通。Demo≠結(jié)果,可視化≠大數(shù)據(jù)分析只關注到數(shù)據(jù)可視化中數(shù)據(jù)展示的效果,并以Demo和數(shù)據(jù)展示的效果來作為依據(jù)判斷大數(shù)據(jù)建設的預期效果,忽略了數(shù)據(jù)采集、數(shù)據(jù)治理、數(shù)據(jù)存儲和數(shù)據(jù)計算的重要性。大數(shù)據(jù)建設現(xiàn)狀:周期長(問題、協(xié)調(diào)……)2018DataGovernance數(shù)據(jù)缺、散、亂數(shù)據(jù)不規(guī)整,存在數(shù)據(jù)缺失、散亂的情況數(shù)據(jù)多源異構(gòu)業(yè)務系統(tǒng)眾多,數(shù)據(jù)往往來自幾十個不同品牌的業(yè)務系統(tǒng)元數(shù)據(jù)類型多樣元數(shù)據(jù)類型多樣,缺乏標準統(tǒng)一的元數(shù)據(jù)存儲

元數(shù)據(jù)頻繁變更各主題業(yè)務系統(tǒng)間數(shù)據(jù)變更后無法快速進行數(shù)據(jù)統(tǒng)一缺乏業(yè)務詞匯標準缺乏貼合行業(yè)的專業(yè)業(yè)務詞匯標準數(shù)據(jù)不一致由于錄入或其他問題造成的數(shù)據(jù)不一致情況數(shù)據(jù)治理:面臨的挑戰(zhàn)一.大數(shù)據(jù)現(xiàn)狀二.大數(shù)據(jù)治理方案三.大數(shù)據(jù)案例解析目錄二.大數(shù)據(jù)治理方案2.2大數(shù)據(jù)采集交換平臺2.4大數(shù)據(jù)資產(chǎn)管理平臺2.3大數(shù)據(jù)處理平臺2.1大數(shù)據(jù)整體架構(gòu)2.5大數(shù)據(jù)交換平臺2.6大數(shù)據(jù)接口運維平臺2.7大數(shù)據(jù)分析挖掘平臺2.8大數(shù)據(jù)智能平臺

2.9大數(shù)據(jù)決策平臺

大數(shù)據(jù)整體架構(gòu)數(shù)據(jù)湖是經(jīng)過治理和整合的數(shù)據(jù)最佳存放環(huán)節(jié)數(shù)據(jù)湖架構(gòu),實現(xiàn)數(shù)據(jù)治理與大數(shù)據(jù)應用開發(fā)的脫藕,可以支持應用的百花齊放數(shù)據(jù)湖確保數(shù)據(jù)是用戶的數(shù)據(jù),不是應用開發(fā)商的數(shù)據(jù)多個不同特色的應用開發(fā),可以分別從數(shù)據(jù)湖獲得各自需要的數(shù)據(jù),大大加快應用開發(fā)的速度BillInmon(數(shù)據(jù)倉庫之父)2015年:事先對數(shù)據(jù)歸類建模的處理,可能對于大數(shù)據(jù)的各種離線分析有不足、需要演進,因此數(shù)據(jù)建模方式也需要演進?;蛟S應該采取措施,把大量的原始數(shù)據(jù)初步處理后保存下來,為未來不斷應用創(chuàng)新提供數(shù)據(jù)來源,而這個想法就是數(shù)據(jù)湖,現(xiàn)在廉價的存儲和大數(shù)據(jù)技術也提供了這個可能性。二.大數(shù)據(jù)治理方案2.2大數(shù)據(jù)采集集成平臺2.4大數(shù)據(jù)資產(chǎn)管理平臺2.3大數(shù)據(jù)處理平臺2.1大數(shù)據(jù)整體架構(gòu)2.5大數(shù)據(jù)交換平臺2.6大數(shù)據(jù)接口運維平臺2.7大數(shù)據(jù)分析挖掘平臺2.8大數(shù)據(jù)智能平臺

2.9大數(shù)據(jù)決策平臺

Oracle數(shù)據(jù)庫PostgreSQL達夢Dameng浪潮KDBFromother數(shù)據(jù)庫SQLServerDB2MySql國產(chǎn)數(shù)據(jù)庫MPP內(nèi)存數(shù)據(jù)庫常見數(shù)據(jù)庫消息隊列文本格式達夢Dameng浪潮KDBDBoneEMCgreenplumgbase8MSaphanaSQLServerKafkatibcoTXTCSVXMLsql人大金倉Kingbase南大通用GbaseBa神州通用HPVerticaDB2PostgreSQLMySql常見數(shù)據(jù)庫國產(chǎn)數(shù)據(jù)庫InformixsybaseTo大數(shù)據(jù)ToNoSqlGemfireFromKafkaHW云騰訊云阿里云天翼云Toother數(shù)據(jù)庫ToCloud

云端數(shù)據(jù)庫實時交換OracleSQLServerK-DBDB2MySQLPostgreSQLDMCDB中間庫第三方ETL接口文件結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)/云源ETL過程目標端用戶實時多表關聯(lián)鏡像庫精簡庫數(shù)據(jù)倉庫數(shù)據(jù)抓取模塊實時Loader實時單表轉(zhuǎn)換過濾準實時對源數(shù)據(jù)庫的首次同步和實時增量跟蹤技術目標數(shù)據(jù)庫或者云直接裝載源數(shù)據(jù)庫-接口文件和ETL-目標庫多種通路選擇實現(xiàn)實時和準實時轉(zhuǎn)換和共享鏡像庫精簡庫數(shù)據(jù)庫實時交換與共享平臺功能

功能說明數(shù)據(jù)實時抽取通過源系統(tǒng)端的Agent進程對數(shù)據(jù)庫Log日志進行實時分析,獲取交易指令,將交易指令和交易數(shù)據(jù)經(jīng)過格式轉(zhuǎn)化生成數(shù)據(jù)格式;過濾轉(zhuǎn)化為與生產(chǎn)應用相吻合的指令;再次實時傳輸?shù)侥繕硕讼到y(tǒng)數(shù)據(jù)實時轉(zhuǎn)換復制指定的數(shù)據(jù)、表、列支持數(shù)據(jù)集中,即多個相同結(jié)構(gòu)的數(shù)據(jù)庫中將數(shù)據(jù)整合到一個庫中,同類的數(shù)據(jù)項集合放到一個表中支持數(shù)據(jù)分發(fā)實時存儲和增量變化通知Agent將識別到的實時增量數(shù)據(jù)發(fā)送到中間數(shù)據(jù)庫,在此庫中維護一張和生產(chǎn)系統(tǒng)對應的數(shù)據(jù)表;對數(shù)據(jù)進行整合、過濾和判斷后通知訂閱方支持ETL實現(xiàn)準實時數(shù)據(jù)抽取支持增量抽取間隔到每幾秒鐘、幾分鐘、10分鐘生成一個接口文件支持從鏡像庫中獲取數(shù)據(jù)QETL支持多表關聯(lián)同步只復制到多表關聯(lián)結(jié)果集到目標端支持復雜的sql模式支持多種同步維護模式保持分析日志模式而非sql查詢模式

從生產(chǎn)數(shù)據(jù)庫中抽取數(shù)據(jù),并經(jīng)過過濾、分析、整合、轉(zhuǎn)換后,將數(shù)據(jù)加載到大數(shù)據(jù)平臺或云平臺中源端數(shù)據(jù)庫的實時增量跟蹤技術目標端實時復制轉(zhuǎn)換裝載技術中間過程中的接口文件技術中間過程中的中間庫技術中間過程中的準實時復雜轉(zhuǎn)換(ETL)技術源數(shù)據(jù)庫RedoLogArchivedLog日志合成日志分析QUEUE目標數(shù)據(jù)庫過濾SenderQUEUEYLoaderTransfor第三方ETLETL接口數(shù)據(jù)文件Receiver大數(shù)據(jù)/云功能數(shù)據(jù)庫數(shù)據(jù)復制與實時技術二.大數(shù)據(jù)治理方案2.2大數(shù)據(jù)采集集成平臺2.4大數(shù)據(jù)資產(chǎn)管理平臺2.3大數(shù)據(jù)處理平臺2.1大數(shù)據(jù)整體架構(gòu)2.5大數(shù)據(jù)交換平臺2.6大數(shù)據(jù)接口運維平臺2.7大數(shù)據(jù)分析挖掘平臺2.8大數(shù)據(jù)智能平臺

2.9大數(shù)據(jù)決策平臺

大數(shù)據(jù)處理平臺定位提供統(tǒng)一查詢服務,支持多數(shù)據(jù)源數(shù)據(jù)關聯(lián),支持查詢元數(shù)據(jù)、血緣和數(shù)據(jù)統(tǒng)計信息、支持數(shù)據(jù)全文搜索基于spark,提供簡單的用戶界面實現(xiàn)可視化查詢、多表關聯(lián)和交互式轉(zhuǎn)換集成各種數(shù)據(jù)存儲平臺,提供各類型的數(shù)據(jù)采集,支持數(shù)據(jù)全量、增量采集,支持數(shù)據(jù)清洗驗證分析234查詢探索采集存儲數(shù)據(jù)準備提供豐富的監(jiān)控界面,支持儀表盤,支持監(jiān)控流程、服務、作業(yè)健康狀態(tài),支持告警,支持性能監(jiān)控5集中監(jiān)控提供豐富的組件,支持可視化拖拽編排流程、模板,簡化數(shù)據(jù)流程、作業(yè)的管理,提高數(shù)據(jù)ETL效率1流程設計為企業(yè)用戶提供數(shù)據(jù)采集、存儲、計算、調(diào)度、探索、監(jiān)控、安全等數(shù)據(jù)治理相關的一整套數(shù)據(jù)湖治理解決方案,提供數(shù)據(jù)分析師準備數(shù)據(jù)的效率6集成方案

大數(shù)據(jù)處理平臺:目標效果目標效果-數(shù)據(jù)治理前呼叫中心CRM系統(tǒng)訂單處理系統(tǒng)HR系統(tǒng)采購系統(tǒng)數(shù)據(jù)財務報告客戶行為分析企業(yè)績效管理數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)客戶數(shù)據(jù)服務商數(shù)據(jù)合作伙伴數(shù)據(jù)容易產(chǎn)生的問題:數(shù)據(jù)孤島、數(shù)據(jù)冗余、編碼不統(tǒng)一、數(shù)據(jù)不同步、缺乏一致性、訪問繁瑣引入若干第三方應用,或者定制開發(fā)數(shù)據(jù)分析業(yè)務系統(tǒng)企業(yè)企業(yè)外部

大數(shù)據(jù)處理平臺:目標效果目標效果-數(shù)據(jù)治理后呼叫中心CRM系統(tǒng)訂單處理系統(tǒng)HR系統(tǒng)采購系統(tǒng)數(shù)據(jù)財務報告客戶行為分析企業(yè)績效管理數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)客戶數(shù)據(jù)服務商數(shù)據(jù)合作伙伴數(shù)據(jù)數(shù)據(jù)治理的價值:

數(shù)據(jù)共享、編碼統(tǒng)一、數(shù)據(jù)同步、內(nèi)容豐富、數(shù)據(jù)干凈、訪問可控單一平臺、標準組件、拖拽可視化操作,支持定制(組件開發(fā)接口支持java,scala,python,groovy,shell多種語言)數(shù)據(jù)分析業(yè)務系統(tǒng)企業(yè)企業(yè)外部數(shù)據(jù)湖治理平臺原始數(shù)據(jù)清洗后的數(shù)據(jù)數(shù)據(jù)質(zhì)量報告關聯(lián)數(shù)據(jù)加工數(shù)據(jù)共享數(shù)據(jù)標準數(shù)據(jù)數(shù)據(jù)資產(chǎn)

大數(shù)據(jù)處理平臺——數(shù)據(jù)采集非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)網(wǎng)絡數(shù)據(jù)全量、增量、實時全量、增量、實時數(shù)據(jù)庫表CSV、XLSJSON、XML日志文檔、圖片音頻、視頻網(wǎng)頁、論壇關系型數(shù)據(jù)庫文件系統(tǒng)分布式文件系統(tǒng)網(wǎng)絡爬蟲、全量、增量NoSQL數(shù)據(jù)庫圖數(shù)據(jù)庫GIS數(shù)據(jù)庫全量、增量數(shù)據(jù)存儲界面管理任務進度日志界面監(jiān)控比對配置功能截圖——數(shù)據(jù)清洗、驗證、轉(zhuǎn)換、分析功能截圖——數(shù)據(jù)轉(zhuǎn)換/脫敏功能截圖——質(zhì)量分析功能截圖——可視化關聯(lián)、交互式分析功能截圖——集中監(jiān)控功能截圖——全文搜索、訪問控制2.2大數(shù)據(jù)采集集成平臺2.4大數(shù)據(jù)資產(chǎn)管理平臺2.3大數(shù)據(jù)處理平臺2.1大數(shù)據(jù)整體架構(gòu)2.5大數(shù)據(jù)交換平臺2.6大數(shù)據(jù)接口運維平臺2.7大數(shù)據(jù)分析挖掘平臺2.8大數(shù)據(jù)智能平臺

2.9大數(shù)據(jù)決策平臺

二.大數(shù)據(jù)治理方案數(shù)據(jù)資產(chǎn)管理系統(tǒng)元數(shù)據(jù)源OracleMySQLSQLServerPostgreSQL…技術元數(shù)據(jù)管理元數(shù)據(jù)業(yè)務元數(shù)據(jù)手工錄入批量導入自動采集/更新元數(shù)據(jù)采集血緣分析數(shù)據(jù)地圖訪問安全數(shù)據(jù)趨勢數(shù)據(jù)回滾E-R圖CWM模型標準數(shù)據(jù)生命周期表結(jié)構(gòu)對比實時性能展示實時會話管理圖形化診斷大數(shù)據(jù)資產(chǎn)管理系統(tǒng)

數(shù)據(jù)資產(chǎn)管控——資產(chǎn)視圖數(shù)據(jù)資產(chǎn)管理2.2大數(shù)據(jù)采集集成平臺2.4大數(shù)據(jù)資產(chǎn)管理平臺2.3大數(shù)據(jù)處理平臺2.1大數(shù)據(jù)整體架構(gòu)2.5大數(shù)據(jù)交換平臺2.6大數(shù)據(jù)接口運維平臺2.7大數(shù)據(jù)分析挖掘平臺2.8大數(shù)據(jù)智能平臺

2.9大數(shù)據(jù)決策平臺

二.大數(shù)據(jù)治理方案

數(shù)據(jù)共享平臺——目標維持現(xiàn)有平臺不變現(xiàn)有平臺數(shù)據(jù)訪問能平移到中間件。多協(xié)議支持,擴展性強,部署靈活!提供基礎組件,公共組件,業(yè)務組件功能。引入緩存,內(nèi)存數(shù)據(jù)庫提升性能基礎數(shù)據(jù),字典數(shù)據(jù),業(yè)務數(shù)據(jù)整理篩選業(yè)務無縫水平擴展垂直擴展多樣的監(jiān)控管理手段降低開發(fā)難度,提高開發(fā)效率數(shù)據(jù)資產(chǎn)訪問控制質(zhì)量報告變動告警數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)內(nèi)容數(shù)據(jù)目錄數(shù)據(jù)共享主題庫接口管理文檔API服務訪問統(tǒng)計質(zhì)量報告變動告警數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)內(nèi)容數(shù)據(jù)目錄公共庫各平臺、接口統(tǒng)一的接入中間件平臺獲取數(shù)據(jù)、服務,降低平臺、接口直接與數(shù)據(jù)庫交互平臺、接口解耦統(tǒng)一管理業(yè)務剝離、遷移緩存、內(nèi)存數(shù)據(jù)庫WEB中間件主要業(yè)務功能引入緩存和內(nèi)存數(shù)據(jù)庫,降低與關系型數(shù)據(jù)庫交互次數(shù),數(shù)據(jù)清理,篩選,提升性能將數(shù)據(jù)庫一些業(yè)務實現(xiàn)剝離或遷移至中間件平臺,以服務的方式提供出去數(shù)據(jù)交換.場景1.支持接口發(fā)短信支付接口作業(yè)調(diào)度短信服務組件支付接口組件校驗過濾記錄日志作業(yè)調(diào)度框架作業(yè)1作業(yè)2作業(yè)N數(shù)據(jù)庫組件DB統(tǒng)一認證組件郵件組件…WEB中間件數(shù)據(jù)篩選統(tǒng)計數(shù)據(jù)存儲緩存(訪問頻率極高,重復性數(shù)據(jù))內(nèi)存數(shù)據(jù)庫(一天的經(jīng)營性數(shù)據(jù)、統(tǒng)計性數(shù)據(jù))關系型數(shù)據(jù)庫(作為備份、大數(shù)據(jù)量存儲)數(shù)據(jù)交換.場景2.數(shù)據(jù)查詢查詢網(wǎng)吧信息記錄日志調(diào)用服務校驗過濾緩存組件內(nèi)存數(shù)據(jù)庫組件數(shù)據(jù)庫組件DBRedis服務器12YN345同步緩存同步緩存數(shù)據(jù)同步(全量、增量)WEB界面緩存動態(tài)管理(方法級別)WEB界面數(shù)據(jù)庫管理、監(jiān)控123第一次訪問第二次訪問目前直接訪問DISKWEB中間件數(shù)據(jù)篩選統(tǒng)計數(shù)據(jù)屬性經(jīng)營性數(shù)據(jù)(營業(yè)額數(shù)據(jù))活躍性數(shù)據(jù)(使用頻率很高)數(shù)據(jù)量不大數(shù)據(jù)統(tǒng)計內(nèi)存實時統(tǒng)計每次訪問記錄緩存或內(nèi)存關系型數(shù)據(jù)庫定時同步。定時后臺統(tǒng)計Hadoop第三方組件Storm流式計算數(shù)據(jù)交換系統(tǒng).示例.服務器.接口管理服務器管理組件管理數(shù)據(jù)交換系統(tǒng).示例.攔截器及監(jiān)控攔截器管理性能監(jiān)控2.2大數(shù)據(jù)采集集成平臺2.4大數(shù)據(jù)資產(chǎn)管理平臺

2.3大數(shù)據(jù)處理平臺2.1大數(shù)據(jù)整體架構(gòu)2.5大數(shù)據(jù)交換平臺2.6大數(shù)據(jù)接口運維平臺2.7大數(shù)據(jù)分析挖掘平臺2.8大數(shù)據(jù)智能平臺

2.9大數(shù)據(jù)決策平臺

二.大數(shù)據(jù)治理方案分布式架構(gòu)應用架構(gòu)由集中式向分布式演進后,整個調(diào)用關系變得復雜??缬蚩逯行南到y(tǒng)一個完整的調(diào)用過程可能橫跨多個服務及數(shù)據(jù)中心。系統(tǒng)指標狀況無法準確知道整體系統(tǒng)性能及運行情況。系統(tǒng)獨立分布式架構(gòu)由復雜且較大規(guī)模集群構(gòu)成,各個應用之間相當獨立,可能由不同團隊、不同語言實現(xiàn)。業(yè)務復雜復雜的調(diào)用導致系統(tǒng)出問題后難以定位問題。接口運維平臺:應用系統(tǒng)現(xiàn)狀1)根據(jù)拓撲可相應計算組件、平臺、物理設備的實時吞吐量;2)包括整體調(diào)用的響應時間和各個服務的響應時間等;3)錯誤記錄,根據(jù)服務返回統(tǒng)計單位時間異常次數(shù);4)告警功能,提供各種閥值警告功能。核心功能接口運維平臺接口運維平臺AGENT無侵入部署對原服務無影響,資源消耗極低;準確掌握生產(chǎn)一線應用部署情況;提供可追溯的性能數(shù)據(jù),量化IT系統(tǒng)服務狀態(tài);從調(diào)用鏈全流程性能角度,識別關鍵調(diào)用鏈,協(xié)助系統(tǒng)人員持續(xù)性的優(yōu)化。特點、作用2.2大數(shù)據(jù)采集集成平臺2.4大數(shù)據(jù)資產(chǎn)管理平臺

2.3大數(shù)據(jù)處理平臺2.1大數(shù)據(jù)整體架構(gòu)2.5大數(shù)據(jù)交換平臺2.6大數(shù)據(jù)接口運維平臺2.7大數(shù)據(jù)分析挖掘平臺

2.8大數(shù)據(jù)智能平臺

2.9大數(shù)據(jù)決策平臺

二.大數(shù)據(jù)治理方案自助統(tǒng)計分析企業(yè)級、公共級大數(shù)據(jù)智能分析平臺超大數(shù)據(jù)集上提供亞秒級SQL分析能力、支持互聯(lián)網(wǎng)級高并發(fā)訪問的企業(yè)級數(shù)據(jù)倉庫產(chǎn)品,是以行業(yè)標準的數(shù)據(jù)倉庫和商業(yè)智能方法論架構(gòu)DW(DataWarehouse))onHadoop的解決方案為業(yè)務用戶、分析師及工程師提供簡便、快捷的大數(shù)據(jù)分析服務;自助式敏捷BI:建模的高性能查詢、自助式建模、無需編程、JDBC/ODBC支持、非侵入式部署等突出優(yōu)點的同時數(shù)據(jù)湖等方面進行了創(chuàng)新自助統(tǒng)計分析功能數(shù)據(jù)集模塊:該模塊可對數(shù)據(jù)集進行分類管理,并可對其進行修改刪除操作;主要根據(jù)業(yè)務需求構(gòu)建數(shù)據(jù)模型,通過選擇拖拽方式操作便捷,并可手動修改定制自助統(tǒng)計分析。超高性能支持ANSISQL查詢標準和自定義SQL查詢內(nèi)存建立數(shù)據(jù)模型(數(shù)據(jù)立方體Cube),建模速度快極低的查詢開銷,支持大規(guī)模并發(fā)查詢場景基于Cube預計算技術,支持超大數(shù)據(jù)集上的亞秒級查詢響應支持明細數(shù)據(jù)查詢支持數(shù)據(jù)流式數(shù)據(jù)增量構(gòu)建模型超高性能支持ANSISQL查詢標準和自定義SQL查詢內(nèi)存建立數(shù)據(jù)模型(數(shù)據(jù)立方體Cube),建模速度快極低的查詢開銷,支持大規(guī)模并發(fā)查詢場景基于Cube預計算技術,支持超大數(shù)據(jù)集上的亞秒級查詢響應支持明細數(shù)據(jù)查詢支持數(shù)據(jù)流式數(shù)據(jù)增量構(gòu)建模型結(jié)果導出支持結(jié)果圖和表之間靈活轉(zhuǎn)換,結(jié)果集的旋轉(zhuǎn)(行列轉(zhuǎn)置),支持結(jié)果導出(PDF、Excel、圖片等)和打印

2.2大數(shù)據(jù)采集集成平臺2.4大數(shù)據(jù)資產(chǎn)管理平臺

2.3大數(shù)據(jù)處理平臺2.1大數(shù)據(jù)整體架構(gòu)2.5大數(shù)據(jù)交換平臺2.6大數(shù)據(jù)接口運維平臺2.7大數(shù)據(jù)分析挖掘平臺2.8大數(shù)據(jù)智能平臺2.9大數(shù)據(jù)決策平臺

二.大數(shù)據(jù)治理方案知識圖譜.圖圖是相互連接的事物及其關系的一種結(jié)構(gòu)化表達。信息讀取是順序的過程,要求閱讀者在大腦中將信息串聯(lián)形成理解,而圖能夠即時傳達信息,易于揭示復雜的模式.在社交網(wǎng)絡、交通網(wǎng)絡、通訊網(wǎng)絡、資金網(wǎng)絡等展現(xiàn)場景下,都有比較直觀的展現(xiàn)效果圖存儲技術是支持知識圖譜應用的關鍵技術之一。知識圖譜(知識引擎)是多種技術的綜合應用,包括自然語言識別(NLP)、機器學習及圖存儲技術等,其大量知識來源于非結(jié)構(gòu)化數(shù)據(jù)。知識圖譜的整體使用過程包括知識獲取、知識融合、知識存儲、知識推理、知識應用等步驟,典型應用場景包括搜索引擎、問答系統(tǒng)等知識圖譜-構(gòu)建過程.知識推理應用知識抽取知識融合知識加工實體抽取關系抽取屬性抽取知識合并實體鏈接實體消歧共指消解知識推理本體構(gòu)建質(zhì)量評估第三方知識庫知識圖庫知識圖譜構(gòu)建過程比如在美國限制向中興通訊出口的消息發(fā)布之后,如果我們有中興通訊的客戶供應商、合作伙伴以及競爭對手的關系圖譜,就能在中興通訊停牌的情況下快速地篩選出受影響的國際國內(nèi)上市公司從而挖掘投資機會或者進行投資組合風險控制知識圖譜-應用PageRank算法——發(fā)現(xiàn)重要頂點算法原理1)數(shù)量假設:在Web圖模型中,如果一個頁面節(jié)點接收到的其他網(wǎng)頁指向的入鏈數(shù)量越多,那么這個頁面越重要。2)質(zhì)量假設:指向頁面A的入鏈質(zhì)量不同,質(zhì)量高的頁面會通過鏈接向其他頁面?zhèn)鬟f更多的權(quán)重。所以越是質(zhì)量高的頁面指向頁面A,則頁面A越重要。PageRank算法剛開始賦予每個網(wǎng)頁相同的重要性得分,通過迭代遞歸計算來更新每個頁面節(jié)點的Pag場景:在犯罪團伙通訊網(wǎng)絡中尋找重點人NO.PageRankValue10.0509140520.0573676330.1442252240.2448744950.0812838460.2438724870.0702747980.0357291690.03572916100.035729知識圖譜-應用基于現(xiàn)有的知識圖譜信息,推斷出當前圖譜不存在但實際中存在的真是關系知識圖譜技術可以幫助我們快速構(gòu)建一個法律知識圖譜,目前還缺乏法律知識圖譜的理論工作。跟其他領域的知識圖譜相比,法律知識圖譜需要考慮法律的邏輯,下面就是一個法律知識圖譜的片段:從上面這個例子可以看出,每一個犯罪行為都有主體、客體、主觀要件和客觀要件,我們就需要從文本中去抽取這些信息,從而形成一個關于犯罪行為的圖譜,而通過對海量判決書的挖掘,可以建立犯罪行為之間的關聯(lián),比如說,防衛(wèi)過當和故意傷害之間有一個關聯(lián),即誤判為的關系。通過這個圖譜,給定一個判決書,可以輔助法官判的一個案件是否有誤判,是否需要補充信息。知識圖譜-應用2.2大數(shù)據(jù)采集集成平臺2.4大數(shù)據(jù)資產(chǎn)管理平臺

2.3大數(shù)據(jù)處理平臺2.1大數(shù)據(jù)整體架構(gòu)2.5大數(shù)據(jù)交換平臺2.6大數(shù)據(jù)接口運維平臺2.7大數(shù)據(jù)分析挖掘平臺2.8大數(shù)據(jù)智能平臺

2.9大數(shù)據(jù)決策平臺

二.大數(shù)據(jù)治理方案決策管理系統(tǒng).功能支持功能性解耦支持同步與異步任務支持任務生命周期管理支持任務DAG的設計和表達用無碼圖形設計器建立復雜的工作流程價值:提升人和組織的生產(chǎn)力沉淀標準化,體系化的知識全方位業(yè)務流程化管理,過程透明化提升處理時效提升處理數(shù)量減少系統(tǒng)間溝通成本讓管理變得可預期(端到端的業(yè)務流程)數(shù)據(jù)可追溯,審計無憂大數(shù)據(jù)決策平臺-示例決策系統(tǒng)流程跟蹤決策系統(tǒng)流程編輯一.大數(shù)據(jù)現(xiàn)狀與數(shù)據(jù)治理緣由二.大數(shù)據(jù)治理方案三.大數(shù)據(jù)案例解析目錄大數(shù)據(jù)案例解析-深圳龍崗智慧城區(qū)XX信息化現(xiàn)狀與問題隨著XX智慧城區(qū)項目建設的推進,已經(jīng)取得較顯著成效,但通過前置機方式從各部門、各系統(tǒng)采集數(shù)據(jù)時,卻遇到以下諸多問題:

(1)數(shù)據(jù)不能實時從各系統(tǒng)同步到大數(shù)據(jù)中心,導致不能實時統(tǒng)計與分析;

(2)前置機由所屬單位進行管理,出現(xiàn)問題不能及時發(fā)現(xiàn)和提醒;

(3)建設智慧城區(qū)項目,前置機無法采集非結(jié)構(gòu)化的海量數(shù)據(jù)(如交通視頻、安防視頻、物聯(lián)網(wǎng)數(shù)據(jù)等),導致無法實現(xiàn)智能圖像識別、智能運維能等人工智能服務,城市智慧難以充分體現(xiàn);

(4)前置機實施需要原廠商較多配合和開發(fā)工作,推進、協(xié)調(diào)、運維都難度較大。在大數(shù)據(jù)和人工智能時代,迫切需要利用大數(shù)據(jù)復制技術、實時流技術、大數(shù)據(jù)采集與集成技術、人工智能技術等建設龍崗智慧城區(qū)大數(shù)據(jù)集成與交換平臺,解決傳統(tǒng)前置機采集數(shù)據(jù)方式的上述諸多問題。某區(qū)政府數(shù)據(jù)共享交換平臺實現(xiàn)數(shù)據(jù)采集與交換、數(shù)據(jù)治理。將現(xiàn)有信息系統(tǒng)與各部門相關的信息資源進行統(tǒng)一采集、清洗、脫敏和標準化。信息資源目錄遵循統(tǒng)一的標準規(guī)范組織管理所有政務信息資源,釆用元數(shù)據(jù)對信息資源特征進行描述,形成統(tǒng)一規(guī)范的目錄內(nèi)容,通過對目錄內(nèi)容的有效組織和管理,形成目錄信息庫,為信息資源的匯聚、共享以及對應用的支撐提供信息資源的發(fā)現(xiàn)定位服務。公共信息資源共享交換平臺門戶和與市級共享交換平臺的對接。門戶實現(xiàn)各類應用的統(tǒng)一入口,統(tǒng)一管理和統(tǒng)一登錄。①構(gòu)建大數(shù)據(jù)治理體系,成立數(shù)據(jù)治理組織結(jié)構(gòu)、治理流程、治理制度等方面,遵循平臺建設先行,將數(shù)據(jù)治理作為推進平臺建設的重要手段和措施,加快智慧城區(qū)數(shù)據(jù)資產(chǎn)化進程;②基于迪思杰DataXOne+DataLKOne+大數(shù)據(jù)平臺,可以快速定制與開發(fā)龍崗智慧城區(qū)大數(shù)據(jù)集成和交換平臺、大數(shù)據(jù)中心;③建設龍崗智慧城區(qū)大數(shù)據(jù)中心,分為區(qū)基礎庫、8+1行業(yè)應用庫、交換和共享庫等,將分散在各個業(yè)務系統(tǒng)數(shù)據(jù)統(tǒng)一集中,便于各部門、各系統(tǒng)進行數(shù)據(jù)共享和數(shù)據(jù)交換;嗯嗯XX智慧城區(qū)大數(shù)據(jù)治理1期大數(shù)據(jù)集成與交換平臺方案架構(gòu)某市衛(wèi)計委區(qū)域醫(yī)療健康大數(shù)據(jù)實現(xiàn)以患者為中心、以時間為軸線,將多源端病歷數(shù)據(jù)聚合、形成統(tǒng)一標準病歷,支持分級診療與雙向轉(zhuǎn)診等業(yè)務,并且大數(shù)據(jù)還可以挖掘價值,實現(xiàn)人工智能時代的智慧醫(yī)療XX市衛(wèi)計委在項目前期充分調(diào)研和學習了國內(nèi)各地醫(yī)療大數(shù)據(jù)項目。在以下幾個方面有了明確的認識專業(yè)的數(shù)據(jù)治理在項目中的重要性衛(wèi)計委在近兩年完成的大數(shù)據(jù)項目中發(fā)現(xiàn),在項目建設初期普遍關注大數(shù)據(jù)的上層應用,忽視數(shù)據(jù)治理的重要性。當項目上線以后才發(fā)現(xiàn)因為數(shù)據(jù)采集工具的選擇不當,數(shù)據(jù)質(zhì)量不達標等問題導致的上層應用的擱置和新業(yè)務無法拓展的問題比比皆是。因此在與XX市衛(wèi)計委溝通的過程中,衛(wèi)計委對數(shù)據(jù)的采集方式,數(shù)據(jù)質(zhì)量和大數(shù)據(jù)平臺的存儲方面提出了高標準、嚴要求。

是專業(yè)的數(shù)據(jù)治理公司衛(wèi)計委了解到市面上做大數(shù)據(jù)項目的公司在數(shù)據(jù)采集方面普遍采用不支持ddl,低效的jdbc/odbc技術。而的EnhancedETL在關系型數(shù)據(jù)采集領域性能優(yōu)越。并且有完整的數(shù)據(jù)治理體系,不是簡單進行數(shù)據(jù)加工存儲后提供給上層應用就竣工了。的數(shù)據(jù)治理不僅要保證數(shù)據(jù)質(zhì)量,還對數(shù)據(jù)進行血統(tǒng)分析、生命周期的管理。真正的將數(shù)據(jù)作為資產(chǎn)進行歸置和管理。從架構(gòu)層面,迪思杰提供了高標準的大數(shù)據(jù)平臺建設的三層架構(gòu)。DataXone集成了數(shù)據(jù)庫實時復制技術EnhancedETL,也集成了

開發(fā)的先進爬蟲技術,還有大數(shù)據(jù)技術中標準的Flume、Sqoop等。對外提供支持非結(jié)構(gòu)化數(shù)據(jù)實時采集服務,無需開發(fā)就能快速完成文件、目錄、網(wǎng)絡日志數(shù)據(jù)采集功能,支持二次開發(fā)插件滿足定制數(shù)據(jù)采集功能。采用關系型數(shù)據(jù)庫實時復制轉(zhuǎn)換技術(EnhancedETL),在采集數(shù)據(jù)庫數(shù)據(jù)時擁有實時優(yōu)勢(延遲1-5秒鐘)、高性能優(yōu)勢(每小時單個數(shù)據(jù)庫數(shù)百GB)、實時數(shù)據(jù)轉(zhuǎn)換優(yōu)勢、源生產(chǎn)端低干擾優(yōu)勢。方案采用數(shù)據(jù)湖,就能夠支持不同大數(shù)據(jù)應用開發(fā)商從數(shù)據(jù)湖調(diào)取數(shù)據(jù),避免為了特定應用四處采集數(shù)據(jù)的被動局面。數(shù)據(jù)湖架構(gòu)達到了高靈活度,低延時,開放的目的。真正將數(shù)據(jù)治理與上層應用進行剝離,為后期的專業(yè)數(shù)據(jù)治理,專業(yè)應用開發(fā)提供了可能。案例——某省會城市衛(wèi)計委醫(yī)療大數(shù)據(jù)方案優(yōu)勢為什么選擇?某券商數(shù)據(jù)集成案例地市1-oracle地市2-oracle地市n-oracle數(shù)據(jù)倉庫-oracle…業(yè)務1-oracle業(yè)務2-oracle業(yè)務n-oracle…EnhancedETLQETL

案例介紹湖北某券商客戶使用EnhancedETL將各地市的數(shù)據(jù)集中復制匯聚集成到數(shù)據(jù)倉庫,然后使用QETL對數(shù)據(jù)實時導出并進行組合運算,將轉(zhuǎn)換后的數(shù)據(jù)集實時同步到各業(yè)務庫。案例功能特點源端為組合視圖,目標端直接同步的結(jié)果集為表中;目標數(shù)據(jù)涉及多個用戶下的多張表,QETL只關注客戶所需數(shù)據(jù),最小化同步范圍,節(jié)省系統(tǒng)資源;只跟蹤業(yè)務所需字段,避免了敏感字段數(shù)據(jù)的向下傳遞;某行業(yè)某塊業(yè)務所需的數(shù)據(jù),業(yè)務上僅需要通過一條SQL從多張分別擁有百萬和幾億條的數(shù)據(jù)表中提取所需結(jié)果,該結(jié)果返回僅有幾十條數(shù)據(jù),傳統(tǒng)的推送方式要么達不到實時要求,要么占用較大資源,現(xiàn)通過QETL實時的推送所需的幾十條數(shù)據(jù)的結(jié)果集,簡化了同步方式、大大提高了同步效率,深受客戶好評,并將大量推廣應用。某省交警大數(shù)據(jù)應急指揮平臺XX交警大數(shù)據(jù)應急指揮平臺結(jié)構(gòu)化描述行人結(jié)構(gòu)化車輛結(jié)構(gòu)化騎行結(jié)構(gòu)化車輛實時布控無/套牌分析GIS應用(同行分析/頻繁過車分析)XX交警大數(shù)據(jù)應急指揮平臺數(shù)據(jù)集成源端無干擾采集:基于日志解析的數(shù)據(jù)庫實時復制采集多源異構(gòu)數(shù)據(jù)支持:支持DB2、Oracle、SQLserver、MySQL、Informix、Dameng、人大金倉等等數(shù)據(jù)實時清洗:數(shù)據(jù)過濾、數(shù)據(jù)剔重、類型轉(zhuǎn)換、編碼映射、文件拆分與合并、維度轉(zhuǎn)換等數(shù)據(jù)實時轉(zhuǎn)換:數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論