數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案小小工具箱_第1頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案小小工具箱_第2頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案小小工具箱_第3頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案小小工具箱_第4頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案小小工具箱_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)技術(shù)方案

微信掃碼加入星球

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

1數(shù)據(jù)中臺(tái)概述

1.1數(shù)據(jù)中臺(tái)介紹

因?yàn)樵诋?dāng)今互聯(lián)網(wǎng)時(shí)代,用戶才是商業(yè)戰(zhàn)場的中心,為了快速響

應(yīng)用戶的需求,借助平臺(tái)化的力量可以事半功倍。然而第一之前在傳

統(tǒng)企業(yè)信息化建設(shè)中企業(yè)為了滿足單一業(yè)務(wù)場景需求而搭建的傳統(tǒng)

技術(shù)架構(gòu),其底層技術(shù)選型大都無法支撐現(xiàn)有大數(shù)據(jù)應(yīng)用場景。由此

形成的技術(shù)壁壘,往往使得企業(yè)轉(zhuǎn)型成本激增甚至無法實(shí)現(xiàn)轉(zhuǎn)型;第

二在企業(yè)不斷發(fā)展的過程中伴隨著業(yè)務(wù)的多元化發(fā)展,企業(yè)信息部門

單獨(dú)建設(shè)或重建全新業(yè)務(wù)系統(tǒng),逐漸形成了一個(gè)個(gè)相互獨(dú)立的數(shù)據(jù)中

心,從而導(dǎo)致大量系統(tǒng)、功能和應(yīng)用的重復(fù)建設(shè),更造成了計(jì)算存儲(chǔ)

資源和人力資源的浪費(fèi);第三企業(yè)由于業(yè)務(wù)發(fā)展帶來的組織壁壘而形

成的數(shù)據(jù)孤島,是數(shù)據(jù)壁壘最典型的場景。它使得企業(yè)數(shù)據(jù)難以被全

局規(guī)劃和定義,從而導(dǎo)致數(shù)據(jù)價(jià)值無法被充分挖掘。傳統(tǒng)信息化建設(shè)

往往以滿足業(yè)務(wù)流程結(jié)果做為唯一標(biāo)準(zhǔn),忽視了過程數(shù)據(jù)和關(guān)聯(lián)數(shù)

據(jù)。傳統(tǒng)的數(shù)據(jù)平臺(tái)和其所謂的三層技術(shù)架構(gòu):前端展示層、中間邏

輯層、后端數(shù)據(jù)層,已經(jīng)無法完善的解決上述三個(gè)問題并實(shí)現(xiàn)以用戶

為中心的業(yè)務(wù)提升的。

當(dāng)前企業(yè)數(shù)據(jù)的爆炸式增長以及價(jià)值的擴(kuò)大化,數(shù)據(jù)將對企業(yè)未

來的發(fā)展產(chǎn)生深遠(yuǎn)的影響,數(shù)據(jù)將成為企業(yè)的核心資產(chǎn)。數(shù)據(jù)中臺(tái)是

指通過數(shù)據(jù)技術(shù),對海量數(shù)據(jù)進(jìn)行采集、計(jì)算、存儲(chǔ)、加工,同時(shí)統(tǒng)

一標(biāo)準(zhǔn)和口徑。

第6頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

數(shù)據(jù)中臺(tái)把數(shù)據(jù)統(tǒng)一之后,會(huì)形成標(biāo)準(zhǔn)數(shù)據(jù),再進(jìn)行存儲(chǔ),形成

大數(shù)據(jù)資產(chǎn)層,進(jìn)而為客戶提供高效服務(wù)。這些服務(wù)跟企業(yè)的業(yè)務(wù)有

較強(qiáng)的關(guān)聯(lián)性,是這個(gè)企業(yè)獨(dú)有的且能復(fù)用的,它是企業(yè)業(yè)務(wù)和數(shù)據(jù)

的沉淀,其不僅能降低重復(fù)建設(shè)、減少煙囪式協(xié)作的成本,也是差異

化競爭優(yōu)勢所在。

1.2數(shù)據(jù)中臺(tái)的價(jià)值

中臺(tái)從公司戰(zhàn)略角度,將這些行為進(jìn)行了規(guī)范化,公共的部分交

給公共系統(tǒng)部門去做。

中臺(tái)實(shí)際上是通用業(yè)務(wù)的下沉,企業(yè)在一個(gè)行業(yè)耕耘多年之后,

一般都會(huì)形成一些公用的業(yè)務(wù),而這些業(yè)務(wù)是可以像中間件那樣進(jìn)行

下沉共享的。

政府企業(yè)機(jī)構(gòu)等對內(nèi)對外有了統(tǒng)一的業(yè)務(wù)系統(tǒng)、管理平臺(tái)等等,

就不會(huì)再有各種業(yè)務(wù)系統(tǒng)孤島,不會(huì)有數(shù)據(jù)打通問題,不會(huì)有跨部門

的數(shù)據(jù)墻。

有了統(tǒng)一的中臺(tái),也就有了統(tǒng)一的數(shù)據(jù)規(guī)范。

對于大數(shù)據(jù)相關(guān)的需求,可以從相對唯一的數(shù)據(jù)出口進(jìn)行業(yè)務(wù)迭

代,不需要為每一個(gè)部門進(jìn)行定制開發(fā),浪費(fèi)人力。

第7頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

1.3數(shù)據(jù)中臺(tái)設(shè)計(jì)原則

1.3.1數(shù)據(jù)的一致性與標(biāo)準(zhǔn)性

除遵循數(shù)據(jù)庫設(shè)計(jì)的軟件行業(yè)標(biāo)準(zhǔn)外,還要遵循國家、地方標(biāo)準(zhǔn)

及行業(yè)的習(xí)慣性事實(shí)標(biāo)準(zhǔn)。止匕外,數(shù)據(jù)中臺(tái)的建設(shè)中將充分考慮客戶

已建系統(tǒng)的數(shù)據(jù),確保與客戶現(xiàn)有數(shù)據(jù)的一致性和標(biāo)準(zhǔn)性。

1.3.2數(shù)據(jù)的實(shí)用性與服務(wù)性

數(shù)據(jù)中臺(tái)設(shè)計(jì)充分考慮實(shí)際情況和應(yīng)用特點(diǎn),遵循“服務(wù)性與實(shí)

用性并重”的原則,通過數(shù)據(jù)整合與治理,數(shù)據(jù)高度可共享、和可根

據(jù)實(shí)際需求不斷靈活組合,為業(yè)務(wù)應(yīng)用服務(wù),數(shù)據(jù)質(zhì)量高,保證數(shù)據(jù)

的實(shí)用性。

1.3.3數(shù)據(jù)的獨(dú)立性與可擴(kuò)展性

設(shè)計(jì)時(shí)需要做到數(shù)據(jù)中臺(tái)的數(shù)據(jù)具有獨(dú)立性,獨(dú)立于應(yīng)用程序,

使數(shù)據(jù)中心的設(shè)計(jì)及結(jié)構(gòu)的變化不影響程序,反之亦然。另外,數(shù)據(jù)

庫設(shè)計(jì)要考慮其擴(kuò)展性能,使得系統(tǒng)增加新應(yīng)用或新需求時(shí),不至于

引起整個(gè)數(shù)據(jù)中心結(jié)構(gòu)的大變動(dòng)。

1.3.4數(shù)據(jù)安全性

通過設(shè)計(jì)合理和有效的備份和恢復(fù)策略,確保數(shù)據(jù)中心遭遇突發(fā)

事故時(shí),能在最短的時(shí)間內(nèi)恢復(fù)。同時(shí),通過做好對數(shù)據(jù)中臺(tái)的訪問

授權(quán)設(shè)計(jì),保證數(shù)據(jù)不被非法訪問。

第8頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

1.3.5數(shù)據(jù)分級管理機(jī)制

根據(jù)用戶訪問數(shù)據(jù)中臺(tái)的角色,將用戶分成決策分析用戶、系統(tǒng)

管理用戶、運(yùn)行瀏覽用戶和運(yùn)行調(diào)度用戶等幾個(gè)角色,分別賦予角色

訪問數(shù)據(jù)的權(quán)限和使用系統(tǒng)功能的權(quán)限,嚴(yán)格控制角色登錄,實(shí)現(xiàn)數(shù)

據(jù)的分級管理。

1.4數(shù)據(jù)中臺(tái)設(shè)計(jì)方法

1.4.1基于面向服務(wù)的架構(gòu)方法(SOA)

基于面向服務(wù)的架構(gòu)方法(Service-OrientedArchitecture,SOA)

采用基于面向服務(wù)的架構(gòu)方法,構(gòu)建智慧城市運(yùn)營中心的業(yè)務(wù)流程和

IT架構(gòu)。SOA(面向服務(wù)的體系結(jié)構(gòu))將政府中各個(gè)系統(tǒng)應(yīng)用程序

的不同功能單元抽象為服務(wù),通過這些服務(wù)之間定義良好的接口和契

約聯(lián)系起來。接口是采用中立的方式進(jìn)行定義的,它獨(dú)立于實(shí)現(xiàn)服務(wù)

的硬件平臺(tái)、操作系統(tǒng)和編程語言。這使得構(gòu)建在各種各樣的系統(tǒng)中

的服務(wù)能夠通過統(tǒng)一和通用的方式進(jìn)行交互。SOA架構(gòu)由服務(wù)總線、

服務(wù)目錄、門戶、流程管理等幾個(gè)核心組件構(gòu)成的。這些核心組件協(xié)

同工作共同支撐服務(wù)的部署、運(yùn)行與管理監(jiān)控。

1.4.2業(yè)務(wù)系統(tǒng)規(guī)劃法(BSP)

業(yè)務(wù)系統(tǒng)規(guī)劃法(BusinessSystemPlanning,BSP)的關(guān)鍵思想是

將業(yè)務(wù)的長期戰(zhàn)略目標(biāo)轉(zhuǎn)化為信息系統(tǒng)的戰(zhàn)略目標(biāo),通過對業(yè)務(wù)戰(zhàn)略

的分析導(dǎo)出信息系統(tǒng)的規(guī)劃。

笫9頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

業(yè)務(wù)系統(tǒng)規(guī)劃法(BSP)采用的基本方法是“自頂而下”的識別

業(yè)務(wù)目標(biāo)、企業(yè)過程和數(shù)據(jù)“自下而上”地分布設(shè)計(jì)系統(tǒng),這樣可以

解決大型系統(tǒng)難以一次性設(shè)計(jì)完成的困難,也可以避免自下而上分散

設(shè)計(jì)可能出現(xiàn)的數(shù)據(jù)不一致。

數(shù)據(jù)

業(yè)務(wù)系統(tǒng)規(guī)劃法(BSP)的規(guī)劃步驟:

(1)準(zhǔn)備工作;

(2)調(diào)研;

(3)定義業(yè)務(wù)過程;

(4)業(yè)務(wù)過程重組;

(5)定義數(shù)據(jù)類;

(6)定義信息系統(tǒng)總體結(jié)構(gòu);

(7)確定總體結(jié)構(gòu)中的優(yōu)先順序;

完成BSP研究報(bào)告,提出建議書和開發(fā)計(jì)劃。

第10頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

1.4.3系統(tǒng)工程理論

系統(tǒng)工程方法將相關(guān)問題及情況分門別類,確定邊界,側(cè)重各門

類之間內(nèi)在聯(lián)系,確保處理方法的完整性,采用全面和運(yùn)動(dòng)的觀點(diǎn)、

方法分析主要問題及整個(gè)過程。其具有綜合性、科學(xué)性、實(shí)踐性的特

點(diǎn)。利用系統(tǒng)工程理論指導(dǎo)軟件開發(fā)和維護(hù),主要使用工程化概念、

原理、技術(shù)及方法開展軟件開發(fā)、維護(hù)的工作。采用系統(tǒng)工程方法是

用系統(tǒng)的原理、方法研究系統(tǒng)的對象,立足整體系統(tǒng),制作出科學(xué)的

工作計(jì)劃及流程,有效的完成任務(wù)。

系統(tǒng)工程方法依從系統(tǒng)全局觀點(diǎn),從系統(tǒng)與要素、系統(tǒng)與環(huán)境之

間相互聯(lián)系、相互作用出發(fā)研究相關(guān)對象,實(shí)現(xiàn)最佳處理問題的目標(biāo)。

其基本內(nèi)容有:全面調(diào)查研究有關(guān)資料和數(shù)據(jù),提取有效信息,系統(tǒng)

了解相關(guān)問題信息,進(jìn)一步確定完成任務(wù)所需條件:提出相關(guān)方案,

展開定性和定量的理論分析,進(jìn)而進(jìn)行實(shí)驗(yàn)研究,客觀評價(jià)系統(tǒng)技術(shù)

性能、經(jīng)濟(jì)指標(biāo),注重社會(huì)效果,為最終方案在理論和實(shí)踐上做鋪墊;

經(jīng)由系統(tǒng)分析與綜合,比較和鑒別出最優(yōu)系統(tǒng)設(shè)計(jì)方案進(jìn)行實(shí)施;依

據(jù)系統(tǒng)設(shè)計(jì)方案,指定有效計(jì)劃,將開發(fā)研究出的系統(tǒng)投入使用,并

對系統(tǒng)的性能、工作狀態(tài)及社會(huì)反應(yīng)做出相關(guān)評價(jià)和檢驗(yàn)。系統(tǒng)工程

方法在計(jì)算機(jī)軟件方面應(yīng)用廣泛,同時(shí)起著重要作用。結(jié)合系統(tǒng)工程

方法的特點(diǎn),在計(jì)算機(jī)軟件設(shè)計(jì)階段可規(guī)范其流程,促使計(jì)算機(jī)軟件

設(shè)計(jì)進(jìn)程加快,同時(shí)提高開發(fā)人員的工作效率,為軟件系統(tǒng)研發(fā)速度

的提高打下基礎(chǔ)。

第11頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

2數(shù)據(jù)中臺(tái)核心功能

2.1技術(shù)架構(gòu)

目前各政府機(jī)構(gòu)和企業(yè)的信息化平臺(tái)數(shù)據(jù)按結(jié)構(gòu)類型主要分為

三種,分別是:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)三大類;

結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中;非結(jié)構(gòu)化數(shù)據(jù)主要包括音視頻、

圖片、文檔等,通過分布式文件系統(tǒng)在數(shù)據(jù)庫進(jìn)行統(tǒng)一管理;半結(jié)構(gòu)

化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,但它并不符合關(guān)系型數(shù)據(jù)庫或其他

數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來分隔

語義元素以及對記錄和字段進(jìn)行分層,例如:日志文件、XML文檔、

JSON文檔、Email等。建設(shè)數(shù)據(jù)中臺(tái)的過程中,這三類數(shù)據(jù)都會(huì)做

為數(shù)據(jù)源出現(xiàn),因此數(shù)據(jù)中臺(tái)要能夠妥善的處理這三種類型的數(shù)據(jù)。

第12頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

數(shù)字中臺(tái)基于數(shù)據(jù)資源多樣性的特點(diǎn)和能夠高效支持業(yè)務(wù)的目

標(biāo),結(jié)合設(shè)計(jì)規(guī)劃方法論、原則和規(guī)劃思路,統(tǒng)一數(shù)據(jù)資源體系規(guī)劃

建設(shè)大數(shù)據(jù)采集感知體系、數(shù)據(jù)資源融合體系和信息共享服務(wù)體系,

將數(shù)據(jù)安全和數(shù)據(jù)標(biāo)準(zhǔn)融入三大體系之中,通過智能演進(jìn)不斷提升數(shù)

據(jù)接入、處理、組織、挖掘、治理和服務(wù)的能力,不斷豐富和完善數(shù)

據(jù)中臺(tái)。

數(shù)據(jù)中臺(tái)主要包函:數(shù)據(jù)統(tǒng)一采集接入平臺(tái)、數(shù)據(jù)集中處理平臺(tái)、

數(shù)據(jù)組織管理平臺(tái)、數(shù)據(jù)組織管理平臺(tái)、數(shù)據(jù)全域治理平臺(tái)、數(shù)據(jù)融

合共享平臺(tái)、數(shù)據(jù)分析挖掘平臺(tái)、知識圖譜平臺(tái)、統(tǒng)一管理平臺(tái)、數(shù)

據(jù)可視化平臺(tái)等多個(gè)平臺(tái)系統(tǒng)。

2.1.1層次架構(gòu)

基于數(shù)據(jù)資源的需求分析和愿景目標(biāo),結(jié)合設(shè)計(jì)規(guī)劃方法論、原

則和規(guī)劃思路,統(tǒng)一數(shù)據(jù)資源體系規(guī)劃建設(shè)大數(shù)據(jù)采集感知體系、數(shù)

據(jù)資源融合體系和信息共享服務(wù)體系,將數(shù)據(jù)安全和數(shù)據(jù)標(biāo)準(zhǔn)融入三

大體系之中,通過智能演進(jìn)不斷提升數(shù)據(jù)接入、處理、組織、挖掘、

治理和服務(wù)的能力,不斷豐富和完善數(shù)據(jù)中臺(tái)。數(shù)據(jù)資源總體架構(gòu)圖

如下所示:

第13頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

2.1.2邏輯架構(gòu)

統(tǒng)一數(shù)據(jù)資源體系的規(guī)劃建設(shè)是數(shù)據(jù)建設(shè)的核心,承載著高效使

用底層平臺(tái)能力進(jìn)行海量數(shù)據(jù)的動(dòng)態(tài)感知采集和接入、標(biāo)準(zhǔn)化和智能

化處理、精細(xì)化組織、全維度融合、精準(zhǔn)可控的共享服務(wù)、多手段集

成安全等關(guān)鍵責(zé)任和重任。為實(shí)現(xiàn)上述目標(biāo),統(tǒng)一數(shù)據(jù)資源體系規(guī)劃

了三大體系:大數(shù)據(jù)感知采集體系、數(shù)據(jù)資源融合體系以及數(shù)據(jù)共享

服務(wù)體系。系統(tǒng)功能設(shè)計(jì)上,主要包含:數(shù)據(jù)接入、數(shù)據(jù)處理、數(shù)據(jù)

組織、數(shù)據(jù)挖掘和數(shù)據(jù)治理、數(shù)據(jù)共享服務(wù)。各個(gè)模塊的功能構(gòu)成如

下:

第14頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

■數(shù)據(jù)共?享服務(wù)

數(shù)據(jù)資源融合體

數(shù)據(jù)挖掘

數(shù)據(jù)組織

數(shù)據(jù)處理

2.1.3數(shù)據(jù)架構(gòu)

數(shù)據(jù)中臺(tái)數(shù)據(jù)架構(gòu)是針對多源異構(gòu)的數(shù)據(jù)場景,在數(shù)據(jù)組織層面

為數(shù)據(jù)的接入、融合及智能數(shù)據(jù)應(yīng)用服務(wù)等提供穩(wěn)定、高效的支撐。

從數(shù)據(jù)的接入方式、存儲(chǔ)方式、加工方式、使用方式等方面綜合考慮,

資源庫是在原始庫的基礎(chǔ)上進(jìn)行數(shù)據(jù)的規(guī)范化治理及基于數(shù)據(jù)主題

的整合;主題庫是以原始數(shù)據(jù)、資源數(shù)據(jù)為基礎(chǔ),構(gòu)件實(shí)體關(guān)系模型,

并在此基礎(chǔ)上形成的知識圖譜和事理圖譜等;業(yè)務(wù)庫是為了支撐不同

業(yè)務(wù)場景所定義的相關(guān)數(shù)據(jù)結(jié)構(gòu)。知識庫是專業(yè)領(lǐng)域或與專業(yè)領(lǐng)域相

關(guān)的特征知識數(shù)據(jù)和規(guī)則方法集合。此外還包括整合數(shù)據(jù)索引信息的

統(tǒng)一索引庫;記錄了本平臺(tái)及與平臺(tái)相關(guān)的數(shù)據(jù)的屬性、位置、數(shù)據(jù)

量、權(quán)限等基本信息的數(shù)據(jù)資源目錄;記錄了技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)

據(jù)、管理元數(shù)據(jù)的元數(shù)據(jù)庫;以及為交互分析挖掘規(guī)劃的數(shù)據(jù)實(shí)驗(yàn)空

間和記錄平臺(tái)相關(guān)管理配置信息的管理信息庫。數(shù)據(jù)架構(gòu)圖如下:

第15頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

業(yè)務(wù)年

1—\|_■tv何君£

g§目

映ft?

BB1

責(zé)海信息業(yè)券信電

■居g

結(jié)構(gòu)化數(shù)1K非結(jié)電化的密

2.2數(shù)據(jù)統(tǒng)一采集接入平臺(tái)

2.2.1平臺(tái)架構(gòu)

「多源異構(gòu)接入接入處理

策略配置任務(wù)配置

采用統(tǒng)一的數(shù)據(jù)接入模式,以標(biāo)準(zhǔn)化、模塊化的方式進(jìn)行多源異

構(gòu)數(shù)據(jù)資源的接入;提供采集全面、動(dòng)態(tài)可配的數(shù)據(jù)接入機(jī)制,實(shí)現(xiàn)

數(shù)據(jù)的獲取分發(fā)、策略配置、任務(wù)配置、任務(wù)調(diào)度、數(shù)據(jù)加密、斷點(diǎn)

第16頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

續(xù)傳等數(shù)據(jù)接入功能;當(dāng)接入時(shí),同時(shí)維護(hù)數(shù)據(jù)資源目錄,以及數(shù)據(jù)

血緣信息。

2.2.2數(shù)據(jù)流程

平臺(tái)提供一站式的數(shù)據(jù)遷移接入功能,內(nèi)部數(shù)據(jù)通過專用數(shù)據(jù)通

道進(jìn)入統(tǒng)一接入平臺(tái),可在接入過程中做初步的清洗加工,并提供可

視化的任務(wù)調(diào)度運(yùn)行管理,并向數(shù)據(jù)智能管理和數(shù)據(jù)治理提供數(shù)據(jù)支

撐。

2.2.3平臺(tái)功能

2.2.3.1數(shù)據(jù)接入

考慮到數(shù)據(jù)的種類多樣性、多源異構(gòu)性,以及通道的多樣復(fù)雜性,

數(shù)據(jù)接入系統(tǒng)支持多源接入,支持對數(shù)據(jù)接入的插件化管理,可以分

為關(guān)系型數(shù)據(jù)庫、nosql數(shù)據(jù)庫、分布式存儲(chǔ)系統(tǒng)、流式處理系統(tǒng)、

消息中間件系統(tǒng)、文本文件和文件系統(tǒng)等。

第17頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

數(shù)據(jù)接入系統(tǒng)支持對數(shù)據(jù)的DML的抽取,抽取內(nèi)容包括insert、

update、delete語句的解析和內(nèi)容抽?。恢С謱?shù)據(jù)庫DDL的抽取,

抽取內(nèi)容包括且不限于數(shù)據(jù)庫表空間、用戶、角色、視圖、函數(shù)、索

引、約束等,對關(guān)系型數(shù)據(jù)庫的全量采集和增量采集。

數(shù)據(jù)接入系統(tǒng)支持庫到庫、庫到文件、文件到文件、文件到庫的

實(shí)時(shí)數(shù)據(jù)接入,包括MogoDB、Hive、HBase、XML>JSON等,在

可視化配置界面中通過拖拉建立和異構(gòu)系統(tǒng)的映射關(guān)系。

數(shù)據(jù)接入系統(tǒng)支持分布式存儲(chǔ),提供分布式文件共享存儲(chǔ)、多副

本功能,提供對分布式存儲(chǔ)中的文件、文件夾進(jìn)行權(quán)限控制,使得各

系統(tǒng)只能訪問授權(quán)的文件、文件夾。提供對分布式存儲(chǔ)的可視化操作,

包括對文件進(jìn)行復(fù)制、粘貼、刪除等。

數(shù)據(jù)接入系統(tǒng)支持流式處理系統(tǒng),包括CQ、flink等,芨持Flume

采集組建,支持消息中間件系統(tǒng),如kafka、RabbitMQ、ActiveMQ

等。支持實(shí)時(shí)流式數(shù)據(jù)接入、全量離線數(shù)據(jù)接入、周期性批量數(shù)據(jù)接

入等多種數(shù)據(jù)接入方式。支持push被動(dòng)接受和pull主動(dòng)拉去兩種方

式。依據(jù)數(shù)據(jù)接入策略、傳輸策略對接入的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)

據(jù)、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行檢驗(yàn),并按接入輸出分發(fā)策略進(jìn)行輸出存入原

始庫或分發(fā)給數(shù)據(jù)處理流程。

數(shù)據(jù)接入系統(tǒng)提供對多種文件格式的解析器,包括BCP、二的1

XML、AVRO、JSON、CSV及自定義格式txt文件,提供對FTP/SFTP、

HTTP/HTTPS、Socket、WebService、SNMP等標(biāo)準(zhǔn)協(xié)議的數(shù)據(jù)接收

能力。

笫18頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

數(shù)據(jù)接入系統(tǒng)支持多節(jié)點(diǎn)文件接力傳輸功能,實(shí)現(xiàn)多節(jié)點(diǎn)文件傳

輸,支持對文件、文件夾、文件夾下的指定文件,自動(dòng)感知變化文件

傳輸功能,包括:HTML數(shù)據(jù)類型、EXCEL表格數(shù)據(jù)類型、PDF電

子文件數(shù)據(jù)類型、WORD文本文檔數(shù)據(jù)類型、圖像數(shù)據(jù)類型、音頻

數(shù)據(jù)類型、視頻數(shù)據(jù)類型、超媒體數(shù)據(jù)類型等。提供過期文件數(shù)據(jù)接

入系統(tǒng)中間數(shù)據(jù)緩存功能,通過redis、hazelcast等實(shí)現(xiàn)分布式緩存提

高數(shù)據(jù)的讀取速率,保障數(shù)據(jù)的一致性。接入系統(tǒng)提供多通道數(shù)據(jù)傳

輸,利用分層隔離原則,采用三種數(shù)據(jù)傳輸通道:通用數(shù)據(jù)傳輸通道、

高優(yōu)先級數(shù)據(jù)傳輸通道、高吞吐量數(shù)據(jù)傳輸通道。

提供標(biāo)準(zhǔn)接口,針對特殊數(shù)據(jù)結(jié)構(gòu)及類型做插件開發(fā),進(jìn)而支持

多樣化的數(shù)據(jù)來源。

2.2.3.2數(shù)據(jù)接入策略配置

數(shù)據(jù)接入系統(tǒng)策略配置模塊針對多數(shù)據(jù)源系統(tǒng)以及結(jié)構(gòu)化數(shù)據(jù)、

半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的不同數(shù)據(jù)類型特點(diǎn),按照抽取、同步、

整合等數(shù)據(jù)處理步驟,提供一體化、可融合的數(shù)據(jù)適配解析器和數(shù)據(jù)

轉(zhuǎn)換功能,采用插件方式,支持二次開發(fā),實(shí)現(xiàn)根據(jù)數(shù)據(jù)源情況的自

適應(yīng)數(shù)據(jù)解析和流程化處理。

數(shù)據(jù)接入的策略配置模塊支持任意種類、任意數(shù)據(jù)源、任意目標(biāo)

庫的數(shù)據(jù)抽取傳輸,常用數(shù)據(jù)源、目標(biāo)庫類型主要有關(guān)系型數(shù)據(jù)庫、

列簇?cái)?shù)據(jù)庫、并行分布式數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫、全文索引數(shù)據(jù)庫等主

流數(shù)據(jù)庫,支持FTP、XML、CSV、JSON.EXCEL>RCFILE等常

第19頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

用文件類型,支持kafka、WebService等消息處理類。

數(shù)據(jù)接入的策略配置模塊支持任意類型的抽取匯聚任務(wù)配置,主

要包括異構(gòu)數(shù)據(jù)庫之間數(shù)據(jù)傳輸匯聚,不同類型、跨服務(wù)器的文件型

數(shù)據(jù)傳輸,數(shù)據(jù)庫和文件類、服務(wù)接口間相互傳輸?shù)取2呗耘渲媚K

實(shí)現(xiàn)基于數(shù)據(jù)源的異構(gòu)數(shù)據(jù)自動(dòng)解析,并能按照任務(wù)場景進(jìn)行自定義

配置,實(shí)現(xiàn)智能化、可視化、組件式數(shù)據(jù)匯聚整合任務(wù)構(gòu)建。

對于數(shù)據(jù)接入周期不同需求的數(shù)據(jù)接入,策略配置模塊支持多樣

化的數(shù)據(jù)接入周期配置。根據(jù)數(shù)據(jù)接入實(shí)際需求的不同,策略配置模

塊支持實(shí)時(shí)數(shù)據(jù)接入、周期數(shù)據(jù)接入、批量數(shù)據(jù)接入、增量數(shù)據(jù)接入、

全量數(shù)據(jù)接入。對于實(shí)時(shí)更新的數(shù)據(jù)源,接入平臺(tái)能夠?qū)?shù)據(jù)源做實(shí)

時(shí)的數(shù)據(jù)抽取,實(shí)現(xiàn)數(shù)據(jù)的周期性接入。對于實(shí)時(shí)性要求較低的數(shù)據(jù)

源,可以通過用戶自定義條件,對源數(shù)據(jù)做批量數(shù)據(jù)導(dǎo)出,實(shí)現(xiàn)用戶

自定義需求的批量接入。對于用戶指定數(shù)據(jù)源,通過指定的導(dǎo)出字段

或?qū)С鰲l件,對數(shù)據(jù)做周期性的增量導(dǎo)出,實(shí)現(xiàn)數(shù)據(jù)的增量接入。對

于體量較小的數(shù)據(jù)源,通過用戶配置,實(shí)現(xiàn)對源數(shù)據(jù)的全量數(shù)據(jù)導(dǎo)出,

實(shí)現(xiàn)數(shù)據(jù)的一次性。

策略配置模塊支持多樣化輸出配置。數(shù)據(jù)接入系統(tǒng)包含多樣化的

數(shù)據(jù)接入輸出接口,可對的輸出做多樣化配置,這里包括本地存儲(chǔ)系

統(tǒng)、關(guān)系型數(shù)據(jù)庫、nosql數(shù)據(jù)庫、圖數(shù)據(jù)庫、分布式文件系統(tǒng)、分

布式緩存系統(tǒng)、全文存儲(chǔ)系統(tǒng)、實(shí)時(shí)計(jì)算流系統(tǒng)、消息中間件系統(tǒng),

同時(shí)支持消息的訂閱分發(fā)。

第20頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

2.2.3.3接入數(shù)據(jù)斷點(diǎn)續(xù)傳

數(shù)據(jù)接入系統(tǒng)支持?jǐn)?shù)據(jù)傳輸過程中的斷點(diǎn)續(xù)傳。在數(shù)據(jù)總線傳輸

過程中,當(dāng)遇到網(wǎng)絡(luò)故障、傳輸資源短缺、入原始庫積壓時(shí),狀態(tài)總

線記錄接入數(shù)據(jù)中斷點(diǎn)及數(shù)據(jù)接入中斷狀態(tài),控制總線在數(shù)據(jù)接入所

需網(wǎng)絡(luò)、存儲(chǔ)等資源可用時(shí),從排隊(duì)任務(wù)中重新啟動(dòng)斷點(diǎn)續(xù)傳任務(wù),

分配數(shù)據(jù)總線資源,從數(shù)據(jù)斷點(diǎn)處接入后續(xù)數(shù)據(jù),不需要從頭開始數(shù)

據(jù)傳輸,從而節(jié)約數(shù)據(jù)傳輸時(shí)間,提高數(shù)據(jù)接入效率。在數(shù)據(jù)分發(fā)過

程中,數(shù)據(jù)訂閱方?jīng)]能正常接收訂閱的數(shù)據(jù)時(shí),接入系統(tǒng)支持對失敗

數(shù)據(jù)做斷點(diǎn)重發(fā)。

2.2.3.4數(shù)據(jù)接入任務(wù)管理

數(shù)據(jù)接入系統(tǒng)支持多樣化的任務(wù)管理方式,實(shí)現(xiàn)了多種場景的任

務(wù)調(diào)度機(jī)制對數(shù)據(jù)接入的任務(wù)支持多角度的任務(wù)監(jiān)功能,支持異常處

理、重新調(diào)度等功能,及時(shí)解決存在問題,恢復(fù)數(shù)據(jù)傳輸,確保按時(shí)

完成數(shù)據(jù)匯聚整合任務(wù),保證大數(shù)據(jù)中心數(shù)據(jù)資源的準(zhǔn)確性、完整性

和一致性。

數(shù)據(jù)接入系統(tǒng)任務(wù)調(diào)度模塊按照數(shù)據(jù)規(guī)模、更新頻率、內(nèi)容特征

等數(shù)據(jù)屬性特點(diǎn),采用組建(插件)方式,分類實(shí)現(xiàn)不同場景下多元

化數(shù)據(jù)抽取匯聚策略。對數(shù)據(jù)總量規(guī)模不大、增量有限的一般業(yè)務(wù)數(shù)

據(jù),采用傳統(tǒng)數(shù)據(jù)抽取匯聚模式,實(shí)現(xiàn)與當(dāng)前在用數(shù)據(jù)抽取工具的集

成或開發(fā)類似功能。對高總量、高增長量的數(shù)據(jù)資源,采用大數(shù)據(jù)傳

輸匯聚模式,實(shí)現(xiàn)任務(wù)自動(dòng)切片分發(fā)、斷點(diǎn)續(xù)傳、節(jié)點(diǎn)管理、調(diào)度節(jié)

第21頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

點(diǎn)故障切換等功能。對視頻圖像、音頻、文檔等大文件數(shù)據(jù),提供

FTP>HTTP等文件傳輸方式,實(shí)現(xiàn)斷點(diǎn)續(xù)傳、多線程并行等功能。

數(shù)據(jù)接入系統(tǒng)任務(wù)調(diào)度模塊具有多樣化的任務(wù)調(diào)度機(jī)制,支持各

類轉(zhuǎn)換程序和交換任務(wù)的靈活定制,方便用戶對數(shù)據(jù)抽取匯聚任務(wù)的

流程控制和動(dòng)態(tài)處理。支持按年、月、周、日、小時(shí)、分鐘、秒定時(shí)

調(diào)度,可選指定有效時(shí)間內(nèi)調(diào)度。增量情況下支持實(shí)時(shí)調(diào)度,數(shù)據(jù)近

秒級同步。支持推(push)、拉(pull)的數(shù)據(jù)使用方式。數(shù)據(jù)增量捕

捉支持按時(shí)間戳、數(shù)據(jù)快照、日志等方式。

數(shù)據(jù)接入系統(tǒng)任務(wù)調(diào)度模塊提供可視化配置調(diào)度策略功能,實(shí)現(xiàn)

數(shù)據(jù)接入,文件傳輸?shù)热蝿?wù)通過運(yùn)行菜單進(jìn)行調(diào)度的功能。提供事件

觸發(fā)調(diào)度功能,包括就緒文件觸發(fā)、變化日志觸發(fā)、http、WebService

等接口觸發(fā)(含URL調(diào)度),實(shí)現(xiàn)對滿足條件的文件進(jìn)行觸發(fā)調(diào)度處

理。提供文件分類調(diào)度功能,實(shí)現(xiàn)對滿足條件的文件進(jìn)行分類調(diào)度處

理。

數(shù)據(jù)接入系統(tǒng)任務(wù)調(diào)度模塊提供流程調(diào)度組建,可視化配置任務(wù)

的串行、并行等任務(wù),實(shí)現(xiàn)多任務(wù)并行、串行、混合調(diào)度。提供任務(wù)

代理調(diào)度功能,實(shí)現(xiàn)跨節(jié)點(diǎn)的任務(wù)之間的調(diào)度。提供操作系統(tǒng)的shell

腳本調(diào)度功能,實(shí)現(xiàn)通過可視化配置任務(wù)調(diào)用shell腳本的功能,對

于數(shù)據(jù)的操作系統(tǒng)級的shell命令調(diào)用shell腳本知較量。提供SQL

調(diào)度功能,通過可視化配置任務(wù)實(shí)現(xiàn)對統(tǒng)一的標(biāo)準(zhǔn)SQL語句、存儲(chǔ)

過程、SQL函數(shù)的調(diào)度功能。提供前后處理調(diào)度功能,通過可視化界

面配置前后處理調(diào)度實(shí)現(xiàn)多個(gè)任務(wù)之間聯(lián)動(dòng)運(yùn)行的功能,被調(diào)用的處

笫22頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

理為任務(wù)、二次開發(fā)的處理類(統(tǒng)計(jì)接入數(shù)據(jù)行數(shù))。

數(shù)據(jù)接入系統(tǒng)任務(wù)監(jiān)控模塊提供面向工具自身及所配置數(shù)據(jù)傳

輸任務(wù)的監(jiān)測器,監(jiān)控調(diào)度節(jié)點(diǎn)運(yùn)行狀態(tài)及任務(wù)調(diào)度情況,監(jiān)控執(zhí)行

節(jié)點(diǎn)運(yùn)行狀態(tài)及數(shù)據(jù)接入任務(wù)執(zhí)行情況,及時(shí)采集各類監(jiān)控對象的運(yùn)

行狀態(tài)和重要性能數(shù)據(jù),實(shí)現(xiàn)專用工具自身運(yùn)行狀態(tài)及相關(guān)數(shù)據(jù)接入

任務(wù)的實(shí)時(shí)監(jiān)控,實(shí)現(xiàn)異常情況的自動(dòng)報(bào)警提醒。

數(shù)據(jù)接入系統(tǒng)任務(wù)監(jiān)控模塊監(jiān)控所有控制、執(zhí)行、管理狀態(tài)(正

常、異常、運(yùn)行、等待、終止、完成等),能夠通過預(yù)設(shè)的運(yùn)行異常

指標(biāo),實(shí)現(xiàn)多種渠道的事件報(bào)警和提醒功能;任務(wù)監(jiān)控模塊常態(tài)化監(jiān)

控傳輸過程中的最小數(shù)據(jù)單元,建立數(shù)據(jù)接入更新時(shí)效監(jiān)測機(jī)制?;?/p>

于接入閥值分析源頭數(shù)據(jù)接入傳輸是否正常,數(shù)據(jù)增量是否符合常

態(tài),及時(shí)發(fā)現(xiàn)并協(xié)調(diào)解決相關(guān)異常問題。任務(wù)監(jiān)控模塊同時(shí)監(jiān)控自身

的運(yùn)行狀態(tài),為后期開展工具問題的日志分析、故障診斷、系統(tǒng)優(yōu)化

提供數(shù)據(jù)支持。

數(shù)據(jù)接入系統(tǒng)任務(wù)監(jiān)控模塊支持實(shí)時(shí)數(shù)據(jù)中斷監(jiān)控,實(shí)時(shí)監(jiān)控接

入數(shù)據(jù)的接入狀態(tài),如果中斷時(shí)間超過預(yù)設(shè)閥值,則ALM處理。另

外也支持服務(wù)器運(yùn)行狀態(tài)監(jiān)控,包括JVM、task、CPU、內(nèi)存、節(jié)點(diǎn)、

主題、活躍分區(qū)、離線分區(qū)、請求度量指標(biāo)等系統(tǒng)狀態(tài),定時(shí)監(jiān)控服

務(wù)器的運(yùn)行情況,如果服務(wù)器運(yùn)行出現(xiàn)異常,則ALM處理。

數(shù)據(jù)接入系統(tǒng)任務(wù)監(jiān)控模塊支持?jǐn)?shù)據(jù)傳輸任務(wù)執(zhí)行全過程和數(shù)

據(jù)傳輸工具自身運(yùn)行情況的日志實(shí)時(shí)采集,以及各個(gè)功能插件的運(yùn)行

日志的實(shí)時(shí)記錄。數(shù)據(jù)傳輸日志,主要包含傳輸任務(wù)執(zhí)行起始時(shí)間、

笫23頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

結(jié)束時(shí)間、執(zhí)行時(shí)長、傳輸總記錄數(shù)、錯(cuò)誤記錄數(shù)、數(shù)據(jù)源、目標(biāo)庫、

數(shù)據(jù)對象、數(shù)據(jù)要素類型等內(nèi)容。當(dāng)輸入源為文件類型時(shí),數(shù)據(jù)傳輸

日志包含采集文件名稱、大小、讀取記錄數(shù)、處理狀態(tài)、處理時(shí)間等

內(nèi)容。當(dāng)輸入源為數(shù)據(jù)庫時(shí),數(shù)據(jù)傳輸日志包含數(shù)據(jù)來源、操作時(shí)間、

接入條數(shù)、執(zhí)行時(shí)間等內(nèi)容。

2.2.3.5接入數(shù)據(jù)清洗

數(shù)據(jù)清洗的任務(wù)是過濾那些不符合要求的數(shù)據(jù),將過濾的結(jié)果能

夠直觀的展示給相應(yīng)的主管部門,主管部門確認(rèn)是否過濾掉或者修正

之后再進(jìn)行抽取。

不符合要求的數(shù)據(jù)主要有以下幾類:

缺失的數(shù)據(jù):主要是一些數(shù)據(jù)的信息確實(shí),如物品名稱、物品代

號、業(yè)務(wù)系統(tǒng)中數(shù)據(jù)不能匹配等。在系統(tǒng)中用戶可以自動(dòng)逸過濾規(guī)則,

把這一類數(shù)據(jù)過濾出來,輸出到文本文件或Excel等格式文件提交給

業(yè)務(wù)用戶,業(yè)務(wù)用戶在人工對數(shù)據(jù)修改核對后,再寫入數(shù)據(jù)倉庫,如

果修改的規(guī)則是固定的,也可以由系統(tǒng)按照規(guī)則自動(dòng)添加、修改數(shù)據(jù)。

錯(cuò)誤的數(shù)據(jù):錯(cuò)誤的數(shù)據(jù)生產(chǎn)的原因是業(yè)務(wù)系統(tǒng)不夠健全,或

則人為誤操作再接手輸入后沒有進(jìn)行判斷直接寫入后臺(tái)數(shù)據(jù)庫造成

的,這一類數(shù)據(jù)也要進(jìn)行分類,不同的分類采取不同的處理方式,包

括人工處理和自動(dòng)處理,處理之后再更改數(shù)據(jù)庫里的數(shù)據(jù)。

重復(fù)的數(shù)據(jù):重復(fù)的數(shù)據(jù)特別是再維表中會(huì)常出現(xiàn)這種情況,系

統(tǒng)可以按照規(guī)則將重復(fù)數(shù)據(jù)導(dǎo)出來,讓用戶確認(rèn)并回寫到數(shù)據(jù)庫。

第24頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

數(shù)據(jù)清洗是一個(gè)和業(yè)務(wù)用戶反復(fù)溝通的過程,不可能再很短的時(shí)

間內(nèi)完成,只能不斷的發(fā)現(xiàn)問題,可能解決問題。對于是否過濾,是

否修正一般要求用戶確認(rèn),對于過濾掉的數(shù)據(jù)要寫入文本文件、Excel

文件、數(shù)據(jù)庫表。數(shù)據(jù)清洗需要注意的是對于每個(gè)過程規(guī)則都要認(rèn)證

進(jìn)行驗(yàn)證,并要用戶確認(rèn)。

2.2.3.6接入數(shù)據(jù)統(tǒng)計(jì)

數(shù)據(jù)接入系統(tǒng)接入統(tǒng)計(jì)模塊支持對接入數(shù)據(jù)、分發(fā)數(shù)據(jù)進(jìn)行多種

維度的數(shù)據(jù)量統(tǒng)計(jì)。通過接入數(shù)據(jù)的接入統(tǒng)計(jì),有助于對數(shù)據(jù)總資產(chǎn)

總體的、宏觀的、全面的掌握。接入統(tǒng)計(jì)模塊主要從接入數(shù)據(jù)的數(shù)據(jù)

量、接入數(shù)據(jù)文件數(shù)量、每個(gè)接入數(shù)據(jù)文件的接入時(shí)間、數(shù)據(jù)接入的

總耗時(shí)、數(shù)據(jù)來源、數(shù)據(jù)文件類型、分發(fā)數(shù)據(jù)的數(shù)據(jù)量、分發(fā)數(shù)據(jù)的

文件數(shù)量、每個(gè)分發(fā)數(shù)據(jù)文件的分發(fā)時(shí)間、數(shù)據(jù)分發(fā)的總耗時(shí)、數(shù)據(jù)

分發(fā)目的地等維度,對數(shù)據(jù)接入做接入數(shù)據(jù)的整體統(tǒng)計(jì)。數(shù)據(jù)接入系

統(tǒng)接入統(tǒng)計(jì)模塊支持接入統(tǒng)計(jì)功能插件式開發(fā),可自定義配置數(shù)據(jù)接

入的統(tǒng)計(jì)項(xiàng)。

2.2.3.7接入數(shù)據(jù)對賬

數(shù)據(jù)對賬是數(shù)據(jù)提供方和數(shù)據(jù)接收方在數(shù)據(jù)傳輸結(jié)束后進(jìn)行完

整性、一致性、正確性檢驗(yàn)的過程,提供數(shù)據(jù)接入效果評估能力。包

第25頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

括以下功能:

對于實(shí)時(shí)數(shù)據(jù)接入,支持接入數(shù)據(jù)的關(guān)鍵信息、唯一性信息的日

志存儲(chǔ)和查詢統(tǒng)計(jì)。對于可靠性、一致性要求高的數(shù)據(jù),提供數(shù)據(jù)同

步檢查和校驗(yàn)功能,并輸出詳細(xì)日志。支持一定時(shí)間范圍的接入狀態(tài)

統(tǒng)計(jì),包括對數(shù)據(jù)更新狀態(tài)、聯(lián)通狀態(tài)、數(shù)據(jù)量、校驗(yàn)等情況的統(tǒng)計(jì)。

對于批量數(shù)據(jù)接入,支持提供周期性接入信息查詢和統(tǒng)計(jì)?,支持

格式異常數(shù)據(jù)查詢和統(tǒng)計(jì)。支持系統(tǒng)、設(shè)備無上報(bào)數(shù)據(jù)等情況的ALM

策略設(shè)置。

數(shù)據(jù)對賬發(fā)現(xiàn)異常問題時(shí)通過短信、郵件等方式通知管理員及時(shí)

處理。數(shù)據(jù)對賬支持對賬功能的插件式開發(fā),可根據(jù)特殊需求對數(shù)據(jù)

對賬功能進(jìn)行擴(kuò)充,適應(yīng)數(shù)據(jù)接入多樣化的數(shù)據(jù)對賬功能。

2.2.3.8接入數(shù)據(jù)質(zhì)量

數(shù)據(jù)接入系統(tǒng)的數(shù)據(jù)質(zhì)量模塊對接入數(shù)據(jù)做接入維度的數(shù)據(jù)質(zhì)

量檢測評估。數(shù)據(jù)接入系統(tǒng)對接入數(shù)據(jù)解密異常、解壓異常的數(shù)據(jù)作

為問題數(shù)據(jù)記錄日志。數(shù)據(jù)接入系統(tǒng)對接入數(shù)據(jù)的數(shù)據(jù)對賬異常記錄

在接入數(shù)據(jù)問題報(bào)告。接入數(shù)據(jù)在完成數(shù)據(jù)對賬后生成數(shù)據(jù)接入質(zhì)量

報(bào)告,對數(shù)據(jù)接入過程做整體的質(zhì)量評估檢測。數(shù)據(jù)接入系統(tǒng)的問題

數(shù)據(jù)記錄日志、接入數(shù)據(jù)問題報(bào)告對數(shù)據(jù)接入異常的數(shù)據(jù)做詳細(xì)的信

息記錄,支持用戶手動(dòng)查詢問題數(shù)據(jù)。

在數(shù)據(jù)接入過程中配置數(shù)據(jù)質(zhì)量檢查邏輯規(guī)則,將干凈的數(shù)據(jù)裝

入目標(biāo)中,將判斷的問題的數(shù)據(jù)路由到數(shù)據(jù)表或者數(shù)據(jù)文件中,支持

第26頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

將成功、失敗信息反饋記錄,若執(zhí)行多次后交換成功,記錄交換次數(shù)。

數(shù)據(jù)接入系統(tǒng)支持對接入系統(tǒng)的運(yùn)行狀態(tài)的監(jiān)控,支持向運(yùn)維監(jiān)

控系統(tǒng)報(bào)送數(shù)據(jù)接入系統(tǒng)的JVM、task、CPU、內(nèi)存、節(jié)點(diǎn)、主題、

活躍分區(qū)、離線分區(qū)、請求度量指標(biāo)等系統(tǒng)狀態(tài)指標(biāo)數(shù)據(jù)。

另外數(shù)據(jù)中臺(tái)對數(shù)據(jù)質(zhì)量管理是平臺(tái)建設(shè)中必不可少的重要組

成部分,良好的數(shù)據(jù)質(zhì)量掛管理工作可以保證平臺(tái)數(shù)據(jù)的正確性、完

整性、相關(guān)性等質(zhì)量指標(biāo)。缺乏數(shù)據(jù)質(zhì)量管理將造成平臺(tái)數(shù)據(jù)質(zhì)量失

去控制、質(zhì)量低下,用戶對平臺(tái)數(shù)據(jù)不認(rèn)可、對數(shù)據(jù)缺少信任、增加

平臺(tái)的推廣難度、降低平臺(tái)應(yīng)用服務(wù)質(zhì)量,以及增加平臺(tái)的建設(shè)和維

護(hù)成本等后果。

數(shù)據(jù)質(zhì)量管理的目標(biāo)包含兩方面,一是對源系統(tǒng)層的數(shù)據(jù)質(zhì)量有

個(gè)較全面的了解,比較具體的反映數(shù)據(jù)平臺(tái)涉及的各源業(yè)務(wù)系統(tǒng)的數(shù)

據(jù)質(zhì)量;二是防范數(shù)據(jù)平臺(tái)內(nèi)部數(shù)據(jù)流程過程發(fā)生的錯(cuò)誤,提高數(shù)據(jù)

平臺(tái)中的數(shù)據(jù)質(zhì)量。

數(shù)據(jù)質(zhì)量管理并不僅是在生產(chǎn)階段才實(shí)施,在數(shù)據(jù)中臺(tái)建設(shè)過程

中,數(shù)據(jù)質(zhì)量檢查需要從源數(shù)據(jù)分析開始,自始至終貫串全過程。在

源數(shù)據(jù)分析階段,通過數(shù)據(jù)剖析(DataProfiling)可以分析源系統(tǒng)數(shù)

據(jù)質(zhì)量問題;在開發(fā)測試階段,通過對數(shù)據(jù)加載的各個(gè)階段設(shè)置檢查,

可以驗(yàn)證上游系統(tǒng)接口的完整性以及模型加工的正確性;在投產(chǎn)后的

生產(chǎn)環(huán)境,通過設(shè)置代碼完整性、總分核對等檢查,監(jiān)控平臺(tái)內(nèi)的數(shù)

據(jù)質(zhì)量。

數(shù)據(jù)中臺(tái)實(shí)施數(shù)據(jù)質(zhì)量管理的目的在于,提高數(shù)據(jù)平臺(tái)的加工數(shù)

笫27頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

據(jù)質(zhì)量,監(jiān)控上游系統(tǒng)數(shù)據(jù)質(zhì)量,協(xié)助客戶建立企業(yè)級數(shù)據(jù)質(zhì)量管理

環(huán)境。

數(shù)據(jù)質(zhì)量管理主要包含:

1)數(shù)據(jù)質(zhì)量檢查匯總:可以按照檢查階段、檢查日期、檢查

類型、錯(cuò)誤級別進(jìn)行數(shù)據(jù)質(zhì)量檢查結(jié)果的匯總。

2)我關(guān)注的檢查任務(wù):列出我關(guān)注的檢查任務(wù)的執(zhí)行情況。

3)質(zhì)量日志瀏覽:可以瀏覽數(shù)據(jù)質(zhì)量的登記日志。

4)質(zhì)量檢查結(jié)果和錯(cuò)誤明細(xì):可以瀏覽檢查任務(wù)的執(zhí)行情況,

包括匯總數(shù)據(jù)和錯(cuò)誤明細(xì)數(shù)據(jù)。

5)錯(cuò)誤明細(xì)下載:用戶可以直接用數(shù)據(jù)管理平臺(tái)下載數(shù)據(jù)質(zhì)

量檢查結(jié)果明細(xì)。

6)查詢主要實(shí)現(xiàn)工具是Datawave數(shù)據(jù)管理平臺(tái),查詢功能主

要是可以在數(shù)據(jù)質(zhì)量檢查的任務(wù)、錯(cuò)誤明細(xì)等信息中進(jìn)行查

詢,查詢主要功能與元數(shù)據(jù)的基本一致。

7)數(shù)據(jù)質(zhì)量管理主要由數(shù)據(jù)質(zhì)量管理員來完成,管理的主要功

能主要包括:

/質(zhì)量檢查規(guī)則的增刪改:可以維護(hù)質(zhì)量檢查規(guī)則,可以修改

檢查規(guī)則的SQL模板。

/檢查任務(wù)的增刪改:可以維護(hù)質(zhì)量檢查任務(wù),可以批量上傳

質(zhì)量檢查任務(wù)。

第28頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

質(zhì)量日志的增刪改:可以維護(hù)數(shù)據(jù)質(zhì)量日志。

2.3數(shù)據(jù)集中處理平臺(tái)

數(shù)據(jù)處理是實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化的過程,包括了數(shù)據(jù)的提取、清洗、

關(guān)聯(lián)、比對、標(biāo)識、對象化等操作,支持實(shí)時(shí)計(jì)算和離線計(jì)算,支持

批量處理操作。數(shù)據(jù)傳輸過程支持分布式數(shù)據(jù)傳輸方式。在數(shù)據(jù)處理

過程中,引入人工智能技術(shù),實(shí)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理,采

用圖計(jì)算和內(nèi)存計(jì)算技術(shù),實(shí)現(xiàn)數(shù)據(jù)的價(jià)值提升。在數(shù)據(jù)處理過程中,

引入模型體系和標(biāo)簽工程和知識圖譜技術(shù),進(jìn)一步提升數(shù)據(jù)價(jià)值密

度,為數(shù)據(jù)智能應(yīng)用實(shí)現(xiàn)數(shù)據(jù)增值、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)抽象。

2.3.1平臺(tái)架構(gòu)

關(guān)果油取

美?同比打.付麗

交叉比對■于黃餐施建

ziMttnmtn

■文用快比時(shí)劉?化古■

爆配片比對實(shí)時(shí)計(jì)M標(biāo)費(fèi)財(cái)飲化打場美和HI

耍制的征比對用康計(jì)一a尊

tilS清洗關(guān)聯(lián)

侵NLP文本渡文NLP文本遢義NU>X木遇義睢■哂t檢汨NIPX本遢義儂計(jì)一修堡什H

?

■>砌■六去霰O(jiān)itN生卻乳£識就9MMIDMappmg用計(jì),

.三合二。出:迎E小力?。簍t?9IW

術(shù)

03測彼聞去■一10*祝咽厚習(xí)

一一圖―R一

W將雷辱63,/11訪

數(shù)據(jù)處理遵循相關(guān)標(biāo)準(zhǔn),通過對數(shù)據(jù)進(jìn)行提取、清洗、關(guān)聯(lián)、比

對、標(biāo)識、對象化、構(gòu)建知識圖譜等規(guī)范化處理流程,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)

的標(biāo)準(zhǔn)化及深度融合。數(shù)據(jù)處理采用開放式架構(gòu),能夠以統(tǒng)一、標(biāo)準(zhǔn)、

第29頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

易于擴(kuò)展的方式進(jìn)行數(shù)據(jù)處理流程的動(dòng)態(tài)編排。同時(shí),在各環(huán)節(jié)引入

了自然語言處理、多媒體信息處理和機(jī)器學(xué)習(xí)等技術(shù),實(shí)現(xiàn)對數(shù)據(jù)的

智能感知和認(rèn)知。

2.3.2數(shù)據(jù)流程

數(shù)據(jù)集中處理平臺(tái)

裁據(jù)比對數(shù)據(jù)計(jì)算

?合

M-DD

2.3.3平臺(tái)功能

2.3.3.1數(shù)據(jù)提取

數(shù)據(jù)提取的過程主要是從功能各個(gè)業(yè)務(wù)系統(tǒng)上根據(jù)約定的采集

周期采集全量或增量數(shù)據(jù),生成相應(yīng)的文本文件。在采集過程中可能

涉及系統(tǒng)內(nèi)或跨系統(tǒng)的數(shù)據(jù)關(guān)聯(lián)獲取。這些文本文件的結(jié)構(gòu)與源數(shù)據(jù)

基本相同(根據(jù)具體需求可能要濾掉一些字段信息),我們稱這些存

放源數(shù)據(jù)的文本文件為EXF(ExtractFormat)0

數(shù)據(jù)抽取需要注意如下事項(xiàng):

為提高ETL效率,數(shù)據(jù)在進(jìn)入ETL系統(tǒng)后的EXF文件將轉(zhuǎn)換

第30頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

為系統(tǒng)內(nèi)部文件格式

從ETL程序設(shè)計(jì)的靈活性和整體結(jié)構(gòu)的一直性考慮,盡量采

用pull的方式,減少對源系統(tǒng)的影響和對其他開發(fā)隊(duì)伍的依

賴,并減少網(wǎng)絡(luò)壓力,目前最先進(jìn)的方式是基于LOG捕獲純

增量。

EXF的文件格式接近數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)定義

在業(yè)務(wù)需求清晰明確的前提下,Extract過程中可以過濾不需要

的數(shù)據(jù)記錄和字段數(shù)據(jù)轉(zhuǎn)換。

數(shù)據(jù)轉(zhuǎn)換過程中數(shù)據(jù)載體為文件,這樣充分發(fā)揮ETL工具處理

文件的強(qiáng)大性能和穩(wěn)定性,根據(jù)數(shù)據(jù)抽取過程生成的CIF文件,經(jīng)過

數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)聚合、復(fù)雜計(jì)算以及數(shù)據(jù)匹配等處理過程,

生成與目標(biāo)數(shù)據(jù)結(jié)構(gòu)相同的PLF(Pre-LoadFormat)文件。具體包含

一下過程:

數(shù)據(jù)內(nèi)容數(shù)值的檢查

代碼轉(zhuǎn)換。包括轉(zhuǎn)換為數(shù)據(jù)倉庫系統(tǒng)自己語言

數(shù)據(jù)內(nèi)容數(shù)據(jù)格式的規(guī)范化

代理鍵的生成

數(shù)據(jù)內(nèi)容Merge

在整個(gè)數(shù)據(jù)轉(zhuǎn)換過程中需要記錄很多諸如出錯(cuò)日志、處理流程監(jiān)

控日志以及一些統(tǒng)計(jì)信息。這主要由一些公用的程序模塊來完成,保

證無論數(shù)據(jù)是否非法都會(huì)在我們的ETL處理范圍之內(nèi)。

第31頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

2.3.3.1.1非結(jié)構(gòu)化數(shù)據(jù)提取

非結(jié)構(gòu)化數(shù)據(jù)的種類和來源比較復(fù)雜,對這些數(shù)據(jù)的提取處理操

作也會(huì)因不同數(shù)據(jù)種類的不同使用不同的實(shí)現(xiàn)技術(shù)。非結(jié)構(gòu)化數(shù)據(jù)包

含索引格式的辦公文檔、文本、圖片、XML>HTML>各類報(bào)表、圖

像、音頻文件和視頻文件,在集群中提取生物特征數(shù)據(jù),提取身份、

行為、軌跡、關(guān)系、位置等信息,提取后形成的結(jié)構(gòu)化數(shù)據(jù)保存在關(guān)

系型存儲(chǔ)中,利于數(shù)據(jù)長期存儲(chǔ)和時(shí)用。原始數(shù)據(jù)保存在列式存儲(chǔ)中。

遵從數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)提取模塊從策略和配置管理中心獲取不同數(shù)

據(jù)類型相應(yīng)的提取策略和規(guī)則,加載基于文本語義的分析提取模塊、

圖像檢測提取模塊、語音識別提取模塊、視頻轉(zhuǎn)換提取模塊等,進(jìn)行

相應(yīng)類型非結(jié)構(gòu)化數(shù)據(jù)的提取處理。

非結(jié)構(gòu)數(shù)據(jù)提取方式如采用先進(jìn)的計(jì)算機(jī)視覺和語音識別等技

術(shù)。

2.3.3.1.2結(jié)構(gòu)化數(shù)據(jù)提取

由于結(jié)構(gòu)化數(shù)據(jù)已經(jīng)比較規(guī)整,因而對它的提取操作相對簡單。

按照數(shù)據(jù)標(biāo)準(zhǔn),從策略和配置中心獲取提取結(jié)構(gòu)化策略和規(guī)則,對原

數(shù)據(jù)中的各類數(shù)據(jù),通過基于語言要素的語義提取技術(shù)或特征函數(shù),

自動(dòng)計(jì)算特征值及特征值之間的語義關(guān)系,對數(shù)據(jù)進(jìn)行關(guān)鍵信息提取

即可。提取后的信息可應(yīng)用于對象標(biāo)注、業(yè)務(wù)分析、業(yè)務(wù)關(guān)聯(lián)、業(yè)務(wù)

預(yù)測等方面。

第32頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

2.3.3.1.3對象化提取

遵從數(shù)據(jù)標(biāo)準(zhǔn),根據(jù)對象提取規(guī)則對數(shù)據(jù)進(jìn)行主題進(jìn)行對象化處

理。

對象數(shù)據(jù)以聚合的方式展現(xiàn)。主題庫保存按照對象提取、處理、

歸并、更新、標(biāo)識等數(shù)據(jù)對象化規(guī)則產(chǎn)生的多維度的對象化數(shù)據(jù)。對

象化提取的數(shù)據(jù)主要為主題庫數(shù)據(jù)。并且每一個(gè)主題下,可能存在多

個(gè)對象實(shí)體庫。

對象提?。褐С謱ο筇卣髯詣?dòng)提取,根據(jù)對象特征自動(dòng)建模,利

用并行分布式計(jì)算資源,對數(shù)據(jù)進(jìn)行對象化提取、存儲(chǔ)對象數(shù)據(jù)、更

新對象數(shù)據(jù)。

對象去重:對對象化結(jié)果數(shù)據(jù),通過對象化去重,消除冗余數(shù)據(jù)。

對象標(biāo)識:對指定數(shù)據(jù)來源的數(shù)據(jù),進(jìn)行標(biāo)識的操作,在對象化

提取環(huán)節(jié),需要將標(biāo)識提取到對象化數(shù)據(jù)中。具體規(guī)則、填寫的字段

和字段內(nèi)容,以設(shè)計(jì)實(shí)現(xiàn)為準(zhǔn)。

2.3.3.2數(shù)據(jù)清洗

數(shù)據(jù)清洗的任務(wù)是過濾那些不符合要求的數(shù)據(jù),將過濾的結(jié)果能

夠直觀的展示給相應(yīng)的主管部門,主管部門確認(rèn)是否過濾掉或者修正

之后再進(jìn)行抽取。

不符合要求的數(shù)據(jù)主要有一下幾類:

缺失的數(shù)據(jù):主要是一些數(shù)據(jù)的信息確實(shí),如物品名稱、物

品代號、業(yè)務(wù)系統(tǒng)中數(shù)據(jù)不能匹配等。在系統(tǒng)中用戶可以自

第33頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

動(dòng)逸過濾規(guī)則,把這一類數(shù)據(jù)過濾出來,輸出到文本文件或

Excel等格式文件提交給業(yè)務(wù)用戶,業(yè)務(wù)用戶在人工對數(shù)據(jù)修

改核對后,再寫入數(shù)據(jù)倉庫,如果修改的規(guī)則是固定的,也

可以由系統(tǒng)按照規(guī)則自動(dòng)添加、修改數(shù)據(jù)。

錯(cuò)誤的數(shù)據(jù):錯(cuò)誤的數(shù)據(jù)生產(chǎn)的原因是業(yè)務(wù)系統(tǒng)不夠健全,或

則人為誤操作再接手輸入后沒有進(jìn)行判斷直接寫入后臺(tái)數(shù)據(jù)

庫造成的,這一類數(shù)據(jù)也要進(jìn)行分類,不同的分類采取不同

的處理方式,包括人工處理和自動(dòng)處理,處理之后再更改數(shù)

據(jù)庫里的數(shù)據(jù)。

重復(fù)的數(shù)據(jù):重復(fù)的數(shù)據(jù)特別是再維表中會(huì)常出現(xiàn)這種情況,

系統(tǒng)可以按照規(guī)則將重復(fù)數(shù)據(jù)導(dǎo)出來,讓用戶確認(rèn)并回寫到

數(shù)據(jù)庫。

數(shù)據(jù)清洗是一個(gè)和業(yè)務(wù)用戶反復(fù)溝通的過程,不可能再很短的時(shí)

間內(nèi)完成,只能不斷的發(fā)現(xiàn)問題,可能解決問題。對于是否過濾,是

否修正一般要求用戶確認(rèn),對于過濾掉的數(shù)據(jù)要寫入文本文件、Excel

文件、數(shù)據(jù)庫表。數(shù)據(jù)清洗需要注意的是對于每個(gè)過程規(guī)則都要認(rèn)證

進(jìn)行驗(yàn)證,并要用戶確認(rèn)。

2.3.3.2.1非結(jié)構(gòu)化數(shù)據(jù)清洗

非結(jié)構(gòu)化數(shù)據(jù)主要為文本、XML、圖片和視頻數(shù)據(jù)。對于非結(jié)

構(gòu)化數(shù)據(jù),主要通過同一時(shí)間窗口比對去重、MD5值比對去重、人

工智能等技術(shù)方法去重。

第34頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

文本數(shù)據(jù)的清洗,主要基于自然語言處理技術(shù),通過分詞、語料

標(biāo)注、字典構(gòu)建、關(guān)鍵詞識別等技術(shù),根據(jù)相應(yīng)的非結(jié)構(gòu)化數(shù)據(jù)特點(diǎn)

進(jìn)行數(shù)據(jù)建模,利用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的方法進(jìn)行文件去重。

圖片數(shù)據(jù)可以通過以圖找圖技術(shù),進(jìn)行圖片去重。根據(jù)相似圖像

檢測技術(shù)以通過提取某些表征圖像內(nèi)容的特征,與數(shù)據(jù)庫中目標(biāo)圖片

特征進(jìn)行匹配判斷,從而判別出該圖像是否為目標(biāo)圖像的拷貝或近

似??紤]到圖像編輯的多樣化,相似圖像檢測選擇具有良好的尺度和

亮度不變性,同時(shí)對仿射形變、視角改變和噪聲等也有一定的魯棒性

的特征點(diǎn)來進(jìn)行建庫。通過比較查詢圖像與參考圖像的特征點(diǎn)相似

性,判斷出查詢圖像是否為相似圖像。該技術(shù)能夠有效的處理復(fù)制、

編輯等操作引擎的圖像內(nèi)容的變化,具有較好的檢測準(zhǔn)確率。圖片檢

測技術(shù)提供圖像清晰度識別,適用于各類圖庫產(chǎn)品,提升整體圖像質(zhì)

量。通過圖像模糊、失焦、噪點(diǎn)、鋸齒以及馬賽克等維度進(jìn)行檢測,

對無價(jià)值的圖像數(shù)據(jù)實(shí)現(xiàn)去重。

針對音頻數(shù)據(jù),除了MD5值進(jìn)行校驗(yàn)去重之外,還可以通過對

音頻樣本進(jìn)行分析,可以在一個(gè)音頻集合中發(fā)現(xiàn)與音頻樣本相同的內(nèi)

容。這里相同的內(nèi)容是指在不同的音視頻文件中,與樣本內(nèi)容片段一

致的部分,實(shí)現(xiàn)音頻數(shù)據(jù)的去重。

視頻文件可以通過關(guān)鍵幀抽取,通過以圖找圖、語音識別、MD5

值校驗(yàn)等技術(shù),實(shí)現(xiàn)視頻的去重。

第35頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

2.3.3.2.2結(jié)構(gòu)化數(shù)據(jù)清洗

遵從數(shù)據(jù)標(biāo)準(zhǔn),根據(jù)業(yè)務(wù)規(guī)劃對冗余數(shù)據(jù)進(jìn)行過濾,根據(jù)不同的

去重規(guī)則和方法對數(shù)據(jù)進(jìn)行去重判定,去除重復(fù)冗余數(shù)據(jù)。通過定義

過濾規(guī)則,使用流式SQL和表達(dá)式,按條件對數(shù)據(jù)進(jìn)行重新組合和

二次加工。數(shù)據(jù)清洗可以區(qū)分為冗余信息過濾、敏感信息過濾、數(shù)據(jù)

去重和格式清洗等內(nèi)容。通過對數(shù)據(jù)進(jìn)行清洗,提高數(shù)據(jù)的使用價(jià)值。

數(shù)據(jù)清洗在具體實(shí)現(xiàn)上可分為全量清洗、增量清洗,根據(jù)實(shí)時(shí)性需要

可以區(qū)分為實(shí)時(shí)清洗、非實(shí)時(shí)清洗。清洗過程又可以細(xì)分為過濾、去

重、檢驗(yàn)、格轉(zhuǎn)。

2.3.3.3數(shù)據(jù)關(guān)聯(lián)

數(shù)據(jù)的多源性,導(dǎo)致不同來源的數(shù)據(jù)之間的關(guān)系時(shí)離散的,需要

對這些離散關(guān)系進(jìn)行匹配或聯(lián)接,進(jìn)一步提高數(shù)據(jù)可用性。

數(shù)據(jù)經(jīng)過提取、清洗之后形成的數(shù)據(jù)實(shí)體,比如可以通過命名實(shí)

體識別對身份證進(jìn)行識別,根據(jù)兩個(gè)身份證之間的共現(xiàn)或根據(jù)詞向量

計(jì)算詞與詞之間的相似度來判斷兩個(gè)人是否有關(guān)系。

2.3.3.4數(shù)據(jù)對比

數(shù)據(jù)比對包括結(jié)構(gòu)化比對、關(guān)鍵詞比對等,滿足數(shù)據(jù)關(guān)聯(lián)、線索

發(fā)現(xiàn)、觸網(wǎng)報(bào)警等業(yè)務(wù)需要。從數(shù)據(jù)類型上分,數(shù)據(jù)比對分為結(jié)構(gòu)化

數(shù)據(jù)比對、非結(jié)構(gòu)化數(shù)據(jù)比對。

在數(shù)據(jù)處理過程中,數(shù)據(jù)的比對通常作為數(shù)據(jù)的查重、篩選和補(bǔ)

第36頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

充,將輸入數(shù)據(jù)與已有數(shù)據(jù)進(jìn)行比對關(guān)聯(lián),結(jié)構(gòu)化數(shù)據(jù)主要通過數(shù)據(jù)

庫查詢、關(guān)鍵字索引實(shí)現(xiàn)比對,非結(jié)構(gòu)化數(shù)據(jù)圖像、聲紋等。數(shù)據(jù)比

對除了在各種應(yīng)用場景作為數(shù)據(jù)查詢與識別的方式,在數(shù)據(jù)管理方

面,將比對之后的數(shù)據(jù)進(jìn)行存儲(chǔ)、建模、標(biāo)識管理,不僅可以完善數(shù)

據(jù)關(guān)系、豐富數(shù)據(jù)資源庫,還可以優(yōu)化比對引擎,與數(shù)據(jù)應(yīng)用形成良

好的循環(huán)。常見的比對方式如下:

結(jié)構(gòu)化數(shù)據(jù)比對:通過對數(shù)據(jù)庫系統(tǒng)的SQL查詢,來實(shí)現(xiàn)精確

數(shù)據(jù)的比對查詢。

非結(jié)構(gòu)化數(shù)據(jù)比對:在海量非結(jié)構(gòu)化數(shù)據(jù)中,通過AI等相關(guān)技

術(shù),提取發(fā)現(xiàn)數(shù)據(jù),命中發(fā)現(xiàn)的相關(guān)信息。

結(jié)構(gòu)化和非結(jié)構(gòu)化融合比對:規(guī)則中同時(shí)支持對結(jié)構(gòu)化和非結(jié)構(gòu)

化信息的比對,實(shí)時(shí)發(fā)現(xiàn)海量數(shù)據(jù)和海量全文中的相關(guān)信息。

按照數(shù)據(jù)比對的方式,數(shù)據(jù)比對又分為如下比對:

關(guān)鍵詞比對:通過對關(guān)鍵詞及關(guān)鍵詞組合的比對,在海量全文數(shù)

據(jù)庫中命中發(fā)現(xiàn)關(guān)鍵詞相關(guān)信息。

二進(jìn)制比對:通過對二進(jìn)制文件(如文檔文件、圖片文件、音視

頻文件等)的比對,在數(shù)據(jù)中命中發(fā)現(xiàn)二進(jìn)制文件相關(guān)信息。

2.3.3.5數(shù)據(jù)標(biāo)識

標(biāo)識是對數(shù)據(jù)、數(shù)據(jù)集進(jìn)行某一特征、特征的識別和認(rèn)定。對數(shù)

據(jù)進(jìn)行標(biāo)識化可以增加數(shù)據(jù)維度,拓展數(shù)據(jù)的屬性,提供建立與數(shù)據(jù)

之上的抽象。標(biāo)識流程主要是圍繞標(biāo)識建立一套包括標(biāo)識的定義、執(zhí)

第37頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

行、流程管理以及可視化等功能的系統(tǒng)。

數(shù)據(jù)標(biāo)識支持離線和在線標(biāo)識。其中離線標(biāo)識由離線處理引擎完

成,采用離線批處理的方式進(jìn)行規(guī)則處理,生成并保存標(biāo)簽值。離線

處理引擎支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理模式。在線標(biāo)識是由實(shí)時(shí)

處理引擎實(shí)現(xiàn),引擎結(jié)構(gòu)流數(shù)據(jù)或消息數(shù)據(jù),對數(shù)據(jù)進(jìn)行實(shí)時(shí)規(guī)則處

理,生成并保存標(biāo)簽值。實(shí)時(shí)規(guī)則處理模式支持對數(shù)據(jù)源自身的規(guī)則

處理,以數(shù)據(jù)源與數(shù)據(jù)中臺(tái)其他數(shù)據(jù)源進(jìn)行關(guān)聯(lián)分析的規(guī)則處理方

式。

數(shù)據(jù)標(biāo)識依托標(biāo)識規(guī)則和知識庫,對輸入數(shù)據(jù)進(jìn)行比對分析、邏

輯計(jì)算,輸出打上敏感級別語言、區(qū)域、位置等標(biāo)識的數(shù)據(jù),為上層

應(yīng)用提供支持。數(shù)據(jù)標(biāo)識分為通用標(biāo)識和業(yè)務(wù)標(biāo)識,通用標(biāo)識是數(shù)據(jù)

自身所蘊(yùn)含的特定含義的顯性化,通常由數(shù)據(jù)的自身定義或由處理關(guān)

聯(lián)、比對結(jié)果等來確定。業(yè)務(wù)標(biāo)識是根據(jù)不同的知識庫形成具有明確

業(yè)務(wù)含義的標(biāo)識,對數(shù)據(jù)進(jìn)行業(yè)務(wù)標(biāo)識,支撐各種資源庫、主題庫的

形成及模型分析。

在對各種數(shù)據(jù)進(jìn)行標(biāo)識的過程中,需要預(yù)先從策略和配置中心獲

取標(biāo)識部分的策略和規(guī)則。

通過對用戶信息的分析、提煉形成高度精煉的自定義特征標(biāo)識定

義:基于標(biāo)識定義并結(jié)合資源目錄、規(guī)則庫、模型庫、算法庫等應(yīng)用

需求,在數(shù)據(jù)處理過程中同步對數(shù)據(jù)進(jìn)行標(biāo)識。根據(jù)地理、業(yè)務(wù)、安

全等級和數(shù)據(jù)的敏感等級等對數(shù)據(jù)進(jìn)行標(biāo)識。通過人工智能(語音識

別、圖像識別)和文本識別技術(shù)(NLP)對文本、圖片和媒體文件進(jìn)

笫38頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

行標(biāo)識。

2.3.3.6數(shù)據(jù)糾錯(cuò)

綜上所述,數(shù)據(jù)的標(biāo)準(zhǔn)化處理過程,按照數(shù)據(jù)標(biāo)準(zhǔn),基本實(shí)現(xiàn)了

自動(dòng)化和智能化的處理,但是由于數(shù)據(jù)的多源異構(gòu)特性,數(shù)據(jù)的龐大

復(fù)雜性,對此類數(shù)據(jù)的自動(dòng)化處理將是一個(gè)漸進(jìn)改進(jìn)的過程。在平臺(tái)

前期運(yùn)行中,對進(jìn)入各類資源庫、主題庫和業(yè)務(wù)庫的數(shù)據(jù)需要進(jìn)行準(zhǔn)

確性認(rèn)定。針對有誤的策略執(zhí)行回滾操作,針對錯(cuò)誤的數(shù)據(jù)中實(shí)現(xiàn)

糾正錯(cuò)誤數(shù)據(jù)功能。

2.3.3.7數(shù)據(jù)處理任務(wù)調(diào)度

輸匯聚模式,實(shí)現(xiàn)任務(wù)自動(dòng)切片分發(fā)、斷點(diǎn)續(xù)傳、節(jié)點(diǎn)管理、調(diào)

度節(jié)點(diǎn)故障切換等功能。對視頻圖像、音頻、文檔等大文件數(shù)據(jù),提

供FTP/SFTP、HTTP等文件傳輸方式,實(shí)現(xiàn)斷網(wǎng)續(xù)傳、多線程并行、

分塊傳輸?shù)裙δ堋?/p>

支持對各類數(shù)據(jù)文件的同步、異步,多節(jié)點(diǎn)間文件接力傳輸,支

持對文件、文件夾、文件夾下指定文件傳輸?shù)裙δ埽С謱?shù)據(jù)文件

的全量、增量傳輸,對中間過期文件的壓縮、清理,及文件的多副本

存儲(chǔ)。支持實(shí)時(shí)數(shù)據(jù)交換及加工,實(shí)現(xiàn)數(shù)據(jù)庫、文件、JSON、XML

及MQ、TLQ等之間的相互交換功能。

支持各類轉(zhuǎn)換程序和交換任務(wù)的靈活定制,方便用戶對數(shù)據(jù)提取

匯聚任務(wù)的流程控制和動(dòng)態(tài)處理。支持對數(shù)據(jù)傳輸過程中的加密、壓

縮等功能。

第39頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

支持按年、月、周、日、小時(shí)、分鐘、秒定時(shí)調(diào)度,可選指定有

效時(shí)間內(nèi)調(diào)度。增量情況下支持實(shí)時(shí)調(diào)度,數(shù)據(jù)近秒級同步。

提供事件觸發(fā)調(diào)度功能,包括文件就緒觸發(fā)、變化日志觸發(fā)、

HTTP等接口或URL調(diào)度事件觸發(fā),支持操作系統(tǒng)shell腳本,和數(shù)

據(jù)庫系統(tǒng)的shell命令和SQL腳本調(diào)度功能。

提供調(diào)度任務(wù)的實(shí)時(shí)可視化監(jiān)控,包括交換節(jié)點(diǎn)的操作系統(tǒng)主要

性能指標(biāo)的圖標(biāo)、曲線,支持監(jiān)控?cái)?shù)據(jù)接口開發(fā)。

提供流程調(diào)度組建,包括采樣分流組建和任務(wù)編排組件,實(shí)現(xiàn)多

任務(wù)的并行、串行、混合調(diào)度功能。采樣分流一是實(shí)現(xiàn)數(shù)據(jù)的采樣,

例:100w數(shù)據(jù),按照1算的比例進(jìn)行采樣;二是實(shí)現(xiàn)根據(jù)數(shù)據(jù)的條

件進(jìn)行判斷后對數(shù)據(jù)進(jìn)行分流,例如性別為男的到某個(gè)庫、性別為女

的到另一個(gè)庫,實(shí)現(xiàn)數(shù)據(jù)判斷分流。任務(wù)編排用于實(shí)現(xiàn)當(dāng)A方案執(zhí)

行完畢后,需要馬上啟動(dòng)B方案的執(zhí)行,此插件配置在A方案的末

尾,用戶指定需要調(diào)度的方案。

控制管理主要面向執(zhí)行節(jié)點(diǎn)合調(diào)度節(jié)點(diǎn),執(zhí)行節(jié)點(diǎn)主要承擔(dān)數(shù)據(jù)

傳輸任務(wù)的部署運(yùn)行智能,各配置好的數(shù)據(jù)傳輸任務(wù)采用數(shù)據(jù)庫方式

存儲(chǔ),能夠在不同執(zhí)行節(jié)點(diǎn)上按需選用單機(jī)、集群或分布式模式執(zhí)行。

調(diào)度節(jié)點(diǎn)是執(zhí)行所有數(shù)據(jù)傳輸任務(wù)的統(tǒng)一入口,采用“雙活”模式部

署運(yùn)行,當(dāng)一個(gè)調(diào)度節(jié)點(diǎn)出現(xiàn)故障時(shí),另一個(gè)調(diào)度節(jié)點(diǎn)能夠自動(dòng)接管

正在執(zhí)行的數(shù)據(jù)傳輸任務(wù)并實(shí)現(xiàn)斷點(diǎn)續(xù)傳,保障任務(wù)執(zhí)行穩(wěn)定性,確

保調(diào)度節(jié)點(diǎn)可靠運(yùn)行。

數(shù)據(jù)傳輸任務(wù)調(diào)度方式按需選擇,支持順序、按需(常規(guī)類型)

笫40頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

分壓、分流(復(fù)雜類型)等多種方式。調(diào)度節(jié)點(diǎn)能夠根據(jù)每個(gè)執(zhí)行節(jié)

點(diǎn)任務(wù)執(zhí)行情況,自動(dòng)調(diào)配任務(wù)負(fù)載,能夠?qū)⑿略龅膫鬏斎蝿?wù)或壓力

較大執(zhí)行節(jié)點(diǎn)的傳輸任務(wù),調(diào)配到相對較空閑的執(zhí)行節(jié)點(diǎn)。調(diào)度節(jié)點(diǎn)

能夠自動(dòng)檢測執(zhí)行節(jié)點(diǎn)出現(xiàn)的問題并做自動(dòng)處理,能夠感知新增的執(zhí)

行節(jié)點(diǎn)并自動(dòng)添加到分布式執(zhí)行節(jié)點(diǎn)集群。調(diào)度節(jié)點(diǎn)要具備高可用能

力。

數(shù)據(jù)處理中使用到的完整的任務(wù)調(diào)度引擎,需要支持監(jiān)控調(diào)度引

擎中每個(gè)調(diào)度任務(wù)的運(yùn)行狀態(tài),如:當(dāng)前是否運(yùn)行;最近一次運(yùn)行的

時(shí)間、運(yùn)行結(jié)果、是否出現(xiàn)異常等。

2.3.3.8策略配置管理

針對結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的不同類型特點(diǎn),

配置管理中心支持按照提取、清洗、過濾、比對、關(guān)聯(lián)、標(biāo)識等數(shù)據(jù)

處理過程,提供一體化、可融合的數(shù)據(jù)適配解析器器合數(shù)據(jù)轉(zhuǎn)換功能,

實(shí)現(xiàn)根據(jù)數(shù)據(jù)類型合數(shù)據(jù)情況的自適應(yīng)數(shù)據(jù)解析和流程化處理。

支持任意種類、任意數(shù)據(jù)結(jié)構(gòu)、任意目標(biāo)庫的數(shù)據(jù)提取傳輸,這

次kafka、webservice等消息處理機(jī)制,支持流式和離線處理。

支持任意類型的數(shù)據(jù)融合任務(wù)配置,在保證數(shù)據(jù)安全的基礎(chǔ)上,

根據(jù)傳輸策略,進(jìn)行數(shù)據(jù)傳輸和存儲(chǔ)。

支持過濾、融合規(guī)則自定義,主要包括代碼映射、NULL值替換、

字符串操作、字符串替換、字符串截取、添加字段、數(shù)據(jù)類型轉(zhuǎn)換、

公式計(jì)算、正則處理、組合字段、身份證操作、獲取圖片、數(shù)據(jù)比對、

第41頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

自定義SQL腳本執(zhí)行、JSON輸出等數(shù)據(jù)轉(zhuǎn)換規(guī)則,以及對關(guān)鍵字段

空值、重復(fù)、異常等問題數(shù)據(jù)過濾規(guī)則,以及MD5加密規(guī)則。

實(shí)現(xiàn)基于數(shù)據(jù)元的異構(gòu)數(shù)據(jù)自動(dòng)解析,并能按照業(yè)務(wù)場景進(jìn)行自

定義配置,實(shí)現(xiàn)智能化、可視化、組建式數(shù)據(jù)匯聚融合任務(wù)構(gòu)建。

支持可視化配置管理,根據(jù)不同的數(shù)據(jù)級別,分配不同的配置權(quán)

限空值。

支持策略配置的保存、加載、自動(dòng)分發(fā)同步功能。

2.3.3.9數(shù)據(jù)存儲(chǔ)

結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)可存儲(chǔ)于分布式并行數(shù)據(jù)庫中,數(shù)據(jù)存儲(chǔ)

格式可以為列式存儲(chǔ)和行式存儲(chǔ)等多種存儲(chǔ)方式;

分布式內(nèi)存系統(tǒng):管理多個(gè)底層文件系統(tǒng),將不同的文件系統(tǒng)統(tǒng)

一在同一個(gè)名稱空間下,讓上層客戶端可以自由訪問統(tǒng)一空間內(nèi)的不

同路徑、不同存儲(chǔ)系統(tǒng)的數(shù)據(jù),供文件接口,存儲(chǔ)并維護(hù)文件的元數(shù)

據(jù);并提供容錯(cuò)的元數(shù)據(jù)服務(wù)。

針對不同的應(yīng)用場景支持傳統(tǒng)的批處理系統(tǒng)和高并發(fā)MPP作為

查詢引擎。批處理系統(tǒng)使用場景分鐘級、小時(shí)級以上的任務(wù)、穩(wěn)定可

靠、成本低;MPP使用場景為秒級、毫秒級以下的處理任務(wù),主要

服務(wù)于即席查詢場景,對外提供各種數(shù)據(jù)查詢和可視化服務(wù)。

在查詢引擎上層做統(tǒng)一封裝,提供統(tǒng)一的分布式并行數(shù)據(jù)庫服

務(wù)。

多種數(shù)據(jù)類型支持

第42頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

支持結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)(JSON/BSON,XML形式存

儲(chǔ))o由于越來越多的應(yīng)用在考慮對結(jié)構(gòu)化數(shù)據(jù)的增刪改查操作和半

結(jié)構(gòu)化數(shù)據(jù)做查詢,檢索和分析,對這些數(shù)據(jù)存儲(chǔ)的支持能簡化應(yīng)用

程序的開發(fā)工作,同時(shí)優(yōu)化使得對這類數(shù)據(jù)的操作性能更高。

文本格式支持

可支持TextFile、XML和JSON等文本??蓪⑸鲜龅奈募懭?/p>

到數(shù)據(jù)庫的文件系統(tǒng)中,由于上述文本格式除了會(huì)占用更多磁盤資源

外,對它的解析開銷一般會(huì)比二進(jìn)制格式高幾十倍以上,尤其是XML

和JSON,它們的解析開銷比TextFile還要大??蓪⑸鲜鑫募袷竭M(jìn)

行壓縮后入庫,大幅減少磁盤空間的占用率。

文本數(shù)據(jù)入庫后,可通過統(tǒng)一的SQL語句對數(shù)據(jù)進(jìn)行查詢。

數(shù)據(jù)表壓縮

對中間數(shù)據(jù)或最終數(shù)據(jù)做壓縮,是提高數(shù)據(jù)吞吐量和性能的一種

手段。對數(shù)據(jù)做壓縮,可以大量減少磁盤的存儲(chǔ)空間,比如基于文本

的數(shù)據(jù)文件,壓縮比可達(dá)5倍以上,同時(shí)壓縮后的文件在磁盤間傳輸

和I/O也會(huì)大大減少。使用RocksDB對數(shù)據(jù)進(jìn)行存儲(chǔ),并支持LZ4

等多種壓縮算法。支持對表按照壓縮比例進(jìn)行及時(shí)透明壓縮。數(shù)據(jù)壓

縮后支持查詢、修改、插入、刪除,此過程中無需解壓。

分布式云存儲(chǔ)系統(tǒng),在數(shù)據(jù)存儲(chǔ)層構(gòu)建的分布式文件系統(tǒng)作為圖

片、視頻等非結(jié)構(gòu)化文件的基礎(chǔ)文件系統(tǒng),對各類媒體流數(shù)據(jù),如視

頻文件進(jìn)行存儲(chǔ)和管理。一般情況下,非結(jié)構(gòu)化文件如圖片、視頻

等。這類數(shù)據(jù)數(shù)據(jù)量很大,屬于非結(jié)構(gòu)化數(shù)據(jù),不宜存儲(chǔ)在數(shù)據(jù)庫中。

笫43頁共93頁

數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案

另外,這類數(shù)據(jù)的查詢并不是直接針對圖片和視頻本身的查詢,而是

根據(jù)圖片或視頻(如果有)文件的路徑進(jìn)行定位。

2.3.3.10數(shù)據(jù)模型建設(shè)

整個(gè)模型工程的架構(gòu)主要由算子管理、模型建模、模型管理和模

型引擎四部分組成。

用戶可以通過多種建模方式創(chuàng)建基于標(biāo)準(zhǔn)的模型,部署到模型運(yùn)

行引擎上面配置模型參數(shù),模型運(yùn)行引擎會(huì)對模型運(yùn)行的合法性進(jìn)行

驗(yàn)證,包括是否符合標(biāo)準(zhǔn),數(shù)據(jù)資

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論