版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)技術(shù)方案
微信掃碼加入星球
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
1數(shù)據(jù)中臺(tái)概述
1.1數(shù)據(jù)中臺(tái)介紹
因?yàn)樵诋?dāng)今互聯(lián)網(wǎng)時(shí)代,用戶才是商業(yè)戰(zhàn)場的中心,為了快速響
應(yīng)用戶的需求,借助平臺(tái)化的力量可以事半功倍。然而第一之前在傳
統(tǒng)企業(yè)信息化建設(shè)中企業(yè)為了滿足單一業(yè)務(wù)場景需求而搭建的傳統(tǒng)
技術(shù)架構(gòu),其底層技術(shù)選型大都無法支撐現(xiàn)有大數(shù)據(jù)應(yīng)用場景。由此
形成的技術(shù)壁壘,往往使得企業(yè)轉(zhuǎn)型成本激增甚至無法實(shí)現(xiàn)轉(zhuǎn)型;第
二在企業(yè)不斷發(fā)展的過程中伴隨著業(yè)務(wù)的多元化發(fā)展,企業(yè)信息部門
單獨(dú)建設(shè)或重建全新業(yè)務(wù)系統(tǒng),逐漸形成了一個(gè)個(gè)相互獨(dú)立的數(shù)據(jù)中
心,從而導(dǎo)致大量系統(tǒng)、功能和應(yīng)用的重復(fù)建設(shè),更造成了計(jì)算存儲(chǔ)
資源和人力資源的浪費(fèi);第三企業(yè)由于業(yè)務(wù)發(fā)展帶來的組織壁壘而形
成的數(shù)據(jù)孤島,是數(shù)據(jù)壁壘最典型的場景。它使得企業(yè)數(shù)據(jù)難以被全
局規(guī)劃和定義,從而導(dǎo)致數(shù)據(jù)價(jià)值無法被充分挖掘。傳統(tǒng)信息化建設(shè)
往往以滿足業(yè)務(wù)流程結(jié)果做為唯一標(biāo)準(zhǔn),忽視了過程數(shù)據(jù)和關(guān)聯(lián)數(shù)
據(jù)。傳統(tǒng)的數(shù)據(jù)平臺(tái)和其所謂的三層技術(shù)架構(gòu):前端展示層、中間邏
輯層、后端數(shù)據(jù)層,已經(jīng)無法完善的解決上述三個(gè)問題并實(shí)現(xiàn)以用戶
為中心的業(yè)務(wù)提升的。
當(dāng)前企業(yè)數(shù)據(jù)的爆炸式增長以及價(jià)值的擴(kuò)大化,數(shù)據(jù)將對企業(yè)未
來的發(fā)展產(chǎn)生深遠(yuǎn)的影響,數(shù)據(jù)將成為企業(yè)的核心資產(chǎn)。數(shù)據(jù)中臺(tái)是
指通過數(shù)據(jù)技術(shù),對海量數(shù)據(jù)進(jìn)行采集、計(jì)算、存儲(chǔ)、加工,同時(shí)統(tǒng)
一標(biāo)準(zhǔn)和口徑。
第6頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
數(shù)據(jù)中臺(tái)把數(shù)據(jù)統(tǒng)一之后,會(huì)形成標(biāo)準(zhǔn)數(shù)據(jù),再進(jìn)行存儲(chǔ),形成
大數(shù)據(jù)資產(chǎn)層,進(jìn)而為客戶提供高效服務(wù)。這些服務(wù)跟企業(yè)的業(yè)務(wù)有
較強(qiáng)的關(guān)聯(lián)性,是這個(gè)企業(yè)獨(dú)有的且能復(fù)用的,它是企業(yè)業(yè)務(wù)和數(shù)據(jù)
的沉淀,其不僅能降低重復(fù)建設(shè)、減少煙囪式協(xié)作的成本,也是差異
化競爭優(yōu)勢所在。
1.2數(shù)據(jù)中臺(tái)的價(jià)值
中臺(tái)從公司戰(zhàn)略角度,將這些行為進(jìn)行了規(guī)范化,公共的部分交
給公共系統(tǒng)部門去做。
中臺(tái)實(shí)際上是通用業(yè)務(wù)的下沉,企業(yè)在一個(gè)行業(yè)耕耘多年之后,
一般都會(huì)形成一些公用的業(yè)務(wù),而這些業(yè)務(wù)是可以像中間件那樣進(jìn)行
下沉共享的。
政府企業(yè)機(jī)構(gòu)等對內(nèi)對外有了統(tǒng)一的業(yè)務(wù)系統(tǒng)、管理平臺(tái)等等,
就不會(huì)再有各種業(yè)務(wù)系統(tǒng)孤島,不會(huì)有數(shù)據(jù)打通問題,不會(huì)有跨部門
的數(shù)據(jù)墻。
有了統(tǒng)一的中臺(tái),也就有了統(tǒng)一的數(shù)據(jù)規(guī)范。
對于大數(shù)據(jù)相關(guān)的需求,可以從相對唯一的數(shù)據(jù)出口進(jìn)行業(yè)務(wù)迭
代,不需要為每一個(gè)部門進(jìn)行定制開發(fā),浪費(fèi)人力。
第7頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
1.3數(shù)據(jù)中臺(tái)設(shè)計(jì)原則
1.3.1數(shù)據(jù)的一致性與標(biāo)準(zhǔn)性
除遵循數(shù)據(jù)庫設(shè)計(jì)的軟件行業(yè)標(biāo)準(zhǔn)外,還要遵循國家、地方標(biāo)準(zhǔn)
及行業(yè)的習(xí)慣性事實(shí)標(biāo)準(zhǔn)。止匕外,數(shù)據(jù)中臺(tái)的建設(shè)中將充分考慮客戶
已建系統(tǒng)的數(shù)據(jù),確保與客戶現(xiàn)有數(shù)據(jù)的一致性和標(biāo)準(zhǔn)性。
1.3.2數(shù)據(jù)的實(shí)用性與服務(wù)性
數(shù)據(jù)中臺(tái)設(shè)計(jì)充分考慮實(shí)際情況和應(yīng)用特點(diǎn),遵循“服務(wù)性與實(shí)
用性并重”的原則,通過數(shù)據(jù)整合與治理,數(shù)據(jù)高度可共享、和可根
據(jù)實(shí)際需求不斷靈活組合,為業(yè)務(wù)應(yīng)用服務(wù),數(shù)據(jù)質(zhì)量高,保證數(shù)據(jù)
的實(shí)用性。
1.3.3數(shù)據(jù)的獨(dú)立性與可擴(kuò)展性
設(shè)計(jì)時(shí)需要做到數(shù)據(jù)中臺(tái)的數(shù)據(jù)具有獨(dú)立性,獨(dú)立于應(yīng)用程序,
使數(shù)據(jù)中心的設(shè)計(jì)及結(jié)構(gòu)的變化不影響程序,反之亦然。另外,數(shù)據(jù)
庫設(shè)計(jì)要考慮其擴(kuò)展性能,使得系統(tǒng)增加新應(yīng)用或新需求時(shí),不至于
引起整個(gè)數(shù)據(jù)中心結(jié)構(gòu)的大變動(dòng)。
1.3.4數(shù)據(jù)安全性
通過設(shè)計(jì)合理和有效的備份和恢復(fù)策略,確保數(shù)據(jù)中心遭遇突發(fā)
事故時(shí),能在最短的時(shí)間內(nèi)恢復(fù)。同時(shí),通過做好對數(shù)據(jù)中臺(tái)的訪問
授權(quán)設(shè)計(jì),保證數(shù)據(jù)不被非法訪問。
第8頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
1.3.5數(shù)據(jù)分級管理機(jī)制
根據(jù)用戶訪問數(shù)據(jù)中臺(tái)的角色,將用戶分成決策分析用戶、系統(tǒng)
管理用戶、運(yùn)行瀏覽用戶和運(yùn)行調(diào)度用戶等幾個(gè)角色,分別賦予角色
訪問數(shù)據(jù)的權(quán)限和使用系統(tǒng)功能的權(quán)限,嚴(yán)格控制角色登錄,實(shí)現(xiàn)數(shù)
據(jù)的分級管理。
1.4數(shù)據(jù)中臺(tái)設(shè)計(jì)方法
1.4.1基于面向服務(wù)的架構(gòu)方法(SOA)
基于面向服務(wù)的架構(gòu)方法(Service-OrientedArchitecture,SOA)
采用基于面向服務(wù)的架構(gòu)方法,構(gòu)建智慧城市運(yùn)營中心的業(yè)務(wù)流程和
IT架構(gòu)。SOA(面向服務(wù)的體系結(jié)構(gòu))將政府中各個(gè)系統(tǒng)應(yīng)用程序
的不同功能單元抽象為服務(wù),通過這些服務(wù)之間定義良好的接口和契
約聯(lián)系起來。接口是采用中立的方式進(jìn)行定義的,它獨(dú)立于實(shí)現(xiàn)服務(wù)
的硬件平臺(tái)、操作系統(tǒng)和編程語言。這使得構(gòu)建在各種各樣的系統(tǒng)中
的服務(wù)能夠通過統(tǒng)一和通用的方式進(jìn)行交互。SOA架構(gòu)由服務(wù)總線、
服務(wù)目錄、門戶、流程管理等幾個(gè)核心組件構(gòu)成的。這些核心組件協(xié)
同工作共同支撐服務(wù)的部署、運(yùn)行與管理監(jiān)控。
1.4.2業(yè)務(wù)系統(tǒng)規(guī)劃法(BSP)
業(yè)務(wù)系統(tǒng)規(guī)劃法(BusinessSystemPlanning,BSP)的關(guān)鍵思想是
將業(yè)務(wù)的長期戰(zhàn)略目標(biāo)轉(zhuǎn)化為信息系統(tǒng)的戰(zhàn)略目標(biāo),通過對業(yè)務(wù)戰(zhàn)略
的分析導(dǎo)出信息系統(tǒng)的規(guī)劃。
笫9頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
業(yè)務(wù)系統(tǒng)規(guī)劃法(BSP)采用的基本方法是“自頂而下”的識別
業(yè)務(wù)目標(biāo)、企業(yè)過程和數(shù)據(jù)“自下而上”地分布設(shè)計(jì)系統(tǒng),這樣可以
解決大型系統(tǒng)難以一次性設(shè)計(jì)完成的困難,也可以避免自下而上分散
設(shè)計(jì)可能出現(xiàn)的數(shù)據(jù)不一致。
數(shù)據(jù)
業(yè)務(wù)系統(tǒng)規(guī)劃法(BSP)的規(guī)劃步驟:
(1)準(zhǔn)備工作;
(2)調(diào)研;
(3)定義業(yè)務(wù)過程;
(4)業(yè)務(wù)過程重組;
(5)定義數(shù)據(jù)類;
(6)定義信息系統(tǒng)總體結(jié)構(gòu);
(7)確定總體結(jié)構(gòu)中的優(yōu)先順序;
完成BSP研究報(bào)告,提出建議書和開發(fā)計(jì)劃。
第10頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
1.4.3系統(tǒng)工程理論
系統(tǒng)工程方法將相關(guān)問題及情況分門別類,確定邊界,側(cè)重各門
類之間內(nèi)在聯(lián)系,確保處理方法的完整性,采用全面和運(yùn)動(dòng)的觀點(diǎn)、
方法分析主要問題及整個(gè)過程。其具有綜合性、科學(xué)性、實(shí)踐性的特
點(diǎn)。利用系統(tǒng)工程理論指導(dǎo)軟件開發(fā)和維護(hù),主要使用工程化概念、
原理、技術(shù)及方法開展軟件開發(fā)、維護(hù)的工作。采用系統(tǒng)工程方法是
用系統(tǒng)的原理、方法研究系統(tǒng)的對象,立足整體系統(tǒng),制作出科學(xué)的
工作計(jì)劃及流程,有效的完成任務(wù)。
系統(tǒng)工程方法依從系統(tǒng)全局觀點(diǎn),從系統(tǒng)與要素、系統(tǒng)與環(huán)境之
間相互聯(lián)系、相互作用出發(fā)研究相關(guān)對象,實(shí)現(xiàn)最佳處理問題的目標(biāo)。
其基本內(nèi)容有:全面調(diào)查研究有關(guān)資料和數(shù)據(jù),提取有效信息,系統(tǒng)
了解相關(guān)問題信息,進(jìn)一步確定完成任務(wù)所需條件:提出相關(guān)方案,
展開定性和定量的理論分析,進(jìn)而進(jìn)行實(shí)驗(yàn)研究,客觀評價(jià)系統(tǒng)技術(shù)
性能、經(jīng)濟(jì)指標(biāo),注重社會(huì)效果,為最終方案在理論和實(shí)踐上做鋪墊;
經(jīng)由系統(tǒng)分析與綜合,比較和鑒別出最優(yōu)系統(tǒng)設(shè)計(jì)方案進(jìn)行實(shí)施;依
據(jù)系統(tǒng)設(shè)計(jì)方案,指定有效計(jì)劃,將開發(fā)研究出的系統(tǒng)投入使用,并
對系統(tǒng)的性能、工作狀態(tài)及社會(huì)反應(yīng)做出相關(guān)評價(jià)和檢驗(yàn)。系統(tǒng)工程
方法在計(jì)算機(jī)軟件方面應(yīng)用廣泛,同時(shí)起著重要作用。結(jié)合系統(tǒng)工程
方法的特點(diǎn),在計(jì)算機(jī)軟件設(shè)計(jì)階段可規(guī)范其流程,促使計(jì)算機(jī)軟件
設(shè)計(jì)進(jìn)程加快,同時(shí)提高開發(fā)人員的工作效率,為軟件系統(tǒng)研發(fā)速度
的提高打下基礎(chǔ)。
第11頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
2數(shù)據(jù)中臺(tái)核心功能
2.1技術(shù)架構(gòu)
目前各政府機(jī)構(gòu)和企業(yè)的信息化平臺(tái)數(shù)據(jù)按結(jié)構(gòu)類型主要分為
三種,分別是:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)三大類;
結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中;非結(jié)構(gòu)化數(shù)據(jù)主要包括音視頻、
圖片、文檔等,通過分布式文件系統(tǒng)在數(shù)據(jù)庫進(jìn)行統(tǒng)一管理;半結(jié)構(gòu)
化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,但它并不符合關(guān)系型數(shù)據(jù)庫或其他
數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來分隔
語義元素以及對記錄和字段進(jìn)行分層,例如:日志文件、XML文檔、
JSON文檔、Email等。建設(shè)數(shù)據(jù)中臺(tái)的過程中,這三類數(shù)據(jù)都會(huì)做
為數(shù)據(jù)源出現(xiàn),因此數(shù)據(jù)中臺(tái)要能夠妥善的處理這三種類型的數(shù)據(jù)。
第12頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
數(shù)字中臺(tái)基于數(shù)據(jù)資源多樣性的特點(diǎn)和能夠高效支持業(yè)務(wù)的目
標(biāo),結(jié)合設(shè)計(jì)規(guī)劃方法論、原則和規(guī)劃思路,統(tǒng)一數(shù)據(jù)資源體系規(guī)劃
建設(shè)大數(shù)據(jù)采集感知體系、數(shù)據(jù)資源融合體系和信息共享服務(wù)體系,
將數(shù)據(jù)安全和數(shù)據(jù)標(biāo)準(zhǔn)融入三大體系之中,通過智能演進(jìn)不斷提升數(shù)
據(jù)接入、處理、組織、挖掘、治理和服務(wù)的能力,不斷豐富和完善數(shù)
據(jù)中臺(tái)。
數(shù)據(jù)中臺(tái)主要包函:數(shù)據(jù)統(tǒng)一采集接入平臺(tái)、數(shù)據(jù)集中處理平臺(tái)、
數(shù)據(jù)組織管理平臺(tái)、數(shù)據(jù)組織管理平臺(tái)、數(shù)據(jù)全域治理平臺(tái)、數(shù)據(jù)融
合共享平臺(tái)、數(shù)據(jù)分析挖掘平臺(tái)、知識圖譜平臺(tái)、統(tǒng)一管理平臺(tái)、數(shù)
據(jù)可視化平臺(tái)等多個(gè)平臺(tái)系統(tǒng)。
2.1.1層次架構(gòu)
基于數(shù)據(jù)資源的需求分析和愿景目標(biāo),結(jié)合設(shè)計(jì)規(guī)劃方法論、原
則和規(guī)劃思路,統(tǒng)一數(shù)據(jù)資源體系規(guī)劃建設(shè)大數(shù)據(jù)采集感知體系、數(shù)
據(jù)資源融合體系和信息共享服務(wù)體系,將數(shù)據(jù)安全和數(shù)據(jù)標(biāo)準(zhǔn)融入三
大體系之中,通過智能演進(jìn)不斷提升數(shù)據(jù)接入、處理、組織、挖掘、
治理和服務(wù)的能力,不斷豐富和完善數(shù)據(jù)中臺(tái)。數(shù)據(jù)資源總體架構(gòu)圖
如下所示:
第13頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
2.1.2邏輯架構(gòu)
統(tǒng)一數(shù)據(jù)資源體系的規(guī)劃建設(shè)是數(shù)據(jù)建設(shè)的核心,承載著高效使
用底層平臺(tái)能力進(jìn)行海量數(shù)據(jù)的動(dòng)態(tài)感知采集和接入、標(biāo)準(zhǔn)化和智能
化處理、精細(xì)化組織、全維度融合、精準(zhǔn)可控的共享服務(wù)、多手段集
成安全等關(guān)鍵責(zé)任和重任。為實(shí)現(xiàn)上述目標(biāo),統(tǒng)一數(shù)據(jù)資源體系規(guī)劃
了三大體系:大數(shù)據(jù)感知采集體系、數(shù)據(jù)資源融合體系以及數(shù)據(jù)共享
服務(wù)體系。系統(tǒng)功能設(shè)計(jì)上,主要包含:數(shù)據(jù)接入、數(shù)據(jù)處理、數(shù)據(jù)
組織、數(shù)據(jù)挖掘和數(shù)據(jù)治理、數(shù)據(jù)共享服務(wù)。各個(gè)模塊的功能構(gòu)成如
下:
第14頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
■數(shù)據(jù)共?享服務(wù)
數(shù)據(jù)資源融合體
數(shù)據(jù)挖掘
數(shù)據(jù)組織
數(shù)據(jù)處理
2.1.3數(shù)據(jù)架構(gòu)
數(shù)據(jù)中臺(tái)數(shù)據(jù)架構(gòu)是針對多源異構(gòu)的數(shù)據(jù)場景,在數(shù)據(jù)組織層面
為數(shù)據(jù)的接入、融合及智能數(shù)據(jù)應(yīng)用服務(wù)等提供穩(wěn)定、高效的支撐。
從數(shù)據(jù)的接入方式、存儲(chǔ)方式、加工方式、使用方式等方面綜合考慮,
資源庫是在原始庫的基礎(chǔ)上進(jìn)行數(shù)據(jù)的規(guī)范化治理及基于數(shù)據(jù)主題
的整合;主題庫是以原始數(shù)據(jù)、資源數(shù)據(jù)為基礎(chǔ),構(gòu)件實(shí)體關(guān)系模型,
并在此基礎(chǔ)上形成的知識圖譜和事理圖譜等;業(yè)務(wù)庫是為了支撐不同
業(yè)務(wù)場景所定義的相關(guān)數(shù)據(jù)結(jié)構(gòu)。知識庫是專業(yè)領(lǐng)域或與專業(yè)領(lǐng)域相
關(guān)的特征知識數(shù)據(jù)和規(guī)則方法集合。此外還包括整合數(shù)據(jù)索引信息的
統(tǒng)一索引庫;記錄了本平臺(tái)及與平臺(tái)相關(guān)的數(shù)據(jù)的屬性、位置、數(shù)據(jù)
量、權(quán)限等基本信息的數(shù)據(jù)資源目錄;記錄了技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)
據(jù)、管理元數(shù)據(jù)的元數(shù)據(jù)庫;以及為交互分析挖掘規(guī)劃的數(shù)據(jù)實(shí)驗(yàn)空
間和記錄平臺(tái)相關(guān)管理配置信息的管理信息庫。數(shù)據(jù)架構(gòu)圖如下:
第15頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
業(yè)務(wù)年
1—\|_■tv何君£
g§目
映ft?
BB1
責(zé)海信息業(yè)券信電
■居g
結(jié)構(gòu)化數(shù)1K非結(jié)電化的密
2.2數(shù)據(jù)統(tǒng)一采集接入平臺(tái)
2.2.1平臺(tái)架構(gòu)
「多源異構(gòu)接入接入處理
策略配置任務(wù)配置
采用統(tǒng)一的數(shù)據(jù)接入模式,以標(biāo)準(zhǔn)化、模塊化的方式進(jìn)行多源異
構(gòu)數(shù)據(jù)資源的接入;提供采集全面、動(dòng)態(tài)可配的數(shù)據(jù)接入機(jī)制,實(shí)現(xiàn)
數(shù)據(jù)的獲取分發(fā)、策略配置、任務(wù)配置、任務(wù)調(diào)度、數(shù)據(jù)加密、斷點(diǎn)
第16頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
續(xù)傳等數(shù)據(jù)接入功能;當(dāng)接入時(shí),同時(shí)維護(hù)數(shù)據(jù)資源目錄,以及數(shù)據(jù)
血緣信息。
2.2.2數(shù)據(jù)流程
平臺(tái)提供一站式的數(shù)據(jù)遷移接入功能,內(nèi)部數(shù)據(jù)通過專用數(shù)據(jù)通
道進(jìn)入統(tǒng)一接入平臺(tái),可在接入過程中做初步的清洗加工,并提供可
視化的任務(wù)調(diào)度運(yùn)行管理,并向數(shù)據(jù)智能管理和數(shù)據(jù)治理提供數(shù)據(jù)支
撐。
2.2.3平臺(tái)功能
2.2.3.1數(shù)據(jù)接入
考慮到數(shù)據(jù)的種類多樣性、多源異構(gòu)性,以及通道的多樣復(fù)雜性,
數(shù)據(jù)接入系統(tǒng)支持多源接入,支持對數(shù)據(jù)接入的插件化管理,可以分
為關(guān)系型數(shù)據(jù)庫、nosql數(shù)據(jù)庫、分布式存儲(chǔ)系統(tǒng)、流式處理系統(tǒng)、
消息中間件系統(tǒng)、文本文件和文件系統(tǒng)等。
第17頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
數(shù)據(jù)接入系統(tǒng)支持對數(shù)據(jù)的DML的抽取,抽取內(nèi)容包括insert、
update、delete語句的解析和內(nèi)容抽?。恢С謱?shù)據(jù)庫DDL的抽取,
抽取內(nèi)容包括且不限于數(shù)據(jù)庫表空間、用戶、角色、視圖、函數(shù)、索
引、約束等,對關(guān)系型數(shù)據(jù)庫的全量采集和增量采集。
數(shù)據(jù)接入系統(tǒng)支持庫到庫、庫到文件、文件到文件、文件到庫的
實(shí)時(shí)數(shù)據(jù)接入,包括MogoDB、Hive、HBase、XML>JSON等,在
可視化配置界面中通過拖拉建立和異構(gòu)系統(tǒng)的映射關(guān)系。
數(shù)據(jù)接入系統(tǒng)支持分布式存儲(chǔ),提供分布式文件共享存儲(chǔ)、多副
本功能,提供對分布式存儲(chǔ)中的文件、文件夾進(jìn)行權(quán)限控制,使得各
系統(tǒng)只能訪問授權(quán)的文件、文件夾。提供對分布式存儲(chǔ)的可視化操作,
包括對文件進(jìn)行復(fù)制、粘貼、刪除等。
數(shù)據(jù)接入系統(tǒng)支持流式處理系統(tǒng),包括CQ、flink等,芨持Flume
采集組建,支持消息中間件系統(tǒng),如kafka、RabbitMQ、ActiveMQ
等。支持實(shí)時(shí)流式數(shù)據(jù)接入、全量離線數(shù)據(jù)接入、周期性批量數(shù)據(jù)接
入等多種數(shù)據(jù)接入方式。支持push被動(dòng)接受和pull主動(dòng)拉去兩種方
式。依據(jù)數(shù)據(jù)接入策略、傳輸策略對接入的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)
據(jù)、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行檢驗(yàn),并按接入輸出分發(fā)策略進(jìn)行輸出存入原
始庫或分發(fā)給數(shù)據(jù)處理流程。
數(shù)據(jù)接入系統(tǒng)提供對多種文件格式的解析器,包括BCP、二的1
XML、AVRO、JSON、CSV及自定義格式txt文件,提供對FTP/SFTP、
HTTP/HTTPS、Socket、WebService、SNMP等標(biāo)準(zhǔn)協(xié)議的數(shù)據(jù)接收
能力。
笫18頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
數(shù)據(jù)接入系統(tǒng)支持多節(jié)點(diǎn)文件接力傳輸功能,實(shí)現(xiàn)多節(jié)點(diǎn)文件傳
輸,支持對文件、文件夾、文件夾下的指定文件,自動(dòng)感知變化文件
傳輸功能,包括:HTML數(shù)據(jù)類型、EXCEL表格數(shù)據(jù)類型、PDF電
子文件數(shù)據(jù)類型、WORD文本文檔數(shù)據(jù)類型、圖像數(shù)據(jù)類型、音頻
數(shù)據(jù)類型、視頻數(shù)據(jù)類型、超媒體數(shù)據(jù)類型等。提供過期文件數(shù)據(jù)接
入系統(tǒng)中間數(shù)據(jù)緩存功能,通過redis、hazelcast等實(shí)現(xiàn)分布式緩存提
高數(shù)據(jù)的讀取速率,保障數(shù)據(jù)的一致性。接入系統(tǒng)提供多通道數(shù)據(jù)傳
輸,利用分層隔離原則,采用三種數(shù)據(jù)傳輸通道:通用數(shù)據(jù)傳輸通道、
高優(yōu)先級數(shù)據(jù)傳輸通道、高吞吐量數(shù)據(jù)傳輸通道。
提供標(biāo)準(zhǔn)接口,針對特殊數(shù)據(jù)結(jié)構(gòu)及類型做插件開發(fā),進(jìn)而支持
多樣化的數(shù)據(jù)來源。
2.2.3.2數(shù)據(jù)接入策略配置
數(shù)據(jù)接入系統(tǒng)策略配置模塊針對多數(shù)據(jù)源系統(tǒng)以及結(jié)構(gòu)化數(shù)據(jù)、
半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的不同數(shù)據(jù)類型特點(diǎn),按照抽取、同步、
整合等數(shù)據(jù)處理步驟,提供一體化、可融合的數(shù)據(jù)適配解析器和數(shù)據(jù)
轉(zhuǎn)換功能,采用插件方式,支持二次開發(fā),實(shí)現(xiàn)根據(jù)數(shù)據(jù)源情況的自
適應(yīng)數(shù)據(jù)解析和流程化處理。
數(shù)據(jù)接入的策略配置模塊支持任意種類、任意數(shù)據(jù)源、任意目標(biāo)
庫的數(shù)據(jù)抽取傳輸,常用數(shù)據(jù)源、目標(biāo)庫類型主要有關(guān)系型數(shù)據(jù)庫、
列簇?cái)?shù)據(jù)庫、并行分布式數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫、全文索引數(shù)據(jù)庫等主
流數(shù)據(jù)庫,支持FTP、XML、CSV、JSON.EXCEL>RCFILE等常
第19頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
用文件類型,支持kafka、WebService等消息處理類。
數(shù)據(jù)接入的策略配置模塊支持任意類型的抽取匯聚任務(wù)配置,主
要包括異構(gòu)數(shù)據(jù)庫之間數(shù)據(jù)傳輸匯聚,不同類型、跨服務(wù)器的文件型
數(shù)據(jù)傳輸,數(shù)據(jù)庫和文件類、服務(wù)接口間相互傳輸?shù)取2呗耘渲媚K
實(shí)現(xiàn)基于數(shù)據(jù)源的異構(gòu)數(shù)據(jù)自動(dòng)解析,并能按照任務(wù)場景進(jìn)行自定義
配置,實(shí)現(xiàn)智能化、可視化、組件式數(shù)據(jù)匯聚整合任務(wù)構(gòu)建。
對于數(shù)據(jù)接入周期不同需求的數(shù)據(jù)接入,策略配置模塊支持多樣
化的數(shù)據(jù)接入周期配置。根據(jù)數(shù)據(jù)接入實(shí)際需求的不同,策略配置模
塊支持實(shí)時(shí)數(shù)據(jù)接入、周期數(shù)據(jù)接入、批量數(shù)據(jù)接入、增量數(shù)據(jù)接入、
全量數(shù)據(jù)接入。對于實(shí)時(shí)更新的數(shù)據(jù)源,接入平臺(tái)能夠?qū)?shù)據(jù)源做實(shí)
時(shí)的數(shù)據(jù)抽取,實(shí)現(xiàn)數(shù)據(jù)的周期性接入。對于實(shí)時(shí)性要求較低的數(shù)據(jù)
源,可以通過用戶自定義條件,對源數(shù)據(jù)做批量數(shù)據(jù)導(dǎo)出,實(shí)現(xiàn)用戶
自定義需求的批量接入。對于用戶指定數(shù)據(jù)源,通過指定的導(dǎo)出字段
或?qū)С鰲l件,對數(shù)據(jù)做周期性的增量導(dǎo)出,實(shí)現(xiàn)數(shù)據(jù)的增量接入。對
于體量較小的數(shù)據(jù)源,通過用戶配置,實(shí)現(xiàn)對源數(shù)據(jù)的全量數(shù)據(jù)導(dǎo)出,
實(shí)現(xiàn)數(shù)據(jù)的一次性。
策略配置模塊支持多樣化輸出配置。數(shù)據(jù)接入系統(tǒng)包含多樣化的
數(shù)據(jù)接入輸出接口,可對的輸出做多樣化配置,這里包括本地存儲(chǔ)系
統(tǒng)、關(guān)系型數(shù)據(jù)庫、nosql數(shù)據(jù)庫、圖數(shù)據(jù)庫、分布式文件系統(tǒng)、分
布式緩存系統(tǒng)、全文存儲(chǔ)系統(tǒng)、實(shí)時(shí)計(jì)算流系統(tǒng)、消息中間件系統(tǒng),
同時(shí)支持消息的訂閱分發(fā)。
第20頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
2.2.3.3接入數(shù)據(jù)斷點(diǎn)續(xù)傳
數(shù)據(jù)接入系統(tǒng)支持?jǐn)?shù)據(jù)傳輸過程中的斷點(diǎn)續(xù)傳。在數(shù)據(jù)總線傳輸
過程中,當(dāng)遇到網(wǎng)絡(luò)故障、傳輸資源短缺、入原始庫積壓時(shí),狀態(tài)總
線記錄接入數(shù)據(jù)中斷點(diǎn)及數(shù)據(jù)接入中斷狀態(tài),控制總線在數(shù)據(jù)接入所
需網(wǎng)絡(luò)、存儲(chǔ)等資源可用時(shí),從排隊(duì)任務(wù)中重新啟動(dòng)斷點(diǎn)續(xù)傳任務(wù),
分配數(shù)據(jù)總線資源,從數(shù)據(jù)斷點(diǎn)處接入后續(xù)數(shù)據(jù),不需要從頭開始數(shù)
據(jù)傳輸,從而節(jié)約數(shù)據(jù)傳輸時(shí)間,提高數(shù)據(jù)接入效率。在數(shù)據(jù)分發(fā)過
程中,數(shù)據(jù)訂閱方?jīng)]能正常接收訂閱的數(shù)據(jù)時(shí),接入系統(tǒng)支持對失敗
數(shù)據(jù)做斷點(diǎn)重發(fā)。
2.2.3.4數(shù)據(jù)接入任務(wù)管理
數(shù)據(jù)接入系統(tǒng)支持多樣化的任務(wù)管理方式,實(shí)現(xiàn)了多種場景的任
務(wù)調(diào)度機(jī)制對數(shù)據(jù)接入的任務(wù)支持多角度的任務(wù)監(jiān)功能,支持異常處
理、重新調(diào)度等功能,及時(shí)解決存在問題,恢復(fù)數(shù)據(jù)傳輸,確保按時(shí)
完成數(shù)據(jù)匯聚整合任務(wù),保證大數(shù)據(jù)中心數(shù)據(jù)資源的準(zhǔn)確性、完整性
和一致性。
數(shù)據(jù)接入系統(tǒng)任務(wù)調(diào)度模塊按照數(shù)據(jù)規(guī)模、更新頻率、內(nèi)容特征
等數(shù)據(jù)屬性特點(diǎn),采用組建(插件)方式,分類實(shí)現(xiàn)不同場景下多元
化數(shù)據(jù)抽取匯聚策略。對數(shù)據(jù)總量規(guī)模不大、增量有限的一般業(yè)務(wù)數(shù)
據(jù),采用傳統(tǒng)數(shù)據(jù)抽取匯聚模式,實(shí)現(xiàn)與當(dāng)前在用數(shù)據(jù)抽取工具的集
成或開發(fā)類似功能。對高總量、高增長量的數(shù)據(jù)資源,采用大數(shù)據(jù)傳
輸匯聚模式,實(shí)現(xiàn)任務(wù)自動(dòng)切片分發(fā)、斷點(diǎn)續(xù)傳、節(jié)點(diǎn)管理、調(diào)度節(jié)
第21頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
點(diǎn)故障切換等功能。對視頻圖像、音頻、文檔等大文件數(shù)據(jù),提供
FTP>HTTP等文件傳輸方式,實(shí)現(xiàn)斷點(diǎn)續(xù)傳、多線程并行等功能。
數(shù)據(jù)接入系統(tǒng)任務(wù)調(diào)度模塊具有多樣化的任務(wù)調(diào)度機(jī)制,支持各
類轉(zhuǎn)換程序和交換任務(wù)的靈活定制,方便用戶對數(shù)據(jù)抽取匯聚任務(wù)的
流程控制和動(dòng)態(tài)處理。支持按年、月、周、日、小時(shí)、分鐘、秒定時(shí)
調(diào)度,可選指定有效時(shí)間內(nèi)調(diào)度。增量情況下支持實(shí)時(shí)調(diào)度,數(shù)據(jù)近
秒級同步。支持推(push)、拉(pull)的數(shù)據(jù)使用方式。數(shù)據(jù)增量捕
捉支持按時(shí)間戳、數(shù)據(jù)快照、日志等方式。
數(shù)據(jù)接入系統(tǒng)任務(wù)調(diào)度模塊提供可視化配置調(diào)度策略功能,實(shí)現(xiàn)
數(shù)據(jù)接入,文件傳輸?shù)热蝿?wù)通過運(yùn)行菜單進(jìn)行調(diào)度的功能。提供事件
觸發(fā)調(diào)度功能,包括就緒文件觸發(fā)、變化日志觸發(fā)、http、WebService
等接口觸發(fā)(含URL調(diào)度),實(shí)現(xiàn)對滿足條件的文件進(jìn)行觸發(fā)調(diào)度處
理。提供文件分類調(diào)度功能,實(shí)現(xiàn)對滿足條件的文件進(jìn)行分類調(diào)度處
理。
數(shù)據(jù)接入系統(tǒng)任務(wù)調(diào)度模塊提供流程調(diào)度組建,可視化配置任務(wù)
的串行、并行等任務(wù),實(shí)現(xiàn)多任務(wù)并行、串行、混合調(diào)度。提供任務(wù)
代理調(diào)度功能,實(shí)現(xiàn)跨節(jié)點(diǎn)的任務(wù)之間的調(diào)度。提供操作系統(tǒng)的shell
腳本調(diào)度功能,實(shí)現(xiàn)通過可視化配置任務(wù)調(diào)用shell腳本的功能,對
于數(shù)據(jù)的操作系統(tǒng)級的shell命令調(diào)用shell腳本知較量。提供SQL
調(diào)度功能,通過可視化配置任務(wù)實(shí)現(xiàn)對統(tǒng)一的標(biāo)準(zhǔn)SQL語句、存儲(chǔ)
過程、SQL函數(shù)的調(diào)度功能。提供前后處理調(diào)度功能,通過可視化界
面配置前后處理調(diào)度實(shí)現(xiàn)多個(gè)任務(wù)之間聯(lián)動(dòng)運(yùn)行的功能,被調(diào)用的處
笫22頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
理為任務(wù)、二次開發(fā)的處理類(統(tǒng)計(jì)接入數(shù)據(jù)行數(shù))。
數(shù)據(jù)接入系統(tǒng)任務(wù)監(jiān)控模塊提供面向工具自身及所配置數(shù)據(jù)傳
輸任務(wù)的監(jiān)測器,監(jiān)控調(diào)度節(jié)點(diǎn)運(yùn)行狀態(tài)及任務(wù)調(diào)度情況,監(jiān)控執(zhí)行
節(jié)點(diǎn)運(yùn)行狀態(tài)及數(shù)據(jù)接入任務(wù)執(zhí)行情況,及時(shí)采集各類監(jiān)控對象的運(yùn)
行狀態(tài)和重要性能數(shù)據(jù),實(shí)現(xiàn)專用工具自身運(yùn)行狀態(tài)及相關(guān)數(shù)據(jù)接入
任務(wù)的實(shí)時(shí)監(jiān)控,實(shí)現(xiàn)異常情況的自動(dòng)報(bào)警提醒。
數(shù)據(jù)接入系統(tǒng)任務(wù)監(jiān)控模塊監(jiān)控所有控制、執(zhí)行、管理狀態(tài)(正
常、異常、運(yùn)行、等待、終止、完成等),能夠通過預(yù)設(shè)的運(yùn)行異常
指標(biāo),實(shí)現(xiàn)多種渠道的事件報(bào)警和提醒功能;任務(wù)監(jiān)控模塊常態(tài)化監(jiān)
控傳輸過程中的最小數(shù)據(jù)單元,建立數(shù)據(jù)接入更新時(shí)效監(jiān)測機(jī)制?;?/p>
于接入閥值分析源頭數(shù)據(jù)接入傳輸是否正常,數(shù)據(jù)增量是否符合常
態(tài),及時(shí)發(fā)現(xiàn)并協(xié)調(diào)解決相關(guān)異常問題。任務(wù)監(jiān)控模塊同時(shí)監(jiān)控自身
的運(yùn)行狀態(tài),為后期開展工具問題的日志分析、故障診斷、系統(tǒng)優(yōu)化
提供數(shù)據(jù)支持。
數(shù)據(jù)接入系統(tǒng)任務(wù)監(jiān)控模塊支持實(shí)時(shí)數(shù)據(jù)中斷監(jiān)控,實(shí)時(shí)監(jiān)控接
入數(shù)據(jù)的接入狀態(tài),如果中斷時(shí)間超過預(yù)設(shè)閥值,則ALM處理。另
外也支持服務(wù)器運(yùn)行狀態(tài)監(jiān)控,包括JVM、task、CPU、內(nèi)存、節(jié)點(diǎn)、
主題、活躍分區(qū)、離線分區(qū)、請求度量指標(biāo)等系統(tǒng)狀態(tài),定時(shí)監(jiān)控服
務(wù)器的運(yùn)行情況,如果服務(wù)器運(yùn)行出現(xiàn)異常,則ALM處理。
數(shù)據(jù)接入系統(tǒng)任務(wù)監(jiān)控模塊支持?jǐn)?shù)據(jù)傳輸任務(wù)執(zhí)行全過程和數(shù)
據(jù)傳輸工具自身運(yùn)行情況的日志實(shí)時(shí)采集,以及各個(gè)功能插件的運(yùn)行
日志的實(shí)時(shí)記錄。數(shù)據(jù)傳輸日志,主要包含傳輸任務(wù)執(zhí)行起始時(shí)間、
笫23頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
結(jié)束時(shí)間、執(zhí)行時(shí)長、傳輸總記錄數(shù)、錯(cuò)誤記錄數(shù)、數(shù)據(jù)源、目標(biāo)庫、
數(shù)據(jù)對象、數(shù)據(jù)要素類型等內(nèi)容。當(dāng)輸入源為文件類型時(shí),數(shù)據(jù)傳輸
日志包含采集文件名稱、大小、讀取記錄數(shù)、處理狀態(tài)、處理時(shí)間等
內(nèi)容。當(dāng)輸入源為數(shù)據(jù)庫時(shí),數(shù)據(jù)傳輸日志包含數(shù)據(jù)來源、操作時(shí)間、
接入條數(shù)、執(zhí)行時(shí)間等內(nèi)容。
2.2.3.5接入數(shù)據(jù)清洗
數(shù)據(jù)清洗的任務(wù)是過濾那些不符合要求的數(shù)據(jù),將過濾的結(jié)果能
夠直觀的展示給相應(yīng)的主管部門,主管部門確認(rèn)是否過濾掉或者修正
之后再進(jìn)行抽取。
不符合要求的數(shù)據(jù)主要有以下幾類:
缺失的數(shù)據(jù):主要是一些數(shù)據(jù)的信息確實(shí),如物品名稱、物品代
號、業(yè)務(wù)系統(tǒng)中數(shù)據(jù)不能匹配等。在系統(tǒng)中用戶可以自動(dòng)逸過濾規(guī)則,
把這一類數(shù)據(jù)過濾出來,輸出到文本文件或Excel等格式文件提交給
業(yè)務(wù)用戶,業(yè)務(wù)用戶在人工對數(shù)據(jù)修改核對后,再寫入數(shù)據(jù)倉庫,如
果修改的規(guī)則是固定的,也可以由系統(tǒng)按照規(guī)則自動(dòng)添加、修改數(shù)據(jù)。
錯(cuò)誤的數(shù)據(jù):錯(cuò)誤的數(shù)據(jù)生產(chǎn)的原因是業(yè)務(wù)系統(tǒng)不夠健全,或
則人為誤操作再接手輸入后沒有進(jìn)行判斷直接寫入后臺(tái)數(shù)據(jù)庫造成
的,這一類數(shù)據(jù)也要進(jìn)行分類,不同的分類采取不同的處理方式,包
括人工處理和自動(dòng)處理,處理之后再更改數(shù)據(jù)庫里的數(shù)據(jù)。
重復(fù)的數(shù)據(jù):重復(fù)的數(shù)據(jù)特別是再維表中會(huì)常出現(xiàn)這種情況,系
統(tǒng)可以按照規(guī)則將重復(fù)數(shù)據(jù)導(dǎo)出來,讓用戶確認(rèn)并回寫到數(shù)據(jù)庫。
第24頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
數(shù)據(jù)清洗是一個(gè)和業(yè)務(wù)用戶反復(fù)溝通的過程,不可能再很短的時(shí)
間內(nèi)完成,只能不斷的發(fā)現(xiàn)問題,可能解決問題。對于是否過濾,是
否修正一般要求用戶確認(rèn),對于過濾掉的數(shù)據(jù)要寫入文本文件、Excel
文件、數(shù)據(jù)庫表。數(shù)據(jù)清洗需要注意的是對于每個(gè)過程規(guī)則都要認(rèn)證
進(jìn)行驗(yàn)證,并要用戶確認(rèn)。
2.2.3.6接入數(shù)據(jù)統(tǒng)計(jì)
數(shù)據(jù)接入系統(tǒng)接入統(tǒng)計(jì)模塊支持對接入數(shù)據(jù)、分發(fā)數(shù)據(jù)進(jìn)行多種
維度的數(shù)據(jù)量統(tǒng)計(jì)。通過接入數(shù)據(jù)的接入統(tǒng)計(jì),有助于對數(shù)據(jù)總資產(chǎn)
總體的、宏觀的、全面的掌握。接入統(tǒng)計(jì)模塊主要從接入數(shù)據(jù)的數(shù)據(jù)
量、接入數(shù)據(jù)文件數(shù)量、每個(gè)接入數(shù)據(jù)文件的接入時(shí)間、數(shù)據(jù)接入的
總耗時(shí)、數(shù)據(jù)來源、數(shù)據(jù)文件類型、分發(fā)數(shù)據(jù)的數(shù)據(jù)量、分發(fā)數(shù)據(jù)的
文件數(shù)量、每個(gè)分發(fā)數(shù)據(jù)文件的分發(fā)時(shí)間、數(shù)據(jù)分發(fā)的總耗時(shí)、數(shù)據(jù)
分發(fā)目的地等維度,對數(shù)據(jù)接入做接入數(shù)據(jù)的整體統(tǒng)計(jì)。數(shù)據(jù)接入系
統(tǒng)接入統(tǒng)計(jì)模塊支持接入統(tǒng)計(jì)功能插件式開發(fā),可自定義配置數(shù)據(jù)接
入的統(tǒng)計(jì)項(xiàng)。
2.2.3.7接入數(shù)據(jù)對賬
數(shù)據(jù)對賬是數(shù)據(jù)提供方和數(shù)據(jù)接收方在數(shù)據(jù)傳輸結(jié)束后進(jìn)行完
整性、一致性、正確性檢驗(yàn)的過程,提供數(shù)據(jù)接入效果評估能力。包
第25頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
括以下功能:
對于實(shí)時(shí)數(shù)據(jù)接入,支持接入數(shù)據(jù)的關(guān)鍵信息、唯一性信息的日
志存儲(chǔ)和查詢統(tǒng)計(jì)。對于可靠性、一致性要求高的數(shù)據(jù),提供數(shù)據(jù)同
步檢查和校驗(yàn)功能,并輸出詳細(xì)日志。支持一定時(shí)間范圍的接入狀態(tài)
統(tǒng)計(jì),包括對數(shù)據(jù)更新狀態(tài)、聯(lián)通狀態(tài)、數(shù)據(jù)量、校驗(yàn)等情況的統(tǒng)計(jì)。
對于批量數(shù)據(jù)接入,支持提供周期性接入信息查詢和統(tǒng)計(jì)?,支持
格式異常數(shù)據(jù)查詢和統(tǒng)計(jì)。支持系統(tǒng)、設(shè)備無上報(bào)數(shù)據(jù)等情況的ALM
策略設(shè)置。
數(shù)據(jù)對賬發(fā)現(xiàn)異常問題時(shí)通過短信、郵件等方式通知管理員及時(shí)
處理。數(shù)據(jù)對賬支持對賬功能的插件式開發(fā),可根據(jù)特殊需求對數(shù)據(jù)
對賬功能進(jìn)行擴(kuò)充,適應(yīng)數(shù)據(jù)接入多樣化的數(shù)據(jù)對賬功能。
2.2.3.8接入數(shù)據(jù)質(zhì)量
數(shù)據(jù)接入系統(tǒng)的數(shù)據(jù)質(zhì)量模塊對接入數(shù)據(jù)做接入維度的數(shù)據(jù)質(zhì)
量檢測評估。數(shù)據(jù)接入系統(tǒng)對接入數(shù)據(jù)解密異常、解壓異常的數(shù)據(jù)作
為問題數(shù)據(jù)記錄日志。數(shù)據(jù)接入系統(tǒng)對接入數(shù)據(jù)的數(shù)據(jù)對賬異常記錄
在接入數(shù)據(jù)問題報(bào)告。接入數(shù)據(jù)在完成數(shù)據(jù)對賬后生成數(shù)據(jù)接入質(zhì)量
報(bào)告,對數(shù)據(jù)接入過程做整體的質(zhì)量評估檢測。數(shù)據(jù)接入系統(tǒng)的問題
數(shù)據(jù)記錄日志、接入數(shù)據(jù)問題報(bào)告對數(shù)據(jù)接入異常的數(shù)據(jù)做詳細(xì)的信
息記錄,支持用戶手動(dòng)查詢問題數(shù)據(jù)。
在數(shù)據(jù)接入過程中配置數(shù)據(jù)質(zhì)量檢查邏輯規(guī)則,將干凈的數(shù)據(jù)裝
入目標(biāo)中,將判斷的問題的數(shù)據(jù)路由到數(shù)據(jù)表或者數(shù)據(jù)文件中,支持
第26頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
將成功、失敗信息反饋記錄,若執(zhí)行多次后交換成功,記錄交換次數(shù)。
數(shù)據(jù)接入系統(tǒng)支持對接入系統(tǒng)的運(yùn)行狀態(tài)的監(jiān)控,支持向運(yùn)維監(jiān)
控系統(tǒng)報(bào)送數(shù)據(jù)接入系統(tǒng)的JVM、task、CPU、內(nèi)存、節(jié)點(diǎn)、主題、
活躍分區(qū)、離線分區(qū)、請求度量指標(biāo)等系統(tǒng)狀態(tài)指標(biāo)數(shù)據(jù)。
另外數(shù)據(jù)中臺(tái)對數(shù)據(jù)質(zhì)量管理是平臺(tái)建設(shè)中必不可少的重要組
成部分,良好的數(shù)據(jù)質(zhì)量掛管理工作可以保證平臺(tái)數(shù)據(jù)的正確性、完
整性、相關(guān)性等質(zhì)量指標(biāo)。缺乏數(shù)據(jù)質(zhì)量管理將造成平臺(tái)數(shù)據(jù)質(zhì)量失
去控制、質(zhì)量低下,用戶對平臺(tái)數(shù)據(jù)不認(rèn)可、對數(shù)據(jù)缺少信任、增加
平臺(tái)的推廣難度、降低平臺(tái)應(yīng)用服務(wù)質(zhì)量,以及增加平臺(tái)的建設(shè)和維
護(hù)成本等后果。
數(shù)據(jù)質(zhì)量管理的目標(biāo)包含兩方面,一是對源系統(tǒng)層的數(shù)據(jù)質(zhì)量有
個(gè)較全面的了解,比較具體的反映數(shù)據(jù)平臺(tái)涉及的各源業(yè)務(wù)系統(tǒng)的數(shù)
據(jù)質(zhì)量;二是防范數(shù)據(jù)平臺(tái)內(nèi)部數(shù)據(jù)流程過程發(fā)生的錯(cuò)誤,提高數(shù)據(jù)
平臺(tái)中的數(shù)據(jù)質(zhì)量。
數(shù)據(jù)質(zhì)量管理并不僅是在生產(chǎn)階段才實(shí)施,在數(shù)據(jù)中臺(tái)建設(shè)過程
中,數(shù)據(jù)質(zhì)量檢查需要從源數(shù)據(jù)分析開始,自始至終貫串全過程。在
源數(shù)據(jù)分析階段,通過數(shù)據(jù)剖析(DataProfiling)可以分析源系統(tǒng)數(shù)
據(jù)質(zhì)量問題;在開發(fā)測試階段,通過對數(shù)據(jù)加載的各個(gè)階段設(shè)置檢查,
可以驗(yàn)證上游系統(tǒng)接口的完整性以及模型加工的正確性;在投產(chǎn)后的
生產(chǎn)環(huán)境,通過設(shè)置代碼完整性、總分核對等檢查,監(jiān)控平臺(tái)內(nèi)的數(shù)
據(jù)質(zhì)量。
數(shù)據(jù)中臺(tái)實(shí)施數(shù)據(jù)質(zhì)量管理的目的在于,提高數(shù)據(jù)平臺(tái)的加工數(shù)
笫27頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
據(jù)質(zhì)量,監(jiān)控上游系統(tǒng)數(shù)據(jù)質(zhì)量,協(xié)助客戶建立企業(yè)級數(shù)據(jù)質(zhì)量管理
環(huán)境。
數(shù)據(jù)質(zhì)量管理主要包含:
1)數(shù)據(jù)質(zhì)量檢查匯總:可以按照檢查階段、檢查日期、檢查
類型、錯(cuò)誤級別進(jìn)行數(shù)據(jù)質(zhì)量檢查結(jié)果的匯總。
2)我關(guān)注的檢查任務(wù):列出我關(guān)注的檢查任務(wù)的執(zhí)行情況。
3)質(zhì)量日志瀏覽:可以瀏覽數(shù)據(jù)質(zhì)量的登記日志。
4)質(zhì)量檢查結(jié)果和錯(cuò)誤明細(xì):可以瀏覽檢查任務(wù)的執(zhí)行情況,
包括匯總數(shù)據(jù)和錯(cuò)誤明細(xì)數(shù)據(jù)。
5)錯(cuò)誤明細(xì)下載:用戶可以直接用數(shù)據(jù)管理平臺(tái)下載數(shù)據(jù)質(zhì)
量檢查結(jié)果明細(xì)。
6)查詢主要實(shí)現(xiàn)工具是Datawave數(shù)據(jù)管理平臺(tái),查詢功能主
要是可以在數(shù)據(jù)質(zhì)量檢查的任務(wù)、錯(cuò)誤明細(xì)等信息中進(jìn)行查
詢,查詢主要功能與元數(shù)據(jù)的基本一致。
7)數(shù)據(jù)質(zhì)量管理主要由數(shù)據(jù)質(zhì)量管理員來完成,管理的主要功
能主要包括:
/質(zhì)量檢查規(guī)則的增刪改:可以維護(hù)質(zhì)量檢查規(guī)則,可以修改
檢查規(guī)則的SQL模板。
/檢查任務(wù)的增刪改:可以維護(hù)質(zhì)量檢查任務(wù),可以批量上傳
質(zhì)量檢查任務(wù)。
第28頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
質(zhì)量日志的增刪改:可以維護(hù)數(shù)據(jù)質(zhì)量日志。
2.3數(shù)據(jù)集中處理平臺(tái)
數(shù)據(jù)處理是實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化的過程,包括了數(shù)據(jù)的提取、清洗、
關(guān)聯(lián)、比對、標(biāo)識、對象化等操作,支持實(shí)時(shí)計(jì)算和離線計(jì)算,支持
批量處理操作。數(shù)據(jù)傳輸過程支持分布式數(shù)據(jù)傳輸方式。在數(shù)據(jù)處理
過程中,引入人工智能技術(shù),實(shí)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理,采
用圖計(jì)算和內(nèi)存計(jì)算技術(shù),實(shí)現(xiàn)數(shù)據(jù)的價(jià)值提升。在數(shù)據(jù)處理過程中,
引入模型體系和標(biāo)簽工程和知識圖譜技術(shù),進(jìn)一步提升數(shù)據(jù)價(jià)值密
度,為數(shù)據(jù)智能應(yīng)用實(shí)現(xiàn)數(shù)據(jù)增值、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)抽象。
2.3.1平臺(tái)架構(gòu)
關(guān)果油取
美?同比打.付麗
交叉比對■于黃餐施建
ziMttnmtn
處
■文用快比時(shí)劉?化古■
爆配片比對實(shí)時(shí)計(jì)M標(biāo)費(fèi)財(cái)飲化打場美和HI
耍制的征比對用康計(jì)一a尊
tilS清洗關(guān)聯(lián)
侵NLP文本渡文NLP文本遢義NU>X木遇義睢■哂t檢汨NIPX本遢義儂計(jì)一修堡什H
?
■>砌■六去霰O(jiān)itN生卻乳£識就9MMIDMappmg用計(jì),
技
.三合二。出:迎E小力?。簍t?9IW
術(shù)
03測彼聞去■一10*祝咽厚習(xí)
一一圖―R一
W將雷辱63,/11訪
數(shù)據(jù)處理遵循相關(guān)標(biāo)準(zhǔn),通過對數(shù)據(jù)進(jìn)行提取、清洗、關(guān)聯(lián)、比
對、標(biāo)識、對象化、構(gòu)建知識圖譜等規(guī)范化處理流程,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)
的標(biāo)準(zhǔn)化及深度融合。數(shù)據(jù)處理采用開放式架構(gòu),能夠以統(tǒng)一、標(biāo)準(zhǔn)、
第29頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
易于擴(kuò)展的方式進(jìn)行數(shù)據(jù)處理流程的動(dòng)態(tài)編排。同時(shí),在各環(huán)節(jié)引入
了自然語言處理、多媒體信息處理和機(jī)器學(xué)習(xí)等技術(shù),實(shí)現(xiàn)對數(shù)據(jù)的
智能感知和認(rèn)知。
2.3.2數(shù)據(jù)流程
數(shù)據(jù)集中處理平臺(tái)
裁據(jù)比對數(shù)據(jù)計(jì)算
?合
M-DD
2.3.3平臺(tái)功能
2.3.3.1數(shù)據(jù)提取
數(shù)據(jù)提取的過程主要是從功能各個(gè)業(yè)務(wù)系統(tǒng)上根據(jù)約定的采集
周期采集全量或增量數(shù)據(jù),生成相應(yīng)的文本文件。在采集過程中可能
涉及系統(tǒng)內(nèi)或跨系統(tǒng)的數(shù)據(jù)關(guān)聯(lián)獲取。這些文本文件的結(jié)構(gòu)與源數(shù)據(jù)
基本相同(根據(jù)具體需求可能要濾掉一些字段信息),我們稱這些存
放源數(shù)據(jù)的文本文件為EXF(ExtractFormat)0
數(shù)據(jù)抽取需要注意如下事項(xiàng):
為提高ETL效率,數(shù)據(jù)在進(jìn)入ETL系統(tǒng)后的EXF文件將轉(zhuǎn)換
第30頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
為系統(tǒng)內(nèi)部文件格式
從ETL程序設(shè)計(jì)的靈活性和整體結(jié)構(gòu)的一直性考慮,盡量采
用pull的方式,減少對源系統(tǒng)的影響和對其他開發(fā)隊(duì)伍的依
賴,并減少網(wǎng)絡(luò)壓力,目前最先進(jìn)的方式是基于LOG捕獲純
增量。
EXF的文件格式接近數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)定義
在業(yè)務(wù)需求清晰明確的前提下,Extract過程中可以過濾不需要
的數(shù)據(jù)記錄和字段數(shù)據(jù)轉(zhuǎn)換。
數(shù)據(jù)轉(zhuǎn)換過程中數(shù)據(jù)載體為文件,這樣充分發(fā)揮ETL工具處理
文件的強(qiáng)大性能和穩(wěn)定性,根據(jù)數(shù)據(jù)抽取過程生成的CIF文件,經(jīng)過
數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)聚合、復(fù)雜計(jì)算以及數(shù)據(jù)匹配等處理過程,
生成與目標(biāo)數(shù)據(jù)結(jié)構(gòu)相同的PLF(Pre-LoadFormat)文件。具體包含
一下過程:
數(shù)據(jù)內(nèi)容數(shù)值的檢查
代碼轉(zhuǎn)換。包括轉(zhuǎn)換為數(shù)據(jù)倉庫系統(tǒng)自己語言
數(shù)據(jù)內(nèi)容數(shù)據(jù)格式的規(guī)范化
代理鍵的生成
數(shù)據(jù)內(nèi)容Merge
在整個(gè)數(shù)據(jù)轉(zhuǎn)換過程中需要記錄很多諸如出錯(cuò)日志、處理流程監(jiān)
控日志以及一些統(tǒng)計(jì)信息。這主要由一些公用的程序模塊來完成,保
證無論數(shù)據(jù)是否非法都會(huì)在我們的ETL處理范圍之內(nèi)。
第31頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
2.3.3.1.1非結(jié)構(gòu)化數(shù)據(jù)提取
非結(jié)構(gòu)化數(shù)據(jù)的種類和來源比較復(fù)雜,對這些數(shù)據(jù)的提取處理操
作也會(huì)因不同數(shù)據(jù)種類的不同使用不同的實(shí)現(xiàn)技術(shù)。非結(jié)構(gòu)化數(shù)據(jù)包
含索引格式的辦公文檔、文本、圖片、XML>HTML>各類報(bào)表、圖
像、音頻文件和視頻文件,在集群中提取生物特征數(shù)據(jù),提取身份、
行為、軌跡、關(guān)系、位置等信息,提取后形成的結(jié)構(gòu)化數(shù)據(jù)保存在關(guān)
系型存儲(chǔ)中,利于數(shù)據(jù)長期存儲(chǔ)和時(shí)用。原始數(shù)據(jù)保存在列式存儲(chǔ)中。
遵從數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)提取模塊從策略和配置管理中心獲取不同數(shù)
據(jù)類型相應(yīng)的提取策略和規(guī)則,加載基于文本語義的分析提取模塊、
圖像檢測提取模塊、語音識別提取模塊、視頻轉(zhuǎn)換提取模塊等,進(jìn)行
相應(yīng)類型非結(jié)構(gòu)化數(shù)據(jù)的提取處理。
非結(jié)構(gòu)數(shù)據(jù)提取方式如采用先進(jìn)的計(jì)算機(jī)視覺和語音識別等技
術(shù)。
2.3.3.1.2結(jié)構(gòu)化數(shù)據(jù)提取
由于結(jié)構(gòu)化數(shù)據(jù)已經(jīng)比較規(guī)整,因而對它的提取操作相對簡單。
按照數(shù)據(jù)標(biāo)準(zhǔn),從策略和配置中心獲取提取結(jié)構(gòu)化策略和規(guī)則,對原
數(shù)據(jù)中的各類數(shù)據(jù),通過基于語言要素的語義提取技術(shù)或特征函數(shù),
自動(dòng)計(jì)算特征值及特征值之間的語義關(guān)系,對數(shù)據(jù)進(jìn)行關(guān)鍵信息提取
即可。提取后的信息可應(yīng)用于對象標(biāo)注、業(yè)務(wù)分析、業(yè)務(wù)關(guān)聯(lián)、業(yè)務(wù)
預(yù)測等方面。
第32頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
2.3.3.1.3對象化提取
遵從數(shù)據(jù)標(biāo)準(zhǔn),根據(jù)對象提取規(guī)則對數(shù)據(jù)進(jìn)行主題進(jìn)行對象化處
理。
對象數(shù)據(jù)以聚合的方式展現(xiàn)。主題庫保存按照對象提取、處理、
歸并、更新、標(biāo)識等數(shù)據(jù)對象化規(guī)則產(chǎn)生的多維度的對象化數(shù)據(jù)。對
象化提取的數(shù)據(jù)主要為主題庫數(shù)據(jù)。并且每一個(gè)主題下,可能存在多
個(gè)對象實(shí)體庫。
對象提?。褐С謱ο筇卣髯詣?dòng)提取,根據(jù)對象特征自動(dòng)建模,利
用并行分布式計(jì)算資源,對數(shù)據(jù)進(jìn)行對象化提取、存儲(chǔ)對象數(shù)據(jù)、更
新對象數(shù)據(jù)。
對象去重:對對象化結(jié)果數(shù)據(jù),通過對象化去重,消除冗余數(shù)據(jù)。
對象標(biāo)識:對指定數(shù)據(jù)來源的數(shù)據(jù),進(jìn)行標(biāo)識的操作,在對象化
提取環(huán)節(jié),需要將標(biāo)識提取到對象化數(shù)據(jù)中。具體規(guī)則、填寫的字段
和字段內(nèi)容,以設(shè)計(jì)實(shí)現(xiàn)為準(zhǔn)。
2.3.3.2數(shù)據(jù)清洗
數(shù)據(jù)清洗的任務(wù)是過濾那些不符合要求的數(shù)據(jù),將過濾的結(jié)果能
夠直觀的展示給相應(yīng)的主管部門,主管部門確認(rèn)是否過濾掉或者修正
之后再進(jìn)行抽取。
不符合要求的數(shù)據(jù)主要有一下幾類:
缺失的數(shù)據(jù):主要是一些數(shù)據(jù)的信息確實(shí),如物品名稱、物
品代號、業(yè)務(wù)系統(tǒng)中數(shù)據(jù)不能匹配等。在系統(tǒng)中用戶可以自
第33頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
動(dòng)逸過濾規(guī)則,把這一類數(shù)據(jù)過濾出來,輸出到文本文件或
Excel等格式文件提交給業(yè)務(wù)用戶,業(yè)務(wù)用戶在人工對數(shù)據(jù)修
改核對后,再寫入數(shù)據(jù)倉庫,如果修改的規(guī)則是固定的,也
可以由系統(tǒng)按照規(guī)則自動(dòng)添加、修改數(shù)據(jù)。
錯(cuò)誤的數(shù)據(jù):錯(cuò)誤的數(shù)據(jù)生產(chǎn)的原因是業(yè)務(wù)系統(tǒng)不夠健全,或
則人為誤操作再接手輸入后沒有進(jìn)行判斷直接寫入后臺(tái)數(shù)據(jù)
庫造成的,這一類數(shù)據(jù)也要進(jìn)行分類,不同的分類采取不同
的處理方式,包括人工處理和自動(dòng)處理,處理之后再更改數(shù)
據(jù)庫里的數(shù)據(jù)。
重復(fù)的數(shù)據(jù):重復(fù)的數(shù)據(jù)特別是再維表中會(huì)常出現(xiàn)這種情況,
系統(tǒng)可以按照規(guī)則將重復(fù)數(shù)據(jù)導(dǎo)出來,讓用戶確認(rèn)并回寫到
數(shù)據(jù)庫。
數(shù)據(jù)清洗是一個(gè)和業(yè)務(wù)用戶反復(fù)溝通的過程,不可能再很短的時(shí)
間內(nèi)完成,只能不斷的發(fā)現(xiàn)問題,可能解決問題。對于是否過濾,是
否修正一般要求用戶確認(rèn),對于過濾掉的數(shù)據(jù)要寫入文本文件、Excel
文件、數(shù)據(jù)庫表。數(shù)據(jù)清洗需要注意的是對于每個(gè)過程規(guī)則都要認(rèn)證
進(jìn)行驗(yàn)證,并要用戶確認(rèn)。
2.3.3.2.1非結(jié)構(gòu)化數(shù)據(jù)清洗
非結(jié)構(gòu)化數(shù)據(jù)主要為文本、XML、圖片和視頻數(shù)據(jù)。對于非結(jié)
構(gòu)化數(shù)據(jù),主要通過同一時(shí)間窗口比對去重、MD5值比對去重、人
工智能等技術(shù)方法去重。
第34頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
文本數(shù)據(jù)的清洗,主要基于自然語言處理技術(shù),通過分詞、語料
標(biāo)注、字典構(gòu)建、關(guān)鍵詞識別等技術(shù),根據(jù)相應(yīng)的非結(jié)構(gòu)化數(shù)據(jù)特點(diǎn)
進(jìn)行數(shù)據(jù)建模,利用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的方法進(jìn)行文件去重。
圖片數(shù)據(jù)可以通過以圖找圖技術(shù),進(jìn)行圖片去重。根據(jù)相似圖像
檢測技術(shù)以通過提取某些表征圖像內(nèi)容的特征,與數(shù)據(jù)庫中目標(biāo)圖片
特征進(jìn)行匹配判斷,從而判別出該圖像是否為目標(biāo)圖像的拷貝或近
似??紤]到圖像編輯的多樣化,相似圖像檢測選擇具有良好的尺度和
亮度不變性,同時(shí)對仿射形變、視角改變和噪聲等也有一定的魯棒性
的特征點(diǎn)來進(jìn)行建庫。通過比較查詢圖像與參考圖像的特征點(diǎn)相似
性,判斷出查詢圖像是否為相似圖像。該技術(shù)能夠有效的處理復(fù)制、
編輯等操作引擎的圖像內(nèi)容的變化,具有較好的檢測準(zhǔn)確率。圖片檢
測技術(shù)提供圖像清晰度識別,適用于各類圖庫產(chǎn)品,提升整體圖像質(zhì)
量。通過圖像模糊、失焦、噪點(diǎn)、鋸齒以及馬賽克等維度進(jìn)行檢測,
對無價(jià)值的圖像數(shù)據(jù)實(shí)現(xiàn)去重。
針對音頻數(shù)據(jù),除了MD5值進(jìn)行校驗(yàn)去重之外,還可以通過對
音頻樣本進(jìn)行分析,可以在一個(gè)音頻集合中發(fā)現(xiàn)與音頻樣本相同的內(nèi)
容。這里相同的內(nèi)容是指在不同的音視頻文件中,與樣本內(nèi)容片段一
致的部分,實(shí)現(xiàn)音頻數(shù)據(jù)的去重。
視頻文件可以通過關(guān)鍵幀抽取,通過以圖找圖、語音識別、MD5
值校驗(yàn)等技術(shù),實(shí)現(xiàn)視頻的去重。
第35頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
2.3.3.2.2結(jié)構(gòu)化數(shù)據(jù)清洗
遵從數(shù)據(jù)標(biāo)準(zhǔn),根據(jù)業(yè)務(wù)規(guī)劃對冗余數(shù)據(jù)進(jìn)行過濾,根據(jù)不同的
去重規(guī)則和方法對數(shù)據(jù)進(jìn)行去重判定,去除重復(fù)冗余數(shù)據(jù)。通過定義
過濾規(guī)則,使用流式SQL和表達(dá)式,按條件對數(shù)據(jù)進(jìn)行重新組合和
二次加工。數(shù)據(jù)清洗可以區(qū)分為冗余信息過濾、敏感信息過濾、數(shù)據(jù)
去重和格式清洗等內(nèi)容。通過對數(shù)據(jù)進(jìn)行清洗,提高數(shù)據(jù)的使用價(jià)值。
數(shù)據(jù)清洗在具體實(shí)現(xiàn)上可分為全量清洗、增量清洗,根據(jù)實(shí)時(shí)性需要
可以區(qū)分為實(shí)時(shí)清洗、非實(shí)時(shí)清洗。清洗過程又可以細(xì)分為過濾、去
重、檢驗(yàn)、格轉(zhuǎn)。
2.3.3.3數(shù)據(jù)關(guān)聯(lián)
數(shù)據(jù)的多源性,導(dǎo)致不同來源的數(shù)據(jù)之間的關(guān)系時(shí)離散的,需要
對這些離散關(guān)系進(jìn)行匹配或聯(lián)接,進(jìn)一步提高數(shù)據(jù)可用性。
數(shù)據(jù)經(jīng)過提取、清洗之后形成的數(shù)據(jù)實(shí)體,比如可以通過命名實(shí)
體識別對身份證進(jìn)行識別,根據(jù)兩個(gè)身份證之間的共現(xiàn)或根據(jù)詞向量
計(jì)算詞與詞之間的相似度來判斷兩個(gè)人是否有關(guān)系。
2.3.3.4數(shù)據(jù)對比
數(shù)據(jù)比對包括結(jié)構(gòu)化比對、關(guān)鍵詞比對等,滿足數(shù)據(jù)關(guān)聯(lián)、線索
發(fā)現(xiàn)、觸網(wǎng)報(bào)警等業(yè)務(wù)需要。從數(shù)據(jù)類型上分,數(shù)據(jù)比對分為結(jié)構(gòu)化
數(shù)據(jù)比對、非結(jié)構(gòu)化數(shù)據(jù)比對。
在數(shù)據(jù)處理過程中,數(shù)據(jù)的比對通常作為數(shù)據(jù)的查重、篩選和補(bǔ)
第36頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
充,將輸入數(shù)據(jù)與已有數(shù)據(jù)進(jìn)行比對關(guān)聯(lián),結(jié)構(gòu)化數(shù)據(jù)主要通過數(shù)據(jù)
庫查詢、關(guān)鍵字索引實(shí)現(xiàn)比對,非結(jié)構(gòu)化數(shù)據(jù)圖像、聲紋等。數(shù)據(jù)比
對除了在各種應(yīng)用場景作為數(shù)據(jù)查詢與識別的方式,在數(shù)據(jù)管理方
面,將比對之后的數(shù)據(jù)進(jìn)行存儲(chǔ)、建模、標(biāo)識管理,不僅可以完善數(shù)
據(jù)關(guān)系、豐富數(shù)據(jù)資源庫,還可以優(yōu)化比對引擎,與數(shù)據(jù)應(yīng)用形成良
好的循環(huán)。常見的比對方式如下:
結(jié)構(gòu)化數(shù)據(jù)比對:通過對數(shù)據(jù)庫系統(tǒng)的SQL查詢,來實(shí)現(xiàn)精確
數(shù)據(jù)的比對查詢。
非結(jié)構(gòu)化數(shù)據(jù)比對:在海量非結(jié)構(gòu)化數(shù)據(jù)中,通過AI等相關(guān)技
術(shù),提取發(fā)現(xiàn)數(shù)據(jù),命中發(fā)現(xiàn)的相關(guān)信息。
結(jié)構(gòu)化和非結(jié)構(gòu)化融合比對:規(guī)則中同時(shí)支持對結(jié)構(gòu)化和非結(jié)構(gòu)
化信息的比對,實(shí)時(shí)發(fā)現(xiàn)海量數(shù)據(jù)和海量全文中的相關(guān)信息。
按照數(shù)據(jù)比對的方式,數(shù)據(jù)比對又分為如下比對:
關(guān)鍵詞比對:通過對關(guān)鍵詞及關(guān)鍵詞組合的比對,在海量全文數(shù)
據(jù)庫中命中發(fā)現(xiàn)關(guān)鍵詞相關(guān)信息。
二進(jìn)制比對:通過對二進(jìn)制文件(如文檔文件、圖片文件、音視
頻文件等)的比對,在數(shù)據(jù)中命中發(fā)現(xiàn)二進(jìn)制文件相關(guān)信息。
2.3.3.5數(shù)據(jù)標(biāo)識
標(biāo)識是對數(shù)據(jù)、數(shù)據(jù)集進(jìn)行某一特征、特征的識別和認(rèn)定。對數(shù)
據(jù)進(jìn)行標(biāo)識化可以增加數(shù)據(jù)維度,拓展數(shù)據(jù)的屬性,提供建立與數(shù)據(jù)
之上的抽象。標(biāo)識流程主要是圍繞標(biāo)識建立一套包括標(biāo)識的定義、執(zhí)
第37頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
行、流程管理以及可視化等功能的系統(tǒng)。
數(shù)據(jù)標(biāo)識支持離線和在線標(biāo)識。其中離線標(biāo)識由離線處理引擎完
成,采用離線批處理的方式進(jìn)行規(guī)則處理,生成并保存標(biāo)簽值。離線
處理引擎支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理模式。在線標(biāo)識是由實(shí)時(shí)
處理引擎實(shí)現(xiàn),引擎結(jié)構(gòu)流數(shù)據(jù)或消息數(shù)據(jù),對數(shù)據(jù)進(jìn)行實(shí)時(shí)規(guī)則處
理,生成并保存標(biāo)簽值。實(shí)時(shí)規(guī)則處理模式支持對數(shù)據(jù)源自身的規(guī)則
處理,以數(shù)據(jù)源與數(shù)據(jù)中臺(tái)其他數(shù)據(jù)源進(jìn)行關(guān)聯(lián)分析的規(guī)則處理方
式。
數(shù)據(jù)標(biāo)識依托標(biāo)識規(guī)則和知識庫,對輸入數(shù)據(jù)進(jìn)行比對分析、邏
輯計(jì)算,輸出打上敏感級別語言、區(qū)域、位置等標(biāo)識的數(shù)據(jù),為上層
應(yīng)用提供支持。數(shù)據(jù)標(biāo)識分為通用標(biāo)識和業(yè)務(wù)標(biāo)識,通用標(biāo)識是數(shù)據(jù)
自身所蘊(yùn)含的特定含義的顯性化,通常由數(shù)據(jù)的自身定義或由處理關(guān)
聯(lián)、比對結(jié)果等來確定。業(yè)務(wù)標(biāo)識是根據(jù)不同的知識庫形成具有明確
業(yè)務(wù)含義的標(biāo)識,對數(shù)據(jù)進(jìn)行業(yè)務(wù)標(biāo)識,支撐各種資源庫、主題庫的
形成及模型分析。
在對各種數(shù)據(jù)進(jìn)行標(biāo)識的過程中,需要預(yù)先從策略和配置中心獲
取標(biāo)識部分的策略和規(guī)則。
通過對用戶信息的分析、提煉形成高度精煉的自定義特征標(biāo)識定
義:基于標(biāo)識定義并結(jié)合資源目錄、規(guī)則庫、模型庫、算法庫等應(yīng)用
需求,在數(shù)據(jù)處理過程中同步對數(shù)據(jù)進(jìn)行標(biāo)識。根據(jù)地理、業(yè)務(wù)、安
全等級和數(shù)據(jù)的敏感等級等對數(shù)據(jù)進(jìn)行標(biāo)識。通過人工智能(語音識
別、圖像識別)和文本識別技術(shù)(NLP)對文本、圖片和媒體文件進(jìn)
笫38頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
行標(biāo)識。
2.3.3.6數(shù)據(jù)糾錯(cuò)
綜上所述,數(shù)據(jù)的標(biāo)準(zhǔn)化處理過程,按照數(shù)據(jù)標(biāo)準(zhǔn),基本實(shí)現(xiàn)了
自動(dòng)化和智能化的處理,但是由于數(shù)據(jù)的多源異構(gòu)特性,數(shù)據(jù)的龐大
復(fù)雜性,對此類數(shù)據(jù)的自動(dòng)化處理將是一個(gè)漸進(jìn)改進(jìn)的過程。在平臺(tái)
前期運(yùn)行中,對進(jìn)入各類資源庫、主題庫和業(yè)務(wù)庫的數(shù)據(jù)需要進(jìn)行準(zhǔn)
確性認(rèn)定。針對有誤的策略執(zhí)行回滾操作,針對錯(cuò)誤的數(shù)據(jù)中實(shí)現(xiàn)
糾正錯(cuò)誤數(shù)據(jù)功能。
2.3.3.7數(shù)據(jù)處理任務(wù)調(diào)度
輸匯聚模式,實(shí)現(xiàn)任務(wù)自動(dòng)切片分發(fā)、斷點(diǎn)續(xù)傳、節(jié)點(diǎn)管理、調(diào)
度節(jié)點(diǎn)故障切換等功能。對視頻圖像、音頻、文檔等大文件數(shù)據(jù),提
供FTP/SFTP、HTTP等文件傳輸方式,實(shí)現(xiàn)斷網(wǎng)續(xù)傳、多線程并行、
分塊傳輸?shù)裙δ堋?/p>
支持對各類數(shù)據(jù)文件的同步、異步,多節(jié)點(diǎn)間文件接力傳輸,支
持對文件、文件夾、文件夾下指定文件傳輸?shù)裙δ埽С謱?shù)據(jù)文件
的全量、增量傳輸,對中間過期文件的壓縮、清理,及文件的多副本
存儲(chǔ)。支持實(shí)時(shí)數(shù)據(jù)交換及加工,實(shí)現(xiàn)數(shù)據(jù)庫、文件、JSON、XML
及MQ、TLQ等之間的相互交換功能。
支持各類轉(zhuǎn)換程序和交換任務(wù)的靈活定制,方便用戶對數(shù)據(jù)提取
匯聚任務(wù)的流程控制和動(dòng)態(tài)處理。支持對數(shù)據(jù)傳輸過程中的加密、壓
縮等功能。
第39頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
支持按年、月、周、日、小時(shí)、分鐘、秒定時(shí)調(diào)度,可選指定有
效時(shí)間內(nèi)調(diào)度。增量情況下支持實(shí)時(shí)調(diào)度,數(shù)據(jù)近秒級同步。
提供事件觸發(fā)調(diào)度功能,包括文件就緒觸發(fā)、變化日志觸發(fā)、
HTTP等接口或URL調(diào)度事件觸發(fā),支持操作系統(tǒng)shell腳本,和數(shù)
據(jù)庫系統(tǒng)的shell命令和SQL腳本調(diào)度功能。
提供調(diào)度任務(wù)的實(shí)時(shí)可視化監(jiān)控,包括交換節(jié)點(diǎn)的操作系統(tǒng)主要
性能指標(biāo)的圖標(biāo)、曲線,支持監(jiān)控?cái)?shù)據(jù)接口開發(fā)。
提供流程調(diào)度組建,包括采樣分流組建和任務(wù)編排組件,實(shí)現(xiàn)多
任務(wù)的并行、串行、混合調(diào)度功能。采樣分流一是實(shí)現(xiàn)數(shù)據(jù)的采樣,
例:100w數(shù)據(jù),按照1算的比例進(jìn)行采樣;二是實(shí)現(xiàn)根據(jù)數(shù)據(jù)的條
件進(jìn)行判斷后對數(shù)據(jù)進(jìn)行分流,例如性別為男的到某個(gè)庫、性別為女
的到另一個(gè)庫,實(shí)現(xiàn)數(shù)據(jù)判斷分流。任務(wù)編排用于實(shí)現(xiàn)當(dāng)A方案執(zhí)
行完畢后,需要馬上啟動(dòng)B方案的執(zhí)行,此插件配置在A方案的末
尾,用戶指定需要調(diào)度的方案。
控制管理主要面向執(zhí)行節(jié)點(diǎn)合調(diào)度節(jié)點(diǎn),執(zhí)行節(jié)點(diǎn)主要承擔(dān)數(shù)據(jù)
傳輸任務(wù)的部署運(yùn)行智能,各配置好的數(shù)據(jù)傳輸任務(wù)采用數(shù)據(jù)庫方式
存儲(chǔ),能夠在不同執(zhí)行節(jié)點(diǎn)上按需選用單機(jī)、集群或分布式模式執(zhí)行。
調(diào)度節(jié)點(diǎn)是執(zhí)行所有數(shù)據(jù)傳輸任務(wù)的統(tǒng)一入口,采用“雙活”模式部
署運(yùn)行,當(dāng)一個(gè)調(diào)度節(jié)點(diǎn)出現(xiàn)故障時(shí),另一個(gè)調(diào)度節(jié)點(diǎn)能夠自動(dòng)接管
正在執(zhí)行的數(shù)據(jù)傳輸任務(wù)并實(shí)現(xiàn)斷點(diǎn)續(xù)傳,保障任務(wù)執(zhí)行穩(wěn)定性,確
保調(diào)度節(jié)點(diǎn)可靠運(yùn)行。
數(shù)據(jù)傳輸任務(wù)調(diào)度方式按需選擇,支持順序、按需(常規(guī)類型)
笫40頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
分壓、分流(復(fù)雜類型)等多種方式。調(diào)度節(jié)點(diǎn)能夠根據(jù)每個(gè)執(zhí)行節(jié)
點(diǎn)任務(wù)執(zhí)行情況,自動(dòng)調(diào)配任務(wù)負(fù)載,能夠?qū)⑿略龅膫鬏斎蝿?wù)或壓力
較大執(zhí)行節(jié)點(diǎn)的傳輸任務(wù),調(diào)配到相對較空閑的執(zhí)行節(jié)點(diǎn)。調(diào)度節(jié)點(diǎn)
能夠自動(dòng)檢測執(zhí)行節(jié)點(diǎn)出現(xiàn)的問題并做自動(dòng)處理,能夠感知新增的執(zhí)
行節(jié)點(diǎn)并自動(dòng)添加到分布式執(zhí)行節(jié)點(diǎn)集群。調(diào)度節(jié)點(diǎn)要具備高可用能
力。
數(shù)據(jù)處理中使用到的完整的任務(wù)調(diào)度引擎,需要支持監(jiān)控調(diào)度引
擎中每個(gè)調(diào)度任務(wù)的運(yùn)行狀態(tài),如:當(dāng)前是否運(yùn)行;最近一次運(yùn)行的
時(shí)間、運(yùn)行結(jié)果、是否出現(xiàn)異常等。
2.3.3.8策略配置管理
針對結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的不同類型特點(diǎn),
配置管理中心支持按照提取、清洗、過濾、比對、關(guān)聯(lián)、標(biāo)識等數(shù)據(jù)
處理過程,提供一體化、可融合的數(shù)據(jù)適配解析器器合數(shù)據(jù)轉(zhuǎn)換功能,
實(shí)現(xiàn)根據(jù)數(shù)據(jù)類型合數(shù)據(jù)情況的自適應(yīng)數(shù)據(jù)解析和流程化處理。
支持任意種類、任意數(shù)據(jù)結(jié)構(gòu)、任意目標(biāo)庫的數(shù)據(jù)提取傳輸,這
次kafka、webservice等消息處理機(jī)制,支持流式和離線處理。
支持任意類型的數(shù)據(jù)融合任務(wù)配置,在保證數(shù)據(jù)安全的基礎(chǔ)上,
根據(jù)傳輸策略,進(jìn)行數(shù)據(jù)傳輸和存儲(chǔ)。
支持過濾、融合規(guī)則自定義,主要包括代碼映射、NULL值替換、
字符串操作、字符串替換、字符串截取、添加字段、數(shù)據(jù)類型轉(zhuǎn)換、
公式計(jì)算、正則處理、組合字段、身份證操作、獲取圖片、數(shù)據(jù)比對、
第41頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
自定義SQL腳本執(zhí)行、JSON輸出等數(shù)據(jù)轉(zhuǎn)換規(guī)則,以及對關(guān)鍵字段
空值、重復(fù)、異常等問題數(shù)據(jù)過濾規(guī)則,以及MD5加密規(guī)則。
實(shí)現(xiàn)基于數(shù)據(jù)元的異構(gòu)數(shù)據(jù)自動(dòng)解析,并能按照業(yè)務(wù)場景進(jìn)行自
定義配置,實(shí)現(xiàn)智能化、可視化、組建式數(shù)據(jù)匯聚融合任務(wù)構(gòu)建。
支持可視化配置管理,根據(jù)不同的數(shù)據(jù)級別,分配不同的配置權(quán)
限空值。
支持策略配置的保存、加載、自動(dòng)分發(fā)同步功能。
2.3.3.9數(shù)據(jù)存儲(chǔ)
結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)可存儲(chǔ)于分布式并行數(shù)據(jù)庫中,數(shù)據(jù)存儲(chǔ)
格式可以為列式存儲(chǔ)和行式存儲(chǔ)等多種存儲(chǔ)方式;
分布式內(nèi)存系統(tǒng):管理多個(gè)底層文件系統(tǒng),將不同的文件系統(tǒng)統(tǒng)
一在同一個(gè)名稱空間下,讓上層客戶端可以自由訪問統(tǒng)一空間內(nèi)的不
同路徑、不同存儲(chǔ)系統(tǒng)的數(shù)據(jù),供文件接口,存儲(chǔ)并維護(hù)文件的元數(shù)
據(jù);并提供容錯(cuò)的元數(shù)據(jù)服務(wù)。
針對不同的應(yīng)用場景支持傳統(tǒng)的批處理系統(tǒng)和高并發(fā)MPP作為
查詢引擎。批處理系統(tǒng)使用場景分鐘級、小時(shí)級以上的任務(wù)、穩(wěn)定可
靠、成本低;MPP使用場景為秒級、毫秒級以下的處理任務(wù),主要
服務(wù)于即席查詢場景,對外提供各種數(shù)據(jù)查詢和可視化服務(wù)。
在查詢引擎上層做統(tǒng)一封裝,提供統(tǒng)一的分布式并行數(shù)據(jù)庫服
務(wù)。
多種數(shù)據(jù)類型支持
第42頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
支持結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)(JSON/BSON,XML形式存
儲(chǔ))o由于越來越多的應(yīng)用在考慮對結(jié)構(gòu)化數(shù)據(jù)的增刪改查操作和半
結(jié)構(gòu)化數(shù)據(jù)做查詢,檢索和分析,對這些數(shù)據(jù)存儲(chǔ)的支持能簡化應(yīng)用
程序的開發(fā)工作,同時(shí)優(yōu)化使得對這類數(shù)據(jù)的操作性能更高。
文本格式支持
可支持TextFile、XML和JSON等文本??蓪⑸鲜龅奈募懭?/p>
到數(shù)據(jù)庫的文件系統(tǒng)中,由于上述文本格式除了會(huì)占用更多磁盤資源
外,對它的解析開銷一般會(huì)比二進(jìn)制格式高幾十倍以上,尤其是XML
和JSON,它們的解析開銷比TextFile還要大??蓪⑸鲜鑫募袷竭M(jìn)
行壓縮后入庫,大幅減少磁盤空間的占用率。
文本數(shù)據(jù)入庫后,可通過統(tǒng)一的SQL語句對數(shù)據(jù)進(jìn)行查詢。
數(shù)據(jù)表壓縮
對中間數(shù)據(jù)或最終數(shù)據(jù)做壓縮,是提高數(shù)據(jù)吞吐量和性能的一種
手段。對數(shù)據(jù)做壓縮,可以大量減少磁盤的存儲(chǔ)空間,比如基于文本
的數(shù)據(jù)文件,壓縮比可達(dá)5倍以上,同時(shí)壓縮后的文件在磁盤間傳輸
和I/O也會(huì)大大減少。使用RocksDB對數(shù)據(jù)進(jìn)行存儲(chǔ),并支持LZ4
等多種壓縮算法。支持對表按照壓縮比例進(jìn)行及時(shí)透明壓縮。數(shù)據(jù)壓
縮后支持查詢、修改、插入、刪除,此過程中無需解壓。
分布式云存儲(chǔ)系統(tǒng),在數(shù)據(jù)存儲(chǔ)層構(gòu)建的分布式文件系統(tǒng)作為圖
片、視頻等非結(jié)構(gòu)化文件的基礎(chǔ)文件系統(tǒng),對各類媒體流數(shù)據(jù),如視
頻文件進(jìn)行存儲(chǔ)和管理。一般情況下,非結(jié)構(gòu)化文件如圖片、視頻
等。這類數(shù)據(jù)數(shù)據(jù)量很大,屬于非結(jié)構(gòu)化數(shù)據(jù),不宜存儲(chǔ)在數(shù)據(jù)庫中。
笫43頁共93頁
數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)方案
另外,這類數(shù)據(jù)的查詢并不是直接針對圖片和視頻本身的查詢,而是
根據(jù)圖片或視頻(如果有)文件的路徑進(jìn)行定位。
2.3.3.10數(shù)據(jù)模型建設(shè)
整個(gè)模型工程的架構(gòu)主要由算子管理、模型建模、模型管理和模
型引擎四部分組成。
用戶可以通過多種建模方式創(chuàng)建基于標(biāo)準(zhǔn)的模型,部署到模型運(yùn)
行引擎上面配置模型參數(shù),模型運(yùn)行引擎會(huì)對模型運(yùn)行的合法性進(jìn)行
驗(yàn)證,包括是否符合標(biāo)準(zhǔn),數(shù)據(jù)資
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度米面產(chǎn)品冷鏈物流配送服務(wù)合同4篇
- 2025年度模特影視廣告模特聘用合同協(xié)議
- 二零二五年度奶牛養(yǎng)殖信息化管理系統(tǒng)采購合同4篇
- 2025年度藝術(shù)品抵押貸款服務(wù)合同
- 杯間乾坤酒中情懷中國傳統(tǒng)文化之酒文化講解
- 2025年度個(gè)人房產(chǎn)托管服務(wù)合同范本2篇
- 上海國資國企創(chuàng)新基地2024年度區(qū)塊鏈創(chuàng)新應(yīng)用白皮書
- 二零二五年度環(huán)保污染治理設(shè)施運(yùn)營合同4篇
- 二零二五年度房地產(chǎn)項(xiàng)目營銷策劃合同
- 課題申報(bào)參考:農(nóng)村婦女土地權(quán)益特殊保障制度研究-基于浙江、四川、貴州12區(qū)縣的實(shí)證分析
- GB/T 16895.3-2024低壓電氣裝置第5-54部分:電氣設(shè)備的選擇和安裝接地配置和保護(hù)導(dǎo)體
- 安徽省合肥市2025年高三第一次教學(xué)質(zhì)量檢測地理試題(含答案)
- 計(jì)劃合同部部長述職報(bào)告范文
- 風(fēng)光儲(chǔ)儲(chǔ)能項(xiàng)目PCS艙、電池艙吊裝方案
- 人教版高一地理必修一期末試卷
- GJB9001C質(zhì)量管理體系要求-培訓(xùn)專題培訓(xùn)課件
- 二手車車主寄售協(xié)議書范文范本
- 窗簾采購?fù)稑?biāo)方案(技術(shù)方案)
- 基于學(xué)習(xí)任務(wù)群的小學(xué)語文單元整體教學(xué)設(shè)計(jì)策略的探究
- 高中英語原版小說整書閱讀指導(dǎo)《奇跡男孩》(wonder)-Part one 講義
- GB/T 9755-2001合成樹脂乳液外墻涂料
評論
0/150
提交評論