某縣大數(shù)據(jù)中心大數(shù)據(jù)資源平臺建設(shè)與應(yīng)用解決方案_第1頁
某縣大數(shù)據(jù)中心大數(shù)據(jù)資源平臺建設(shè)與應(yīng)用解決方案_第2頁
某縣大數(shù)據(jù)中心大數(shù)據(jù)資源平臺建設(shè)與應(yīng)用解決方案_第3頁
某縣大數(shù)據(jù)中心大數(shù)據(jù)資源平臺建設(shè)與應(yīng)用解決方案_第4頁
某縣大數(shù)據(jù)中心大數(shù)據(jù)資源平臺建設(shè)與應(yīng)用解決方案_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

項目編號:某縣大數(shù)據(jù)中心大數(shù)據(jù)資源平臺建設(shè)與應(yīng)用解決方案項目編號:2022-XX-XX編制單位:XX市XX中心編制日期:二〇二二年二月目錄1.1建設(shè)目標(biāo) 11.2總體設(shè)計 21.2.1設(shè)計原則 21.2.2總體架構(gòu) 31.2.3功能架構(gòu) 41.2.4技術(shù)架構(gòu) 51.3建設(shè)內(nèi)容 51.3.1數(shù)據(jù)匯聚建設(shè)方案 51.3.2數(shù)據(jù)治理建設(shè)方案 101.3.3數(shù)據(jù)管理建設(shè)方案 291.4建設(shè)效果 481.4.1全量化數(shù)據(jù)資產(chǎn) 481.4.2可視化數(shù)據(jù)管理 481.4.3多樣化數(shù)據(jù)服務(wù) 501.4.4高效數(shù)據(jù)應(yīng)用開發(fā) 541.4.5智能化數(shù)據(jù)監(jiān)控 56平臺建設(shè)目標(biāo)結(jié)合某縣全縣的經(jīng)濟社會發(fā)展、社會治安總體狀況和城市總體規(guī)劃布局,以服務(wù)公安各警種為出發(fā)點,建立數(shù)據(jù)資源池,部門間共享數(shù)據(jù),全面提升信息化應(yīng)用效益,以云計算、大數(shù)據(jù)、人工智能等新技術(shù)為關(guān)鍵支撐,以服務(wù)業(yè)務(wù)應(yīng)用為根本目標(biāo),對多源、海量、異構(gòu)、實時視頻數(shù)據(jù)的接入、匯聚,實現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)融合化、數(shù)據(jù)標(biāo)簽化、數(shù)據(jù)模型化等數(shù)據(jù)治理工作,為各部門提供標(biāo)準(zhǔn)數(shù)據(jù)服務(wù)和增值數(shù)據(jù)服務(wù)。具體目標(biāo):構(gòu)建模型驅(qū)動架構(gòu)(MDA)的能力。支持業(yè)務(wù)化的模型設(shè)計和技術(shù)實例化,實現(xiàn)模型、模型分層的聯(lián)動以及集中化存儲和管控,保障需求-設(shè)計-實現(xiàn)-運行的一致性。構(gòu)建面向數(shù)據(jù)處理的統(tǒng)一管控框架。實現(xiàn)系統(tǒng)后臺數(shù)據(jù)處理的業(yè)務(wù)透明度,徹底杜絕技術(shù)實現(xiàn)的黑盒化,實現(xiàn)數(shù)據(jù)資產(chǎn)業(yè)務(wù)化的“可視、可管、可控”。實現(xiàn)業(yè)務(wù)需求的快速響應(yīng)。通過標(biāo)準(zhǔn)化的生產(chǎn)方式,最小化重復(fù)的體力工作,提高開發(fā)效率,提升系統(tǒng)總體產(chǎn)能力。實現(xiàn)數(shù)據(jù)處理過程中元數(shù)據(jù)、數(shù)據(jù)質(zhì)量的統(tǒng)一管控。實現(xiàn)對元數(shù)據(jù)的強制前向獲取、規(guī)范性的數(shù)據(jù)處理、數(shù)據(jù)質(zhì)量控制方法和技術(shù)管理手段,大幅細(xì)化、下潛數(shù)據(jù)質(zhì)量控制粒度,提升數(shù)據(jù)質(zhì)量問題收斂速度。實現(xiàn)模型和數(shù)據(jù)處理的標(biāo)準(zhǔn)化、規(guī)范化。通過標(biāo)準(zhǔn)化數(shù)據(jù)處理流程和代碼編寫規(guī)范,對命名規(guī)則、分層模型進行統(tǒng)一管理,能夠?qū)?shù)據(jù)處理過程的元數(shù)據(jù)進行規(guī)范性、完整性、時效性檢查控制,將數(shù)據(jù)標(biāo)準(zhǔn)和開發(fā)管理規(guī)范100%落實到日常的數(shù)據(jù)處理開發(fā)和運維中。構(gòu)建自描述的知識系統(tǒng)。通過IT系統(tǒng)的技術(shù)手段保證數(shù)據(jù)處理經(jīng)驗的有效傳承,讓有相關(guān)經(jīng)驗的人員在無人協(xié)助且無文檔幫助的前提下可以快速理解和掌握系統(tǒng),降低人員的個性和流失帶來影響。構(gòu)建可定制的擴展能力。提供靈活開放的接口層,讓第三方可以不依賴平臺廠商和應(yīng)用廠商的支持的前提下,獨立完成各種開發(fā)管控和數(shù)據(jù)管控的用戶需求??傮w設(shè)計方案設(shè)計原則大數(shù)據(jù)中心建設(shè)遵循以下基本原則:1、數(shù)據(jù)治理產(chǎn)品化數(shù)據(jù)治理的成果和內(nèi)容,必須落實到相應(yīng)的產(chǎn)品來嚴(yán)格實現(xiàn)。這些成果和內(nèi)容不再是簡單的文檔和管理流程,而是要通過切實可行的IT手段嚴(yán)格落地。2、數(shù)據(jù)處理工廠化數(shù)據(jù)處理工作,包括但不限于數(shù)據(jù)輸入、數(shù)據(jù)加工、數(shù)據(jù)輸出等,必須實現(xiàn)工廠化的建設(shè)和管理,以“極速、低成本、高質(zhì)量”要求來響應(yīng)海量的客戶個性化數(shù)據(jù)需求。通過實現(xiàn)數(shù)據(jù)處理全過程業(yè)務(wù)化的“可視、可管、可控”,讓業(yè)務(wù)人員可以參與數(shù)據(jù)處理的全過程,實現(xiàn)“需求-設(shè)計-實現(xiàn)-產(chǎn)品”的一致性貫穿。3、數(shù)據(jù)模型標(biāo)準(zhǔn)化按照數(shù)據(jù)治理的要求,通過平臺將數(shù)據(jù)模型的要求嚴(yán)格落地,杜絕不滿足標(biāo)準(zhǔn)的數(shù)據(jù)模型出現(xiàn)在系統(tǒng)中。4、數(shù)據(jù)運營全員化體現(xiàn)“平臺化、開放性”的思想,提高數(shù)據(jù)開放的可視化,實現(xiàn)人人參與數(shù)據(jù)治理、數(shù)據(jù)建設(shè)和數(shù)據(jù)運維。

5、數(shù)據(jù)安全可控化體現(xiàn)安全的重要性、必要性,保障服務(wù)開放過程中數(shù)據(jù)的安全可控??傮w架構(gòu)業(yè)務(wù)模型的引入,有效保障了設(shè)計與需求的一致性;業(yè)務(wù)模型到數(shù)據(jù)模型、技術(shù)實現(xiàn)的自動轉(zhuǎn)換,保障了實現(xiàn)與設(shè)計的一致性。各環(huán)節(jié)的一致性保障,才能確保數(shù)據(jù)的高質(zhì)量(即數(shù)據(jù)結(jié)果與用戶需求的吻合度)。建設(shè)數(shù)據(jù)資源池,為系統(tǒng)提供數(shù)據(jù)的存儲和計算能力。主要包含數(shù)據(jù)匯聚、數(shù)據(jù)治理、數(shù)據(jù)管理和數(shù)據(jù)服務(wù)。數(shù)據(jù)匯聚層將政府部門數(shù)據(jù)、社會單位數(shù)據(jù)做匯聚接入形成原始數(shù)據(jù),同時,也包含了上下級、跨網(wǎng)級聯(lián)的管理和插件管理。數(shù)據(jù)治理是包含對數(shù)據(jù)進行去重、清洗、轉(zhuǎn)換等標(biāo)準(zhǔn)化處理,形成基礎(chǔ)庫數(shù)據(jù)。并可進一步通過關(guān)聯(lián)分析、聚類分析和標(biāo)簽計算進行數(shù)據(jù)的深度加工處理。利用大數(shù)據(jù)集成系統(tǒng),實現(xiàn)對海量異構(gòu)數(shù)據(jù)的集成整合經(jīng)處理的數(shù)據(jù),形成基礎(chǔ)庫、主題庫、專題庫等。管理主要包含數(shù)據(jù)資源目錄、日志管理、告警監(jiān)控、任務(wù)監(jiān)控、服務(wù)監(jiān)控、權(quán)限管理、查詢配置等。數(shù)據(jù)服務(wù)層可以將所有的數(shù)據(jù)資源通過對外服務(wù)的方式提供數(shù)據(jù),包括數(shù)據(jù)查詢、數(shù)據(jù)訂閱、數(shù)據(jù)開放等基礎(chǔ)數(shù)據(jù)服務(wù)。同時,可提供標(biāo)簽建模、智能搜索、特征研判、模型碰撞等智能數(shù)據(jù)服務(wù)。功能架構(gòu)提供可視化的標(biāo)準(zhǔn)開發(fā)環(huán)境,進行數(shù)據(jù)需求開發(fā)。開發(fā)人員只需按模板填充相關(guān)的描述或參數(shù)即可完成開發(fā),技術(shù)代碼由平臺統(tǒng)一實現(xiàn);提供元數(shù)據(jù)獲取和管理功能,標(biāo)準(zhǔn)化的開發(fā)使得開發(fā)過程即為填寫元數(shù)據(jù)的過程,如果元數(shù)據(jù)未填充或填充不完整,平臺可以不允許開發(fā)人員提交,達(dá)到元數(shù)據(jù)強制前向獲??;提供數(shù)據(jù)質(zhì)量管理功能,在設(shè)計階段即對數(shù)據(jù)在哪個階段需要進行哪些質(zhì)量檢查進行定義,設(shè)計好的數(shù)據(jù)質(zhì)量檢查作為開發(fā)的一部分并落實到數(shù)據(jù)處理過程,規(guī)則出錯可中斷調(diào)度運行;提供統(tǒng)一開發(fā)調(diào)度平臺,以一個業(yè)務(wù)量生產(chǎn)過程為例,傳統(tǒng)做法是通過接口通信表或時序依賴進行協(xié)同生產(chǎn)。在統(tǒng)一調(diào)度平臺中以數(shù)據(jù)流作為驅(qū)動,通過控制中心進行作業(yè)命令下發(fā),狀態(tài)收集進行控制,達(dá)到各個異構(gòu)系統(tǒng),多個子系統(tǒng)的協(xié)同調(diào)度提供與各類底層平臺對接功能,通過部署代理到各個底層平臺實現(xiàn)雙方的互通,開發(fā)完成后,任務(wù)將自動發(fā)布到指定平臺中運行;提供對象化接口模塊,可將平臺中的元數(shù)據(jù)、數(shù)據(jù)質(zhì)量信息、數(shù)據(jù)標(biāo)準(zhǔn)、任務(wù)調(diào)度等提供給外部系統(tǒng),同時也能通過外部系統(tǒng)導(dǎo)入。技術(shù)架構(gòu)基于某縣大數(shù)據(jù)中心的建設(shè)目標(biāo),結(jié)合某縣公安數(shù)據(jù)與業(yè)務(wù)特點,采用了當(dāng)前最主流的大數(shù)據(jù)平臺技術(shù)架構(gòu),構(gòu)設(shè)了某縣大數(shù)據(jù)中心,系統(tǒng)建設(shè)以模型為主體,把元數(shù)據(jù)、數(shù)據(jù)處理、數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)等功能融合在模型中統(tǒng)一處理和調(diào)度。技術(shù)架構(gòu)圖如下:平臺建設(shè)方案數(shù)據(jù)匯聚建設(shè)方案數(shù)據(jù)匯聚實現(xiàn)將外部各種數(shù)據(jù)源的數(shù)據(jù)匯聚到本地數(shù)據(jù)池的功能,包括數(shù)據(jù)源注冊、數(shù)據(jù)接入、數(shù)據(jù)同步和數(shù)據(jù)級聯(lián)等。數(shù)據(jù)注冊數(shù)據(jù)源注冊模塊可將外部數(shù)據(jù)源包括PostgreSQL、Oracle、HBP、HBase、mpp、ftp、Kafka、Mysql等數(shù)據(jù)注冊到數(shù)據(jù)資源平臺,包括連接信息,訪問信息等。數(shù)據(jù)接入根據(jù)不同數(shù)據(jù)源采用相應(yīng)的技術(shù)實現(xiàn)數(shù)據(jù)接入,如Sqoop、FTP/SFTP、DB2API、Flume和Hadoop技術(shù)等。數(shù)據(jù)的接入方式支持全量數(shù)據(jù)接入和增量數(shù)據(jù)接入兩種,其中增量方式分為按時間遞增和按序列遞增。數(shù)據(jù)接入支持并行處理,能夠有效提升數(shù)據(jù)接入效率。在數(shù)據(jù)接入過程中,提供數(shù)據(jù)校驗來保障數(shù)據(jù)質(zhì)量。數(shù)據(jù)校驗依附在數(shù)據(jù)接入任務(wù)完成后,通過對數(shù)據(jù)源與目標(biāo)數(shù)據(jù)庫之間的數(shù)據(jù)進行對比分析,發(fā)現(xiàn)與解決在數(shù)據(jù)接入過程可能產(chǎn)生的異常錯誤信息。數(shù)據(jù)接入引擎根據(jù)接入數(shù)據(jù)類型的不同,分別使用不同的技術(shù)實現(xiàn)數(shù)據(jù)接入。采用Sqoop實現(xiàn)各種關(guān)系型數(shù)據(jù)如MySQL、Oracle、PostgreSQL等數(shù)據(jù)庫與分布式文件系統(tǒng)HDFS之間的數(shù)據(jù)轉(zhuǎn)移。采用Flume實現(xiàn)海量日志數(shù)據(jù)接入。數(shù)據(jù)接入引擎還支持FTP、WebService接口等多種方式的數(shù)據(jù)接入數(shù)據(jù)接入能力大數(shù)據(jù)中心具備對多種不同類型數(shù)據(jù)源的接入適配能力,支持從關(guān)系型數(shù)據(jù)庫(例如Oracle、SQLServer、DB2、MySQL、PostgreSQL)、數(shù)據(jù)接口(例如RESTful和SOAPWebService接口)、文件(例如Excel、CSV、Txt等類型)、大數(shù)據(jù)文件系統(tǒng)(例如HDFS)、FTP文件系統(tǒng)等異構(gòu)數(shù)據(jù)源進行統(tǒng)一接入,為多業(yè)務(wù)系統(tǒng)的數(shù)據(jù)整合提供通路,滿足企業(yè)級數(shù)據(jù)融合匯聚的需求。1)從數(shù)據(jù)庫接入數(shù)據(jù)大數(shù)據(jù)資源中心基于Sqoop數(shù)據(jù)轉(zhuǎn)移工具實現(xiàn)從關(guān)系型數(shù)據(jù)庫接入數(shù)據(jù)加載到HDFS集群。本質(zhì)上Sqoop是Hadoop的一個Job客戶端,根據(jù)創(chuàng)建的數(shù)據(jù)接入任務(wù),定義Hadoop的接入Job,然后將該Job提交到Hadoop集群執(zhí)行。Sqoop可以通過Hadoop的MapReduce把數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫中導(dǎo)入數(shù)據(jù)到HDFS,實現(xiàn)將數(shù)據(jù)在關(guān)系型數(shù)據(jù)與Hadoop之間的遷移。大數(shù)據(jù)資源中心采用Sqoop從關(guān)系型數(shù)據(jù)庫接入數(shù)據(jù),具有如下特點:使用元數(shù)據(jù)模型來判斷數(shù)據(jù)類型,并在數(shù)據(jù)從數(shù)據(jù)源轉(zhuǎn)移到Hadoop時確保類型安全的數(shù)據(jù)處理;大數(shù)據(jù)批量傳輸?shù)哪芰Γ軌蚍指顢?shù)據(jù)集并創(chuàng)建Hadoop任務(wù)來處理每個區(qū)塊;支持增量更新,將新記錄添加到最近一次導(dǎo)出的數(shù)據(jù)源上,或者指定上次修改的時間戳。2)從FTP接入數(shù)據(jù)大數(shù)據(jù)資源中心支持從FTP文件服務(wù)器中接入數(shù)據(jù)到Hadoop集群。產(chǎn)品基于FTP協(xié)議,將FTP文件讀入并傳送到HDFS上,實現(xiàn)對海量數(shù)據(jù)以文件方式進行傳輸。由于采用基于內(nèi)存的方式實現(xiàn)FTP數(shù)據(jù)轉(zhuǎn)移,避免了將數(shù)據(jù)寫入本地磁盤的中間過程,大幅提升數(shù)據(jù)接入的效率。另一方面,為防止異常導(dǎo)致任務(wù)中斷,對FTP數(shù)據(jù)接入支持?jǐn)帱c續(xù)傳功能。3)從HDFS接入數(shù)據(jù)系統(tǒng)支持從HDFS分布式文件系統(tǒng)中接入數(shù)據(jù)到大數(shù)據(jù)資源中心,主要基于Hadoop的Shell命令將文件從源路徑復(fù)制到目標(biāo)路徑來實現(xiàn)。從接口接入數(shù)據(jù)大數(shù)據(jù)資源中心支持對主流接口數(shù)據(jù)的接入,如基于WebService、Socket等接口進行數(shù)據(jù)接入。數(shù)據(jù)接入數(shù)據(jù)源根據(jù)調(diào)研情況,目前大數(shù)據(jù)中心,一期建設(shè)需要對接的數(shù)據(jù)源,以及對接的數(shù)據(jù)情況如下表數(shù)據(jù)科目對接系統(tǒng)對接數(shù)據(jù)內(nèi)容數(shù)據(jù)類型當(dāng)前數(shù)據(jù)量日增數(shù)據(jù)量對接方式數(shù)據(jù)返回方式當(dāng)前進度公安業(yè)務(wù)數(shù)據(jù)紹興公安大數(shù)據(jù)平臺1.公安資源數(shù)據(jù)(法制、交警、科通、網(wǎng)警、刑偵、治安……)

2.社會資源數(shù)據(jù)(數(shù)據(jù)已基本不更新1.數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)

2.圖片以二進制方式存儲在數(shù)據(jù)庫207類數(shù)據(jù)

10億條100萬條Http-Api/數(shù)據(jù)庫視圖1.結(jié)構(gòu)化返回XML,解析后提取數(shù)據(jù)

2.圖片數(shù)據(jù)返回Base64碼流數(shù)據(jù),解析后提取圖片非熱點存量數(shù)據(jù)已完成省廳眾智平臺公安社會資源數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)庫待確認(rèn)待確認(rèn)待確認(rèn)待確認(rèn)目前公安無相關(guān)權(quán)限社會數(shù)據(jù)輿情系統(tǒng)社會熱點、居民動態(tài)、群體情緒分析、安全隱患風(fēng)險……1.數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)

2.有少量圖片、視頻//數(shù)據(jù)接口/中間庫/文件按接口方式返回數(shù)據(jù)對接中(1w/年的定價,客戶未明確要接入)智安小區(qū)數(shù)據(jù)電子巡更、車輛出入、人員出入、入侵報警、身份驗證、門禁等…1.結(jié)構(gòu)化數(shù)據(jù)庫

2.車輛出入圖片等非結(jié)構(gòu)化數(shù)據(jù)TB級別/經(jīng)智安小區(qū)管理平臺通過網(wǎng)閘接入公安視頻專網(wǎng)智安小區(qū)匯聚與管理平臺待確認(rèn)對接中(紹興市要求10月完成、目前對接優(yōu)先級靠后)物聯(lián)感知數(shù)據(jù)??灯脚_1、雪亮工程監(jiān)控視頻

2、車臉圖片

3、村級和治安監(jiān)控1、結(jié)構(gòu)化數(shù)據(jù)庫(監(jiān)控點位、設(shè)備信息)

2、車臉圖片數(shù)據(jù)TB級別1、現(xiàn)有11000多路視頻,分布式存儲(200TB)

2、車臉數(shù)據(jù)每天200-300萬1、點位信息可通過數(shù)據(jù)庫視圖方式直接獲取

2、視頻流和視頻文件需要走接口方式獲取(以獲取人臉、車輛或特點事件視頻數(shù)據(jù)為主,數(shù)據(jù)先由AI平臺處理)

3、車臉圖片數(shù)據(jù)公安1400協(xié)議下接口方式獲取已完成曠視人臉平臺1000路抓拍人臉照片數(shù)據(jù)實時人臉圖片,對應(yīng)的抓拍設(shè)備編號、抓拍時間點,包含人臉的小圖和人臉?biāo)诖髨D的URLTB級別50-100萬張照片公安1400協(xié)議下接口方式獲取按接口方式返回數(shù)據(jù)已完成MAC1.終端特征信息2.被采集熱點信息結(jié)構(gòu)化數(shù)據(jù)庫TB級別20GFTP服務(wù)器接收zip壓縮包,含xml索引文件和bcp數(shù)據(jù)文件已完成數(shù)據(jù)拓?fù)鋱D如下圖所示,視頻專網(wǎng)到公安內(nèi)網(wǎng)已打通,實時Mac數(shù)據(jù)、??弟嚹様?shù)據(jù)、曠視人臉數(shù)據(jù)已接入公安內(nèi)網(wǎng)數(shù)據(jù)同步數(shù)據(jù)同步實現(xiàn)將數(shù)據(jù)同步到數(shù)據(jù)資源池,同步策略包括以下幾種:(1)支持設(shè)置外部數(shù)據(jù)結(jié)構(gòu)和目標(biāo)數(shù)據(jù)之間的映射關(guān)系。(2)支持設(shè)置目標(biāo)數(shù)據(jù)源的類型,包括:FTP、kafka和MPP。(3)支持全量同步和增量同步,增量同步需要設(shè)置增量字段。(4)支持周期性同步和一次性同步,周期性同步支持按月、按周、按天、按小時、按分鐘、按秒同步,一次性同步支持設(shè)置同步時間。(5)支持監(jiān)聽kafka消息,同步實時數(shù)據(jù)。(6)支持文件同步與數(shù)據(jù)庫同步數(shù)據(jù)級聯(lián)數(shù)據(jù)級聯(lián)實現(xiàn)多個數(shù)據(jù)資源池之間通過數(shù)據(jù)級聯(lián)功能實現(xiàn)數(shù)據(jù)交換共享,包括向上級聯(lián)、向下級聯(lián)和同級級聯(lián)多種類型。根據(jù)網(wǎng)絡(luò)情況,支持同網(wǎng)級聯(lián)和跨網(wǎng)級聯(lián),滿足用戶跨網(wǎng)級聯(lián)的需求。系統(tǒng)可根據(jù)不同數(shù)據(jù)池的數(shù)據(jù)需求,按需推送數(shù)據(jù),也可根據(jù)本級數(shù)據(jù)池的需求,按需接收其他數(shù)據(jù)池推送的數(shù)據(jù)。同時支持查詢級聯(lián)任務(wù)的相關(guān)信息,并可對級聯(lián)任務(wù)進行編輯和刪改。數(shù)據(jù)治理建設(shè)方案總體建設(shè)方案概述數(shù)據(jù)治理將分散、多樣化的數(shù)據(jù)通過匯集、標(biāo)準(zhǔn)化、清洗等操作對數(shù)據(jù)的質(zhì)量進行全面的提升和監(jiān)控,形成某縣城市大數(shù)據(jù)的管理和控制機制,并提供一站式數(shù)據(jù)治理體系,持續(xù)不斷的挖掘和提升數(shù)據(jù)的應(yīng)用價值。從功能角度,數(shù)據(jù)治理系統(tǒng)包括數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)目錄管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)集成、工作流、數(shù)據(jù)地圖/數(shù)據(jù)血緣、數(shù)據(jù)管理數(shù)據(jù)安全、多租戶、元數(shù)據(jù)管理、系統(tǒng)安全等功能。制定相關(guān)標(biāo)準(zhǔn)規(guī)范及管理制度,通過相應(yīng)平臺工具匯聚縣內(nèi)各單位公共數(shù)據(jù)及市級落地數(shù)據(jù)資源,形成縣級數(shù)據(jù)池,同時經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換、融合、治理后高質(zhì)量的公共數(shù)據(jù)資源,形成縣級綜合數(shù)據(jù)平臺。數(shù)據(jù)治理系統(tǒng)通過對數(shù)據(jù)全生命周期、端到端的全鏈路透明化管控,實現(xiàn)“數(shù)據(jù)模型標(biāo)準(zhǔn)化、數(shù)據(jù)關(guān)系脈絡(luò)化、數(shù)據(jù)加工可視化、數(shù)據(jù)質(zhì)量度量化”,實現(xiàn)數(shù)據(jù)資產(chǎn)的統(tǒng)一管理及全業(yè)務(wù)流程的實時監(jiān)控,有效解決數(shù)據(jù)資源不可知、數(shù)據(jù)質(zhì)量不可控、數(shù)據(jù)關(guān)系不可聯(lián)、數(shù)據(jù)脈絡(luò)不清晰的痛點問題。數(shù)據(jù)治理就是將數(shù)據(jù)轉(zhuǎn)化為資產(chǎn)的手段和方法,采用的數(shù)據(jù)治理子系統(tǒng)和工具,以分布式存儲和運算為基礎(chǔ),通過人工智能和機器學(xué)習(xí)技術(shù),輔之以適量的人工訓(xùn)練和專家反饋不斷優(yōu)化數(shù)據(jù)理解和數(shù)據(jù)關(guān)聯(lián)。數(shù)據(jù)治理子系統(tǒng)給圍繞某縣大數(shù)據(jù)資源平臺的應(yīng)用建設(shè)目標(biāo),包含數(shù)據(jù)地圖、數(shù)據(jù)質(zhì)量、智能監(jiān)控、數(shù)據(jù)保護傘以及安全衛(wèi)士,提供全面的數(shù)據(jù)治理能力,提供數(shù)據(jù)提取、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)比對等方面服務(wù)。在數(shù)據(jù)打通過程中,同時做好數(shù)據(jù)質(zhì)量管理,主要包括四個方面數(shù)據(jù)缺失補缺、數(shù)據(jù)重復(fù)去重、數(shù)據(jù)錯誤糾正、數(shù)據(jù)不可用補救。數(shù)據(jù)治理論述大數(shù)據(jù)治理工作從數(shù)據(jù)匯聚開始,到最終服務(wù)業(yè)務(wù),主要包括以下幾個階段:第一階段:數(shù)據(jù)匯聚,融合管理從互聯(lián)網(wǎng)、物聯(lián)感知網(wǎng)、公安內(nèi)網(wǎng)、政務(wù)外網(wǎng)收集各類數(shù)據(jù),形成大數(shù)據(jù)中心的數(shù)據(jù)基礎(chǔ),并對匯集的原始數(shù)據(jù)開展基于數(shù)據(jù)管理視角和業(yè)務(wù)應(yīng)用視角的治理及應(yīng)用工作?;跀?shù)據(jù)管理視角,對業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)進行集中采集和管理,從站位全局服務(wù)某縣大數(shù)據(jù)創(chuàng)新應(yīng)用的角度梳理大數(shù)據(jù)資產(chǎn),構(gòu)建數(shù)據(jù)資源目錄和數(shù)據(jù)資產(chǎn)管理應(yīng)用,達(dá)到數(shù)據(jù)資源的規(guī)范化和可視化;匯聚后的原始數(shù)據(jù)仍處于零散、不可直接使用的狀態(tài),為數(shù)據(jù)使用者提供一站式的集成開發(fā)環(huán)境,從而滿足數(shù)據(jù)資源平臺下,數(shù)據(jù)開發(fā)者進行ETL開發(fā)、數(shù)據(jù)挖掘算法開發(fā)、數(shù)據(jù)主題庫建設(shè)等需求;對數(shù)據(jù)融合處理的全過程通過質(zhì)量管理工具進行管理監(jiān)測,保障數(shù)據(jù)質(zhì)量;因公安政府?dāng)?shù)據(jù)的機密性、高敏感性等特點,需對數(shù)據(jù)資源層中各數(shù)據(jù)項進行安全上的分類分級,確保數(shù)據(jù)使用合理、安全可控?;跇I(yè)務(wù)應(yīng)用視角,對匯聚的基礎(chǔ)數(shù)據(jù)開展模型治理,通過數(shù)據(jù)清洗加工、基于業(yè)務(wù)背景及要求的處理加工、以及面向應(yīng)用專題場景的開發(fā),依次構(gòu)建整合數(shù)據(jù)資源層、主題數(shù)據(jù)資源層、應(yīng)用數(shù)據(jù)資源層,形成指標(biāo)口徑一致、統(tǒng)存統(tǒng)用的大數(shù)據(jù)資源層。第二階段:基于數(shù)據(jù),提煉抽象信息,形成知識因政務(wù)大數(shù)據(jù)涉及的來源廣泛、數(shù)據(jù)采集背景及方法多樣甚至特殊、復(fù)雜,導(dǎo)致因不同的匯集場景等因素,各個實體對象往往存在多個ID,需要對ID間關(guān)系做計算,通過IDMapping,建立ID和實體人/物間的關(guān)系,從而串聯(lián)起實體人/物的屬性/行為信息。數(shù)據(jù)中的各種人/物、事件、活動軌跡也不是孤立存在的,需要對各個部份的數(shù)據(jù)做動態(tài)關(guān)系識別、軌跡匹配等操作,形成統(tǒng)一的關(guān)系庫、軌跡庫等?;跇I(yè)務(wù)需求引導(dǎo)和對數(shù)據(jù)資源信息的價值梳理,對數(shù)據(jù)進行進一步提煉加工和算法計算,將數(shù)據(jù)標(biāo)簽化,基于“四大庫”構(gòu)建全息檔案等標(biāo)簽庫,支撐專題應(yīng)用庫建設(shè),并通過標(biāo)簽中心產(chǎn)品對用戶及開發(fā)者開放。第三階段:構(gòu)建應(yīng)用,服務(wù)業(yè)務(wù)按照業(yè)務(wù)場景需求,將基礎(chǔ)庫、主題庫和專題庫等進一步組合利用,可構(gòu)建起各類業(yè)務(wù)創(chuàng)新應(yīng)用,如監(jiān)控大屏、全息畫像、預(yù)警中心等應(yīng)用。通過數(shù)據(jù)服務(wù)平臺,可以把數(shù)據(jù)和標(biāo)簽在線服務(wù)化提供給開發(fā)者和用戶。數(shù)據(jù)治理流程標(biāo)準(zhǔn)錄入數(shù)據(jù)治理平臺會包含部分5大庫數(shù)據(jù)標(biāo)準(zhǔn),行標(biāo)、部門標(biāo)準(zhǔn)等需由實施人員從客戶處采集后錄入系統(tǒng)同步數(shù)據(jù)結(jié)構(gòu)由于數(shù)據(jù)治理過程需采集數(shù)據(jù)元并標(biāo)準(zhǔn)化,故需先將生產(chǎn)庫需橋接庫表的數(shù)據(jù)結(jié)構(gòu)錄入前置庫元數(shù)據(jù)采集將數(shù)據(jù)結(jié)構(gòu)采集入數(shù)據(jù)治理平臺標(biāo)準(zhǔn)化實施人員為采集來的元數(shù)據(jù)掛接數(shù)據(jù)標(biāo)準(zhǔn),標(biāo)準(zhǔn)化其元數(shù)據(jù)格式屬性、值域等落標(biāo)及數(shù)據(jù)橋接部門管理員根據(jù)標(biāo)準(zhǔn)化的字段屬性,將生產(chǎn)庫數(shù)據(jù)橋接到前置庫質(zhì)檢及整改中心管理員對前置庫數(shù)據(jù)進行質(zhì)量檢查及整改數(shù)據(jù)集成中心管理員將質(zhì)檢后數(shù)據(jù)集成到治理庫邏輯質(zhì)檢中心管理員對治理庫的數(shù)據(jù)根據(jù)業(yè)務(wù)需求進行邏輯層質(zhì)量檢查資源掛載部門管理人員對已完成數(shù)據(jù)治理的治理庫數(shù)據(jù)進行資源掛載基礎(chǔ)庫治理步驟針對于基礎(chǔ)庫的治理主要流程如下:基礎(chǔ)庫準(zhǔn)備基礎(chǔ)物理庫以及基礎(chǔ)庫元數(shù)據(jù)通過產(chǎn)品初始化腳本創(chuàng)建。默認(rèn)基礎(chǔ)庫模型中的字段約束,包括字段類型,長度,規(guī)則等參考基礎(chǔ)庫基礎(chǔ)目錄技術(shù)規(guī)范,例如人口庫:數(shù)據(jù)集成以人口庫為例,將前置庫中的部分?jǐn)?shù)據(jù)和人口數(shù)據(jù)元進行關(guān)聯(lián)。以人口基本信息表單(T_RK_BaseInfo)和人口擴展信息(T_RK_Summary)為目標(biāo),主要驗證:多個表的數(shù)據(jù)合并:戶籍人口和流動人口匯集到人口庫基本信息表。默認(rèn)字段賦值;人口基本信息表中的rowguid、personguid需要uuid賦值。一張表到多張表;戶籍人口和流動人口匯集到人口庫擴展信息表,并且擴展信息表的personguid需要與基本信息的personguid一致。規(guī)則過濾;自動過濾不滿足身份證校驗的數(shù)據(jù);自動過濾不滿足代碼項的數(shù)據(jù),其中不滿足部門代碼項的、滿足部門代碼項但是人口庫中沒有對應(yīng)的代碼項的數(shù)據(jù)都需要過濾。代碼項轉(zhuǎn)換;性別和名族代碼項,部門代碼項實際值與人口庫代碼項的值不一致的,通過顯示值進行匹配后自動轉(zhuǎn)換成人口庫的值。其他來源的字段更新。人口基本信息表的死亡標(biāo)識狀態(tài)由民政局的死亡信息目錄進行更新。需要滿足條件的才會進行更新。溯源分析通過可視化圖形,展現(xiàn)人口庫和公安、民政等部門的溯源關(guān)系。治理過程產(chǎn)出通過數(shù)據(jù)治理工作后,形成的數(shù)據(jù)治理成果物。數(shù)據(jù)治理建設(shè)方案數(shù)據(jù)標(biāo)準(zhǔn)管理數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范了業(yè)務(wù)術(shù)語,元數(shù)據(jù),參考數(shù)據(jù),基礎(chǔ)數(shù)據(jù),指標(biāo)數(shù)據(jù)的規(guī)范定義、獲取原則、管理要求等。包括設(shè)計基礎(chǔ)類和分析類數(shù)據(jù)標(biāo)準(zhǔn),制定數(shù)據(jù)標(biāo)準(zhǔn)管理制度和流程,明確數(shù)據(jù)標(biāo)準(zhǔn)管理組織和職責(zé),以明確的組織、職責(zé)、流程設(shè)計為前提,調(diào)動業(yè)務(wù)部門、技術(shù)部門和系統(tǒng)技術(shù)團隊共同參與數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計,建立全局?jǐn)?shù)據(jù)標(biāo)準(zhǔn)流程,制定總體落地計劃,推動數(shù)據(jù)標(biāo)準(zhǔn)落地執(zhí)行,增強內(nèi)部對數(shù)據(jù)標(biāo)準(zhǔn)的理解,指導(dǎo)信息化建設(shè)中對數(shù)據(jù)標(biāo)準(zhǔn)的參照。數(shù)據(jù)標(biāo)準(zhǔn)管理規(guī)范數(shù)據(jù)標(biāo)準(zhǔn)管理體系主要包含數(shù)據(jù)標(biāo)準(zhǔn)管理、落地實施機制、及數(shù)據(jù)標(biāo)準(zhǔn)管理平臺維護三部分。平臺通過對數(shù)據(jù)標(biāo)準(zhǔn)管理、落地實施機制、及數(shù)據(jù)標(biāo)準(zhǔn)管理平臺維護三部分進行數(shù)據(jù)資源管理,制定數(shù)據(jù)標(biāo)準(zhǔn)管理制度和流程,明確數(shù)據(jù)標(biāo)準(zhǔn)管理組織和職責(zé),以明確的組織、職責(zé)、流程設(shè)計。落地實施機制從規(guī)范推廣、技術(shù)平臺支撐兩方面保障;數(shù)據(jù)標(biāo)準(zhǔn)平臺維護主要包括建設(shè)數(shù)據(jù)標(biāo)準(zhǔn)技術(shù)平臺,支撐數(shù)據(jù)標(biāo)準(zhǔn)日常管理工作兩方面。數(shù)據(jù)標(biāo)準(zhǔn)管理機制設(shè)計設(shè)計基礎(chǔ)類和分析類數(shù)據(jù)標(biāo)準(zhǔn),制定數(shù)據(jù)標(biāo)準(zhǔn)管理制度和流程,明確數(shù)據(jù)標(biāo)準(zhǔn)管理組織和職責(zé),以明確的組織、職責(zé)、流程設(shè)計為前提,調(diào)動業(yè)務(wù)部門、技術(shù)部門和系統(tǒng)技術(shù)團隊共同參與數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計,建立企業(yè)級數(shù)據(jù)標(biāo)準(zhǔn)流程,制定總體落地計劃,推動數(shù)據(jù)標(biāo)準(zhǔn)落地執(zhí)行,增強對數(shù)據(jù)標(biāo)準(zhǔn)的理解,指導(dǎo)信息化建設(shè)中對數(shù)據(jù)標(biāo)準(zhǔn)的參照。數(shù)據(jù)標(biāo)準(zhǔn)分類規(guī)范數(shù)據(jù)標(biāo)準(zhǔn)是對數(shù)據(jù)的名稱、含義、結(jié)構(gòu)、取值等信息的統(tǒng)一定義,達(dá)成對數(shù)據(jù)的業(yè)務(wù)理解、技術(shù)實現(xiàn)的一致性?;跀?shù)據(jù)模型理論將數(shù)據(jù)標(biāo)準(zhǔn)延伸至5個分類,涵蓋技術(shù)、業(yè)務(wù)多個視角。業(yè)務(wù)術(shù)語:從一致性、通用性等方面統(tǒng)一業(yè)務(wù)術(shù)語定義。數(shù)據(jù)項標(biāo)準(zhǔn):用來描述實體的某種屬性,包含數(shù)據(jù)項的名稱、編號、別名、簡述、數(shù)據(jù)項的長度、類型、數(shù)據(jù)項的取值范圍。參考數(shù)據(jù)標(biāo)準(zhǔn):識別參考數(shù)據(jù),并建立參考數(shù)據(jù)的統(tǒng)一標(biāo)準(zhǔn)樣例,使參考數(shù)據(jù)可在不同系統(tǒng)中被使用而保持統(tǒng)一標(biāo)準(zhǔn)值。主數(shù)據(jù)標(biāo)準(zhǔn):主數(shù)據(jù)編碼是應(yīng)用系統(tǒng)中的重要數(shù)據(jù)類型之一,通常用來描述業(yè)務(wù)操作的具體對象及其特征,注重唯一性,特征一致性,穩(wěn)定性及有效性。唯一性:在一個系統(tǒng),一個平臺甚至整個范圍內(nèi)同一主數(shù)據(jù)編碼要求具有唯一的識別標(biāo)志(代碼,名稱,特征描述等),用以明確區(qū)分業(yè)務(wù)對象,業(yè)務(wù)范圍和業(yè)務(wù)的具體細(xì)節(jié)特征一致性:主數(shù)據(jù)在不同系統(tǒng)中,均按統(tǒng)一標(biāo)準(zhǔn)出現(xiàn)穩(wěn)定性:主數(shù)據(jù)相對穩(wěn)定,本身屬性不會隨交易過程而被修改有效性:貫穿該業(yè)務(wù)對象的全生命周期過程,只要該業(yè)務(wù)對象存在,則此數(shù)據(jù)不會喪失有效性指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn):需要收集指標(biāo)的管理信息、業(yè)務(wù)定義、以及維度定義,需要兼顧通用性和個性化,個性化方面支持各使用部門個性化定制數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計規(guī)范以分析型應(yīng)用建設(shè)和操作型應(yīng)用集成為導(dǎo)向,兩套方法結(jié)合,建立數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計體系分析型應(yīng)用建設(shè)導(dǎo)向:以分析應(yīng)用指標(biāo)范圍為依據(jù),重點結(jié)合業(yè)務(wù)戰(zhàn)略及管理要求,自上而下追溯數(shù)據(jù)源,聚焦數(shù)據(jù)標(biāo)準(zhǔn)范圍。操作型應(yīng)用集成導(dǎo)向:自上而下的原則,基于實際業(yè)務(wù)流程及操作,重點識別跨業(yè)務(wù)、跨流程的集成點及關(guān)鍵步驟,分析提煉共享數(shù)據(jù),完成業(yè)務(wù)流程和應(yīng)用共享的數(shù)據(jù)映射,刪除冗余、非重點數(shù)據(jù),精簡數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)范圍。數(shù)據(jù)元管理數(shù)據(jù)元管理主要包括數(shù)據(jù)元新增、數(shù)據(jù)元導(dǎo)入、數(shù)據(jù)元發(fā)布、數(shù)據(jù)元修改、數(shù)據(jù)元刪除、數(shù)據(jù)元停用、數(shù)據(jù)元檢索等功能。同時支持?jǐn)?shù)據(jù)元版本管理及版本之間的差異核對功能以及支持基于基礎(chǔ)庫、主題庫的元數(shù)據(jù)快速創(chuàng)建標(biāo)準(zhǔn)數(shù)據(jù)元,并建立和相關(guān)元數(shù)據(jù)的關(guān)聯(lián)關(guān)系。標(biāo)準(zhǔn)代碼配置標(biāo)準(zhǔn)代碼配置支持代碼的分類、標(biāo)準(zhǔn)代碼項的新增、導(dǎo)入、導(dǎo)出功能,提供了標(biāo)準(zhǔn)代碼維護的能力;可關(guān)聯(lián)到國標(biāo)、地標(biāo)代碼字典,為數(shù)據(jù)的規(guī)范性提供了更加詳細(xì)的描述,為后續(xù)的數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)等工作提供支撐。標(biāo)準(zhǔn)數(shù)據(jù)元具有唯一的編碼(標(biāo)準(zhǔn)代碼),按照實際的業(yè)務(wù)領(lǐng)域進行分類之后,可以形成帶有業(yè)務(wù)領(lǐng)域特征的相關(guān)編碼,比如“FR00001”代表法人相關(guān)的數(shù)據(jù)元標(biāo)準(zhǔn)代碼。常用規(guī)則配置數(shù)據(jù)元的值有部分需要滿足固定格式的標(biāo)準(zhǔn),治理過程中需要通過固定的值組成規(guī)則來規(guī)范數(shù)據(jù)源值的格式,例如身份證、電話號碼、電子郵箱等格式。包括通用規(guī)則及各部門根據(jù)自身需求實際制定的規(guī)則,常用規(guī)則配置會針對公共數(shù)據(jù)的特性內(nèi)置部分常用的規(guī)則,同時提供了規(guī)則的配置修改能力。元數(shù)據(jù)管理按照數(shù)據(jù)整合的層次結(jié)構(gòu)、主題域劃分,需要實現(xiàn)各層的各種對象,如表、存儲過程、索引、數(shù)據(jù)鏈、函數(shù)和包等的管理。清晰的表示各層次結(jié)構(gòu)之間的數(shù)據(jù)流程、各對象之間的關(guān)系,以及向外提供的各類數(shù)據(jù)服務(wù)的信息。元數(shù)據(jù)管理目標(biāo)元數(shù)據(jù)建設(shè)以服務(wù)項目管控需要為出發(fā)點,立足于項目建設(shè)實際,通過合理規(guī)劃和全面分析,以項目中的關(guān)鍵點和問題點作為優(yōu)先和重點突破方向,實現(xiàn)元數(shù)據(jù)的逐步演進和完善。元數(shù)據(jù)管理內(nèi)容元數(shù)據(jù)內(nèi)容涉及到整個大數(shù)據(jù)資源平臺的各個數(shù)據(jù)環(huán)節(jié),包括數(shù)據(jù)采集、逐層加工稽核,數(shù)據(jù)服務(wù)到最終應(yīng)用展現(xiàn)的處理,元數(shù)據(jù)管理貫穿了整個流程,并與各環(huán)節(jié)實現(xiàn)有效互動。元數(shù)據(jù)管理分類按照元數(shù)據(jù)的定義分類,綜合價值分析系統(tǒng)元數(shù)據(jù)管理分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)、管理元數(shù)據(jù)三類。其中:(1)業(yè)務(wù)元數(shù)據(jù)使用者的業(yè)務(wù)術(shù)語所表達(dá)的數(shù)據(jù)模型、對象名和屬性名;訪問數(shù)據(jù)的原則和數(shù)據(jù)來源;系統(tǒng)所提供的分析方法及公式、報表信息;對業(yè)務(wù)元數(shù)據(jù)來源的管理和差異性對比;(2)技術(shù)元數(shù)據(jù)系統(tǒng)結(jié)構(gòu)的描述(各個主題的定義,星型模式或雪花型模式的描述定義等);整合數(shù)據(jù)層的機構(gòu)單位的數(shù)據(jù)模型描述(以描述關(guān)系表及其關(guān)聯(lián)關(guān)系為形式);對數(shù)據(jù)稽核規(guī)則的定義、匯總數(shù)據(jù)層模型描述與裝載描述(包括維度、層次、度量以及相應(yīng)事實表、概要表的抽取規(guī)則);(3)管理元數(shù)據(jù)系統(tǒng)內(nèi)部用戶的數(shù)據(jù)處理操作規(guī)則,包括抽取、轉(zhuǎn)換、加載、匯總等各類操作的用戶權(quán)限、操作時間窗管理、異常處理規(guī)則等;外部訪問用戶(主要針對該系統(tǒng)對外提供的數(shù)據(jù)服務(wù))的操作規(guī)則和方式,包括所提供的數(shù)據(jù)服務(wù)接口、數(shù)據(jù)訪問方式、操作;各類用戶的操作記錄日志,包括操作用戶、登錄方式、操作對象、持續(xù)時間、操作類型等相關(guān)信息。元數(shù)據(jù)管理組織為了保障元數(shù)據(jù)管理目標(biāo)的順利達(dá)成,需要從組織架構(gòu)層面建立專業(yè)的元數(shù)據(jù)管控組織予以保障,確保元數(shù)據(jù)管控要求得以落實、制度得以執(zhí)行。元數(shù)據(jù)管理流程元數(shù)據(jù)維護管理流程是以需求提出作為開始,經(jīng)歷規(guī)劃設(shè)計、開發(fā)實施、需求驗收等項目階段的元數(shù)據(jù)建立和校驗,最后實現(xiàn)元數(shù)據(jù)的發(fā)布和運維管理。在這些階段中,元數(shù)據(jù)管控組負(fù)責(zé)元數(shù)據(jù)信息的全生命周期流程的管理和監(jiān)控。元數(shù)據(jù)管理功能元數(shù)據(jù)管理包括元數(shù)據(jù)基礎(chǔ)數(shù)據(jù)管理和元數(shù)據(jù)應(yīng)用,由元數(shù)據(jù)自動獲取、元數(shù)據(jù)檢索、數(shù)據(jù)模型管理、元數(shù)據(jù)管理、血緣關(guān)系等功能組成等。元數(shù)據(jù)管理功能架構(gòu)元數(shù)據(jù)自動獲取對元數(shù)據(jù)獲取數(shù)據(jù)源以及這些數(shù)據(jù)源之間的關(guān)系進行集中登記管理,并形成自動獲取數(shù)據(jù)源的全局視圖,實現(xiàn)元數(shù)據(jù)自動獲取數(shù)據(jù)信息。要實現(xiàn)元數(shù)據(jù)的自動獲取,需要在集成的元數(shù)據(jù)平臺中配置自動獲取策略和調(diào)度時間等,使元數(shù)據(jù)能夠按預(yù)設(shè)的調(diào)度策略觸發(fā)相應(yīng)的元數(shù)據(jù)自動獲取過程,滿足元數(shù)據(jù)自動獲取的時效性。調(diào)度策略包括時間周期觸發(fā)、事件觸發(fā)兩種方式。例如,在每周星期一凌晨00:00到01:00之間觸發(fā)數(shù)據(jù)資源平臺元數(shù)據(jù)的自動獲取過程,或者在數(shù)據(jù)處理程序更新后12小時內(nèi)觸發(fā)相應(yīng)的映射關(guān)系元數(shù)據(jù)自動獲取過程。元數(shù)據(jù)維護包括元數(shù)據(jù)的定義、變更及版本管理,對主機信息、數(shù)據(jù)庫信息、用戶信息、數(shù)據(jù)對象信息、業(yè)務(wù)規(guī)則信息、加工邏輯等進行維護和管控。元數(shù)據(jù)掃描支持以手動或定時的方式掃描指定的數(shù)據(jù)庫資源,并提取和解析相關(guān)的信息在比較掃描數(shù)據(jù)和原有數(shù)據(jù)的差異后自動將差異數(shù)據(jù)維護到指定的元數(shù)據(jù)目錄。元數(shù)據(jù)檢索在元數(shù)據(jù)管理首頁用戶通過輸入關(guān)鍵字后,系統(tǒng)采用全文檢索的方式迅速查找和關(guān)鍵字匹配的權(quán)限范圍內(nèi)的元數(shù)據(jù)信息,并將信息返回給用戶。用戶能夠通過展示的路徑信息快速定位到元數(shù)據(jù)組織樹上的節(jié)點。元數(shù)據(jù)版本版本管理分為元數(shù)據(jù)對象版本管理與基線版本管理兩種類型。元數(shù)據(jù)對象版本:對元數(shù)據(jù)的每次提交形成版本(上一版本形成歷史版本),提供歷史版本間,歷史版本與當(dāng)前版本對比功能;基線版本,對某一階段產(chǎn)生的元數(shù)據(jù)對象形成數(shù)據(jù)集,提供不同階段產(chǎn)生的數(shù)據(jù)集的版本比較權(quán)限管理及查詢統(tǒng)一實現(xiàn)數(shù)據(jù)庫的訪問和操作管控,對用戶進行角色權(quán)限、對象權(quán)限、數(shù)據(jù)權(quán)限等方面的管控和查詢;元數(shù)據(jù)的導(dǎo)入/導(dǎo)出在系統(tǒng)層面實現(xiàn)元數(shù)據(jù)的導(dǎo)入/導(dǎo)出功能,以保證數(shù)據(jù)模型、數(shù)據(jù)對象能夠靈活的遷移,支持模型間的檢查和比對,以便于數(shù)據(jù)模型的維護和擴展。數(shù)據(jù)質(zhì)量管理數(shù)據(jù)質(zhì)量管理主要包含對數(shù)據(jù)完整性、準(zhǔn)確性、鮮活性、權(quán)威性的分析和管理,并對數(shù)據(jù)進行跟蹤、處理和解決,實現(xiàn)對數(shù)據(jù)質(zhì)量的全程管理,提高數(shù)據(jù)的質(zhì)量。能夠提供規(guī)則配置、質(zhì)量監(jiān)控、問題處理等功能,及時發(fā)現(xiàn)并分析數(shù)據(jù)質(zhì)量問題,不斷改善數(shù)據(jù)的使用質(zhì)量,從而提升數(shù)據(jù)的可用性,挖掘數(shù)據(jù)更大的價值。質(zhì)量模型配置數(shù)據(jù)質(zhì)量分析的基本單元,一個質(zhì)量模型由可以由一套實體表、一套規(guī)則以及多套質(zhì)檢方案組成,用戶在定義質(zhì)檢方案時,可以根據(jù)業(yè)務(wù)需要選擇實體表和規(guī)則,方案與方案之間相互獨立,互不干擾。通過執(zhí)行模型下的質(zhì)檢方案,可以得到用戶關(guān)心的數(shù)據(jù)質(zhì)量分析結(jié)果,如問題數(shù)據(jù)明細(xì)信息、數(shù)據(jù)質(zhì)量分析結(jié)果等。質(zhì)量規(guī)則管理數(shù)據(jù)質(zhì)量規(guī)則是數(shù)據(jù)質(zhì)量審核的邏輯校驗標(biāo)準(zhǔn),是數(shù)據(jù)質(zhì)量監(jiān)控管理的基礎(chǔ)。系統(tǒng)支持多種規(guī)則類型,提供了全方位的視角來為用戶解析數(shù)據(jù)質(zhì)量。一套規(guī)則能在多套方案中復(fù)用,在保證多角度準(zhǔn)確數(shù)據(jù)質(zhì)量分析的前提下,大大減少了用戶投入的精力與時間,為用戶提供了一種靈活而全面的數(shù)據(jù)質(zhì)量分析方式。系統(tǒng)包括以下質(zhì)量規(guī)則:空值檢查空值檢查用于檢查關(guān)鍵字段非空值域檢查值域檢查用于檢查關(guān)鍵字段的取值范圍,支持?jǐn)?shù)值型、字符型、日期型字段檢查規(guī)范檢查規(guī)范檢查用于檢查指標(biāo)值的格式是否規(guī)范,支持身份證、手機號碼、郵箱、日期等多種數(shù)據(jù)類型的檢測,支持自定義正則表達(dá)式邏輯檢查邏輯檢查用于檢查指標(biāo)之間是否滿足一定的邏輯關(guān)系重復(fù)數(shù)據(jù)檢查重復(fù)數(shù)據(jù)檢查用于檢查表內(nèi)是否有重復(fù)數(shù)據(jù)。規(guī)則算法:groupby重復(fù)依據(jù)字段,count(1)>1的算重復(fù)及時性檢查及時性檢查,用于檢查數(shù)據(jù)的及時性,衡量數(shù)據(jù)抽取或數(shù)據(jù)上報是否及時。規(guī)則算法:算出上報時間字段的值,如果沒寫上報時間表達(dá)式,則最佳上報時間都是以下一期的第一天做為參照依據(jù),再將上報時間與最佳上報時間做為比較,看是否在允許誤差最大天數(shù)范圍內(nèi)缺失記錄檢查記錄缺失檢查用于判斷記錄是否完整,是否缺少數(shù)據(jù)行。根據(jù)比照表字段檢查目標(biāo)字段是否缺少數(shù)據(jù),檢查實體表字段與比照字段的數(shù)據(jù)量、數(shù)值是否完全一致。規(guī)則算法:對檢查表字段和比照字段進行g(shù)roupby并求count,根據(jù)兩個字段groupby的結(jié)果來outerjoin,count不相等或檢查字段值和比照字段值有一個為空時,此行結(jié)果都算錯引用完整性檢查引用完整性檢查用于判斷實體表中的數(shù)據(jù)是否完全存在于比照表中。實體表檢查字段中的數(shù)據(jù)必須全部存在于比照表的比照字段中。規(guī)則算法:實體表的檢查字段關(guān)聯(lián)distinct后的比照表的字段,關(guān)聯(lián)后,如果比照字段為空,則檢查字段的值非來源于比照表,則該規(guī)則對應(yīng)結(jié)果為false方案配置調(diào)度依據(jù)質(zhì)量規(guī)則執(zhí)行的實際治理需求,通過圖形化界面配置多種質(zhì)檢規(guī)則組成可執(zhí)行方案,依據(jù)執(zhí)行規(guī)則管控平臺自動執(zhí)行質(zhì)量規(guī)則檢查。質(zhì)量規(guī)則執(zhí)行觸發(fā)方式支持按固定時間周期(如月、周、日)、事件觸發(fā)等執(zhí)行方式,并且在控制臺可以查看質(zhì)檢方案執(zhí)行歷史,對數(shù)據(jù)質(zhì)檢全流程進行管控。界面配置通過圖形化界面配置多種質(zhì)檢規(guī)則組成可執(zhí)行方案,通過界面進行數(shù)據(jù)傳參。觸發(fā)方式質(zhì)量規(guī)則執(zhí)行觸發(fā)方式支持按固定時間周期(如月、周、日)、事件觸發(fā)等執(zhí)行方式。全流程管控固定時間監(jiān)控業(yè)務(wù)系統(tǒng)運行的各類數(shù)據(jù),及時發(fā)現(xiàn)并整改數(shù)據(jù)異常,完善系統(tǒng)運行機制。質(zhì)檢結(jié)果查看基于質(zhì)檢方案執(zhí)行過程,反饋每次質(zhì)檢產(chǎn)生的異常數(shù)據(jù),根據(jù)問題數(shù)據(jù)所配置的規(guī)則提供問題詳情、比對及整改重檢的能力。結(jié)合實際可執(zhí)行和可實現(xiàn)的原則,分析系統(tǒng)存在的數(shù)據(jù)質(zhì)量問題:分析與檢測著重于在數(shù)據(jù)的定義基礎(chǔ)上,利用數(shù)據(jù)的邏輯和業(yè)務(wù)規(guī)則度數(shù)據(jù)質(zhì)量進行檢測和分析。整改與重建著重與在數(shù)據(jù)的分析和檢測基礎(chǔ)上,利用起結(jié)果對數(shù)據(jù),特別是源數(shù)據(jù)的數(shù)據(jù)管理提出整改意見,重建數(shù)據(jù)質(zhì)量的管理能力。具體系統(tǒng)方案如下:質(zhì)檢分析報告基于質(zhì)檢方案及質(zhì)檢結(jié)果,對每次質(zhì)檢的檢查數(shù)、問題數(shù)、整改數(shù)等進行統(tǒng)計,形成統(tǒng)計圖。支持按日、按月統(tǒng)計及柱狀圖、折線圖。數(shù)據(jù)集成管理數(shù)據(jù)集成主要在數(shù)據(jù)治理平臺承擔(dān)數(shù)據(jù)管道作用,通過數(shù)據(jù)集成現(xiàn)實不通業(yè)務(wù)數(shù)據(jù)的匯聚、數(shù)據(jù)中心基礎(chǔ)庫的清洗等流程,通過在線簡單靈活的可視化頁面針對不同的數(shù)據(jù)匯聚、清洗流程進行配置建立,平臺直接對接調(diào)度底層的數(shù)據(jù)傳輸工具進行數(shù)據(jù)管道的打通;實現(xiàn)了數(shù)據(jù)集成建模與數(shù)據(jù)集成匯聚快速、高效流轉(zhuǎn)的全過程。數(shù)據(jù)建模配置提供數(shù)據(jù)集成中數(shù)據(jù)單元集模型配置,數(shù)據(jù)模型即為數(shù)據(jù)集成中的數(shù)據(jù)單元集。集成方案管理根據(jù)實際數(shù)據(jù)集成需求,系統(tǒng)提供了統(tǒng)一的集成方案配置,集成方案可以通過構(gòu)建的數(shù)據(jù)模型實現(xiàn)多維度的數(shù)據(jù)匯聚、清洗等數(shù)據(jù)處理流程,解決了公共數(shù)據(jù)中大量的數(shù)據(jù)梳理處理工作,大大減少了人工對數(shù)據(jù)對比、校準(zhǔn)、映射等繁雜的工作,同時實現(xiàn)數(shù)據(jù)在前置庫、基礎(chǔ)庫等之間的快速匯聚能力。支持?jǐn)?shù)據(jù)匯聚(來源表全表到目標(biāo)表)、更新(基于目標(biāo)表主鍵從不同來源獲取所需字段)及全量、增量功能。同時,數(shù)據(jù)集成過程中,支持不同元數(shù)據(jù)代碼項之間的映射轉(zhuǎn)換功能,基本的數(shù)據(jù)格式驗證以及任務(wù)調(diào)度配置。數(shù)據(jù)來源統(tǒng)計用于統(tǒng)計集成模型中所有數(shù)據(jù)的來源方向,以及各庫表、各字段的精確來源,并且提供基于領(lǐng)域的快速篩選數(shù)據(jù)管理建設(shè)方案數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)資產(chǎn)管理平臺主要負(fù)責(zé)對數(shù)據(jù)資產(chǎn)進行統(tǒng)一注冊和管理,實現(xiàn)數(shù)據(jù)資產(chǎn)體系化管控。主要包括數(shù)據(jù)資產(chǎn)注冊管理、數(shù)據(jù)資產(chǎn)分類管理、數(shù)據(jù)資產(chǎn)查詢、數(shù)據(jù)地圖、數(shù)據(jù)資產(chǎn)分析、數(shù)據(jù)資產(chǎn)版本管理、數(shù)據(jù)資產(chǎn)變更管理、資產(chǎn)運行審計管理、資產(chǎn)統(tǒng)計分析,接口管理、數(shù)據(jù)質(zhì)量等功能。數(shù)據(jù)資產(chǎn)注冊管理平臺提供數(shù)據(jù)源管理、數(shù)據(jù)資產(chǎn)注冊管理、數(shù)據(jù)資產(chǎn)注冊審核、生成數(shù)據(jù)庫管理等功能。提供采集器、在線維護、自動注冊接口等方式來注冊數(shù)據(jù)資產(chǎn)。數(shù)據(jù)源管理 平臺提供對數(shù)據(jù)源注冊管理的功能,主要是對數(shù)據(jù)提供者所在數(shù)據(jù)庫、Hadoop庫的注冊管理。數(shù)據(jù)庫注冊管理,主要負(fù)責(zé)數(shù)據(jù)庫基本信息的注冊配置,包含但不限于以下內(nèi)容:數(shù)據(jù)庫類型數(shù)據(jù)庫版本數(shù)據(jù)庫服務(wù)IP數(shù)據(jù)庫服務(wù)端口數(shù)據(jù)庫SID數(shù)據(jù)庫表空間……Hadoop庫注冊管理,主要負(fù)責(zé)Hive庫基本信息、HDFS文件信息的注冊配置,包含但不限于以下內(nèi)容:HIVE數(shù)據(jù)庫服務(wù)IPHIVE數(shù)據(jù)庫服務(wù)端口HDFS文件系統(tǒng)服務(wù)IPHDFS文件系統(tǒng)服務(wù)端口……數(shù)據(jù)資產(chǎn)注冊管理 平臺提供對數(shù)據(jù)資產(chǎn)注冊管理的功能,主要包括對表、視圖、序列、文件、ETL過程、Hadoop等進行注冊管理。1)業(yè)務(wù)系統(tǒng)信息收集與資產(chǎn)注冊,包含但不限于以下內(nèi)容:業(yè)務(wù)系統(tǒng)名稱業(yè)務(wù)系統(tǒng)描述業(yè)務(wù)系統(tǒng)服務(wù)IP業(yè)務(wù)系統(tǒng)服務(wù)端口2)數(shù)據(jù)庫信息采集與資產(chǎn)注冊,包含但不限于以下內(nèi)容:數(shù)據(jù)庫類型數(shù)據(jù)庫版本數(shù)據(jù)庫服務(wù)IP數(shù)據(jù)庫服務(wù)端口數(shù)據(jù)庫SID數(shù)據(jù)庫表空間3)表結(jié)構(gòu)信息采集與資產(chǎn)注冊,包含但不限于以下內(nèi)容:表名稱表中文名稱業(yè)務(wù)信息描述表結(jié)構(gòu)定義表數(shù)據(jù)處理邏輯4)視圖信息采集與資產(chǎn)注冊,包含但不限于以下內(nèi)容:視圖名稱視圖中文名稱業(yè)務(wù)信息描述視圖結(jié)構(gòu)定義5)字段信息采集與資產(chǎn)注冊,包含但不限于以下內(nèi)容:字段名稱字段中文名稱字段詳細(xì)描述字段類型定義6)指標(biāo)信息采集與資產(chǎn)注冊,包含但不限于以下內(nèi)容:指標(biāo)名稱指標(biāo)中文名稱指標(biāo)業(yè)務(wù)描述指標(biāo)統(tǒng)計口徑指標(biāo)統(tǒng)計周期7)報表信息采集與資產(chǎn)注冊,包含但不限于以下內(nèi)容:報表名稱報表中文名稱報表業(yè)務(wù)描述報表格式報表統(tǒng)計周期8)hadoop平臺信息采集與資產(chǎn)注冊,包含但不限于以下內(nèi)容:Hadoop集群名稱Hadoop集群描述Hadoop集群主節(jié)點IPHadoop集群從節(jié)點IP9)hadoophive庫表信息采集與資產(chǎn)注冊,包含但不限于以下內(nèi)容:Hive數(shù)據(jù)庫服務(wù)IPHive數(shù)據(jù)庫服務(wù)端口Hive表名稱Hive表中文名稱Hive表業(yè)務(wù)描述信息Hive表結(jié)構(gòu)定義10)ETL過程信息采集與資產(chǎn)注冊,包含但不限于以下內(nèi)容:ETL作業(yè)名稱ETL作業(yè)業(yè)務(wù)描述信息ETL過程處理邏輯ETL作業(yè)運行周期ETL來源表名稱ETL來源文件路徑ETL目標(biāo)表名稱ETL目標(biāo)文件路徑11)文件接口信息采集與資產(chǎn)注冊,包含但不限于以下內(nèi)容:接口文件名稱接口文件業(yè)務(wù)描述信息接口文件路徑接口文件大小接口內(nèi)容與表字段映射關(guān)系12)OLAP信息采集與資產(chǎn)注冊;13)webservice接口信息采集與資產(chǎn)注冊,包含但不限于以下內(nèi)容:webservice接口名稱webservice接口描述webservice接口負(fù)責(zé)人數(shù)據(jù)資產(chǎn)注冊審核 平臺提供對數(shù)據(jù)資產(chǎn)注冊的審核功能,通過在平臺中定義數(shù)據(jù)資產(chǎn)的相關(guān)命名規(guī)范,可實現(xiàn)對數(shù)據(jù)資產(chǎn)的自動審核,主要包括對表/視圖、文件等數(shù)據(jù)資產(chǎn)進行審核分析。當(dāng)數(shù)據(jù)資產(chǎn)命名不符合規(guī)范時,平臺會提示錯誤信息,并阻止資產(chǎn)的注冊操作,當(dāng)數(shù)據(jù)資產(chǎn)命名審核通過后,交由相應(yīng)的審核人進行審核,保障數(shù)據(jù)資產(chǎn)的完整和規(guī)范性。生成數(shù)據(jù)庫管理 平臺可基于數(shù)據(jù)資產(chǎn)(表),通過在平臺中指定生成表的數(shù)據(jù)庫及表空間等信息后自動生成相應(yīng)數(shù)據(jù)庫的建表腳本并在數(shù)據(jù)庫中生成數(shù)據(jù)表,如下圖所示:數(shù)據(jù)資產(chǎn)分類管理平臺提供對數(shù)據(jù)資產(chǎn)的分類管理功能,在數(shù)據(jù)資產(chǎn)注冊同時或注冊后,可在數(shù)據(jù)資產(chǎn)上標(biāo)識不同的屬性標(biāo)簽,通過屬性標(biāo)簽完成對數(shù)據(jù)資產(chǎn)的分類整理,為資產(chǎn)查詢、資產(chǎn)統(tǒng)計、資產(chǎn)盤點等功能提供支撐。常見的屬性標(biāo)簽包括:資產(chǎn)類型:數(shù)據(jù)表、文件、接口、指標(biāo)、報表等數(shù)據(jù)來源:B域、O域、M域等主題域:參與人、服務(wù)、資源、事件、市場營銷、企業(yè)管理、公共。所屬層級:接口層、輕度匯總層、中度匯總層、高度匯總層、應(yīng)用層等存儲周期:按年、按季度、按月、按周、按日等數(shù)據(jù)資產(chǎn)分類體系在數(shù)據(jù)資產(chǎn)的分類管理中,平臺按照數(shù)據(jù)資產(chǎn)的生命周期對數(shù)據(jù)資產(chǎn)進行分層,即輸入層、加工層和輸出層。輸入層是指數(shù)據(jù)從各個數(shù)據(jù)源抽取到大數(shù)據(jù)平臺,輸出層是指大數(shù)據(jù)平臺數(shù)據(jù)輸出到外部渠道或內(nèi)部渠道,加工層指數(shù)據(jù)在大數(shù)據(jù)平臺內(nèi)進行加工處理的過程。數(shù)據(jù)資產(chǎn)分類查詢平臺提供數(shù)據(jù)資產(chǎn)分類查詢功能,可通過選取分類標(biāo)簽中具體的屬性標(biāo)簽對數(shù)據(jù)資產(chǎn)進行篩查。數(shù)據(jù)資產(chǎn)分類統(tǒng)計平臺提供數(shù)據(jù)資產(chǎn)分類統(tǒng)計功能,可對各種標(biāo)簽屬性的數(shù)據(jù)資產(chǎn)進行分類統(tǒng)計,并形成統(tǒng)計報表,供使用人員查詢不同屬性數(shù)據(jù)資產(chǎn)的整體統(tǒng)計情況。數(shù)據(jù)資產(chǎn)目錄管理數(shù)據(jù)資產(chǎn)目錄資產(chǎn)目錄是對平臺元數(shù)據(jù)的有序組織,是記錄數(shù)據(jù)體系的保障數(shù)據(jù)類目是目錄信息與服務(wù)、保障與支撐所組成的一個整體針對資產(chǎn)的合理組織,需要對資產(chǎn)進行對應(yīng)分類,如部門類目、主題類目、行業(yè)類目等,可對該類目下資產(chǎn)數(shù)據(jù)進行搜索、展現(xiàn)以及權(quán)限申請。數(shù)據(jù)資產(chǎn)查詢平臺提供數(shù)據(jù)資產(chǎn)查詢功能,主要分為通用查詢和高級查詢兩種方式。通用查詢:通過在通用查詢搜索框中輸入查詢關(guān)鍵字,可對數(shù)據(jù)資產(chǎn)進行模糊查詢。高級查詢:根據(jù)指定數(shù)據(jù)資產(chǎn)屬性信息的具體值對數(shù)據(jù)資產(chǎn)進行精確查詢,包括數(shù)據(jù)資產(chǎn)名稱、資產(chǎn)編碼、資產(chǎn)分類標(biāo)簽等屬性。數(shù)據(jù)資產(chǎn)地圖管理平臺提供數(shù)據(jù)地圖功能,通過可視化的圖形界面,對大數(shù)據(jù)平臺各系統(tǒng)、各層次之間的脈絡(luò)關(guān)系進行全面、多層次的展示,并提供從系統(tǒng)、數(shù)據(jù)庫、表間以及字段級的關(guān)聯(lián)關(guān)系下鉆分析功能,幫助用戶從不同粒度了解數(shù)據(jù)資產(chǎn)之間的關(guān)聯(lián)情況,同時可動態(tài)了解數(shù)據(jù)資產(chǎn)的執(zhí)行情況。數(shù)據(jù)資產(chǎn)版本管理平臺提供數(shù)據(jù)資產(chǎn)版本管理功能,主要包括版本發(fā)布、版本查看、版本比對、版本恢復(fù)等功能。版本發(fā)布,通過版本發(fā)布功能提供對數(shù)據(jù)資產(chǎn)信息的版本更新和固化;版本查看,可查看數(shù)據(jù)資產(chǎn)的版本變更歷史;版本比對,通過選擇歷史版本可與當(dāng)前發(fā)布的數(shù)據(jù)資產(chǎn)版本進行差異比較;版本恢復(fù)功能,支持恢復(fù)到以前歷史版本的資產(chǎn)信息;數(shù)據(jù)資產(chǎn)變更管理平臺提供數(shù)據(jù)資產(chǎn)變更管理功能,可對數(shù)據(jù)資產(chǎn)信息中除定義名稱以外的其他信息進行變更,并提供在變更發(fā)布前的數(shù)據(jù)資產(chǎn)信息規(guī)范審核。數(shù)據(jù)資產(chǎn)審計管理平臺提供資產(chǎn)運行審計管理功能,主要包括數(shù)據(jù)資產(chǎn)模型審計、數(shù)據(jù)資產(chǎn)表數(shù)據(jù)審計等部分。1)數(shù)據(jù)資產(chǎn)模型審計:可對表、視圖、文件、Hadoop等靜態(tài)結(jié)構(gòu)進行審計,根據(jù)元數(shù)據(jù)的配置,與數(shù)據(jù)庫內(nèi)實際的表/視圖信息、實際生成的文件信息以及Hadoop中實際的結(jié)構(gòu)信息進行比對,實現(xiàn)數(shù)據(jù)資產(chǎn)定義在整個應(yīng)用中的一致性檢查。2)數(shù)據(jù)資產(chǎn)表數(shù)據(jù)審計:可對數(shù)據(jù)資產(chǎn)中的表數(shù)據(jù)進行審計,包括元數(shù)據(jù)表字段上的空值、字典值等。數(shù)據(jù)資產(chǎn)統(tǒng)計管理平臺提供數(shù)據(jù)資產(chǎn)統(tǒng)計分析功能,主要包括統(tǒng)計綜合查詢、數(shù)據(jù)資產(chǎn)一致性檢查、數(shù)據(jù)資產(chǎn)更變統(tǒng)計、數(shù)據(jù)資產(chǎn)屬性檢查、數(shù)據(jù)資產(chǎn)空值檢查、數(shù)據(jù)資產(chǎn)字典值檢查等功能。數(shù)據(jù)資產(chǎn)統(tǒng)計分析1、統(tǒng)計綜合查詢,可通過數(shù)據(jù)資產(chǎn)的各種屬性標(biāo)簽,如資產(chǎn)類型、數(shù)據(jù)源、主題域、所屬層次等,以及數(shù)據(jù)資產(chǎn)的其他資產(chǎn)信息如數(shù)據(jù)庫類型、應(yīng)用等,對數(shù)據(jù)資產(chǎn)進行查詢。2、數(shù)據(jù)資產(chǎn)一致性檢查,平臺提供以報表的形式,將元數(shù)據(jù)的配置與數(shù)據(jù)庫內(nèi)實際的表/視圖信息、實際生成的文件信息、Hadoop中實際的結(jié)構(gòu)信息等內(nèi)容進行比對并輸出差異分析結(jié)果,在分析結(jié)果不一致的情況下給出提醒,并將分析結(jié)果作為《數(shù)據(jù)資產(chǎn)規(guī)范性檢查報告》的組成部分。3、數(shù)據(jù)資產(chǎn)變更統(tǒng)計,可通過數(shù)據(jù)資產(chǎn)的各種屬性標(biāo)簽,如資產(chǎn)類型、數(shù)據(jù)源、主題域、所屬層次等,以及數(shù)據(jù)資產(chǎn)的其他資產(chǎn)信息如數(shù)據(jù)庫類型、應(yīng)用等,對數(shù)據(jù)資產(chǎn)變更歷史進行統(tǒng)計查詢。4、數(shù)據(jù)資產(chǎn)屬性檢查,平臺提供以報表的形式,將元數(shù)據(jù)的配置與數(shù)據(jù)庫內(nèi)實際的表/視圖的屬性信息、與實際生成的文件內(nèi)的屬性信息、與Hadoop中實際的結(jié)構(gòu)信息進行比對并輸出差異分析結(jié)果,在分析結(jié)果不一致的情況下給出提醒,并將分析結(jié)果作為《數(shù)據(jù)資產(chǎn)規(guī)范性檢查報告》的組成部分。5、數(shù)據(jù)資產(chǎn)空值檢查,平臺提供以報表的形式,對元數(shù)據(jù)表字段上的空值配置進行檢查,在檢查結(jié)果不一致的情況下給出提醒,并輸出《數(shù)據(jù)資產(chǎn)空值檢查報告》。6、數(shù)據(jù)資產(chǎn)字典值檢查,平臺提供以報表的形式,對元數(shù)據(jù)表字段上的字典值配置進行檢查,在檢查結(jié)果不一致的情況下給出提醒,并輸出《數(shù)據(jù)資產(chǎn)字典值檢查報告》。數(shù)據(jù)資產(chǎn)報告針對整體平臺上的對應(yīng)數(shù)據(jù),提供定周期了解其對應(yīng)資產(chǎn)情況,對總體資產(chǎn)情況進行分析。數(shù)據(jù)資產(chǎn)盤點 平臺提供數(shù)據(jù)負(fù)資產(chǎn)盤點功能,通過分析系統(tǒng)中孤立未使用的庫表,即數(shù)據(jù)負(fù)資產(chǎn),并以報表形式輸出分析結(jié)果,為用戶清除數(shù)據(jù)負(fù)資產(chǎn)或轉(zhuǎn)存提供幫助。數(shù)據(jù)異常管理異常對接管理開發(fā)可以對接數(shù)據(jù)交換總線、數(shù)據(jù)集成總線、數(shù)據(jù)服務(wù)總線系統(tǒng)中異常日志模塊的功能。異常問題列表開發(fā)展示異常問題信息,按等級進行分類或主動推送,同時對異常問題進行歸類整理,并定義規(guī)則進行選擇性忽略或提醒的功能。人工處理管理開發(fā)人工處理管理是記錄針對異常信息,人工處理所登記的臺賬信息,可按照異常分類進行分類授權(quán),實現(xiàn)指定問題的指定人員處理的功能。系統(tǒng)處理管理開發(fā)統(tǒng)處理管理是針對異常信息集成的各子平臺系統(tǒng)處理結(jié)果的收集,該類信息往往不需要人工干預(yù)的功能。實時數(shù)據(jù)質(zhì)量管理針對實時流數(shù)據(jù)需要提供數(shù)據(jù)質(zhì)量管理功能,即提供對實時流的數(shù)據(jù)質(zhì)量規(guī)則的設(shè)置、維護、調(diào)度、優(yōu)化等規(guī)則的管理功能,以及對實時流數(shù)據(jù)源接口關(guān)鍵數(shù)據(jù)、數(shù)據(jù)實體和處理過程的監(jiān)控告警,輔助數(shù)據(jù)質(zhì)量管理人員快速定位問題的原因及處理方案,并定期生成針對實時流數(shù)據(jù)的數(shù)據(jù)質(zhì)量評估報告的功能。數(shù)據(jù)質(zhì)量定制化開發(fā)通過自定義擴展規(guī)則能力,靈活方便的自定義擴展能力,可以靈活定制質(zhì)量監(jiān)控的規(guī)則、問題數(shù)據(jù)的檢測規(guī)則和問題數(shù)據(jù)的清洗回收的方式。異常數(shù)據(jù)分析基于集成方案,反饋統(tǒng)計分析集成過程中不符合方案中各字段清洗規(guī)則的異常數(shù)據(jù)結(jié)果,同時支持多維度的問題分析以及排查。異常處理統(tǒng)計分析開發(fā)按照異常分類、處理情況、時間、等級等維度進行分類統(tǒng)計,以圖表的形式展現(xiàn)便于管理人員匯總分析的功能。數(shù)據(jù)架構(gòu)管理平臺支持定義全企業(yè)的數(shù)據(jù)架構(gòu),包括數(shù)據(jù)的主題、層次,所涉及的部門、所用到的數(shù)據(jù)庫類型。功能包括數(shù)據(jù)架構(gòu)節(jié)點的增加,刪除。業(yè)務(wù)架構(gòu)管理從數(shù)據(jù)架構(gòu)中選擇適合團隊的數(shù)據(jù)架構(gòu),并綁定到團隊,以約束開發(fā)團隊在開發(fā)過程中選擇數(shù)據(jù)架構(gòu)。存儲架構(gòu)管理在異構(gòu)數(shù)據(jù)庫的環(huán)境下,不同的數(shù)據(jù)庫有不同的參數(shù)設(shè)置,為減少開發(fā)人員在模型開發(fā)過程中的操作,同時也保障模型在落地到物理環(huán)境的正確性,通過在存儲架構(gòu)中設(shè)置默認(rèn)的參數(shù)配置來保障開發(fā)的準(zhǔn)備性。數(shù)據(jù)開發(fā)管理流數(shù)據(jù)處理平臺支持對流數(shù)據(jù)的處理與管理,流數(shù)據(jù)的處理過程為數(shù)據(jù)實時采集-->數(shù)據(jù)實時計算-->數(shù)據(jù)實時查詢服務(wù)。實時采集主要應(yīng)對海量數(shù)據(jù)進行高性能的實時數(shù)據(jù)采集處理,以實時、高效、低延遲為核心驅(qū)動點,具備毫秒級數(shù)據(jù)觸發(fā)能力,實現(xiàn)秒級單位時間窗口的數(shù)據(jù)統(tǒng)計分析能力。需要支持的數(shù)據(jù)源類型可以分為以下四類:網(wǎng)絡(luò)協(xié)議數(shù)據(jù)源,包括Socket、JMS、HTTP、HTTPS等常見類型的網(wǎng)絡(luò)協(xié)議。本/異地文件數(shù)據(jù)源,包括目錄掃描、文本文件,F(xiàn)TP,SDTP等數(shù)據(jù)。分布式文件系統(tǒng)數(shù)據(jù)源,包括HDFS,HBase,Hive等數(shù)據(jù)。關(guān)系型數(shù)據(jù)庫數(shù)據(jù)源,包括DB2,Teradata,vertica等數(shù)據(jù)。支持物聯(lián)網(wǎng)網(wǎng)關(guān)采集:將物聯(lián)網(wǎng)數(shù)據(jù)從物聯(lián)網(wǎng)網(wǎng)關(guān)接入,提供協(xié)議適配和標(biāo)準(zhǔn)化處理,以及滿足海量物聯(lián)網(wǎng)數(shù)據(jù)的入湖。來自多種數(shù)據(jù)源的實時信息,因為其時效性高,數(shù)據(jù)的有效期短暫,需要實時提取和分析來自各種分布式系統(tǒng)的信息,并分發(fā)到不同的應(yīng)用中進行處理。同時,系統(tǒng)必須高效、可靠、可管理、可監(jiān)控并且具有一定的對外開放能力。流數(shù)據(jù)引擎開發(fā)提供數(shù)據(jù)融合,統(tǒng)計,分析的高速處理能力,對于實時性要求較高的數(shù)據(jù)計算提供支撐的功能流數(shù)據(jù)計算模型管理開發(fā)提供對已設(shè)計完成的數(shù)據(jù)計算模型進行申請,注冊,提交,執(zhí)行,監(jiān)控的統(tǒng)一管理的功能流數(shù)據(jù)計算公共模型開發(fā)開發(fā)提供對于場景需求較多的數(shù)據(jù)模型可開發(fā)公共模型的功能,公共模型可以供其他用戶調(diào)用,可重復(fù)使用的功能流數(shù)據(jù)計算結(jié)果接口開發(fā)開發(fā)提供對流數(shù)據(jù)計算結(jié)果接口開發(fā)功能和計算結(jié)果數(shù)據(jù)可通過接口形式供可視化調(diào)用或其他應(yīng)用的功能流數(shù)據(jù)計算模型查詢開發(fā)提供流數(shù)據(jù)計算模型查詢功能,通過對流數(shù)據(jù)計算模型發(fā)布可以是其他用戶查看計算模型邏輯,進行模型再利用,減少其他用戶開發(fā)工作量的功能。數(shù)據(jù)開發(fā)平臺數(shù)據(jù)開發(fā)完成多種環(huán)境的全量與增量數(shù)據(jù)處理能力,簡化開發(fā)過程。統(tǒng)一數(shù)據(jù)開發(fā)入口,支持可視化開發(fā)和原生態(tài)開發(fā)兩種開發(fā)模式,實現(xiàn)原生態(tài)開發(fā)與可視化編排的互相轉(zhuǎn)換,提升開發(fā)效率。支持可視化開發(fā)支持原生態(tài)開發(fā)統(tǒng)一調(diào)度管理平臺支持對數(shù)據(jù)開發(fā)與管理任務(wù)的統(tǒng)一調(diào)度,包括流程設(shè)計與管理、調(diào)度策略管控、任務(wù)調(diào)度控制、標(biāo)準(zhǔn)化控件等功能模塊,通過作業(yè)/任務(wù)管理、作業(yè)/任務(wù)調(diào)度、作業(yè)/任務(wù)執(zhí)行實現(xiàn)對采集、轉(zhuǎn)換、加載、調(diào)度、監(jiān)控,從而形成統(tǒng)一的調(diào)度與管理。以一個業(yè)務(wù)量生產(chǎn)過程為例。傳統(tǒng)做法是通過接口通信表或時序依賴進行協(xié)同生產(chǎn)。在統(tǒng)一調(diào)度平臺中以數(shù)據(jù)流作為驅(qū)動,通過控制中心進行作業(yè)命令下發(fā),狀態(tài)收集進行控制,達(dá)到各個異構(gòu)系統(tǒng),多個子系統(tǒng)的協(xié)同調(diào)度。數(shù)據(jù)運維管理監(jiān)控運維監(jiān)控運維為數(shù)據(jù)開發(fā)者和維護者提供一站式的數(shù)據(jù)運維管控能力,可自主管理作業(yè)的部署、作業(yè)優(yōu)先級、以及生產(chǎn)監(jiān)控運維平臺提供數(shù)據(jù)監(jiān)控運維、任務(wù)運行情況監(jiān)控、異常情況告警、日常運維數(shù)據(jù)統(tǒng)計等功能。運維概覽運維概覽主要用來展示調(diào)度任務(wù)的指標(biāo)數(shù)據(jù)情況,目

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論