DB11∕T2351-2024數(shù)據(jù)資源治理通 用技術(shù)要求_第1頁
DB11∕T2351-2024數(shù)據(jù)資源治理通 用技術(shù)要求_第2頁
DB11∕T2351-2024數(shù)據(jù)資源治理通 用技術(shù)要求_第3頁
DB11∕T2351-2024數(shù)據(jù)資源治理通 用技術(shù)要求_第4頁
DB11∕T2351-2024數(shù)據(jù)資源治理通 用技術(shù)要求_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)資源治理通用技術(shù)要求2024-12-25發(fā)布2024-12-25發(fā)布北京市市場監(jiān)督管理局發(fā)布I 12規(guī)范性引用文件 13術(shù)語和定義 14縮略語 25治理框架 26數(shù)據(jù)架構(gòu)管理 36.1總體要求 36.2數(shù)據(jù)資源盤點(diǎn) 36.3數(shù)據(jù)資源分布 36.4數(shù)據(jù)資源分層結(jié)構(gòu) 46.5數(shù)據(jù)資源分類 57數(shù)據(jù)資源規(guī)范管理 57.1業(yè)務(wù)詞匯管理 57.2參考數(shù)據(jù)和主數(shù)據(jù) 57.3數(shù)據(jù)項(xiàng)要求 68數(shù)據(jù)質(zhì)量管理 68.1質(zhì)量核驗(yàn) 68.2質(zhì)量分析 79元數(shù)據(jù)管理 79.1需求分析 79.2元模型管理 89.3編制元數(shù)據(jù)規(guī)范 89.4存儲 89.5創(chuàng)建與采集 89.6集成與變更 89.7應(yīng)用 89.8管理機(jī)制與評估 810數(shù)據(jù)生存周期管理 810.1數(shù)據(jù)資源接入 810.2數(shù)據(jù)資源探查 910.3數(shù)據(jù)資源清洗轉(zhuǎn)化 910.4數(shù)據(jù)資源整合 10.5數(shù)據(jù)資源存儲與刪除 10.6數(shù)據(jù)資源變更 10.7數(shù)據(jù)資源運(yùn)維 10.8數(shù)據(jù)資源服務(wù) 附錄A(資料性)數(shù)據(jù)質(zhì)量檢核內(nèi)容與方法舉例 附錄B(資料性)數(shù)據(jù)質(zhì)量問題分類 參考文獻(xiàn) 21本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定本文件由北京市經(jīng)濟(jì)和信息化局提出并歸口。本文件由北京市經(jīng)濟(jì)和信息化局組織實(shí)施。本文件起草單位:北京柏睿數(shù)據(jù)技術(shù)股份有限公司、京東科技有限公司、方正國際軟件(北京)有限公司、北京中軟國際信息技術(shù)有限公司、北京市測繪設(shè)計(jì)研究院、中國汽車工程研究院股份有限公司、東方微銀科技股份有限公司、北京泰爾英??萍加邢薰?、北京精友時(shí)代信息技術(shù)發(fā)展有限公司、北京水滴科技集團(tuán)有限公司。本文件主要起草人:趙菁華、李然輝、周天龍、高陽、樸晟宏、梁漢媚、祝曉坤、張煜、沈鵬、肖丹、羅登亮、肖博勝、劉子莉、李孟凡、艾崧溥、李海翔、周曉波、徐璐希。1數(shù)據(jù)資源治理通用技術(shù)要求1范圍本文件給出了數(shù)據(jù)資源治理框架,提出了數(shù)據(jù)架構(gòu)、數(shù)據(jù)規(guī)范管理、數(shù)據(jù)質(zhì)量、元數(shù)據(jù)和數(shù)據(jù)資源生存周期的技術(shù)要求。本文件適用于數(shù)據(jù)資源治理的規(guī)劃、組織和實(shí)施。注:本文件不涉及數(shù)據(jù)治理組織和數(shù)據(jù)安全管理。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本GB18030信息技術(shù)中文編碼字符集GB/T18391.1信息技術(shù)元數(shù)據(jù)注冊系統(tǒng)(NDR)第1部分:框架GB/T35295信息技術(shù)大數(shù)據(jù)術(shù)語GB/T36073數(shù)據(jù)管理能力成熟度評估模型3術(shù)語和定義GB/T18391.1和GB/T35295界定的以及下列術(shù)語和定義適用于本文件。數(shù)據(jù)資源dataresources具有或預(yù)期具有價(jià)值的數(shù)據(jù)集合。注:數(shù)據(jù)資源多以電子形式存在。元數(shù)據(jù)metadata關(guān)于數(shù)據(jù)或數(shù)據(jù)元素的數(shù)據(jù)(可能包括其數(shù)據(jù)描述),以及關(guān)于數(shù)據(jù)擁有權(quán)、存取路徑、訪問權(quán)和數(shù)據(jù)易變性的數(shù)據(jù)。數(shù)據(jù)生存周期datalifecycle將原始數(shù)據(jù)轉(zhuǎn)化為可用于行動的知識的一組過程。[來源:GB/T36073—2018,3.14]數(shù)據(jù)資源治理dataresourcegovernance對數(shù)據(jù)資源進(jìn)行處置、規(guī)范化和利用的過程。2DR1/T2351—2024數(shù)據(jù)血緣datalineage在數(shù)據(jù)生存周期中,從數(shù)據(jù)的產(chǎn)生、處理、加工、融合、流轉(zhuǎn)到最終消亡,數(shù)據(jù)之間自然形成的關(guān)聯(lián)關(guān)系。又稱為數(shù)據(jù)血統(tǒng)、數(shù)據(jù)起源、數(shù)據(jù)譜系。對其他數(shù)據(jù)進(jìn)行分類和規(guī)范的數(shù)據(jù)。4縮略語下列縮略語適用于本文件。CRUD:創(chuàng)建、讀取、更新和刪除(CreatReadUpadteandDelete)DWS:數(shù)據(jù)倉庫服務(wù)(DataWarehouseService)DW:數(shù)據(jù)倉庫主題(DataWarehouseTopic)ETL:數(shù)據(jù)提取、轉(zhuǎn)換和加載(Extraction-Transformation-Loading)JSON:JavaScript對象表示法(JavaScriptObjKPI:關(guān)鍵績效指標(biāo)(KeyPerformanceIndicator)ODS:操作數(shù)據(jù)存儲(OperationDataStore)SLA:服務(wù)級別協(xié)議(ServiceLevelAgreement)URL:統(tǒng)一資源定位符(UniformResourceLocator)5治理框架數(shù)據(jù)資源治理框架主要涵蓋數(shù)據(jù)架構(gòu)管理、數(shù)據(jù)生存周期管理以及數(shù)據(jù)治理組織構(gòu)建這三個(gè)重要部分。其中,數(shù)據(jù)架構(gòu)管理作為數(shù)據(jù)治理的根基,會依據(jù)業(yè)務(wù)需求,對需要接入的數(shù)據(jù)源展開盤點(diǎn)工作,進(jìn)而生成數(shù)據(jù)源清單,同時(shí)精心規(guī)劃數(shù)據(jù)分層與數(shù)據(jù)分布等事項(xiàng)。數(shù)據(jù)生存周期管理涵蓋數(shù)據(jù)資源接入、探查、清洗轉(zhuǎn)換、整合、存儲和刪除、變更、運(yùn)維以及服務(wù)等八個(gè)階段,并且數(shù)據(jù)規(guī)范管理、質(zhì)量管理、安全管理和元數(shù)據(jù)管理貫穿于該周期的各個(gè)環(huán)節(jié)。而數(shù)據(jù)治理組織則致力于提供系統(tǒng)地管理與運(yùn)用企業(yè)數(shù)據(jù)資源的能力,保障數(shù)據(jù)的質(zhì)量、安全及合規(guī)性,以此為企業(yè)的業(yè)務(wù)決策與運(yùn)營效率提供有力支撐。數(shù)據(jù)資源治理框架圖如圖1所示。3數(shù)據(jù)資源服務(wù)數(shù)據(jù)資源服務(wù)數(shù)據(jù)資源運(yùn)維數(shù)據(jù)資源變更數(shù)據(jù)資源存儲與刪除數(shù)據(jù)資源整合數(shù)據(jù)資源清洗轉(zhuǎn)換數(shù)據(jù)資源探查數(shù)據(jù)資源接入管理理范理管管規(guī)管全量源據(jù)安質(zhì)資數(shù)據(jù)據(jù)據(jù)元數(shù)數(shù)數(shù)數(shù)據(jù)架構(gòu)管理數(shù)據(jù)治理組織數(shù)據(jù)生存周期管理圖1數(shù)據(jù)資源治理框架6數(shù)據(jù)架構(gòu)管理6.1設(shè)計(jì)要求數(shù)據(jù)架構(gòu)設(shè)計(jì)時(shí)應(yīng)保證:a)明確識別各組織的數(shù)據(jù)需求,基于數(shù)據(jù)資源盤點(diǎn)的結(jié)果構(gòu)建數(shù)據(jù)資源目錄,設(shè)計(jì)和維護(hù)數(shù)據(jù)架b)使用數(shù)據(jù)架構(gòu)來指導(dǎo)數(shù)據(jù)集成和控制,并使數(shù)據(jù)資源匯聚與需求保持一致;c)開展數(shù)據(jù)模型設(shè)計(jì)、數(shù)據(jù)流設(shè)計(jì),并明確數(shù)據(jù)分布情況,管理數(shù)據(jù)模型和策略以及規(guī)則。6.2數(shù)據(jù)資源盤點(diǎn)數(shù)據(jù)資源盤點(diǎn)應(yīng)符合下列要求:a)梳理本組織數(shù)據(jù)資源,形成統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一管理和統(tǒng)一服務(wù)的數(shù)據(jù)資源清單,掌握全局?jǐn)?shù)據(jù)資源的現(xiàn)狀和特點(diǎn),為數(shù)據(jù)資源的治理提供基礎(chǔ)支撐;b)以國家、行業(yè)現(xiàn)有的基礎(chǔ)信息庫為基礎(chǔ),梳理形成業(yè)務(wù)相關(guān)的基礎(chǔ)庫;將數(shù)據(jù)資源基礎(chǔ)庫進(jìn)行數(shù)據(jù)目錄的分級分類,對應(yīng)數(shù)據(jù)資源進(jìn)行編碼和標(biāo)識;c)將整理、編碼標(biāo)識后的數(shù)據(jù)進(jìn)行數(shù)據(jù)資源注冊、入庫等操作。6.3數(shù)據(jù)資源分布應(yīng)根據(jù)GB/T36073要求,針對數(shù)據(jù)模型中的數(shù)據(jù)定義,明確數(shù)據(jù)在組織、流程、系統(tǒng)等方面的分布關(guān)系,制定CRUD規(guī)劃,確保數(shù)據(jù)的安全及權(quán)屬關(guān)系。以企業(yè)采購管理業(yè)務(wù)為例,其數(shù)據(jù)資源分布如4RKRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRR圖2CRUD矩陣示例其中主題域是采購與供應(yīng)商,主要涉及兩類數(shù)據(jù)實(shí)體供應(yīng)商和采購合同。其中描述供應(yīng)商的屬性包括供應(yīng)商基本信息、潛在供應(yīng)商信息、供應(yīng)商績效、供應(yīng)商認(rèn)證信息和供應(yīng)商評價(jià)。以供應(yīng)商基本信息為例,該信息只能在財(cái)務(wù)MIS系統(tǒng)中創(chuàng)建、修改和刪除,可以被項(xiàng)目管理、供應(yīng)商管理、采購管理等系統(tǒng)讀取。6.4數(shù)據(jù)資源分層結(jié)構(gòu)6.4.1分層要求應(yīng)設(shè)計(jì)數(shù)據(jù)結(jié)構(gòu)、減少重復(fù)開發(fā)、屏蔽源數(shù)據(jù)的影響等信息,實(shí)現(xiàn)數(shù)據(jù)血緣追蹤。數(shù)據(jù)架構(gòu)應(yīng)至少包括數(shù)據(jù)來源層、數(shù)據(jù)支撐層、數(shù)據(jù)存儲層和數(shù)據(jù)分析層,如圖3所示。少包括數(shù)據(jù)來源層、數(shù)據(jù)支撐層、數(shù)據(jù)存儲層和數(shù)據(jù)分析層,如圖3所示。數(shù)據(jù)分析層數(shù)據(jù)支撐層統(tǒng)一采集平臺統(tǒng)一交換平臺統(tǒng)一調(diào)度平臺接口監(jiān)控平臺數(shù)據(jù)來源層公共數(shù)據(jù)企業(yè)數(shù)據(jù)個(gè)人數(shù)據(jù)固定報(bào)表多維分析統(tǒng)計(jì)建模人工智能信息檢索數(shù)據(jù)存儲層圖3數(shù)據(jù)分層結(jié)構(gòu)6.4.2數(shù)據(jù)來源層本層宜包括公共數(shù)據(jù)、企業(yè)數(shù)據(jù)和個(gè)人數(shù)據(jù),涵蓋傳統(tǒng)的數(shù)據(jù)庫、數(shù)據(jù)倉庫、分布式數(shù)據(jù)庫等。6.4.3數(shù)據(jù)支撐層通過統(tǒng)一采集平臺、統(tǒng)一交換平臺、統(tǒng)一調(diào)度平臺和接口監(jiān)控平臺實(shí)現(xiàn)對數(shù)據(jù)資源治理的支撐工作。6.4.4數(shù)據(jù)存儲層5存儲層組成本層存儲經(jīng)過清洗處理后的可用于生產(chǎn)系統(tǒng)的數(shù)據(jù),宜包括元數(shù)據(jù),業(yè)務(wù)數(shù)據(jù)庫,模型數(shù)據(jù)庫等。數(shù)據(jù)存儲宜劃分為五層。a)ODS:保存最原始數(shù)據(jù),按業(yè)務(wù)概念組織細(xì)節(jié)數(shù)據(jù),并進(jìn)行名稱、代碼等標(biāo)準(zhǔn)化處理后長期保b)DWS:存儲整合后的明細(xì)數(shù)據(jù),在本層應(yīng)進(jìn)行指標(biāo)與維度的標(biāo)準(zhǔn)化,包括數(shù)據(jù)清洗、脫敏、維度退化等,保證指標(biāo)數(shù)據(jù)的唯一性。c)DIM:公共維度表,用于建立一致性維度數(shù)據(jù),規(guī)范化維度屬性,降低數(shù)據(jù)計(jì)算口徑和算法不一致風(fēng)險(xiǎn)。d)DWT:存儲匯總數(shù)據(jù),基于各個(gè)主題的加工和使用的共性聚合值。e)ADS:面向業(yè)務(wù)定制的應(yīng)用數(shù)據(jù),根據(jù)不同的業(yè)務(wù)需求采用星型或雪花型模型設(shè)計(jì)方法構(gòu)建的數(shù)據(jù)集市。數(shù)據(jù)資源流向a)不應(yīng)同層依賴;b)ADS不應(yīng)直接使用DWS的表;c)不應(yīng)出現(xiàn)反向依賴;d)應(yīng)避免數(shù)據(jù)鏈路成環(huán)。6.4.5數(shù)據(jù)分析層本層實(shí)現(xiàn)對數(shù)據(jù)的深加工,宜建立滿足需求的數(shù)據(jù)統(tǒng)計(jì)分析模型,建立大數(shù)據(jù)運(yùn)行處理平臺。6.5數(shù)據(jù)資源分類應(yīng)進(jìn)行數(shù)據(jù)資源分類,將數(shù)據(jù)進(jìn)行主題域劃分、歸類和分析利用:a)按照業(yè)務(wù)或者業(yè)務(wù)過程劃分;b)根據(jù)需求方劃分;c)按照功能或者應(yīng)用劃分;d)按照部門劃分。7數(shù)據(jù)資源規(guī)范管理7.1業(yè)務(wù)詞匯管理業(yè)務(wù)詞匯管理包括下列內(nèi)容。a)應(yīng)支持業(yè)務(wù)詞匯表管理權(quán)限配置。b)應(yīng)建立通用公開業(yè)務(wù)詞匯表。c)業(yè)務(wù)詞匯管理內(nèi)容應(yīng)包括:1)標(biāo)準(zhǔn)文檔庫管理;2)限定詞、同義詞、術(shù)語等信息庫管理;3)標(biāo)準(zhǔn)字典管理;4)數(shù)據(jù)源字典管理。7.2參考數(shù)據(jù)和主數(shù)據(jù)參考數(shù)據(jù)和主數(shù)據(jù)要求包括:a)應(yīng)能夠識別數(shù)據(jù)值域,包括參考數(shù)據(jù)和主數(shù)據(jù)取值范圍;6b)應(yīng)支持參考數(shù)據(jù)、主數(shù)據(jù)和應(yīng)用系統(tǒng)的集成。7.3數(shù)據(jù)項(xiàng)要求數(shù)據(jù)項(xiàng)定義應(yīng)包括但不限于:a)數(shù)據(jù)命名;d)業(yè)務(wù)含義;f)歸屬部門。8數(shù)據(jù)質(zhì)量管理質(zhì)量核驗(yàn)要求應(yīng)包括:a)明確數(shù)據(jù)質(zhì)量監(jiān)控的數(shù)據(jù)指標(biāo)項(xiàng);b)評估使用的數(shù)據(jù)質(zhì)量度量維度及其權(quán)重值;c)定義表示標(biāo)準(zhǔn)質(zhì)量和質(zhì)量差數(shù)據(jù)的值和范圍;d)對不同的度量規(guī)則,執(zhí)行不同的數(shù)據(jù)質(zhì)量評估;e)查看并確認(rèn)數(shù)據(jù)質(zhì)量是否可被接受;f)在適當(dāng)數(shù)據(jù)流轉(zhuǎn)中采取糾正措施;g)定期重復(fù)上述步驟。8.1.2規(guī)范性檢核內(nèi)容規(guī)范性檢核內(nèi)容應(yīng)包括:a)數(shù)據(jù)標(biāo)準(zhǔn);b)數(shù)據(jù)模型;d)業(yè)務(wù)規(guī)則;e)權(quán)威參考數(shù)據(jù);具體檢核方法與描述參見附錄A中表A.1。8.1.3完整性檢核內(nèi)容完整性檢核內(nèi)容應(yīng)包括:a)數(shù)據(jù)元素完整性;b)數(shù)據(jù)記錄完整性。具體檢核方法與描述參見附錄A中表A.2。8.1.4準(zhǔn)確性檢核內(nèi)容準(zhǔn)確性檢核內(nèi)容應(yīng)包括:a)數(shù)據(jù)內(nèi)容正確性;b)數(shù)據(jù)格式合規(guī)性;c)數(shù)據(jù)重復(fù)率;7d)數(shù)據(jù)唯一性;e)臟數(shù)據(jù)出現(xiàn)率。具體檢核方法與描述參見附錄A中表A.3。8.1.5一致性檢核內(nèi)容準(zhǔn)確性檢核內(nèi)容應(yīng)包括:a)相同數(shù)據(jù)一致性;b)關(guān)聯(lián)數(shù)據(jù)一致性。具體檢核方法與描述參見附錄A中表A.4。8.1.6時(shí)效性檢核內(nèi)容準(zhǔn)確性檢核內(nèi)容應(yīng)包括:a)基于時(shí)間段的正確性;b)基于時(shí)間點(diǎn)及時(shí)性;c)時(shí)序性。具體檢核方法與描述參見附錄A中表A.5。8.1.7可訪問性檢核內(nèi)容可訪問性檢核內(nèi)容應(yīng)包括:a)可訪問性;b)可用性。具體檢核方法與描述參見附錄A中表A.6。8.2質(zhì)量分析8.2.1定性分析數(shù)據(jù)質(zhì)量定性分析可采用第三方評測法、用戶反饋法,專家評議等方法。質(zhì)量子元素評分根據(jù)定性評價(jià)進(jìn)行。8.2.2定量分析數(shù)據(jù)質(zhì)量定量分析可采用回歸分析、因子分析、魚骨圖分析、帕累托分析、矩陣數(shù)據(jù)分析等方法。8.2.3綜合分析宜采用定性和定量分析相結(jié)合的方法對數(shù)據(jù)質(zhì)量進(jìn)行分析。8.2.4質(zhì)量問題原因分類影響數(shù)據(jù)質(zhì)量的問題主要包括技術(shù)、業(yè)務(wù)、管理三個(gè)方面,參見附錄B。9元數(shù)據(jù)管理9.1需求分析應(yīng)明確元數(shù)據(jù)類型和詳細(xì)級別,需求分析內(nèi)容包括但不限于以下內(nèi)容。a)更新頻次:元數(shù)據(jù)屬性和屬性集更新的頻率。b)同步情況:數(shù)據(jù)源頭變化后的更新時(shí)間。c)歷史信息:是否需要保留元數(shù)據(jù)的歷史版本。d)訪問權(quán)限:誰可以訪問元數(shù)據(jù),如何訪問。e)存儲結(jié)構(gòu):元數(shù)據(jù)如何通過建模來存儲。8f)集成要求:元數(shù)據(jù)從不同數(shù)據(jù)源的整合程度、整合的規(guī)則。g)運(yùn)維要求:更新元數(shù)據(jù)的處理過程和規(guī)則(記錄日志和提交申請)。h)管理要求:管理元數(shù)據(jù)的角色和職責(zé)。i)質(zhì)量要求:元數(shù)據(jù)的質(zhì)量需求。j)安全要求:元數(shù)據(jù)的安全需求,是否可以公開等。9.2元模型管理元模型的類型應(yīng)包括但不限于以下內(nèi)容。a)業(yè)務(wù)類元模型:如指標(biāo)、KPI、報(bào)表等元模型。b)技術(shù)類元模型:如關(guān)系型數(shù)據(jù)庫、0LAP、接口、ETL等元模型。c)管理類元模型:包括系統(tǒng)資源、人員管理、任務(wù)管理等元模型。9.3編制元數(shù)據(jù)規(guī)范規(guī)范包括但不限于元數(shù)據(jù)標(biāo)準(zhǔn)、處理過程文檔、數(shù)據(jù)交換格式及應(yīng)用程序接口設(shè)計(jì)等。應(yīng)建立元數(shù)據(jù)存儲庫,實(shí)現(xiàn)元模型以及元數(shù)據(jù)的存儲,可采用不同的架構(gòu)方法存儲元數(shù)據(jù),包括但不限于集中式、分布式、混合式等,具體如下:a)集中式元數(shù)據(jù)存儲由單一的元數(shù)據(jù)存儲庫組成,不支持將請求從用戶直接傳遞給各種工具,適用于尋求高度一致性的組織;b)分布式元數(shù)據(jù)存儲架構(gòu),元數(shù)據(jù)應(yīng)分散存儲在各自的源系統(tǒng)中,通過實(shí)時(shí)從源系統(tǒng)檢索數(shù)據(jù)來響應(yīng)用戶請求;c)混合式架構(gòu)應(yīng)結(jié)合集中式和分布式架構(gòu)的特性。9.5創(chuàng)建與采集應(yīng)基于相對應(yīng)的元模型,獲取組織定義的元模型中所需要管理的元數(shù)據(jù)信息。自動采集包括但不限于使用適配器、掃描儀、網(wǎng)橋應(yīng)用程序等。9.6集成與變更應(yīng)對不同類型、不同來源的元數(shù)據(jù)進(jìn)行集成,包括從組織外部獲取的數(shù)據(jù)中的元數(shù)據(jù),并將技術(shù)元數(shù)據(jù)與相關(guān)的業(yè)務(wù)、流程和管理元數(shù)據(jù)集成在一起,形成對數(shù)據(jù)描述的統(tǒng)一視圖,并基于規(guī)范的流程對元數(shù)據(jù)的變更進(jìn)行及時(shí)更新和管理。9.7應(yīng)用應(yīng)根據(jù)組織業(yè)務(wù)需求實(shí)現(xiàn)基于元數(shù)據(jù)的共享服務(wù)與應(yīng)用,包括但不限于元數(shù)據(jù)的查詢、統(tǒng)計(jì)、基于元數(shù)據(jù)的血緣分析、影響分析等。9.8管理機(jī)制與評估應(yīng)建立元數(shù)據(jù)管理機(jī)制,明確元數(shù)據(jù)的管理過程及角色、職責(zé);建立元數(shù)據(jù)管理的質(zhì)量標(biāo)準(zhǔn)和評估指標(biāo),開展元數(shù)據(jù)績效評估并持續(xù)改進(jìn)。10數(shù)據(jù)生存周期管理10.1數(shù)據(jù)資源接入10.1.1總體要求數(shù)據(jù)接入應(yīng)滿足以下要求。9a)數(shù)據(jù)質(zhì)量:確保數(shù)據(jù)的準(zhǔn)確性、完整性和唯一性。b)數(shù)據(jù)安全:保障數(shù)據(jù)的機(jī)密性、完整性、可用性,確保數(shù)據(jù)在傳輸和存儲過程中不被泄露、丟失或被篡改。c)數(shù)據(jù)格式:按照一定的數(shù)據(jù)模型和數(shù)據(jù)字典定義數(shù)據(jù)結(jié)構(gòu)和格式,確保數(shù)據(jù)的統(tǒng)一性和標(biāo)準(zhǔn)化。d)數(shù)據(jù)加工:在入庫前對數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、集成等加工處理,以滿足數(shù)據(jù)倉庫的需求。e)數(shù)據(jù)可追溯:記錄數(shù)據(jù)來源和處理過程,保留原始數(shù)據(jù)和處理日志,方便數(shù)據(jù)審計(jì)和追溯。f)接入控制:控制數(shù)據(jù)入庫的頻率和數(shù)據(jù)量,避免過度入庫導(dǎo)致數(shù)據(jù)倉庫不穩(wěn)定或占用過多存儲10.1.2接入數(shù)據(jù)源接入源類別包括但不限于:a)關(guān)系型數(shù)據(jù)庫;b)非關(guān)系型數(shù)據(jù)庫;d)實(shí)時(shí)數(shù)據(jù)庫日志;e)消息隊(duì)列服務(wù);f)文本文件;g)壓縮包、圖片等二進(jìn)制文件。10.1.3接入方案根據(jù)明確的數(shù)據(jù)源類型制定接入方案,包括但不限于:a)接口推送/拉取數(shù)據(jù);b)數(shù)據(jù)庫源采集;c)消息隊(duì)列生產(chǎn)/消費(fèi)數(shù)據(jù);d)FTP文件推送/拉取。10.1.4接入格式數(shù)據(jù)接入格式可符合如下要求:a)支持多種數(shù)據(jù)格式;b)規(guī)定數(shù)據(jù)格式的具體規(guī)范,例如字段名稱、字段類型、字段長度等。應(yīng)規(guī)定數(shù)據(jù)接口的要求,例如接口名稱、參數(shù)、返回值等。10.1.6接入流程應(yīng)制定數(shù)據(jù)接入流程,明確數(shù)據(jù)接入責(zé)任。流程應(yīng)包括數(shù)據(jù)接入申請、審核、測試、上線等環(huán)節(jié)。10.2數(shù)據(jù)資源探查數(shù)據(jù)探查應(yīng)包括單表數(shù)據(jù)內(nèi)容分析、多表間數(shù)據(jù)關(guān)系分析的指標(biāo)定義和準(zhǔn)入標(biāo)準(zhǔn)等。10.3數(shù)據(jù)資源清洗轉(zhuǎn)換10.31數(shù)據(jù)清洗10.31.1清洗操作數(shù)據(jù)清洗應(yīng)進(jìn)行以下操作。a)非空檢核:若字段應(yīng)為非空時(shí),對字段數(shù)據(jù)進(jìn)行非空檢核。b)主鍵重復(fù)檢核:多個(gè)業(yè)務(wù)系統(tǒng)中同類數(shù)據(jù)經(jīng)過清洗后,在統(tǒng)一保存時(shí),為保證主鍵唯一,進(jìn)行檢核工作。c)非法代碼清洗:對非法代碼、代碼與數(shù)據(jù)標(biāo)準(zhǔn)不一致等情況進(jìn)行校核及修正。d)非法值清洗:對取值錯誤、格式錯誤、多余字符、亂碼等情況進(jìn)行校核及修正。e)數(shù)據(jù)格式檢核:通過屬性值的格式檢核來衡量數(shù)據(jù)準(zhǔn)確性,包括時(shí)間格式、幣種格式、多余字符和亂碼等。f)記錄數(shù)檢核:對各個(gè)系統(tǒng)相關(guān)數(shù)據(jù)之間的數(shù)據(jù)總數(shù)檢核,或者數(shù)據(jù)表中每日數(shù)據(jù)量的波動檢核。清洗流程數(shù)據(jù)清洗從數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、唯一性、時(shí)效性和有效性方面處理數(shù)據(jù)的缺失值、越界值、不一致代碼和重復(fù)數(shù)據(jù)等問題,數(shù)據(jù)清洗流程如圖4所示。是查杏是10.32數(shù)據(jù)轉(zhuǎn)換EILL數(shù)據(jù)映射應(yīng)包括源數(shù)據(jù)集屬性、目標(biāo)數(shù)據(jù)集屬性和ETL規(guī)則,具體內(nèi)容如下。a)源數(shù)據(jù)集屬性和目標(biāo)數(shù)據(jù)集屬性應(yīng)包括:2)字段名稱;3)字段簡述;4)類型;5)非空屬性。b)ETL規(guī)則:1)應(yīng)能夠建立數(shù)據(jù)源過濾規(guī)則;2)應(yīng)描述從源數(shù)據(jù)集獲取數(shù)據(jù)過程中過濾掉記錄的規(guī)則;3)應(yīng)設(shè)置關(guān)聯(lián)規(guī)則;4)應(yīng)定義列轉(zhuǎn)換規(guī)則;5)應(yīng)具備目標(biāo)數(shù)據(jù)集更新規(guī)則;6)應(yīng)建立ETL作業(yè)列表。EIL抽取方式ETL抽取方式應(yīng)包括但不限于:a)全量抽?。籦)增量抽??;c)觸發(fā)器方案;d)時(shí)間戳方案;e)日志方案;f)消息隊(duì)列方案。10.322EIL開發(fā)要求10.3.221EIL開發(fā)原則ETL開發(fā)宜遵循以下基本原則:a)代碼要求結(jié)構(gòu)應(yīng)清晰、整齊、整體層次分明;b)代碼在合適的位置添加必要的注釋;c)代碼上下文風(fēng)格統(tǒng)一;d)作業(yè)命名規(guī)則應(yīng)按順序至少包括作業(yè)類型、有效的描述信息和作業(yè)編號三部分內(nèi)容。10.3222開發(fā)流程開發(fā)流程要求應(yīng)包括但不限于:a)建立完善的ETL開發(fā)流程,每個(gè)環(huán)節(jié)都應(yīng)嚴(yán)格管控。ETL開發(fā)流程應(yīng)包括但不限于調(diào)研應(yīng)求、評審、開發(fā)、測試和上線;c)ETL變更流程與需求變更緊密結(jié)合;d)修改ETL映射文件和業(yè)務(wù)邏輯文件應(yīng)從文檔開始,并有統(tǒng)一的入口;e)修改文檔應(yīng)包括版本號、修改原因描述、修改過程、修改時(shí)間和修改影響范圍。10.323EIL維護(hù)要求10.3231預(yù)警機(jī)制ETL維護(hù)預(yù)警機(jī)制包括下列內(nèi)容。a)ETL日志應(yīng)分為3類:1)執(zhí)行過程日志;2)錯誤日志;3)總體日志。b)警告發(fā)送。c)重跑機(jī)制。d)數(shù)據(jù)一致性檢核。e)業(yè)務(wù)數(shù)據(jù)檢核。10.3.232維護(hù)管理機(jī)制d)開發(fā)不規(guī)范導(dǎo)致的維護(hù)問題,應(yīng)定期進(jìn)行開發(fā)規(guī)范培訓(xùn),視情況加入10.324數(shù)據(jù)修正處理2)以同一指標(biāo)的計(jì)算結(jié)果(均值、中位數(shù)、眾數(shù)等)填充缺失值;格式內(nèi)容處理可包括3種情況:a)將時(shí)間、日期、數(shù)值、全半角等顯示格式統(tǒng)一;b)若有不該存在的字符,可找出潛在c)對于內(nèi)容與該字段應(yīng)有內(nèi)容不符時(shí),詳細(xì)識b)異常值處理首先應(yīng)識別異常值,然后由操作人員按照經(jīng)驗(yàn)和業(yè)務(wù)流程判斷其值的合10.4數(shù)據(jù)資源整合10.41.2命名要求2)表和字段長度不超過64個(gè)英文字符;5)表和字段名不宜使用非標(biāo)準(zhǔn)的縮寫,不宜使用SQL中的關(guān)鍵字;廣告域(adv)、位置域(loc)、用戶域(usr)等;1)指標(biāo)命名方式可包括業(yè)務(wù)主題(修飾詞)、量化詞(詞根)、周期限定詞等;k)錯誤處理要求;I)文檔要求;m)版本控制要求。10.5數(shù)據(jù)資源存儲與刪除10.5.1數(shù)據(jù)資源存儲功能要求數(shù)據(jù)存儲的功能應(yīng)包括但不限于:a)應(yīng)支持多服務(wù)器分布式集群部署;b)平臺應(yīng)提供壓縮和解壓縮算法;c)應(yīng)提供多租戶隔離功能;d)應(yīng)支持?jǐn)?shù)據(jù)備份與恢復(fù)。10.5.2數(shù)據(jù)資源歸檔與刪除數(shù)據(jù)存儲治理應(yīng)包括但不限于以下內(nèi)容。a)數(shù)據(jù)應(yīng)設(shè)置合理的生命周期。b)冷數(shù)據(jù)應(yīng)進(jìn)行及時(shí)處理,處理方式應(yīng)包括:3)刪除銷毀。10.6數(shù)據(jù)資源變更10.61變更類型數(shù)據(jù)資源庫的變更類型應(yīng)包括但不限于:a)數(shù)據(jù)模型變更;b)數(shù)據(jù)記錄變更;c)數(shù)據(jù)管理信息變更。10.6.2變更審批流程變更審批流程至少應(yīng)包括:a)應(yīng)識別變更類型,并限制“不建議變更類型清單”中的數(shù)據(jù)變更;b)應(yīng)充分識別影響范圍,通知受影響內(nèi)容的負(fù)責(zé)人并由負(fù)責(zé)人進(jìn)行審批;c)應(yīng)定期進(jìn)行變更審批流程的執(zhí)行審計(jì)和評估。10.6.3監(jiān)控與協(xié)同處理應(yīng)構(gòu)建數(shù)據(jù)變更的監(jiān)控、變更通知能力,完成上下游變更協(xié)同:a)應(yīng)主動識別到各類數(shù)據(jù)變更;b)應(yīng)具備自動變更通知的能力,如通過郵件、短信、即時(shí)通訊工具等方式進(jìn)行數(shù)據(jù)變更信息的傳c)應(yīng)建立上下游變更協(xié)同機(jī)制。10.7數(shù)據(jù)資源運(yùn)維10.7.1服務(wù)等級協(xié)議管理服務(wù)等級協(xié)議管理的內(nèi)容應(yīng)包括:a)建立和維護(hù)統(tǒng)一的服務(wù)等級協(xié)議SLA,明確故障分級和服務(wù)指標(biāo);10.8數(shù)據(jù)資源服務(wù)10.81.2命名規(guī)則b)命名在本規(guī)則范圍內(nèi)唯一;10.81.3基礎(chǔ)參數(shù)a)各參數(shù)命名由半角格式的英文、數(shù)字或“_”符號組成;b)各參數(shù)首詞匯采用小寫字母;c)所有的響應(yīng)數(shù)據(jù)編碼為國家標(biāo)準(zhǔn)要求格式。10.81.4接口使用訪問數(shù)據(jù)接口時(shí),其地址宜為URL格式,URL地址參數(shù)說明如下:a)URL地址中各參數(shù)應(yīng)由半角格式的英文、數(shù)字或“_”符號組成;b)URL地址中各參數(shù)首詞匯應(yīng)采用小寫字母;c)URL里的所有請求參數(shù)名和參數(shù)值的數(shù)據(jù)編碼應(yīng)符合GB18030格式。10.82庫表接口數(shù)據(jù)服務(wù)庫表接口用于進(jìn)行數(shù)據(jù)交換、數(shù)據(jù)橋接,應(yīng)確保資源的發(fā)布、審核、申請流程暢通,庫表接口的操作流程包括以下內(nèi)容。a)數(shù)據(jù)資源提供方應(yīng)在數(shù)據(jù)共享交換平臺對數(shù)據(jù)資源進(jìn)行注冊和發(fā)布,內(nèi)容應(yīng)包括但不限于:1)數(shù)據(jù)橋接;2)數(shù)據(jù)源創(chuàng)建與注冊;3)資源注冊與發(fā)布;4)資源下線。b)數(shù)據(jù)需求方在數(shù)據(jù)共享交換平臺進(jìn)行數(shù)據(jù)資源的申請和訂閱訪問,內(nèi)容應(yīng)包括但不限于:3)資源訂閱。10.83文件接口數(shù)據(jù)服務(wù)文件接口應(yīng)包括數(shù)據(jù)文件、校驗(yàn)文件:a)數(shù)據(jù)文件是接口單元的實(shí)例,每個(gè)數(shù)據(jù)文件應(yīng)且只對應(yīng)一個(gè)接口單元;b)數(shù)據(jù)文件的校驗(yàn)信息應(yīng)且只應(yīng)被其接口單元對應(yīng)的校驗(yàn)文件所包含。數(shù)據(jù)服務(wù)文件接口的協(xié)議,可包括:DR1/T2351—2024(資料性)數(shù)據(jù)質(zhì)量檢核內(nèi)容與方法舉例A.1規(guī)范性檢核內(nèi)容與方法見表A.1。表A1規(guī)范性檢核內(nèi)容與方法質(zhì)量元素(權(quán)重)素質(zhì)量子元需求定義準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、地方標(biāo)準(zhǔn)或相關(guān)規(guī)定等。在一個(gè)完整地?cái)?shù)據(jù)規(guī)劃中舊數(shù)據(jù)的可執(zhí)行性的規(guī)定。數(shù)據(jù)模型需求定義數(shù)據(jù)結(jié)構(gòu)的手段,是數(shù)據(jù)表達(dá)的規(guī)范。在清晰可理解的數(shù)據(jù)模型定義以及這些數(shù)據(jù)的組織形式。的數(shù)據(jù)集中元素的被檢核的數(shù)據(jù)集中需求定義數(shù)據(jù)符合元數(shù)據(jù)的度量。據(jù)文檔。據(jù)項(xiàng)的個(gè)數(shù);業(yè)務(wù)規(guī)則需求定義立行動和數(shù)據(jù)行為結(jié)果及完整性的規(guī)則。在良好歸檔的業(yè)務(wù)規(guī)則。被檢核的數(shù)據(jù)集中需求定義用來參考的數(shù)值集合或分類表。據(jù)列表。效值列表為一種參考數(shù)據(jù)類型。滿足參考數(shù)據(jù)規(guī)則的數(shù)據(jù)集中元素的被檢核的數(shù)據(jù)集中安全規(guī)范需求定義理等。A.2完整性檢核內(nèi)容與方法見表A.2。性式中:的個(gè)數(shù)。性錄的賦值程度。式中:的個(gè)數(shù)。A.3準(zhǔn)確性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論