




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ICS35.240.01
CCSL70
5227
黔南州地方標準
DB5227/T112—2022
智慧黔南數(shù)據(jù)質(zhì)量評價規(guī)范
Smartqiannan-Dataqualityevaluationstandard
2022-12-16發(fā)布2023-04-01實施
黔南布依族苗族自治州市場監(jiān)督管理局??發(fā)布
DB5227/T112—2022
目次
前言..................................................................................II
1范圍................................................................................1
2規(guī)范性引用文件......................................................................1
3術(shù)語和定義..........................................................................1
4數(shù)據(jù)質(zhì)量評價總體流程................................................................2
5數(shù)據(jù)質(zhì)量評價要求....................................................................3
5.1確定業(yè)務目標和要求..............................................................3
5.2剖析待評價數(shù)據(jù)..................................................................4
5.3明確數(shù)據(jù)質(zhì)量評價指標............................................................5
5.4設計質(zhì)量校驗規(guī)則................................................................5
5.5配置質(zhì)量校驗規(guī)則................................................................9
5.6評估數(shù)據(jù)質(zhì)量并輸出報告..........................................................9
6整改問題數(shù)據(jù).......................................................................11
7數(shù)據(jù)共享開放工作流程...............................................................11
附錄A(資料性)表級計算得分示例.....................................................12
附錄B(資料性)部門級計算得分示例...................................................13
附錄C(資料性)數(shù)據(jù)質(zhì)量報告樣例.....................................................14
C.1數(shù)據(jù)質(zhì)量情況分析...............................................................14
C.2數(shù)據(jù)質(zhì)量得分及排名對比.........................................................14
C.3數(shù)據(jù)異常響應問題變化趨勢.......................................................15
C.4問題數(shù)據(jù)整改建議...............................................................15
附錄D(規(guī)范性)黔南州數(shù)據(jù)共享開放工作流程...........................................17
參考文獻..............................................................................18
I
DB5227/T112—2022
前言
本文件按照GB/T1.12020《標準化工作導則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定
起草。
請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別專利的責任
本文件由黔南州大數(shù)據(jù)發(fā)展管理局提出。
本文件由黔南州大數(shù)據(jù)發(fā)展管理局歸口。
本文件起草單位:黔南州大數(shù)據(jù)發(fā)展管理局、黔南州市場監(jiān)督管理局、都勻市大數(shù)據(jù)發(fā)展服務中心、
廣西大學計算機與電子信息學院、黔南民族師范學院、北京東方國信科技股份有限公司、中國電信股份
有限公司黔南分公司。
本文件主要起草人:潘志刊、楊宗俊、顏家遠、劉超、黃子吉、何曉慧、陳文濤、宋俊、李怡青、
董婧、殷文輝、左為、韋廣柱、劉峻、李明江、周錦程、張永麗、胡嘉斌、宋佳南、楊森、傳洪波。
II
DB5227/T112—2022
智慧黔南數(shù)據(jù)質(zhì)量評價規(guī)范
1范圍
本文件規(guī)定了智慧黔南數(shù)據(jù)質(zhì)量評價規(guī)范的全流程,包括數(shù)據(jù)質(zhì)量評價總體流程、數(shù)據(jù)質(zhì)量評價要
求、整改問題數(shù)據(jù)、數(shù)據(jù)共享開放工作流程。
本文件適用于智慧黔南數(shù)據(jù)質(zhì)量評價規(guī)范的具體實施工作,為各行業(yè)各部門評價數(shù)據(jù)質(zhì)量提供參考。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T5271.1信息技術(shù)詞匯第1部分:基本術(shù)語
GB/T5271.17信息技術(shù)詞匯第17部分:數(shù)據(jù)庫
GB/T36344信息技術(shù)數(shù)據(jù)質(zhì)量評價指標
3術(shù)語和定義
GB/T5271、GB/T36344界定的以及下列術(shù)語和定義適用于本文件。
3.1
數(shù)據(jù)
關(guān)于數(shù)據(jù)或數(shù)據(jù)元素的數(shù)據(jù)(可能包括其數(shù)據(jù)描述),以及關(guān)于數(shù)據(jù)擁有權(quán)、存取路徑、訪問權(quán)和
數(shù)據(jù)易變性的數(shù)據(jù)。
[來源:GB/T5271.17—2010,17.06.05]
3.2
元數(shù)據(jù)
關(guān)于數(shù)據(jù)或數(shù)據(jù)元素的數(shù)據(jù)(可能包括其數(shù)據(jù)描述),以及關(guān)于數(shù)據(jù)擁有權(quán)、存取路徑、訪問權(quán)和
數(shù)據(jù)易變性的數(shù)據(jù)。
[來源:GB/T5271.17—2010,17.06.05]
3.3
數(shù)據(jù)質(zhì)量
在指定條件下使用時,數(shù)據(jù)的特性滿足明確的和隱含的要求的程度。
[來源:GB/T36344—2018,2.3]
3.4
原始數(shù)據(jù)
終端用戶所存儲使用的各種未經(jīng)過處理或簡化的數(shù)據(jù)。
[來源:GB/T36344—2018,2.4]
1
DB5227/T112—2022
3.5
數(shù)據(jù)集
具有一定主題,可以標識并可以被計算機化處理的數(shù)據(jù)集合。
[來源:GB/T36344—2018,2.6]
3.6
數(shù)據(jù)質(zhì)量校驗
對數(shù)據(jù)質(zhì)量進行校對、核查的過程。
3.7
數(shù)據(jù)質(zhì)量評價
指以原始數(shù)據(jù)為基礎(chǔ),充分考慮數(shù)據(jù)之間的相關(guān)性、匹配性、邏輯性,采用科學方法對數(shù)據(jù)的規(guī)范
性、完整性、準確性、一致性、時效性、可訪問性進行判斷和分析,對可能存在的數(shù)據(jù)質(zhì)量問題進行追
溯和核實,對數(shù)據(jù)進行確認的過程。
3.8
數(shù)據(jù)標準
數(shù)據(jù)的命名、定義、結(jié)構(gòu)和取值范圍方面的規(guī)則和基準。
[來源:GB/T36344—2018,2.8]
3.9
數(shù)據(jù)剖析
用適當?shù)慕y(tǒng)計、分析等方法對原始數(shù)據(jù)進行分析,對其特征加以匯總和理解,以求最大化地開發(fā)數(shù)
據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。
4數(shù)據(jù)質(zhì)量評價總體流程
數(shù)據(jù)質(zhì)量評價流程可保證數(shù)據(jù)質(zhì)量評價整個過程的有序及有效進行,具體流程如圖1所示:
2
DB5227/T112—2022
圖1數(shù)據(jù)質(zhì)量評價流程
5數(shù)據(jù)質(zhì)量評價要求
5.1確定業(yè)務目標和要求
內(nèi)容包括但不限于:
——項目的背景、計劃和目標;
——數(shù)據(jù)存在的具體問題;
——問題數(shù)據(jù)的產(chǎn)生,例如流程、組織、技術(shù)等;
3
DB5227/T112—2022
——問題數(shù)據(jù)解決的優(yōu)先次序。
5.2剖析待評價數(shù)據(jù)
內(nèi)容包括但不限于:
——數(shù)據(jù)的元數(shù)據(jù)信息,例如數(shù)據(jù)名稱、數(shù)據(jù)格式、數(shù)據(jù)類型、數(shù)據(jù)精度等。
——數(shù)據(jù)值的分布信息,例如主鍵唯一性、缺失值、取值范圍、異常符號等。
——設定字段的級別,按業(yè)務重要性程度和數(shù)據(jù)問題的嚴重性程度對原始數(shù)據(jù)進行業(yè)務影響分級,
分為一級、二級、三級。三級級別最高,重要程度分類方式如下:
三級:業(yè)務主鍵;
二級:數(shù)值型、日期型、文本類表示的日期字段,短文本類字段(如名稱、地址、代碼、
類型等特征字段),權(quán)威數(shù)據(jù)來源字段;
4
DB5227/T112—2022
一級:空值率大于80%、其他類型字段,如:源業(yè)務系統(tǒng)字段、長文本描述類型字段。
5.3明確數(shù)據(jù)質(zhì)量評價指標
數(shù)據(jù)質(zhì)量評價指標劃分為:完整性、一致性、準確性、合理性、唯一性與及時性六個維度。其中,
完整性、一致性、準確性應符合GB/T36344的規(guī)定。
5.4設計質(zhì)量校驗規(guī)則
5.4.1制定校驗規(guī)則
概述
根據(jù)質(zhì)量評價指標制定12項質(zhì)量校驗規(guī)則,對數(shù)據(jù)質(zhì)量進行計算、評分,質(zhì)量評價指標和校驗規(guī)則
的對應關(guān)系見表1。
表1質(zhì)量評價指標對應的質(zhì)量校驗規(guī)則表
序號質(zhì)量評價指標質(zhì)量校驗規(guī)則
字段完整性校驗
1
空值校驗
完整性
2記錄數(shù)校驗
3參照校驗-雙向校驗
4一致性一致性校驗
5值域校驗
6準確性格式校驗
7參照校驗-單向校驗
8邏輯校驗
9合理性波動性校驗
10關(guān)系校驗
11唯一性重復校驗
12及時性記錄數(shù)校驗
完整性
5
DB5227/T112—2022
按照數(shù)據(jù)規(guī)則要求,數(shù)據(jù)元素被賦予數(shù)值的程度,包括數(shù)據(jù)元素的完整性和數(shù)據(jù)記錄的完整性。對
應的規(guī)則為:字段完整性校驗、空值校驗、記錄數(shù)校驗、參照校驗-雙向校驗,完整性評價指標見表2。
表2完整性校驗規(guī)則
序號一級指標二級指標指標描述計算公式
字段完整性對業(yè)務表的字段完整性校驗,檢查A
1A=數(shù)據(jù)內(nèi)容不符合字段完整性的數(shù)據(jù)記錄條數(shù)
校驗字段個數(shù)和字段名稱是否完整。X=(1?B)×100%
B=數(shù)據(jù)記錄總數(shù)
對非空字段檢查填充率是否為A
2空值校驗A=數(shù)據(jù)內(nèi)容為空的數(shù)據(jù)記錄條數(shù)
100%,數(shù)據(jù)內(nèi)容是否完整。X=(1?B)×100%
B=數(shù)據(jù)記錄總數(shù)
通過當前校驗表中的記錄數(shù)是否
完整性記錄條數(shù)在設定的范圍內(nèi)得滿分100,不在范圍內(nèi)
3記錄數(shù)校驗在預先設定的范圍內(nèi),來驗證數(shù)據(jù)
得0分
記錄的完整性。
驗證校驗數(shù)據(jù)包含在參照數(shù)據(jù)中
A
參照校驗-的程度,以及參照數(shù)據(jù)包含在驗證A=數(shù)據(jù)內(nèi)容與參照數(shù)據(jù)相互不包含的數(shù)據(jù)記錄條
4X=(1?B)×100%
雙向校驗數(shù)據(jù)中的程度,即檢驗校驗數(shù)據(jù)和數(shù)
參照數(shù)據(jù)相互包含的程度。B=數(shù)據(jù)記錄總數(shù)
注:X代表數(shù)據(jù)質(zhì)量評價值
一致性
數(shù)據(jù)與其他特定上下文中使用的數(shù)據(jù)無矛盾的程度,包括相同數(shù)據(jù)一致性和關(guān)聯(lián)數(shù)據(jù)一致性。對應
的規(guī)則為一致性校驗,一致性評價指標見表3。
表3一致性校驗規(guī)則
序號一級指標二級指標指標描述計算公式
單表單行校驗:
A
A=校驗列中與參照列中數(shù)據(jù)內(nèi)容不一致的數(shù)據(jù)記
X=(1?B)×100%
錄條數(shù)
對分布在不同庫表中的相同數(shù)據(jù)
B=數(shù)據(jù)記錄總數(shù)
項進行一致性檢查,包括對照原始
數(shù)據(jù)和目標數(shù)據(jù),檢查在數(shù)據(jù)遷移單表匯總校驗:校驗列數(shù)據(jù)匯總值和參照列數(shù)據(jù)
1一致性一致性校驗過程中是否存在數(shù)據(jù)錯誤、丟失。匯總值一致得滿分100,不一致得0分
一致性檢查包括:單表單行校驗、雙表匯總校驗:校驗表與參照表關(guān)聯(lián)后校驗列數(shù)
單表匯總校驗、雙表匯總校驗和雙據(jù)匯總值和參照列數(shù)據(jù)匯總值一致得滿分100,不
表單行校驗四種。一致得0分
雙表單行校驗:
A
A=校驗表與參照表關(guān)聯(lián)后校驗列數(shù)據(jù)和參照列數(shù)
X=(1?B)×100%
6
DB5227/T112—2022
序號一級指標二級指標指標描述計算公式
據(jù)內(nèi)容不一致的數(shù)據(jù)記錄條數(shù)
B=數(shù)據(jù)記錄總數(shù)
注:X代表數(shù)據(jù)質(zhì)量評價值
準確性
數(shù)據(jù)準確性表示其所描述的真實實體(實際對象)真實值的程度,包括數(shù)據(jù)內(nèi)容正確性、數(shù)據(jù)格式
合規(guī)性、臟數(shù)據(jù)出現(xiàn)率。對應的規(guī)則為:值域校驗、格式校驗、參照校驗-單向校驗,準確性評價指標
見表4。
表4準確性校驗規(guī)則
序號一級指標二級指標指標描述計算公式
校驗數(shù)據(jù)的值是否在預設的范圍
A
1值域校驗內(nèi),數(shù)據(jù)內(nèi)容是否是預期數(shù)據(jù)。例A=數(shù)據(jù)內(nèi)容不在預設的范圍內(nèi)的數(shù)據(jù)記錄條數(shù)
X=(1?B)×100%
如人的年齡是否在合理范圍內(nèi)。B=數(shù)據(jù)記錄總數(shù)
對字段值的格式進行校驗,主要包
括編碼格式校驗,日期、時間格式
校驗(YYYY-MM、YYYY-MM-DD、A
2格式校驗A=數(shù)據(jù)內(nèi)容不符合規(guī)范格式的數(shù)據(jù)記錄條數(shù)
準確性YYYY-MM-DDHH:MI:SS),電話格X=(1?B)×100%
B=數(shù)據(jù)記錄總數(shù)
式校驗(手機號格式、固定電話格
式)等。
校驗數(shù)據(jù)在參照數(shù)據(jù)中的包含程A
參照性校驗A=數(shù)據(jù)內(nèi)容不包含在參照數(shù)據(jù)的范圍內(nèi)的數(shù)據(jù)記
3度,度量數(shù)據(jù)中是否包含無效的數(shù)X=(1?B)×100%
-單向校驗錄條數(shù)
據(jù)。
B=數(shù)據(jù)記錄總數(shù)
注:X代表數(shù)據(jù)質(zhì)量評價值
合理性
根據(jù)數(shù)據(jù)之間的業(yè)務邏輯合理的程度,對應的規(guī)則為:邏輯校驗、波動性校驗、關(guān)系校驗,合理性
評價指標見表5。
表5合理性校驗規(guī)則
序號一級指標二級指標指標描述計算公式
單行邏輯校驗:
邏輯校驗檢查數(shù)據(jù)是否滿足一定條
件的要求,判斷所得結(jié)果是否合理。A
A=數(shù)據(jù)內(nèi)容不符合的邏輯關(guān)系的數(shù)據(jù)記錄條數(shù)
X=(1?B)×100%
1合理性邏輯校驗邏輯校驗檢查數(shù)據(jù)是否滿足一定條
B=數(shù)據(jù)記錄總數(shù)
件的要求。分為單行邏輯、維度匯
維度匯總統(tǒng)計校驗:維度匯總結(jié)果存在得滿分
總統(tǒng)計和維度統(tǒng)計記錄數(shù)三種。
100,不存在得0分
7
DB5227/T112—2022
序號一級指標二級指標指標描述計算公式
維度統(tǒng)計記錄數(shù)校驗:維度匯總結(jié)果個數(shù)大于0
得滿分100,等于0得0分
同比校驗:
A?B
A=本統(tǒng)計周期數(shù)據(jù)之和
C=B
B=歷史同一統(tǒng)計周期數(shù)據(jù)之和
C=同比值
當C超出預先設定的閾值得0分,未超出得滿分
100
統(tǒng)計周期:
年:某年度數(shù)據(jù)與上一年度數(shù)據(jù)波動校驗
季:某季度數(shù)據(jù)與上一年同一季度數(shù)據(jù)波動校
月:某月數(shù)據(jù)與上一年同一個月數(shù)據(jù)波動校驗
日:某日數(shù)據(jù)與上一年同一日數(shù)據(jù)波動校驗
環(huán)比校驗:
波動校驗通過對兩段不同時期數(shù)據(jù)
A?B
波動性校的比較,檢驗數(shù)據(jù)波動情況是否合A=本統(tǒng)計周期數(shù)據(jù)之和
2C=B
驗理。波動校驗分同比校驗、環(huán)比校B=上一個統(tǒng)計周期的數(shù)據(jù)之和
驗和占比校驗三種子校驗。C=環(huán)比值
當C超出預先設定的閾值得0分,未超出得滿分
100
統(tǒng)計周期與本文件第章節(jié)“同比校驗”
中統(tǒng)計周期劃分一致
占比校驗:
A
A=校驗數(shù)據(jù)某一周期維度值下的校驗數(shù)據(jù)之和
C=B
B=校驗數(shù)據(jù)總和
C=占比值
當C超出預先設定的閾值得0分,未超出得滿分
100
統(tǒng)計周期與本文件第章節(jié)“同比校驗”
中統(tǒng)計周期劃分一致
檢查具有業(yè)務關(guān)聯(lián)關(guān)系的數(shù)據(jù)之間A
A=校驗列數(shù)據(jù)不符合參照列數(shù)據(jù)兩者關(guān)聯(lián)關(guān)系
3關(guān)系校驗的聯(lián)系是否合理,是否具有與業(yè)務X=(1?B)×100%
運算的數(shù)據(jù)記錄條數(shù)
規(guī)則一致的聯(lián)系。
B=數(shù)據(jù)記錄總數(shù)
注:X代表數(shù)據(jù)質(zhì)量評價值
唯一性
8
DB5227/T112—2022
特定字段、記錄、文件或數(shù)據(jù)集唯一性的度量。對應的規(guī)則為:重復校驗,唯一性評價指標見表6。
表6唯一性校驗規(guī)則
序號一級指標二級指標指標描述計算公式
校驗某一或多個校驗列數(shù)據(jù)是否有
A
1唯一性重復校驗重復數(shù)據(jù),對不能重復的數(shù)據(jù)進行的A=數(shù)據(jù)內(nèi)容重復的數(shù)據(jù)記錄條數(shù)
X=(1?B)×100%
唯一性檢查B=數(shù)據(jù)記錄總數(shù)
注:X代表數(shù)據(jù)質(zhì)量評價值
及時性
數(shù)據(jù)的加工是否滿足時效性要求。對應的規(guī)則為:記錄數(shù)校驗,及時性評價指標見表7。
表7及時性校驗規(guī)則
序號一級指標二級指標指標描述計算公式
校驗某一更新周期內(nèi)數(shù)據(jù)量是否
在更新周期內(nèi)數(shù)據(jù)量有變化得滿分100,無變化得
1及時性記錄數(shù)校驗變化,以此來判斷數(shù)據(jù)的推送是否
0分
及時。
5.4.2定義規(guī)則權(quán)重
定義規(guī)則權(quán)重根據(jù)數(shù)據(jù)剖析階段確定的字段的重要程度來定,由高到低分別為3、2、1,重要程度
越高的字段權(quán)重越高,即三級字段權(quán)重為3,二級字段權(quán)重為2,一級字段權(quán)重為1。其中,同一字段的
所有規(guī)則的權(quán)重都相同,如果是多個字段關(guān)聯(lián)的規(guī)則取權(quán)重低的作為此規(guī)則的權(quán)重。
5.5配置質(zhì)量校驗規(guī)則
將三級和二級字段與已有的數(shù)據(jù)標準進行映射,查看是否有對應的標準:
——對已有數(shù)據(jù)標準的字段,按標準配置稽核規(guī)則;
——對沒有數(shù)據(jù)標準的字段,根據(jù)剖析階段得出的字段的數(shù)據(jù)特征設計稽核規(guī)則。
將校驗規(guī)則配置至系統(tǒng)平臺中,其中應注意:
——宜對數(shù)據(jù)清洗前和數(shù)據(jù)清洗后的數(shù)據(jù)表配置校驗規(guī)則,以便通過對清洗前后校驗結(jié)果進行分
析和改進;
——當有多個校驗規(guī)則時,每一個字段配置一個校驗規(guī)則;
——通過設置權(quán)重,優(yōu)化校驗結(jié)果;
——在時間充足的情況下,宜配置規(guī)則說明。
5.6評估數(shù)據(jù)質(zhì)量并輸出報告
5.6.1概述
數(shù)據(jù)質(zhì)量評價分3個層次:規(guī)則級、表級、部門級。
5.6.2制定評分規(guī)則
9
DB5227/T112—2022
規(guī)則級計算公式
各類數(shù)據(jù)質(zhì)量校驗規(guī)則得分的計算公式,應符合5.4.1的規(guī)定。
表級計算公式
表級得分均遵循下列計算公式進行計算得出:
··················································(1)
W
T=