DB5227∕T 112-2022 智慧黔南 數(shù)據(jù)質(zhì)量評價規(guī)范_第1頁
DB5227∕T 112-2022 智慧黔南 數(shù)據(jù)質(zhì)量評價規(guī)范_第2頁
DB5227∕T 112-2022 智慧黔南 數(shù)據(jù)質(zhì)量評價規(guī)范_第3頁
DB5227∕T 112-2022 智慧黔南 數(shù)據(jù)質(zhì)量評價規(guī)范_第4頁
DB5227∕T 112-2022 智慧黔南 數(shù)據(jù)質(zhì)量評價規(guī)范_第5頁
已閱讀5頁,還剩16頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ICS35.240.01

CCSL70

5227

黔南州地方標準

DB5227/T112—2022

智慧黔南數(shù)據(jù)質(zhì)量評價規(guī)范

Smartqiannan-Dataqualityevaluationstandard

2022-12-16發(fā)布2023-04-01實施

黔南布依族苗族自治州市場監(jiān)督管理局??發(fā)布

DB5227/T112—2022

目次

前言..................................................................................II

1范圍................................................................................1

2規(guī)范性引用文件......................................................................1

3術(shù)語和定義..........................................................................1

4數(shù)據(jù)質(zhì)量評價總體流程................................................................2

5數(shù)據(jù)質(zhì)量評價要求....................................................................3

5.1確定業(yè)務目標和要求..............................................................3

5.2剖析待評價數(shù)據(jù)..................................................................4

5.3明確數(shù)據(jù)質(zhì)量評價指標............................................................5

5.4設計質(zhì)量校驗規(guī)則................................................................5

5.5配置質(zhì)量校驗規(guī)則................................................................9

5.6評估數(shù)據(jù)質(zhì)量并輸出報告..........................................................9

6整改問題數(shù)據(jù).......................................................................11

7數(shù)據(jù)共享開放工作流程...............................................................11

附錄A(資料性)表級計算得分示例.....................................................12

附錄B(資料性)部門級計算得分示例...................................................13

附錄C(資料性)數(shù)據(jù)質(zhì)量報告樣例.....................................................14

C.1數(shù)據(jù)質(zhì)量情況分析...............................................................14

C.2數(shù)據(jù)質(zhì)量得分及排名對比.........................................................14

C.3數(shù)據(jù)異常響應問題變化趨勢.......................................................15

C.4問題數(shù)據(jù)整改建議...............................................................15

附錄D(規(guī)范性)黔南州數(shù)據(jù)共享開放工作流程...........................................17

參考文獻..............................................................................18

I

DB5227/T112—2022

前言

本文件按照GB/T1.12020《標準化工作導則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定

起草。

請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別專利的責任

本文件由黔南州大數(shù)據(jù)發(fā)展管理局提出。

本文件由黔南州大數(shù)據(jù)發(fā)展管理局歸口。

本文件起草單位:黔南州大數(shù)據(jù)發(fā)展管理局、黔南州市場監(jiān)督管理局、都勻市大數(shù)據(jù)發(fā)展服務中心、

廣西大學計算機與電子信息學院、黔南民族師范學院、北京東方國信科技股份有限公司、中國電信股份

有限公司黔南分公司。

本文件主要起草人:潘志刊、楊宗俊、顏家遠、劉超、黃子吉、何曉慧、陳文濤、宋俊、李怡青、

董婧、殷文輝、左為、韋廣柱、劉峻、李明江、周錦程、張永麗、胡嘉斌、宋佳南、楊森、傳洪波。

II

DB5227/T112—2022

智慧黔南數(shù)據(jù)質(zhì)量評價規(guī)范

1范圍

本文件規(guī)定了智慧黔南數(shù)據(jù)質(zhì)量評價規(guī)范的全流程,包括數(shù)據(jù)質(zhì)量評價總體流程、數(shù)據(jù)質(zhì)量評價要

求、整改問題數(shù)據(jù)、數(shù)據(jù)共享開放工作流程。

本文件適用于智慧黔南數(shù)據(jù)質(zhì)量評價規(guī)范的具體實施工作,為各行業(yè)各部門評價數(shù)據(jù)質(zhì)量提供參考。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T5271.1信息技術(shù)詞匯第1部分:基本術(shù)語

GB/T5271.17信息技術(shù)詞匯第17部分:數(shù)據(jù)庫

GB/T36344信息技術(shù)數(shù)據(jù)質(zhì)量評價指標

3術(shù)語和定義

GB/T5271、GB/T36344界定的以及下列術(shù)語和定義適用于本文件。

3.1

數(shù)據(jù)

關(guān)于數(shù)據(jù)或數(shù)據(jù)元素的數(shù)據(jù)(可能包括其數(shù)據(jù)描述),以及關(guān)于數(shù)據(jù)擁有權(quán)、存取路徑、訪問權(quán)和

數(shù)據(jù)易變性的數(shù)據(jù)。

[來源:GB/T5271.17—2010,17.06.05]

3.2

元數(shù)據(jù)

關(guān)于數(shù)據(jù)或數(shù)據(jù)元素的數(shù)據(jù)(可能包括其數(shù)據(jù)描述),以及關(guān)于數(shù)據(jù)擁有權(quán)、存取路徑、訪問權(quán)和

數(shù)據(jù)易變性的數(shù)據(jù)。

[來源:GB/T5271.17—2010,17.06.05]

3.3

數(shù)據(jù)質(zhì)量

在指定條件下使用時,數(shù)據(jù)的特性滿足明確的和隱含的要求的程度。

[來源:GB/T36344—2018,2.3]

3.4

原始數(shù)據(jù)

終端用戶所存儲使用的各種未經(jīng)過處理或簡化的數(shù)據(jù)。

[來源:GB/T36344—2018,2.4]

1

DB5227/T112—2022

3.5

數(shù)據(jù)集

具有一定主題,可以標識并可以被計算機化處理的數(shù)據(jù)集合。

[來源:GB/T36344—2018,2.6]

3.6

數(shù)據(jù)質(zhì)量校驗

對數(shù)據(jù)質(zhì)量進行校對、核查的過程。

3.7

數(shù)據(jù)質(zhì)量評價

指以原始數(shù)據(jù)為基礎(chǔ),充分考慮數(shù)據(jù)之間的相關(guān)性、匹配性、邏輯性,采用科學方法對數(shù)據(jù)的規(guī)范

性、完整性、準確性、一致性、時效性、可訪問性進行判斷和分析,對可能存在的數(shù)據(jù)質(zhì)量問題進行追

溯和核實,對數(shù)據(jù)進行確認的過程。

3.8

數(shù)據(jù)標準

數(shù)據(jù)的命名、定義、結(jié)構(gòu)和取值范圍方面的規(guī)則和基準。

[來源:GB/T36344—2018,2.8]

3.9

數(shù)據(jù)剖析

用適當?shù)慕y(tǒng)計、分析等方法對原始數(shù)據(jù)進行分析,對其特征加以匯總和理解,以求最大化地開發(fā)數(shù)

據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。

4數(shù)據(jù)質(zhì)量評價總體流程

數(shù)據(jù)質(zhì)量評價流程可保證數(shù)據(jù)質(zhì)量評價整個過程的有序及有效進行,具體流程如圖1所示:

2

DB5227/T112—2022

圖1數(shù)據(jù)質(zhì)量評價流程

5數(shù)據(jù)質(zhì)量評價要求

5.1確定業(yè)務目標和要求

內(nèi)容包括但不限于:

——項目的背景、計劃和目標;

——數(shù)據(jù)存在的具體問題;

——問題數(shù)據(jù)的產(chǎn)生,例如流程、組織、技術(shù)等;

3

DB5227/T112—2022

——問題數(shù)據(jù)解決的優(yōu)先次序。

5.2剖析待評價數(shù)據(jù)

內(nèi)容包括但不限于:

——數(shù)據(jù)的元數(shù)據(jù)信息,例如數(shù)據(jù)名稱、數(shù)據(jù)格式、數(shù)據(jù)類型、數(shù)據(jù)精度等。

——數(shù)據(jù)值的分布信息,例如主鍵唯一性、缺失值、取值范圍、異常符號等。

——設定字段的級別,按業(yè)務重要性程度和數(shù)據(jù)問題的嚴重性程度對原始數(shù)據(jù)進行業(yè)務影響分級,

分為一級、二級、三級。三級級別最高,重要程度分類方式如下:

三級:業(yè)務主鍵;

二級:數(shù)值型、日期型、文本類表示的日期字段,短文本類字段(如名稱、地址、代碼、

類型等特征字段),權(quán)威數(shù)據(jù)來源字段;

4

DB5227/T112—2022

一級:空值率大于80%、其他類型字段,如:源業(yè)務系統(tǒng)字段、長文本描述類型字段。

5.3明確數(shù)據(jù)質(zhì)量評價指標

數(shù)據(jù)質(zhì)量評價指標劃分為:完整性、一致性、準確性、合理性、唯一性與及時性六個維度。其中,

完整性、一致性、準確性應符合GB/T36344的規(guī)定。

5.4設計質(zhì)量校驗規(guī)則

5.4.1制定校驗規(guī)則

概述

根據(jù)質(zhì)量評價指標制定12項質(zhì)量校驗規(guī)則,對數(shù)據(jù)質(zhì)量進行計算、評分,質(zhì)量評價指標和校驗規(guī)則

的對應關(guān)系見表1。

表1質(zhì)量評價指標對應的質(zhì)量校驗規(guī)則表

序號質(zhì)量評價指標質(zhì)量校驗規(guī)則

字段完整性校驗

1

空值校驗

完整性

2記錄數(shù)校驗

3參照校驗-雙向校驗

4一致性一致性校驗

5值域校驗

6準確性格式校驗

7參照校驗-單向校驗

8邏輯校驗

9合理性波動性校驗

10關(guān)系校驗

11唯一性重復校驗

12及時性記錄數(shù)校驗

完整性

5

DB5227/T112—2022

按照數(shù)據(jù)規(guī)則要求,數(shù)據(jù)元素被賦予數(shù)值的程度,包括數(shù)據(jù)元素的完整性和數(shù)據(jù)記錄的完整性。對

應的規(guī)則為:字段完整性校驗、空值校驗、記錄數(shù)校驗、參照校驗-雙向校驗,完整性評價指標見表2。

表2完整性校驗規(guī)則

序號一級指標二級指標指標描述計算公式

字段完整性對業(yè)務表的字段完整性校驗,檢查A

1A=數(shù)據(jù)內(nèi)容不符合字段完整性的數(shù)據(jù)記錄條數(shù)

校驗字段個數(shù)和字段名稱是否完整。X=(1?B)×100%

B=數(shù)據(jù)記錄總數(shù)

對非空字段檢查填充率是否為A

2空值校驗A=數(shù)據(jù)內(nèi)容為空的數(shù)據(jù)記錄條數(shù)

100%,數(shù)據(jù)內(nèi)容是否完整。X=(1?B)×100%

B=數(shù)據(jù)記錄總數(shù)

通過當前校驗表中的記錄數(shù)是否

完整性記錄條數(shù)在設定的范圍內(nèi)得滿分100,不在范圍內(nèi)

3記錄數(shù)校驗在預先設定的范圍內(nèi),來驗證數(shù)據(jù)

得0分

記錄的完整性。

驗證校驗數(shù)據(jù)包含在參照數(shù)據(jù)中

A

參照校驗-的程度,以及參照數(shù)據(jù)包含在驗證A=數(shù)據(jù)內(nèi)容與參照數(shù)據(jù)相互不包含的數(shù)據(jù)記錄條

4X=(1?B)×100%

雙向校驗數(shù)據(jù)中的程度,即檢驗校驗數(shù)據(jù)和數(shù)

參照數(shù)據(jù)相互包含的程度。B=數(shù)據(jù)記錄總數(shù)

注:X代表數(shù)據(jù)質(zhì)量評價值

一致性

數(shù)據(jù)與其他特定上下文中使用的數(shù)據(jù)無矛盾的程度,包括相同數(shù)據(jù)一致性和關(guān)聯(lián)數(shù)據(jù)一致性。對應

的規(guī)則為一致性校驗,一致性評價指標見表3。

表3一致性校驗規(guī)則

序號一級指標二級指標指標描述計算公式

單表單行校驗:

A

A=校驗列中與參照列中數(shù)據(jù)內(nèi)容不一致的數(shù)據(jù)記

X=(1?B)×100%

錄條數(shù)

對分布在不同庫表中的相同數(shù)據(jù)

B=數(shù)據(jù)記錄總數(shù)

項進行一致性檢查,包括對照原始

數(shù)據(jù)和目標數(shù)據(jù),檢查在數(shù)據(jù)遷移單表匯總校驗:校驗列數(shù)據(jù)匯總值和參照列數(shù)據(jù)

1一致性一致性校驗過程中是否存在數(shù)據(jù)錯誤、丟失。匯總值一致得滿分100,不一致得0分

一致性檢查包括:單表單行校驗、雙表匯總校驗:校驗表與參照表關(guān)聯(lián)后校驗列數(shù)

單表匯總校驗、雙表匯總校驗和雙據(jù)匯總值和參照列數(shù)據(jù)匯總值一致得滿分100,不

表單行校驗四種。一致得0分

雙表單行校驗:

A

A=校驗表與參照表關(guān)聯(lián)后校驗列數(shù)據(jù)和參照列數(shù)

X=(1?B)×100%

6

DB5227/T112—2022

序號一級指標二級指標指標描述計算公式

據(jù)內(nèi)容不一致的數(shù)據(jù)記錄條數(shù)

B=數(shù)據(jù)記錄總數(shù)

注:X代表數(shù)據(jù)質(zhì)量評價值

準確性

數(shù)據(jù)準確性表示其所描述的真實實體(實際對象)真實值的程度,包括數(shù)據(jù)內(nèi)容正確性、數(shù)據(jù)格式

合規(guī)性、臟數(shù)據(jù)出現(xiàn)率。對應的規(guī)則為:值域校驗、格式校驗、參照校驗-單向校驗,準確性評價指標

見表4。

表4準確性校驗規(guī)則

序號一級指標二級指標指標描述計算公式

校驗數(shù)據(jù)的值是否在預設的范圍

A

1值域校驗內(nèi),數(shù)據(jù)內(nèi)容是否是預期數(shù)據(jù)。例A=數(shù)據(jù)內(nèi)容不在預設的范圍內(nèi)的數(shù)據(jù)記錄條數(shù)

X=(1?B)×100%

如人的年齡是否在合理范圍內(nèi)。B=數(shù)據(jù)記錄總數(shù)

對字段值的格式進行校驗,主要包

括編碼格式校驗,日期、時間格式

校驗(YYYY-MM、YYYY-MM-DD、A

2格式校驗A=數(shù)據(jù)內(nèi)容不符合規(guī)范格式的數(shù)據(jù)記錄條數(shù)

準確性YYYY-MM-DDHH:MI:SS),電話格X=(1?B)×100%

B=數(shù)據(jù)記錄總數(shù)

式校驗(手機號格式、固定電話格

式)等。

校驗數(shù)據(jù)在參照數(shù)據(jù)中的包含程A

參照性校驗A=數(shù)據(jù)內(nèi)容不包含在參照數(shù)據(jù)的范圍內(nèi)的數(shù)據(jù)記

3度,度量數(shù)據(jù)中是否包含無效的數(shù)X=(1?B)×100%

-單向校驗錄條數(shù)

據(jù)。

B=數(shù)據(jù)記錄總數(shù)

注:X代表數(shù)據(jù)質(zhì)量評價值

合理性

根據(jù)數(shù)據(jù)之間的業(yè)務邏輯合理的程度,對應的規(guī)則為:邏輯校驗、波動性校驗、關(guān)系校驗,合理性

評價指標見表5。

表5合理性校驗規(guī)則

序號一級指標二級指標指標描述計算公式

單行邏輯校驗:

邏輯校驗檢查數(shù)據(jù)是否滿足一定條

件的要求,判斷所得結(jié)果是否合理。A

A=數(shù)據(jù)內(nèi)容不符合的邏輯關(guān)系的數(shù)據(jù)記錄條數(shù)

X=(1?B)×100%

1合理性邏輯校驗邏輯校驗檢查數(shù)據(jù)是否滿足一定條

B=數(shù)據(jù)記錄總數(shù)

件的要求。分為單行邏輯、維度匯

維度匯總統(tǒng)計校驗:維度匯總結(jié)果存在得滿分

總統(tǒng)計和維度統(tǒng)計記錄數(shù)三種。

100,不存在得0分

7

DB5227/T112—2022

序號一級指標二級指標指標描述計算公式

維度統(tǒng)計記錄數(shù)校驗:維度匯總結(jié)果個數(shù)大于0

得滿分100,等于0得0分

同比校驗:

A?B

A=本統(tǒng)計周期數(shù)據(jù)之和

C=B

B=歷史同一統(tǒng)計周期數(shù)據(jù)之和

C=同比值

當C超出預先設定的閾值得0分,未超出得滿分

100

統(tǒng)計周期:

年:某年度數(shù)據(jù)與上一年度數(shù)據(jù)波動校驗

季:某季度數(shù)據(jù)與上一年同一季度數(shù)據(jù)波動校

月:某月數(shù)據(jù)與上一年同一個月數(shù)據(jù)波動校驗

日:某日數(shù)據(jù)與上一年同一日數(shù)據(jù)波動校驗

環(huán)比校驗:

波動校驗通過對兩段不同時期數(shù)據(jù)

A?B

波動性校的比較,檢驗數(shù)據(jù)波動情況是否合A=本統(tǒng)計周期數(shù)據(jù)之和

2C=B

驗理。波動校驗分同比校驗、環(huán)比校B=上一個統(tǒng)計周期的數(shù)據(jù)之和

驗和占比校驗三種子校驗。C=環(huán)比值

當C超出預先設定的閾值得0分,未超出得滿分

100

統(tǒng)計周期與本文件第章節(jié)“同比校驗”

中統(tǒng)計周期劃分一致

占比校驗:

A

A=校驗數(shù)據(jù)某一周期維度值下的校驗數(shù)據(jù)之和

C=B

B=校驗數(shù)據(jù)總和

C=占比值

當C超出預先設定的閾值得0分,未超出得滿分

100

統(tǒng)計周期與本文件第章節(jié)“同比校驗”

中統(tǒng)計周期劃分一致

檢查具有業(yè)務關(guān)聯(lián)關(guān)系的數(shù)據(jù)之間A

A=校驗列數(shù)據(jù)不符合參照列數(shù)據(jù)兩者關(guān)聯(lián)關(guān)系

3關(guān)系校驗的聯(lián)系是否合理,是否具有與業(yè)務X=(1?B)×100%

運算的數(shù)據(jù)記錄條數(shù)

規(guī)則一致的聯(lián)系。

B=數(shù)據(jù)記錄總數(shù)

注:X代表數(shù)據(jù)質(zhì)量評價值

唯一性

8

DB5227/T112—2022

特定字段、記錄、文件或數(shù)據(jù)集唯一性的度量。對應的規(guī)則為:重復校驗,唯一性評價指標見表6。

表6唯一性校驗規(guī)則

序號一級指標二級指標指標描述計算公式

校驗某一或多個校驗列數(shù)據(jù)是否有

A

1唯一性重復校驗重復數(shù)據(jù),對不能重復的數(shù)據(jù)進行的A=數(shù)據(jù)內(nèi)容重復的數(shù)據(jù)記錄條數(shù)

X=(1?B)×100%

唯一性檢查B=數(shù)據(jù)記錄總數(shù)

注:X代表數(shù)據(jù)質(zhì)量評價值

及時性

數(shù)據(jù)的加工是否滿足時效性要求。對應的規(guī)則為:記錄數(shù)校驗,及時性評價指標見表7。

表7及時性校驗規(guī)則

序號一級指標二級指標指標描述計算公式

校驗某一更新周期內(nèi)數(shù)據(jù)量是否

在更新周期內(nèi)數(shù)據(jù)量有變化得滿分100,無變化得

1及時性記錄數(shù)校驗變化,以此來判斷數(shù)據(jù)的推送是否

0分

及時。

5.4.2定義規(guī)則權(quán)重

定義規(guī)則權(quán)重根據(jù)數(shù)據(jù)剖析階段確定的字段的重要程度來定,由高到低分別為3、2、1,重要程度

越高的字段權(quán)重越高,即三級字段權(quán)重為3,二級字段權(quán)重為2,一級字段權(quán)重為1。其中,同一字段的

所有規(guī)則的權(quán)重都相同,如果是多個字段關(guān)聯(lián)的規(guī)則取權(quán)重低的作為此規(guī)則的權(quán)重。

5.5配置質(zhì)量校驗規(guī)則

將三級和二級字段與已有的數(shù)據(jù)標準進行映射,查看是否有對應的標準:

——對已有數(shù)據(jù)標準的字段,按標準配置稽核規(guī)則;

——對沒有數(shù)據(jù)標準的字段,根據(jù)剖析階段得出的字段的數(shù)據(jù)特征設計稽核規(guī)則。

將校驗規(guī)則配置至系統(tǒng)平臺中,其中應注意:

——宜對數(shù)據(jù)清洗前和數(shù)據(jù)清洗后的數(shù)據(jù)表配置校驗規(guī)則,以便通過對清洗前后校驗結(jié)果進行分

析和改進;

——當有多個校驗規(guī)則時,每一個字段配置一個校驗規(guī)則;

——通過設置權(quán)重,優(yōu)化校驗結(jié)果;

——在時間充足的情況下,宜配置規(guī)則說明。

5.6評估數(shù)據(jù)質(zhì)量并輸出報告

5.6.1概述

數(shù)據(jù)質(zhì)量評價分3個層次:規(guī)則級、表級、部門級。

5.6.2制定評分規(guī)則

9

DB5227/T112—2022

規(guī)則級計算公式

各類數(shù)據(jù)質(zhì)量校驗規(guī)則得分的計算公式,應符合5.4.1的規(guī)定。

表級計算公式

表級得分均遵循下列計算公式進行計算得出:

··················································(1)

W

T=