(高清版)GB∕T 39400-2020 工業(yè)數據質量 通 用技術規(guī)范_第1頁
(高清版)GB∕T 39400-2020 工業(yè)數據質量 通 用技術規(guī)范_第2頁
(高清版)GB∕T 39400-2020 工業(yè)數據質量 通 用技術規(guī)范_第3頁
(高清版)GB∕T 39400-2020 工業(yè)數據質量 通 用技術規(guī)范_第4頁
(高清版)GB∕T 39400-2020 工業(yè)數據質量 通 用技術規(guī)范_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

L67中華人民共和國國家標準工業(yè)數據質量通用技術規(guī)范I國家市場監(jiān)督管理總局國家標準化管理委員會ⅠGB/T39400—2020前言 引言 2規(guī)范性引用文件 3術語和定義 4工業(yè)數據質量持續(xù)改進 4.2持續(xù)改進模型 5工業(yè)數據質量描述 5.3非定量元素 6工業(yè)數據質量識別 6.1定量的數據質量信息 6.2非定量的數據質量信息 7工業(yè)數據質量評價 7.2評價流程和步驟 8工業(yè)數據質量控制 9報告數據質量信息 9.2數據質量報告 參考文獻 ⅢGB/T39400—2020本標準按照GB/T1.1—2009給出的規(guī)則起草。請注意本文件的某些內容可能涉及專利。本文件的發(fā)布機構不承擔識別這些專利的責任。本標準由中國機械工業(yè)聯合會提出。本標準由全國自動化系統與集成標準化技術委員會(SAC/TC159)歸口。本標準起草單位:中國標準化研究院、浙江大學、中機生產力促進中心、深圳鵬銳信息技術股份有限公司、深圳市華傲數據技術有限公司、北京三維天地科技股份有限公司。ⅣGB/T39400—2020引言隨著信息化與工業(yè)化的深度融合,信息技術滲透到了工業(yè)企業(yè)產業(yè)鏈的各個環(huán)節(jié),工業(yè)企業(yè)建立了很多計算機信息系統,積累了大量工業(yè)數據,工業(yè)數據已成為工業(yè)企業(yè)的重要資源。同時,數據質量貫穿于工業(yè)數據生命周期的產生、收集、存儲、維護、傳輸、加工和利用等各個階段,海量的工業(yè)數據存在數據殘缺、數據不規(guī)范以及數據錯誤等數據質量問題。本標準通過對工業(yè)數據質量持續(xù)改進的模型、質量的描述、識別、評價、控制和報告等的標準化,支撐工業(yè)數據的協同建設、互聯互通、共享利用,提高工業(yè)數據的質量、可用性和利用效率。本標準的實施有助于實現工業(yè)數據的規(guī)范化管理和質量保證。1GB/T39400—2020工業(yè)數據質量通用技術規(guī)范本標準規(guī)定了工業(yè)數據質量持續(xù)改進的模型,以及工業(yè)數據質量的描述、識別、評價、控制和報告的要求。本標準適用于工業(yè)數據采集、傳輸、維護和使用過程中的質量管理。2規(guī)范性引用文件下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T19001—2016質量管理體系要求3術語和定義下列術語和定義適用于本文件。3.1數據質量數據的一組固有特性滿足要求的程度。注:固有特性一般指永久性的特性。3.2數據質量管理指導和控制某機構數據質量的協調活動。3.3質量評價過程用于應用和報告質量評價方法及結果的操作。3.4質量測量對質量定量元素、子元素的評估。3.5質量結果數據質量測量得到的一個值或一組值,或將這些值同規(guī)定的一致性質量等級相比得到的評價結果。3.6質量范圍報告質量信息的數據的覆蓋范圍或特征。3.7數據集可以標識的數據集合。[GB/T33674—2017,定義3.1]GB/T39400—20203.8完全檢查質量范圍內所有個體都進行的檢查。3.9抽樣檢查從質量范圍內的整體中抽取若干個體進行的檢查。主數據組織未來執(zhí)行事務需要使用的,用于描述實體的獨立的、基本的數據。注1:主數據通常包括描述客戶、產品、雇員、材料、供應商、服務、股東、設施、設備以及規(guī)章制度的記錄。注2:主數據的選擇和確定,取決于組織的視角。注3:此處“實體”為一般含義,而非數據建模中使用的含義。事務數據表征業(yè)務活動或活動方案實現的數據。產品數據適合于人或計算機進行通信、解釋或處理的,以形式化方法表達的有關產品的信息。4工業(yè)數據質量持續(xù)改進工業(yè)數據主要包括主數據、事務數據和產品數據。工業(yè)數據質量特性包括完整性、一致性、準確性以及其他附加特性。4.2持續(xù)改進模型工業(yè)數據質量管理應用戴明環(huán)(PDCA循環(huán))持續(xù)改進方法,PDCA循環(huán)符合GB/T19001—2016的規(guī)定,工業(yè)數據質量持續(xù)改進模型見圖1,包括策劃、實施、檢查和處置4個階段,其中:策劃(Plan):明確質量目標和用戶需求,規(guī)劃數據質量描述要素,開展數據質量描述;—實施(Do):識別數據質量要素,新建數據質量要素,開展數據質量識別;檢查(Check):選擇評價方法,確定評價流程和步驟,開展數據質量評價;處置(Act):確定控制規(guī)則,選擇控制方法,開展數據質量控制。23GB/T39400—2020圖1工業(yè)數據質量持續(xù)改進模型5工業(yè)數據質量描述源自數據集、用戶需求的工業(yè)數據質量信息所反映的數據質量應滿足用戶的特定需求。質量目標表明數據質量應符合任務的特定目的。通過識別數據集、用戶需求、質量目標中的質量元素來描述質量信息。質量描述可用于數據集系列、數據集或數據集內具有相同特征的部分數據。一個數據集的質量用以下兩個要素來描述:—數據質量定量元素;—數據質量非定量元素。每個數據質量定量元素可細分為多個數據質量定量子元素。每個數據質量定量子元素用多個數據質量定量子元素描述項描述。通過數據質量定量元素、數據質量定量子元素及數據質量定量子元素描述項,描述數據集滿足數據規(guī)范中預先設定標準的程度,并提供定量的質量信息。數據質量非定量元素提供非定量的質量信息,可用于評價數據集在非預期的特定應用中的質量。質量信息的可信性,記錄在“數據質量報告”中。數據質量描述框架見圖2。4GB/T39400—2020圖2數據質量描述框架5.2定量元素數據質量定量元素用來描述數據集的定量質量信息,用來表達符合數據規(guī)范的程度。包括但不限于以下元素:—完整性:特征、特征屬性及特征關系存在或不存在;—一致性:數據結構(包括概念結構、邏輯結構、物理結構)、屬性及其關系符合邏輯規(guī)則的程度;—準確性:包括正確性、精確性和時序性;—附加數據質量定量元素:用戶可根據需求設置,以便描述無法用以上定量元素描述的定量的數據質量信息。數據質量定量子元素與數據質量定量元素相對應,用來描述數據集的定量質量信息。包括但不限于以下子元素:a)完整性的子元素:—多余:數據集中有多余數據;—缺少:數據集中缺少應有數據;—交叉:數據集中存在交叉重復數據。b)一致性的子元素:—概念致性:符合概念模式規(guī)則;—值域一致性:值在值域范圍內;—格式一致性:數據存儲與數據集物理結構的一致性。c)準確性的子元素:—正確性:數據反映和描述客觀事物及其變化的準確程度;5GB/T39400—2020—精確性:數值符合其實際值或規(guī)定值的程度;—時序性:表達有序活動或序列活動相關數據時間順序的正確性。對任意數據質量定量元素,可新建附加數據質量定量子元素。5.2.3子元素描述項對每個可用的數據質量定量子元素,應記錄其質量信息。每個數據質量定量子元素的完全質量信息,用下列7個數據質量描述項來描述:—數據質量范圍;—數據質量測量;—數據質量評價過程;—數據質量結果;—數據質量值類型;—數據質量值單位;—數據質量測量日期。5.3非定量元素數據質量非定量元素用來描述數據集的非定量的質量信息。包括但不限于以下元素:—目的:描述數據集的創(chuàng)建原因和其預定的使用目的?!猛荆好枋鍪褂眠^該數據集的應用。數據生產者或其他數據使用者用“用途”來描述數據集的使用情況。—數據志:描述數據集的歷史,即數據集的整個生命周期信息。數據志包含兩部分:描述數據集GB/T34945—2017?!郊訑祿|量非定量元素:描述以上數據質量非定量元素沒有描述的非定量的質量信息。6工業(yè)數據質量識別6.1定量的數據質量信息6.1.1識別可用的數據質量定量元素對可用于數據集的所有數據質量定量元素加以識別,判斷這些元素是否適用于某一特定類型的數據集。注:數據質量定量元素可用性由數據規(guī)范來決定。6.1.2新建附加數據質量定量元素若本標準所列的數據質量定量元素未能充分描述數據質量的某一方面,則應命名并定義新的數據質量定量元素。附加數據質量定量元素的命名和定義,應作為數據集質量信息的一部分。6.1.3識別可用的數據質量定量子元素對可用數據質量定量元素的所有數據質量定量子元素加以識別,判斷這些元素的數據質量定量子元素是否適用于某一特定類型的數據集。每個可用數據質量定量元素至少包含一個可用數據質量定量子元素。注:數據質量定量子元素可用性由數據規(guī)范來決定。6GB/T39400—20206.1.4新建附加數據質量定量子元素若本標準所列的數據質量定量子元素未能充分描述數據質量的某一方面,則應命名并定義新的數據質量定量子元素。附加數據質量定量子元素的命名和定義,應作為數據集質量信息的一部分。6.1.5數據質量定量子元素描述項使用對每個可用數據質量定量子元素,應識別至少一個數據質量范圍。數據質量范圍可以是數據集系列、數據集或數據集內具有相同特征的部分數據。若數據質量范圍無法識別,則默認為該數據集。注:數據質量范圍的確定參照數據規(guī)范及數據質量非定量元素提供的非定量質量信息。每個數據質量范圍有一個數據質量測量。數據質量測量應簡要描述測量類型和測量邊界。數據集的質量應由多個測量來衡量。注:單一測量不能充分評價數據質量,也不能為數據集的所有應用提供單一測量。每個數據質量測量有一個數據質量評價過程。數據質量評價過程應描述數據質量范圍內的數據質量測量方法,并包含該方法報告。每個數據質量測量有一個數據質量結果。數據質量結果應為以下兩者之一:—將數據質量測量應用到數據質量范圍所限定的數據后得到的值或值的集合?!獙⑺玫降闹祷蛑档募希每山邮艿闹付ㄒ恢滦再|量等級,評價這些值或值的集合得到的結果。該數據質量結果為“通過”或“不通過”。這兩種類型的數據質量結果都應被提供。每個數據質量結果有一個數據質量值類型。注:“通過”或“不通過”的數據質量值類型為“布爾型”。每個數據質量結果有一個數據質量值單位(若存在)。每個數據質量測量應有一個數據質量測量日期。6.2非定量的數據質量信息6.2.1識別可用的數據質量非定量元素數據集目的應明確,用途應清晰,數據志應完整。數據集的數據志應是可用的,或者報告數據志,或者報告缺少數據志的原因。數據質量范圍所限定的數據集內,當一部分數據的數據志與其他部分的數據志不同時,應提供其數7GB/T39400—2020據志,作為非定量的數據質量信息完整記錄的一部分。6.2.2新建附加數據質量非定量元素若本標準所列數據質量非定量元素未能充分描述非定量數據質量的某一方面,則應命名并定義新的數據質量非定量元素。附加數據質量非定量元素的命名和定義,應作為數據集質量信息的一部分。7工業(yè)數據質量評價7.1.1數據質量評價方法分類數據質量評價方法分為:—直接評價方法:通過比較數據與內外部參考信息來確定數據質量;—間接評價方法:使用與數據相關的外部知識推斷或估計數據質量。直接評價方法可分為:完全檢查方法:測試數據質量范圍內的所有數據項;抽樣檢查方法:測試數據質量范圍內的部分數據項,抽樣方法、抽樣率及抽樣過程應在數據質量報告中報告。注:使用抽樣檢查方法時,特別是在使用小樣本或非隨機抽樣時,分析數據質量結果的可信度。間接評價方法所依據的外部知識包括但不限于:數據質量非定量元素、數據集的其他質量報告。注:僅當直接評價方法不可用時,才用間接評價方法。7.2評價流程和步驟數據質量評價過程是產生和報告數據質量結果的一系列步驟。評價與報告數據質量結果的過程流見圖3,評價步驟見表1。8GB/T39400—2020圖3評價與報告數據質量結果的過程流步驟活動描述1識別可用數據質量定量元素、數據質量定量子元素及數據質量范圍根據5.2識別數據質量定量元素、數據質量定量子元素及數據質量范圍。若數據規(guī)范或用戶需求有測試需要,則重復該步2識別數據質量測量對每個測試,識別數據質量測量、數據質量值類型及數據質量值單3選擇并運用數據質量評價方法對每個被識別的數據質量測量,選擇數據質量評價方法4確定數據質量結果結果為:定量數據質量結果、數據質量值或數據質量值集合、數據質量值單位及數據質量測量日期5確定一致性若數據規(guī)范或用戶需求中已指定一致性質量等級,將其與數據質量過”)是定量數據質量結果與一致性質量等級比較后的結果8工業(yè)數據質量控制8.1.1數據質量描述測試套件“數據質量描述測試套件”用來測試數據集質量描述的正確性。數據集質量描述應通過該測試套件的所有測試。測試一:要素測試9GB/T39400—2020a)測試目的:證實質量要素都在質量描述中;b)測試方法:—檢查質量描述,證實數據質量定量元素、數據質量定量子元素及數據質量定量子元素描述項已被用來描述定量的質量信息;—檢查質量描述,證實數據質量非定量元素已被用來描述非定量的質量信息。測試二:可用性測試a)測試目的:證實質量描述的可用性;b)測試方法:—識別數據規(guī)范中與定量質量相關的語句,并用其來識別可用的數據質量定量元素及其可用的數據質量定量子元素;—比較規(guī)范中識別的數據質量定量子元素與質量描述中所用的數據質量定量子元素,確保該數據集可用的所有數據質量定量子元素已被識別并用在質量描述中;—檢查可用的數據質量非定量元素,確保已被識別并用在質量描述中。測試三:排斥性測試a)測試目的:證實質量描述中附加元素是排斥性的,且附加元素的信息已被充分提供;b)測試方法:—檢查所有附加數據質量定量元素,證實每個附加元素都描述了本標準中數據質量定量元素沒有描述的定量質量信息;—檢查所有附加數據質量定量子元素,證實每個附加子元素都描述了本標準中數據質量定量子元素沒有描述的定量質量信息;—檢查所有附加數據質量非定量元素,證實每個附加元素都描述了本標準中數據質量非定量元素沒有描述的非定量質量信息。測試四:定量子元素描述項正確性檢查a)測試目的:證實數據質量定量子元素描述項使用正確;b)測試方法:比較本標準及每個可用數據質量定量子元素(包括附加數據質量定量子元素)所提供的質量信息,證實數據質量定量子元素描述項的使用符合本標準。a)測試目的:證實質量描述已用“數據質量報告”報告;b)測試方法:比較質量信息和“數據質量報告”,證實質量信息已用符合本標準要求的“數據質量8.1.2數據質量內容測試套件8.1.2.2測試方法:任何納入“工業(yè)數據”的數據應符合給定的數據規(guī)范,并提供一致性數據質量報告,且在這些數據規(guī)范上的數據質量結果均為“合格”。一致性測試參見GB/T16656.31。8.2控制方法數據質量控制總體上可分為三個步驟:a)生產者自查:生產者(數據集生產者)自查認為數據及其質量描述完全符合“數據質量描述測試套件”“數據質量內容測試套件”的所有要求,才能將其提交給第三方檢查。b)第三方檢查:第三方檢查認為生產者提交的數據及其質量描述完全符合“數據質量描述測試套件”“數據質量內容測試套件”的所有要求,才能將其提交給評審組檢查。否則,詳細指出錯誤,將材料返回給生產者修改。GB/T39400—2020c)評審組檢查:評審組檢查認為生產者提交的數據及其質量描述完全符合“數據質量描述測試套件”“數據質量內容測試套件”的所有要求,才能將其納入“工業(yè)數據”。否則,詳細指出錯誤,將材料返回生產者修改。9報告數據質量信息數據質量信息應按規(guī)范要求報告。質量信息應以“數據質量報告”報告。當多個數據質量結果被綜合成單個數據質量結果來報告數據集質量時,綜合數據質量結果應包含在“數據質量報告”中,其數據質量結果類型為“綜合”。9.2數據質量報告數據質量報告主要內容見表2。其中:a)編號:給表中每個條款編號。b)名稱:報告條款名稱。c)說明:定義或描述條款內容。d)約束/條件:描述報告該條款的必要條件,或需要該條款的條件。其含義如下:—必備:應有該條款;—條件可選:規(guī)定條件被滿足時應有該條款;—可選:該條款是可選的。表2數據質量報告主要內容編號名稱說明1質量報告報告章節(jié)必備1報告名稱報告的名稱必備2報告范圍該報告所評價數據集的范圍必備2數據質量測量報告章節(jié)必備21數學描述數據質量測量的數學描述必備22數據質量值數據質量測量的結果值必備23數據質量值單位數據質量測量結果值的單位或值類型必備24可信度計算或估計的數據質量測量的可信度必備25可信度單位可信度的單位或值類型必備3一致性的可信度報告章節(jié)必備31一致性結果可信度一致性結果的可信度必備32一致性結果可信度單位一致性結果可信度的單位或值類型必備33參考文檔一致性評價所參考的文檔信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論