DB5120T 19.3-2023 數(shù)據(jù)資源體系技術(shù)指南 第3部分:數(shù)據(jù)清洗加工規(guī)范  _第1頁
DB5120T 19.3-2023 數(shù)據(jù)資源體系技術(shù)指南 第3部分:數(shù)據(jù)清洗加工規(guī)范  _第2頁
DB5120T 19.3-2023 數(shù)據(jù)資源體系技術(shù)指南 第3部分:數(shù)據(jù)清洗加工規(guī)范  _第3頁
DB5120T 19.3-2023 數(shù)據(jù)資源體系技術(shù)指南 第3部分:數(shù)據(jù)清洗加工規(guī)范  _第4頁
DB5120T 19.3-2023 數(shù)據(jù)資源體系技術(shù)指南 第3部分:數(shù)據(jù)清洗加工規(guī)范  _第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

CCSL71DB5120資陽市市場監(jiān)督管理局發(fā)布IDB5120/T19.3—2023 12規(guī)范性引用文件 13術(shù)語和定義 14縮略語 15清洗目的 26管理職責(zé) 27清洗流程 28具體操作 2附錄A(規(guī)范性)典型業(yè)務(wù)數(shù)據(jù)清洗規(guī)則表 7參考文獻(xiàn) 8DB5120/T19.3—2023本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利,本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識別這些專利的責(zé)任。本文件由資陽市政務(wù)服務(wù)和大數(shù)據(jù)管理局提出并歸口。本文件由資陽市市場監(jiān)督管理局批準(zhǔn)并發(fā)布。本文件起草單位:資陽市大數(shù)據(jù)服務(wù)中心、資陽數(shù)智科技有限公司。本文件主要起草人:劉桄序、戢培全、邵柏華、袁嘉、劉光乾、楊建康、張亞琴、李愛民、劉西北、鄭雪梅、鄧森林、彭國林、陳杜宇、楊通、李強(qiáng)、夏榮、張潤澤、任良華、冷耀、陳熙。本文件為首次發(fā)布。1DB5120/T19.3—2023數(shù)據(jù)資源體系技術(shù)指南第3部分:數(shù)據(jù)清洗加工規(guī)范本文件規(guī)定了資陽市域數(shù)據(jù)清洗加工相關(guān)術(shù)語和定義、縮略語、清洗目的、管理職責(zé)、清洗流程、具體操作等工作規(guī)范。本文件適用于資陽市域政務(wù)組織、非政務(wù)組織和個人信息資源數(shù)據(jù)清洗加工。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T5271.1信息技術(shù)詞匯第1部份:基本術(shù)語GB/T11457信息技術(shù)軟件工程術(shù)語GB/T18492信息技術(shù)系統(tǒng)及軟件完整性級別GB/T22032系統(tǒng)工程系統(tǒng)生存周期過程GB/T25000系統(tǒng)與軟件工程(所有部分)GB/T29264信息技術(shù)服務(wù)分類與代碼GB/T35295信息技術(shù)大數(shù)據(jù)術(shù)語GB/T36625.3智慧城市數(shù)據(jù)融合第3部分:數(shù)據(jù)采集規(guī)范GB/T38667信息技術(shù)大數(shù)據(jù)數(shù)據(jù)分類指南GB/T40094.2電子商務(wù)數(shù)據(jù)交易第2部分:數(shù)據(jù)描述規(guī)范GB/T42450信息技術(shù)大數(shù)據(jù)數(shù)據(jù)資源規(guī)劃DB51/T3056政務(wù)數(shù)據(jù)數(shù)據(jù)分類分級指南3術(shù)語和定義GB/T5271.1、GB/T11457、GB/T18492、GB/T25000、GB/T29264、GB/T35295、GB/T36625.3、GB/T38667、GB/T40094.2、GB/T42450、DB51/T3056界定的以及下列術(shù)語和定義適用于本文件。3.1數(shù)據(jù)清洗加工datacleaningandprocessing運(yùn)用一定方法修正識別的數(shù)據(jù)問題,轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求或應(yīng)用要求的數(shù)據(jù)的過程。4縮略語下列縮略語適用于本文件。ETL:數(shù)據(jù)的抽取、轉(zhuǎn)換和加載(ExtractTransformLoad)2DB5120/T19.3—20235清洗目的數(shù)據(jù)清洗的目的是為了通過糾正不符合要求的數(shù)據(jù)來提高數(shù)據(jù)質(zhì)量,滿足數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)要求。其中不符合要求的數(shù)據(jù)主要有三類:a)殘缺數(shù)據(jù):缺一些記錄,或一條記錄里缺一些值(空值),或兩者都缺。b)錯誤數(shù)據(jù):數(shù)據(jù)沒有嚴(yán)格按照規(guī)范記錄,包括格式內(nèi)容錯誤、邏輯錯誤、不合規(guī)等。c)重復(fù)數(shù)據(jù):出現(xiàn)多條相同的記錄或多條記錄代表同一實體。6管理職責(zé)數(shù)據(jù)提供方:a)數(shù)源單位需要參與數(shù)據(jù)清洗規(guī)則和錯誤處理策略的制定。b)數(shù)源單位需要參與數(shù)據(jù)轉(zhuǎn)換規(guī)則的制定。c)數(shù)源單位針對重要數(shù)據(jù)缺失的錯誤,需要憑借業(yè)務(wù)經(jīng)驗對缺失數(shù)據(jù)進(jìn)行補(bǔ)全。數(shù)據(jù)管理方:a)數(shù)據(jù)管理方需要參與數(shù)據(jù)清洗規(guī)則和錯誤處理策略的制定。b)數(shù)據(jù)管理方需要參與數(shù)據(jù)轉(zhuǎn)換規(guī)則的制定。7清洗流程資陽市數(shù)據(jù)資源中心的數(shù)據(jù)清洗加工采用ETL架構(gòu)的清洗流程,流程如附錄A所示。8具體操作8.1定義規(guī)則分析抽取目標(biāo)數(shù)據(jù)的范圍體量、類型、內(nèi)容、關(guān)系、質(zhì)量等信息,全面識別數(shù)據(jù)情況。以需求為導(dǎo)向、應(yīng)用為目標(biāo),考慮目標(biāo)數(shù)據(jù)資源特點和工作復(fù)雜程度,結(jié)合業(yè)務(wù)要求或用戶和其他相關(guān)方的需求、期望,定義切實可操作的數(shù)據(jù)清洗加工目標(biāo)及規(guī)則。8.2數(shù)據(jù)過濾數(shù)據(jù)過濾的任務(wù)是過濾那些不符合要求的數(shù)據(jù),數(shù)據(jù)過濾包括以下操作:a)將非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。b)對噪聲數(shù)據(jù)進(jìn)行刪除。c)對業(yè)務(wù)數(shù)據(jù)中不符合應(yīng)用規(guī)則的數(shù)據(jù)進(jìn)行刪除。d)過濾刪除掉的數(shù)據(jù)應(yīng)存入問題數(shù)據(jù)庫表,便于后續(xù)查證或重新使用。注:噪聲數(shù)據(jù)指存在錯誤或異常的數(shù)據(jù),這些數(shù)據(jù)對數(shù)據(jù)的分析造成了干擾。8.3數(shù)據(jù)檢核8.3.1檢核要求數(shù)據(jù)檢核應(yīng)包括以下操作:a)非空檢核:應(yīng)在字段為非空的情況下,對該字段數(shù)據(jù)進(jìn)行檢核,數(shù)據(jù)不能為空值。b)長度檢核:數(shù)據(jù)長度應(yīng)滿足轉(zhuǎn)換要求的字段長度。c)數(shù)據(jù)量檢核:過濾后的數(shù)據(jù)總量應(yīng)與原始抽取的數(shù)據(jù)總量吻合。3DB5120/T19.3—2023d)數(shù)據(jù)類型和數(shù)據(jù)值檢核:數(shù)據(jù)類型和值應(yīng)能支持后續(xù)數(shù)據(jù)轉(zhuǎn)換過程,如后續(xù)根據(jù)定義規(guī)則需要將時間字符串?dāng)?shù)據(jù)轉(zhuǎn)換成時間類型時,還需檢核時間字符串類型的數(shù)據(jù),應(yīng)符合時間格式。8.3.2檢核步驟數(shù)據(jù)檢核步驟如下:a)按檢核要求檢核數(shù)據(jù)資源是否滿足要求。b)當(dāng)不滿足檢核要求時,應(yīng)進(jìn)行數(shù)據(jù)錯誤標(biāo)識和錯誤處理。c)當(dāng)滿足檢核要求時,直接進(jìn)行數(shù)據(jù)轉(zhuǎn)換。8.4錯誤標(biāo)識8.4.1識別方法可采用統(tǒng)計學(xué)方法、數(shù)據(jù)挖掘方法、基于聚類的方法、基于距離的方法、基于分類的方法、基于關(guān)聯(lián)規(guī)則的方法、業(yè)務(wù)區(qū)分等方式分析數(shù)據(jù),從而識別出數(shù)據(jù)的錯誤類型。8.4.2標(biāo)識步驟錯誤標(biāo)識步驟如下:a)按識別方法推薦的方法,分析篩選出數(shù)據(jù)資源中存在的數(shù)據(jù)問題。b)按錯誤的類型,對數(shù)據(jù)問題進(jìn)行分類并標(biāo)識錯誤。8.5錯誤處理8.5.1由數(shù)源單位進(jìn)行錯誤處理的情況,建議數(shù)源單位在業(yè)務(wù)系統(tǒng)中更正數(shù)據(jù),并把更正后的數(shù)據(jù)更新推送到前置庫。8.5.2殘缺數(shù)據(jù)處理8.5.2.1處理策略按照字段缺失比例和字段重要性,分別制定策略:a)對重要性高、缺失率高的殘缺數(shù)據(jù),采用以下策略:1)嘗試從其他渠道取數(shù)據(jù)補(bǔ)全;2)使用其他字段通過計算獲取;3)去除該字段,并在結(jié)果中標(biāo)明。b)對重要性低、缺失率高的殘缺數(shù)據(jù),去除該字段。c)對重要性高、缺失率低的殘缺數(shù)據(jù),采用以下策略:1)通過計算進(jìn)行填充;2)通過經(jīng)驗或業(yè)務(wù)知識估計。d)對重要性低、缺失率低的殘缺數(shù)據(jù),不做處理或進(jìn)行簡單填充。注:重要性高指該數(shù)據(jù)如果殘缺了會導(dǎo)致業(yè)務(wù)中斷;缺失率按數(shù)據(jù)質(zhì)量指標(biāo)要求應(yīng)小于10%,因此大于10%可認(rèn)為是缺失率高。8.5.2.2處理方法去除字段:備份當(dāng)前數(shù)據(jù),直接刪除不需要的字段。填充缺失內(nèi)容:按以下方式填充缺失內(nèi)容:a)不同指標(biāo)的計算結(jié)果填充:通過數(shù)據(jù)項與數(shù)據(jù)項之間的邏輯聯(lián)系,采取一定的列拆分、列計算等方式得到缺失內(nèi)容,如年齡字段缺失,但具有公民身份證號,可從公民身份證號提取年齡數(shù)據(jù)。b)同一指標(biāo)的計算結(jié)果填充:采取均值、中位數(shù)、眾數(shù)等方式進(jìn)行填充,如時間序列缺失,可使4DB5120/T19.3—2023用前后的均值填充。c)重新獲?。簩θ笔矢咔曳浅V匾臄?shù)據(jù)項,應(yīng)采取重新抽取不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行關(guān)聯(lián)對比填充。d)取數(shù)補(bǔ)全:以線下收集、業(yè)務(wù)知識或經(jīng)驗推測的方式補(bǔ)全缺失值。8.5.3錯誤數(shù)據(jù)處理8.5.3.1格式內(nèi)容問題處理對格式內(nèi)容問題數(shù)據(jù),采用以下方法處理:a)全角、半角處理:通過正則表達(dá)式將全角、半角符號按照事先定義的規(guī)則進(jìn)行全角、半角符號統(tǒng)一。b)有不該存在的字符:以自動校驗結(jié)合人工方式來找出存在的問題,自動去除不需要的字符,將數(shù)據(jù)自動化統(tǒng)一或人工修正為正確字符。c)內(nèi)容與字段不匹配:詳細(xì)識別問題類型,如人工填寫錯誤、前端沒有校驗、導(dǎo)入數(shù)據(jù)時部分或全部存在列沒有對齊、數(shù)據(jù)源端業(yè)務(wù)系統(tǒng)缺陷等,不能直接刪除,應(yīng)按照清洗規(guī)則,采取加入更多數(shù)據(jù)源進(jìn)行數(shù)據(jù)關(guān)聯(lián),找到匹配的相應(yīng)字段進(jìn)行填補(bǔ)。8.5.3.2邏輯問題處理對邏輯問題數(shù)據(jù),采用以下方法處理:a)了解數(shù)據(jù)潛在的邏輯規(guī)則,采取邏輯推理法,過濾掉一些使用簡單邏輯推理即可發(fā)現(xiàn)的問題數(shù)據(jù)。b)對于不重要的、不合理的數(shù)據(jù)可直接刪除,對于重要的、不合理值應(yīng)進(jìn)行人工干預(yù)或引入更多數(shù)據(jù)源進(jìn)行關(guān)聯(lián)識別。c)通過字段間相互驗證的方法修正矛盾內(nèi)容,如根據(jù)字段的數(shù)據(jù)來源,判定哪個字段提供的信息更可靠,去除或重構(gòu)不可靠字段。d)通過分箱、聚類、回歸等方法識別離群值(異常值),按照經(jīng)驗和業(yè)務(wù)流程判斷其合理性,若合理,則保留該數(shù)值;若不合理,對重要性較高而無法重新采集的數(shù)值,按缺失數(shù)據(jù)處理,對重要性較低的數(shù)值,可直接刪除。e)對于復(fù)雜邏輯數(shù)據(jù)問題應(yīng)咨詢了解該數(shù)據(jù)的產(chǎn)生原因,按照協(xié)商的清洗加工規(guī)則進(jìn)行處理。8.5.3.3不合規(guī)問題處理對不合規(guī)問題數(shù)據(jù),采用以下方法處理:a)設(shè)定判定規(guī)則:設(shè)定強(qiáng)制合規(guī)條件,不在規(guī)則范圍內(nèi)的,強(qiáng)制設(shè)置最大值或最小值,剔除或判斷為無效字段。b)設(shè)定警告規(guī)則:不在規(guī)則范圍內(nèi)的,進(jìn)行警告及人工處理。8.5.4重復(fù)數(shù)據(jù)處理重復(fù)問題處理步驟如下:a)通過元數(shù)據(jù)血緣關(guān)系查詢到重復(fù)數(shù)據(jù)的各個來源。b)通過數(shù)據(jù)主鍵或?qū)ふ蚁嚓P(guān)信息識別重復(fù)數(shù)據(jù)的含義,不是相同含義的數(shù)據(jù)不能界定為重復(fù)數(shù)據(jù)進(jìn)行去重處理,應(yīng)分別保留。c)查詢到確定的重復(fù)數(shù)據(jù),根據(jù)權(quán)威性和應(yīng)用場合,選擇最恰當(dāng)渠道來源的數(shù)據(jù),或在不影響數(shù)據(jù)保真度和完整性的情況下進(jìn)行合并處理。8.5.5質(zhì)量報告數(shù)據(jù)檢核環(huán)節(jié)完成后應(yīng)出具質(zhì)量報告,內(nèi)容應(yīng)包含數(shù)據(jù)過濾、檢核發(fā)現(xiàn)的問題(錯誤標(biāo)識)和錯誤5DB5120/T19.3—2023處理的結(jié)果。質(zhì)量報告需推送給相關(guān)數(shù)源單位。8.6數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換應(yīng)在數(shù)據(jù)檢核通過后執(zhí)行,按以下操作執(zhí)行:a)開始前應(yīng)檢查需要轉(zhuǎn)換的數(shù)據(jù)規(guī)則和字段是否一致。b)應(yīng)實現(xiàn)對數(shù)據(jù)的格式、信息代碼、值的沖突的轉(zhuǎn)換,典型業(yè)務(wù)數(shù)據(jù)清洗規(guī)則見附錄A。c)清洗后的數(shù)據(jù)結(jié)構(gòu)應(yīng)與目標(biāo)數(shù)據(jù)庫的結(jié)構(gòu)相兼容。d)數(shù)據(jù)向目標(biāo)移動時,將數(shù)據(jù)復(fù)制到多個目標(biāo)中。e)轉(zhuǎn)換失敗應(yīng)立即停止,開始查找問題。f)長時間未轉(zhuǎn)換結(jié)束,需仔細(xì)核查數(shù)據(jù)量、規(guī)則和字段是否一致,如有問題應(yīng)立即停止。g)轉(zhuǎn)換中查找到問題,應(yīng)解決問題后再重新開始數(shù)據(jù)轉(zhuǎn)換。8.7結(jié)果檢核8.7.1檢核內(nèi)容結(jié)果檢核應(yīng)包括以下內(nèi)容:a)主鍵重復(fù):多個業(yè)務(wù)系統(tǒng)中同類數(shù)據(jù)經(jīng)過清洗后,在統(tǒng)一保存時,檢核主鍵的唯一性。b)非法代碼、非法值:檢查個別字段出現(xiàn)的異常信息,包括非法代碼、代碼與數(shù)據(jù)標(biāo)準(zhǔn)不一致、取值錯誤、格式錯誤、多余字符、亂碼等。c)數(shù)據(jù)格式:根據(jù)表中屬性值的格式檢核其準(zhǔn)確性,如時間格式、幣種格式、多余字符、亂碼。d)記錄數(shù):檢核各個系統(tǒng)相關(guān)數(shù)據(jù)之間的數(shù)據(jù)總數(shù),或數(shù)據(jù)表中每日數(shù)據(jù)量的波動。e)業(yè)務(wù)約束:應(yīng)從業(yè)務(wù)的角度考慮數(shù)據(jù)的正確性、一致性、有效性等,如建檔日期、入學(xué)日期、民族信息等。f)標(biāo)準(zhǔn)約束:對照系統(tǒng)數(shù)據(jù)應(yīng)符合的標(biāo)準(zhǔn)進(jìn)行檢核。8.7.2結(jié)果要求清洗后的結(jié)果應(yīng)滿足以下要求:a)規(guī)范性:數(shù)據(jù)的質(zhì)量及存儲標(biāo)準(zhǔn)應(yīng)統(tǒng)一,源數(shù)據(jù)應(yīng)在源頭或備份表中能找到。b)唯一性:數(shù)據(jù)在字段、記錄內(nèi)容或數(shù)據(jù)集內(nèi)不應(yīng)有重復(fù)值。c)準(zhǔn)確性:數(shù)據(jù)所指內(nèi)容對數(shù)據(jù)所指對象的反應(yīng)、表現(xiàn)應(yīng)準(zhǔn)確,數(shù)據(jù)形式對數(shù)據(jù)內(nèi)容的表述、表達(dá)應(yīng)準(zhǔn)確。d)完整性:數(shù)據(jù)集合中應(yīng)包含足夠的數(shù)據(jù)來響應(yīng)各種查詢和支持各種計算。e)一致性:數(shù)據(jù)一致性應(yīng)符合以下要求:1)同一個數(shù)據(jù)在同一時刻在不同數(shù)據(jù)庫、應(yīng)用和系統(tǒng)中應(yīng)只有一個值;2)數(shù)據(jù)字段內(nèi)數(shù)據(jù)應(yīng)與字段描述一致;3)最終結(jié)果數(shù)據(jù)的統(tǒng)計量應(yīng)與預(yù)測一致。f)時效性:不同類型的應(yīng)用對數(shù)據(jù)的時間特性有不同的要求,數(shù)據(jù)的時間特性應(yīng)滿足業(yè)務(wù)應(yīng)用的要求,數(shù)據(jù)記錄應(yīng)根據(jù)時間特性及時更新。g)穩(wěn)定性:數(shù)據(jù)來源穩(wěn)定,數(shù)據(jù)結(jié)果能支撐后續(xù)業(yè)務(wù)。8.8數(shù)據(jù)加載數(shù)據(jù)加載方式應(yīng)匹配數(shù)據(jù)抽取方式,包含全量加載、增量加載。數(shù)據(jù)加載操作應(yīng)滿足以下要求:a)存儲環(huán)境應(yīng)能支撐相應(yīng)數(shù)據(jù)。b)加載工具應(yīng)具有高效的加載性能。6DB5120/T19.3—2023c)加載策略應(yīng)考慮加載周期和數(shù)據(jù)追加策略兩方面的內(nèi)容。d)加載應(yīng)記錄日志。7DB5120/T19.3—2023典型業(yè)務(wù)數(shù)據(jù)清洗規(guī)則表清洗規(guī)則規(guī)則描述統(tǒng)一時間日期數(shù)據(jù)格式將各類日期統(tǒng)一為八位的字符日期,如YYYYMMDD,符合GB/T7408-2005。將各類時間統(tǒng)一為六位的字符時間,如hhmmss,符合GB/T7408-2005。將各類事件日期統(tǒng)一為十四位的字符時間日期,如YYYYMMDDhhmmss,符合GB/T7408-2005。統(tǒng)一分類數(shù)據(jù)取值代碼將人員的性別數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)信息代碼(0-未知的性別,1-男性,2-女性,9-未說明的性別),符合GB/T2261.1-2003。將人員的民族數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)信息代碼,符合GB/T3304-1991。將人員的戶籍地址數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為行政區(qū)劃代碼,符合GB/T2260-2007。將人員的婚姻登記情況統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)的婚姻狀況代碼(10-未婚,20-已婚,21-初婚

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論