![DB35T 2240-2024公共數(shù)據(jù)清洗技術(shù)要求_第1頁](http://file4.renrendoc.com/view14/M00/2C/2E/wKhkGWenBz-AUAJGAAB76snInRA517.jpg)
![DB35T 2240-2024公共數(shù)據(jù)清洗技術(shù)要求_第2頁](http://file4.renrendoc.com/view14/M00/2C/2E/wKhkGWenBz-AUAJGAAB76snInRA5172.jpg)
![DB35T 2240-2024公共數(shù)據(jù)清洗技術(shù)要求_第3頁](http://file4.renrendoc.com/view14/M00/2C/2E/wKhkGWenBz-AUAJGAAB76snInRA5173.jpg)
![DB35T 2240-2024公共數(shù)據(jù)清洗技術(shù)要求_第4頁](http://file4.renrendoc.com/view14/M00/2C/2E/wKhkGWenBz-AUAJGAAB76snInRA5174.jpg)
![DB35T 2240-2024公共數(shù)據(jù)清洗技術(shù)要求_第5頁](http://file4.renrendoc.com/view14/M00/2C/2E/wKhkGWenBz-AUAJGAAB76snInRA5175.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ICS01.040.35CCSL7035TechnicalrequirementsforpublicdataIDB35/T2240—2024前言 2規(guī)范性引用文件 3術(shù)語和定義 4基本原則 25過程要求 26方法要求 57安全要求 7附錄A(資料性)數(shù)據(jù)清洗的常見方法 8參考文獻 9DB35/T2240—2024本文件按照GB/T1.1—2020《標準化工作導(dǎo)則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔(dān)識別專利的責(zé)任。本文件由福建大數(shù)據(jù)一級開發(fā)有限公司提出。本文件由福建省信息化標準化技術(shù)委員會(SAFJ/TC11)歸口。本文件起草單位:福建大數(shù)據(jù)一級開發(fā)有限公司、福建省數(shù)字經(jīng)濟發(fā)展促進中心、福建省市場監(jiān)督管理局行政服務(wù)中心、福建省網(wǎng)絡(luò)與信息安全測評中心、福建省建設(shè)信息中心、福建奇比特信息科技有限公司。本文件主要起草人:李喆、陳國清、徐侃、涂平、王宇奇、鄒建紅、黃煒、石福仁、游鄂平、梁煜、張鎮(zhèn)暉、李元、傅騰宇、李海、吳春華、馬騰、陳閃閃、謝丹丹、張健文。公共數(shù)據(jù)清洗技術(shù)要求GB/T35274信息安全技術(shù)大數(shù)據(jù)服務(wù)安全能力要求GB/T36344—2018信息技術(shù)數(shù)據(jù)質(zhì)量評價公共數(shù)據(jù)資源目錄publicdata源的特征,便于公共數(shù)據(jù)資源的檢索、定位與數(shù)據(jù)集存在兩條及以上完全相同的記錄,或在某一字段內(nèi)存在多個相2DB35/T2240—20244基本原則數(shù)據(jù)在清洗過程中應(yīng)防止數(shù)據(jù)泄露、篡改或非法訪問。4.2合法性數(shù)據(jù)清洗過程和數(shù)據(jù)內(nèi)容應(yīng)符合《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個人信息保護法》等相關(guān)法律法規(guī)的要求。4.3可審計性數(shù)據(jù)清洗的全過程應(yīng)跟蹤和記錄,確保數(shù)據(jù)的來源、處理步驟、結(jié)果輸出等可追溯。5過程要求數(shù)據(jù)清洗基本流程應(yīng)包含檢測分析、確定清洗范圍、定義清洗規(guī)則、數(shù)據(jù)抽取、清洗轉(zhuǎn)換、結(jié)果核驗、數(shù)據(jù)標識和數(shù)據(jù)加載等環(huán)節(jié)(見圖1)。5.2檢測分析b)從數(shù)據(jù)量、類型、內(nèi)容、關(guān)系、數(shù)值范圍等維度進行檢測分析;c)檢測分析顆粒度達到字段級別,對數(shù)據(jù)中的每個字段、每個值進行檢測分析;e)檢測分析結(jié)果包含數(shù)據(jù)基本屬性分析、數(shù)據(jù)的分布情況、數(shù)據(jù)的相關(guān)性和趨勢、檢測時間、5.3確定清洗范圍c)將不符合業(yè)務(wù)使用目標的數(shù)據(jù)存入問題數(shù)據(jù)庫表,用于后續(xù)查證或重新使用。5.4定義清洗規(guī)則a)缺失值清洗規(guī)則:根據(jù)業(yè)務(wù)規(guī)則,對缺失數(shù)據(jù)進行填充或刪除;b)重復(fù)值清洗規(guī)則:根據(jù)唯一性約束,去除數(shù)據(jù)集的重復(fù)值;c)異常值清洗規(guī)則:根據(jù)業(yè)務(wù)邏輯和規(guī)則,對異常數(shù)據(jù)進行刪除、修正、標記;d)數(shù)據(jù)格式清洗規(guī)則:根據(jù)業(yè)務(wù)規(guī)則,5.5數(shù)據(jù)抽取5.6清洗轉(zhuǎn)換c)數(shù)據(jù)清洗轉(zhuǎn)換任務(wù)結(jié)束后,及時刪除5.7結(jié)果核驗5.7.1核驗內(nèi)容a)檢查數(shù)據(jù)集是否存在缺失值、重復(fù)值、異常值;b)檢查字段的類型與預(yù)期的數(shù)據(jù)類型是否一致,字段的長度是否符合預(yù)定的長度限制;c)檢查數(shù)據(jù)集的記錄數(shù)量或總數(shù)據(jù)量是否符合預(yù)期值;d)檢查數(shù)據(jù)是否滿足特定的業(yè)務(wù)規(guī)則,包括數(shù)據(jù)依賴關(guān)系是否正確,數(shù)據(jù)的時序性是否合理,5.7.2核驗要求d)當(dāng)數(shù)據(jù)核驗不通過時,進行數(shù)據(jù)標識。5.8數(shù)據(jù)加載b)明確數(shù)據(jù)安全加載的具體要求、規(guī)則c)通過對比源數(shù)據(jù)和目標環(huán)境中的數(shù)據(jù)來確認數(shù)據(jù)的完整性、準確性和一致性等進行數(shù)據(jù)加載d)詳細記錄加載過程中出現(xiàn)的異常狀況,包括異常類型、發(fā)生時間、影響范圍等信息;f)提供數(shù)據(jù)加載通道的冗余備份機制,防g)加載完成后,刪除數(shù)據(jù)加載通道中的緩存數(shù)據(jù),釋放系統(tǒng)資源。5.9數(shù)據(jù)標識a)對每個核驗不通過的數(shù)據(jù)進行唯一性標識;c)對標識的數(shù)據(jù)進行檢測分析,以確定a)根據(jù)業(yè)務(wù)規(guī)則,使用編程語言的庫函數(shù)或數(shù)據(jù)庫處理工具掃描數(shù)據(jù)集并標識缺失值;b)利用統(tǒng)計工具及可視化方法(如箱線圖、散點圖)對數(shù)據(jù)集的缺失數(shù)據(jù)進行統(tǒng)計和識別。a)當(dāng)數(shù)據(jù)集某個字段的缺失率超過預(yù)設(shè)的閾值,且該字段對業(yè)務(wù)分析的重要性較低時,直接刪b)通過插值、固定值、均值、中位數(shù)、眾數(shù)等方法補齊無法刪除的缺失值,常見的缺失值補全b)對比處理前后的非空值數(shù)量或缺失值比例,檢查填充后的值是a)通過編程語言的庫函數(shù)或數(shù)據(jù)庫處理工具,比較數(shù)據(jù)集的所有字段或選定的關(guān)鍵字段,識別b)利用統(tǒng)計工具計算每列(或每行)的重復(fù)數(shù)據(jù)的數(shù)量或比例,通過模糊匹配技術(shù)處理拼寫錯b)重復(fù)數(shù)據(jù)中包含不同的信息,根據(jù)業(yè)務(wù)規(guī)則和數(shù)據(jù)統(tǒng)一性約束,將信息合并成一條記錄。a)對比處理前后的重復(fù)數(shù)量或重復(fù)數(shù)據(jù)比例,計算出重復(fù)數(shù)據(jù)去除率;a)根據(jù)業(yè)務(wù)規(guī)則,識別數(shù)據(jù)中的異常值,如超出預(yù)定范圍的數(shù)值、邏輯錯誤的數(shù)據(jù)等;b)利用統(tǒng)計方法、聚類方法、密度估計方法及機器學(xué)習(xí)模型識別異常值,常見的異常值識別方b)異常值為關(guān)鍵重要信息時,根據(jù)業(yè)務(wù)規(guī)則采用固定值、均值、中位數(shù)、眾數(shù)等方法進行修正a)根據(jù)業(yè)務(wù)邏輯和規(guī)則對清洗結(jié)果進行核驗;b)對比處理前后的異常值數(shù)量,核驗所有異常值是否已被正確刪a)利用編程語言的庫函數(shù)或數(shù)據(jù)庫處理工具,將數(shù)據(jù)與元數(shù)據(jù)進行對比,識別出格式不一致的b)通過預(yù)設(shè)的數(shù)據(jù)驗證規(guī)則,如數(shù)據(jù)類型、數(shù)據(jù)單位和數(shù)據(jù)值范圍等,利用規(guī)則引擎對數(shù)據(jù)集b)利用規(guī)則引擎匹配和替換不符合要求的數(shù)據(jù),在替換過程中,新數(shù)據(jù)要符合數(shù)據(jù)規(guī)范和質(zhì)量a)與原始數(shù)據(jù)比對確認數(shù)據(jù)格式已修正;數(shù)據(jù)清洗過程應(yīng)符合GB/T35274數(shù)據(jù)清洗網(wǎng)絡(luò)安全等級保護應(yīng)符合GB/T22239的相a)記錄管理員和用戶的各類操作日志,對身份鑒別、策略管理、備份作業(yè)、恢復(fù)作業(yè)、數(shù)據(jù)庫A.1常見的缺失值補全方法缺失值的補全方法需要根據(jù)數(shù)據(jù)的性質(zhì)以及缺失值的分布情況進行評估,包括但不限于:a)均值/中位數(shù)/眾數(shù)填充:根據(jù)數(shù)據(jù)分布特性,選擇合適的統(tǒng)計量填充缺失值;e)K近鄰填充:根據(jù)數(shù)據(jù)點的相似性,使用K個最近鄰的數(shù)據(jù)點填充缺失值;A.2常見的異常值識別方法異常值的識別方法需要根據(jù)具體的數(shù)據(jù)集和業(yè)務(wù)背景來決定,包括c)百分位數(shù)法:選擇將超過某個上/下分位數(shù)閾值的數(shù)據(jù)點視為異常d)密度估計法:利用概率密度函數(shù)估):A.3常見的數(shù)據(jù)格式處理方法a)日期時間格式處理:將包含日期和時間的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的日期時間格式,如將字符串類型b)字符串處理:對數(shù)據(jù)中的字符串進行清理和處理,如去除多余空格、刪除特殊字符、轉(zhuǎn)換大d)數(shù)據(jù)單位轉(zhuǎn)換:統(tǒng)一數(shù)據(jù)中的單位,如將溫度從攝氏度轉(zhuǎn)換為華氏度,或?qū)㈤L度從厘米轉(zhuǎn)換9DB35/
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 按揭手房買賣協(xié)議書
- 灰土擠密樁施工承包合同
- 2025年南寧貨運從業(yè)資格試題答案大全
- 2025年青海貨運從業(yè)資格試題題庫
- 2025年鶴崗b2貨運資格證模擬考試
- 電工承包簡單合同(2篇)
- 2024-2025學(xué)年四年級語文上冊第二單元6天安門廣場教案1蘇教版
- 浙教版數(shù)學(xué)七年級上冊《2.1 有理數(shù)的加法》聽評課記錄
- 七年級英語上冊 Module 8 Choosing presents Unit 3 Language in use說課稿 (新版)外研版
- 2024-2025學(xué)年高中物理課時分層作業(yè)2庫侖定律含解析教科版選修3-1
- 項目負責(zé)人考試題庫含答案
- 設(shè)備安全操作培訓(xùn)
- 光伏發(fā)電項目屋面作業(yè)安全檢查表
- GB/T 7251.5-2017低壓成套開關(guān)設(shè)備和控制設(shè)備第5部分:公用電網(wǎng)電力配電成套設(shè)備
- 2023年湖南高速鐵路職業(yè)技術(shù)學(xué)院高職單招(數(shù)學(xué))試題庫含答案解析
- 中考語文非連續(xù)性文本閱讀10篇專項練習(xí)及答案
- GB/T 13088-2006飼料中鉻的測定
- 經(jīng)顱磁刺激的基礎(chǔ)知識及臨床應(yīng)用參考教學(xué)課件
- 小學(xué)語文人教四年級上冊第四單元群文閱讀“神話故事之人物形象”PPT
- 鄉(xiāng)村振興匯報課件
- 紅色記憶模板課件
評論
0/150
提交評論