13數(shù)據(jù)處理流程規(guī)范_第1頁
13數(shù)據(jù)處理流程規(guī)范_第2頁
13數(shù)據(jù)處理流程規(guī)范_第3頁
13數(shù)據(jù)處理流程規(guī)范_第4頁
13數(shù)據(jù)處理流程規(guī)范_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)處理流程規(guī)范 II目次TOC o 1-5 h z目次I范圍1規(guī)范性引用文件1術(shù)語、定義和縮略語1術(shù)語和定義1縮略語1數(shù)據(jù)來源與處理流程1數(shù)據(jù)來源1數(shù)據(jù)處理原則2數(shù)據(jù)處理流程2數(shù)據(jù)獲取與保存3數(shù)據(jù)預處理3數(shù)據(jù)清洗4數(shù)據(jù)核檢4數(shù)據(jù)更新4 數(shù)據(jù)處理流程規(guī)范范圍本部分按照GB/T1.1-2009給出的規(guī)則起草,提出了政務信息資源中的數(shù)據(jù)處理流程,包括數(shù)據(jù)預處理和數(shù)據(jù)清理過程。規(guī)范性引用文件下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T21063.1政務信息資源目錄體系第1部分:總體

2、框架GB/T35274-2017信息安全技術(shù)大數(shù)據(jù)服務安全能力要求術(shù)語、定義和縮略語術(shù)語和定義下列術(shù)語和定義適用于本文件。數(shù)據(jù)安全datasecurity一是數(shù)據(jù)本身的安全,主要是指采用現(xiàn)代密碼算法對數(shù)據(jù)進行主動保護,如數(shù)據(jù)保密、數(shù)據(jù)完整性、雙向強身份認證等,二是數(shù)據(jù)防護的安全,主要是采用現(xiàn)代信息存儲手段對數(shù)據(jù)進行主動防護,如通過磁盤陣列、數(shù)據(jù)備份、異地容災等手段保證數(shù)據(jù)的安全。數(shù)據(jù)預處理datapreprocessing數(shù)據(jù)預處理是指數(shù)據(jù)在處理、加工之前對數(shù)據(jù)進行的一系列操作。臟數(shù)據(jù)dirtydata臟數(shù)據(jù)是指系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi)或?qū)τ趯嶋H業(yè)務毫無意義,或是數(shù)據(jù)格式非法,以及在系統(tǒng)中

3、存在不規(guī)范的編碼和含糊的業(yè)務邏輯。數(shù)據(jù)清洗datacleaning數(shù)據(jù)清洗是指利用現(xiàn)有的數(shù)據(jù)挖掘手段和方法清洗臟數(shù)據(jù),將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求或應用要求的數(shù)據(jù)的過程??s略語下列縮略語適用于本文件。ETL:數(shù)據(jù)倉庫技術(shù)(ExtractTransformLoad)數(shù)據(jù)來源與處理流程數(shù)據(jù)來源政務信息資源中的數(shù)據(jù)是政務部門在履行職責及公眾使用政務信息的多種平臺的過程中形成或獲取的,以一定形式記錄、保存的文件、資料、圖表和數(shù)據(jù)等各類數(shù)據(jù)資源,包括政務部門直接或通過第三方依法采集的、依法授權(quán)管理的和因履行職責需要依托政務信息系統(tǒng)形成的數(shù)據(jù)資源等。數(shù)據(jù)處理原則方法一致性數(shù)據(jù)處理過程中應統(tǒng)一決策,同一數(shù)

4、據(jù)庫范圍內(nèi)工作方法、技術(shù)指標均應當統(tǒng)一,從而達成數(shù)據(jù)產(chǎn)品的一致性。數(shù)據(jù)可信性數(shù)據(jù)可信性是數(shù)據(jù)處理過程的基本原則,包括精確性、完整性、一致性、有效性、唯一性精確性:描述數(shù)據(jù)是否與其對應的客觀實體的特征相一致。完整性:描述數(shù)據(jù)是否存在缺失記錄或缺失字段。一致性:描述同一實體的同一屬性的值在不同的系統(tǒng)是否一致。有效性:描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的域值范圍內(nèi)。唯一性:描述數(shù)據(jù)是否存在重復記錄。數(shù)據(jù)可用性數(shù)據(jù)可用性包括時間性、穩(wěn)定性等。時間性:描述數(shù)據(jù)是當前數(shù)據(jù)還是歷史數(shù)據(jù)。穩(wěn)定性:描述數(shù)據(jù)是否是穩(wěn)定的,是否在其有效期內(nèi)。數(shù)據(jù)可追溯性數(shù)據(jù)可追溯性是數(shù)據(jù)處理過程中最好的依據(jù),不論數(shù)據(jù)如何處理、

5、改變,數(shù)據(jù)都可追溯數(shù)據(jù)處理流程數(shù)據(jù)處理流程如下圖所示:數(shù)據(jù)更新結(jié)束圖1數(shù)據(jù)處理流程圖數(shù)據(jù)處理流程包含從數(shù)據(jù)來源的獲取與保存、數(shù)據(jù)預處理、數(shù)據(jù)清洗、數(shù)據(jù)檢核和數(shù)據(jù)更新等幾個過程。數(shù)據(jù)獲取與保存從數(shù)據(jù)來源獲取到數(shù)據(jù),在進行數(shù)據(jù)處理前要對數(shù)據(jù)進行備份,保證數(shù)據(jù)本身的安全,此外對保密數(shù)據(jù)、防護數(shù)據(jù)進行解密處理,獲取到能夠處理的數(shù)據(jù)并保存。數(shù)據(jù)預處理數(shù)據(jù)抽取數(shù)據(jù)抽取是從數(shù)據(jù)源中抽取數(shù)據(jù)的過程。數(shù)據(jù)抽取最常用的是ETL技術(shù),具體數(shù)據(jù)抽取工具種類繁多,可根據(jù)實際業(yè)務數(shù)據(jù)的特點進行選擇。從數(shù)據(jù)庫中抽取數(shù)據(jù)一般有以下兩種方式。全量抽?。喝砍槿☆愃朴跀?shù)據(jù)鏡像或數(shù)據(jù)復制,它將數(shù)據(jù)源中的表或視圖的數(shù)據(jù)原封不動的從數(shù)

6、據(jù)庫中抽取出來。該方法主要用于在系統(tǒng)數(shù)據(jù)初始化時使用。增量抽取(更新):增量抽取是指在上次抽取完成后,對數(shù)據(jù)庫中新增或修改的數(shù)據(jù)的抽取數(shù)據(jù)過濾數(shù)據(jù)過濾要初步實現(xiàn)對數(shù)據(jù)中不符合應用規(guī)則或者無效的數(shù)據(jù)進行過濾操作,使得數(shù)據(jù)標準或代表內(nèi)容統(tǒng)一。數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換要實現(xiàn)對數(shù)據(jù)的格式、信息代碼、值的沖突進行轉(zhuǎn)換。數(shù)據(jù)加載數(shù)據(jù)加載過程進行的主要操作是插入操作和修改操作。搭建數(shù)據(jù)庫環(huán)境將干凈數(shù)據(jù)及臟數(shù)據(jù)分別插入到不同的數(shù)據(jù)表中。數(shù)據(jù)歸約數(shù)據(jù)歸約用來得到數(shù)據(jù)集的歸約表示,它小得多,但仍然接近于保持原數(shù)據(jù)的完整性,并結(jié)果與歸約前結(jié)果相同或幾乎相同,解決數(shù)據(jù)處理時數(shù)據(jù)量非常大的問題。4.6數(shù)據(jù)清洗數(shù)據(jù)清洗依據(jù)數(shù)據(jù)清洗規(guī)則將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求或應用要求的數(shù)據(jù),為數(shù)據(jù)核檢做好準備。4.7數(shù)據(jù)核檢對清洗過的數(shù)據(jù)依據(jù)相關(guān)標準或規(guī)范進行核檢,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論