數(shù)據(jù)清洗方法20161020_第1頁(yè)
數(shù)據(jù)清洗方法20161020_第2頁(yè)
數(shù)據(jù)清洗方法20161020_第3頁(yè)
數(shù)據(jù)清洗方法20161020_第4頁(yè)
數(shù)據(jù)清洗方法20161020_第5頁(yè)
已閱讀5頁(yè),還剩20頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、目 錄一、數(shù)據(jù)清洗工作流程一、數(shù)據(jù)清洗工作流程二、數(shù)據(jù)清洗內(nèi)容二、數(shù)據(jù)清洗內(nèi)容三、數(shù)據(jù)清洗規(guī)則三、數(shù)據(jù)清洗規(guī)則四、數(shù)據(jù)清洗策略四、數(shù)據(jù)清洗策略五、證件號(hào)碼清洗報(bào)告五、證件號(hào)碼清洗報(bào)告一、數(shù)據(jù)清洗工作流程 (一)(一)必錄項(xiàng)及重要指標(biāo)項(xiàng)空缺必錄項(xiàng)及重要指標(biāo)項(xiàng)空缺 (二)指標(biāo)值異常(二)指標(biāo)值異常 (三)指標(biāo)值之間邏輯關(guān)系異常(三)指標(biāo)值之間邏輯關(guān)系異常 (四)業(yè)務(wù)邏輯關(guān)系異常(四)業(yè)務(wù)邏輯關(guān)系異常 (五)貧困戶、貧困人口重復(fù)(五)貧困戶、貧困人口重復(fù)二、數(shù)據(jù)清洗內(nèi)容 (一)必錄項(xiàng)及重要指標(biāo)項(xiàng)空缺(一)必錄項(xiàng)及重要指標(biāo)項(xiàng)空缺 1. 1.貧困戶識(shí)別標(biāo)準(zhǔn)為空貧困戶識(shí)別標(biāo)準(zhǔn)為空 2. 2.貧困戶屬性為空

2、貧困戶屬性為空 3. 3.主要致貧原因?yàn)榭罩饕仑氃驗(yàn)榭?4. 4.脫貧狀態(tài)標(biāo)識(shí)為空脫貧狀態(tài)標(biāo)識(shí)為空 5. 5.行政區(qū)劃為空行政區(qū)劃為空 6. 6.證件號(hào)碼為空證件號(hào)碼為空三、數(shù)據(jù)清洗規(guī)則 (一)必錄項(xiàng)及重要指標(biāo)項(xiàng)空缺(一)必錄項(xiàng)及重要指標(biāo)項(xiàng)空缺 7. 7.文化程度為空文化程度為空 8. 8.健康狀況為空健康狀況為空 9. 9.勞動(dòng)技能為空勞動(dòng)技能為空 10. 10.務(wù)工狀況為空務(wù)工狀況為空 11. 11.在校生情況為空在校生情況為空 三、數(shù)據(jù)清洗規(guī)則 (二)指標(biāo)值異常(二)指標(biāo)值異常 1. 1.證件號(hào)碼不符合校驗(yàn)規(guī)則證件號(hào)碼不符合校驗(yàn)規(guī)則 2. 2.其他致貧原因超過兩項(xiàng)其他致貧原因超過兩項(xiàng)

3、 3. 3.出生日期與身份證號(hào)中的出生日期不符出生日期與身份證號(hào)中的出生日期不符 三、數(shù)據(jù)清洗規(guī)則 (二)指標(biāo)值異常(二)指標(biāo)值異常 4. 4.務(wù)工時(shí)間不符合指標(biāo)采集規(guī)范務(wù)工時(shí)間不符合指標(biāo)采集規(guī)范 5. 5.人均純收入為人均純收入為0 0或超或超5 5位數(shù)位數(shù) 6. 6.與村主干路距離超過與村主干路距離超過5050公里公里 三、數(shù)據(jù)清洗規(guī)則 (三)指標(biāo)值之間邏輯關(guān)系異常(三)指標(biāo)值之間邏輯關(guān)系異常 1. 1.務(wù)工狀況為務(wù)工狀況為“非務(wù)工非務(wù)工”,務(wù)工時(shí)間不為,務(wù)工時(shí)間不為0 0 2. 2.貧困戶無務(wù)工人員,卻有工資性收入貧困戶無務(wù)工人員,卻有工資性收入 3. 3.貧困人口喪勞,有外出務(wù)工情況貧

4、困人口喪勞,有外出務(wù)工情況 三、數(shù)據(jù)清洗規(guī)則 (三)指標(biāo)值之間邏輯關(guān)系異常(三)指標(biāo)值之間邏輯關(guān)系異常 4. 4.年收入邏輯關(guān)系異常年收入邏輯關(guān)系異常 5. 5.人均純收入邏輯關(guān)系異常人均純收入邏輯關(guān)系異常 6. 6.低保貧困戶無低保金低保貧困戶無低保金 三、數(shù)據(jù)清洗規(guī)則 (三)指標(biāo)值之間邏輯關(guān)系異常(三)指標(biāo)值之間邏輯關(guān)系異常 7. 7. “ “與戶主關(guān)系與戶主關(guān)系”和和“性別性別”不符不符 8. 8.貧困戶貧困戶“家庭人數(shù)家庭人數(shù)”與實(shí)際人口數(shù)不符與實(shí)際人口數(shù)不符 9. 9.貧困戶存在多個(gè)戶主貧困戶存在多個(gè)戶主 10. 10. 殘疾人無殘疾證殘疾人無殘疾證 三、數(shù)據(jù)清洗規(guī)則 (四)業(yè)務(wù)邏輯

5、關(guān)系異常(四)業(yè)務(wù)邏輯關(guān)系異常 1. 1.貧困戶家庭無在校生,主要致貧原因?yàn)樨毨艏彝o在校生,主要致貧原因?yàn)椤耙驅(qū)W因?qū)W” 2. 2.貧困戶家庭無殘疾人,主要致貧原因?yàn)樨毨艏彝o殘疾人,主要致貧原因?yàn)椤耙驓堃驓垺?3. 3.貧困戶家庭成員健康狀況全部為貧困戶家庭成員健康狀況全部為“健康健康”, 主要致貧原因?yàn)橹饕仑氃驗(yàn)椤耙虿∫虿 ?。三、?shù)據(jù)清洗規(guī)則 (四)業(yè)務(wù)邏輯關(guān)系異常(四)業(yè)務(wù)邏輯關(guān)系異常 4. 4.返貧戶在上一年度貧困戶屬性非返貧戶在上一年度貧困戶屬性非“已脫貧已脫貧” 5. 5.貧困戶空掛貧困戶空掛 7. 7.脫貧戶人均純收入低于國(guó)家貧困標(biāo)準(zhǔn)脫貧戶人均純收入低于國(guó)家貧困標(biāo)準(zhǔn) 8.

6、 8.年齡在年齡在16-6016-60周歲的健康人口勞動(dòng)能力為周歲的健康人口勞動(dòng)能力為“喪勞喪勞” 9. 9.五保戶(含五保貧困戶、五保農(nóng)戶)存在年齡在五保戶(含五保貧困戶、五保農(nóng)戶)存在年齡在16-6016-60周歲的勞動(dòng)力周歲的勞動(dòng)力 三、數(shù)據(jù)清洗規(guī)則 (五)貧困戶、貧困人口重復(fù)(五)貧困戶、貧困人口重復(fù) (1 1)姓名不一致,如:王思妍,王恩妍)姓名不一致,如:王思妍,王恩妍 (2 2)性別不一致)性別不一致 (3 3)文化程度不一致)文化程度不一致 (4 4) 三、數(shù)據(jù)清洗規(guī)則 (五)貧困戶、貧困人口重復(fù)(五)貧困戶、貧困人口重復(fù) (5 5)多省交界處,戶籍地混亂)多省交界處,戶籍地混

7、亂 三、數(shù)據(jù)清洗規(guī)則 (6 6)僅)僅“識(shí)別標(biāo)準(zhǔn)識(shí)別標(biāo)準(zhǔn)”不同不同 (7 7)僅)僅“家庭人員數(shù)量家庭人員數(shù)量”不同不同 (8 8)家庭成員互為戶主)家庭成員互為戶主 (9 9)拆戶分戶情況拆戶分戶情況 (1010)嫁娶、改嫁,戶口遷移情況)嫁娶、改嫁,戶口遷移情況三、數(shù)據(jù)清洗規(guī)則 (一)后臺(tái)批量處理(一)后臺(tái)批量處理 1. 1.指標(biāo)值含有空字符指標(biāo)值含有空字符 2. 2.指標(biāo)值含有特殊字符指標(biāo)值含有特殊字符 3. 3.非指標(biāo)體系代碼選項(xiàng)非指標(biāo)體系代碼選項(xiàng) 4. 4.指標(biāo)值間存在邏輯關(guān)系,指標(biāo)值間存在邏輯關(guān)系, 如錯(cuò)誤出生日期可從正確身份證中提取如錯(cuò)誤出生日期可從正確身份證中提取 并做更新處理

8、并做更新處理四、數(shù)據(jù)清洗策略 (二)前臺(tái)核實(shí)修改(二)前臺(tái)核實(shí)修改 1. 1.提取待清洗數(shù)據(jù)逐級(jí)下發(fā)提取待清洗數(shù)據(jù)逐級(jí)下發(fā) 2. 2.基層扶貧部門核實(shí)修改基層扶貧部門核實(shí)修改 (三)前臺(tái)采集補(bǔ)錄(三)前臺(tái)采集補(bǔ)錄 1. 1.將應(yīng)填未填項(xiàng)逐級(jí)下發(fā)將應(yīng)填未填項(xiàng)逐級(jí)下發(fā) 2. 2.基層扶貧部門采集錄入基層扶貧部門采集錄入四、數(shù)據(jù)清洗策略 (一)清洗內(nèi)容(一)清洗內(nèi)容 1. 1.證件號(hào)碼重復(fù)證件號(hào)碼重復(fù) 2. 2.證件號(hào)碼有誤證件號(hào)碼有誤 3. 3.證件類型值異常證件類型值異常 4. 4.證件類型與證件號(hào)碼不符證件類型與證件號(hào)碼不符五、證件號(hào)碼清洗報(bào)告 (二)清洗規(guī)則(二)清洗規(guī)則 1. 1.證件號(hào)碼

9、重復(fù)證件號(hào)碼重復(fù) 2. 2.證件號(hào)碼包含空字符證件號(hào)碼包含空字符 3. 3.證件號(hào)碼位數(shù)非證件號(hào)碼位數(shù)非1515、1818、2020位位 4. 18 4. 18位身份證是否符合校驗(yàn)規(guī)則位身份證是否符合校驗(yàn)規(guī)則 5. 20 5. 20位殘疾證是否符合校驗(yàn)位及殘疾類型、等級(jí)規(guī)則位殘疾證是否符合校驗(yàn)位及殘疾類型、等級(jí)規(guī)則 6. 6.證件類型為空或非指標(biāo)體系代碼項(xiàng)證件類型為空或非指標(biāo)體系代碼項(xiàng) 7. 7.證件類型與證件號(hào)碼不符證件類型與證件號(hào)碼不符五、證件號(hào)碼清洗報(bào)告 (五)清洗策略(五)清洗策略 1. 1.證件號(hào)碼清洗證件號(hào)碼清洗 (1 1)證件號(hào)碼重復(fù)的,提取問題數(shù)據(jù)并提供修改建議)證件號(hào)碼重復(fù)的

10、,提取問題數(shù)據(jù)并提供修改建議,逐級(jí)下發(fā),由基層扶貧部門核實(shí)后在前臺(tái)修改,逐級(jí)下發(fā),由基層扶貧部門核實(shí)后在前臺(tái)修改 (2 2)證件號(hào)碼未采集的(空值),將問題數(shù)據(jù)逐級(jí)下)證件號(hào)碼未采集的(空值),將問題數(shù)據(jù)逐級(jí)下發(fā),由基層扶貧部門進(jìn)行前臺(tái)采集補(bǔ)錄發(fā),由基層扶貧部門進(jìn)行前臺(tái)采集補(bǔ)錄 (3 3)證件號(hào)碼包含空字符的,首先從后臺(tái)批量剔除空)證件號(hào)碼包含空字符的,首先從后臺(tái)批量剔除空字符,然后再進(jìn)行一輪數(shù)據(jù)清洗處理字符,然后再進(jìn)行一輪數(shù)據(jù)清洗處理 五、證件號(hào)碼清洗報(bào)告 (五)清洗策略(五)清洗策略 1. 1.證件號(hào)碼清洗證件號(hào)碼清洗 (4 4)非)非1515、1818、2020位的證件號(hào)碼,除中國(guó)人民解

11、放軍軍位的證件號(hào)碼,除中國(guó)人民解放軍軍官證以外,其他證件類型的證件號(hào)碼,提取問題數(shù)據(jù)逐級(jí)官證以外,其他證件類型的證件號(hào)碼,提取問題數(shù)據(jù)逐級(jí)下發(fā),前臺(tái)核實(shí)修改下發(fā),前臺(tái)核實(shí)修改 (5 5)1515位證件號(hào)碼,需升級(jí)為位證件號(hào)碼,需升級(jí)為1818位,將問題數(shù)據(jù)逐級(jí)下位,將問題數(shù)據(jù)逐級(jí)下發(fā),前臺(tái)采集補(bǔ)錄發(fā),前臺(tái)采集補(bǔ)錄 五、證件號(hào)碼清洗報(bào)告 (五)清洗策略(五)清洗策略 1. 1.證件號(hào)碼清洗證件號(hào)碼清洗 (6 6)對(duì)于證件號(hào)碼為)對(duì)于證件號(hào)碼為1818、2020位的錯(cuò)誤數(shù)據(jù),證件號(hào)碼中位的錯(cuò)誤數(shù)據(jù),證件號(hào)碼中第第1818位校驗(yàn)碼應(yīng)為位校驗(yàn)碼應(yīng)為“X”X”,但原采集錄入為,但原采集錄入為“、全角、全

12、角、* *、”等字符的,可通過后臺(tái)批量處理,統(tǒng)一替換為等字符的,可通過后臺(tái)批量處理,統(tǒng)一替換為英文半角大寫英文半角大寫X X;其他情況需提取問題數(shù)據(jù)逐級(jí)下發(fā),由;其他情況需提取問題數(shù)據(jù)逐級(jí)下發(fā),由基層扶貧部門核實(shí)后在前臺(tái)修改基層扶貧部門核實(shí)后在前臺(tái)修改五、證件號(hào)碼清洗報(bào)告 (五)清洗策略(五)清洗策略 2. 2.證件類型清洗證件類型清洗 (1 1)證件類型為空的,如果證件號(hào)碼符合身份證和殘疾)證件類型為空的,如果證件號(hào)碼符合身份證和殘疾人證校驗(yàn)規(guī)則,可以通過后臺(tái)批量處理;否則逐級(jí)下發(fā)問人證校驗(yàn)規(guī)則,可以通過后臺(tái)批量處理;否則逐級(jí)下發(fā)問題數(shù)據(jù),通過前臺(tái)采集補(bǔ)錄題數(shù)據(jù),通過前臺(tái)采集補(bǔ)錄 (2 2)

13、證件類型非指標(biāo)體系代碼項(xiàng)的數(shù)據(jù),如指標(biāo)值記錄)證件類型非指標(biāo)體系代碼項(xiàng)的數(shù)據(jù),如指標(biāo)值記錄為為“1 1”的數(shù)據(jù),且證件類型確應(yīng)為的數(shù)據(jù),且證件類型確應(yīng)為“居民身份證(戶口居民身份證(戶口簿)簿)”,通過后臺(tái)批量處理,統(tǒng)一將證件類型修改為,通過后臺(tái)批量處理,統(tǒng)一將證件類型修改為“01”01”五、證件號(hào)碼清洗報(bào)告 (五)清洗策略(五)清洗策略 3. 3.證件類型與證件號(hào)碼不符證件類型與證件號(hào)碼不符 (1 1)已通過身份證規(guī)則校驗(yàn)的)已通過身份證規(guī)則校驗(yàn)的1818位證件號(hào)碼,若證件類位證件號(hào)碼,若證件類型為型為“殘疾人證殘疾人證” ” ,且健康狀況為,且健康狀況為“殘疾殘疾” ” ,屬殘疾人,屬殘疾人無殘疾證范疇,與殘聯(lián)進(jìn)行比對(duì)后更新。其他情況,統(tǒng)一無殘疾證范疇,與殘聯(lián)進(jìn)行比對(duì)后更新。其他情況,統(tǒng)一批量修改為批量修改為“居民身份證(戶口簿)居民身份證(戶口簿)” (2 2)已通過殘疾證規(guī)則校驗(yàn)的)已通過殘疾證規(guī)則校驗(yàn)的2020位證件號(hào)碼,證件類型位證件號(hào)碼,證件類型批量修改為批量修改為“殘疾人證殘疾人證”,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論