版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、目 錄一、數(shù)據(jù)清洗工作流程一、數(shù)據(jù)清洗工作流程二、數(shù)據(jù)清洗內(nèi)容二、數(shù)據(jù)清洗內(nèi)容三、數(shù)據(jù)清洗規(guī)則三、數(shù)據(jù)清洗規(guī)則四、數(shù)據(jù)清洗策略四、數(shù)據(jù)清洗策略五、證件號(hào)碼清洗報(bào)告五、證件號(hào)碼清洗報(bào)告一、數(shù)據(jù)清洗工作流程 (一)(一)必錄項(xiàng)及重要指標(biāo)項(xiàng)空缺必錄項(xiàng)及重要指標(biāo)項(xiàng)空缺 (二)指標(biāo)值異常(二)指標(biāo)值異常 (三)指標(biāo)值之間邏輯關(guān)系異常(三)指標(biāo)值之間邏輯關(guān)系異常 (四)業(yè)務(wù)邏輯關(guān)系異常(四)業(yè)務(wù)邏輯關(guān)系異常 (五)貧困戶、貧困人口重復(fù)(五)貧困戶、貧困人口重復(fù)二、數(shù)據(jù)清洗內(nèi)容 (一)必錄項(xiàng)及重要指標(biāo)項(xiàng)空缺(一)必錄項(xiàng)及重要指標(biāo)項(xiàng)空缺 1. 1.貧困戶識(shí)別標(biāo)準(zhǔn)為空貧困戶識(shí)別標(biāo)準(zhǔn)為空 2. 2.貧困戶屬性為空
2、貧困戶屬性為空 3. 3.主要致貧原因?yàn)榭罩饕仑氃驗(yàn)榭?4. 4.脫貧狀態(tài)標(biāo)識(shí)為空脫貧狀態(tài)標(biāo)識(shí)為空 5. 5.行政區(qū)劃為空行政區(qū)劃為空 6. 6.證件號(hào)碼為空證件號(hào)碼為空三、數(shù)據(jù)清洗規(guī)則 (一)必錄項(xiàng)及重要指標(biāo)項(xiàng)空缺(一)必錄項(xiàng)及重要指標(biāo)項(xiàng)空缺 7. 7.文化程度為空文化程度為空 8. 8.健康狀況為空健康狀況為空 9. 9.勞動(dòng)技能為空勞動(dòng)技能為空 10. 10.務(wù)工狀況為空務(wù)工狀況為空 11. 11.在校生情況為空在校生情況為空 三、數(shù)據(jù)清洗規(guī)則 (二)指標(biāo)值異常(二)指標(biāo)值異常 1. 1.證件號(hào)碼不符合校驗(yàn)規(guī)則證件號(hào)碼不符合校驗(yàn)規(guī)則 2. 2.其他致貧原因超過兩項(xiàng)其他致貧原因超過兩項(xiàng)
3、 3. 3.出生日期與身份證號(hào)中的出生日期不符出生日期與身份證號(hào)中的出生日期不符 三、數(shù)據(jù)清洗規(guī)則 (二)指標(biāo)值異常(二)指標(biāo)值異常 4. 4.務(wù)工時(shí)間不符合指標(biāo)采集規(guī)范務(wù)工時(shí)間不符合指標(biāo)采集規(guī)范 5. 5.人均純收入為人均純收入為0 0或超或超5 5位數(shù)位數(shù) 6. 6.與村主干路距離超過與村主干路距離超過5050公里公里 三、數(shù)據(jù)清洗規(guī)則 (三)指標(biāo)值之間邏輯關(guān)系異常(三)指標(biāo)值之間邏輯關(guān)系異常 1. 1.務(wù)工狀況為務(wù)工狀況為“非務(wù)工非務(wù)工”,務(wù)工時(shí)間不為,務(wù)工時(shí)間不為0 0 2. 2.貧困戶無務(wù)工人員,卻有工資性收入貧困戶無務(wù)工人員,卻有工資性收入 3. 3.貧困人口喪勞,有外出務(wù)工情況貧
4、困人口喪勞,有外出務(wù)工情況 三、數(shù)據(jù)清洗規(guī)則 (三)指標(biāo)值之間邏輯關(guān)系異常(三)指標(biāo)值之間邏輯關(guān)系異常 4. 4.年收入邏輯關(guān)系異常年收入邏輯關(guān)系異常 5. 5.人均純收入邏輯關(guān)系異常人均純收入邏輯關(guān)系異常 6. 6.低保貧困戶無低保金低保貧困戶無低保金 三、數(shù)據(jù)清洗規(guī)則 (三)指標(biāo)值之間邏輯關(guān)系異常(三)指標(biāo)值之間邏輯關(guān)系異常 7. 7. “ “與戶主關(guān)系與戶主關(guān)系”和和“性別性別”不符不符 8. 8.貧困戶貧困戶“家庭人數(shù)家庭人數(shù)”與實(shí)際人口數(shù)不符與實(shí)際人口數(shù)不符 9. 9.貧困戶存在多個(gè)戶主貧困戶存在多個(gè)戶主 10. 10. 殘疾人無殘疾證殘疾人無殘疾證 三、數(shù)據(jù)清洗規(guī)則 (四)業(yè)務(wù)邏輯
5、關(guān)系異常(四)業(yè)務(wù)邏輯關(guān)系異常 1. 1.貧困戶家庭無在校生,主要致貧原因?yàn)樨毨艏彝o在校生,主要致貧原因?yàn)椤耙驅(qū)W因?qū)W” 2. 2.貧困戶家庭無殘疾人,主要致貧原因?yàn)樨毨艏彝o殘疾人,主要致貧原因?yàn)椤耙驓堃驓垺?3. 3.貧困戶家庭成員健康狀況全部為貧困戶家庭成員健康狀況全部為“健康健康”, 主要致貧原因?yàn)橹饕仑氃驗(yàn)椤耙虿∫虿 ?。三、?shù)據(jù)清洗規(guī)則 (四)業(yè)務(wù)邏輯關(guān)系異常(四)業(yè)務(wù)邏輯關(guān)系異常 4. 4.返貧戶在上一年度貧困戶屬性非返貧戶在上一年度貧困戶屬性非“已脫貧已脫貧” 5. 5.貧困戶空掛貧困戶空掛 7. 7.脫貧戶人均純收入低于國(guó)家貧困標(biāo)準(zhǔn)脫貧戶人均純收入低于國(guó)家貧困標(biāo)準(zhǔn) 8.
6、 8.年齡在年齡在16-6016-60周歲的健康人口勞動(dòng)能力為周歲的健康人口勞動(dòng)能力為“喪勞喪勞” 9. 9.五保戶(含五保貧困戶、五保農(nóng)戶)存在年齡在五保戶(含五保貧困戶、五保農(nóng)戶)存在年齡在16-6016-60周歲的勞動(dòng)力周歲的勞動(dòng)力 三、數(shù)據(jù)清洗規(guī)則 (五)貧困戶、貧困人口重復(fù)(五)貧困戶、貧困人口重復(fù) (1 1)姓名不一致,如:王思妍,王恩妍)姓名不一致,如:王思妍,王恩妍 (2 2)性別不一致)性別不一致 (3 3)文化程度不一致)文化程度不一致 (4 4) 三、數(shù)據(jù)清洗規(guī)則 (五)貧困戶、貧困人口重復(fù)(五)貧困戶、貧困人口重復(fù) (5 5)多省交界處,戶籍地混亂)多省交界處,戶籍地混
7、亂 三、數(shù)據(jù)清洗規(guī)則 (6 6)僅)僅“識(shí)別標(biāo)準(zhǔn)識(shí)別標(biāo)準(zhǔn)”不同不同 (7 7)僅)僅“家庭人員數(shù)量家庭人員數(shù)量”不同不同 (8 8)家庭成員互為戶主)家庭成員互為戶主 (9 9)拆戶分戶情況拆戶分戶情況 (1010)嫁娶、改嫁,戶口遷移情況)嫁娶、改嫁,戶口遷移情況三、數(shù)據(jù)清洗規(guī)則 (一)后臺(tái)批量處理(一)后臺(tái)批量處理 1. 1.指標(biāo)值含有空字符指標(biāo)值含有空字符 2. 2.指標(biāo)值含有特殊字符指標(biāo)值含有特殊字符 3. 3.非指標(biāo)體系代碼選項(xiàng)非指標(biāo)體系代碼選項(xiàng) 4. 4.指標(biāo)值間存在邏輯關(guān)系,指標(biāo)值間存在邏輯關(guān)系, 如錯(cuò)誤出生日期可從正確身份證中提取如錯(cuò)誤出生日期可從正確身份證中提取 并做更新處理
8、并做更新處理四、數(shù)據(jù)清洗策略 (二)前臺(tái)核實(shí)修改(二)前臺(tái)核實(shí)修改 1. 1.提取待清洗數(shù)據(jù)逐級(jí)下發(fā)提取待清洗數(shù)據(jù)逐級(jí)下發(fā) 2. 2.基層扶貧部門核實(shí)修改基層扶貧部門核實(shí)修改 (三)前臺(tái)采集補(bǔ)錄(三)前臺(tái)采集補(bǔ)錄 1. 1.將應(yīng)填未填項(xiàng)逐級(jí)下發(fā)將應(yīng)填未填項(xiàng)逐級(jí)下發(fā) 2. 2.基層扶貧部門采集錄入基層扶貧部門采集錄入四、數(shù)據(jù)清洗策略 (一)清洗內(nèi)容(一)清洗內(nèi)容 1. 1.證件號(hào)碼重復(fù)證件號(hào)碼重復(fù) 2. 2.證件號(hào)碼有誤證件號(hào)碼有誤 3. 3.證件類型值異常證件類型值異常 4. 4.證件類型與證件號(hào)碼不符證件類型與證件號(hào)碼不符五、證件號(hào)碼清洗報(bào)告 (二)清洗規(guī)則(二)清洗規(guī)則 1. 1.證件號(hào)碼
9、重復(fù)證件號(hào)碼重復(fù) 2. 2.證件號(hào)碼包含空字符證件號(hào)碼包含空字符 3. 3.證件號(hào)碼位數(shù)非證件號(hào)碼位數(shù)非1515、1818、2020位位 4. 18 4. 18位身份證是否符合校驗(yàn)規(guī)則位身份證是否符合校驗(yàn)規(guī)則 5. 20 5. 20位殘疾證是否符合校驗(yàn)位及殘疾類型、等級(jí)規(guī)則位殘疾證是否符合校驗(yàn)位及殘疾類型、等級(jí)規(guī)則 6. 6.證件類型為空或非指標(biāo)體系代碼項(xiàng)證件類型為空或非指標(biāo)體系代碼項(xiàng) 7. 7.證件類型與證件號(hào)碼不符證件類型與證件號(hào)碼不符五、證件號(hào)碼清洗報(bào)告 (五)清洗策略(五)清洗策略 1. 1.證件號(hào)碼清洗證件號(hào)碼清洗 (1 1)證件號(hào)碼重復(fù)的,提取問題數(shù)據(jù)并提供修改建議)證件號(hào)碼重復(fù)的
10、,提取問題數(shù)據(jù)并提供修改建議,逐級(jí)下發(fā),由基層扶貧部門核實(shí)后在前臺(tái)修改,逐級(jí)下發(fā),由基層扶貧部門核實(shí)后在前臺(tái)修改 (2 2)證件號(hào)碼未采集的(空值),將問題數(shù)據(jù)逐級(jí)下)證件號(hào)碼未采集的(空值),將問題數(shù)據(jù)逐級(jí)下發(fā),由基層扶貧部門進(jìn)行前臺(tái)采集補(bǔ)錄發(fā),由基層扶貧部門進(jìn)行前臺(tái)采集補(bǔ)錄 (3 3)證件號(hào)碼包含空字符的,首先從后臺(tái)批量剔除空)證件號(hào)碼包含空字符的,首先從后臺(tái)批量剔除空字符,然后再進(jìn)行一輪數(shù)據(jù)清洗處理字符,然后再進(jìn)行一輪數(shù)據(jù)清洗處理 五、證件號(hào)碼清洗報(bào)告 (五)清洗策略(五)清洗策略 1. 1.證件號(hào)碼清洗證件號(hào)碼清洗 (4 4)非)非1515、1818、2020位的證件號(hào)碼,除中國(guó)人民解
11、放軍軍位的證件號(hào)碼,除中國(guó)人民解放軍軍官證以外,其他證件類型的證件號(hào)碼,提取問題數(shù)據(jù)逐級(jí)官證以外,其他證件類型的證件號(hào)碼,提取問題數(shù)據(jù)逐級(jí)下發(fā),前臺(tái)核實(shí)修改下發(fā),前臺(tái)核實(shí)修改 (5 5)1515位證件號(hào)碼,需升級(jí)為位證件號(hào)碼,需升級(jí)為1818位,將問題數(shù)據(jù)逐級(jí)下位,將問題數(shù)據(jù)逐級(jí)下發(fā),前臺(tái)采集補(bǔ)錄發(fā),前臺(tái)采集補(bǔ)錄 五、證件號(hào)碼清洗報(bào)告 (五)清洗策略(五)清洗策略 1. 1.證件號(hào)碼清洗證件號(hào)碼清洗 (6 6)對(duì)于證件號(hào)碼為)對(duì)于證件號(hào)碼為1818、2020位的錯(cuò)誤數(shù)據(jù),證件號(hào)碼中位的錯(cuò)誤數(shù)據(jù),證件號(hào)碼中第第1818位校驗(yàn)碼應(yīng)為位校驗(yàn)碼應(yīng)為“X”X”,但原采集錄入為,但原采集錄入為“、全角、全
12、角、* *、”等字符的,可通過后臺(tái)批量處理,統(tǒng)一替換為等字符的,可通過后臺(tái)批量處理,統(tǒng)一替換為英文半角大寫英文半角大寫X X;其他情況需提取問題數(shù)據(jù)逐級(jí)下發(fā),由;其他情況需提取問題數(shù)據(jù)逐級(jí)下發(fā),由基層扶貧部門核實(shí)后在前臺(tái)修改基層扶貧部門核實(shí)后在前臺(tái)修改五、證件號(hào)碼清洗報(bào)告 (五)清洗策略(五)清洗策略 2. 2.證件類型清洗證件類型清洗 (1 1)證件類型為空的,如果證件號(hào)碼符合身份證和殘疾)證件類型為空的,如果證件號(hào)碼符合身份證和殘疾人證校驗(yàn)規(guī)則,可以通過后臺(tái)批量處理;否則逐級(jí)下發(fā)問人證校驗(yàn)規(guī)則,可以通過后臺(tái)批量處理;否則逐級(jí)下發(fā)問題數(shù)據(jù),通過前臺(tái)采集補(bǔ)錄題數(shù)據(jù),通過前臺(tái)采集補(bǔ)錄 (2 2)
13、證件類型非指標(biāo)體系代碼項(xiàng)的數(shù)據(jù),如指標(biāo)值記錄)證件類型非指標(biāo)體系代碼項(xiàng)的數(shù)據(jù),如指標(biāo)值記錄為為“1 1”的數(shù)據(jù),且證件類型確應(yīng)為的數(shù)據(jù),且證件類型確應(yīng)為“居民身份證(戶口居民身份證(戶口簿)簿)”,通過后臺(tái)批量處理,統(tǒng)一將證件類型修改為,通過后臺(tái)批量處理,統(tǒng)一將證件類型修改為“01”01”五、證件號(hào)碼清洗報(bào)告 (五)清洗策略(五)清洗策略 3. 3.證件類型與證件號(hào)碼不符證件類型與證件號(hào)碼不符 (1 1)已通過身份證規(guī)則校驗(yàn)的)已通過身份證規(guī)則校驗(yàn)的1818位證件號(hào)碼,若證件類位證件號(hào)碼,若證件類型為型為“殘疾人證殘疾人證” ” ,且健康狀況為,且健康狀況為“殘疾殘疾” ” ,屬殘疾人,屬殘疾人無殘疾證范疇,與殘聯(lián)進(jìn)行比對(duì)后更新。其他情況,統(tǒng)一無殘疾證范疇,與殘聯(lián)進(jìn)行比對(duì)后更新。其他情況,統(tǒng)一批量修改為批量修改為“居民身份證(戶口簿)居民身份證(戶口簿)” (2 2)已通過殘疾證規(guī)則校驗(yàn)的)已通過殘疾證規(guī)則校驗(yàn)的2020位證件號(hào)碼,證件類型位證件號(hào)碼,證件類型批量修改為批量修改為“殘疾人證殘疾人證”,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 壓縮感知在自適應(yīng)信號(hào)處理中的應(yīng)用-洞察分析
- 《歐美建筑特點(diǎn)》課件
- 寫給對(duì)象的道歉信(15篇)
- 數(shù)字政府法律框架構(gòu)建-洞察分析
- 外語學(xué)校品牌建設(shè)策略-洞察分析
- 性別視角下的家庭敘事研究-洞察分析
- 天然氣液化技術(shù)發(fā)展趨勢(shì)-洞察分析
- 《電源系統(tǒng)培訓(xùn)》課件
- 企業(yè)文化在客戶服務(wù)中的作用
- 辦公自動(dòng)化與小設(shè)備的智能設(shè)計(jì)與實(shí)施案例分享
- PS平面設(shè)計(jì)練習(xí)題庫(kù)(附參考答案)
- 混合云架構(gòu)整體設(shè)計(jì)及應(yīng)用場(chǎng)景介紹
- 六年級(jí)上冊(cè)分?jǐn)?shù)乘除混合運(yùn)算300題帶答案
- 北京市西城區(qū)2022-2023學(xué)年六年級(jí)上學(xué)期語文期末試卷(含答案)
- 小王子-英文原版
- 墊付協(xié)議合同范例
- 2024年高一語文期末復(fù)習(xí)訓(xùn)練-非連續(xù)性文本閱讀
- 統(tǒng)編版2024-2025學(xué)年語文五年級(jí)上冊(cè)日積月累專項(xiàng)訓(xùn)練練習(xí)題
- 2024年新人教版三年級(jí)數(shù)學(xué)上冊(cè)《第8單元第8課時(shí) 分?jǐn)?shù)的初步認(rèn)識(shí)復(fù)習(xí)》教學(xué)課件
- 2024-2030年中國(guó)混凝土管樁行業(yè)發(fā)展分析及發(fā)展前景與趨勢(shì)預(yù)測(cè)研究報(bào)告
- 全區(qū)國(guó)有企業(yè)資產(chǎn)全面清查工作方案
評(píng)論
0/150
提交評(píng)論