版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
商務(wù)數(shù)據(jù)分析缺失值清洗12354格式內(nèi)容清洗邏輯錯(cuò)誤清洗重復(fù)數(shù)據(jù)清洗無(wú)價(jià)值數(shù)據(jù)清洗數(shù)據(jù)清洗數(shù)據(jù)清洗的含義
數(shù)據(jù)清洗是對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程,包括對(duì)數(shù)據(jù)表中多余或重復(fù)的數(shù)據(jù)進(jìn)行篩選清除,將缺失或不完整的數(shù)據(jù)補(bǔ)充完整,將內(nèi)容、格式錯(cuò)誤的數(shù)據(jù)進(jìn)行糾正或刪除等操作行為,其目的在于提升數(shù)據(jù)的質(zhì)量,確保數(shù)據(jù)的準(zhǔn)確性、完整性和一致性。缺失值清洗數(shù)據(jù)集中某個(gè)或某些屬性的值不完整,即稱為數(shù)據(jù)缺失。缺失值產(chǎn)生的原因機(jī)械原因?qū)е碌臄?shù)據(jù)缺失,如數(shù)據(jù)存儲(chǔ)的失敗,存儲(chǔ)器損壞,機(jī)械故障導(dǎo)致某段時(shí)間數(shù)據(jù)未能收集。由于人為原因(人的主觀失誤或有意隱瞞)造成的數(shù)據(jù)缺失,比如,在市場(chǎng)調(diào)查中被訪人拒絕透露相關(guān)問(wèn)題的答案,或者回答的問(wèn)題是無(wú)效的;再比如由于數(shù)據(jù)錄入人員的失誤導(dǎo)致漏錄、錯(cuò)錄或刪除數(shù)據(jù)等等。數(shù)據(jù)清洗數(shù)據(jù)清洗缺失值常見(jiàn)的表現(xiàn)形式是空值或錯(cuò)誤標(biāo)識(shí)符。空值就是原始數(shù)據(jù)表格中出現(xiàn)空白單元格,錯(cuò)誤標(biāo)識(shí)符即Excel中常見(jiàn)的錯(cuò)誤提示如#####表示單元格中的數(shù)據(jù)超出了該單元格的寬度,或者單元格中的日期時(shí)間公式產(chǎn)生了一個(gè)負(fù)值;#DIV/0!表示進(jìn)行公式運(yùn)算時(shí),除數(shù)使用了數(shù)值零、指向了空單元格或包含零值單元格的引用等等。缺失值表現(xiàn)形式缺失值處理方法對(duì)于數(shù)據(jù)表中的缺失值,我們可以利用EXCEL的定位功能,查找到數(shù)據(jù)表中的空值和錯(cuò)誤標(biāo)識(shí)符,在明確具體原因的基礎(chǔ)上,利用excel中的相關(guān)命令和操作進(jìn)行對(duì)應(yīng)處理。格式內(nèi)容清洗常見(jiàn)問(wèn)題時(shí)間、日期、數(shù)值、半全角等顯示格式不一致內(nèi)容中有不該存在的字符,如在頭部、中間、尾部存在空格數(shù)據(jù)清洗內(nèi)容與該字段應(yīng)有的內(nèi)容不符:比如姓名寫(xiě)成了性別、身份證號(hào)寫(xiě)成手機(jī)號(hào)等問(wèn)題針對(duì)以上問(wèn)題,需要我們根據(jù)具體情況進(jìn)行對(duì)應(yīng)的格式轉(zhuǎn)換、數(shù)據(jù)修改或字符刪除等處理。由于系統(tǒng)導(dǎo)出渠道或人為輸入習(xí)慣的原因,整合而來(lái)的原始數(shù)據(jù)往往不能做到格式統(tǒng)一,內(nèi)容上也容易出現(xiàn)空格,所以在數(shù)據(jù)分析之前需要先進(jìn)行數(shù)據(jù)格式內(nèi)容的清洗操作。邏輯錯(cuò)誤清洗違反邏輯規(guī)則而產(chǎn)生的錯(cuò)誤,一般使用邏輯推理就可以發(fā)現(xiàn)問(wèn)題。常見(jiàn)問(wèn)題數(shù)據(jù)不合理。如,年齡200歲,個(gè)人年收入1000萬(wàn),籍貫:漢族。數(shù)據(jù)不符合規(guī)則。例如某產(chǎn)品限購(gòu)2件,客戶的購(gòu)買數(shù)量出現(xiàn)3。數(shù)據(jù)清洗數(shù)據(jù)自相矛盾。例如身份證號(hào)是1101031980XXXXXXXX,但年齡顯示為18歲。針對(duì)以上問(wèn)題,可以利用Excel的條件格式功能將錯(cuò)誤數(shù)據(jù)進(jìn)行標(biāo)注并做出對(duì)應(yīng)處理。重復(fù)數(shù)據(jù)清洗重復(fù)數(shù)據(jù)即數(shù)據(jù)被重復(fù)、多次記錄。重復(fù)數(shù)據(jù)會(huì)影響數(shù)據(jù)處理結(jié)果的正確性,從而導(dǎo)致數(shù)據(jù)分析出現(xiàn)偏差,因此需要將其刪除。處理方法利用excel識(shí)別處理重復(fù)數(shù)據(jù)的方法有很多種,如利用常見(jiàn)的菜單刪除法:選中數(shù)據(jù)區(qū)域,在數(shù)據(jù)選項(xiàng)卡下的數(shù)據(jù)工具功能組中,點(diǎn)擊刪除重復(fù)值,即可進(jìn)行刪除。除此之外,還可以利用Excel自帶的排序功能、高級(jí)篩選功能、條件格式功能、Countif
函數(shù)、數(shù)據(jù)透視表法等等。數(shù)據(jù)清洗無(wú)價(jià)值
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 石河子大學(xué)《園林植物栽培養(yǎng)護(hù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 大學(xué)生個(gè)人實(shí)習(xí)總結(jié)集合3篇
- 石河子大學(xué)《飼料學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《律師實(shí)務(wù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《程序設(shè)計(jì)》2022-2023學(xué)年期末試卷
- 沈陽(yáng)理工大學(xué)《模擬電路基礎(chǔ)》2021-2022學(xué)年期末試卷
- 沈陽(yáng)理工大學(xué)《機(jī)械設(shè)計(jì)》2022-2023學(xué)年第一學(xué)期期末試卷
- 銀屑病的辯證施護(hù)
- 沈陽(yáng)理工大學(xué)《復(fù)變函數(shù)與積分變換》2021-2022學(xué)年第一學(xué)期期末試卷
- 骨灰安放合同
- 文書(shū)檔案歸檔及整理規(guī)范PPT幻燈片課件
- MBTI十六種人格優(yōu)缺點(diǎn)總結(jié)
- 稀土發(fā)光材料及其發(fā)光原理.
- 小學(xué)生勞動(dòng)教育課程 《西紅柿炒雞蛋》公開(kāi)課課件
- CP5611連接技術(shù)手冊(cè)(DOC)
- 教師屆滿考核表填寫(xiě)模板
- Procast傾斜鑄造模擬分析案例
- 人教精通版小學(xué)四年級(jí)英語(yǔ)上冊(cè)全冊(cè)教案
- 音視頻技術(shù)方案
- 實(shí)驗(yàn)二.蛋白質(zhì)的兩性反應(yīng)與等電點(diǎn)測(cè)定
- 燃?xì)庹羝仩t拆除施工方案完整
評(píng)論
0/150
提交評(píng)論