![Python數(shù)據(jù)分析與可視化(微課版) 課件 ch05 數(shù)據(jù)清理案例實戰(zhàn)_第1頁](http://file4.renrendoc.com/view10/M01/0F/2D/wKhkGWXcm5qAUwGGAAEjCAD0xto741.jpg)
![Python數(shù)據(jù)分析與可視化(微課版) 課件 ch05 數(shù)據(jù)清理案例實戰(zhàn)_第2頁](http://file4.renrendoc.com/view10/M01/0F/2D/wKhkGWXcm5qAUwGGAAEjCAD0xto7412.jpg)
![Python數(shù)據(jù)分析與可視化(微課版) 課件 ch05 數(shù)據(jù)清理案例實戰(zhàn)_第3頁](http://file4.renrendoc.com/view10/M01/0F/2D/wKhkGWXcm5qAUwGGAAEjCAD0xto7413.jpg)
![Python數(shù)據(jù)分析與可視化(微課版) 課件 ch05 數(shù)據(jù)清理案例實戰(zhàn)_第4頁](http://file4.renrendoc.com/view10/M01/0F/2D/wKhkGWXcm5qAUwGGAAEjCAD0xto7414.jpg)
![Python數(shù)據(jù)分析與可視化(微課版) 課件 ch05 數(shù)據(jù)清理案例實戰(zhàn)_第5頁](http://file4.renrendoc.com/view10/M01/0F/2D/wKhkGWXcm5qAUwGGAAEjCAD0xto7415.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第5章數(shù)據(jù)清理案例實戰(zhàn)Python數(shù)據(jù)分析與可視化學習目標熟悉常見數(shù)據(jù)問題的處理方式;掌握缺失值、重復值和異常值的檢測與處理;掌握多種數(shù)據(jù)源合并的方法;學會使用數(shù)據(jù)透視方式觀測數(shù)據(jù);學會對二手房數(shù)據(jù)案例進行清洗;學會對“數(shù)據(jù)分析”崗位需求案例進行數(shù)據(jù)分析;學會對年度銷售數(shù)據(jù)案例進行數(shù)據(jù)分析。任務(wù)五:數(shù)據(jù)清理案例實戰(zhàn)5.1數(shù)據(jù)清理概述5.2案例實戰(zhàn)之成都錦江區(qū)二手房數(shù)據(jù)清理5.3案例實戰(zhàn)之數(shù)據(jù)分析崗位需求分析5.4案例實戰(zhàn)之年度銷售數(shù)據(jù)分析目錄CONTENTS
數(shù)據(jù)清理是數(shù)據(jù)預處理的一個關(guān)鍵環(huán)節(jié),在這一環(huán)節(jié)中,我們主要通過一定的檢測與處理方法,將“臟”數(shù)據(jù)清理成質(zhì)量較高的“干凈”數(shù)據(jù)。Pandas為數(shù)據(jù)清理提供了一系列方法,本章將圍繞這些數(shù)據(jù)清理方法進行詳細地講解。5.1數(shù)據(jù)清理概述
數(shù)據(jù)清理是數(shù)據(jù)預處理中關(guān)鍵的一步,其目的在于剔除原有數(shù)據(jù)中的“臟”數(shù)據(jù),提高數(shù)據(jù)的質(zhì)量,使數(shù)據(jù)具有完整性、唯一性、權(quán)威性、合法性和一致性等特點。數(shù)據(jù)清理的結(jié)果直接影響著數(shù)據(jù)分析或數(shù)據(jù)挖掘的結(jié)果。
數(shù)據(jù)清理主要解決前面介紹過的數(shù)據(jù)問題,常遇到的數(shù)據(jù)問題有3種:數(shù)據(jù)缺失、數(shù)據(jù)重復、數(shù)據(jù)異常,它們分別是由數(shù)據(jù)中存在缺失值、重復值、異常值而引起的。1.缺失值的處理方式
缺失值是指樣本數(shù)據(jù)中某個或某些屬性的值是不全的,主要是由于機械故障、人為原因?qū)е虏糠謹?shù)據(jù)未能收集。若直接使用有缺失值的數(shù)據(jù)進行分析,會降低分析結(jié)果的準確性,為此需通過合適的方式予以處理。缺失值主要有三種處理方式:刪除、填充和插補。
(1)刪除缺失值是最簡單的處理方式,這種方式通過直接刪除包含缺失值的行或列來達到目的,適用于刪除缺失值后產(chǎn)生較小偏差的樣本數(shù)據(jù),但并不是十分有效。
(2)填充缺失值是比較流行的處理方式,這種方式一般會將諸如平均數(shù)、中位數(shù)、眾數(shù)、缺失值前后的數(shù)填充至空缺位置。
(3)插補缺失值是一種相對復雜且靈活的處理方式,這種方式主要基于一定的插補算法來填充缺失值。常見的插補算法有線性插值和最鄰近插值。1.缺失值的處理方式
在Pandas中使用NaN或None代表缺失值,檢測缺失值的常用方法包括isnull()、notnull()、isna()和notna()。這四種方法均會返回一個由布爾值組成、與原對象形狀相同的新對象。isnull()和isna()方法的用法相同,它們會在檢測到缺失值的位置標記Truenotnull()和notna()方法的用法相同,它們會在檢測到缺失值的位置標記False2.重復值的處理方式
重復值是指樣本數(shù)據(jù)中某個或某些數(shù)據(jù)記錄完全相同,主要是由于人工錄入、機械故障導致部分數(shù)據(jù)重復錄入。重復值主要有兩種處理方式:刪除和保留,其中刪除重復值是比較常見的方式,其目的在于保留唯一的數(shù)據(jù)記錄。
在Pandas中使用duplicated()方法來檢測數(shù)據(jù)中的重復值。duplicated()方法檢測完數(shù)據(jù)后會返回一個由布爾值組成的Series類對象,該對象中若包含True,說明True對應(yīng)的一行數(shù)據(jù)為重復項。
需要說明的是,在分析演變規(guī)律、樣本不均衡處理、業(yè)務(wù)規(guī)則等場景中,重復值具有一定的使用價值,需做保留。3.異常值的處理方式
異常值是指樣本數(shù)據(jù)中處于特定范圍之外的個別值,這些值明顯偏離它們所屬樣本的其余觀測值,其產(chǎn)生的原因有很多,包括人為疏忽、失誤或儀器異常等。處理異常值之前,需要先辨別哪些值是“真異?!焙汀皞萎惓!?,再根據(jù)實際情況正確地處理異常值。
異常值的處理方式主要有保留、刪除和替換。保留異常值也就是對異常值不做任何處理,這種方式通常適用于“偽異?!?,即準確的數(shù)據(jù);刪除異常值和替換異常值是比較常用的方式,其中替換異常值是使用指定的值或根據(jù)算法計算的值替代檢測出的異常值。
若需要對數(shù)據(jù)進行異常值檢測,則可以使用3σ原則(又稱為拉依達原則)和箱形圖這兩種方法來檢測異常值。小結(jié)
總而言之,缺失值、重復值、異常值都有多種處理方式,具體選用哪種方式進行處理要依據(jù)具體的處理需求和樣本數(shù)據(jù)特點決定。5.2案例實戰(zhàn)之成都錦江區(qū)二手房數(shù)據(jù)清理
為了更好地理解數(shù)據(jù)清理的操作,能夠在實際運用中清洗數(shù)據(jù),本案例將結(jié)合一組關(guān)于成都錦江區(qū)二手房情況的數(shù)據(jù)(handroom.xlsx),介紹如何使用Pandas模塊對這組數(shù)據(jù)進行預處理。需完成如下操作:
(1)檢查缺失值,一旦發(fā)現(xiàn)有缺失值就將其刪除。
(2)檢查重復值,一旦發(fā)現(xiàn)有重復值就將其刪除。
(3)檢測二手房數(shù)據(jù)單價列的異常值,一旦確定是真異常值就將其刪除。5.3案例實戰(zhàn)之數(shù)據(jù)分析崗位需求分析
隨著大數(shù)據(jù)領(lǐng)域的不斷拓展,海量數(shù)據(jù)已經(jīng)全面地融入人們的社會生活,基于海量數(shù)據(jù)的分析人才逐漸成為各企業(yè)追逐的寵兒。大數(shù)據(jù)這一熱門行業(yè)衍生了眾多與數(shù)據(jù)相關(guān)的崗位,在這些崗位中數(shù)據(jù)分析崗位脫穎而出,受到業(yè)界人士的廣泛關(guān)注。為了從多個角度了解數(shù)據(jù)分析崗位的實際情況,本案例從數(shù)據(jù)分析的角度出發(fā),結(jié)合從招聘網(wǎng)站上收集的有關(guān)數(shù)據(jù)分析崗位的數(shù)據(jù),利用Pandas和Matplotlib庫處理與展現(xiàn)數(shù)據(jù)。5.3案例實戰(zhàn)之數(shù)據(jù)分析崗位需求分析需完成如下操作:(1)數(shù)據(jù)拼接,將多個文件合并成一個文件后再進行處理。(2)數(shù)據(jù)預處理相關(guān)工作,如數(shù)據(jù)選取、數(shù)據(jù)篩選和字符處理等。(3)分析不同城市“數(shù)據(jù)分析”崗位需求情況。(4)分析“數(shù)據(jù)分析”崗位的學歷要求。(5)分析不同城市“數(shù)據(jù)分析”崗位的薪資水平。5.4案例實戰(zhàn)之年度銷售數(shù)據(jù)分析
無論是企業(yè)或公司還是銷售員都應(yīng)該對產(chǎn)品銷售情況有個全面、客觀、真實的了解,通過分析以往的銷售數(shù)據(jù),總結(jié)出銷售規(guī)律,有針對性地調(diào)整銷售策略,幫助企業(yè)決策者快速精準地對銷售情況進行分析,做出實現(xiàn)銷售業(yè)績快速增長的決策。本案例將結(jié)合來自不同銷售渠道銷售的不同品牌數(shù)據(jù)(2020年銷售數(shù)據(jù).xlsx)進行分析,介紹如何使用分組聚合的方法來處理與展現(xiàn)數(shù)據(jù)。5.4案例實戰(zhàn)之年度銷售數(shù)據(jù)分析需完成如下操作:(1)統(tǒng)計月度銷售額;(2)統(tǒng)計品牌銷售額的占比;(3)統(tǒng)計各地區(qū)的月度銷售額;(4)統(tǒng)計各渠道的品牌銷量;(5)統(tǒng)計不同價格區(qū)間商品的月度銷量。本章小結(jié)
數(shù)據(jù)清理是數(shù)據(jù)分析過程中非常重要的一個環(huán)節(jié),只有擁有質(zhì)量較高的“干凈”數(shù)據(jù)才能較好的對數(shù)據(jù)進行分析及可視化。本章介紹了常見數(shù)據(jù)問題的處理方式,缺失值、重復值和異常值的檢測與處理,通過二手房數(shù)據(jù)清理案例可以學習到數(shù)據(jù)清洗的基本方法及清洗流
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年結(jié)構(gòu)化布線系統(tǒng)的檢測設(shè)備合作協(xié)議書
- 冀教版數(shù)學九年級下冊《30.3 由不共線三點的坐標確定二次函數(shù)》聽評課記錄1
- 生產(chǎn)技術(shù)合同范本(2篇)
- 甘肅省就業(yè)協(xié)議書(2篇)
- 北師大版歷史七年級下冊第19課《明清經(jīng)濟繁盛與清前期盛世輝煌》聽課評課記錄
- 人教版數(shù)學八年級下冊聽評課記錄:第16章 二次根式的乘除法(二)
- 新北師大版小學數(shù)學一年級上冊《分類》聽評課記錄
- 中圖版歷史七年級下冊第14課《明朝的對外交往與抗倭斗爭》聽課評課記錄
- 蘇科版數(shù)學九年級上冊《切線》聽評課記錄
- 統(tǒng)編版初中語文九年級下冊第十六課《驅(qū)遣我們的想象》聽評課記錄
- 《幼兒園健康》課件精1
- 報價單(報價單模板)
- 刑事案件模擬法庭劇本完整版五篇
- 2014教師事業(yè)單位工作人員年度考核登記表1
- 烏海周邊焦化企業(yè)概況
- 22S803 圓形鋼筋混凝土蓄水池
- Flash動畫設(shè)計與制作(FlashCS6中文版)中職PPT完整全套教學課件
- 2023年開心英語四年級上冊全冊練習
- Hadoop大數(shù)據(jù)開發(fā)實例教程高職PPT完整全套教學課件
- 新人教版小學數(shù)學五年級下冊教材分析課件
- 企業(yè)中層管理人員測評問題
評論
0/150
提交評論