版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
ETL數據預處理技術主講人:張宏偉任務8-2-2缺失值處理01.缺失值處理概述02.目錄缺失值判斷CONTENTS04.樣例解析03.缺失值的處理方式
在Python中,pandas使用浮點值NaN表示浮點數和非浮點數組中的缺失值,同時Python內置None值也會被當作是缺失值。在處理缺失值之前,首先要判斷缺失值是否存在,然后再對缺失值進行刪除、填充或者不處理的操作。(1)isnull()函數:用于檢查空值或缺失值的對象;如果有空值或缺失值則返回True,否則返回False。
(2)notnull()函數:用于檢查不為空值或缺失值的對象;如果有空值或缺失值則返回False,否則返回True。
通過isnull()函數和sum()函數可以獲得Series和DataFrame中缺失值的數量(1)刪除含有缺失值的記錄在數據分析中,如果數據集的樣本很大,并且在刪除含有缺失值的記錄后,不會影響分析結果的客觀性和準確性時,一般是使用dropna()函數直接將空值或缺失值的數據刪除。dropna()函數的語法格式如下:DataFrame.dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)函數中的參數說明如下:axis:指定刪除方向,當axis=0按行刪除,axis=1按列刪除,默認為0。how:取值為’all’表示這一行或列中的元素全部缺失(為NaN)才刪除這一行或列;取值為’any’表示這一行或列中只要有缺失值,就刪除這一行或列。thresh:一行或一列中至少出現了thresh個才刪除。subset:在某些列的子集中選擇出現了缺失值的列刪除,不在子集中的含有缺失值的列或行不會被刪除。inplace:篩選缺失值后,獲得的新數據是存為副本還是直接在原數據上進行修改(2)數據插補法
在數據分析中,如果數據集的樣本比較少或者由于刪除含有缺失值的記錄會影響到數據分析結果的客觀性和準確性時,就需要根據數據插補的方法來選擇填充值,然后再使用fillna()函數對空值或缺失值進行填充。fillna()函數的語法格式如下:DataFrame.fillna(axis=0,mthod=‘ffill’,limit=1,inplace=Flase)函數中的參數說明如下:axis:這個參數取1時,表示按照行來填充,取0時表示按照列來填充。默認為0,即按照列。和dropna函數的剛好相反。method:這個參數的意思是填充的方式,如果為’ffill’,則是將這個空值的前一個數據復制給這個空值;如果為‘bfill’,則是將這個空值的后一個數據復制給這個空值。如果不用這個參數,不聲明即可。limit:這個參數時限制填充的空值的個數,比如某一列有兩個空值,我這里指定只填充一個空值,另一個空值不管它。inplace:刪除缺失值后,獲得的新數據是存為副本還是直接在原數據上進行修改現有某商場的產品銷售數據如右圖所示:(1)查看缺失值(2)刪除缺失值(3)插補缺失值首先讀取數據:輸出結果如下:(1)查看缺失值,代碼如下:輸出結果如下:如圖所示,統(tǒng)計出了每一列缺失值的數量(2)刪除缺失值,代碼如下:輸出結果如下:跟刪除重復值類似,當參數值不一樣的時候,得到的結果是不同的,大家可以自行嘗試不同的參數(3)用價格列的中位數插補缺失值,代碼如下:輸出結果如下:如結
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學2024-2025學年度教學計劃
- 長沙環(huán)境保護職業(yè)技術學院《天線理論與技術》2023-2024學年第一學期期末試卷
- 云南交通運輸職業(yè)學院《工程軟件應用》2023-2024學年第一學期期末試卷
- 業(yè)務操作-房地產經紀人《業(yè)務操作》深度自測卷2
- 人教版三年級下冊數學第四單元筆算乘法同步練習(含答案)
- 四川省綿陽市綿陽中學2024-2025學年高一上學期1月選拔測試(期末)數學試題(含答案)
- 二零二五年建筑外墻保溫材料研發(fā)與市場分析合作協(xié)議3篇
- 二零二五版地產項目可持續(xù)發(fā)展策劃與管理合同3篇
- 二零二五版房屋買賣合同貸款服務協(xié)議書3篇
- 二零二五年度煤炭買賣合同書2篇
- GB/T 38914-2020車用質子交換膜燃料電池堆使用壽命測試評價方法
- 顧客滿意度評價表范文
- 細胞骨架(細胞生物學)課件
- 電磁閥培訓(精選)課件
- A彌漫大b細胞淋巴瘤護理查房
- 維保移交協(xié)議范本
- 初一上學期期末測試卷英語
- 上海沃陸變頻器VL600型變頻器說明書概要
- 2023年高考物理一輪復習:拋體運動與圓周運動(附答案解析)
- VRV空調技術要求和質量標準
- 第二講VSP地震勘探
評論
0/150
提交評論