預(yù)處理部分地區(qū)信息案例功能實現(xiàn)-缺失值異常值的檢查和處理_第1頁
預(yù)處理部分地區(qū)信息案例功能實現(xiàn)-缺失值異常值的檢查和處理_第2頁
預(yù)處理部分地區(qū)信息案例功能實現(xiàn)-缺失值異常值的檢查和處理_第3頁
預(yù)處理部分地區(qū)信息案例功能實現(xiàn)-缺失值異常值的檢查和處理_第4頁
預(yù)處理部分地區(qū)信息案例功能實現(xiàn)-缺失值異常值的檢查和處理_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

功能實現(xiàn)—缺失值、

異常值的檢查和處理教師:亢華愛北京信息職業(yè)技術(shù)學(xué)院商務(wù)數(shù)據(jù)分析與應(yīng)用專業(yè)教學(xué)資源庫目錄Contents異常值的檢查和處理缺失值的檢查和處理1PART缺失值的檢查和處理缺失值的檢查和處理缺失值的處理可以使用isnull()函數(shù)進行檢測,當(dāng)返回結(jié)果中有True值時,則表示數(shù)據(jù)中存在缺失數(shù)據(jù)調(diào)用isnull()函數(shù)檢測file_data_tjinfo中是否有缺失值,具體代碼如下缺失值的檢查和處理對file_data_tjinfo進行缺失數(shù)據(jù)檢測時發(fā)現(xiàn)其索引為9的一行中有True值,這表明該行中存在缺失數(shù)據(jù)對于缺失數(shù)據(jù)的處理方法主要有刪除數(shù)據(jù)、數(shù)據(jù)補齊、暫不處理三種,如果采用刪除缺失數(shù)據(jù)或暫不處理的方式,則會影響數(shù)據(jù)的完整性,因此,這里采用數(shù)據(jù)補齊的方式來處理缺失的數(shù)據(jù)。缺失值的檢查和處理數(shù)據(jù)補齊的方法有很多種,最為準(zhǔn)確的方法是進行人工填寫,但同時也是最為費時的操作,這里我們可以使用平均值作為填充數(shù)據(jù)。由于這里只有“常住人口”這列數(shù)據(jù)有缺失值,所以只需要對此列數(shù)據(jù)進行填充即可。具體實現(xiàn)代碼如下缺失值的檢查和處理缺失值的檢查和處理由于該列的數(shù)據(jù)類型為float且保留兩位小數(shù),所以這里使用格式化字符串使平均值保留了兩位小數(shù),并強轉(zhuǎn)為float類型,然后通過flllna()方法將平均值填充到缺失值所在的位置。從輸出的結(jié)果可以看出,之前的NaN值已經(jīng)被計算的平均值替代了.上述代碼計算了“常住人口”一列的平均值2PART異常值的檢查和處理異常值的檢查和處理所有的數(shù)據(jù)確保補充完整之后,便可以對它們進行異常值的檢測箱形圖基于3σ原則檢測異常指先假設(shè)一組檢測數(shù)據(jù)只含有隨機誤差,對其進行計算處理得到標(biāo)準(zhǔn)偏差,按一定概率確定一個區(qū)間,認為凡超過這個區(qū)間的誤差,就不屬于隨機誤差而是粗大誤差,含有該誤差的數(shù)據(jù)應(yīng)予以剔除一種用作顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計圖,它主要包含6個數(shù)據(jù)節(jié)點,將一組數(shù)據(jù)從大到小排列,分別計算岀它的上邊緣、上四分位數(shù)、中位數(shù)、下四分位數(shù)、下邊緣及異常值由于箱形圖表現(xiàn)異常值的方式更加直觀,所以這里使用箱形圖的方式對這兩組數(shù)據(jù)進行檢測,具體代碼如下異常值的檢查和處理運行結(jié)果如圖A所示圖A由于箱形圖表現(xiàn)異常值的方式更加直觀,所以這里使用箱形圖的方式對這兩組數(shù)據(jù)進行檢測,具體代碼如下異常值的檢查和處理運行結(jié)果如圖B所示圖B異常值的檢查和處理兩次輸出的圖表中可以看出,這兩組數(shù)據(jù)中都存在異常值。以天津地區(qū)信息為例,在GDP這列數(shù)據(jù)中有一個明顯高于其他值(大于6000)的數(shù)據(jù)。與原始的file_data_tjinfo對象進行對照,發(fā)現(xiàn)這個值是濱海新區(qū)的GDP值,由于濱海新區(qū)地域性的特點,它已經(jīng)成為北方對外開放的門戶,以及高水平的現(xiàn)代制造業(yè)和轉(zhuǎn)化基地,有著“中國經(jīng)濟的第三增長極”的美譽,所以GDP產(chǎn)值比其他區(qū)域要高出很多,所以這個值并非異常值。當(dāng)兩組數(shù)據(jù)經(jīng)過檢測和處理之后,便可以對它們進行合并操作,合并成一組完整的地區(qū)數(shù)據(jù)。由于file_data_bjinfo和file_data_tjinfo的列索引名完全相同,所以這里直接將file_data_tjinfo的數(shù)據(jù)拼接到file_data_bjinfo中即可。調(diào)用concat()函數(shù)將file_data_bjinfo和file_data_tjinfo進行縱向堆疊,并且重置索引,具體代碼如下異常值的檢查和處理從輸出的結(jié)果可以看出,兩組數(shù)據(jù)進行了合并,并且行索引也進行了重置。異常值的檢查和處理數(shù)據(jù)處理過程中,需要根據(jù)數(shù)據(jù)的特征以及實際需求進行相應(yīng)的操作,對于沒必要的操作則應(yīng)該省去。至此,數(shù)據(jù)已經(jīng)經(jīng)過了預(yù)處理,可以將其進行存儲以便后期的數(shù)據(jù)挖掘與分析。參考文獻[

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論