![缺失值清洗處理方法_第1頁](http://file4.renrendoc.com/view/b9c7af564c5c8d441e1e8273c174dff1/b9c7af564c5c8d441e1e8273c174dff11.gif)
![缺失值清洗處理方法_第2頁](http://file4.renrendoc.com/view/b9c7af564c5c8d441e1e8273c174dff1/b9c7af564c5c8d441e1e8273c174dff12.gif)
![缺失值清洗處理方法_第3頁](http://file4.renrendoc.com/view/b9c7af564c5c8d441e1e8273c174dff1/b9c7af564c5c8d441e1e8273c174dff13.gif)
![缺失值清洗處理方法_第4頁](http://file4.renrendoc.com/view/b9c7af564c5c8d441e1e8273c174dff1/b9c7af564c5c8d441e1e8273c174dff14.gif)
![缺失值清洗處理方法_第5頁](http://file4.renrendoc.com/view/b9c7af564c5c8d441e1e8273c174dff1/b9c7af564c5c8d441e1e8273c174dff15.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)采集與處理課程教學(xué)團隊數(shù)據(jù)采集與處理缺失值清洗數(shù)據(jù)缺失的處理方法
插補賦給每一個缺失數(shù)據(jù)一些替代值,可以得到“完全數(shù)據(jù)集”后,再使用完全數(shù)據(jù)統(tǒng)計分析方法,來進行分析數(shù)據(jù)和統(tǒng)計推斷。80年代以后,人們開始重視數(shù)據(jù)缺失問題,著力研究插補方法。迄今為止,提出并發(fā)展了30多種的插補方法。在抽樣調(diào)查中應(yīng)用的主要是單一插補和多重插補。插補概念插補(1)允許應(yīng)用標(biāo)準(zhǔn)的完全數(shù)據(jù)分析方法(2)能融合數(shù)據(jù)收集者的知識(3)數(shù)據(jù)缺失使數(shù)據(jù)結(jié)構(gòu)復(fù)雜化,需要使用更復(fù)雜的統(tǒng)計工具進行分析,而插補可以緩解這一困難(4)能夠防止刪除不完全記錄造成的信息丟失(5)在一些情形下,插補能夠減少無回答偏倚特別注意:插補的目的并不是預(yù)測單個缺失值,而是預(yù)測缺失數(shù)據(jù)所服從的分布插補作用單一插補法與多重插補多重插補法:1977年由Rubin首先提出,經(jīng)過后人不斷的完善和綜合已形成一個比較系統(tǒng)的理論,該法有以下優(yōu)點:①多重插補過程產(chǎn)生多個中間插補值,可以利用插補值之間的變異反映無回答的不確定性,包括無回答原因已知情況下抽樣的變異性和無回答原因不確定造成的變異性。②多重插補通過模擬缺失數(shù)據(jù)的分布,較好地保持變量之間的關(guān)系。③多重插補能給出衡量估計結(jié)果不確定性的大量信息,單一插補給出的估計結(jié)果則較為簡單。單一插補法:單一插補指對每個缺失值,從其預(yù)測分布中取一個值填充缺失值后,使用標(biāo)準(zhǔn)的完全數(shù)據(jù)分析進行處理。單一插補的方法很多,總的說來可以歸為兩類:隨機插補和確定性插補。單一插補法與多重插補對比單一插補的優(yōu)點:1、標(biāo)準(zhǔn)的完全數(shù)據(jù)分析方法2、對公眾應(yīng)用數(shù)據(jù)庫程序運行一次。多重插補的優(yōu)點:1、表現(xiàn)為數(shù)據(jù)分布,隨機抽取進行插補,增加了估計的有效性。2、在多個模型下通過隨機抽取進行插補,簡單地應(yīng)用完全數(shù)據(jù)方法,可以對無回答的不同模型下推斷的敏感性進行直接研究單一插補法與多重插補對比多重插補缺點:一、生成多重插補比單一插補需要更多工作二、貯存多重插補數(shù)據(jù)集需要更多存儲空間三、分析多重插補數(shù)據(jù)集比單一插補需要花費更多精力。單一插補缺點:缺點一低估估計量的方差,效果差。不處理不處理:不處理就是直接在包含空值的數(shù)據(jù)上進行數(shù)據(jù)挖掘。貝葉斯網(wǎng)絡(luò)僅適合于對領(lǐng)域知識具有一定了解的情況,至少對變量間的依賴關(guān)系較清楚的情況。否則直接從數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)的結(jié)構(gòu)不但復(fù)雜性較高,網(wǎng)絡(luò)維護代價昂貴,而且它的估計參數(shù)較多,為系統(tǒng)帶來了高方差,影響了它的預(yù)測精度。人工神經(jīng)網(wǎng)絡(luò)可以有效的對付空值,但人工神經(jīng)網(wǎng)絡(luò)在這方面的研究還不是非常成熟。數(shù)據(jù)缺失的處理方法數(shù)據(jù)插補通常是一件非常繁瑣的工作,很多常用的統(tǒng)計軟件以及專門為其編寫的軟件都可以完成。從中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高精度磨削液H-1項目投資可行性研究分析報告
- 2025年度餐飲連鎖銷售經(jīng)理合同
- 養(yǎng)殖棚出租合同范本
- 代理記賬返稅合同范本
- 公司請律師合同范例
- 加盟店合作合同范本
- 2025年度工業(yè)污染源整治環(huán)境整治施工合同
- 憑證附件采購合同范本
- 冠名授權(quán)合同范本
- 臨時混凝土采購合同范例
- CBCC中國建筑色卡色
- 建設(shè)工程項目法律風(fēng)險防控培訓(xùn)稿PPT講座
- “不作為、慢作為、亂作為”自查自糾報告范文(三篇)
- GB/T 4745-2012紡織品防水性能的檢測和評價沾水法
- GB/T 26752-2020聚丙烯腈基碳纖維
- 軟件需求調(diào)研表-修改版
- 山東省中考物理總復(fù)習(xí) 八上 第1講 機械運動
- 北京理工大學(xué)應(yīng)用光學(xué)課件(大全)李林
- 國家綜合性消防救援隊伍消防員管理規(guī)定
- 河南省三門峽市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會明細
- 五年級上冊數(shù)學(xué)習(xí)題課件 簡便計算專項整理 蘇教版 共21張
評論
0/150
提交評論