數(shù)據(jù)缺失處理方法

上傳人：小*** IP屬地：天津上傳時間：2022-08-08 格式：DOC 頁數(shù)：4 大?。?2.50KB 積分：15 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、關(guān)于數(shù)據(jù)缺失問題的總結(jié)造成數(shù)據(jù)缺失的原因在各種實用的數(shù)據(jù)庫中，屬性值缺失的情況經(jīng)常發(fā)全甚至是不可避免的。因此，在大多數(shù)情況下，信息系統(tǒng)是不完備的，或者說存在某種程度的不完備。造成數(shù)據(jù)缺失的原因是多方面的，主要可能有以下幾種：1）有些信息暫時無法獲取。例如在醫(yī)療數(shù)據(jù)庫中，并非所有病人的所有臨床檢驗結(jié)果都能在給定的時間內(nèi)得到，就致使一部分屬性值空缺出來。又如在申請表數(shù)據(jù)中，對某些問題的反映依賴于對其他問題的回答。2）有些信息是被遺漏的?？赡苁且驗檩斎霑r認(rèn)為不重要、忘記填寫了或?qū)?shù)據(jù)理解錯誤而遺漏，也可能是由于數(shù)據(jù)采集設(shè)備的故障、存儲介質(zhì)的故障、傳輸媒體的故障、一些人為因素等原因而丟失了。3）有些

2、對象的某個或某些屬性是不可用的。也就是說，對于這個對象來說，該屬性值是不存在的，如一個未婚者的配偶姓名、一個兒童的固定收入狀況等。4）有些信息（被認(rèn)為）是不重要的。如一個屬性的取值與給定語境是無關(guān)的，或訓(xùn)練數(shù)據(jù)庫的設(shè)計者并不在乎某個屬性的取值（稱為dont-carevalue）37。5）獲取這些信息的代價太大。6）系統(tǒng)實時性能要求較高，即要求得到這些信息前迅速做出判斷或決策。2.2.2數(shù)據(jù)缺失機制在對缺失數(shù)據(jù)進行處理前，了解數(shù)據(jù)缺失的機制和形式是十分必要的。將數(shù)據(jù)集中不含缺失值的變量（屬性）稱為完全變量，數(shù)據(jù)集中含有缺失值的變量稱為不完全變量，Little和Rubin定義了以下三種不同的數(shù)據(jù)缺

3、失機制38：1）完全隨機缺失（MissingCompletelyatRandom，MCAR）。數(shù)據(jù)的缺失與不完全變量以及完全變量都是無關(guān)的。2）隨機缺失（MissingatRandom，MAR）。數(shù)據(jù)的缺失僅僅依賴于完全變量。3）非隨機、不可忽略缺失（NotMissingatRandom,NMAR，ornonignorable）。不完全變量中數(shù)據(jù)的缺失依賴于不完全變量本身，這種缺失是不可忽略的。數(shù)據(jù)缺失的影響：數(shù)據(jù)缺失在許多研究領(lǐng)域都是一個復(fù)雜的問題。對數(shù)據(jù)挖掘來說，缺失值的存在，可能造成以下影響：而且，數(shù)據(jù)挖掘算法本身更致力于避免數(shù)據(jù)過分適合所建的模型，這一特性使得它難以通過自身的算法去很好

4、地處理不完整數(shù)據(jù)。因此，空缺的數(shù)據(jù)需要通過專門的方法進行推導(dǎo)、填充等，以減少數(shù)據(jù)挖掘算法與實際應(yīng)用之間的差距空值語義對于某個對象的屬性值未知的情況，我們稱它在該屬性的取值為空值。空值的來源有許多種,因此現(xiàn)實世界中的空值語義也比較復(fù)雜。總的說來，可以把空值分成以下三類：不存在型空值。即無法填入的值，或稱對象在該屬性上無法取值，如一個未婚者的配偶姓名等。2）存在型空值。即對象在該屬性上取值是存在的，但暫時無法知道。一旦對象在該屬性上的實際值被確知以后，人們就可以用相應(yīng)的實際值來取代原來的空值，使信息趨于完全。存在型空值是不確定性的一種表征，該類空值的實際值在當(dāng)前是未知的。但它有確定性的一面，諸如它

5、的實際值確實存在，總是落在一個人們可以確定的區(qū)間內(nèi)。一般情況下，空值是指存在型空值。3）占位型空值。即無法確定是不存在型空值還是存在型空值，這要隨著時間的推移才能夠清楚，是最不確定的一類。這種空值除填充空位外，并不代表任何其他信息。處理不完備數(shù)據(jù)集的方法主要有以下三大類：（一）刪除元組也就是將存在遺漏信息屬性值的對象（元組，記錄）刪除，從而得到一個完備的信息表。這種方法簡單易行，在對象有多個屬性缺失值、被刪除的含缺失值的對象與信息表中的數(shù)據(jù)量相比非常小的情況下是非常有效的，類標(biāo)號（假設(shè)是分類任務(wù)）缺少時通常使用。然而，這種方法卻有很大的局限性。它是以減少歷史數(shù)據(jù)來換取信息的完備，會造成資源的大

6、量浪費，丟棄了大量隱藏在這些對象中的信息。在信息表中本來包含的對象很少的情況下，刪除少量對象就足以嚴(yán)重影響到信息表信息的客觀性和結(jié)果的正確性；當(dāng)每個屬性空值的百分比變化很大時，它的性能非常差。因此，當(dāng)遺漏數(shù)據(jù)所占比例較大，特別當(dāng)遺漏數(shù)據(jù)非隨機分布時，這種方法可能導(dǎo)致數(shù)據(jù)發(fā)生偏離，從而引出錯誤的結(jié)論。（二）數(shù)據(jù)補齊這類方法是用一定的值去填充空值，從而使信息表完備化。通?；诮y(tǒng)計學(xué)原理，根據(jù)決策表中其余對象取值的分布情況來對一個空值進行填充，譬如用其余屬性的平均值來進行補充等。數(shù)據(jù)挖掘中常用的有以下幾種補齊方法TOC o 1-5 h z人工填寫（）由于最了解數(shù)據(jù)的還是用戶自己，因此這個方法產(chǎn)生數(shù)據(jù)

7、偏離最小，可能是填充效果最好的一種。然而一般來說，該方法很費時，當(dāng)數(shù)據(jù)規(guī)模很大、空值很多的時候，該方法是不可行的。特殊值填充（）將空值作為一種特殊的屬性值來處理，它不同于其他的任何屬性值。如所有的空值都用“”填充。這樣將形成另一個有趣的概念，可能導(dǎo)致嚴(yán)重的數(shù)據(jù)偏離，一般不推薦使用。平均值填充（）將信息表中的屬性分為數(shù)值屬性和非數(shù)值屬性來分別進行處理。如果空值是數(shù)值型的，就根據(jù)該屬性在其他所有對象的取值的平均值來填充該缺失的屬性值；如果空值是非數(shù)值型的，就根據(jù)統(tǒng)計學(xué)中的眾數(shù)原理，用該屬性在其他所有對象的取值次數(shù)最多的值（即出現(xiàn)頻率最高的值）來補齊該缺失的屬性值。另外有一種與其相似的方法叫條件平均

8、值填充法（）a在該方法中，缺失屬性值的補齊同樣是靠該屬性在其他對象中的取值求平均得到，但不同的是用于求平均的值并不是從信息表所有對象中取，而是從與該對象具有相同決策屬性值的對象中取得。這兩種數(shù)據(jù)的補齊方法，其基本的出發(fā)點都是一樣的，以最大概率可能的取值來補充缺失的屬性值，只是在具體方法上有一點不同。與其他方法相比，它是用現(xiàn)存數(shù)據(jù)的多數(shù)信息來推測缺失值。熱卡填充（，或就近補齊）對于一個包含空值的對象，熱卡填充法在完整數(shù)據(jù)中找到一個與它最相似的對象，然后用這個相似對象的值來進行填充。不同的問題可能會選用不同的標(biāo)準(zhǔn)來對相似進行判定。例如我們需要插補被調(diào)查者的吸煙情況，有三種情況，吸煙，不吸煙以及以前

9、吸煙現(xiàn)在不吸煙，（假設(shè)一個人是否吸煙與年齡，性別有關(guān)），我們可以根據(jù)年齡段和性別進行填充，假設(shè)缺失數(shù)據(jù)的記錄是女性，在18-這2個4年齡段，這時所有回答了吸煙情況的所有18-歲2的4女性成了我們的信息供者集合，我們可以從其中選擇一個供者，隨機選取或者按著某個順序選取。該方法概念上很簡單，且利用了數(shù)據(jù)間的關(guān)系來進行空值估計；這個方法的缺點在于難以定義相似標(biāo)準(zhǔn)，主觀因素較多使用所有可能的值填充（）這種方法是用空缺屬性值的所有可能的屬性取值來填充，能夠得到較好的補齊效果。但是，當(dāng)數(shù)據(jù)量很大或者遺漏的屬性值較多時，其計算的代價很大，可能的測試方案很多。另有一種方法，填補遺漏屬性值的原則是一樣的，不同的

10、只是從決策相同的對象中嘗試所有的屬性值的可能情況，而不是根據(jù)信息表中所有對象進行嘗試，這樣能夠在一定程度上減小原方法的代價。組合完整化方法（）這種方法是用空缺屬性值的所有可能的屬性取值來試，并從最終屬性的約簡結(jié)果中選擇最好的一個作為填補的屬性值。這是以約簡為目的的數(shù)據(jù)補齊方法，能夠得到好的約簡結(jié)果；但是，當(dāng)數(shù)據(jù)量很大或者遺漏的屬性值較多時，其計算的代價很大。另一種稱為條件組合完整化方法（），填補遺漏屬性值的原則是一樣的，不同的只是從決策相同的對象中嘗試所有的屬性值的可能情況，而不是根據(jù)信息表中所有對象進行嘗試。條件組合完整化方法能夠在一定程度上減小組合完整化方法的代價。在信息表包含不完整數(shù)據(jù)較

11、多的情況下，可能的測試方案將巨增。回歸（）基于完整的數(shù)據(jù)集，建立回歸方程（模型）。對于包含空值的對象，將已知屬性值代入方程來估計未知屬性值，以此估計值來進行填充。當(dāng)變量不是線性相關(guān)或預(yù)測變量高度相關(guān)時會導(dǎo)致有偏差的估計。期望值最大化方法（，）算法是一種在不完全數(shù)據(jù)情況下計算極大似然估計或者后驗分布的迭代算法。在每一迭代循環(huán)過程中交替執(zhí)行兩個步驟：步（期望步），在給定完全數(shù)據(jù)和前一次迭代所得到的參數(shù)估計的情況下計算完全數(shù)據(jù)對應(yīng)的對數(shù)似然函數(shù)的條件期望；步（，極大化步），用極大化對數(shù)似然函數(shù)以確定參數(shù)的值，并用于下步的迭代。算法在步和步之間不斷迭代直至收斂，即兩次迭代之間的參數(shù)變化小于一個預(yù)先給定

12、的閾值時結(jié)束。該方法可能會陷入局部極值，收斂速度也不是很快，并且計算很復(fù)雜。多重填補（I）多重填補方法分為三個步驟：為每個空值產(chǎn)生一套可能的填補值，這些值反映了無響應(yīng)模型的不確定性；每個值都被用來填補數(shù)據(jù)集中的缺失值，產(chǎn)生若干個完整數(shù)據(jù)集合。每個填補數(shù)據(jù)集合都用針對完整數(shù)據(jù)集的統(tǒng)計方法進行統(tǒng)計分析。對來自各個填補數(shù)據(jù)集的結(jié)果進行綜合，產(chǎn)生最終的統(tǒng)計推斷，這一推斷考慮到了由于數(shù)據(jù)填補而產(chǎn)生的不確定性。該方法將空缺值視為隨機樣本，這樣計算出來的統(tǒng)計推斷可能受到空缺值的不確定性的影響。該方法的計算也很復(fù)雜。方法通過尋找屬性間的關(guān)系來對遺失值填充45。在它尋找之間具有最大相關(guān)性的兩個屬性，其中沒有遺失

13、值的一個稱為代理屬性，另一個稱為原始屬性，用代理屬性決定原始屬性中的遺失值。這種基于規(guī)則歸納的方法只能處理基數(shù)較小的名詞型屬性。補齊處理只是將未知值補以我們的主觀估計值，不一定完全符合客觀事實，在對不完備信息進行補齊處理的同時，我們或多或少地改變了原始的信息系統(tǒng)。而且，對空值不正確的填充往往將新的噪聲引入數(shù)據(jù)中，使挖掘任務(wù)產(chǎn)生錯誤的結(jié)果。因此，在許多情況下，我們還是希望在保持原始信息不發(fā)生變化的前提下對信息系統(tǒng)進行處理。這就是第三種方法：（三）不處理直接在包含空值的數(shù)據(jù)上進行數(shù)據(jù)挖掘。這類方法包括貝葉斯網(wǎng)絡(luò)48和人工神經(jīng)網(wǎng)絡(luò)4等9。貝葉斯網(wǎng)絡(luò)是用來表示變量間連接概率的圖形模式，它提供了一種自然

14、的表示因果信息的方法，用來發(fā)現(xiàn)數(shù)據(jù)間的潛在關(guān)系。在這個網(wǎng)絡(luò)中，用節(jié)點表示變量，有向邊表示變量間的依賴關(guān)系。貝葉斯網(wǎng)絡(luò)僅適合于對領(lǐng)域知識具有一定了解的情況，至少對變量間的依賴關(guān)系較清楚的情況。否則直接從數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)的結(jié)構(gòu)不但復(fù)雜性較高（隨著變量的增加，指數(shù)級增加），網(wǎng)絡(luò)維護代價昂貴，而且它的估計參數(shù)較多，為系統(tǒng)帶來了高方差，影響了它的預(yù)測精度。當(dāng)在任何一個對象中的缺失值數(shù)量很大時，存在指數(shù)爆炸的危險。人工神經(jīng)網(wǎng)絡(luò)可以有效的對付空值，但人工神經(jīng)網(wǎng)絡(luò)在這方面的研究還有待進一步深入展開。人工神經(jīng)網(wǎng)絡(luò)方法在數(shù)據(jù)挖掘應(yīng)用中的局限性，本文在2.1節(jié).中5已經(jīng)進行了闡述，這里就不再介紹了。總結(jié)：就幾種基于統(tǒng)計的方法而言，刪除元組法和平均值法差于、和；回歸是比較好的一種方法，但仍比不上和；缺少包含的不確定成分。值得注意的是，這些方法直接處理的是模型參數(shù)的估計而不是空缺值預(yù)測本身。譬如，你可以刪除包含空值的對象用完整的數(shù)據(jù)集來進行訓(xùn)

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)缺失處理方法

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)缺失處理方法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔