SPSS學(xué)習(xí)系列09.缺失值處理_第1頁
SPSS學(xué)習(xí)系列09.缺失值處理_第2頁
SPSS學(xué)習(xí)系列09.缺失值處理_第3頁
SPSS學(xué)習(xí)系列09.缺失值處理_第4頁
SPSS學(xué)習(xí)系列09.缺失值處理_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

09.缺失值處理空缺值(用“?”表示)和輸入錯(cuò)誤值,都屬于缺失值范疇。輸入錯(cuò)誤值需要做“數(shù)據(jù)檢驗(yàn)”來發(fā)現(xiàn):⑴【分析】【描述統(tǒng)計(jì)】【描述】和【頻率】(2)【圖形】一一【舊對(duì)話框】一一【箱圖】觀察極小、極大值、頻率、異常值等來判斷。例如,性別“男二1,女=2”,若極大值出現(xiàn)3,則是輸入錯(cuò)誤值;箱線圖或3°原則發(fā)現(xiàn)的異常值,則要先改成缺失值。缺失值的處理方法通常有四種。一、刪除有缺失值的個(gè)案刪除有缺失值的個(gè)案,或在具體統(tǒng)計(jì)分析時(shí)的【選項(xiàng)】【缺失值】框選擇某種處理方法:按列表排除個(gè)案一一只要任何一個(gè)變量含有缺失值,就要剔除出所有因變量或分組變量中有缺失值的觀測(cè)記錄;按對(duì)排除個(gè)案一一同時(shí)剔除帶缺失值的觀測(cè)量及與缺失值有成對(duì)關(guān)系的觀測(cè)量(對(duì)照分析);使用均值替換——使用該變量的均值替換缺失值。二、替換缺失值SPSS提供了5種簡(jiǎn)單替換缺失值的方法:(1)序列均值——該變量的有效觀察值的平均數(shù);(2)臨近點(diǎn)的均值一一該缺失值前后n個(gè)觀察值的平均數(shù);(3)臨近點(diǎn)的中位數(shù)該缺失值前后n個(gè)觀察值的中位數(shù);(4)線性插值一一該缺失值前后觀察值建立插值直線確定【同取n=1的⑵】;(5)點(diǎn)處的線性趨勢(shì)一一以編號(hào)為自變量用線性回歸法預(yù)測(cè)值?,F(xiàn)有數(shù)據(jù)文件:編號(hào)統(tǒng)計(jì)成績(jī)課堂隼虎165.2027S3037234404-陰5058d50006B53470787-80805409097A3610106745

1?【轉(zhuǎn)換】一一【替換缺失值】,打開“替換缺失值”窗口,將變量“統(tǒng)計(jì)成績(jī)”選入【新變量】框;2?【名稱和方法】框,設(shè)定新變量名稱“統(tǒng)計(jì)成績(jī)_1”,方法選“序列均值”3?點(diǎn)【確定】,得到編號(hào)統(tǒng)計(jì)成績(jī)課童焦慮10165-65.002D2787S00303723472.004D43975.22505陽5084.006D6853485.00107B7-87.008D8654065.DQ9093674.001010674567.DQ注意:若某個(gè)案的缺失值較多最好刪除該個(gè)案,而不是替換其缺失值。三、缺失值分析SPSS中更高級(jí)的處理缺失值的方法是缺失值分析,它能夠缺失值的描述和快速診斷:用靈活的診斷報(bào)告來評(píng)估缺失值問題的嚴(yán)重性,用戶可以觀察到它們?cè)谀男┳兞恐谐霈F(xiàn),比例是多少,是否與其它變量取值有關(guān),從而得知這些缺失值出現(xiàn)是否會(huì)影響分析結(jié)論。得到更精確的統(tǒng)計(jì)量:提供了多種方法用于估計(jì)含缺失值數(shù)據(jù)的均值、相關(guān)矩陣或協(xié)方差矩陣,通過這些方法計(jì)算出的統(tǒng)計(jì)量更加可靠。(3)用估計(jì)值替換缺失值:使用EM或回歸法,用戶可以從未缺失數(shù)據(jù)的分布情況中推算出缺失數(shù)據(jù)的估計(jì)值,從而能有效地使用所有數(shù)據(jù)進(jìn)行分析,來提高統(tǒng)計(jì)結(jié)果的可信度。【缺失值分析】實(shí)例操作,使用SPSS20自帶的實(shí)例文件:telco_missing.savtenureagemarrtaladdressincomeedemployretiregenderreside113嗣19640045.00022113317136.0055.000636852124129.001243333D1233.0020.00115233D193D.0D10464139D1773.002160011745221219.0024.001583835D576.002.0003945591716600431.00051068411217200122.0003115Dia1250D彳5001112735DnSD.OD215001113413B1a37.002g.0013145754130423.001315946D3250011216293B112750051.0004

1?【分析】—【缺失值分析】,打幵缺失值分析”窗口,將變量“婚姻狀況、教育程度、退休、性別”選入【分類變量】,將變量“服務(wù)月數(shù)、年齡、現(xiàn)在住址居住年數(shù)、家庭收入、現(xiàn)職位工作年數(shù)、家庭人數(shù)”選入【定量變量】鳥免費(fèi)電話服務(wù)…很瑕備租賃丨網(wǎng)…畠電話卡黑務(wù)[c..晶無線朋務(wù)[脅…旃上門長(zhǎng)途鳥免費(fèi)電話服務(wù)…很瑕備租賃丨網(wǎng)…畠電話卡黑務(wù)[c..晶無線朋務(wù)[脅…旃上門長(zhǎng)途Pon-爐上月免費(fèi)電話…護(hù)上月1■殳備[刊u…護(hù)上月電話卡[J夕上月無線[wir...畠參線路[muttli...g信音曲件阿七尋呼服務(wù)Ipag-2互聯(lián)網(wǎng)[internet]R興屯顯示[callid]畠呼叫等if[Ca|...定呈甕呈(?。嚎D挲g[和?撐現(xiàn)在性址居性…/家庭收入(千…"現(xiàn)職位工柞年…分艾變呈0:R帝姻狀況[皿詞d吞教育*平[ed]*性[gender]最天類別0工|25個(gè)室標(biāo)遂(BF:揣述(P)…]估計(jì)畫按列表也)也成n(w)EM□回:'=(S}變蠱(Y)一一EM...確定粘貼(P)■重置(田[取消■1幫助注意:最大類別(最大分類數(shù))默認(rèn)為25,超過該數(shù)目的分類變量將不引入分析。2?點(diǎn)【描述】,打開“描述統(tǒng)計(jì)”子窗口,用來設(shè)置要顯示的缺失值描述統(tǒng)計(jì)量。勾選“單變量統(tǒng)計(jì)量”,勾選【指示變量統(tǒng)計(jì)量】框的“使用有指示變量形成的分組進(jìn)行的t檢驗(yàn)”和“為分類變量和指示變量生成交叉表”,點(diǎn)【繼續(xù)】嵋時(shí)葩析:摘空生N單孌呈統(tǒng)計(jì)昌3)拷〒交董疣尸蠱鬥冃①丁工廠眥巳IHI注娠氓矢恒棧弍于呂?。齊1恃甲由右示F呈總成苗F汕洋行曲L柿驗(yàn)仃)二在志Ftl社機(jī)率程}W氐弓美丈亙亙記曩量巫玄左目尋?忽堀缸戈值占口個(gè)其數(shù)的比吻小一(5%】跋量Q}[継續(xù)「制頁〕幫亦]3?點(diǎn)【模式】打開“模式”子窗口,用來設(shè)置顯示輸出表格中的缺失數(shù)據(jù)模式和范圍。勾選“按照缺失值模式分組的表格個(gè)案”;因?yàn)猷挥潭取薄ⅰ巴诵荨焙汀靶詣e”中的缺失模式似乎影響數(shù)據(jù),“家庭收入”含有大量缺失值,將這些變量選入【附加信息】輛聯(lián)失值分析:就輔出y藝擔(dān)缸戈誼挨弍分汩肉表腎卜宰①豈眶-i探瓠J■■于I|%的疫豈?|甜按隈撚乂首樓式旳?。俊鰰兣?引出□詵埠鎂失直離弍濟(jì)I子為毋方玨失直的-卜案(W回?fù)崦呒兪?直限式訓(xùn)孌豈扶產(chǎn)遲)庁申迭走芙量J旨走匝序序子為所有亠麗[繼續(xù)][取消][藕助]其它保持默認(rèn),點(diǎn)【繼續(xù)】4.回到原窗口,勾選【估計(jì)】框中的EM”和“回歸”,其它默認(rèn)設(shè)置。點(diǎn)擊【EM】或【回歸】按鈕可以修改其設(shè)置韓昭值分析:回歸古計(jì)遁節(jié)?普通變晝迥)OStudent'st孌量(S)自|E欝無(Q)最大預(yù)測(cè)程序數(shù)兇:r保卑肓式數(shù)并邏)畫創(chuàng)建祈數(shù)據(jù)^{T}_軟揺耒石碌色)一匚◎?qū)懭胄码`呼文耳隹)文邯(6]

注意:若要保存替換缺失值之后的數(shù)據(jù),需要勾選“保存完成數(shù)據(jù)”:創(chuàng)建新數(shù)據(jù)集并命名,或?qū)懭胄聰?shù)據(jù)文件。另外,默認(rèn)使用所有變量進(jìn)行分析,若要選擇部分變量,可點(diǎn)【變量】按鈕修改。點(diǎn)【確定】,得到輸出結(jié)果:?jiǎn)巫兞拷y(tǒng)計(jì)N均值標(biāo)準(zhǔn)差缺失極值數(shù)曰a計(jì)數(shù)百分比低■高tenure96835.5621.268323.2age97541.7512.573252.500address85011.479.96515015.009income82171.146283.1442417917.9071employ90411.0010.113969.6015reside9662.321.431343.4033marital88511511.5ed965353.5retire916848.4gender958424.2a.超出范圍(Q1-1.5*IQR,Q3+1.5*IQR)的案例數(shù)。提供了數(shù)據(jù)的一般特征,給出了所有分析變量缺失數(shù)據(jù)的頻數(shù)、百分比,定量變量的均值、標(biāo)準(zhǔn)差、極值數(shù)目。income(家庭收入)有最多具有缺失值(17.9%),也有最多的極值;而age(年齡)有最少缺失值(5%)。所有值35.5641.7511.4771.146211.002.32EM36.1241.9111.5877.394111.222.29回歸3577416811597431741099232S*所有值21.26812.5739.96583.1442410.1131.431EM21.46812.69910.26587.5486010.1651.416-回歸211881253499358471430102421423使用EM法和回歸法進(jìn)行缺失值的估計(jì)和替換后,總體數(shù)據(jù)的均值和標(biāo)準(zhǔn)差的變化情況,其中“所有值”為原始數(shù)據(jù)特征,另兩行分別是采用EM法、回歸法得到的統(tǒng)計(jì)參數(shù)。單個(gè)方曽11檢驗(yàn)av、,宀t.4.33.51.41.0addressdf202.2192.5313.6191.1199.5#存在819832850693766824#缺失1491430128138142均值(存在)35.6841.7911.4774.077911.202.34均值(缺失)34.9141.4955.27349.862.21t-5.0-8.3-3.9-5.93.6df249.5222.8191.1203.3315.2#存在793801693821741792income#缺失1751741570163174均值(存在)33.9340.0110.6771.14629.912.39均值(缺失)42.9749.7314.9715.932.02t-1.0-.4-.7.5-.3df110.5110.297.6114.9110.9#存在877881766741904874employ#缺失91948480092均值(存在)35.3441.6911.3771.495311.002.31均值(缺失)37.7042.2712.3267.91252.37t.01.81.2-.8.9-2.2df148.1149.5138.8121.2128.3134.2#存在856862748728805857marital#缺失1121131029399109均值(存在)35.5642.0011.6170.388711.102.28均值(缺失)35.5739.8510.4377.075310.172.61t-.6-.4-.4.3.2df95.494.484.093.299.0#存在888893777751904885retire#缺失80827370081均值(存在)35.4441.7011.4271.335611.002.32均值(缺失)360942291196691143230對(duì)于每個(gè)定量變量,由指示變量(存在,缺失)組成成對(duì)的組。a.不顯示少于5%個(gè)缺失值的指示變量。通過單個(gè)方差t檢驗(yàn)有助于標(biāo)識(shí)缺失值模式可能影響定量變量的變量。按照相應(yīng)變量是否缺失將全部記錄分為兩組,再對(duì)所有定量變量在這兩組間進(jìn)行t檢驗(yàn)。判斷數(shù)據(jù)是否完全隨機(jī)缺失(表示缺失和變量的取值無關(guān))。例如,似乎年紀(jì)較長(zhǎng)的響應(yīng)者更不可能報(bào)告收入水平。當(dāng)income缺失時(shí),平均age為49.73,與之相比,當(dāng)income未缺失時(shí)為40.01。實(shí)際上,income的缺失似乎影響多個(gè)定量(刻度)變量的平均值。

此指示數(shù)據(jù)可能并未完全隨機(jī)缺失。類別變量相對(duì)于指示變量的交叉制表^—^^maritaUq總計(jì)未婚已婚缺失S'升is存在計(jì)數(shù)850390358102address百分比85.085.583.488.7缺失%SysMis15.014.516.611.3存在計(jì)數(shù)82138034893income百分比82.183.381.180.9缺失%SysMis17.916.718.919.1存在計(jì)數(shù)90441838799employ百分比90.491.790.286.1缺失%SysMis9.68.39.813.9存在計(jì)數(shù)916423392101retire百分比91.692.891.487.8缺失%SysMis847286122不顯示少于5%個(gè)缺失值的指示變量。觀察marital(婚姻狀況)表,指示變量的缺失值數(shù)量在marital類別之間似乎變化不大。一個(gè)人結(jié)婚與否似乎并不影響任何定量(刻度)變量的數(shù)據(jù)缺失情況。例如,85.5%未婚者報(bào)告address(當(dāng)前地址居住年限))83.4%已婚者報(bào)告相同變量。差異很小并且很可能是巧合。\d總計(jì)未完成中學(xué)學(xué)歷中學(xué)學(xué)歷社區(qū)學(xué)院大學(xué)學(xué)位研究生學(xué)位缺失叭KSysh力isaddress存在計(jì)數(shù)8501632401751865630

百分比85.083.285.788.481.987.585.7缺失%SysMis15.016.814.311.618.112.514.3存在計(jì)數(shù)8211552291651935029income百分比82.179.181.883.385.078.182.9缺失%SysMis17.920.918.216.715.021.917.1存在計(jì)數(shù)9041782541782046030employ百分比90.490.890.789.989.993.885.7缺失%SysMis9.69.29.310.110.16.314.3存在計(jì)數(shù)8851932781481845230marital百分比88.598.599.374.781.181.385.7缺失%SysMis11.51.5.725.318.918.814.3存在計(jì)數(shù)9161802591802076030retire百分比91.691.892.590.991.293.885.7缺失%Sysh升isO48275918863143不顯示少于5%個(gè)缺失值的指示變量。觀察ed(教育程度)的交叉制表。如果對(duì)象至少接受過大學(xué)教育,婚姻狀況響應(yīng)更可能缺失。未接受大學(xué)教育的對(duì)象中至少98.5%報(bào)告婚姻狀況。另一方面,那些擁有大學(xué)學(xué)位的人中只有81.1%報(bào)告婚姻狀況。對(duì)于那些曾接受大學(xué)教育但未獲學(xué)位者,數(shù)量更少。retire〔總計(jì)是否缺失計(jì)數(shù)8507443373address存在百分比85.085.080.586.9缺失%SysMis15.015.019.513.1計(jì)數(shù)8217321970income存在百分比82.183.746.383.3缺失%SysMis17.916.353.716.7計(jì)數(shù)904864400employ存在百分比90.498.797.6.0缺失%SysMis9.61.32.4100.0計(jì)數(shù)8857773870marital存在百分比88.588.892.783.3缺失%SysRMis11511273167不顯示少于5%個(gè)缺失值的指示變量。在retire(退休)中可看到更大差異。那些退休者與那些未退休者相比更不可能報(bào)告其收入。退休客戶中只有46.3%報(bào)告收入水平,而那些未退休者報(bào)告收入水平的百分比為83.7??傆?jì)男女缺失p、“、S'升is計(jì)數(shù)85036345631存在address百分比85.078.691.973.8缺失%SysMis15.021.48.126.2

income存在計(jì)數(shù)百分比82182.138182.540681.93481.0缺失%SysMis17.917.518.119.0存在計(jì)數(shù)90441245735employ百分比90.489.292.183.3缺失%SysMis9.610.87.916.7存在計(jì)數(shù)88540044540marital百分比88.586.689.795.2缺失%SysMis11.513.410.34.8存在計(jì)數(shù)91642046135retire百分比91.690.992.983.3—缺失%SyshAis849171167不顯示少于5%個(gè)缺失值的指示變量。gender(性別)的另一差異明顯。男性與女性相比,地址信息經(jīng)常缺失。雖然這些差異可能是巧合,其似乎不可能。數(shù)據(jù)似乎并非隨機(jī)完全缺失。制表模式案例缺失模式一完整數(shù),incomeagresidtenuregend、“、1“、-retiremplmaritaddreinco未中社大研是否男女?dāng)?shù)eeedereoyalssme如完學(xué)區(qū)學(xué)究果..成學(xué)學(xué)學(xué)生.中歷院位學(xué)學(xué)位學(xué)歷4747576.589158103461202755397711321410X584235117195147629791416XX6875901112412454.43287X562681279246852662156.0013X48800432311304977.21260X53567127246591352547.8116X491250000016061017X49276.23532734117071018X49354.1111374401710016XX6600078114261037XX52059.4595914581001522不顯示少于1%個(gè)(10個(gè)或更少)案例的模式。以缺失模式排列變量。完整案例數(shù),如果未使用該模式(用X標(biāo)記)中缺失的變量。在各個(gè)唯一模式處的均值在各個(gè)唯一模式處的頻率分布制表模式顯示個(gè)別個(gè)案中多個(gè)變量的數(shù)據(jù)是否往往缺失,有助于判斷數(shù)據(jù)是否聯(lián)合缺失。在超過1%的個(gè)案中存在三種模式的聯(lián)合缺失數(shù)據(jù)。變量employ(當(dāng)前工作年限)和retire(退休)與其它變量對(duì)相比更容易缺失。這并不奇怪,因?yàn)閞etire和employ記錄類似信息。如果您不知道對(duì)象是否退休,您很可能也不知道其當(dāng)前工作年限。平均income(家庭收入)似乎因缺失值模式的不同變化很大。實(shí)際上,在marital(婚姻狀況)缺失時(shí),6%個(gè)案的平均Income更高。(當(dāng)tenure(服務(wù)月數(shù))缺失時(shí)其更高,但此模式只占1.7%個(gè)案。)請(qǐng)記住,那些接受更高水平教育者更不可能響應(yīng)婚姻狀況相關(guān)問題。您可以在ed(教育程度)頻率中看到此傾向。通過假定那些接受更高水平教育者賺更多錢并且更不可能報(bào)告婚姻狀況,我們可能解釋income的增加。注:下表腳注中的:【Little的MCAR檢驗(yàn)】用來檢驗(yàn)數(shù)據(jù)是否完全隨機(jī)缺失(原假設(shè)為:是完全隨機(jī)缺失)。EM估計(jì)統(tǒng)計(jì)量E^L^均值a、,3612419111587739411122229a.Little的MCAR檢驗(yàn):卡方=179.836,DF=107,顯著性=.000tenureaddressinco^mee^mployresidetenu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論