SPSS系列09.-缺失值處理_第1頁(yè)
SPSS系列09.-缺失值處理_第2頁(yè)
SPSS系列09.-缺失值處理_第3頁(yè)
SPSS系列09.-缺失值處理_第4頁(yè)
SPSS系列09.-缺失值處理_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、09.缺失值處理空缺值(用“.”表示)和輸入錯(cuò)誤值,都屬于缺失值范疇。輸入錯(cuò)誤值需要做“數(shù)據(jù)檢驗(yàn)”來(lái)發(fā)現(xiàn):(1)【分析】【描述統(tǒng)計(jì)】【描述】和【頻率】(2)【圖形】【舊對(duì)話框】【箱圖】觀察極小、極大值、頻率、異常值等來(lái)判斷。例如,性別“男=1,女=2”,若極大值出現(xiàn)3,則是輸入錯(cuò)誤值;箱線圖或3原則發(fā)現(xiàn)的異常值,則要先改成缺失值。缺失值的處理方法通常有四種。一、刪除有缺失值的個(gè)案刪除有缺失值的個(gè)案,或在具體統(tǒng)計(jì)分析時(shí)的【選項(xiàng)】【缺失值】框選擇某種處理方法:按列表排除個(gè)案一一只要任何一個(gè)變量含有缺失值,就要剔除出所有因變量或分組變量中有缺失值的觀測(cè)記錄;按對(duì)排除個(gè)案同時(shí)剔除帶缺失值的觀測(cè)量與與缺

2、失值有成對(duì)關(guān)系的觀測(cè)量(對(duì)照分析);使用均值替換使用該變量的均值替換缺失值。二、替換缺失值SPSS提供了5種簡(jiǎn)單替換缺失值的方法:序列均值該變量的有效觀察值的平均數(shù);臨近點(diǎn)的均值該缺失值前后n個(gè)觀察值的平均數(shù);臨近點(diǎn)的中位數(shù)該缺失值前后n個(gè)觀察值的中位數(shù);(4)線性插值該缺失值前后觀察值建立插值直線確定【同取n=1的(2)】;(5)點(diǎn)處的線性趨勢(shì)以編號(hào)為自變量用線性回歸法預(yù)測(cè)值?,F(xiàn)有數(shù)據(jù)文件:編號(hào)統(tǒng)計(jì)成績(jī)課堂焦喘10165.2027B3037234404陰505500685347078780B409097436101067451.【轉(zhuǎn)換】替換缺失值】,打開(kāi)“替換缺失值”窗口,將變量“統(tǒng)計(jì)成績(jī)”

3、選入【新變量】框;【名稱和方法】框,設(shè)定新變量名稱“統(tǒng)計(jì)成績(jī)_1”,方法選“序列均值”3.點(diǎn)【確定】,得到失值。三、缺失值分析SPSS中更高級(jí)的處理缺失值的方法是缺失值分析,它能夠(1)缺失值的描述和快速診斷:用靈活的診斷報(bào)告來(lái)評(píng)估缺失值問(wèn)題的嚴(yán)重性,用戶可以觀察到它們?cè)谀男┳兞恐谐霈F(xiàn),比例是多少,是否與其它變量取值有關(guān),從而得知這些缺失值出現(xiàn)是否會(huì)影響分析結(jié)論。(2)得到更精確的統(tǒng)計(jì)量:提供了多種方法用于估計(jì)含缺失值數(shù)據(jù)的均值、相關(guān)矩陣或協(xié)方差矩陣,通過(guò)這些方法計(jì)算出的統(tǒng)計(jì)量更加可靠。(3)用估計(jì)值替換缺失值:使用EM或回歸法,用戶可以從未缺失數(shù)據(jù)的分布情況中推算出缺失數(shù)據(jù)的估計(jì)值,從而能有

4、效地使用所有數(shù)據(jù)進(jìn)行分析,來(lái)提高統(tǒng)計(jì)結(jié)果的可信度。【缺失值分析】實(shí)例操作,使用SPSS20自帶的實(shí)例文件:telco_missing.sav1.【分析】【缺失值分析】,打開(kāi)“缺失值分析”窗口,將變量“婚姻狀況、教育程度、退休、性別”選入【分類變量】,將變量“服務(wù)月數(shù)、年齡、現(xiàn)在住址居住年數(shù)、家庭收入、現(xiàn)職位工作年數(shù)、家庭人數(shù)”選入【定量變量】機(jī)缺失值分析畠免費(fèi)電話廉務(wù)設(shè)箔租牯equ畠電話卡服務(wù)J畠無(wú)線展務(wù)阿護(hù)上月丘途Pon-護(hù)上月免費(fèi)電話於上斗設(shè)箔equ夕上月電話卡J於上月無(wú)住wr畠參線路multli&語(yǔ)音郵怦品尋呼展務(wù)何卸畠互聯(lián)網(wǎng)Linternet品來(lái)電顯示callid畠呼叫等待u創(chuàng)北驢.匚

5、飆Lten倉(cāng)年齡ageI夕現(xiàn)在-士址居仁/家庭收入(千倉(cāng)頊聰卞二咋直-虹垢姻狀況maritalJ豆教育嚴(yán)平ed6返休retire9性別加nder最大類別0):25t_、牛案標(biāo)簽電):估嚴(yán)n唧0=)成時(shí)理)匕附畫(huà)回掃固變孰丫).回S(N)-使用所有變量(刼|確定粘貼巴|重置遲而站確定幫助注意:最大類別(最大分類數(shù))默認(rèn)為25,超過(guò)該數(shù)目的分類變量將不引入分析。2.點(diǎn)【描述】,打開(kāi)“描述統(tǒng)計(jì)”子窗口,用來(lái)設(shè)置要顯示的缺失值描述統(tǒng)計(jì)量。勾選“單變量統(tǒng)計(jì)量”,勾選【指示變量統(tǒng)計(jì)量】框的“使用有指示變量形成的分組進(jìn)行的t檢驗(yàn)”和“為分類變量和指示變量生成交叉表”,點(diǎn)【繼續(xù)】甑尖值廿析:癇述統(tǒng)計(jì)I31至變

6、呈線計(jì)宣包)I|淚變呈壻計(jì)呈叵豈亡弋不匹配巳JR按照魂矢值模武排廳區(qū))M供帀托討再呈書(shū)渤卞能肛井訐打卯尿仃)匸袞包拾冊(cè)會(huì)豐)愆喘柱夫-宜占總牛室耳的比叨小于5%時(shí)芒呈(0)畫(huà)麵點(diǎn)【模式】,打開(kāi)“模式”子窗口,用來(lái)設(shè)置顯示輸出表格中的缺失數(shù)據(jù)模式和范圍。勾選“按照缺失值模式分組的表格個(gè)案”;因?yàn)椤敖逃潭取?、“退休”和“性別”中的缺失模式似乎影響數(shù)據(jù),“家庭收入”含有大量缺失值,將這些變量選入【附加信息】;+廣氓尖值亡祈:環(huán)式掃出si扶照訊軋信模式舉翌聲丿韋R)恕時(shí)宰歎廠1h|喘比孌呈Q)2拽眶鋌士宜模乂列實(shí)量出序:或牯醫(yī)屁#苣模曲悅序的帶肓快主宜対“(M)技匿吐厲樸寸ttF哥芷盡但)按照送定孌

7、量指定M呼排神所有個(gè)索追)|両|其它保持默認(rèn),點(diǎn)【繼續(xù)】回到原窗口,勾選【估計(jì)】框中的塔M”和“回歸”其它默認(rèn)設(shè)置。點(diǎn)擊【EM】或【回歸】按鈕可以修改其設(shè)置保存完成數(shù)據(jù)世)倉(cāng)創(chuàng)建斷軟據(jù)果CD馳據(jù)卑名珂(町A新數(shù)據(jù)文罕(呂估計(jì)調(diào)節(jié)普通變晝迥)0Studentst孌M(S)EB(D):|5|曲無(wú)0最大預(yù)測(cè)程序數(shù)送):|鬥保存完成數(shù)眶世)函創(chuàng)建新數(shù)皓耒CD魏揺果石硃二|題寫(xiě)磁甲文件隹)i文件(9注意:若要保存替換缺失值之后的數(shù)據(jù),需要勾選“保存完成數(shù)據(jù)”:創(chuàng)建新數(shù)據(jù)集并命名,或?qū)懭胄聰?shù)據(jù)文件。另外,默認(rèn)使用所有變量進(jìn)行分析,若要選擇部分變量,可點(diǎn)【變量】按鈕修改。點(diǎn)【確定】,得到輸出結(jié)果:tTk旦.

8、N均值標(biāo)準(zhǔn)差知J古來(lái)hi=ia計(jì)數(shù)百八比低高1itenure96835.5621.268323.200age97541.7512.573252.500address85011.479.96515015.009income82171.146283.1442417917.9071employ90411.0010.113969.6015reside9662.321.431343.4033marital88511511.5ed965353.5retire916848.49584242a.超出范圍(Q1-1.5*IQR,Q3+1.5*IQR)的案例數(shù)。提供了數(shù)據(jù)的一般特征,給出了所有分析變量缺失數(shù)據(jù)的頻

9、數(shù)、百分比,定量變量的均值、標(biāo)準(zhǔn)差、極值數(shù)目。income(家庭收入)有最多具有缺失值(17.9%),也有最多的極值;而age(年齡)有最少缺失值(5%)。reside所有值35.5641.7511.4771.146211.002.32EM36.1241.9111.5877.394111.222.29回歸3577416811597431741099232估計(jì)標(biāo)準(zhǔn)差摘addressEreside所有值21.26812.5739.96583.1442410.1131.431EM21.46812.69910.26587.5486010.1651.416211881253499358471430102

10、421423使用EM法和回歸法進(jìn)行缺失值的估計(jì)和替換后,總體數(shù)據(jù)的均值和標(biāo)準(zhǔn)差的變化情況,其中“所有值”為原始數(shù)據(jù)特征,另兩行分別是采用EM法、回歸法得到的統(tǒng)計(jì)參數(shù)。t.4.33.51.41.0df202.2192.5313.6191.1199.5#存在819832850693766824address#缺失1491430128138142均值(存在)35.6841.7911.4774.077911.202.34均值(缺失)34.9141.4955.27349.862.21t-5.0-8.3-3.9-5.93.6df249.5222.8191.1203.3315.2#存在79380169382

11、1741792income#缺失1751741570163174均值(存在)33.9340.0110.6771.14629.912.39均值(缺失)42.9749.7314.9715.932.02t-1.0-.4-.7.5-.3df110.5110.297.6114.9110.9#存在877881766741904874employ#缺失91948480092均值(存在)35.3441.6911.3771.495311.002.31均值(缺失)37.7042.2712.3267.91252.37t.01.81.2-.8.9-2.2df148.1149.5138.8121.2128.3134.2

12、#存在856862748728805857marital#缺失1121131029399109均值(存在)35.5642.0011.6170.388711.102.28均值(缺失)35.5739.8510.4377.075310.172.61t-.6-.4-.4.3.2df95.494.484.093.299.0#存在888893777751904885retire#缺失80827370081均值(存在)35.4441.7011.4271.335611.002.32均值(缺失)368942291196691143230對(duì)于每個(gè)定量變量,由指示變量(存在,缺失)組成成對(duì)的組。a.不顯示少于5%個(gè)

13、缺失值的指示變量。通過(guò)單個(gè)方差t檢驗(yàn)有助于標(biāo)識(shí)缺失值模式可能影響定量變量的變量。按照相應(yīng)變量是否缺失將全部記錄分為兩組,再對(duì)所有定量變量在這兩組間進(jìn)行t檢驗(yàn)。判斷數(shù)據(jù)是否完全隨機(jī)缺失(表示缺失和變量的取值無(wú)關(guān))。例如,似乎年紀(jì)較長(zhǎng)的響應(yīng)者更不可能報(bào)告收入水平。當(dāng)income缺失時(shí),平均age為49.73,與之相比,當(dāng)income未缺失時(shí)為40.01。實(shí)際上,income的缺失似乎影響多個(gè)定量(刻度)變量的平均值。此指示數(shù)據(jù)可能并未完全隨機(jī)缺失。類別變量相對(duì)于指示變量的交叉制表總計(jì)未婚已婚缺失缺八失jSysMis計(jì)數(shù)850390358102存在address百分比85.085.583.488.7

14、缺失%SysMis15.014.516.611.3計(jì)數(shù)82138034893存在income百分比82.183.381.180.9缺失%SysMis17.916.718.919.1計(jì)數(shù)90441838799存在employ百分比90.491.790.286.1缺失%SysMis9.68.39.813.9計(jì)數(shù)916423392101存在retire百分比91.692.891.487.8%SysMis847286122不顯示少于5%個(gè)缺失值的指示變量。觀察marital(婚姻狀況)表,指示變量的缺失值數(shù)量在marital類別之間似乎變化不大。一個(gè)人結(jié)婚與否似乎并不影響任何定量(刻度)變量的數(shù)據(jù)缺失

15、情況。例如,85.5%未婚者報(bào)告address(當(dāng)前地址居住年限),83.4%已婚者報(bào)告相同變量。差異很小并且很可能是巧合。ed總計(jì)未完成中學(xué)學(xué)歷中學(xué)學(xué)歷社區(qū)學(xué)院大學(xué)學(xué)位研究生學(xué)位缺失缺人SysMis存在計(jì)數(shù)8501632401751865630address百分比85.083.285.788.481.987.585.7缺失%SysMis15.016.814.311.618.112.514.3存在計(jì)數(shù)8211552291651935029income百分比82.179.181.883.385.078.182.9缺失%SysMis17.920.918.216.715.021.917.1存在計(jì)數(shù)9

16、041782541782046030employ百分比90.490.890.789.989.993.885.7缺失%SysMis9.69.29.310.110.16.314.3存在計(jì)數(shù)8851932781481845230marital百分比88.598.599.374.781.181.385.7缺失%SysMis11.51.5.725.318.918.814.3存在計(jì)數(shù)9161802591802076030retire百分比91.691.892.590.991.293.885.7缺失%SysMis84Q27591QQ63143不顯示少于5%個(gè)缺失值的指示變量。觀察ed(教育程度)的交叉制表。

17、如果對(duì)象至少接受過(guò)大學(xué)教育,婚姻狀況響應(yīng)更可能缺失。未接受大學(xué)教育的對(duì)象中至少98.5%報(bào)告婚姻狀況。另一方面,那些擁有大學(xué)學(xué)位的人中只有81.1%報(bào)告婚姻狀況。對(duì)于那些曾接受大學(xué)教育但未獲學(xué)位者,數(shù)量更少??傆?jì)是否缺失缺人SysMis存在計(jì)數(shù)8507443373address百分比85.085.080.586.9缺失%SysMis15.015.019.513.1存在計(jì)數(shù)8217321970income百分比82.183.746.383.3缺失%SysMis17.916.353.716.7存在計(jì)數(shù)904864400employ百分比90.498.797.6.0缺失%SysMis9.61.32.

18、4100.0存在計(jì)數(shù)8857773870marital百分比88.588.892.783.3缺失%SysMis11511273167不顯示少于5%個(gè)缺失值的指示變量。在retire(退休)中可看到更大差異。那些退休者與那些未退休者相比更不可能報(bào)告其收入。退休客戶中只有46.3%報(bào)告收入水平,而那些未退休者報(bào)告收入水平的百分比為83.7??傆?jì)男女缺人山兀人存在計(jì)數(shù)85036345631address百分比85.078.691.973.8缺失%SysMis15.021.48.126.2存在計(jì)數(shù)82138140634income百分比82.182.581.981.0缺失%SysMis17.917.5

19、18.119.0存在計(jì)數(shù)90441245735employ百分比90.489.292.183.3缺失%SysMis9.610.87.916.7存在計(jì)數(shù)88540044540marital百分比88.586.689.795.2缺失%SysMis11.513.410.34.8存在計(jì)數(shù)91642046135retire百分比91.690.992.983.3缺人%SysMisO49171167不顯示少于5%個(gè)缺失值的指示變量。gender(性別)的另一差異明顯。男性與女性相比,地址信息經(jīng)常缺失。雖然這些差異可能是巧合,其似乎不可能。數(shù)據(jù)似乎并非隨機(jī)完全缺失。案例數(shù)缺失模式a完整數(shù),如果.bincome

20、ceddretirgenderdageresidetenureedgenderretireemploymaritaladdressincome未完成中學(xué)學(xué)歷中學(xué)學(xué)歷社區(qū)學(xué)院大學(xué)學(xué)位研究生學(xué)位是否男女475109168713601617181637XXXXXXXXXXXXX47558468756248853549149249366052076.585354.436856.000077.216747.812576.235354.111159.4595992752141023091573592732077014871909227034751011712432404488311116160101146

21、39512851359161717140121442010012020147126643567061527462421925101001022不顯示少于1%個(gè)(10個(gè)或更少)案例的模式。以缺失模式排列變量。完整案例數(shù),如果未使用該模式(用X標(biāo)記)中缺失的變量。在各個(gè)唯一模式處的均值在各個(gè)唯一模式處的頻率分布制表模式顯示個(gè)別個(gè)案中多個(gè)變量的數(shù)據(jù)是否往往缺失,有助于判斷數(shù)據(jù)是否聯(lián)合缺失。在超過(guò)1%的個(gè)案中存在三種模式的聯(lián)合缺失數(shù)據(jù)。變量employ(當(dāng)前工作年限)和retire(退休)與其它變量對(duì)相比更容易缺失。這并不奇怪,因?yàn)閞etire和employ記錄類似信息。如果您不知道對(duì)象是否退休,您很

22、可能也不知道其當(dāng)前工作年限。平均income(家庭收入)似乎因缺失值模式的不同變化很大。實(shí)際上,在marital(婚姻狀況)缺失時(shí),6%個(gè)案的平均Income更高。(當(dāng)tenure(服務(wù)月數(shù))缺失時(shí)其更高,但此模式只占1.7%個(gè)案。)請(qǐng)記住,那些接受更高水平教育者更不可能響應(yīng)婚姻狀況相關(guān)問(wèn)題。您可以在ed(教育程度)頻率中看到此傾向。通過(guò)假定那些接受更高水平教育者賺更多錢(qián)并且更不可能報(bào)告婚姻狀況,我們可能解釋income的增加。注:下表腳注中的:【Little的MCAR檢驗(yàn)】用來(lái)檢驗(yàn)數(shù)據(jù)是否完全隨機(jī)缺失(原假設(shè)為:是完全隨機(jī)缺失)。EM估計(jì)統(tǒng)計(jì)量EM均值a3612419111587739411122229a.Little的MCAR檢驗(yàn):卡方=179.836,DF=107,顯著性=.000口Mresidetenureageaddressincomeemployreside460.893135.326111.341

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論