版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、回歸分析中異常值的診斷與處理1 引言對調(diào)查得到的大量原始數(shù)據(jù)進行加工處理,提取其中有用的信息,即統(tǒng)計整理,是進一步進行統(tǒng)計分析的前提但是通常的統(tǒng)計整理方法往往都對樣本數(shù)據(jù)有一個前提假設(shè),即樣本數(shù)據(jù)是來自同一個總體,而這個假設(shè)有時卻不能成立原因一是由客觀因素造成的,如總體條件的突然變化或人們未知的某個因素的突然出現(xiàn)等等;二是由主觀方面的因素造成的,即人為的差錯如調(diào)查人員讀錯或抄錯數(shù)據(jù),不小心把另一些不同條件下的樣本數(shù)據(jù)混雜進來當(dāng)樣本中的個別數(shù)據(jù)明顯的偏離樣本中其余數(shù)據(jù)時,這些數(shù)據(jù)可能是來自不同的總體,我們稱這樣的數(shù)據(jù)為異常數(shù)據(jù)若對混有異常數(shù)據(jù)的樣本按常規(guī)進行統(tǒng)計整理、分析、推斷,往往會得出不符合
2、實際的結(jié)論本文就樣本中的異常數(shù)據(jù)提出了診斷方法和處理方法,并結(jié)合實例說明了簡單回歸中上述方法的具體應(yīng)用2 異常值的概念所謂異常值就是在所獲統(tǒng)計數(shù)據(jù)中相對誤差較大的觀察數(shù)據(jù),也稱奇異值(Outliers)狹義地定義異常值就是一批數(shù)據(jù)中有部分數(shù)據(jù)與其余數(shù)據(jù)相比明顯不一致的數(shù)據(jù),也稱離群值社會經(jīng)濟統(tǒng)計中一切失實數(shù)據(jù)統(tǒng)稱為異常值由于人為或隨機因素的影響,失實的數(shù)據(jù)隨時都有可能出現(xiàn),因而統(tǒng)計數(shù)據(jù)中的任何一個都有可能成為異常值,而狹義界定的異常值是指離群值,如果把統(tǒng)計數(shù)據(jù)按由小到大排列,若有異常值,它必位于其數(shù)據(jù)的兩端,左端稱為異常小值,右端的稱為異常大值殘差:考慮線性回歸模型, 其中 ,分量形式為, 定
3、義為殘差向量,其中稱為擬合值向量,為在模型下的最小二乘估計如果用表示的個行向量,則稱, ,為第次試驗或觀測的殘差對簡單回歸,則,其中于是,異常值就是在回歸分析中,一組數(shù)據(jù)如果它的殘差較其它組數(shù)據(jù)的殘差大的多,則稱此數(shù)據(jù)為異常值異常值的出現(xiàn)有主客觀的原因主觀上抽樣調(diào)查技術(shù)有問題,疏忽大意記錯,或人為的虛報,謊報數(shù)據(jù)等都可能導(dǎo)致異常數(shù)據(jù),這直接影響了統(tǒng)計數(shù)據(jù)的質(zhì)量;客觀上某些樣品由于特定原因在某些變量上的確表現(xiàn)突出,明顯超出平均水平,這也可能產(chǎn)生異常值異常值的存在必將導(dǎo)致相應(yīng)統(tǒng)計分析誤差增大,會對分析結(jié)果(平均值與標準差)產(chǎn)生重要影響,會降低測量的精度如果不預(yù)先處理它們,用通常的統(tǒng)計整理方法所得出
4、的結(jié)論可靠性差而異常值的診斷與處理是保證原始數(shù)據(jù)可靠性,平均值與標準差計算準確性的前提3 異常值的診斷方法在討論異常值診斷問題時,通常要假設(shè)所得樣本觀測值在某中意義下遵從一定的分布規(guī)律拿到一批數(shù)據(jù),若能從其實際背景中明確看出它服從某中分布形式時,一般的做法是在這種分布假設(shè)下,導(dǎo)出能較好反映異常值與正常值差異的統(tǒng)計量,在沒有異常值的原假設(shè)下作假設(shè)檢驗以下給出兩種檢驗方法3.1 F分布檢驗法學(xué)生化殘差:考慮線性回歸模型,記,稱為擬合值向量,稱其第個分量為第個擬合值,則, 這里文獻中通常稱為帽子矩陣前面已經(jīng)定義了, ,為第次試驗或觀測的殘差將其標準化為,再用代替,得到所謂學(xué)生化殘差, ,這里為的第個
5、對角元,把正態(tài)線性回歸模型改寫成分量形式,這里,相互獨立如果第組數(shù)據(jù)是一個異常點,那么它的殘差就很大它的殘差之所以很大是因為它的均值發(fā)生了非隨機性漂移從而這產(chǎn)生了一個新的模型 記將模型改寫成矩陣的形式, ,模型和稱為均值漂移線性回歸模型要判定不是異常點,等價于檢驗假設(shè)引理 用,和分別表示從、和剔除第行所得到的向量或矩從線性回歸模型剔除第組數(shù)據(jù)后,剩余的組數(shù)據(jù)的線性回歸模型為, 將從這個模型求到的的最小二乘估計記為,則證明:因為 設(shè)為可逆陣,均為向量用恒等式有, 這里為的第行將上式兩邊右乘,并利用 以及式,有 將式右乘,可以得到如下關(guān)系式將其代入式,得到引理 對均值漂移線性回歸模型,和的最小二乘
6、估計分別為和,其中為從非均值漂移線性回歸模型剔除第組數(shù)據(jù)后得到的的最小二乘估計,為的第個對角元為從模型導(dǎo)出的第個殘差證明:顯然,記則于是,根據(jù)定義根據(jù)分塊矩陣的逆矩陣公式(見附錄),以及再由引理知命題得證現(xiàn)在應(yīng)用引理來求檢驗的檢驗統(tǒng)計量注意到,對現(xiàn)在的情形,在約束條件下,模型就化為模型,于是模型無約束情形下的殘差平方和而模型的無約束殘差平方和 利用引理得這里為第組數(shù)據(jù)的殘差利用和的具體表達式將式作進一步化簡: =,其中根據(jù)引理,所求的檢驗統(tǒng)計量為于是,我們證明了如下事實:定理 對于均值漂移線性回歸模型,如果假設(shè)成立,則據(jù)此,我們得到如下檢驗:對給定的,若,則判定第組數(shù)據(jù)為異常點當(dāng)然,這種檢驗會
7、犯“判無為有”的錯誤,也就是可能不是異常點,而被誤判為異常點但我們犯這種錯誤的概率只有,事先我們可以把它控制的很小顯然,根據(jù)分布與分布的關(guān)系,我們也可以用檢驗法完成上面的檢驗若定義對給定的,當(dāng)時,我們拒絕假設(shè)即判定第組數(shù)據(jù)為異常點3.2 殘差及殘差圖檢驗異常值前面定義了,稱為殘差向量,其分量形式,稱為第次試驗或觀測的殘差特別地,對簡單回歸,所以,殘差是最重要的一種回歸診斷量,它蘊涵了有關(guān)模型基本假設(shè)的許多重要信息殘差分析就是對殘差進行統(tǒng)計處理,從中提煉出這些信息的方法而殘差圖就是殘差分析中使用的基本工具所謂殘差圖就是殘差對因變量或自變量,或其它導(dǎo)出統(tǒng)計量(如擬合值)的點子圖,有時候也用殘差對時
8、間或?qū)?shù)據(jù)序數(shù)的點子圖最簡單的圖,尤其在簡單回歸中,為殘差對擬合值的圖所謂異常數(shù)據(jù)就是相對于其它觀測值來說,具有大的殘差的數(shù)據(jù)點利用殘差及殘差圖檢驗異常值的方法是用所給數(shù)據(jù)計算出殘差,與其余觀測值的殘差進行比較,具有大的殘差的數(shù)據(jù)點被懷疑為異常值然后作出自變量與因變量的散點圖,殘差對擬合值的殘差圖以及殘差對自變量的殘差圖,從圖中觀察,那些遠離大多數(shù)觀測點的孤立的點有理由被認為是異常點然后從數(shù)據(jù)中刪除這些點,再次估計回歸方程,作出與的散點圖以及對的殘差圖,計算標準差,與刪除前進行比較4 提出兩種處理方法4.1 采用虛擬變量消除異常值的影響(1) 虛擬變量某類變量(如性別、種族、顏色、宗教、國家、
9、戰(zhàn)爭、地震等)常常表示某屬性是否存在,如男或女,黑種人或白種人,教徒或非教徒,對于這類變量可用“數(shù)量化”方法設(shè)計人為變量來表示,如用 “”或“”,“”表示不存在某種屬性,“”表示存在該屬性例如:用“”表示男性,“”表示女性,或用“”表示大學(xué)畢業(yè),“”表示沒有大學(xué)畢業(yè),等等這樣假設(shè)的變量,如“”或“”稱為虛擬變量,也稱為類型變量或?qū)傩宰兞?,它的主要特點就是將一些可以劃分為不同類型或?qū)傩缘淖兞坑谩啊焙汀啊狈謩e表示,即屬于某一類型的變量用“”表示,不屬于這一類型的變量用“”表示這里用表示虛擬變量(2) 處理異常值的方法在這里,我們用虛擬變量(或)把試驗數(shù)據(jù)劃分為兩類,屬于異常值一類用“”表示,屬于正
10、常值一類用“”表示引入虛擬變量,建立回歸方程:,其中,特別地,對簡單回歸,建立回歸方程:, 其中,利用所給數(shù)據(jù),作出回歸估計這樣,異常值的影響被虛擬變量的系數(shù)吸收,從而估計更接近于現(xiàn)實 4.2 剔除異常值的方法對于測定中的異常值的剔除,我們必須持慎重態(tài)度,不能貿(mào)然從事否則會出現(xiàn)誤刪有效數(shù)據(jù)或保留異常數(shù)據(jù)的錯誤通常處理步驟大致如下:(1)初分析:首先利用所給數(shù)據(jù)作出回歸估計:其中,特別地,對簡單回歸,其中,并計算標準差: ,以及擬合值、殘差,并列入表然后作出與的散點圖,擬合值與殘差的殘差圖,分析判別出異常值(2)判別出異常值后,從測量數(shù)據(jù)中刪除異常值,然后利用余下的觀測值再次作回歸估計,同第一步
11、,計算標準差、擬合值以及殘差,作出刪除異常數(shù)據(jù)后的散點圖與殘差圖(3)對比刪除異常值前后的標準差以及殘差圖對于單一可疑異常數(shù)據(jù),直接按上述步驟進行剔除異常值對于多個可疑異常值的情況,上述剔除步驟反復(fù)逐次進行至無可剔除為止通常可采用兩種方法:向前逐一剔除法(從極大值依次向次大值逐一剔除)和向后逐一剔除法(從可疑的個最大值依次從小到大逐一剔除)5 實例分析5.1 實例一假定某調(diào)查數(shù)據(jù)和由表中給出表 數(shù)據(jù)和序號1234567891011121314151.102.002.303.103.002.803.203.804.004.204.805.005.106.005.500.901.802.002.7
12、02.507.503.003.503.504.004.504.805.005.505.50000001000000000根據(jù)表中數(shù)據(jù)作回歸估計,得回歸方程:并算得圖 散點圖表 各組數(shù)據(jù)的診斷統(tǒng)計量序號1234567891011121314151.102.002.303.103.002.803.203.804.004.204.805.005.106.005.500.901.802.002.702.507.503.003.503.504.004.504.805.005.505.501.58152.33482.58593.25553.17183.00443.33923.84144.00884.176
13、24.67844.84584.92955.68285.2643-0.6815-0.5348-0.5859-0.5555-0.67184.4956-0.3392-0.3414-0.5088-0.1762-0.1784-0.04580.0705-0.18280.2357-0.516-0.405-0.443-0.420-0.5083.401-0.257-0.258-0.385-0.133-0.135-0.0350.053-0.1380.178-0.501-0.392-0.429-0.406-0.4939.841-0.248-0.249-0.372-0.128-0.130-0.0330.051-0.1
14、330.117從表最后一列可以看出只有超過這個值,于是我們診斷出第六號數(shù)據(jù)為異常值然后引入虛擬變量,建立回歸方程:,作回歸估計令,得,所以,回歸模型為:并且算得從的值來看,這個回歸方程見圖中要比未采用虛擬變量所估計的回歸方程見圖中其擬合程度好多了這是因為異常值的影響被虛擬變量的系數(shù)吸收,所以比處理前求得的估計值更接近于現(xiàn)實因此虛擬變量是消除異常值的影響,探求變量之間真正關(guān)系的一種有效方法圖 5.2 實例二表給出了Forbes數(shù)據(jù)表 Forbes數(shù)據(jù)序號沸點氣壓(英寸汞柱)Log(氣壓)100× Log(氣壓)1234567891011121314151617194.5194.3197
15、.9198.4199.4199.9200.9201.1201.4201.3203.6204.6209.5208.6210.7211.9212.220.7920.7922.4022.6723.1523.3523.8923.9924.0224.0125.1426.5728.4927.7629.0429.8830.061.31791.31791.35021.35551.36461.36831.37821.38001.38061.38051.40041.42441.45471.44341.46301.47541.4780131.79131.79135.02135.55136.46136.83137.8
16、2138.00138.06138.05140.04142.44145.47144.34146.30147.54147.80圖 散點圖根據(jù)表中數(shù)據(jù),(氣壓用的數(shù)據(jù)),估計回歸方程,算得計算出Forbes數(shù)據(jù)的擬合值及殘差,如表,進一步作出散點圖(圖)、殘差對擬合值的殘差圖(圖)表 Forbes數(shù)據(jù)的擬合值及殘差序號1234567891011121314151617194.50194.30197.90198.40199.40199.90200.90201.10201.40201.30203.60204.60209.50208.60210.70211.90212.20131.79131.79135.
17、02135.55136.46136.83137.82138.00138.06138.05140.04142.44145.47144.34146.30147.54147.80132.04131.86135.08135.53136.42136.87137.77137.95138.22138.13140.19141.08145.47144.66146.54147.62147.89-0.25-0.07-0.060.020.04-0.040.050.05-0.16-0.08-0.151.360.00-0.32-0.24-0.08-0.09圖Forbes數(shù)據(jù)的殘差圖比較表中所列的殘差,并觀察殘差圖,我們發(fā)
18、現(xiàn)序號的殘差比其它的殘差大的多其它殘差的絕對值都小于,而第號數(shù)據(jù)的殘差為并且從殘差圖(圖)中觀察到第號數(shù)據(jù)的跳躍度比較大,遠離其它點由殘差及殘差圖法診斷出第號數(shù)據(jù)為異常數(shù)據(jù)然后剔除第號數(shù)據(jù)再估計回歸方程,重新擬合數(shù)據(jù),檢查參數(shù)估計,擬合值,殘差方差的變化刪除第號數(shù)據(jù)后,得到回歸方程:表 Forbes數(shù)據(jù)中刪除號數(shù)據(jù)后的擬合值及殘差序號12345678910111314151617194.50194.30197.90198.40199.40199.90200.90201.10201.40201.30203.60209.50208.60210.70211.90212.20131.79131.791
19、35.02135.55136.46136.83137.82138.00138.06138.05140.04145.47144.34146.30147.54147.80131.99131.81135.02135.46136.35136.80137.69137.87138.14138.05140.10145.35144.55146.42147.50147.76-0.20-0.020.000.090.110.030.130.13-0.080.00-0.060.12-0.21-0.120.050.04圖5Forbes數(shù)據(jù)中刪除12號數(shù)據(jù)后的殘差圖圖刪除異常值后的散點圖表 刪除異常值前后的比較量比較量使
20、用所有數(shù)據(jù)的值刪除異常值后的值-42.1310.8950.379-41.3020.8910.113對刪除異常值前后的結(jié)果進行對比,我們得到對于刪除前后獲得的參數(shù)估計基本是相同的,所以第號數(shù)據(jù)是無關(guān)的但是,第號數(shù)據(jù)在標準誤差上的影響要顯著些刪除后標準誤差減小約倍,方差減小約倍并且,從刪除異常值獲得的殘差圖和散點圖(圖)顯示出,對余下的個數(shù)據(jù)無明顯的擬合失敗6 結(jié)束語異常值的診斷與處理問題是一個很有實際意義的問題,是一個逐步研究逐步實踐的問題但迄今為止,還沒有一種廣泛適用的方法,本文所介紹的方法也是一種嘗試,對于異常值的診斷與處理問題的研究還有待于進一步完善致 謝本文在撰寫過程中得到了李惠東老師的
21、悉心指導(dǎo)和大力支持在論文撰寫過程中遇到的難點和疑點李老師都給我作了詳細的講解,并提供了許多有參考價值的資料和專業(yè)軟件,使我學(xué)到了很多知識和方法在此表示深深的敬意與感謝 參考文獻1 魏立力.概率論與數(shù)理統(tǒng)計M.銀川:寧夏人民出版社,1999.2 王松桂等.線性模型引論M.北京:科學(xué)出版社,2004.3 何平.剔除測量數(shù)據(jù)中異常值的若干方法J.數(shù)理統(tǒng)計與管理,1995,(1):19-22.4 王靜龍,梁小筠,等譯.應(yīng)用線性回歸M.北京:中國統(tǒng)計出版社,1998.5 劉宗鶴,趙明強譯.計量經(jīng)濟學(xué)概論M.北京:農(nóng)業(yè)出版社,1988.附錄:分塊矩陣的逆矩陣:設(shè),將其分塊為:,則它的逆矩陣 =這里 ,附錄
22、:處理實例數(shù)據(jù):未用虛擬變量的數(shù)據(jù)處理:RegressionModel Summary(b)ModelRR SquareAdjusted R SquareStd. Error of the Estimate1.676(a).457.4151.32181a Predictors: (Constant), Xb Dependent Variable: YCoefficients(a)Model Unstandardized CoefficientsStandardized CoefficientstSig. BStd. ErrorBeta 1(Constant).6611.003 .658.522
23、 X.837.253.6763.306.006a Dependent Variable: YCasewise Diagnostics(a)Case NumberStd. ResidualYPredicted ValueResidual1-.516.901.5815-.68152-.4051.802.3348-.53483-.4432.002.5859-.58594-.4202.703.2555-.55555-.5082.503.1718-.671863.4017.503.00444.49567-.2573.003.3392-.33928-.2583.503.8414-.34149-.3853.
24、504.0088-.508810-.1334.004.1762-.176211-.1354.504.6784-.178412-.0354.804.8458-.045813.0535.004.9295.070514-.1385.505.6828-.182815.1785.505.2643.2357a Dependent Variable: Y引進虛擬變量后的數(shù)據(jù)處理:Model Summary(b)ModelRR SquareAdjusted R SquareStd. Error of the Estimate1.996(a).993.992.15876a Predictors: (Consta
25、nt), D, Xb Dependent Variable: YCoefficients(a)Model Unstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constan)-.303.125 -2.431.032X1.007.031.81332.532.000D4.985.167.74529.819.000a Dependent Variable: YCasewise Diagnostics(a)Case NumberStd. ResidualYPredicted ValueResidual1.6
26、06.90.8038.09622.5691.801.7097.09033-.0732.002.0117-.01174-.7362.702.8169-.11695-1.3622.502.7162-.21626.0007.507.5000.00007.5193.002.9176.08248-.1353.503.5215-.02159-1.4033.503.7228-.222810.4784.003.9241.075911-.1764.504.5280-.028012.4454.804.7293.0707131.0715.004.8300.170014-1.4865.505.7359-.235915
27、1.6845.505.2326.2674a Dependent Variable: Y附錄:處理實例的數(shù)據(jù):刪除前的數(shù)據(jù)處理:Coefficients(a)Model Unstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constan)-42.1313.339 -12.618.000X.895.016.99754.450.000a Dependent Variable: YModel Summary(b)ModelRR SquareAdjusted R SquareStd. Error of the
28、 EstimateChange StatisticsR Square ChangeF Changedf1df2Sig. F Change1.997(a).995.995.37889.9952964.792115.000a Predictors: (Constant), Xb Dependent Variable: YCasewise Diagnostics(a)Case NumberStd. ResidualYPredicted ValueResidual1-.651131.79132.0366-.24662-.178131.79131.8575-.06753-.161135.02135.08
29、12-.06124.056135.55135.5289.02115.094136.46136.4244.03566-.111136.83136.8721-.04217.138137.82137.7676.05248.141138.00137.9466.05349-.410138.06138.2153-.155310-.200138.05138.1257-.075711-.383140.04140.1853-.1453123.587142.44141.08081.359213.004145.47145.4685.001514-.851144.34144.6626-.322615-.642146.30146.5431-.243116-.205147.54147.6176-.077617-.228147.80147.8863-.0863a Depe
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版商業(yè)建筑外墻改造與拆除一體化服務(wù)合同3篇
- 2025版土地承包經(jīng)營權(quán)轉(zhuǎn)包合同(含農(nóng)業(yè)保險)2篇
- 二零二五版物流運輸保證合同印花稅繳納規(guī)定2篇
- 2025年度木材產(chǎn)業(yè)鏈上下游合作發(fā)展合同4篇
- 2025年寬帶網(wǎng)絡(luò)安全協(xié)約
- 2025年壓瘡預(yù)防護理服務(wù)合同
- 2025年委托招標合同
- 2025年卵巢囊腫手術(shù)協(xié)議
- 2025年度木材加工行業(yè)安全監(jiān)管合作協(xié)議3篇
- 2025年加盟運營推廣合作協(xié)議
- 眼的解剖結(jié)構(gòu)與生理功能課件
- 小學(xué)網(wǎng)管的工作總結(jié)
- 2024年銀行考試-興業(yè)銀行筆試參考題庫含答案
- 泵站運行管理現(xiàn)狀改善措施
- 2024屆武漢市部分學(xué)校中考一模數(shù)學(xué)試題含解析
- SYT 0447-2014《 埋地鋼制管道環(huán)氧煤瀝青防腐層技術(shù)標準》
- 浙教版七年級下冊科學(xué)全冊課件
- 弧度制及弧度制與角度制的換算
- 瓦楞紙箱計算公式測量方法
- DB32-T 4004-2021水質(zhì) 17種全氟化合物的測定 高效液相色譜串聯(lián)質(zhì)譜法-(高清現(xiàn)行)
- DB15T 2724-2022 羊糞污收集處理技術(shù)規(guī)范
評論
0/150
提交評論