《回歸分析》 課件 第4章 回歸診斷_第1頁
《回歸分析》 課件 第4章 回歸診斷_第2頁
《回歸分析》 課件 第4章 回歸診斷_第3頁
《回歸分析》 課件 第4章 回歸診斷_第4頁
《回歸分析》 課件 第4章 回歸診斷_第5頁
已閱讀5頁,還剩105頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX歸分析之緒論應(yīng)用

歸分析李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院1

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX目錄歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX變換廣義最小二乘估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院2

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX高斯-馬爾可夫李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院3

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX最小二乘法是一種使誤差平方和達(dá)到最小以尋求估計(jì)值的方法,最常見于線性模型。用最小二乘法得到的估計(jì),叫做最小二乘估計(jì)。1805年,法國(guó)數(shù)學(xué)家勒讓德在他的著作《計(jì)算彗星軌道的新 方法》的附錄中第一次公開提出了最小二乘法。德國(guó)數(shù)學(xué)家高斯對(duì)最小二乘理論的貢獻(xiàn)除了著名的正態(tài)誤差 理論之外,還有高斯-馬爾可夫定理。他聲稱從1799年起就 開始使用最小二乘法,導(dǎo)致了當(dāng)時(shí)兩大數(shù)學(xué)家關(guān)于最小二乘 法發(fā)明優(yōu)先權(quán)之爭(zhēng),類似于牛頓和萊布尼茨關(guān)于微積分發(fā)明 權(quán)的爭(zhēng)論,至今都沒有定論。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院4

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX高斯-馬爾可夫定理是最小二乘理論中最重要的理論結(jié)果,它 從統(tǒng)計(jì)學(xué)的角度肯定了最小二乘法的合法性,在此之前,最 小二乘估計(jì)只是看上去合理且計(jì)算簡(jiǎn)便的一種算法。但是實(shí)際數(shù)據(jù)有很多情況不滿足高斯-馬爾可夫定理的條件,這一點(diǎn)在二十世紀(jì)中期得到了學(xué)者的廣泛關(guān)注。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院5

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX高斯-馬爾可夫條件李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院6

/

110

異常值和強(qiáng)影響點(diǎn)BOX-COX歸模型的診斷

異方差的診斷及其處理

自相關(guān)的診斷及其處理例1.居民收入和消費(fèi)的關(guān)系運(yùn)用截面數(shù)據(jù)研究消費(fèi)和居民收入的關(guān)系。用Yi

表示第i

戶的消費(fèi)額,用Xi

表示第i

戶的收入,一個(gè)簡(jiǎn)單的消費(fèi)模型為Yi

=

β0

+

β1Xi

+

εi

,

i

=

1,

...,

n.將家庭以收入數(shù)據(jù)按照一定方式進(jìn)行劃分會(huì)發(fā)現(xiàn):低收入組家庭用于購(gòu)買生活必需品的比例相對(duì)較大,且購(gòu)買差異性較小。高收入組家庭購(gòu)買行為差異很大,自由支配的收入更多意味著更多的購(gòu)買選擇,消費(fèi)的分散程度很大。反映在消費(fèi)模型上則為εi

對(duì)回歸直線即均值的偏離程度存在差異,從而出現(xiàn)異方差。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院7

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX例2.經(jīng)濟(jì)模型經(jīng)濟(jì)變量的滯后性會(huì)給序列帶來自相關(guān)性。許多經(jīng)濟(jì)變量都會(huì)產(chǎn)生滯后影響,

例如物價(jià)指數(shù)、基建投 資、國(guó)民收入、消費(fèi)、貨幣發(fā)行量等都有一定的滯后性,例 如前期消費(fèi)額對(duì)后期消費(fèi)額一般會(huì)有明顯的影響。經(jīng)濟(jì)變量的滯后有時(shí)表現(xiàn)出一種不規(guī)則的循環(huán)波動(dòng),當(dāng)經(jīng)濟(jì) 處于衰退的低谷時(shí),經(jīng)濟(jì)擴(kuò)張期隨之開始,這時(shí)大多數(shù)經(jīng)濟(jì) 時(shí)間序列上升得快一些。在經(jīng)濟(jì)擴(kuò)張期,經(jīng)濟(jì)時(shí)間序列內(nèi)部 有一種內(nèi)在的沖力,序列一直上升到循環(huán)的頂點(diǎn),在頂點(diǎn)時(shí) 刻經(jīng)濟(jì)收縮隨之開始。因此在這樣的時(shí)間序列中,序列觀測(cè)值之間的相關(guān)現(xiàn)象是很自然的。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院8

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX變換廣義最小二乘估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院9

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX殘差分析在利用最小二乘估計(jì)得到參數(shù)估計(jì)值β?0和β?1后,可以通過下式得到殘差ei

=

Yi

?

β?0

?

β?1Xi

.由于高斯—馬爾可夫條件都是關(guān)于誤差項(xiàng)的,所以研究者自 然地可以從分析誤差項(xiàng)的“估計(jì)量”——?dú)埐畹慕嵌葋砜疾鞌?shù) 據(jù)是否滿足假設(shè)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院10

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX考慮線性

歸模型Y

=

+

ε,(1)??1?n若用X

,...,X

表示X

的n個(gè)行向量,定義第i

次觀測(cè)的殘差?i

i

i?e

=

Y

?

X

β,

i

=

1,

...,

n將殘差ei

看作誤差εi

的一次觀測(cè)值,如果模型(1)正確,ei

應(yīng)具有εi

的一些特征。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院11

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COXi記Y?

=X

β?,

稱Y?

為擬合值向量,

稱其第i

個(gè)分量Y?i

=X

?β?為第i

個(gè)擬合值,則Y?

可以寫成Y?

=

X

(X

?X

)?1X

?Y

=

HY

,其中H

=X

(X

?X

)?1X

?,文獻(xiàn)中通常稱之為帽子矩陣。容易驗(yàn)證,帽子矩陣H滿足H?

=

H,

H2

=

H,即帽子矩陣是一個(gè)對(duì)稱冪等陣。利用帽子矩陣H,殘差向量e可表示為e

=

Y

?

Y?

=

(I

?

H)Y

=

(I

?

H)ε.(2)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院12

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX定理考慮線性

歸模型(1),則由(2)式所定義的殘差向量具有如下性質(zhì):E

(e)

=

0,

Cov

(e)

=

σ2(I

?

H);若進(jìn)一步假設(shè)誤差服從正態(tài)分布,即ε

~N(0,σ2I

),則e

N(0,

σ2(I

?

H)).李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院13

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院14

/

110

歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX根據(jù)正態(tài)分布的性質(zhì),若隨機(jī)變量U

~N(μ,

σ2),則P(μ

?

<

U

<

μ

+

2σ)

=

95.4%.因此學(xué)生化殘差具有如下性質(zhì):當(dāng)μ

=0,σ

=1時(shí),大約應(yīng)有95.4%的ri

落在區(qū)間[?2,2]中。擬合值向量Y?

與殘差e相互獨(dú)立,因而與學(xué)生化殘差r1,...,rn也獨(dú)立。如果以擬合值y?i

為橫軸,ri

為縱軸,那么平面上的點(diǎn)(y?i

,ri

),i

= 1,...,n大致應(yīng)落在寬度為4的水平帶|ri|≤2區(qū)域內(nèi),且不呈 現(xiàn)任何趨勢(shì)。這種以殘差為縱軸,以擬合值或其它量為橫軸的圖稱為殘差圖,這是回歸診斷的一個(gè)重要工具。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院15

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX殘差示意圖李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院16

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院17

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX本章介紹了

歸模型隨機(jī)誤差項(xiàng)違背基本假設(shè)的診斷與修正方法,以及異常值的識(shí)別和處理。隨機(jī)誤差序列方差不同或存在相關(guān),分別對(duì)應(yīng)了違背基本假設(shè)的異方差性和自相關(guān)現(xiàn)象。殘差圖分析是診斷兩者最直觀的方式,但比較粗糙。更準(zhǔn)確的診斷方法包括:借助等級(jí)相關(guān)系數(shù)檢驗(yàn)或其他方法 來診斷是否具有異方差性;通過自相關(guān)系數(shù)或DW檢驗(yàn)等方 法考察序列相關(guān)是否存在。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院18

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX當(dāng)根據(jù)某種檢驗(yàn)方法認(rèn)為存在異方差時(shí),可以用自變量的冪函數(shù)作為權(quán)函數(shù),作加權(quán)最小二乘

歸。但是加權(quán)最小二乘估計(jì)并不能消除異方差,只是能夠消除或減弱異方差的不良影響;研究者們還常??紤]對(duì)因變量進(jìn)行方差穩(wěn)定變換,使得對(duì)變換過后的數(shù)據(jù),誤差方差能夠近似相等,即方差比較穩(wěn)定;要注意的是方差穩(wěn)定變換在改變誤差項(xiàng)方差的同時(shí),也會(huì)改變誤差項(xiàng)的分布和

歸函數(shù)的形式。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院19

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COXDW檢驗(yàn)是檢驗(yàn)隨機(jī)誤差項(xiàng)自相關(guān)性最常用的一種方法,但DW檢驗(yàn)有一些局限性。不僅因其不適合隨機(jī)項(xiàng)具有高階序列相關(guān)的檢驗(yàn),還因?yàn)镈W檢驗(yàn)有兩個(gè)不能確定結(jié)果的區(qū)域。當(dāng)模型存在序列相關(guān)時(shí),常通過迭代法和差分法消除自相關(guān)性。要注意的是用迭代法處理序列相關(guān)并不總是有效。一階差分法是自相關(guān)系數(shù)ρ

=1時(shí)的迭代法,因此只有當(dāng)ρ

=1或者接近1時(shí),差分法的效果才會(huì)好。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院20

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX異常值的識(shí)別和處理是優(yōu)化

歸方程的必要部分。通過散點(diǎn)圖可以簡(jiǎn)單直觀地對(duì)某些點(diǎn)進(jìn)行甄別。更準(zhǔn)確地方法,則是通過計(jì)算刪除學(xué)生化殘差、杠桿值、Cook統(tǒng)計(jì)量等對(duì)異常值進(jìn)行判斷。識(shí)別出異常值后,需要對(duì)異常值產(chǎn)生的原因進(jìn)行診斷,不能簡(jiǎn)單地剔除異常值。有時(shí)異常值是正確的觀測(cè),出現(xiàn)的原因可能是由于模型遺漏 了關(guān)鍵的自變量,或模型設(shè)定錯(cuò)誤,這時(shí)將為模型的修正帶 來啟發(fā)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院21

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX變換廣義最小二乘估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院22

/

110編號(hào)

Y

(億元)X

(萬畝)

編號(hào)

Y

(億元)

X

(萬畝)農(nóng)作物產(chǎn)值播種面積農(nóng)作物產(chǎn)值播種面積116.31907.516183.6517729.2217.14873.217146.7911061.53125.2413159.218129.6311304.7442.245928.119154.289166.2540.286834.42061.246821.7684.475495.521206.517779.6770.76055.22244.374701.38101.6712694.62351.796036.1916.831018.5243.53316.510211.5112770.92559.457016.5111016542.72637.295252.512155.8712244.3276.33761.71349.723601.52810.071235.21469.78158.12944.784275.115255.9216564.5異常值和強(qiáng)影響點(diǎn)BOX-COX歸模型的診斷

異方差的診斷及其處理

自相關(guān)的診斷及其處理農(nóng)作物種植業(yè)產(chǎn)值與播種面積關(guān)系表

1:1986

29

個(gè)省市自治區(qū)農(nóng)作物種植業(yè)產(chǎn)值和農(nóng)作物播種面積數(shù)據(jù)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院23

/

110歸模型的診斷

異方差的診斷及其處理

自相關(guān)的診斷及其處理

異常值和強(qiáng)影響點(diǎn)BOX-COX1986年29個(gè)省市自治區(qū)農(nóng)作物種植業(yè)產(chǎn)值和農(nóng)作物播種面積數(shù)據(jù)如表所示,以農(nóng)作物種植業(yè)產(chǎn)值作為因變量Y

,以農(nóng)作物播種面積作為自變量X

,建立一元線性

歸模型。首先利用普通的最小二乘估計(jì)得到經(jīng)驗(yàn)

歸模型Y?

=

?5.661

+

0.012X

.其次做殘差與自變量農(nóng)作物播種面積的散點(diǎn)圖如下所示,可以發(fā)現(xiàn)有明顯的異方差問題。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院24

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX異方差性產(chǎn)生的原因模型設(shè)定錯(cuò)誤常導(dǎo)致異方差,模型設(shè)定主要包括變量的選擇。模型遺漏關(guān)鍵解釋變量常導(dǎo)致異方差,此時(shí)隨機(jī)誤差項(xiàng)、異方差的產(chǎn)生與解釋變量密切相關(guān)。設(shè)正確模型的形式為Yi

=β0

+β1Xi1

+β2Xi2

+β3Xi3

+εi

,但實(shí)際采用的是Yi

=

β0

+

β1Xi1

+

β2Xi2

+

ui

,即略去了解釋變量X3。當(dāng)X3與X1,X2之間存在相關(guān)性或某種函數(shù)關(guān)系時(shí),其影響將體現(xiàn)在誤差項(xiàng)中。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院25

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院26

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX異方差性的影響當(dāng)

歸模型出現(xiàn)異方差時(shí),如果仍用OLS估計(jì)來估計(jì)未知參數(shù),將引起不良后果。參數(shù)的OLS估計(jì)仍是無偏的,但不再是最小方差線性無偏估計(jì)(BLUE)。普通最小二乘估計(jì)的無偏性僅依賴于解釋變量非隨機(jī)與隨機(jī) 誤差項(xiàng)均值為0的假定,而其為BLUE則需要高斯—馬爾可夫 條件均滿足。本章廣義最小二乘估計(jì)這一節(jié)將介紹當(dāng)異方差存在時(shí),比OLS更 有效的線性無偏估計(jì)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院27

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX

?

將不再服從t分布,并且即使擴(kuò)大樣本量也不能解決這個(gè)問題。類似地,F(xiàn)

統(tǒng)計(jì)量不再服從F

分布。因此,異方差的存在使高 斯-馬爾可夫假定下進(jìn)行的假設(shè)檢驗(yàn)不再有效,檢驗(yàn)結(jié)果不再 值得信任。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院28

/

110歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX?歸方程的預(yù)測(cè)效果不理想。盡管參數(shù)的普通最小二乘估計(jì)的無偏性使得預(yù)測(cè)也是無偏的,但參數(shù)的OLS估計(jì)不再是有效估計(jì)。參數(shù)的OLS估計(jì)不是有效估計(jì)導(dǎo)致對(duì)被解釋變量的預(yù)測(cè)也不 再是有效的,

而基于估計(jì)量方差的Y

的區(qū)間預(yù)測(cè)將產(chǎn)生困 難。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院29

/

110異常值和強(qiáng)影響點(diǎn)BOX-COX歸模型的診斷

異方差的診斷及其處理

自相關(guān)的診斷及其處理異方差性的檢驗(yàn)——?dú)埐顖D法

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院30

/

110異常值和強(qiáng)影響點(diǎn)BOX-COX歸模型的診斷

異方差的診斷及其處理

自相關(guān)的診斷及其處理異方差性的檢驗(yàn)——?dú)埐顖D法等級(jí)相關(guān)系數(shù)法又稱Spearman檢驗(yàn),是一種應(yīng)用較廣泛的異方差檢驗(yàn)方法,其檢驗(yàn)步驟為:作Y

關(guān)于X

的普通最小二乘

歸,求出εi

的估計(jì)值ei

;取ei

的絕對(duì)值,將xi

和|ei|按遞增或遞減的次序排列后給出各自的次序等級(jí),按下式計(jì)算等級(jí)相關(guān)系數(shù)

服從自由度為n?2的t分布。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院31

/

110

異常值和強(qiáng)影響點(diǎn)BOX-COX歸模型的診斷

異方差的診斷及其處理

自相關(guān)的診斷及其處理異方差性的檢驗(yàn)——Goldfeld-Quanadt檢驗(yàn)Goldfeld-Quanadt檢驗(yàn)可用于遞增型或遞減型異方差的檢驗(yàn),

其檢驗(yàn)步驟為:將樣本觀測(cè)值按自變量xi

的大小排序;剔除排在中間的m(樣本量的1/5

~1/4)個(gè)觀測(cè),并將剩余的觀測(cè)值等分為兩個(gè)樣本分別進(jìn)行

歸分析;進(jìn)行假設(shè)檢驗(yàn)。提出假設(shè):

H0:兩部分觀測(cè)的方差相等

v.s.H1:兩部分觀測(cè)的方差不相等。?

分樣本的殘差平方和進(jìn)行假設(shè)檢驗(yàn)。在原假設(shè)成立條件下,檢驗(yàn)統(tǒng)計(jì)量李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院32

/

110

歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX異方差性的處理常假定異方差σ2具有如下形式:i2

?0

=

g

+

α

Z

).其中g(shù)(·)是一個(gè)未知的函數(shù)。當(dāng)Z

i

=(Zi

1,...,Ziq

)?是Xj,j

=1,...,p的函數(shù)時(shí),異方差可表i

i示為σ2

=σ2f

(Xi

1,...,Xip

),其中σ2表示第i

個(gè)觀測(cè)值誤差項(xiàng)的方差,

σ2為常數(shù),f

(Xi

1,...,Xip

)為自變量

X1,...,Xp

的某種函數(shù)。以一元線性

歸模型為例,Yi

=

β0

+

β1Xi

+

εi

,模型具有異方差且隨機(jī)誤差項(xiàng)與自變量有關(guān),則異方差性可表示為Var

(εi

)=

σ2f

(Xi

).李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院33

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX?2當(dāng)模型存在異方差時(shí),σ

的不同意味著對(duì)模型估計(jì)的不同作i用,在進(jìn)行估計(jì)時(shí)需要對(duì)殘差賦予不同的權(quán)重,從而使殘差平方和能夠更好地反映σ2的真實(shí)情況。i處理異方差問題的一個(gè)經(jīng)典的方法是加權(quán)最小二乘法,該方法在平方和中加入適當(dāng)?shù)臋?quán)數(shù)ωi

,以調(diào)整各項(xiàng)在平方和中的作用。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院34

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX加權(quán)最小二乘法同樣以一元線性

歸為例:一元線性

歸的加權(quán)最小二乘的離差平方和為

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院35

/

110

歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX為消除異方差的影響,要使(3)中各項(xiàng)的地位相同,則觀測(cè)值的權(quán)數(shù)應(yīng)取觀測(cè)值誤差項(xiàng)方差的倒數(shù),即?2i然而,

在實(shí)際問題中誤差項(xiàng)方差σ

往往是未知的。但若已

代入(3)求解,即可得到該模型的加權(quán)最小二乘估計(jì)。在一些社會(huì)學(xué)、經(jīng)濟(jì)學(xué)研究中,誤差項(xiàng)方差與自變量的冪函數(shù)成比例,可根據(jù)相應(yīng)的函數(shù)形式求解。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院36

/

110

序號(hào)yxxi

等級(jí)殘差ei|ei

||ei

|等級(jí)did

2i12648,

7771169.02169.0216-1522521059,

2102-26.6426.643-113909,

9543-104.63104.637-416413110,

5084-110.54110.548-416512210,

9795-159.41159.4115-10100610711,

9126-253.41253.4123

7477-25.1025.102525850313,

49988.238.231749943114,

2699-128.96128.969001058815,

52210-78.0578.0546361189816,

73011129.68129.6810111295017,

66312102.69102.6966361377918,

57513-145.53145.5314-111481919,

63514-195.27195.2719-525151,

22221,

1631578.3678.36510100歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX居民收入與儲(chǔ)蓄額設(shè)某地區(qū)的居民收入與儲(chǔ)蓄額的歷史統(tǒng)計(jì)數(shù)據(jù)如下表所示(只展示前15行):表

2:居民收入與儲(chǔ)蓄額李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院37

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX(1)用普通最小二乘法建立儲(chǔ)蓄額Y

與居民收入X

的并畫出殘差散點(diǎn)圖:歸方程,系數(shù)估計(jì)標(biāo)準(zhǔn)誤差t

值p值截距項(xiàng)-648.124118.163-5.4900.000x0.0850.00517.3400.000從殘差圖來看,殘差隨X

的增加呈現(xiàn)出增加的趨勢(shì),說明誤差項(xiàng)具有異方差。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院38

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX(2)計(jì)算xi

與|ei|等級(jí)相關(guān)系數(shù)得rs

=0.686,且p值接近于0,表明誤差項(xiàng)存在異方差。其次對(duì)模型進(jìn)行Goldfeld-Quanadt檢驗(yàn),p值為0.007<0.05,拒絕原假設(shè),即認(rèn)為模型存在異方差。(3)采用加權(quán)最小二乘法處理異方差問題。2i因?yàn)檎`差項(xiàng)的方差σ

未知,這里假設(shè)誤差項(xiàng)方差與x

的冪函i

xmi數(shù)xm

成比例,即權(quán)函數(shù)為ω

=

1

,m待定。冪函數(shù)通常需要經(jīng)過多次測(cè)試才能確定,一般按照?2,?1.5,?1,?0行測(cè)試,選擇對(duì)應(yīng)最大對(duì)數(shù)似然函數(shù)值的冪指數(shù),求出相應(yīng)的加權(quán)最小二乘

歸模型。經(jīng)過測(cè)試得到,當(dāng)m

=1.5時(shí)在上述冪指數(shù)值中對(duì)應(yīng)最大的對(duì)數(shù)似然函數(shù)值,故取m

=1.5進(jìn)行加權(quán)最小二乘

歸。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院39

/

110歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX圖

1:改進(jìn)模型的殘差圖(左)和改進(jìn)模型與原始模型的殘差對(duì)比圖(右)由左右兩圖可以看出,本例中加權(quán)最小二乘法對(duì)殘差的改造 是細(xì)微的。加權(quán)模型的等級(jí)相關(guān)系數(shù)rωs

=0.683,說明異方 差仍然存在。造成這一點(diǎn)的原因可能是誤設(shè)了誤差項(xiàng)和自變量的冪函數(shù)關(guān)系,因此找到合適的函數(shù)關(guān)系十分重要,同時(shí)也較為困難。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院40

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX變換廣義最小二乘估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院41

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX表

3:1985-2011年農(nóng)村居民人均收入和消費(fèi)

單位:元年份人均實(shí)際純收入人均實(shí)際消費(fèi)性支出年份人均實(shí)際純收入人均實(shí)際消費(fèi)1985397.60317.421999703.26501.881986399.40336.432000717.64531.881987410.43353.412001747.68550.111988411.59360.022002785.41581.951989380.94339.062003818.93606.901990415.69354.112004882.63656.681991419.51366.962005961.07754.531992443.43372.7420061,

043.47822.971993458.52382.9120071,

149.28894.891994492.33410.0020081,

247.83959.521995541.43449.6820091,

360.251,

054.141996612.62500.0320101,

512.481,

119.6819971998648.50677.52501.75498.3820111,

691.571,

265.80李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院42

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX以人均實(shí)際純收入為自變量,人均實(shí)際消費(fèi)性支出為因變量建立農(nóng)村居民消費(fèi)的線性

歸模型。使用普通的最小二乘估計(jì)求解

歸方程并作出殘差圖如下:殘差圖顯示,殘差的變動(dòng)有系統(tǒng)模式,連續(xù)為正和連續(xù)為負(fù),這表明殘差項(xiàng)可能存在一階正自相關(guān)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院43

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX

(4)

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院44

/

110

歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX隨機(jī)誤差序列產(chǎn)生自相關(guān)的原因具體有:模型設(shè)定偏誤。和模型設(shè)定偏誤將導(dǎo)致異方差一樣,有兩種 情形將產(chǎn)生系統(tǒng)誤差,而該誤差存在于隨機(jī)誤差項(xiàng)中,從而 導(dǎo)致序列產(chǎn)生自相關(guān)。模型遺漏關(guān)鍵自變量;模型函數(shù)形式錯(cuò)誤。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院45

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX經(jīng)濟(jì)系統(tǒng)的慣性。經(jīng)濟(jì)行為具有時(shí)間上的慣性,如GDP、物價(jià)、就業(yè)等經(jīng)濟(jì)指標(biāo)隨經(jīng)濟(jì)系統(tǒng)的周期而波動(dòng);經(jīng)濟(jì)高速增長(zhǎng)時(shí)期,較高的經(jīng)濟(jì)增長(zhǎng)率會(huì)持續(xù)一段時(shí)間,經(jīng) 濟(jì)衰退時(shí),較高的失業(yè)率將持續(xù)一段時(shí)間,也因此經(jīng)濟(jì)時(shí)間 序列數(shù)據(jù)常出現(xiàn)自相關(guān)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院46

/

110歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX經(jīng)濟(jì)行為的滯后效應(yīng)。滯后效應(yīng)指一個(gè)變量對(duì)另一個(gè)變量的影響不僅限于當(dāng)期,而且會(huì)延續(xù)若干期,由此帶來變量的自相關(guān)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院47

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX蛛網(wǎng)現(xiàn)象。蛛網(wǎng)理論是一種引入時(shí)間因素考察價(jià)格和產(chǎn)量均衡狀態(tài)變動(dòng) 過程的理論。將其均衡的變動(dòng)過程反映在二維座標(biāo)圖上,其 形如蛛網(wǎng)。許多農(nóng)產(chǎn)品的供給呈現(xiàn)為蛛網(wǎng)現(xiàn)象,

供給對(duì)價(jià)格的反應(yīng)要 滯后一段時(shí)間,因?yàn)楣┙o需要經(jīng)過一定的時(shí)間才能實(shí)現(xiàn)。如 果時(shí)期t的價(jià)格Pt

低于上一期的價(jià)格Pt?1,農(nóng)民就會(huì)減少時(shí) 期t

+1的生產(chǎn)量,如此則形成蛛網(wǎng)現(xiàn)象。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院48

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX數(shù)據(jù)處理造成的自相關(guān)。構(gòu)建模型前期,需要對(duì)原始數(shù)據(jù)進(jìn)行一些處理,處理后的數(shù)據(jù)可能產(chǎn)生自相關(guān)。為消除季節(jié)性,對(duì)數(shù)據(jù)進(jìn)行修勻,可能因此導(dǎo)致數(shù)據(jù)前后期出現(xiàn)自相關(guān)。對(duì)缺失數(shù)據(jù)采用某些統(tǒng)計(jì)方法填補(bǔ)時(shí)可能導(dǎo)致自相關(guān)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院49

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX自相關(guān)現(xiàn)象的影響當(dāng)線性

歸模型的隨機(jī)誤差項(xiàng)存在序列相關(guān)時(shí),

就違背了線性歸方程的基本假設(shè),若仍然直接用普通最小二乘法估計(jì)未知參數(shù),將會(huì)造成嚴(yán)重后果:參數(shù)的OLS估計(jì)仍是無偏的,但不再是最小方差線性無偏估計(jì)。均方誤差可能嚴(yán)重低估誤差項(xiàng)的方差。對(duì)方差的低估將導(dǎo)致t值的高估,從而更傾向于拒絕原假設(shè),這時(shí)F

檢驗(yàn)和t

檢驗(yàn)失效。如果直接使用參數(shù)的最小二乘估計(jì)進(jìn)行預(yù)測(cè)和分析,將會(huì)帶來較大的方差甚至錯(cuò)誤的解釋。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院50

/

110BOX-COX

設(shè)x

和y

已經(jīng)過中心化處理。當(dāng)基本假定都滿足時(shí),β1的普通最小二乘估計(jì)記Var

(ε)=σ2,則β?1的方差為現(xiàn)在假設(shè)隨機(jī)誤差項(xiàng)存在一階自相關(guān)εt

=

ρεt?1

+

ut,式中,εt

為當(dāng)期隨機(jī)誤差,εt?1為前期隨機(jī)誤差,ρ為自相關(guān)系數(shù),

ut

則是滿足古典假定的誤差項(xiàng)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院51

/

110

歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX此時(shí),參數(shù)的普通最小二乘估計(jì)仍然是無偏的,因?yàn)镺LS估計(jì)的無偏性僅需要滿足E

(ε)=0的假定;雖然參數(shù)的OLS估計(jì)仍然是無偏的,但其不再是有效的,例如β

的方差?

?1

1

下面推導(dǎo)當(dāng)存在自相關(guān)問題時(shí)參數(shù)OLS估計(jì)的方差。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院52

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院53

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX根據(jù)推導(dǎo)結(jié)果可知:

在實(shí)際中含有經(jīng)濟(jì)變量的模型常常表現(xiàn)為正的自相關(guān),即ρ>0,同時(shí)X

序列自身也呈正相關(guān)。此時(shí)上式表示的估計(jì)量方

β

的方差,將會(huì)低估參數(shù)估計(jì)值的真實(shí)方差。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院54

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX再來看看σ2估計(jì)量σ?2

=(y

?X

β?)?(y

?X

β?),這里p

=1。當(dāng)n?p?1歸模型所有的基本假定都滿足時(shí),σ?2是σ2的無偏估計(jì)。而當(dāng)隨機(jī)誤差項(xiàng)存在一階自相關(guān)時(shí),類似可以證明(5)若隨機(jī)誤差項(xiàng)和自變量X

存在正的一階自相關(guān),

式(5)將小于(n?2)σ2。?2這時(shí)若仍用σ?=??

?(y

?X

β)

(y

?X

β)n?p?1估計(jì)σ2,將會(huì)低估真實(shí)的σ2,且又將使參數(shù)最小二乘估計(jì)值的方差進(jìn)一步低估。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院55

/

110

異常值和強(qiáng)影響點(diǎn)BOX-COX歸模型的診斷

異方差的診斷及其處理

自相關(guān)的診斷及其處理自相關(guān)的診斷-圖示檢驗(yàn)法圖示檢驗(yàn)法是一種直觀的診斷方法,殘差et

的散點(diǎn)圖通常有兩種繪制形式。第一種是以(et?1,et

),t

=2,3,...,n作為散布點(diǎn)繪圖:●●●●●●●●●●●●●●●●●●

●ei

1eiOIIIIIIIV(a)●●●●●●●●●●●●●●●●●●●ei

1ei●OIIIIIIIV李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院56

/

110(b)異常值和強(qiáng)影響點(diǎn)BOX-COX歸模型的診斷

異方差的診斷及其處理

自相關(guān)的診斷及其處理第二種是按時(shí)間順序繪制

歸殘差et

的散點(diǎn)圖:●●●●●●●●●●●tet(a)●●●●●●●●●●●tet(b)?

t如果e

,t

=1,2,...,n隨著t

的變化逐次有規(guī)律地變化,呈現(xiàn)鋸齒形或循環(huán)形狀的變化,表明εt

存在自相關(guān)性。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院57

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX自相關(guān)的診斷-DW檢驗(yàn)

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院58

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院59

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX

-1

4(-1,0)

(2,4)0

2(0,1)

(0,2)完全負(fù)自相關(guān)負(fù)自相關(guān)無自相關(guān)正自相關(guān)

1

0

完全正自相關(guān)

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院60

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX根據(jù)樣本量n和解釋變量的數(shù)目k

(包括常數(shù)項(xiàng))查DW分布表,得到臨界值dL和dU

,然后依下列準(zhǔn)則考察計(jì)算得到的DW值,以決定模型的自相關(guān)狀態(tài):表3.3

DW檢驗(yàn)0

DW

dL誤差項(xiàng)ε1,·

·

·

,εn間存在正自相關(guān)dL

DW

dU不能判定是否存在自相關(guān)dU

DW

4

?

dU誤差項(xiàng)ε1,·

·

·

,εn間無自相關(guān)4

?

dU

DW

4

?

dL不能判定是否存在自相關(guān)4

?

dL

DW

4誤差項(xiàng)ε1,·

·

·

,εn間存在負(fù)自相關(guān)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院61

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX需要注意的是,DW檢驗(yàn)盡管有著廣泛的應(yīng)用,但也有明顯的缺點(diǎn)和局限:DW檢驗(yàn)有兩個(gè)不能確定的區(qū)域,

一旦DW值落在這兩個(gè)區(qū)域,就無法判斷,這時(shí),只有增大樣本量或選取其它檢驗(yàn)方法;DW統(tǒng)計(jì)量的上下界表要求n

>15,這是因?yàn)闃颖玖咳绻傩。?/p>

利用殘差就很難對(duì)自相關(guān)的存在性作出比較正確的診斷;DW檢驗(yàn)不適合隨機(jī)誤差項(xiàng)具有高階自相關(guān)的檢驗(yàn)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院62

/

110異常值和強(qiáng)影響點(diǎn)BOX-COX歸模型的診斷

異方差的診斷及其處理

自相關(guān)的診斷及其處理自相關(guān)現(xiàn)象的改進(jìn)-迭代法以一元線性

歸模型為例,設(shè)一元線性階自相關(guān)歸模型的誤差項(xiàng)存在一

(6)

(7)(8)式(7)表明誤差項(xiàng)εt

存在一階自相關(guān),

式(8)表明ut

滿足

歸模型關(guān)于隨機(jī)誤差項(xiàng)的基本假定。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院63

/

110

歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX

(9)

于是(10)就轉(zhuǎn)化為

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院64

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX由由于自相關(guān)系數(shù)ρ是未知的,需要用DW值對(duì)其進(jìn)行估計(jì)。12ρ?

≈1

?DW

,計(jì)算出ρ的估計(jì)值ρ?。′

′將ρ?代入模型,計(jì)算出變換后的因變量Yt

和自變量Xt

,然后對(duì)模型(11)進(jìn)行最小二乘

歸。如果誤差項(xiàng)確實(shí)是(6)的一階自相關(guān)形式,那么經(jīng)過以上變換,模型(11)已經(jīng)消除自相關(guān),迭代結(jié)束。在實(shí)際問題中,有時(shí)誤差項(xiàng)并不是簡(jiǎn)單的一階自相關(guān),而是 更復(fù)雜的自相關(guān)形式,模型(11)的誤差項(xiàng)

ut

可能仍然存在自 相關(guān)。這就需要進(jìn)一步對(duì)(11)的誤差項(xiàng)ut做DW檢驗(yàn),以判斷ut

是否存在自相關(guān)。如果檢驗(yàn)表明誤差項(xiàng)ut

存在自相關(guān),那么對(duì)

歸模型(11)重 復(fù)運(yùn)用迭代法,直至最終消除誤差項(xiàng)的自相關(guān)性。這種通過 迭代消除自相關(guān)的過程正是迭代法名稱的由來。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院65

/

110異常值和強(qiáng)影響點(diǎn)BOX-COX歸模型的診斷

異方差的診斷及其處理

自相關(guān)的診斷及其處理自相關(guān)現(xiàn)象的改進(jìn)-差分法差分法就是用增量數(shù)據(jù)代替原來的樣本數(shù)據(jù),將原來的

歸模型變?yōu)椴罘中问降哪P?。一階差分法通常適用于原模型存在較高程度的一階自相關(guān)的情況。在前面迭代方程(10)中,當(dāng)ρ

=1時(shí),得Yt

?

Yt?1

=

β1(Xt

?

Xt?1)

+

(εt

?

εt?1).令?Yt

=Yt

?Yt?1,?Xt

=Xt

?Xt?1,則?Yt

=

β1?Xt

+

ut.

(12)觀察(12)式,其不存在序列的自相關(guān),它是以差分?jǐn)?shù)據(jù)?Yt

和?Xt樣本的

歸方程。對(duì)(12)式進(jìn)行最小二乘估計(jì),求得β?1,代入(6)式,還原初始?xì)w方程。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院66

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX農(nóng)村居民收入和消費(fèi)到本節(jié)最開始的農(nóng)村居民收入和消費(fèi)實(shí)例,以人均實(shí)際純收入為自變量,人均實(shí)際消費(fèi)性支出為因變量建立農(nóng)村居民消費(fèi)的線性

歸模型。診斷該模型是否存在自相關(guān)。前文通過圖示檢驗(yàn)法發(fā)現(xiàn)模型具有自相關(guān)現(xiàn)象,殘差存在一階正自相關(guān)。計(jì)算模型的DW值等于0.530,查詢DW統(tǒng)計(jì)量表,對(duì)樣本量 為27,含一個(gè)自變量的模型,5%顯著性水平下的dL

=1.316,

dU

=1.469,則模型的DW值小于dL,表明該消費(fèi)模型存在自 相關(guān)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院67

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX采用適當(dāng)?shù)姆椒ㄌ幚碜韵嚓P(guān)問題。采用迭代法解決自相關(guān)問題。由

歸方程可以得到殘差序列et

,并求出自相關(guān)系數(shù)的估計(jì)ρ?,原模型轉(zhuǎn)化為:Yt

?

ρ?Yt?1

=

β1(1

?

ρ?)

+

β2(Xt

?

ρ?Xt?1)

+

vt.求得

歸方程為Y??

=13.678

+

0.716X

?.t

t??式中Y

=

Y

?

ρ?Y

,?t

t

t?1

t

t

t?1X

=X

?ρ?X

。此時(shí)模型的DW值為1.779。而由DW統(tǒng)計(jì)量表,樣本量為26, 含一個(gè)自變量的模型,5%顯著性水平下的dL

=1.302,dU

= 1.461,則有dU

<DW

<4

?dU

。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院68

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX新的殘差序列圖如下所示,也呈現(xiàn)出無序的狀態(tài),這都表明在5%的顯著性水平下,廣義差分模型已無自相關(guān)。

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院69

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX變換廣義最小二乘估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院70

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX影響分析在歸分析中,因變量Y

的取值yi

具有隨機(jī)性,而自變量X1,...,Xp取值x

i

=(xi

1,...,xip

)?,i

=1,...,n也只是許多可能取到的值中的n組。??ii研究者希望每組數(shù)據(jù)(X

,Y

)對(duì)未知參數(shù)的估計(jì)有一定的影?響,但這種影響不能過大,這樣得到的經(jīng)驗(yàn)

歸方程就具有一定的穩(wěn)健性。歸診斷所要研究的另一個(gè)重要問題,是探查對(duì)參數(shù)估計(jì)或預(yù)測(cè)有異常大的影響的數(shù)據(jù),其中包括異常值與強(qiáng)影響點(diǎn),這部分內(nèi)容在

歸診斷中被稱為影響分析。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院71

/

110歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX杠桿點(diǎn)024

68100

5

1015

20XY02

4

68100

5

1015

20XYA點(diǎn)A雖遠(yuǎn)離樣本其它部分的X

空間,但它幾乎位于通過其它樣本點(diǎn)的

歸直線上,這是一個(gè)杠桿點(diǎn)的例子。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院72

/

110歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX強(qiáng)影響點(diǎn)012345051015XY012345051015XYB所標(biāo)注的B點(diǎn)的橫坐標(biāo)雖然沒有異常,但其縱坐標(biāo)是異常的。 這是一個(gè)強(qiáng)影響點(diǎn),

它會(huì)將

歸模型“拽”

向它自身的方 向,該點(diǎn)將對(duì)

歸系數(shù)有顯著影響。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院73

/

110歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX異常值的類型:關(guān)于因變量Y

的異常值關(guān)于自變量X

的異常值李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院74

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX關(guān)于因變量Y

的異常值由于普通殘差的方差不相等,不具有可比性。因此引入標(biāo)準(zhǔn)化殘差的定義:標(biāo)準(zhǔn)化殘差使殘差具有可比性,但是沒有解決方差不等的問題。學(xué)生化殘差則進(jìn)一步解決了方差不等的問題,

比標(biāo)準(zhǔn)化殘 差又有所改進(jìn)。但是當(dāng)觀測(cè)數(shù)據(jù)中存在關(guān)于Y

的異常觀測(cè)值 時(shí),普通殘差、標(biāo)準(zhǔn)化殘差、學(xué)生化殘差這三種殘差都不再 適用。這是由于異常值把

歸線拉向自身,使異常值本身的殘差減 少,而其余觀測(cè)值的殘差增大,這時(shí)

歸標(biāo)準(zhǔn)差σ?也會(huì)增大, 因而用“3σ”準(zhǔn)則不能正確分辨出異常值。解決這個(gè)問題的 方法是改用刪除殘差。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院75

/

110

歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX在計(jì)算第i

個(gè)觀測(cè)值的殘差時(shí),用除去第i

個(gè)觀測(cè)值的其余n?1個(gè)觀測(cè)值擬合

歸方程,計(jì)算出第i

個(gè)觀測(cè)值的刪除擬合值Y?i

,這個(gè)刪除擬合值與第i

個(gè)值無關(guān),不受第i

個(gè)值是否為異常值的影響。由此定義第i

個(gè)觀測(cè)值的刪除殘差為?(i

)

i

(i

)e

=

Y

?

Y

.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院76

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX刪除殘差e(i

)較普通殘差更能如實(shí)反映第i

個(gè)觀測(cè)值的異常性??梢宰C明進(jìn)一步,可以給出第i

個(gè)觀測(cè)值的刪除學(xué)生化殘差,記為r(i).刪(i

)ir

=

r

(n

?

p

?

1

?

r2i除學(xué)生化殘差r(i

)的表達(dá)式為

n

?

p

?

2

12)

.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院77

/

110

歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX模擬數(shù)據(jù)分析到最初強(qiáng)影響點(diǎn)的例子,從圖中可見B點(diǎn)的Y

值是異常的012345051015XY012345051015XYB李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院78

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX在利用最小二乘法得到經(jīng)驗(yàn)

歸的一元線性

歸模型后,首 先計(jì)算學(xué)生化殘差如表4前兩行所示。但是當(dāng)觀測(cè)數(shù)據(jù)中存 在關(guān)于Y

的異常觀測(cè)值時(shí),學(xué)生化殘差不再適用。其次計(jì)算刪除學(xué)生化殘差,結(jié)果如表4后兩行所示。B點(diǎn)的刪 除學(xué)生化殘差為-7.099,其絕對(duì)值大于3,因此可以判定B點(diǎn) 為異常值點(diǎn)。表

4:學(xué)生化殘差和刪除學(xué)生化殘差編號(hào)12345678910學(xué)生化殘差-0.665-0.057-0.0870.4261.5110.517-0.6710.547-0.754-0.404編號(hào)12131415161718192021學(xué)生化殘差0.446-0.336-0.5431.988-0.0751.252-0.4690.0820.389-3.742編號(hào)12345678910刪除學(xué)生化殘差-0.655-0.056-0.0840.4171.5680.507-0.6610.537-0.745-0.395編號(hào)12131415161718192021刪除學(xué)生化殘差0.437-0.328-0.5332.175-0.0731.272-0.4590.0800.380-7.099李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院79

/

110異常值和強(qiáng)影響點(diǎn)BOX-COX歸模型的診斷

異方差的診斷及其處理

自相關(guān)的診斷及其處理關(guān)于自變量X

的異常值對(duì)

歸的影響在歸分析中,每個(gè)觀測(cè)x

i

=(xi

1,...,xip

)?在自變量空間中的位置影響

歸系數(shù)的確定,較遠(yuǎn)的點(diǎn)可能對(duì)模型參數(shù)的估計(jì)值、標(biāo)準(zhǔn)誤差以及預(yù)測(cè)值等產(chǎn)生不成比例的影響。由Var

(y?)=σ2H且Var

(e)=σ2(I

?H),所以H確定了因變量和誤差項(xiàng)的方差以及二者的協(xié)方差。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院80

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院81

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX如下圖所示,并不是所有的杠桿點(diǎn)都將影響歸系數(shù)。024

6810024

6810XX0

5

1015

20Y0

5

1015

20YA換言之,帽子矩陣對(duì)角線元素僅考察自變量空間中觀測(cè)值的位置。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院82

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX為此,研究者們引入Cook統(tǒng)計(jì)量。Di

=(i

)(β?

?

β?

)?X

?X

(β?

?

β?

)pσ?2(i

)

,

i

=

1,

...,

n,2?2這里σ? =

||y

?

X

β||

/(n

?

p),

而?(i

表示剔除第i

行求得的β的最小二乘估計(jì)。于是,對(duì)一組觀測(cè)數(shù)據(jù),可以通過一個(gè)數(shù)量Di

來刻畫它對(duì)歸系數(shù)估計(jì)影響的大小。然而,Di,i

=1,...,n的計(jì)算很不方(1)

(n)便,它需要分別計(jì)算β?,

β?

,

...,

β?

,涉及n

+1次

歸,計(jì)算量太大。下面的定理提供了計(jì)算Di

的簡(jiǎn)便公式,它只需要計(jì)算完全數(shù)據(jù)的線性

歸模型。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院83

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX定理對(duì)于線性

歸模型(1),Cook統(tǒng)計(jì)量可由下式計(jì)算這里hii

是帽子矩陣H

=X

(X

?X

)?1X

?的第i

個(gè)對(duì)角元,ri

是學(xué)生化殘差。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院84

/

110

歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院85

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX到最初杠桿點(diǎn)的例子,從圖中可見A點(diǎn)的X

值遠(yuǎn)離其他的點(diǎn),但是沒有影響

歸系數(shù)。024

6810024

6810XX0

5

1015

20Y0

5

1015

20YA李揚(yáng)/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院86

/

110歸模型的診斷

異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強(qiáng)影響點(diǎn)BOX-COX在利用最小二乘法得到經(jīng)驗(yàn)

歸的一元線性

歸模型后,首 先計(jì)算各個(gè)自變量的杠桿值hii,i

=1,·

·

·

,n如表5前兩行所 示,發(fā)現(xiàn)A點(diǎn)的杠桿值大于2倍的hˉ,可以認(rèn)為A點(diǎn)是杠桿值 點(diǎn)。其次計(jì)算各個(gè)自變量的庫(kù)克距離如表5后兩行所示,發(fā)現(xiàn)所 有點(diǎn)的庫(kù)克距離均小于1,A點(diǎn)的庫(kù)克距離為0.634,所以A點(diǎn) 是杠桿點(diǎn)但不是異常值。表

5:杠桿值和庫(kù)克距離編號(hào)1234567891011杠桿值0.0480.0630.0480.0630.0610.0480.0510.0500.058

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論