版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX歸分析之緒論應(yīng)用
歸分析李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院1
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX目錄歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX變換廣義最小二乘估計小結(jié)與評注李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院2
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX高斯-馬爾可夫李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院3
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX最小二乘法是一種使誤差平方和達(dá)到最小以尋求估計值的方法,最常見于線性模型。用最小二乘法得到的估計,叫做最小二乘估計。1805年,法國數(shù)學(xué)家勒讓德在他的著作《計算彗星軌道的新 方法》的附錄中第一次公開提出了最小二乘法。德國數(shù)學(xué)家高斯對最小二乘理論的貢獻(xiàn)除了著名的正態(tài)誤差 理論之外,還有高斯-馬爾可夫定理。他聲稱從1799年起就 開始使用最小二乘法,導(dǎo)致了當(dāng)時兩大數(shù)學(xué)家關(guān)于最小二乘 法發(fā)明優(yōu)先權(quán)之爭,類似于牛頓和萊布尼茨關(guān)于微積分發(fā)明 權(quán)的爭論,至今都沒有定論。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院4
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX高斯-馬爾可夫定理是最小二乘理論中最重要的理論結(jié)果,它 從統(tǒng)計學(xué)的角度肯定了最小二乘法的合法性,在此之前,最 小二乘估計只是看上去合理且計算簡便的一種算法。但是實際數(shù)據(jù)有很多情況不滿足高斯-馬爾可夫定理的條件,這一點在二十世紀(jì)中期得到了學(xué)者的廣泛關(guān)注。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院5
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX高斯-馬爾可夫條件李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院6
/
110
異常值和強影響點BOX-COX歸模型的診斷
異方差的診斷及其處理
自相關(guān)的診斷及其處理例1.居民收入和消費的關(guān)系運用截面數(shù)據(jù)研究消費和居民收入的關(guān)系。用Yi
表示第i
戶的消費額,用Xi
表示第i
戶的收入,一個簡單的消費模型為Yi
=
β0
+
β1Xi
+
εi
,
i
=
1,
...,
n.將家庭以收入數(shù)據(jù)按照一定方式進(jìn)行劃分會發(fā)現(xiàn):低收入組家庭用于購買生活必需品的比例相對較大,且購買差異性較小。高收入組家庭購買行為差異很大,自由支配的收入更多意味著更多的購買選擇,消費的分散程度很大。反映在消費模型上則為εi
對回歸直線即均值的偏離程度存在差異,從而出現(xiàn)異方差。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院7
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX例2.經(jīng)濟(jì)模型經(jīng)濟(jì)變量的滯后性會給序列帶來自相關(guān)性。許多經(jīng)濟(jì)變量都會產(chǎn)生滯后影響,
例如物價指數(shù)、基建投 資、國民收入、消費、貨幣發(fā)行量等都有一定的滯后性,例 如前期消費額對后期消費額一般會有明顯的影響。經(jīng)濟(jì)變量的滯后有時表現(xiàn)出一種不規(guī)則的循環(huán)波動,當(dāng)經(jīng)濟(jì) 處于衰退的低谷時,經(jīng)濟(jì)擴(kuò)張期隨之開始,這時大多數(shù)經(jīng)濟(jì) 時間序列上升得快一些。在經(jīng)濟(jì)擴(kuò)張期,經(jīng)濟(jì)時間序列內(nèi)部 有一種內(nèi)在的沖力,序列一直上升到循環(huán)的頂點,在頂點時 刻經(jīng)濟(jì)收縮隨之開始。因此在這樣的時間序列中,序列觀測值之間的相關(guān)現(xiàn)象是很自然的。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院8
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX變換廣義最小二乘估計小結(jié)與評注李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院9
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX殘差分析在利用最小二乘估計得到參數(shù)估計值β?0和β?1后,可以通過下式得到殘差ei
=
Yi
?
β?0
?
β?1Xi
.由于高斯—馬爾可夫條件都是關(guān)于誤差項的,所以研究者自 然地可以從分析誤差項的“估計量”——殘差的角度來考察數(shù) 據(jù)是否滿足假設(shè)。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院10
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX考慮線性
歸模型Y
=
Xβ
+
ε,(1)??1?n若用X
,...,X
表示X
的n個行向量,定義第i
次觀測的殘差?i
i
i?e
=
Y
?
X
β,
i
=
1,
...,
n將殘差ei
看作誤差εi
的一次觀測值,如果模型(1)正確,ei
應(yīng)具有εi
的一些特征。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院11
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COXi記Y?
=X
β?,
稱Y?
為擬合值向量,
稱其第i
個分量Y?i
=X
?β?為第i
個擬合值,則Y?
可以寫成Y?
=
X
(X
?X
)?1X
?Y
=
HY
,其中H
=X
(X
?X
)?1X
?,文獻(xiàn)中通常稱之為帽子矩陣。容易驗證,帽子矩陣H滿足H?
=
H,
H2
=
H,即帽子矩陣是一個對稱冪等陣。利用帽子矩陣H,殘差向量e可表示為e
=
Y
?
Y?
=
(I
?
H)Y
=
(I
?
H)ε.(2)李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院12
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX定理考慮線性
歸模型(1),則由(2)式所定義的殘差向量具有如下性質(zhì):E
(e)
=
0,
Cov
(e)
=
σ2(I
?
H);若進(jìn)一步假設(shè)誤差服從正態(tài)分布,即ε
~N(0,σ2I
),則e
~
N(0,
σ2(I
?
H)).李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院13
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX
李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院14
/
110
歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX根據(jù)正態(tài)分布的性質(zhì),若隨機(jī)變量U
~N(μ,
σ2),則P(μ
?
2σ
<
U
<
μ
+
2σ)
=
95.4%.因此學(xué)生化殘差具有如下性質(zhì):當(dāng)μ
=0,σ
=1時,大約應(yīng)有95.4%的ri
落在區(qū)間[?2,2]中。擬合值向量Y?
與殘差e相互獨立,因而與學(xué)生化殘差r1,...,rn也獨立。如果以擬合值y?i
為橫軸,ri
為縱軸,那么平面上的點(y?i
,ri
),i
= 1,...,n大致應(yīng)落在寬度為4的水平帶|ri|≤2區(qū)域內(nèi),且不呈 現(xiàn)任何趨勢。這種以殘差為縱軸,以擬合值或其它量為橫軸的圖稱為殘差圖,這是回歸診斷的一個重要工具。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院15
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX殘差示意圖李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院16
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX
李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院17
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX本章介紹了
歸模型隨機(jī)誤差項違背基本假設(shè)的診斷與修正方法,以及異常值的識別和處理。隨機(jī)誤差序列方差不同或存在相關(guān),分別對應(yīng)了違背基本假設(shè)的異方差性和自相關(guān)現(xiàn)象。殘差圖分析是診斷兩者最直觀的方式,但比較粗糙。更準(zhǔn)確的診斷方法包括:借助等級相關(guān)系數(shù)檢驗或其他方法 來診斷是否具有異方差性;通過自相關(guān)系數(shù)或DW檢驗等方 法考察序列相關(guān)是否存在。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院18
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX當(dāng)根據(jù)某種檢驗方法認(rèn)為存在異方差時,可以用自變量的冪函數(shù)作為權(quán)函數(shù),作加權(quán)最小二乘
歸。但是加權(quán)最小二乘估計并不能消除異方差,只是能夠消除或減弱異方差的不良影響;研究者們還常??紤]對因變量進(jìn)行方差穩(wěn)定變換,使得對變換過后的數(shù)據(jù),誤差方差能夠近似相等,即方差比較穩(wěn)定;要注意的是方差穩(wěn)定變換在改變誤差項方差的同時,也會改變誤差項的分布和
歸函數(shù)的形式。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院19
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COXDW檢驗是檢驗隨機(jī)誤差項自相關(guān)性最常用的一種方法,但DW檢驗有一些局限性。不僅因其不適合隨機(jī)項具有高階序列相關(guān)的檢驗,還因為DW檢驗有兩個不能確定結(jié)果的區(qū)域。當(dāng)模型存在序列相關(guān)時,常通過迭代法和差分法消除自相關(guān)性。要注意的是用迭代法處理序列相關(guān)并不總是有效。一階差分法是自相關(guān)系數(shù)ρ
=1時的迭代法,因此只有當(dāng)ρ
=1或者接近1時,差分法的效果才會好。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院20
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX異常值的識別和處理是優(yōu)化
歸方程的必要部分。通過散點圖可以簡單直觀地對某些點進(jìn)行甄別。更準(zhǔn)確地方法,則是通過計算刪除學(xué)生化殘差、杠桿值、Cook統(tǒng)計量等對異常值進(jìn)行判斷。識別出異常值后,需要對異常值產(chǎn)生的原因進(jìn)行診斷,不能簡單地剔除異常值。有時異常值是正確的觀測,出現(xiàn)的原因可能是由于模型遺漏 了關(guān)鍵的自變量,或模型設(shè)定錯誤,這時將為模型的修正帶 來啟發(fā)。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院21
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX變換廣義最小二乘估計小結(jié)與評注李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院22
/
110編號
Y
(億元)X
(萬畝)
編號
Y
(億元)
X
(萬畝)農(nóng)作物產(chǎn)值播種面積農(nóng)作物產(chǎn)值播種面積116.31907.516183.6517729.2217.14873.217146.7911061.53125.2413159.218129.6311304.7442.245928.119154.289166.2540.286834.42061.246821.7684.475495.521206.517779.6770.76055.22244.374701.38101.6712694.62351.796036.1916.831018.5243.53316.510211.5112770.92559.457016.5111016542.72637.295252.512155.8712244.3276.33761.71349.723601.52810.071235.21469.78158.12944.784275.115255.9216564.5異常值和強影響點BOX-COX歸模型的診斷
異方差的診斷及其處理
自相關(guān)的診斷及其處理農(nóng)作物種植業(yè)產(chǎn)值與播種面積關(guān)系表
1:1986
年
29
個省市自治區(qū)農(nóng)作物種植業(yè)產(chǎn)值和農(nóng)作物播種面積數(shù)據(jù)李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院23
/
110歸模型的診斷
異方差的診斷及其處理
自相關(guān)的診斷及其處理
異常值和強影響點BOX-COX1986年29個省市自治區(qū)農(nóng)作物種植業(yè)產(chǎn)值和農(nóng)作物播種面積數(shù)據(jù)如表所示,以農(nóng)作物種植業(yè)產(chǎn)值作為因變量Y
,以農(nóng)作物播種面積作為自變量X
,建立一元線性
歸模型。首先利用普通的最小二乘估計得到經(jīng)驗
歸模型Y?
=
?5.661
+
0.012X
.其次做殘差與自變量農(nóng)作物播種面積的散點圖如下所示,可以發(fā)現(xiàn)有明顯的異方差問題。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院24
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX異方差性產(chǎn)生的原因模型設(shè)定錯誤常導(dǎo)致異方差,模型設(shè)定主要包括變量的選擇。模型遺漏關(guān)鍵解釋變量常導(dǎo)致異方差,此時隨機(jī)誤差項、異方差的產(chǎn)生與解釋變量密切相關(guān)。設(shè)正確模型的形式為Yi
=β0
+β1Xi1
+β2Xi2
+β3Xi3
+εi
,但實際采用的是Yi
=
β0
+
β1Xi1
+
β2Xi2
+
ui
,即略去了解釋變量X3。當(dāng)X3與X1,X2之間存在相關(guān)性或某種函數(shù)關(guān)系時,其影響將體現(xiàn)在誤差項中。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院25
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX
李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院26
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX異方差性的影響當(dāng)
歸模型出現(xiàn)異方差時,如果仍用OLS估計來估計未知參數(shù),將引起不良后果。參數(shù)的OLS估計仍是無偏的,但不再是最小方差線性無偏估計(BLUE)。普通最小二乘估計的無偏性僅依賴于解釋變量非隨機(jī)與隨機(jī) 誤差項均值為0的假定,而其為BLUE則需要高斯—馬爾可夫 條件均滿足。本章廣義最小二乘估計這一節(jié)將介紹當(dāng)異方差存在時,比OLS更 有效的線性無偏估計。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院27
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX
?
將不再服從t分布,并且即使擴(kuò)大樣本量也不能解決這個問題。類似地,F(xiàn)
統(tǒng)計量不再服從F
分布。因此,異方差的存在使高 斯-馬爾可夫假定下進(jìn)行的假設(shè)檢驗不再有效,檢驗結(jié)果不再 值得信任。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院28
/
110歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX?歸方程的預(yù)測效果不理想。盡管參數(shù)的普通最小二乘估計的無偏性使得預(yù)測也是無偏的,但參數(shù)的OLS估計不再是有效估計。參數(shù)的OLS估計不是有效估計導(dǎo)致對被解釋變量的預(yù)測也不 再是有效的,
而基于估計量方差的Y
的區(qū)間預(yù)測將產(chǎn)生困 難。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院29
/
110異常值和強影響點BOX-COX歸模型的診斷
異方差的診斷及其處理
自相關(guān)的診斷及其處理異方差性的檢驗——殘差圖法
李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院30
/
110異常值和強影響點BOX-COX歸模型的診斷
異方差的診斷及其處理
自相關(guān)的診斷及其處理異方差性的檢驗——殘差圖法等級相關(guān)系數(shù)法又稱Spearman檢驗,是一種應(yīng)用較廣泛的異方差檢驗方法,其檢驗步驟為:作Y
關(guān)于X
的普通最小二乘
歸,求出εi
的估計值ei
;取ei
的絕對值,將xi
和|ei|按遞增或遞減的次序排列后給出各自的次序等級,按下式計算等級相關(guān)系數(shù)
服從自由度為n?2的t分布。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒中國人民大學(xué)統(tǒng)計學(xué)院31
/
110
異常值和強影響點BOX-COX歸模型的診斷
異方差的診斷及其處理
自相關(guān)的診斷及其處理異方差性的檢驗——Goldfeld-Quanadt檢驗Goldfeld-Quanadt檢驗可用于遞增型或遞減型異方差的檢驗,
其檢驗步驟為:將樣本觀測值按自變量xi
的大小排序;剔除排在中間的m(樣本量的1/5
~1/4)個觀測,并將剩余的觀測值等分為兩個樣本分別進(jìn)行
歸分析;進(jìn)行假設(shè)檢驗。提出假設(shè):
H0:兩部分觀測的方差相等
v.s.H1:兩部分觀測的方差不相等。?
分樣本的殘差平方和進(jìn)行假設(shè)檢驗。在原假設(shè)成立條件下,檢驗統(tǒng)計量李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院32
/
110
歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX異方差性的處理常假定異方差σ2具有如下形式:i2
?0
iσ
=
g
(α
+
α
Z
).其中g(shù)(·)是一個未知的函數(shù)。當(dāng)Z
i
=(Zi
1,...,Ziq
)?是Xj,j
=1,...,p的函數(shù)時,異方差可表i
i示為σ2
=σ2f
(Xi
1,...,Xip
),其中σ2表示第i
個觀測值誤差項的方差,
σ2為常數(shù),f
(Xi
1,...,Xip
)為自變量
X1,...,Xp
的某種函數(shù)。以一元線性
歸模型為例,Yi
=
β0
+
β1Xi
+
εi
,模型具有異方差且隨機(jī)誤差項與自變量有關(guān),則異方差性可表示為Var
(εi
)=
σ2f
(Xi
).李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院33
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX?2當(dāng)模型存在異方差時,σ
的不同意味著對模型估計的不同作i用,在進(jìn)行估計時需要對殘差賦予不同的權(quán)重,從而使殘差平方和能夠更好地反映σ2的真實情況。i處理異方差問題的一個經(jīng)典的方法是加權(quán)最小二乘法,該方法在平方和中加入適當(dāng)?shù)臋?quán)數(shù)ωi
,以調(diào)整各項在平方和中的作用。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院34
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX加權(quán)最小二乘法同樣以一元線性
歸為例:一元線性
歸的加權(quán)最小二乘的離差平方和為
李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院35
/
110
歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX為消除異方差的影響,要使(3)中各項的地位相同,則觀測值的權(quán)數(shù)應(yīng)取觀測值誤差項方差的倒數(shù),即?2i然而,
在實際問題中誤差項方差σ
往往是未知的。但若已
代入(3)求解,即可得到該模型的加權(quán)最小二乘估計。在一些社會學(xué)、經(jīng)濟(jì)學(xué)研究中,誤差項方差與自變量的冪函數(shù)成比例,可根據(jù)相應(yīng)的函數(shù)形式求解。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院36
/
110
序號yxxi
等級殘差ei|ei
||ei
|等級did
2i12648,
7771169.02169.0216-1522521059,
2102-26.6426.643-113909,
9543-104.63104.637-416413110,
5084-110.54110.548-416512210,
9795-159.41159.4115-10100610711,
9126-253.41253.4123
7477-25.1025.102525850313,
49988.238.231749943114,
2699-128.96128.969001058815,
52210-78.0578.0546361189816,
73011129.68129.6810111295017,
66312102.69102.6966361377918,
57513-145.53145.5314-111481919,
63514-195.27195.2719-525151,
22221,
1631578.3678.36510100歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX居民收入與儲蓄額設(shè)某地區(qū)的居民收入與儲蓄額的歷史統(tǒng)計數(shù)據(jù)如下表所示(只展示前15行):表
2:居民收入與儲蓄額李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院37
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX(1)用普通最小二乘法建立儲蓄額Y
與居民收入X
的并畫出殘差散點圖:歸方程,系數(shù)估計標(biāo)準(zhǔn)誤差t
值p值截距項-648.124118.163-5.4900.000x0.0850.00517.3400.000從殘差圖來看,殘差隨X
的增加呈現(xiàn)出增加的趨勢,說明誤差項具有異方差。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院38
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX(2)計算xi
與|ei|等級相關(guān)系數(shù)得rs
=0.686,且p值接近于0,表明誤差項存在異方差。其次對模型進(jìn)行Goldfeld-Quanadt檢驗,p值為0.007<0.05,拒絕原假設(shè),即認(rèn)為模型存在異方差。(3)采用加權(quán)最小二乘法處理異方差問題。2i因為誤差項的方差σ
未知,這里假設(shè)誤差項方差與x
的冪函i
xmi數(shù)xm
成比例,即權(quán)函數(shù)為ω
=
1
,m待定。冪函數(shù)通常需要經(jīng)過多次測試才能確定,一般按照?2,?1.5,?1,?0行測試,選擇對應(yīng)最大對數(shù)似然函數(shù)值的冪指數(shù),求出相應(yīng)的加權(quán)最小二乘
歸模型。經(jīng)過測試得到,當(dāng)m
=1.5時在上述冪指數(shù)值中對應(yīng)最大的對數(shù)似然函數(shù)值,故取m
=1.5進(jìn)行加權(quán)最小二乘
歸。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院39
/
110歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX圖
1:改進(jìn)模型的殘差圖(左)和改進(jìn)模型與原始模型的殘差對比圖(右)由左右兩圖可以看出,本例中加權(quán)最小二乘法對殘差的改造 是細(xì)微的。加權(quán)模型的等級相關(guān)系數(shù)rωs
=0.683,說明異方 差仍然存在。造成這一點的原因可能是誤設(shè)了誤差項和自變量的冪函數(shù)關(guān)系,因此找到合適的函數(shù)關(guān)系十分重要,同時也較為困難。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院40
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX變換廣義最小二乘估計小結(jié)與評注李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院41
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX表
3:1985-2011年農(nóng)村居民人均收入和消費
單位:元年份人均實際純收入人均實際消費性支出年份人均實際純收入人均實際消費1985397.60317.421999703.26501.881986399.40336.432000717.64531.881987410.43353.412001747.68550.111988411.59360.022002785.41581.951989380.94339.062003818.93606.901990415.69354.112004882.63656.681991419.51366.962005961.07754.531992443.43372.7420061,
043.47822.971993458.52382.9120071,
149.28894.891994492.33410.0020081,
247.83959.521995541.43449.6820091,
360.251,
054.141996612.62500.0320101,
512.481,
119.6819971998648.50677.52501.75498.3820111,
691.571,
265.80李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院42
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX以人均實際純收入為自變量,人均實際消費性支出為因變量建立農(nóng)村居民消費的線性
歸模型。使用普通的最小二乘估計求解
歸方程并作出殘差圖如下:殘差圖顯示,殘差的變動有系統(tǒng)模式,連續(xù)為正和連續(xù)為負(fù),這表明殘差項可能存在一階正自相關(guān)。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院43
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX
(4)
李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院44
/
110
歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX隨機(jī)誤差序列產(chǎn)生自相關(guān)的原因具體有:模型設(shè)定偏誤。和模型設(shè)定偏誤將導(dǎo)致異方差一樣,有兩種 情形將產(chǎn)生系統(tǒng)誤差,而該誤差存在于隨機(jī)誤差項中,從而 導(dǎo)致序列產(chǎn)生自相關(guān)。模型遺漏關(guān)鍵自變量;模型函數(shù)形式錯誤。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院45
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX經(jīng)濟(jì)系統(tǒng)的慣性。經(jīng)濟(jì)行為具有時間上的慣性,如GDP、物價、就業(yè)等經(jīng)濟(jì)指標(biāo)隨經(jīng)濟(jì)系統(tǒng)的周期而波動;經(jīng)濟(jì)高速增長時期,較高的經(jīng)濟(jì)增長率會持續(xù)一段時間,經(jīng) 濟(jì)衰退時,較高的失業(yè)率將持續(xù)一段時間,也因此經(jīng)濟(jì)時間 序列數(shù)據(jù)常出現(xiàn)自相關(guān)。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院46
/
110歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX經(jīng)濟(jì)行為的滯后效應(yīng)。滯后效應(yīng)指一個變量對另一個變量的影響不僅限于當(dāng)期,而且會延續(xù)若干期,由此帶來變量的自相關(guān)。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院47
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX蛛網(wǎng)現(xiàn)象。蛛網(wǎng)理論是一種引入時間因素考察價格和產(chǎn)量均衡狀態(tài)變動 過程的理論。將其均衡的變動過程反映在二維座標(biāo)圖上,其 形如蛛網(wǎng)。許多農(nóng)產(chǎn)品的供給呈現(xiàn)為蛛網(wǎng)現(xiàn)象,
供給對價格的反應(yīng)要 滯后一段時間,因為供給需要經(jīng)過一定的時間才能實現(xiàn)。如 果時期t的價格Pt
低于上一期的價格Pt?1,農(nóng)民就會減少時 期t
+1的生產(chǎn)量,如此則形成蛛網(wǎng)現(xiàn)象。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院48
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX數(shù)據(jù)處理造成的自相關(guān)。構(gòu)建模型前期,需要對原始數(shù)據(jù)進(jìn)行一些處理,處理后的數(shù)據(jù)可能產(chǎn)生自相關(guān)。為消除季節(jié)性,對數(shù)據(jù)進(jìn)行修勻,可能因此導(dǎo)致數(shù)據(jù)前后期出現(xiàn)自相關(guān)。對缺失數(shù)據(jù)采用某些統(tǒng)計方法填補時可能導(dǎo)致自相關(guān)。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院49
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX自相關(guān)現(xiàn)象的影響當(dāng)線性
歸模型的隨機(jī)誤差項存在序列相關(guān)時,
就違背了線性歸方程的基本假設(shè),若仍然直接用普通最小二乘法估計未知參數(shù),將會造成嚴(yán)重后果:參數(shù)的OLS估計仍是無偏的,但不再是最小方差線性無偏估計。均方誤差可能嚴(yán)重低估誤差項的方差。對方差的低估將導(dǎo)致t值的高估,從而更傾向于拒絕原假設(shè),這時F
檢驗和t
檢驗失效。如果直接使用參數(shù)的最小二乘估計進(jìn)行預(yù)測和分析,將會帶來較大的方差甚至錯誤的解釋。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院50
/
110BOX-COX
設(shè)x
和y
已經(jīng)過中心化處理。當(dāng)基本假定都滿足時,β1的普通最小二乘估計記Var
(ε)=σ2,則β?1的方差為現(xiàn)在假設(shè)隨機(jī)誤差項存在一階自相關(guān)εt
=
ρεt?1
+
ut,式中,εt
為當(dāng)期隨機(jī)誤差,εt?1為前期隨機(jī)誤差,ρ為自相關(guān)系數(shù),
ut
則是滿足古典假定的誤差項。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院51
/
110
歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX此時,參數(shù)的普通最小二乘估計仍然是無偏的,因為OLS估計的無偏性僅需要滿足E
(ε)=0的假定;雖然參數(shù)的OLS估計仍然是無偏的,但其不再是有效的,例如β
的方差?
?1
1
下面推導(dǎo)當(dāng)存在自相關(guān)問題時參數(shù)OLS估計的方差。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院52
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院53
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX根據(jù)推導(dǎo)結(jié)果可知:
在實際中含有經(jīng)濟(jì)變量的模型常常表現(xiàn)為正的自相關(guān),即ρ>0,同時X
序列自身也呈正相關(guān)。此時上式表示的估計量方
β
的方差,將會低估參數(shù)估計值的真實方差。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院54
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX再來看看σ2估計量σ?2
=(y
?X
β?)?(y
?X
β?),這里p
=1。當(dāng)n?p?1歸模型所有的基本假定都滿足時,σ?2是σ2的無偏估計。而當(dāng)隨機(jī)誤差項存在一階自相關(guān)時,類似可以證明(5)若隨機(jī)誤差項和自變量X
存在正的一階自相關(guān),
式(5)將小于(n?2)σ2。?2這時若仍用σ?=??
?(y
?X
β)
(y
?X
β)n?p?1估計σ2,將會低估真實的σ2,且又將使參數(shù)最小二乘估計值的方差進(jìn)一步低估。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院55
/
110
異常值和強影響點BOX-COX歸模型的診斷
異方差的診斷及其處理
自相關(guān)的診斷及其處理自相關(guān)的診斷-圖示檢驗法圖示檢驗法是一種直觀的診斷方法,殘差et
的散點圖通常有兩種繪制形式。第一種是以(et?1,et
),t
=2,3,...,n作為散布點繪圖:●●●●●●●●●●●●●●●●●●
●ei
1eiOIIIIIIIV(a)●●●●●●●●●●●●●●●●●●●ei
1ei●OIIIIIIIV李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院56
/
110(b)異常值和強影響點BOX-COX歸模型的診斷
異方差的診斷及其處理
自相關(guān)的診斷及其處理第二種是按時間順序繪制
歸殘差et
的散點圖:●●●●●●●●●●●tet(a)●●●●●●●●●●●tet(b)?
t如果e
,t
=1,2,...,n隨著t
的變化逐次有規(guī)律地變化,呈現(xiàn)鋸齒形或循環(huán)形狀的變化,表明εt
存在自相關(guān)性。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院57
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX自相關(guān)的診斷-DW檢驗
李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院58
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院59
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX
-1
4(-1,0)
(2,4)0
2(0,1)
(0,2)完全負(fù)自相關(guān)負(fù)自相關(guān)無自相關(guān)正自相關(guān)
1
0
完全正自相關(guān)
李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院60
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX根據(jù)樣本量n和解釋變量的數(shù)目k
(包括常數(shù)項)查DW分布表,得到臨界值dL和dU
,然后依下列準(zhǔn)則考察計算得到的DW值,以決定模型的自相關(guān)狀態(tài):表3.3
DW檢驗0
≤
DW
≤
dL誤差項ε1,·
·
·
,εn間存在正自相關(guān)dL
≤
DW
≤
dU不能判定是否存在自相關(guān)dU
≤
DW
≤
4
?
dU誤差項ε1,·
·
·
,εn間無自相關(guān)4
?
dU
≤
DW
≤
4
?
dL不能判定是否存在自相關(guān)4
?
dL
≤
DW
≤
4誤差項ε1,·
·
·
,εn間存在負(fù)自相關(guān)李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院61
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX需要注意的是,DW檢驗盡管有著廣泛的應(yīng)用,但也有明顯的缺點和局限:DW檢驗有兩個不能確定的區(qū)域,
一旦DW值落在這兩個區(qū)域,就無法判斷,這時,只有增大樣本量或選取其它檢驗方法;DW統(tǒng)計量的上下界表要求n
>15,這是因為樣本量如果再小,
利用殘差就很難對自相關(guān)的存在性作出比較正確的診斷;DW檢驗不適合隨機(jī)誤差項具有高階自相關(guān)的檢驗。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院62
/
110異常值和強影響點BOX-COX歸模型的診斷
異方差的診斷及其處理
自相關(guān)的診斷及其處理自相關(guān)現(xiàn)象的改進(jìn)-迭代法以一元線性
歸模型為例,設(shè)一元線性階自相關(guān)歸模型的誤差項存在一
(6)
(7)(8)式(7)表明誤差項εt
存在一階自相關(guān),
式(8)表明ut
滿足
歸模型關(guān)于隨機(jī)誤差項的基本假定。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院63
/
110
歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX
(9)
于是(10)就轉(zhuǎn)化為
李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院64
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX由由于自相關(guān)系數(shù)ρ是未知的,需要用DW值對其進(jìn)行估計。12ρ?
≈1
?DW
,計算出ρ的估計值ρ??!?/p>
′將ρ?代入模型,計算出變換后的因變量Yt
和自變量Xt
,然后對模型(11)進(jìn)行最小二乘
歸。如果誤差項確實是(6)的一階自相關(guān)形式,那么經(jīng)過以上變換,模型(11)已經(jīng)消除自相關(guān),迭代結(jié)束。在實際問題中,有時誤差項并不是簡單的一階自相關(guān),而是 更復(fù)雜的自相關(guān)形式,模型(11)的誤差項
ut
可能仍然存在自 相關(guān)。這就需要進(jìn)一步對(11)的誤差項ut做DW檢驗,以判斷ut
是否存在自相關(guān)。如果檢驗表明誤差項ut
存在自相關(guān),那么對
歸模型(11)重 復(fù)運用迭代法,直至最終消除誤差項的自相關(guān)性。這種通過 迭代消除自相關(guān)的過程正是迭代法名稱的由來。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院65
/
110異常值和強影響點BOX-COX歸模型的診斷
異方差的診斷及其處理
自相關(guān)的診斷及其處理自相關(guān)現(xiàn)象的改進(jìn)-差分法差分法就是用增量數(shù)據(jù)代替原來的樣本數(shù)據(jù),將原來的
歸模型變?yōu)椴罘中问降哪P?。一階差分法通常適用于原模型存在較高程度的一階自相關(guān)的情況。在前面迭代方程(10)中,當(dāng)ρ
=1時,得Yt
?
Yt?1
=
β1(Xt
?
Xt?1)
+
(εt
?
εt?1).令?Yt
=Yt
?Yt?1,?Xt
=Xt
?Xt?1,則?Yt
=
β1?Xt
+
ut.
(12)觀察(12)式,其不存在序列的自相關(guān),它是以差分?jǐn)?shù)據(jù)?Yt
和?Xt樣本的
歸方程。對(12)式進(jìn)行最小二乘估計,求得β?1,代入(6)式,還原初始?xì)w方程。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院66
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX農(nóng)村居民收入和消費到本節(jié)最開始的農(nóng)村居民收入和消費實例,以人均實際純收入為自變量,人均實際消費性支出為因變量建立農(nóng)村居民消費的線性
歸模型。診斷該模型是否存在自相關(guān)。前文通過圖示檢驗法發(fā)現(xiàn)模型具有自相關(guān)現(xiàn)象,殘差存在一階正自相關(guān)。計算模型的DW值等于0.530,查詢DW統(tǒng)計量表,對樣本量 為27,含一個自變量的模型,5%顯著性水平下的dL
=1.316,
dU
=1.469,則模型的DW值小于dL,表明該消費模型存在自 相關(guān)。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院67
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX采用適當(dāng)?shù)姆椒ㄌ幚碜韵嚓P(guān)問題。采用迭代法解決自相關(guān)問題。由
歸方程可以得到殘差序列et
,并求出自相關(guān)系數(shù)的估計ρ?,原模型轉(zhuǎn)化為:Yt
?
ρ?Yt?1
=
β1(1
?
ρ?)
+
β2(Xt
?
ρ?Xt?1)
+
vt.求得
歸方程為Y??
=13.678
+
0.716X
?.t
t??式中Y
=
Y
?
ρ?Y
,?t
t
t?1
t
t
t?1X
=X
?ρ?X
。此時模型的DW值為1.779。而由DW統(tǒng)計量表,樣本量為26, 含一個自變量的模型,5%顯著性水平下的dL
=1.302,dU
= 1.461,則有dU
<DW
<4
?dU
。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院68
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX新的殘差序列圖如下所示,也呈現(xiàn)出無序的狀態(tài),這都表明在5%的顯著性水平下,廣義差分模型已無自相關(guān)。
李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院69
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX變換廣義最小二乘估計小結(jié)與評注李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院70
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX影響分析在歸分析中,因變量Y
的取值yi
具有隨機(jī)性,而自變量X1,...,Xp取值x
i
=(xi
1,...,xip
)?,i
=1,...,n也只是許多可能取到的值中的n組。??ii研究者希望每組數(shù)據(jù)(X
,Y
)對未知參數(shù)的估計有一定的影?響,但這種影響不能過大,這樣得到的經(jīng)驗
歸方程就具有一定的穩(wěn)健性。歸診斷所要研究的另一個重要問題,是探查對參數(shù)估計或預(yù)測有異常大的影響的數(shù)據(jù),其中包括異常值與強影響點,這部分內(nèi)容在
歸診斷中被稱為影響分析。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院71
/
110歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX杠桿點024
68100
5
1015
20XY02
4
68100
5
1015
20XYA點A雖遠(yuǎn)離樣本其它部分的X
空間,但它幾乎位于通過其它樣本點的
歸直線上,這是一個杠桿點的例子。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院72
/
110歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX強影響點012345051015XY012345051015XYB所標(biāo)注的B點的橫坐標(biāo)雖然沒有異常,但其縱坐標(biāo)是異常的。 這是一個強影響點,
它會將
歸模型“拽”
向它自身的方 向,該點將對
歸系數(shù)有顯著影響。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院73
/
110歸模型的診斷異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX異常值的類型:關(guān)于因變量Y
的異常值關(guān)于自變量X
的異常值李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院74
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX關(guān)于因變量Y
的異常值由于普通殘差的方差不相等,不具有可比性。因此引入標(biāo)準(zhǔn)化殘差的定義:標(biāo)準(zhǔn)化殘差使殘差具有可比性,但是沒有解決方差不等的問題。學(xué)生化殘差則進(jìn)一步解決了方差不等的問題,
比標(biāo)準(zhǔn)化殘 差又有所改進(jìn)。但是當(dāng)觀測數(shù)據(jù)中存在關(guān)于Y
的異常觀測值 時,普通殘差、標(biāo)準(zhǔn)化殘差、學(xué)生化殘差這三種殘差都不再 適用。這是由于異常值把
歸線拉向自身,使異常值本身的殘差減 少,而其余觀測值的殘差增大,這時
歸標(biāo)準(zhǔn)差σ?也會增大, 因而用“3σ”準(zhǔn)則不能正確分辨出異常值。解決這個問題的 方法是改用刪除殘差。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院75
/
110
歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX在計算第i
個觀測值的殘差時,用除去第i
個觀測值的其余n?1個觀測值擬合
歸方程,計算出第i
個觀測值的刪除擬合值Y?i
,這個刪除擬合值與第i
個值無關(guān),不受第i
個值是否為異常值的影響。由此定義第i
個觀測值的刪除殘差為?(i
)
i
(i
)e
=
Y
?
Y
.李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院76
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX刪除殘差e(i
)較普通殘差更能如實反映第i
個觀測值的異常性??梢宰C明進(jìn)一步,可以給出第i
個觀測值的刪除學(xué)生化殘差,記為r(i).刪(i
)ir
=
r
(n
?
p
?
1
?
r2i除學(xué)生化殘差r(i
)的表達(dá)式為
n
?
p
?
2
12)
.李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院77
/
110
歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX模擬數(shù)據(jù)分析到最初強影響點的例子,從圖中可見B點的Y
值是異常的012345051015XY012345051015XYB李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院78
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX在利用最小二乘法得到經(jīng)驗
歸的一元線性
歸模型后,首 先計算學(xué)生化殘差如表4前兩行所示。但是當(dāng)觀測數(shù)據(jù)中存 在關(guān)于Y
的異常觀測值時,學(xué)生化殘差不再適用。其次計算刪除學(xué)生化殘差,結(jié)果如表4后兩行所示。B點的刪 除學(xué)生化殘差為-7.099,其絕對值大于3,因此可以判定B點 為異常值點。表
4:學(xué)生化殘差和刪除學(xué)生化殘差編號12345678910學(xué)生化殘差-0.665-0.057-0.0870.4261.5110.517-0.6710.547-0.754-0.404編號12131415161718192021學(xué)生化殘差0.446-0.336-0.5431.988-0.0751.252-0.4690.0820.389-3.742編號12345678910刪除學(xué)生化殘差-0.655-0.056-0.0840.4171.5680.507-0.6610.537-0.745-0.395編號12131415161718192021刪除學(xué)生化殘差0.437-0.328-0.5332.175-0.0731.272-0.4590.0800.380-7.099李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院79
/
110異常值和強影響點BOX-COX歸模型的診斷
異方差的診斷及其處理
自相關(guān)的診斷及其處理關(guān)于自變量X
的異常值對
歸的影響在歸分析中,每個觀測x
i
=(xi
1,...,xip
)?在自變量空間中的位置影響
歸系數(shù)的確定,較遠(yuǎn)的點可能對模型參數(shù)的估計值、標(biāo)準(zhǔn)誤差以及預(yù)測值等產(chǎn)生不成比例的影響。由Var
(y?)=σ2H且Var
(e)=σ2(I
?H),所以H確定了因變量和誤差項的方差以及二者的協(xié)方差。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院80
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院81
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX如下圖所示,并不是所有的杠桿點都將影響歸系數(shù)。024
6810024
6810XX0
5
1015
20Y0
5
1015
20YA換言之,帽子矩陣對角線元素僅考察自變量空間中觀測值的位置。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院82
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX為此,研究者們引入Cook統(tǒng)計量。Di
=(i
)(β?
?
β?
)?X
?X
(β?
?
β?
)pσ?2(i
)
,
i
=
1,
...,
n,2?2這里σ? =
||y
?
X
β||
/(n
?
p),
而?(i
)β
表示剔除第i
行求得的β的最小二乘估計。于是,對一組觀測數(shù)據(jù),可以通過一個數(shù)量Di
來刻畫它對歸系數(shù)估計影響的大小。然而,Di,i
=1,...,n的計算很不方(1)
(n)便,它需要分別計算β?,
β?
,
...,
β?
,涉及n
+1次
歸,計算量太大。下面的定理提供了計算Di
的簡便公式,它只需要計算完全數(shù)據(jù)的線性
歸模型。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院83
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX定理對于線性
歸模型(1),Cook統(tǒng)計量可由下式計算這里hii
是帽子矩陣H
=X
(X
?X
)?1X
?的第i
個對角元,ri
是學(xué)生化殘差。李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院84
/
110
歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院85
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX到最初杠桿點的例子,從圖中可見A點的X
值遠(yuǎn)離其他的點,但是沒有影響
歸系數(shù)。024
6810024
6810XX0
5
1015
20Y0
5
1015
20YA李揚/林存潔/王菲菲/孫韜/廖軍歸分析之緒論中國人民大學(xué)統(tǒng)計學(xué)院86
/
110歸模型的診斷
異方差的診斷及其處理自相關(guān)的診斷及其處理異常值和強影響點BOX-COX在利用最小二乘法得到經(jīng)驗
歸的一元線性
歸模型后,首 先計算各個自變量的杠桿值hii,i
=1,·
·
·
,n如表5前兩行所 示,發(fā)現(xiàn)A點的杠桿值大于2倍的hˉ,可以認(rèn)為A點是杠桿值 點。其次計算各個自變量的庫克距離如表5后兩行所示,發(fā)現(xiàn)所 有點的庫克距離均小于1,A點的庫克距離為0.634,所以A點 是杠桿點但不是異常值。表
5:杠桿值和庫克距離編號1234567891011杠桿值0.0480.0630.0480.0630.0610.0480.0510.0500.058
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆吉林省高中數(shù)學(xué)高二上期末學(xué)業(yè)水平測試試題含解析
- 2024年黨史知識競賽題庫150題及答案
- 江蘇省揚州市江大橋高級中學(xué)2025屆高三語文第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測模擬試題含解析
- 河北省唐山市十一中2025屆高三語文第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測模擬試題含解析
- 2025屆云南省玉溪民族中學(xué)數(shù)學(xué)高三第一學(xué)期期末教學(xué)質(zhì)量檢測模擬試題含解析
- 2025屆江蘇省江陰市石莊中學(xué)高一上數(shù)學(xué)期末監(jiān)測試題含解析
- 河北省保定市重點初中2025屆生物高二上期末考試模擬試題含解析
- 2025屆廣東省珠海市示范名校英語高三上期末教學(xué)質(zhì)量檢測試題含解析
- 河北省邢臺市南和一中2025屆高二生物第一學(xué)期期末教學(xué)質(zhì)量檢測模擬試題含解析
- 2025屆北京市豐臺區(qū)市級名校高三語文第一學(xué)期期末調(diào)研試題含解析
- 2024年稅務(wù)考試-稅務(wù)稽查員考試近5年真題附答案
- 小學(xué)德育實施方案
- 電梯日管控、周排查、月調(diào)度制度及管控清單
- 蘇科版2024-2025學(xué)年九年級數(shù)學(xué)上冊 圓的對稱性(專項練習(xí))(培優(yōu)練)
- 2024年《經(jīng)濟(jì)學(xué)基礎(chǔ)》復(fù)習(xí)考試復(fù)習(xí)題庫(含答案)
- 2024秋國開電大《法律文化》形考作業(yè)1~3
- 湖南省衡陽市衡陽縣2024年中考數(shù)學(xué)模擬考試試卷(含答案)
- JTG∕T F30-2014 公路水泥混凝土路面施工技術(shù)細(xì)則
- 上期開特下期出特公式
- 英格索蘭空壓機(jī)服務(wù)協(xié)議
- 《學(xué)寫兒童詩》PPT課件.ppt
評論
0/150
提交評論