111面板數(shù)據(jù)、工具變量選擇和HAUSMAN檢驗的若干問題_第1頁
111面板數(shù)據(jù)、工具變量選擇和HAUSMAN檢驗的若干問題_第2頁
111面板數(shù)據(jù)、工具變量選擇和HAUSMAN檢驗的若干問題_第3頁
111面板數(shù)據(jù)、工具變量選擇和HAUSMAN檢驗的若干問題_第4頁
111面板數(shù)據(jù)、工具變量選擇和HAUSMAN檢驗的若干問題_第5頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、面板數(shù)據(jù)、工具變量選擇和hausman檢驗的若干問題* 此短文適用于對于面板數(shù)據(jù)和工具變量已經(jīng)有初步了解的人士,閱讀過中級教材的相關(guān)內(nèi)容。本文僅供參考,如果存在錯誤,請與minglu73聯(lián)系,以便及時糾正。請原諒中英文混用。中國科學(xué)院的徐志剛博士一一指明了此文存在的錯誤,并且對原文中存在的不足作了大量的補充,特表示感謝。第一節(jié) 關(guān)于面板數(shù)據(jù)panel data1、面板數(shù)據(jù)回歸為什么好一般而言,面板數(shù)據(jù)模型的誤差項由兩部分組成,一部分是與個體觀察單位有關(guān)的,它概括了所有影響被解釋變量,但不隨時間變化的因素,因此,面板數(shù)據(jù)模型也常常被成為非觀測效應(yīng)模型;另外一部分概括了因截面因時間而變化的不可觀測

2、因素,通常被成為特異性誤差或特異擾動項(事實上這第二部分誤差還可分成兩部分,一部分是不因截面變化但隨時間變化的非觀測因素對應(yīng)的誤差項vt,這一部分一般大家的處理辦法是通過在模型中引入時間虛擬變量來加以剝離和控制,另一部分才是因截面因時間而變化的不可觀測因素。不過一般計量經(jīng)濟學(xué)的面板數(shù)據(jù)分析中都主要討論兩部分,在更高級一點的統(tǒng)計學(xué)或計量經(jīng)濟學(xué)中會討論誤差分量模型,它一般討論三部分誤差)。非觀測效應(yīng)模型一般根據(jù)對時不變非觀測效應(yīng)的不同假設(shè)可分為固定效應(yīng)模型和隨機效應(yīng)模型。傳統(tǒng)上,大家都習(xí)慣這樣分類:如果把非觀測效應(yīng)看做是各個截面或個體特有的可估計參數(shù),并且不隨時間而變化,則模型為固定效應(yīng)模型;如果

3、把非觀測效應(yīng)看作隨機變量,并且符合一個特定的分布,則模型為隨機效應(yīng)模型。不過,上述定義不是十分嚴謹,而且一個非常容易讓人產(chǎn)生誤解的地方是似乎固定效應(yīng)模型中的非觀測效應(yīng)是隨時間不變的,是固定的,而隨機效應(yīng)模型中的非觀測效應(yīng)則不是固定的,而是隨時間變化的。一個邏輯上比較一致和嚴謹,并且越來越為大家所接受的假設(shè)是(參見wooldridge的教材和mundlak1978年的論文),不論固定效應(yīng)還是隨機效應(yīng)都是隨機的,都是概括了那些沒有觀測到的,不隨時間而變化的,但影響被解釋變量的因素(尤其當(dāng)截面?zhèn)€體比較大的時候,這種假設(shè)是比較合理的)。非觀測效應(yīng)究竟應(yīng)假設(shè)為固定效應(yīng)還是隨機效應(yīng),關(guān)鍵看這部分不隨時間變

4、化的非觀測效應(yīng)對應(yīng)的因素是否與模型中控制的觀測到的解釋變量相關(guān),如果這個效應(yīng)與可觀測的解釋變量不相關(guān),則這個效應(yīng)成為隨機效應(yīng)。這也正是hausman設(shè)定檢驗所需要檢驗的假說。非觀測效應(yīng)模型因為對非觀測效應(yīng)假設(shè)的不同,因為使用面板數(shù)據(jù)信息的不同,可以用不同方法來估計并且得到不同的估計量,一般有四個:(1)組內(nèi)估計量(within estimator)(fe或fd: first difference)(2)組間估計量(between estimator)(3)混合ols估計量(pooled ols estimator)(4)隨機效應(yīng)估計量(re,gls或fgls估計量)這四個估計量因為假設(shè)和使用信

5、息的不同而不同,各有優(yōu)劣勢,相互之間也有密切關(guān)系。3和4分別是1和2的加權(quán)平均;4在特定的假設(shè)分別可以轉(zhuǎn)化成1和3;如果hausman檢驗表明4和1沒有區(qū)別的時候意味著1和2沒有區(qū)別。re假設(shè)未觀察因素與解釋變量是正交的,只不過在未觀察因素里有兩個部分,一是與個體單位有關(guān)的,二是完全隨機的,re在做估計的時候,是用這兩個部分的方差計算出一個指數(shù),來做quasi-demean,也就是說在去平均的時候是用原值的y或x減去乘以y或x的均值,然后用gls估計。極端地,當(dāng)為0時,非觀測效應(yīng)是一個常數(shù),并且所有個體都一樣,就等價于pooled ols,當(dāng)為1時,說明完全隨機的部分可以忽略,所有未觀察因素都

6、是與單位有關(guān)的,于是就等價于fe。但fe不需要假定未觀察因素與解釋變量是正交的,在做fe時,固定效應(yīng)都被差分掉了,所以也可得到consistent的結(jié)果。panel數(shù)據(jù)的好處之一是,如果未觀察到的是固定效應(yīng),那么在做demean時,未觀察因素就被差分掉了。這樣就可以減少由于未觀察的因素可能與解釋變量相關(guān)而導(dǎo)致的內(nèi)生性問題。2、那么panel的fe或re分析就避免了內(nèi)生性問題嗎?只能說好一些,如果內(nèi)生的問題只是由于與單位有關(guān)的并不隨時間變化的遺漏變量與解釋變量有關(guān)造成的,這時,數(shù)據(jù)的差分就解決了問題,但是,別忘記還有一部分誤差,如果這部分誤差里包含的因素也可能影響解釋變量,那么,差分只能解決前面

7、講的問題,由隨機項里包括的因素與解釋變量之間的關(guān)系導(dǎo)致的內(nèi)生性問題還可能存在。3、怎么辦? 找iv解決。類似于在ols基礎(chǔ)上找iv,但對panel的工具應(yīng)該具有panel結(jié)構(gòu),除非你基礎(chǔ)的估計沒有使用panel的方法,比如說對數(shù)據(jù)用了pooled ols方法,但能夠用pooled ols方法分析panel data的條件是很嚴格的。第二節(jié) 關(guān)于工具變量選擇1, iv應(yīng)該盡量是外生的(如歷史/自然/氣候/地理之類),它應(yīng)該在理論上對被解釋變量(以下稱y)沒有直接影響,但應(yīng)該通過影響被工具的變量(以下稱x)而間接影響被解釋變量y。2, 如果上述理論邏輯通的話,將內(nèi)生變量x作為解釋變量,iv和其他變

8、量(x2)作為解釋變量,看iv是否顯著,它應(yīng)該顯著。如果選了多個iv,就用f test看其是否都不顯著。同時,如果在多個iv中,有一個是確定為外生的,那么,可以用sargan test of overidentifying restrictions來檢驗其他的iv是不是確實是外生的。3, 如果上述都沒有問題,做一下iv回歸。完成后,用hausman檢驗,這個檢驗的原假說是iv回歸與原回歸(不用iv的回歸)的變量的系數(shù)并沒有顯著的不同。看一下p值,如果p小于比如說0.1,或者0.05,那么,說明iv回歸與原來的回歸顯著不同,原來的方程的確有內(nèi)生性問題導(dǎo)致的估計偏誤。反之,如果p很高,超過0.1,

9、或0.05,那說明iv回歸與原來的回歸沒有顯著不同,無法拒絕原來的回歸沒有顯著的內(nèi)生問題導(dǎo)致的估計偏誤的原假設(shè)。4, 如果選擇的iv本身就影響y,那它就不能被作為iv。例如,y在左邊,右邊是x(被工具的),x2,iv。當(dāng)iv被放在方程右邊時,它最好是不顯著影響y的。在acemoglu(2001)里,他就檢驗了他們的iv是否直接影響被解釋變量,結(jié)果說明不直接影響,于是這個iv是好的。當(dāng)然,一個好的iv在前面的回歸中也可能是顯著的(不過一般如果理論和邏輯上iv是通過被工具的內(nèi)生解釋變量間接影響被解釋變量的話,一般來說應(yīng)該是被工具的內(nèi)生解釋變量使得iv不顯著,或者由于兩者相關(guān)性很高,兩者都不顯著),

10、但判斷的標準還只是t值。這個變量顯著完全有可能是因為它影響了其他顯著的變量(比如被工具的變量),如果是這樣,當(dāng)包括了iv在原方程中以后,其他變量(特別需要注意的是被工具的變量x)的系數(shù)可能發(fā)生明顯變化。 第三節(jié) 關(guān)于hausman tset(以下簡稱ht)的若干細節(jié)問題具體參見stata corporation, 2001, stata 7 reference h-p, stata press1,含義:“the null hypothesis is that the efficient estimator is a consistent and efficient estimator of t

11、he true parameters. if it is, there should be no systematic difference between the coefficients of the efficient estimator and a comparison estimator that is known to be consistent for the true parameters. if the two models display a systematic difference in the estimated coefficients, then we have

12、reason to doubt the assumptions on which the efficient estimator is based.”參見手冊stata corporation, 2001, stata 7 reference h-p, stata press。該方法是hausman (1978)的程序化。所以,hausman test的命令(hausman)假設(shè)使用者知道需要比較的兩個方程中哪一個是“無論原假說成立與否都是consistent”,哪一個“在原假說下不僅efficient而且consistent,但若原假說不成立,則inconsistent”, refer to

13、 the appendix for the definition of unbiased, consistent and efficient.然后,在stata 8下,步驟是: (1) obtain an estimator that is consistent whether or not the hypothesis is true; (2) store the estimation results under a name-consistent using estimates store; (3) obtain an estimator that is efficient (and co

14、nsistent) under the hypothesis that you are testing, but inconsistent otherwise; (4) store the estimation results under a name-efficient using estimates store; (5) use hausman to perform the test hausman name-consistent name-efficient , options舉例:(1)在關(guān)于是fe還是re的檢驗中,原假說是非觀測效應(yīng)與解釋變量不相關(guān),備擇假說是兩者相關(guān)。fe是無論原假

15、說成立與否都是consistent,而re在原假說下是consistent,并且asymptotically efficient(樣本越大越有效),但如果原假說被拒絕,則re不是consistent的 (hausman, 1978)。所以做法應(yīng)該是(stata 8的命令):sort code year (排序)tis year (時間變量是year)iis code (表示單位的是code)xtreg y x x2, fe(假設(shè)其中x是需要被工具的變量)est store fixed (在stata8里命令有變化,不再是hausman,save了,這里的fixed實際上就是個變量名,用什么都行

16、)xtreg y x x2, rehausman fixed(2)比較ols(或fe)和iv(或ivfe)先做iv,因為,它無論如何都是consistent的,但ols只有在原假設(shè)成立,即ols結(jié)果與iv結(jié)果相同,內(nèi)生性問題沒有時,才是consistent的。所以,應(yīng)該先做iv。在老版本的stata里,如果不加特殊說明,stata就會默認為先寫的回歸命令得到的是總是一致的估計結(jié)果,后寫的得到的是備擇假設(shè)下不一致的估計結(jié)果?,F(xiàn)在hausman命令規(guī)范了,而且擴展了。先跑哪個不重要,關(guān)鍵在于寫最后hausman命令時候的順序,而且如果最近跑的一個沒有用est存名字的話,要用“.”代替。2注意:(1

17、)對以上檢驗的理解的另一種方式是,我們先做一個假設(shè)條件要求更松的估計,然后再做一個假設(shè)條件更嚴格的。相比之下,iv(ivfe)比ols(fe)要求更松。容易搞混的是fe比re假設(shè)條件更松。re假設(shè)未觀察因素與解釋變量是正交的,只不過在未觀察因素里有兩個部分,一是與個體單位有關(guān)的,二是完全隨機的,re在做估計的時候,是用這兩個部分的方差計算出一個指數(shù),來做quasi-demean,也就是說在去平均的時候是用原值的y或x減去乘以y或x的均值,然后用gls估計。當(dāng)為0時,就等價于pooled ols,當(dāng)為1時,說明完全隨機的部分可以忽略,所有未觀察因素都是與單位有關(guān)的,于是就等價于fe。但fe不需要

18、假定未觀察因素與解釋變量是正交的,在做fe時,固定效應(yīng)都被差分掉了,所以也可得到consistent的結(jié)果。當(dāng)我們先做假設(shè)更嚴格的估計時,ht與一般檢驗一樣,檢驗值大,p小,則原假說拒絕,應(yīng)該接受假設(shè)更松的。在fe與re的比較里,卡方大,接受fe。在ols(fe)與iv(或ivfe)的比較里,當(dāng)卡方值大時,p小時,拒絕原假說,iv結(jié)果和ols(或fe)有不同,于是接受iv結(jié)果。(2)從以上討論可以看出,我們需要事先知道ht時兩個方程的順序和性質(zhì)。在stata7以下,當(dāng)使用hausman命令時,它默認的順利(缺省參數(shù)more)就是上面的順序。如果你做的順序相反,就應(yīng)該加上參數(shù),命令為hausma

19、n, less,如果沒有寫less,那么,stata是不知道誰更efficient的,這時,你本來應(yīng)該得到一個正的結(jié)果,就完全可能因為順序錯了,又忘記了參數(shù)less而得到一個相反的負數(shù)結(jié)果。在stata8里命令變化,可以變順序,但要使用者注意正確使用參數(shù): the order of computing the two estimators may be reversed. you have to be careful though to specify to hausman the models in the order always consistent first and efficien

20、t under h0 second. it is possible to skip storing the second model and refer to the last estimation results by a period (.).(3)在其他可比較的情況下,順序并不重要(如果沒有誰更有效的差別) hausman may be used in any context. the order in which you specify the regressors in each model does not matter, but it is your responsibility

21、 to assure that the estimators and models are comparable, and satisfy the theoretical conditions (see (1) and (3)above).(4)當(dāng)ht出現(xiàn)負值時先看一下是不是方程順序錯了。如果沒有錯,那么在小樣本數(shù)據(jù)下也并不是不可能得到負值。當(dāng)hausman檢驗的x2值是負的時候,意思是強烈地表明兩個被比較的回歸結(jié)果系數(shù)相同(或者說無顯著差異)的原假說不能被拒絕,尤其是小樣本中很可能出現(xiàn)。這是stata7的使用手冊上的一個例子說的。但在stata8里,又說,出現(xiàn)負值這種情況時,if this

22、is the case, the hausman test is undefined. unfortunately, this is not a rare event. stata supports a generalized hausman test that overcomes both of these problems. see suest for details.可以通過help suest了解。3stata命令(1)比較fe和resort code year (排序)tis year (時間變量是year)iis code (表示單位的是code)xtreg y x x2, fe(

23、假設(shè)其中x是需要被工具的變量)est store fixed (在stata8里命令有變化,不再是hausman,save了,這里的fixed實際上就是個變量名,用什么都行)xtreg y x x2, rehausman fixed(2)比較ivfe和ivrextivreg y (x=iv) x2, feest store f1xtivreg y (x=iv) x2, rehausman f1 一般來說用不著這個比較,因為在這之前,你已經(jīng)知道fe和re誰好了,就將好的結(jié)果與它的iv結(jié)果比就行了。(3)比較ivfe和fextivreg y (x=iv) x2, feest store f2xtr

24、eg y x x2, fehausman f2再重復(fù)一遍,如果結(jié)果是p小,卡方大才說明iv回歸是必要的,原來是有內(nèi)生問題第四節(jié) 舉例acemoglu等人(2001)的文章是非常有代表性的使用工具變量的論文。他們試圖驗證制度對人均收入有影響,顯然,直接做回歸的話,制度就是內(nèi)生的,因為好的制度可能在人均收入高的地方產(chǎn)生。他們找的工具變量是殖民地時代一個國家的死亡率,死亡率高歐洲人就不會定居下來,于是就會在當(dāng)時建議掠奪性的制度,反之就會建立好的制度,而那時的制度對現(xiàn)在仍然有影響。特別值得注意的是論文的6.3部分對于工具變量的有效性的檢驗。首先,他們用其他可行的變量作為替代來反復(fù)做iv回歸,發(fā)現(xiàn)得到的

25、結(jié)果與用死亡率作iv得到的結(jié)果基本相同。(這當(dāng)然是不錯的結(jié)果,但是,我認為這不是必要的,因為你并不一定能夠找到其他的iv。)然后,他們將死亡率本身作為外生變量放在原回歸里,發(fā)現(xiàn)它不顯著地影響被解釋變量,這說明它并不直接影響被解釋變量。第三,他們把只用死亡率的iv結(jié)果和同時用死亡率和其他iv的結(jié)果進行卡方檢驗,發(fā)現(xiàn)它們沒有顯著不同,再次說明死亡率沒有直接影響,也不是通過影響制度以外的其他變量影響被解釋變量的。我認為這一步也不是必要的,因為如果你沒有其他iv,這一步也就沒有辦法做了。參考文獻:acemoglu, daron, simon johnson and james a. robinson

26、(2001) “the colonial origins of comparative development: an empirical investigation,” american economic review, december, volume 91, number 5, 1369-1401.stata corporation, 2001, stata 7 reference h-p, stata press.hausman, jerry a. and william e. taylor, 1981, “panel data and unobservable individual effects,” econometrica, vol. 49, no. 6, 1377-1398.hausman, jerry a., 1978, “specification tests in econometrics,” econometrica, vol. 46, no. 6

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論