演示文稿第九講面板數(shù)據(jù)回歸_第1頁
演示文稿第九講面板數(shù)據(jù)回歸_第2頁
演示文稿第九講面板數(shù)據(jù)回歸_第3頁
演示文稿第九講面板數(shù)據(jù)回歸_第4頁
演示文稿第九講面板數(shù)據(jù)回歸_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

(優(yōu)選)第九講面板數(shù)據(jù)回歸當前第1頁\共有62頁\編于星期四\9點時間序列數(shù)據(jù)或截面數(shù)據(jù)都是一維數(shù)據(jù)。例如時間序列數(shù)據(jù)是變量按時間得到的數(shù)據(jù);截面數(shù)據(jù)是變量在截面空間上的數(shù)據(jù)。面板數(shù)據(jù)是同時在時間和截面上取得的二維數(shù)據(jù)。所以,面板數(shù)據(jù)(paneldata)也稱時間序列截面數(shù)據(jù)(timeseriesandcrosssectiondata)或混合數(shù)據(jù)(pooldata)。當前第2頁\共有62頁\編于星期四\9點面板數(shù)據(jù),簡言之是時間序列和截面數(shù)據(jù)的混合。嚴格地講是指對一組個體(如居民、國家、公司等)連續(xù)觀察多期得到的資料。所以很多時候我們也稱其為“追蹤資料”。近年來,由于面板數(shù)據(jù)資料的獲得變得相對容易,使其應用范圍也不斷擴大。當前第3頁\共有62頁\編于星期四\9點1996-2002年中國15個省級地區(qū)的居民家庭人均消費數(shù)據(jù)(不變價格)

(例一)地區(qū)人均消費1996199719981999200020012002CP-AH(安徽)3282.4663646.1503777.4103989.5814203.5554495.1744784.364CP-BJ(北京)5133.9786203.0486807.4517453.7578206.2718654.43310473.12CP-FJ(福建)4011.7754853.4415197.0415314.5215522.7626094.3366665.005CP-HB(河北)3197.3393868.3193896.7784104.2814361.5554457.4635120.485CP-HLJ(黑龍江)2904.6873077.9893289.9903596.8393890.5804159.0874493.535CP-JL(吉林)2833.3213286.4323477.5603736.4084077.9614281.5604998.874CP-JS(江蘇)3712.2604457.7884918.9445076.9105317.8625488.8296091.331CP-JX(江西)2714.1243136.8733234.4653531.7753612.7223914.0804544.775CP-LN(遼寧)3237.2753608.0603918.1674046.5824360.4204654.4205402.063CP-NMG(內蒙古)2572.3422901.7223127.6333475.9423877.3454170.5964850.180CP-SD(山東)3440.6843930.5744168.9744546.8785011.9765159.5385635.770CP-SH(上海)6193.3336634.1836866.4108125.8038651.8939336.10010411.94CP-SX(山西)2813.3363131.6293314.0973507.0083793.9084131.2734787.561CP-TJ(天津)4293.2205047.6725498.5035916.6136145.6226904.3687220.843CP-ZJ(浙江)5342.2346002.0826236.6406600.7496950.7137968.3278792.210當前第4頁\共有62頁\編于星期四\9點面板數(shù)據(jù)的格式(例二)companyyearinvestmvalue11951755.9483311952891.24924.9119531304.46241.7119541486.75593.621951588.22289.521952645.52159.4219536412031.321954459.32115.531951135.21819.431952157.32079.731953179.52371.631954189.62759.9當前第5頁\共有62頁\編于星期四\9點當描述截面數(shù)據(jù)時,我們用下標表示個體,如Yi表示第i個個體的變量Y。當描述面板數(shù)據(jù)時,我們需要其他符號來同時表示個體和時期。為此我們采用雙下標而不是單下標,其中第一個下標i表示個體,第二個下標t表示觀測時間。于是Yit表示n個個體中第i個個體在T期中的第t個時期內變量Y的觀測值。當前第6頁\共有62頁\編于星期四\9點面板數(shù)據(jù)用雙下標變量表示。例如

Yit,i=1,2,…,N;t=1,2,…,TN表示面板數(shù)據(jù)中含有N個個體。T表示時間序列的最大長度。

對于樣本點來說:當前第7頁\共有62頁\編于星期四\9點Stata中面板數(shù)據(jù)的表示companyyearinvestmvalue11951755.9483311952891.24924.9119531304.46241.7119541486.75593.621951588.22289.521952645.52159.4219536412031.321954459.32115.531951135.21819.431952157.32079.731953179.52371.631954189.62759.9當前第8頁\共有62頁\編于星期四\9點在stata中,首先使用xtset命令指定個體特征和時間特征,然后可以用xtdes命令顯示面板數(shù)據(jù)的結構。

usefatality,clearxtsetstateyearxtdes當前第9頁\共有62頁\編于星期四\9點短面板和長面板如果面板數(shù)據(jù)T較小,而n較大,這種面板數(shù)據(jù)被稱為“短面板”(shortpanel)。(大n小T)如fatality.dta

反之,如果T較大,而n較小,則被稱為“長面板”(longpanel)。(大T小n)如Grunfeld.dta

當前第10頁\共有62頁\編于星期四\9點面板數(shù)據(jù)的優(yōu)勢(1)可以解決遺漏變量問題:遺漏變量偏差是一個普遍存在的問題。雖然可以用工具變量法解決,但有效的工具變量常常很難找。遺漏變量常常是由于不可觀測的個體差異或“異質性”(heterogeneity)所造成,如果這種個體差異“不隨時間而改變”(timeinvariant),則面板數(shù)據(jù)提供了解決遺漏變量問題的又一利器。(2)提供更多個體動態(tài)行為的信息:由于面板數(shù)據(jù)同時有截面與時間兩個維度,有時它可以解決單獨的截面數(shù)據(jù)或時間序列數(shù)據(jù)所不能解決的問題。當前第11頁\共有62頁\編于星期四\9點比如,如何區(qū)分規(guī)模效應與技術進步對企業(yè)生產效率的影響。在截面數(shù)據(jù)中,由于沒有時間維度,故無法觀測到技術進步。然而,對于單個企業(yè)的時間序列數(shù)據(jù)來說,我們無法區(qū)分其生產效率的提高究竟有多少是由于規(guī)模擴大,有多少是由于技術進步。(3)樣本容量較大:由于同時有截面維度與時間維度,通常面板數(shù)據(jù)的樣本容量更大,可以提高估計的精確度。當前第12頁\共有62頁\編于星期四\9點面板數(shù)據(jù)的建模方法主要有三種:固定效應回歸模型隨機效應回歸模型混合回歸模型當前第13頁\共有62頁\編于星期四\9點實例:交通事故死亡人數(shù)和酒精稅當前第14頁\共有62頁\編于星期四\9點當前第15頁\共有62頁\編于星期四\9點由此我們就能得出增加啤酒稅收會導致更多的交通事故死亡人數(shù)嗎?不一定,這是因為這些回歸中可能存在著巨大的遺漏變量偏差。當前第16頁\共有62頁\編于星期四\9點影響死亡率的因素有很多,包括:1。州內駕駛的汽車質量;2。高速公路的維修情況是否良好;3。大部分駕駛的路程是在鄉(xiāng)下還是市內;4。路上的汽車密度;5。社會文化能否接受酒后駕車等。這些因素都有可能與酒精稅有關。若相關,則會導致遺漏變量偏差。一種解決這些導致遺漏變量偏差潛在根源的方法是收集這些變量的數(shù)據(jù),并把它們加入到上式中。不幸的是,我們很難或不可能度量諸如酒后駕車的文化接受度等變量。當前第17頁\共有62頁\編于星期四\9點解決方法:固定效應OLS回歸具有兩個時期的面板數(shù)據(jù):“前后”比較特別注意:Zi不隨時間變化當前第18頁\共有62頁\編于星期四\9點結論:兩期的變化(差分)表示的回歸消除了隨時間不變的不可觀測變量Zi的效應。換言之,分析Y和X的變化可以控制隨時間不變的變量,于是就消除了這種產生遺漏變量偏差的來源。當前第19頁\共有62頁\編于星期四\9點當前第20頁\共有62頁\編于星期四\9點當數(shù)據(jù)是在兩個不同年份里觀測得到的時候,這種“前后”分析很有效。但我們的數(shù)據(jù)集中包含7個不同年份里的觀測值,即當T>2時不能直接應用這種“前后”比較方法。為了分析該面板數(shù)據(jù)集中的所有觀測值,我們使用固定效應回歸方法。當前第21頁\共有62頁\編于星期四\9點固定效應模型對于特定的個體i而言,ai

表示那些不隨時間改變的影響因素,如個人的消費習慣、國家的社會制度、地區(qū)的特征、性別等,一般稱其為“個體效應”

(individualeffects)。如果把“個體效應”當作不隨時間改變的固定性因素,相應的模型稱為“固定效應”模型。當前第22頁\共有62頁\編于星期四\9點當前第23頁\共有62頁\編于星期四\9點當前第24頁\共有62頁\編于星期四\9點對于固定效應模型,可采用虛擬變量法?;舅枷耄汗潭ㄐP蛯嵸|上就是在傳統(tǒng)的線性回歸模型中加入N-1個虛擬變量,使得每個截面都有自己的截距項。由于固定效應模型假設存在著“個體效應”,每個個體都有其單獨的截距項。這就相當于在原方程中引入n?1個虛擬變量(如果省略常數(shù)項,則引入n個虛擬變量)來代表不同的個體,獲得每個個體的截據(jù)項。當前第25頁\共有62頁\編于星期四\9點當前第26頁\共有62頁\編于星期四\9點如何理解個體效應、個體截距項的不同以及虛擬變量的引入?我們用一份模擬的數(shù)據(jù)來分析:

useexample,clearxtsetcompanyyearxtdes1。畫出散點圖和擬合線,并建立OLS回歸方程。2。加入虛擬變量,并重新畫出建立OLS回歸方程。當前第27頁\共有62頁\編于星期四\9點regyx當前第28頁\共有62頁\編于星期四\9點當前第29頁\共有62頁\編于星期四\9點gend1=0gend2=0gend3=0replaced1=1ifid==1replaced2=1ifid==2replaced3=1ifid==3regyxd1d2當前第30頁\共有62頁\編于星期四\9點固定效應模型的估計算法“個休中心化”O(jiān)LS算法或者組內離差估計法假設原方程為:(式1)給定第i個個體,將(式1)兩邊對時間取平均可得,(式2)當前第31頁\共有62頁\編于星期四\9點(式1)–(式2),得:可以用OLS方法一致地估計β,稱為“固定效應估計量”(FixedEffectsEstimator),記為由于主要使用了每個個體的組內離差信息,故也稱為“組內估計量”(withinestimator)。當前第32頁\共有62頁\編于星期四\9點固定效應模型的優(yōu)勢和劣勢面板固定效應模型的優(yōu)勢是:即使個體特征ui與解釋變量Xit相關,只要使用組內估計量,就可以得到一致估計,即即使存在不隨時間改變的遺漏變量,也可得到無偏一致的估計。面板固定效應模型的劣勢是:模型無法估計不隨時間而變的變量之影響,這需要用隨機效應模型。當前第33頁\共有62頁\編于星期四\9點在交通事故死亡人數(shù)中的應用由于(10.8)式中的“差分”回歸只用了1982年和1988年的數(shù)據(jù)(具體講就是這兩年的差額),而(10.15)式中的固定效應回歸用到了所有7年的數(shù)據(jù),因此這兩個回歸是不同的。由于利用了更多的數(shù)據(jù),因此(10.15)式中的標準誤差小于(10.8)式中的標準誤差。當前第34頁\共有62頁\編于星期四\9點固定效應模型的stata實現(xiàn)

usefatality,clearxtsetstateyearxtdesxtlineFatalityRate固定效應模型:

xtregFatalityRatebeertax,fe當前第35頁\共有62頁\編于星期四\9點回歸結果解讀1。三個R2哪個重要?2。固定效應為什么有兩個F檢驗?3。corr(u_i,Xb)的含義。4。sigma_u、sigma_e、rho的含義。當前第36頁\共有62頁\編于星期四\9點1。因為固定效應模型是組內估計量(離差),因此,只有within是一個真正意義上的R2,其他兩個是組間相關系數(shù)的平方。2。右側的F統(tǒng)計量表示除常數(shù)項外其他解釋變量的聯(lián)合顯著性。最后一個F檢驗,原假設所有U_i=0,即不存在個體效應,不必使用固定效應模型。首先注意:結果中的u_i不表示殘差,而是表示個體效應。當前第37頁\共有62頁\編于星期四\9點3。corr(u_i,Xb)個體效應與解釋變量的相關系數(shù),相關系數(shù)為0或者接近于0,可以使用隨機效應模型;相關系數(shù)不為0,需要使用固定效應模型。4。sigma_u:表示個體效應的標準差sigma_e:表示干擾項的標準差rho:rho=sigma_u^2/(sigma_u^2+sigma_e^2)

個體效應的波動占整個波動的比例。當前第38頁\共有62頁\編于星期四\9點

顯示每個個體截距的方法:

tabstate,gen(dum)dropdum1regFatalityRatebeertaxdum*當前第39頁\共有62頁\編于星期四\9點例二

usegrunfeld,clearxtsetcompanyyearxtdesxtlineinvest固定效應模型:xtreginvestmvaluekstock,fe當前第40頁\共有62頁\編于星期四\9點顯示每個個體截距的方法:

tabcompany,gen(dum)reginvestmvaluekstockdum*,noconsdropdum1reginvestmvaluekstockdum*

分析每個公司的截距當前第41頁\共有62頁\編于星期四\9點時間固定效應回歸其中St是只隨時間改變,不隨個體改變的變量。

和個體固定效應能控制不隨時問變化但個體間不同的變量一樣,時間固定效應能控制個體間相同但隨時間變化的變量。由于新車安全性能的提高是發(fā)生在全國范圍內的。因此它們能夠減少所有州的交通死亡事故。故把汽車安全性能視為隨時間變化但對所有州都相同的遺漏變量是合理的。于是加入用St表示的汽車安全性能的效應后,得:當前第42頁\共有62頁\編于星期四\9點只有時間效應我們暫時假設Zi不出現(xiàn),方程變?yōu)椋何覀兊哪康氖窃诳刂芐t條件下估計?1當前第43頁\共有62頁\編于星期四\9點當前第44頁\共有62頁\編于星期四\9點在上述例子中加入時間固定效應。實際上添加了t-1個時間虛擬變量。主要反映隨著時間變化的一些特征。usefatality,cleartabyear,gen(yr)editdropyr1regFatalityRatebeertaxyr*幾乎所有時間虛擬變量均不顯著,說明FatalityRate不隨時間的變動呈現(xiàn)變動的趨勢。當前第45頁\共有62頁\編于星期四\9點個體和時間固定效應(雙向固定效應模型)如果某些遺漏變量不隨時間變化但隨州變化(如對酒后駕車的文化接受度),而其他遺漏變量不隨州變化但隨時間變化(如國家安全標準),則在模型中同時加入個體(州)和時間效應更為恰當,我們稱為雙向固定效應模型。固定效應模型:Yit=ai+Xit?1+εit雙向固定效應模型:Yit=ai+λt+Xit?1+εit當前第46頁\共有62頁\編于星期四\9點當前第47頁\共有62頁\編于星期四\9點雙向固定效應模型的估計雙向固定效應模型可以通過加入n-1個個體二元變量和T-1個時間二元變量進行OLS估計,但這會使解釋變量的數(shù)目變得極為龐大!所以一般我們還是采用組內離差法進行估計。

方法一:可以通過先從Y和X中減去個體和時間平均值,然后估計被減后的Y關于被減后的X的多元回歸方程的方法來估計X的系數(shù)。這種方法可以避免二元變量的出現(xiàn)。

方法二:從Y,X和時間指示變量中減去個體(不是時間)均值然后估計,被減后的Y對被減后的X和被減后的時間指示變量的多元回歸中的k+T個系數(shù)。當前第48頁\共有62頁\編于星期四\9點在交通死亡人數(shù)中的應用

上述形式中包含了啤灑稅,47個州二元變量(州固定效應),6個年二元變量(時間固定效應)和截距項,所以這個模型的解釋變量個數(shù)多達55個,這將帶來大量的自由度的損失。因為時間和州二元變量和截距項的系數(shù)不是我們主要感興趣的,所以我們在這里沒有列出。比較參數(shù)發(fā)現(xiàn)加入時間效應后啤酒稅的系數(shù)由-0.66變?yōu)?0.64,可見加入時間效應對結果影響不大。當前第49頁\共有62頁\編于星期四\9點固定效應回歸假設和固定效應回歸的標準誤差本章給出的標準誤差是利用一般異方差穩(wěn)健公式計算得到的。當T中等大小或較大時,在稱為固定效應回歸假設的五個假設條件下面板數(shù)據(jù)中的這些異方差穩(wěn)健標準誤差都是正確的。當前第50頁\共有62頁\編于星期四\9點固定效應回歸假設當前第51頁\共有62頁\編于星期四\9點自相關(序列相關)(如果違反,則出現(xiàn)自相關)當前第52頁\共有62頁\編于星期四\9點固定效應回歸的標準誤差

如果重要概念10.3中的假設5成立,則給定回歸變量條件下,誤差u在時間上不相關,在這種情況下如果T中等大小或較大時,則常用(異方差穩(wěn)健)標準誤差是正確的。如果誤差自相關,則常用標準誤差公式不正確。理解這一點的一種方法是同異方差做類比。在截面數(shù)據(jù)回歸中,如果誤差異方差,則由于同方差適用的標準誤差是在同方差的錯誤假設下導出的,因此是不正確的。類似地,如果面板數(shù)據(jù)中的誤差自相關,則由于常用標準誤差是在它們沒有自相關的錯誤假設下導出的,因此也是不正確的。當前第53頁\共有62頁\編于星期四\9點由于面板數(shù)據(jù)具有潛在異方差且在給定個休的不同時間上潛在相關時,正確的標準誤差稱為異方差和自相關一致的標準誤差(HAC)。這種標準誤差由稱為群標準誤差。在時間序列中使用的命令是newey在面板數(shù)據(jù)中使用的命令是xtgls當前第54頁\共有62頁\編于星期四\9點有關酒后駕車的法律規(guī)定和交通事故死亡人數(shù)酒精稅只是抑制酒后駕車的一種方法,如果某州想要打擊酒后駕車,可以通過增加稅收和嚴酷的法律來做到這一點。因此,即使在包含州和時間固定效應的模型中遺漏這些有關酒后駕車的法律也會導致啤酒稅對交通死亡事故效應的OLS估計量中存在遺漏變量偏差。此外,是否開車也部分取決于司機是否有工作,同時,稅收變化也反映了經(jīng)濟狀況(如州預算赤字會增加稅收)。所以遺漏州的經(jīng)濟狀況也會導致遺漏變量偏差。當前第55頁\共有62頁\編于星期四\9點本節(jié)中我們將前面的分析推廣到保持經(jīng)濟狀況不變條件下有關酒后駕車的法律規(guī)定(包括啤酒稅)對交通死亡事故效應的研究。為此,我們需要估計包含其他酒后駕車法律和州經(jīng)濟狀況的回歸變量的面板數(shù)據(jù)回歸。這些結果刻畫了一幅抑制酒后駕車和交通死亡事故措施引發(fā)爭議的畫面。這些估計值表明嚴厲的處罰和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論