ch05線性回歸的定式偏差

上傳人：5*** IP屬地：湖北上傳時間：2022-03-16 格式：PPT 頁數：85 大?。?.05MB 積分：35 舉報 版權申訴

已閱讀5頁，還剩80頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、第五章第五章線性回歸的定式偏差線性回歸的定式偏差 5.1變量關系非線性變量關系非線性 5.2異常值、規(guī)律性擾動、參數變化和異常值、規(guī)律性擾動、參數變化和虛擬變量回歸虛擬變量回歸 5.3解釋變量遺漏和包含無關解釋變量解釋變量遺漏和包含無關解釋變量5.1變量關系非線性變量關系非線性一、問題一、問題線性回歸模型都假設變量關系是線性回歸模型都假設變量關系是線性隨機函數關系線性隨機函數關系，或者經過或者經過特定數學變換特定數學變換以后是線性隨機函數關系。以后是線性隨機函數關系。但實際變量關系可能會存在偏差，存在用線性模型分但實際變量關系可能會存在偏差，存在用線性模型分析非線性關系的可能性。析非線性關系

2、的可能性。把非線性變量關系當作線性關系處理，把非線性變量關系當作線性關系處理，違反誤差項均違反誤差項均值為值為0的假設的假設，對線性回歸分析的有效性有根本性的破，對線性回歸分析的有效性有根本性的破壞作用壞作用。 201X假設兩個變量之間的為 Y=其中，滿足和線性回歸模真實關系型的其他假設。E 0 012001120011XXXXX但如果我們直接用 Y=進行回歸分析， E E顯然不可能始終為0。把非線性關系作為線性關系進行分析是變量關系的誤識別。不僅會使得回歸分析的擬合程度降低，還會對經濟規(guī)律做出錯誤判斷，以及導致較大的預測偏差，屬于計量經濟分析比較嚴重的問題。二、發(fā)現與判斷二、發(fā)現與判斷首先

3、首先是用是用數理經濟分析數理經濟分析的方法，對模型的函數關系進行更的方法，對模型的函數關系進行更深入的分析。深入的分析。其次其次是根據數據及其是根據數據及其分布圖形、散點圖分布圖形、散點圖進行直接判斷。進行直接判斷。更重要的方法更重要的方法是根據是根據回歸殘差序列回歸殘差序列，從技術角度發(fā)現和判斷，從技術角度發(fā)現和判斷異常值問題。異常值問題。（1）回歸殘差序列根據被解釋變量的實際值和回歸理論）回歸殘差序列根據被解釋變量的實際值和回歸理論值之差計算。值之差計算。（2 2）在）在EVIEWSEVIEWS軟件進行回歸分析時，可以在得到回歸結軟件進行回歸分析時，可以在得到回歸結果后在回歸結果窗口點擊果

4、后在回歸結果窗口點擊View/Actual, Fitted, View/Actual, Fitted, Residual/ View/Actual, Fitted, Residual tableResidual/ View/Actual, Fitted, Residual table，直直接得到回歸殘差序列和殘差序列圖。接得到回歸殘差序列和殘差序列圖。（3）如果模型存在變量關系非線性問題，回歸殘差序列）如果模型存在變量關系非線性問題，回歸殘差序列會變現出會變現出有規(guī)律的變化有規(guī)律的變化。ei當發(fā)現模型的回歸殘差序列有下圖所示的規(guī)律性變化，就應該考慮存在把非線性關系（二次函數等）當作線性關系進行

5、回歸的問題。非線性變量關系的殘差序列三、問題的處理和非線性回歸第一步第一步是恢復變量之間的真實函數關系；是恢復變量之間的真實函數關系；第二步第二步是設法通過冪函數、對數化等數學變換等，把是設法通過冪函數、對數化等數學變換等，把非線性關系轉化為正確的線性回歸模型。非線性關系轉化為正確的線性回歸模型。當函數無法通過初等數學變換轉化為線性模型時，需當函數無法通過初等數學變換轉化為線性模型時，需要要直接處理直接處理非線性回歸模型。非線性回歸模型。Xe ：Y= +，其中、、是未如知參數。假設不能通過初等數學變換轉化為線性關系的假設不能通過初等數學變換轉化為線性關系的非線非線性函數關系為性函

6、數關系為：1212,;,KPYfXXX 其中，其中，X1,X2, XK是是K個解釋變量個解釋變量，1,2 , P是是P個個參數，參數，f為為多元非線性函數，且對多元非線性函數，且對1,2 , P是連續(xù)可是連續(xù)可微的。微的。對于這種非線性回歸模型，解決的方法之一是利用對于這種非線性回歸模型，解決的方法之一是利用級數級數展開展開方法做非線性函數的方法做非線性函數的近似線性函數近似線性函數，把模型強制性，把模型強制性轉化為線性模型。轉化為線性模型。泰勒級數展開10200,Pbbb泰勒級數展開先要取一組泰勒級數展開先要取一組參數的初始值參數的初始值：將上述非線性函數在將上述非線性函數在10200,Pb

7、bb處對處對12P，，，做泰勒級數展開，并只取其中的線性項而忽略所有的高次做泰勒級數展開，并只取其中的線性項而忽略所有的高次項，得到項，得到102001020012102001101,0,;,PPKPbbbPPPbbbfYfXXXbbbbfb1020010200121020001,1,;,PPPKPiiibbbPiiibbbfYfXXXbbbbf整理上述展開式，移項合并可化為：整理上述展開式，移項合并可化為：其中，其中，為原變量關系中誤差項為原變量關系中誤差項與泰勒級數展開的高階項之和。與泰勒級數展開的高階項之和。1020010200121020001,1,;,PPPKPiiibbbPii

8、ibbbfMYfXXXbbbbfZ1122PPMZZZ若令：若令：我們得到：我們得到：1212,11211PPP 是一, , , 的性回模型，可以用最小二乘法估其中, 的估值，我, b , , b 。這個M對Z ZZ線歸計參數計們記為b經過泰勒級數展開得到的線性模型只是原變量關系的經過泰勒級數展開得到的線性模型只是原變量關系的近似近似，雖然可以把，雖然可以把11211,Pbbb作為原模型參數的估計，作為原模型參數的估計，但效果可能沒有保證。但效果可能沒有保證。由于由于10200,Pbbb和參數真實值的近似程度越高，級數展和參數真實值的近似程度越高，級數展開忽略的高階項越不重要，因此提高級數展

9、開初始值與開忽略的高階項越不重要，因此提高級數展開初始值與參數真實值的近似程度有利于提高上述間接估計的精度參數真實值的近似程度有利于提高上述間接估計的精度。提高近似程度的方法是，把前一次回歸得到的估計值提高近似程度的方法是，把前一次回歸得到的估計值作作為新的級數展開初始值，再進行新的級數展開。然后再為新的級數展開初始值，再進行新的級數展開。然后再作變換和線性回歸，得到另一組參數估計值作變換和線性回歸，得到另一組參數估計值。這個程序可以這個程序可以反復反復進行，直到參數估計值進行，直到參數估計值收斂收斂或不再有或不再有大的變化。大的變化。除了泰勒級數展開線性化近似的迭代方法以外，還可以除了泰

10、勒級數展開線性化近似的迭代方法以外，還可以直接進行非線性回歸分析直接進行非線性回歸分析。非線性回歸分析的原理與線性回歸分析是相似的，只非線性回歸分析的原理與線性回歸分析是相似的，只是非線性回歸參數估計涉及的非線性優(yōu)化分析要復雜是非線性回歸參數估計涉及的非線性優(yōu)化分析要復雜一些。一些。由計量軟件進行非線性回歸的迭代優(yōu)化分析只要由計量軟件進行非線性回歸的迭代優(yōu)化分析只要直接直接輸入相關命令輸入相關命令即可。即可。例51某地消費函數表表5.1 某地消費函數相關數據某地消費函數相關數據年度 Y C 年度 Y C 年度 Y C1950 791.8 733.2 1962 1170.2 1069.0 19

11、74 1896.6 1674.01951 819.0 748.7 1963 1207.3 1108.4 1975 1931.7 1711.91952 844.3 771.4 1964 1291.0 1170.6 1976 2001.0 1803.91953 880.0 802.5 1965 1365.7 1236.4 1977 2066.6 1883.81954 894.0 822.7 1966 1431.3 1298.9 1978 2167.4 1961.01955 944.5 873.8 1967 1493.2 1337.7 1979 2212.6 2004.41956 989.4 899

12、.8 1968 1551.3 1405.9 1980 2214.3 2000.41957 1012.1 919.7 1969 1599.8 1456.7 1981 2248.6 2024.21958 1028.8 932.9 1970 1688.1 1492.0 1982 2261.5 2050.71959 1067.2 979.4 1971 1728.4 1538.8 1983 2334.6 2145.91960 1091.1 1005.1 1972 1797.4 1621.9 1984 2468.4 2239.91961 1123.2 1025.2 1973 1916.3 1689.6 1

13、985 2509.0 2312.6根據對上述散點圖的直觀判斷，對消費和收入進行根據對上述散點圖的直觀判斷，對消費和收入進行線性回歸分析基本上是合理的。線性回歸分析基本上是合理的。但是，如果我們進一步通過該回歸結果窗口的菜單但是，如果我們進一步通過該回歸結果窗口的菜單操作得到下列殘差序列圖，可以發(fā)現該回歸殘差序操作得到下列殘差序列圖，可以發(fā)現該回歸殘差序列顯示出明顯的規(guī)律性變化，包含了明顯的趨勢性。列顯示出明顯的規(guī)律性變化，包含了明顯的趨勢性。可以考慮變量之間存在非線性關系的可能，因此可可以考慮變量之間存在非線性關系的可能，因此可考慮采用非線性最小二乘回歸考慮采用非線性最小二乘回歸。5.2 5.

14、2 異常值、規(guī)律性擾動和虛擬變量回歸異常值、規(guī)律性擾動和虛擬變量回歸一、異常值異常值二、規(guī)律性擾動規(guī)律性擾動三、虛擬變量回歸虛擬變量回歸異常值現象異常值現象現實經濟中常常存在這樣的情況，一些突發(fā)事件或變現實經濟中常常存在這樣的情況，一些突發(fā)事件或變化對經濟活動、經濟關系造成化對經濟活動、經濟關系造成短暫短暫的，但卻是很的，但卻是很顯著顯著的沖擊影響。的沖擊影響。這些影響既不能被看作微小的隨機擾動，但又不會決這些影響既不能被看作微小的隨機擾動，但又不會決定或改變長期的經濟關系，或者說經濟規(guī)律。定或改變長期的經濟關系，或者說經濟規(guī)律。這種情況在經濟數據上反映出來，就會表現為一個這種情況在經濟

15、數據上反映出來，就會表現為一個脫脫離基本趨勢離基本趨勢的異常值。的異常值。 XY如果所研究的經濟問題或相關數據中存在這種情況，建立如果所研究的經濟問題或相關數據中存在這種情況，建立線性回歸模型時又沒有預先處理或剔除這種影響，就會表線性回歸模型時又沒有預先處理或剔除這種影響，就會表現為模型現為模型誤差項誤差項在相應時點存在在相應時點存在均值非均值非0 0的問題。的問題。例如變量例如變量 Y 和和 X 在長期中的關系基本滿足線性回歸模型在長期中的關系基本滿足線性回歸模型的各個假設，但在時刻的各個假設，但在時刻有一個突發(fā)情況，使得有一個突發(fā)情況，使得 Y 出現出現一個一個 C 單位的暫時性波動。那

16、么如果用線性回歸模型：單位的暫時性波動。那么如果用線性回歸模型：0i000)(iiCiiEi當當其誤差項的均值是：其誤差項的均值是：0)(iE這種情況如果不作處理，線性回歸分析的有效性也會這種情況如果不作處理，線性回歸分析的有效性也會受到不利影響。受到不利影響。顯然不是顯然不是對任意對任意i i 都成立。都成立。異常值會使回歸分析結果出現較大偏差，參數估計異常值會使回歸分析結果出現較大偏差，參數估計量的性質和相關統(tǒng)計推斷都會失效。量的性質和相關統(tǒng)計推斷都會失效。異常值的發(fā)現判斷異常值的發(fā)現判斷發(fā)現和判斷異常值的方法之一是分析經濟問題的相關發(fā)現和判斷異常值的方法之一是分析經濟問題的相關背景情況

17、，包括對經濟現象、相關社會經濟事件以及背景情況，包括對經濟現象、相關社會經濟事件以及數據序列的數據序列的直接分析直接分析等。等。殘差序列分析殘差序列分析也是從技術角度發(fā)現和判斷異常值問題也是從技術角度發(fā)現和判斷異常值問題的基本方法。的基本方法。因為異常值只是個別情況，最小二乘估計仍然是一致因為異常值只是個別情況，最小二乘估計仍然是一致估計量，回歸殘差中會包含由于異常值所導致模型誤估計量，回歸殘差中會包含由于異常值所導致模型誤差項均值非差項均值非0 0的信息。的信息。回歸殘差序列分析發(fā)現和判斷異常值問題的方法回歸殘差序列分析發(fā)現和判斷異常值問題的方法 2Sei122KneSSii在模型假設

18、成立的前提下，回歸殘差是服從正態(tài)分布的隨在模型假設成立的前提下，回歸殘差是服從正態(tài)分布的隨機變量，其取值機變量，其取值95%95%左右的概率應分布在均值加減左右的概率應分布在均值加減2 2倍倍標準標準差的范圍內。差的范圍內。如果發(fā)現某個殘差如果發(fā)現某個殘差ie出現：出現：其中，其中，是殘差的標準差，模型在時點是殘差的標準差，模型在時點i i處就很可能存在異常值處就很可能存在異常值問題。問題。上述回歸殘差序列分析等價于上述回歸殘差序列分析等價于殘差序列圖分析殘差序列圖分析：eS（1）把根據回歸殘差序列和殘差標準差計算出的）把根據回歸殘差序列和殘差標準差計算出的數據序列，描繪到以數據序列，描繪到以

19、i i為橫軸，以為橫軸，以為縱軸的坐標平面為縱軸的坐標平面為縱軸的坐標平面上，再在縱軸的為縱軸的坐標平面上，再在縱軸的2 2處畫上兩條水平處畫上兩條水平的臨界線。的臨界線。（2）以誤差序列中是否有點落在兩條臨界線范圍之）以誤差序列中是否有點落在兩條臨界線范圍之外作為判斷異常值的初步標準。外作為判斷異常值的初步標準。ieS圖圖異常值的殘差序列圖檢驗異常值的殘差序列圖檢驗i22 如果有個別如果有個別坐標落在兩條臨界線的范圍以外，就意坐標落在兩條臨界線的范圍以外，就意味著在味著在i i 時點上有異常值。時點上有異常值。用用EViewsEViews軟件進行回歸分析可以直接輸出殘差序列圖，軟件進行

20、回歸分析可以直接輸出殘差序列圖，并且在圖形中包括有兩倍標準差的臨界值，因此可以并且在圖形中包括有兩倍標準差的臨界值，因此可以直接根據直接根據EViewsEViews輸出的殘差序列圖判斷是否有異常值輸出的殘差序列圖判斷是否有異常值的可能性。的可能性。當然，如果落在臨界線以外的點有多個，那么一方面可當然，如果落在臨界線以外的點有多個，那么一方面可以考慮存在多個異常值的可能性，另外也應該懷疑存在以考慮存在多個異常值的可能性，另外也應該懷疑存在其他系統(tǒng)性偏差。其他系統(tǒng)性偏差。ieS存在多個較大殘差不能簡單地認為是多個異常值，而是存在多個較大殘差不能簡單地認為是多個異常值，而是應該作進一步的深入分析，結

21、合對其他問題的分析進行應該作進一步的深入分析，結合對其他問題的分析進行判斷。判斷。此外，上述殘差序列判斷異常值的臨界值標準此外，上述殘差序列判斷異常值的臨界值標準是是95%95%置信度的，當置信度的，當的絕對值落在的絕對值落在2 2到到3 3之間之間時，用時，用95%95%的置信度判斷有異常值，而用的置信度判斷有異常值，而用99%99%的的置信度判斷則可能沒有異常值，因此仍然存在置信度判斷則可能沒有異常值，因此仍然存在模糊的地方。模糊的地方。這時候必須與問題背景分析結合起來考慮，并這時候必須與問題背景分析結合起來考慮，并考慮各點殘差相對情況等。考慮各點殘差相對情況等。ieS問題的處理問題的

22、處理解決的方法是引進一個針對性的虛擬變量解決的方法是引進一個針對性的虛擬變量D D，其定義式為：，其定義式為： XY0ii 000)(iiCiiEi當當如果判斷模型存在異常值問題，必須作針對性的處理。如果判斷模型存在異常值問題，必須作針對性的處理。例如一個兩變量線性回歸模型：例如一個兩變量線性回歸模型：在在處存在異常值問題：處存在異常值問題：0010iiiiDi當當在引進虛擬變量在引進虛擬變量D D 的新模型中，異常值就不會的新模型中，異常值就不會造成模型誤差項出現均值非造成模型誤差項出現均值非0 0的問題了，從而的問題了，從而可以保證回歸分析的有效性?？梢员ＷC回歸分析的有效性。 CDXY

23、CD0001000)() (iiCCiiCDEEii得到一個得到一個新的回歸模型：新的回歸模型：例例消費函數模型的異常值問題消費函數模型的異常值問題 -600-400-20002004006008284868890929496980002Y Residuals圖圖5.5 消費函數殘差序列圖消費函數殘差序列圖殘差序列圖分析殘差序列圖分析根據圖中的殘差分布可以看出，根據圖中的殘差分布可以看出，19961996、20012001和和20022002年的年的回歸殘差絕對值回歸殘差絕對值，都大于，都大于2 2倍的殘差倍的殘差標準差，因此可能屬于異常值。標準差，因此可能屬于異常值。由于相比之下由于

24、相比之下19961996、19991999、20002000和和20012001四年的四年的殘差偏離更大，而在去掉這幾年趨勢以后的其殘差偏離更大，而在去掉這幾年趨勢以后的其余年份基本上都在長期趨勢上，因此考慮余年份基本上都在長期趨勢上，因此考慮引進引進四個虛擬變量四個虛擬變量。再看引進虛擬變量后回歸的下列殘差序列圖，再看引進虛擬變量后回歸的下列殘差序列圖，則現在是有多點而不是個別點在則現在是有多點而不是個別點在2 2倍標準差臨倍標準差臨界值之外，而且都離臨界值不遠，并且界值之外，而且都離臨界值不遠，并且2 2倍標倍標準差的臨界值范圍也比未引進虛擬變量時小了準差的臨界值范圍也比未引進虛擬變量時

25、小了許多，因此可不再認為存在異常值。許多，因此可不再認為存在異常值。圖圖5.6 5.6 引進虛擬變量后的回歸殘差引進虛擬變量后的回歸殘差 -150-100-500501001508284868890929496980002Y Residuals規(guī)律性擾動周期性或其他規(guī)律性擾動，也會使線性回歸模周期性或其他規(guī)律性擾動，也會使線性回歸模型的誤差項偏離零均值假設。型的誤差項偏離零均值假設。周期性擾動比較典型的例子是商業(yè)銷量指標的周期性擾動比較典型的例子是商業(yè)銷量指標的季節(jié)性變化。季節(jié)性變化。這些問題并不影響變量關系的總體趨勢，但都這些問題并不影響變量關系的總體趨勢，但都會對變量關系產生規(guī)律性

26、的影響，如果不預先會對變量關系產生規(guī)律性的影響，如果不預先加以處理或排除掉，就會導致加以處理或排除掉，就會導致誤差項均值非誤差項均值非0 0問題的出現，影響回歸分析的效果。問題的出現，影響回歸分析的效果。一個例子一個例子例如變量例如變量Y Y 的季度數據中，的季度數據中，第一季度第一季度總是受到總是受到一個季節(jié)性因素的影響。一個季節(jié)性因素的影響。如果我們忽視這種影響，用兩變量模型或多元如果我們忽視這種影響，用兩變量模型或多元模型研究模型研究 Y Y 的規(guī)律，就會遇到的規(guī)律，就會遇到誤差項均值非誤差項均值非0 0問題問題第一季度第一季度iCiEi0)(問題的發(fā)現與判斷問題的發(fā)現與判斷由規(guī)

27、律性擾動導致的誤差項均值非零問題的發(fā)現、判斷和處理，與異常值問題基本相似。在發(fā)現和判斷方面，經濟問題的背景分析，以及同樣的回歸殘差序列分析，基本上都可以適用于規(guī)律性擾動問題。規(guī)律性擾動在殘差序列圖上會表現為多個有規(guī)律的較大殘差，可以通過與問題背景的相互印證和分析，確定是否屬于規(guī)律性擾動。問題的處理問題的處理解決規(guī)律性擾動問題的方法之一是對數據進行統(tǒng)計平滑處理，消除季節(jié)性或其他周期性擾動的影響。但平滑處理存在兩個問題，一是不能區(qū)別趨勢因素和季節(jié)性擾動，不能真正確定所研究變量關系的具體變化軌跡，二是容易導致另一種問題，就是誤差序列自相關問題（以后會介紹）。因此平滑處理并不是克服規(guī)律性擾

28、動對線性回歸分析影響的好方法。引進虛擬變量引進虛擬變量處理規(guī)律性擾動問題的較好方法也是引進虛擬變量，處理規(guī)律性擾動問題的較好方法也是引進虛擬變量，但有時需要引進但有時需要引進多個虛擬變量多個虛擬變量。以上面第一季度存在季節(jié)性因素影響的問題為例。如以上面第一季度存在季節(jié)性因素影響的問題為例。如果在這個例子中，使用虛擬變量果在這個例子中，使用虛擬變量第一季度當第一季度當iiDi10CDXY第一季度第一季度iiDi101第三季度第三季度iiDi103把模型改為把模型改為：或01122Y=KKXXX那么新模型就不再存在誤差項均值非那么新模型就不再存在誤差項均值非0 0的問題，回歸的問題，回歸分析的

29、效果就能得到保證。分析的效果就能得到保證。如果第一季度受到一種季節(jié)性因素擾動，第三季度受如果第一季度受到一種季節(jié)性因素擾動，第三季度受到另一種方向和力度不同因素的擾動。那么可以引進到另一種方向和力度不同因素的擾動。那么可以引進兩個虛擬變量兩個虛擬變量：3311DCDCXY把這兩個虛擬變量同時引入模型，模型變?yōu)椋喊堰@兩個虛擬變量同時引入模型，模型變?yōu)椋夯蚧?11221133Y=KKXXXC DC D新模型同樣可以避免由于上述季節(jié)性擾動所導致的誤新模型同樣可以避免由于上述季節(jié)性擾動所導致的誤差項均值非差項均值非0 0問題。問題。在對截面數據的計量經濟分析中，觀測對象特征差異在對截面數據的計量經濟

30、分析中，觀測對象特征差異導致的規(guī)律性擾動，也可以利用虛擬變量加以處理。導致的規(guī)律性擾動，也可以利用虛擬變量加以處理。虛擬變量模型虛擬變量模型一、虛擬變量的基本含義一、虛擬變量的基本含義二、虛擬變量的引入二、虛擬變量的引入三、虛擬變量的設置原則三、虛擬變量的設置原則一、虛擬變量的基本含義一、虛擬變量的基本含義許多經濟變量是可以定量度量可以定量度量的，如：如：商品需求量、價格、收入、產量等但也有一些影響經濟變量的因素無法定量度量無法定量度量，如：如：職業(yè)、性別對收入的影響，戰(zhàn)爭、自然災害對GDP的影響，季節(jié)對某些產品（如冷飲）銷售的影響等等。為了在模型中能夠反映這些因素的影響，并提高模

31、型的精度，需要將它們“量化”。這種“量化”通常是通過引入“虛擬變量”來完成的。根據這些因素的屬性類型，構造只取“0”或“1”的人工變量，通常稱為虛擬變量虛擬變量（dummy variables），記為D。例如例如，反映教育程度的虛擬變量可取為，反映教育程度的虛擬變量可取為： 1，本科學歷 D= 0，非本科學歷一般地，在虛擬變量的設置中：基礎類型、肯定類型取值為基礎類型、肯定類型取值為1；比較類型，否定類型取值為比較類型，否定類型取值為0。概念：概念：同時含有一般解釋變量與虛擬變量的模型稱為虛擬同時含有一般解釋變量與虛擬變量的模型稱為虛擬變量模型或者方差分析變量模型或者方差分析（

32、analysis-of variance: ANOVA）模型模型。一個以性別為虛擬變量考察企業(yè)職工薪金的模型：iiiiDXY210其中：Yi為企業(yè)職工的薪金，Xi為工齡， Di=1，若是男性，Di=0，若是女性。二、虛擬變量的引入二、虛擬變量的引入虛擬變量做為解釋變量引入模型有兩種基本方式：加法方式加法方式和乘法方式乘法方式。iiiiXDXYE10)0,|( 企業(yè)男職工的平均薪金為：企業(yè)男職工的平均薪金為：iiiiXDXYE120)() 1,|( 上述企業(yè)職工薪金模型中性別虛擬變量的引入采取了加法方式。在該模型中，如果仍假定E(i)=0，則企業(yè)女職工的平均薪金為：企業(yè)女職工的平均薪金

33、為： 1 1、加法方式、加法方式幾何意義：幾何意義：假定20，則兩個函數有相同的斜率，但有不同的截距。意即，男女職工平均薪金對工齡的變化率是一樣的，但兩者的平均薪金水平相差2。可以通過傳統(tǒng)的回歸檢驗，對2的統(tǒng)計顯著性進行檢驗，以判斷企業(yè)男女職工的平均薪金水平是否有顯著差異。年薪 Y 男職工女職工工齡 X02 又例又例：在橫截面數據基礎上，考慮個人保健支出對個人收入和教育水平的回歸。教育水平考慮三個層次：高中以下，高中，大學及其以上 011D 其他高中 012D 其他大學及其以上模型可設定如下：iiiDDXY231210 這時需要引入兩個虛擬變量：在E(i)=0 的初始假定下，

34、高中以下、高中、大學及其以上教育水平下個人保健支出的函數：高中以下：iiiXDDXYE1021)0, 0,|( 高中：iiiXDDXYE12021)()0, 1,|( 大學及其以上：iiiXDDXYE13021)() 1, 0,|( 假定32，其幾何意義：大學教育保健高中教育支出低于中學教育收入還可將多個虛擬變量引入模型中以考察多種還可將多個虛擬變量引入模型中以考察多種“定定性性”因素的影響。因素的影響。如如在上述職工薪金的例中，再引入代表學歷的虛擬變量D2：iiiDDXY231210012D本科及以上學歷本科以下學歷職工薪金的回歸模型可設計為：女職工本科以下學歷的平均薪金：

35、iiiXDDXYE13021)() 1, 0,|(女職工本科以上學歷的平均薪金：iiiXDDXYE132021)() 1, 1,|(iiiXDDXYE1021)0, 0,|(iiiXDDXYE12021)()0, 1,|(于是，不同性別、不同學歷職工的平均薪金分別為：男職工本科以下學歷的平均薪金：男職工本科以上學歷的平均薪金： 2 2、乘法方式、乘法方式加法方式引入虛擬變量，考察：截距的不同截距的不同，許多情況下：往往是斜率就有變化，或斜率、截或斜率、截距同時發(fā)生變化距同時發(fā)生變化。斜率的變化可通過以乘法的方式引入虛擬變量來斜率的變化可通過以乘法的方式引入虛擬變量來測度測度。例例：根據

36、消費理論，消費水平C主要取決于收入水平Y，但在一個較長的時期，人們的消費傾向會發(fā)生變化，尤其是在自然災害、戰(zhàn)爭等反常年份，消費傾向往往出現變化。這種消費傾向的變化可通過在收入的系數中引入虛擬變量來考察。tttttXDXC210 這里，虛擬變量D以與X相乘的方式引入了模型中，從而可用來考察消費傾向的變化。假定E(i)= 0，上述模型所表示的函數可化為：正常年份：ttttXDXCE)() 1,|(210 反常年份：ttttXDXCE10)0,|(如，設01tD反常年份正常年份消費模型可建立如下：當截距與斜率發(fā)生變化時，則需要同時引入加當截距與斜率發(fā)生變化時，則需要同時引入加法與乘法形式的虛擬

37、變量法與乘法形式的虛擬變量。例：例：考察1990年前后的中國居民的總儲蓄-收入關系是否已發(fā)生變化。表5.1.1中給出了中國19792001年以城鄉(xiāng)儲蓄存款余額代表的居民儲蓄以及以GNP代表的居民收入的數據。表表 5.1.1 19792001 年中國居民儲蓄與收入數據年中國居民儲蓄與收入數據（億元）（億元）90年前儲蓄GNP90年后儲蓄GNP19792814038.21991910721662.51980399.54517.8199211545.426651.91981523.74860.3199314762.434560.51982675.45301.8199421518.846670.0

38、1983892.55957.4199529662.357494.919841214.77206.7199638520.866850.519851622.68989.1199746279.873142.719862237.610201.4199853407.576967.219873073.311954.5199959621.880579.419883801.514922.3200064332.488228.119895146.916917.8200173762.494346.419907034.218598.4 以Y為儲蓄，X為收入，可令： 1990年前： Yi=1+2Xi+1i i=1,2,

39、n1 1990年后： Yi=1+2Xi+2i i=1,2,n2 則有可能出現下述四種情況中的一種：(1) 1=1 ，且2=2 ，即兩個回歸相同，稱為重合回重合回歸歸（Coincident Regressions）；(2) 11 ,但2=2 ，即兩個回歸的差異僅在其截距，稱為平行回歸平行回歸（Parallel Regressions）;(3) 1=1 ，但22 ，即兩個回歸的差異僅在其斜率，稱為匯合回歸匯合回歸(Concurrent Regressions)；(4) 11，且22 ，即兩個回歸完全不同，稱為相相異回歸異回歸（Dissimilar Regressions）。這一問題可通過引入乘法形

40、式的虛擬變量來解決。將n1與n2次觀察值合并，并用以估計以下回歸：iiiiiiXDDXY)(4310Di為引入的虛擬變量：01iD于是有：iiiiXXDYE10), 0|(iiiiXXDYE)()(), 1|(4130可分別表示1990年后期與前期的儲蓄函數。年后年前9090 在統(tǒng)計檢驗中，如果4=0的假設被拒絕，則說明兩個時期中儲蓄函數的斜率不同。具體的回歸結果為：具體的回歸結果為： (-6.11) (22.89) (4.33) (-2.55) 由3與4的t檢驗可知：參數顯著地不等于0，強烈示出兩個時期的回歸是相異的，儲蓄函數分別為：儲蓄函數分別為：1990年前：1990年后：iiii

41、iXDDXY4765. 03 .138028881. 0154522R=0.9836iiXY4116. 07 .1649iiXY8881. 015452這一問題也可以用鄒氏結構變化的檢驗（Chow test）來解決。具體方法是以懷疑發(fā)生結構（參數）變化的時點為界，把觀測樣本分為兩組。然后用兩組子樣本和全樣本分別進行回歸，ur將兩組子樣本回歸的殘差平方和加總得到SSR ，稱為無約束平方和。r全樣本回歸的殘差平方和SSR ，稱為有約束的殘差平方和。 rurur12SSR -SSRK+1構造下列F統(tǒng)計量：F=SSRn +n -2K-2 其中K是模型（不包括常數項）的解釋變量個數，n1

42、和n2分別是兩個子樣本的樣本容量。該統(tǒng)計量服從兩個自由度為K+1和n1+n2-2K-2的F 分布。因此，如果該F 統(tǒng)計量不大于相應自由度的F 分布臨界值，說明有約束和無約束的兩個回歸殘差平方和的差別不明顯，模型結構（參數）并沒有發(fā)生顯著變化。反之則說明模型結構確實發(fā)生了明顯變化。直接把1990年作為發(fā)生可能的結構變化的轉折點，也就是把樣本區(qū)間分為1979，1990和1991，2001兩個區(qū)間。直接對這兩個樣本區(qū)間分別回歸，得到兩個殘差平方和分別為2057709和179000000，因此鄒檢驗的無約束殘差平方和為181057709。整個樣本區(qū)間回歸的殘差平方和，也就是鄒檢驗的受約束殘差

43、平方和為362000000。把這兩個殘差平方和與樣本容量和模型解釋變量數一起代入鄒檢驗的F統(tǒng)計量，得到顯然，該統(tǒng)計量是顯著的（大于臨界值），可以認為模型的結構發(fā)生了變化。36200000049181057709(12 11 22)F0.052,193.52F 3 3、臨界指標的虛擬變量的引入、臨界指標的虛擬變量的引入在經濟發(fā)生轉折時期，可通過建立臨界指標的虛擬變量模型來反映。例如，例如，進口消費品數量Y主要取決于國民收入X的多少，中國在改革開放前后，Y對X的回歸關系明顯不同。這時，可以t*=1979年為轉折期，以1979年的國民收入Xt*為臨界值，設如下虛擬

44、變量：01tD*tttt則進口消費品的回歸模型可建立如下：則進口消費品的回歸模型可建立如下：ttttttDXXXY)(*210 OLS法得到該模型的回歸方程為法得到該模型的回歸方程為則兩時期進口消費品函數分別為：tttttDXXXY)(*210當tt*=1979年，ttXY10當tt*=1979年，titXXY)()(21*20三、虛擬變量的設置原則三、虛擬變量的設置原則虛擬變量的個數須按以下原則確定：虛擬變量的個數須按以下原則確定：每一定性變量所需的虛擬變量個數要比該定性變每一定性變量所需的虛擬變量個數要比該定性變量的類別數少量的類別數少1，即如果有，即如果有m個類別，只在模型中引個類別

45、，只在模型中引入入m-1個虛擬變量。個虛擬變量。例例。已知冷飲的銷售量Y除受k種定量變量Xk的影響外，還受春、夏、秋、冬四季變化的影響，要考察該四季的影響，只需引入三個虛擬變量即可：011tD其他春季012tD其他夏季013tD其他秋季則冷飲銷售量的模型為：在上述模型中，若再引入第四個虛擬變量ttttktkttDDDXXY332211110014tD其他冬季則冷飲銷售模型變量為：tttttktkttDDDDXXY44332211110其矩陣形式為：D)(X,Y 如果只取六個觀測值，其中春季與夏季取如果只取六個觀測值，其中春季與夏季取了兩次，秋、冬各取到一次觀測值，則式中的：了兩次，秋、冬各

46、取到一次觀測值，則式中的：顯然，(X,D)中的第1列可表示成后4列的線性組合，從而(X,D)不滿秩，參數無法唯一求出。這就是所謂的這就是所謂的“虛擬變量陷井虛擬變量陷井”，應避免。000110010110001010010010100011)(616515414313212111kkkkkkXXXXXXXXXXXXDX,k1043215.3 相關變量遺漏或包含無關變相關變量遺漏或包含無關變量量相關變量的遺漏相關變量的遺漏無關變量的誤選無關變量的誤選遺漏相關變量偏誤遺漏相關變量偏誤包含無關變量偏誤包含無關變量偏誤檢驗是否含有無關變量檢驗是否含有無關變量檢驗是否有相關變量的遺漏檢驗是否有相關

47、變量的遺漏 1、相關變量的遺漏、相關變量的遺漏（omitting relevant variables）例如例如，如果“正確”的模型為22110XXY而我們將模型設定為 vXY110即設定模型時漏掉了一個相關的解釋變量。這類錯誤稱為遺漏相關變量遺漏相關變量。動態(tài)設定偏誤動態(tài)設定偏誤（dynamic mis-specification）:遺漏相關變量表現為對Y或X滯后項的遺漏。 2、無關變量的誤選、無關變量的誤選 (including irrevelant variables) 例如例如，如果 Y=0+1X1+2X2+仍為“真”，但我們將模型設定為 Y=0+ 1X1+ 2X2+ 3X3

48、+即設定模型時，多選了一個無關解釋變量。 3、遺漏相關變量偏誤遺漏相關變量偏誤采用遺漏相關變量的模型進行估計而帶來的偏誤稱為遺漏相關變量偏誤遺漏相關變量偏誤（omitting relevant variable bias）。設正確的模型為 Y=0+1X1+2X2+卻對 Y=0+ 1X1+v進行回歸，得2111iiixyx將正確模型 Y=0+1X1+2X2+ 的離差形式 iiiixxy2211代入2111iiixyx得21121212121221112111)()(iiiiiiiiiiiiiixxxxxxxxxxyx(1)如果漏掉的X2與X1相關，則上式中的第二項在小樣本下求期望與大樣本下求概率極限都不會為零，從而使得OLSOLS估估計量在小樣本下有偏，在大樣本下非一致計量在小樣本下有偏，在大樣本下非一致。 (2)如果X2與X1不相關，則1的估計滿足無偏性與一致性；但這時0的估計卻是有偏的。由 Y=0+ 1X1+v 得2121)(ixVar由 Y=0+1X1+2X2+ 得 )1 ()()(221222122

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

ch05線性回歸的定式偏差

文檔簡介

溫馨提示

最新文檔

評論

ch05線性回歸的定式偏差

文檔簡介

溫馨提示

最新文檔

評論

相關文檔