![計量經(jīng)濟(jì)學(xué)基礎(chǔ) 第3版 課件 張兆豐 第8-12章 多重共線性-時間序列模型_第1頁](http://file4.renrendoc.com/view4/M00/3D/08/wKhkGGYEGoWAJdX_AABg0da-2Dc012.jpg)
![計量經(jīng)濟(jì)學(xué)基礎(chǔ) 第3版 課件 張兆豐 第8-12章 多重共線性-時間序列模型_第2頁](http://file4.renrendoc.com/view4/M00/3D/08/wKhkGGYEGoWAJdX_AABg0da-2Dc0122.jpg)
![計量經(jīng)濟(jì)學(xué)基礎(chǔ) 第3版 課件 張兆豐 第8-12章 多重共線性-時間序列模型_第3頁](http://file4.renrendoc.com/view4/M00/3D/08/wKhkGGYEGoWAJdX_AABg0da-2Dc0123.jpg)
![計量經(jīng)濟(jì)學(xué)基礎(chǔ) 第3版 課件 張兆豐 第8-12章 多重共線性-時間序列模型_第4頁](http://file4.renrendoc.com/view4/M00/3D/08/wKhkGGYEGoWAJdX_AABg0da-2Dc0124.jpg)
![計量經(jīng)濟(jì)學(xué)基礎(chǔ) 第3版 課件 張兆豐 第8-12章 多重共線性-時間序列模型_第5頁](http://file4.renrendoc.com/view4/M00/3D/08/wKhkGGYEGoWAJdX_AABg0da-2Dc0125.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第8章多重共線性第8章
多重共線性1.掌握統(tǒng)計學(xué)的基本方法2.了解多重共線性的意義3.·理解多重共線性產(chǎn)生的原因4.·掌握判斷多重共線性的方法5.·掌握修正多重共線性的方法LEARNINGTARGET學(xué)習(xí)目標(biāo)8.1多重共線性的含義與一元線性回歸模型相比較,多元線性回歸模型的古典假定中有一條無多重共線性假定。為什么要有這條假定?如果我們設(shè)定的模型違背了這條假定會有怎樣的后果?多重共線性是怎樣產(chǎn)生的?怎樣修正多重共線性?這些問題都是我們要在本章回答的問題。【例8-1】國家財政收入是政府有效實(shí)施其各項職能的重要保障。財政收入依靠經(jīng)濟(jì)的增長,主要來自各項稅收收入,其中工業(yè)企業(yè)是稅收的重要來源。除此之外,還有社會整體消費(fèi)情況、固定資產(chǎn)投資情況以及居民消費(fèi)水平等都會影響財政收入。為了研究影響財政收入的因素,選取了1980-2019年我國的相關(guān)數(shù)據(jù)(數(shù)據(jù)見教學(xué)資源data8-1,數(shù)據(jù)來源:中國統(tǒng)計年鑒2020),其中Y—財政收入,X1—GDP,X2—稅收總收入,X3—工業(yè)增加值,X4—社會消費(fèi)品零售總額,X5—固定資產(chǎn)投資,X6—居民消費(fèi)水平。預(yù)計這些因素都會對財政收入產(chǎn)生正方向的影響,并且應(yīng)該是顯著的影響。建立多元線性回歸模型,并檢驗?zāi)P椭惺欠翊嬖诙嘀毓簿€性。8.1多重共線性的含義估計結(jié)果如下:DependentVariable:Y
Method:LeastSquares
Date:07/12/22Time:15:09
Sample:19802019
Includedobservations:40
VariableCoefficientStd.Errort-StatisticProb.
C-4.083309350.5799-0.0116470.9908X1-0.0018130.053250-0.0340560.9730X21.1167620.1119939.9716750.0000X3-0.0732040.074899-0.9773670.3355X40.1419250.1327111.0694310.2926X50.0050200.0148690.3376090.7378X6-0.8113040.997454-0.8133750.4218
R-squared0.999776Meandependentvar46526.68AdjustedR-squared0.999735S.D.dependentvar61110.96S.E.ofregression994.8116Akaikeinfocriterion16.80061Sumsquaredresid32658452Schwarzcriterion17.09617Loglikelihood-329.0122Hannan-Quinncriter.16.90747F-statistic24522.94Durbin-Watsonstat1.776700Prob(F-statistic)0.000000
8.1多重共線性的含義通過估計結(jié)果我們發(fā)現(xiàn),X1、X3、X6的系數(shù)為負(fù),說明X1、X3、X6與Y之間是反向關(guān)系,這個結(jié)果與我們事先的預(yù)計不相符。此外我們還發(fā)現(xiàn),雖然模型可以通過F檢驗,說明模型在整體上是可靠的,但在進(jìn)行t檢驗時,只有X2通過,說明其他變量沒有對Y顯著的做出解釋。造成這種矛盾結(jié)果的原因是模型中存在多重共線性。造成這種矛盾結(jié)果的原因是模型中存在多重共線性。什么是多重共線性呢?回憶第5章中對多元線性回歸模型的古典假定中的無多重共線性假定:諸X之間不存在線性相關(guān)性;用矩陣表示為:,即矩陣X滿秩。而例8-1中的模型中很可能沒有滿足這個假定,即諸X之間存在線性相關(guān)性,即存在不全為0的(i=0,1,2,…k),使得下式成立:8.1多重共線性的含義或者,
這種情形我們稱之為多重共線。如果式(8-1)成立,我們稱之為完全的多重共線;而在實(shí)際運(yùn)用中我們常常遇到的是不完全的多重共線,即存在不全為0的(i=0,1,2,…k),使得下式成立:其中--隨機(jī)誤差項當(dāng)諸X相關(guān)程度較高,或隨機(jī)誤差項足夠小時,這種不完全多重共線性可能會給我們估計的結(jié)果帶來一些重要的影響。在多元線性回歸模型中,解釋變量之間的線性相關(guān)程度可以用其相關(guān)系數(shù)來度量。8.1多重共線性的含義設(shè)表示解釋變量和的線性相關(guān)系數(shù),則有:1) 當(dāng)時,解釋變量和之間不存在線性相關(guān)性。這時可以分別用和對Y做回歸得到其影響的系數(shù)。2) 當(dāng)時,解釋變量和之間存在完全的線性相關(guān)性。此時模型的參數(shù)將無法估計,這是因為在這種情形下,我們無法固定一個變量不變而使另外一個變量發(fā)生變化。3) 當(dāng)時,解釋變量和之間存在不完全的線性相關(guān)性。實(shí)際運(yùn)用中遇到最多的是這種情形,這時模型的參數(shù)是否能正確的估計,要看和之間相關(guān)程度的高低,如果相關(guān)程度高,可能會對估計的結(jié)果帶來很大的影響。8.2產(chǎn)生多重共線性的原因在多元線性回歸模型中往往會產(chǎn)生多重共線性,一般來說由時間序列數(shù)據(jù)構(gòu)造的模型可能性大,其原因可以歸納為以下幾個方面:1.經(jīng)濟(jì)變量之間具有共同變化的趨勢經(jīng)濟(jì)運(yùn)行的特點(diǎn)之一就是經(jīng)濟(jì)變量在一定時期表現(xiàn)出共同的變化趨勢。在例8-1的解釋變量中,國內(nèi)生產(chǎn)總值、稅收總收入、工業(yè)增加值的共同的變化趨勢非常明顯,我們可以繪制變量的線圖來觀察其變化,如圖8-1所示。
從圖8-1中可以清楚的看到,三個變量的變化的非常強(qiáng)的共同趨勢,可以推斷這三個變量之間應(yīng)該具有很高的相關(guān)性,于是模型中就有可能存在多重共線性了。1.經(jīng)濟(jì)變量之間具有共同變化的趨勢8.2產(chǎn)生多重共線性的原因2.經(jīng)濟(jì)變量內(nèi)在的聯(lián)系在經(jīng)濟(jì)系統(tǒng)中,各要素(變量)之間是相互依存、相互制約的,所以其運(yùn)行的結(jié)果—數(shù)據(jù)一定會存在某種程度相關(guān)關(guān)系。例如,生產(chǎn)函數(shù)中的勞動投入與資金投入、消費(fèi)函數(shù)中的收入與財產(chǎn)等等,都會表現(xiàn)有一定的相關(guān)關(guān)系。而且這種關(guān)系無論是時間序列數(shù)據(jù)還是截面數(shù)據(jù)都會表現(xiàn)出來,從這個意義上講,多重共線性是不可避免的,只是程度上的問題。3.模型中包含了滯后變量在很多模型中要考慮滯后因素的影響。所謂滯后變量是指過去時期的,但對當(dāng)期被解釋變量產(chǎn)生影響的變量,可以分為滯后的解釋變量和滯后的響應(yīng)變量。滯后變量的表示方法為:或。如果模型中包含了這些滯后變量,就可能產(chǎn)生多重共線性。例如模型包含了滯后變量,而之間、之間都可能存在非常高的相關(guān)性,于是就產(chǎn)生了多重共線性。8.2產(chǎn)生多重共線性的原因在很多情況下我們使用的是年度數(shù)據(jù),這些數(shù)據(jù)是由月度數(shù)據(jù)或季度數(shù)據(jù)合并而成,從而消除了短期波動,形成了更高的相關(guān)性。4.數(shù)據(jù)的影響由于各種條件的限制,我們可能只能得到一個較小的樣本,但需要有較多的變量。在這種情況下建立的線性模型比較容易產(chǎn)生多重共線性。通過以上分析我們可以看到,在多元線性回歸模型中,都會在不同程度上都會存在多重共線性,只是程度高低而已。此外,多重共線性是樣本特征,而不是總體特征。5.樣本過小而變量較多8.3多重共線性對OLS估計量的影響如果模型中存在多重共線性,則會對OLS估計量會產(chǎn)生一些重要的影響。1.完全的多重共線性的影響如果模型存在完全多重共線性時,會對OLS估計量產(chǎn)生非常大的影響。下面我們以二元線性回歸模型為例來說明。對于二元線性回歸模型的樣本回歸方程,用OLS進(jìn)行估計的結(jié)果為:式中--的平均值
--的離差8.3多重共線性對OLS估計量的影響將其代入(8-4)和(8-5)得:上述兩式都是不定式,說明我們在完全的多重共線性條件下無法用OLS得到參數(shù)的估計值。這個結(jié)果很容易理解。我們知道,偏回歸系數(shù)表示當(dāng)保持不變的條件下,變動一個單位對被解釋變量的平均值變動的影響。但由于現(xiàn)在有
的存在,所以我們無法使保持不變且使變動一個單位,反之亦然。也就是說我們現(xiàn)在無法分解X1和X2各自對Y的影響。如果X1與X2存在完全的多重共線性,則存在不為0的,使從而有。8.3多重共線性對OLS估計量的影響此外,完全的多重共線性還會使OLS估計量的方差變?yōu)闊o窮大。二元線性回歸方程OLS估計量的方差為:將代入(8-7)和(8-8)得:8.3多重共線性對OLS估計量的影響這表明在完全的多重共線性條件下,OLS估計量的方差為無窮大。以上是以二元線性回歸模型為例,在更多元的線性回歸模型情形下也會有相同的結(jié)果。由此看來,當(dāng)模型中存在完全的多重共線性時,其后果是非常嚴(yán)重的。2. 不完全的多重共線性的影響大多數(shù)情況下,我們遇到的都是不完全的多重共線性。還是以二元線性回歸模型為例,當(dāng)X1與X2相關(guān)程度很高時,會對估計結(jié)果產(chǎn)生較大的影響。(1)OLS估計量接近不定式假設(shè)存在不為0的,使,其中是隨機(jī)誤差項,并且滿足
,這是為了保證與不相關(guān)。將代入(8-4)和(8-5)中得:8.3多重共線性對OLS估計量的影響當(dāng)X1與X2相關(guān)程度足夠高時,就會足夠小,以至于非常接近0。這樣,OLS估計量就會趨近于不定式。(2)OLS估計量的方差變大在存在不完全的多重共線性的條件下,OLS估計量的方差與變量之間的相關(guān)系數(shù)有關(guān)。設(shè)表示X1與X2之間的相關(guān)系數(shù),則有:8.3多重共線性對OLS估計量的影響由式(8-7)和(8-8)得注意到,記:則統(tǒng)計量的方差為:顯然,當(dāng)X1與X2相關(guān)程度很高時,的值就很接近1,則VIF的值就會趨向于無窮大。所以我們稱VIF為方差膨脹因子(VarianceInflationFactor),它會使估計量的方差膨脹,而VIF的值取決于的值。8.3多重共線性對OLS估計量的影響(3)參數(shù)的置信區(qū)間變寬當(dāng)X1與X2相關(guān)程度很高時,VIF的值會很大,從而估計量的方差也會變得很大,這會導(dǎo)致對應(yīng)的標(biāo)準(zhǔn)差變大,其直接后果是參數(shù)的置信區(qū)間變寬,影響估計的精度。下面我們以為例給出不同的值對其置信區(qū)間的影響。表8-2方差的擴(kuò)大因子對參數(shù)置信區(qū)間的影響其他參數(shù)也是相似的結(jié)果。8.3多重共線性對OLS估計量的影響從表8-2可以看到,隨著X1與X2相關(guān)程度的提高,方差膨脹因子的值會以非??斓乃俣仍黾?,同時參數(shù)的置信區(qū)間的寬度也會以較快的速度變寬。例如,相關(guān)系數(shù)時的置信區(qū)間寬度是時的置信區(qū)間寬度的大約7倍。由于相關(guān)程度很高時置信區(qū)間的寬度變寬,所以就降低了參數(shù)估計的精度。(4)t檢驗可能做出錯誤的判斷以的t檢驗為例。我們要檢驗,需要計算t檢驗統(tǒng)計量,其計算方法為:。雖然此時的OLS估計量仍然是無偏估計,但是當(dāng)X1與X2相關(guān)程度很高時,由于方差膨脹因子的作用會變大,這樣有可能使t檢驗統(tǒng)計量的絕對值變小,從而使我們作用不拒絕原假設(shè)的判斷(即),但是這個判斷是在會變大的條件下做出的,很可能是一個錯誤的判斷。更多元的線性回歸方程的情形可以得到相同的結(jié)果。通過以上分析,我們可以看到:完全的多重共線性會對OLS估計量產(chǎn)生非常嚴(yán)重的影響,一般情況下這樣的情形不會出現(xiàn);不完全的多重共線性當(dāng)相關(guān)程度較高時也會對OLS估計量產(chǎn)生嚴(yán)重的影響,而這種情形是經(jīng)常會遇到的。8.4多重共線性的檢驗當(dāng)多元線性回歸模型中多重共線性較嚴(yán)重時,會對OLS估計量產(chǎn)生影響,那么我們怎樣判斷模型中是否存在多重共線性呢?(1) 經(jīng)驗判斷法根據(jù)經(jīng)驗,一般出現(xiàn)下述情形中的一項或幾項則表明模型中可能存在較嚴(yán)重的多重共線性:① 當(dāng)增加或剔除一個解釋變量,或者改變一個觀測值時,OLS估計量發(fā)生較大變化;② 一些解釋變量估計量的系數(shù)的符號出現(xiàn)與理論或者經(jīng)驗不相符;③ 重要解釋變量OLS估計的結(jié)果對應(yīng)的se的值較大或者t檢驗統(tǒng)計量的值較??;④ OLS估計結(jié)果中可決系數(shù)、F檢驗統(tǒng)計量的值非常高?;仡櫪?-1的OLS估計結(jié)果。我們可以發(fā)現(xiàn)結(jié)果中出現(xiàn)了上述的某些情形。這樣,我們就可以根據(jù)檢驗推斷,模型中可能存在較嚴(yán)重的多重共線性。8.4多重共線性的檢驗(2) 相關(guān)系數(shù)判斷法由于多重共線性是本質(zhì)是解釋變量之間存在線性相關(guān)性,所以我們可以計算諸兩兩解釋變量之間的相關(guān)系數(shù)。當(dāng)某些解釋變量之間的相關(guān)系數(shù)較高時,我們就有理由相信模型中存在較嚴(yán)重的多重共線性,相關(guān)系數(shù)越高,我們推斷的理由越充分。一般來說,當(dāng)相關(guān)系數(shù)的值超過0.8時,我們就可以認(rèn)為模型中存在多重共線性。在Eviews中可以直接計算變量之間的相關(guān)系數(shù),得到相關(guān)系數(shù)矩陣。方法是在命令窗口里輸入命令:cor解釋變量名稱回車。以【例8-1】的結(jié)果為例,相關(guān)系數(shù)矩陣為:
從表8-3中可以看到,X2與X3、X2與X4、X3與X4之間的相關(guān)系數(shù)都超過了0.9,相關(guān)程度較高,說明模型中可能存在較嚴(yán)重的多重共線性。X1X2X3X4X5X6X11.00000.99710.99440.99860.97500.9986X20.99711.00000.99520.99600.98590.9924X30.99440.99521.00000.98890.97830.9898X40.99860.99600.98891.00000.97740.9980X50.97500.98590.97830.97741.00000.9670X60.99860.99240.98980.99800.96701.00008.4多重共線性的檢驗(3) 方差膨脹因子法在上一節(jié)里我們得到了二元線性回歸模型的方差膨脹因子,更多元的線性回歸模型也可以得到相對應(yīng)的方差膨脹因子。選定一個解釋變量作為被解釋變量(比如),做其與其余解釋變的回歸,得到回歸的可決系數(shù),則可以證明對應(yīng)的OLS估計量的方差為:其中為變量對應(yīng)的OLS估計量的方差膨脹因子8.4多重共線性的檢驗由于可決系數(shù)度量了與其他解釋變量的線性相關(guān)程度,所以這種相關(guān)程度越高,的值就越大,從而VIF的值也就越大,說明模型中多重共線性越嚴(yán)重,反之亦然。一般認(rèn)為,當(dāng)某一個解釋變量對應(yīng)的VIF的值大于等于10時,則模型中存在較嚴(yán)重的多重共線性,這個條件等價于。8.4多重共線性的檢驗(4)輔助回歸法相關(guān)系數(shù)矩陣只能判斷解釋變量兩兩之間的相關(guān)程度。當(dāng)模型中解釋變量多于2個并呈現(xiàn)出較為復(fù)雜相關(guān)關(guān)系時,我們就不能從相關(guān)系數(shù)矩陣來判斷多重共線性了。這時我們可以通過輔助回歸的方法來判斷。輔助回歸是指用一個選定的解釋變量(比如)作為被解釋變量,與其他的解釋變量所做的回歸稱為輔助回歸。由輔助回歸得到其對應(yīng)的可決系數(shù)
。可以證明由可決系數(shù)構(gòu)造的統(tǒng)計量:8.4多重共線性的檢驗服從F分布。如果由此計算得到的F值超過設(shè)定的臨界值,則說明模型中存在較嚴(yán)重的多重共線性。8.5多重共線性的修正如果模型中存在較嚴(yán)重的多重共線性,會給OLS估計結(jié)果帶來嚴(yán)重的影響。通過檢驗我們可以判斷模型中是否存在多重共線性,若存在,就有必要對模型進(jìn)行修正。1.增加樣本容量產(chǎn)生多重共線性的一個重要原因就是樣本過小而變量個數(shù)較多,所以解釋多重共線性的方法之一就是增加樣本容量。但是,這種方法會增加成本,包括時間成本和經(jīng)濟(jì)成本。以二元線性回歸模型為例,估計量的方差為:。當(dāng)兩個變量間的相關(guān)程度一定時,即一定時,的值會隨著樣本容量增加而增加,從而估計量的方差會隨著樣本容量增加而減少。這樣,就會減少估計的誤差,直觀的看是減少了多重共線性的影響。2.變量變換我們還通過變量代換的方法來修正或降低多重共線性,這種方法有兩種形式。其一,差分變換。假設(shè)時間序列模型為:8.5多重共線性的修正則有:由(8-13)減去(8-14)得記:則(8-15)可以寫成:式(8-16)稱為一階差分形式。對(8-16)進(jìn)行估計,可以較有效的修正多重共線性.其二,比率變換。如果在式(8-13)中,Y表示消費(fèi)支出,X1表示GDP,X2表示人口數(shù)。則GDP可能會與人口數(shù)存在較嚴(yán)重的相關(guān)性。我們可以通過比率變換來消除這種相關(guān)性,方法如下:在式(8-13)中,同除以X2,得:8.5多重共線性的修正通過這樣的變換可以減少多重共線性。這兩種變換雖然能修正或減少多重共線性,但也會帶來其他的一些問題,經(jīng)過這樣的變換后模型可能會不滿足其他的古典假定了。3.利用先驗的信息我們在長期的實(shí)踐中可以觀察到有些變量之間會存在很高的相關(guān)性,這些信息對我們設(shè)定模型時避免和減少多重共線性是非常有幫助的。例如,對于消費(fèi)模型,其中X1表示收入,X2表示財富。我們觀察到,收入和財富具有很高的相關(guān)性,在重復(fù)觀察中可以估計出這兩個變量之間的相關(guān)程度,比如,我們就可以將原來的二元線性回歸模型設(shè)定為一個一元線性回歸模型:,其中,從而避免多重共線性。8.5多重共線性的修正4.截面數(shù)據(jù)與時間序列數(shù)據(jù)并用也稱為數(shù)據(jù)合并法,這種方法的基本思想是:由于截面數(shù)據(jù)是同一時點(diǎn)上產(chǎn)生的數(shù)據(jù),某些變量的數(shù)據(jù)還不至于產(chǎn)生較大的變化。所以先用截面數(shù)據(jù)求出一個或多個回歸系數(shù)的估計值,再把它們代入原時間序列數(shù)據(jù)模型中,通過用因變量與上述估計值所對應(yīng)的解釋變量相減從而得到新的因變量,然后建立新因變量對那些保留解釋變量的回歸模型,并利用時間序列樣本估計回歸系數(shù)。下面通過一個例子具體介紹合并數(shù)據(jù)法。設(shè)有某種商品的銷售量模型如下,式中Yt表示銷售量,Pt表示平均價格,It表示消費(fèi)者收入,下標(biāo)t表示時間。我們的目的是要估計價格彈性和收入彈性。在時間序列數(shù)據(jù)中,平均價格Pt與收入It一般高度相關(guān),所以當(dāng)用最小二乘法估計模型時,會遇到多重共線性問題。8.5多重共線性的修正我們先利用截面數(shù)據(jù)估計收入彈性,因為在截面數(shù)據(jù)中,平均價格不會發(fā)生較大變化,所以這個估計是可靠的。即估計模型:注意,這是由截面數(shù)據(jù)估計的回歸。再把用截面數(shù)據(jù)得到的收入彈性系數(shù)估計值代入原模型中得:移項整理:這時模型已變換為一元線性回歸模型,排除了收入變量的影響。利用時間序列數(shù)據(jù)對上述模型進(jìn)行估計,求出,,則可得到估計式:其中是用截面數(shù)據(jù)估計的,、是由時間序列數(shù)據(jù)估計的。8.5多重共線性的修正由于把估計過程分作兩步,從而避免了多重共線性問題。顯然這種估計方法默認(rèn)了一種假設(shè),即相對于時間序列數(shù)據(jù)各個時期截面數(shù)據(jù)所對應(yīng)的收入彈性系數(shù)估計值都與第一步求到的相同。當(dāng)這種假設(shè)不成立時,這種估計方法會帶來估計誤差。5.剔除變量法模型中產(chǎn)生多重共線性的一個重要原因是模型的變量設(shè)定有偏誤。當(dāng)然,解決這一問題的方法就是剔除變量。這里又要談到模型設(shè)定的問題。我們說模型被正確設(shè)定一般是指模型的函數(shù)形式被正確設(shè)定、變量也被正確設(shè)定。如果模型中設(shè)定的變量多了或者少了,都會產(chǎn)生模型設(shè)定的偏誤,而設(shè)定的變量多了可能會產(chǎn)生多重共線性。當(dāng)模型中存在多重共線性時,我們可能通過剔除變量的方法進(jìn)行修正,但剔除哪個變量卻是一個不好處理的問題。一般可以根據(jù)經(jīng)濟(jì)理論來確定哪個變量是核心變量或重要變量,以此來判斷剔除哪個變量。如果沒有相關(guān)的經(jīng)濟(jì)理論為依據(jù),可以根據(jù)多元回歸的系數(shù)符號是否與實(shí)際相符或者t檢驗的顯著性水平的高低來判斷剔除哪個變量。8.5多重共線性的修正6.逐步回歸法我們還可以運(yùn)用逐步回歸的方法來避免多重共線性。具體的方法如下:(1)用被解釋變量對每一個所考慮的解釋變量做簡單回歸。(2)以對被解釋變量貢獻(xiàn)最大的解釋變量所對應(yīng)的回歸方程為基礎(chǔ),以對被解釋變量貢獻(xiàn)大小為順序逐個引入其余的解釋變量。這個過程可能會出現(xiàn)3種情形。①若新變量的引入沒有改變系數(shù)的符號,并且改進(jìn)了R2,回歸參數(shù)的t檢驗在統(tǒng)計上也是顯著的,則該變量在模型中予以保留。②若新變量的引入未能改進(jìn)R2,且對其他回歸參數(shù)估計值的t檢驗也未帶來什么影響,則認(rèn)為該變量是多余的,應(yīng)該舍棄。③若新變量的引入未能改進(jìn)R2,且顯著地影響了其他回歸參數(shù)估計值的符號與數(shù)值,同時本身的回歸參數(shù)也通不過t檢驗,這說明出現(xiàn)了嚴(yán)重的多重共線性。舍棄該變量。此外,修正多重共線性還有主成分法,嶺回歸法等等,有興趣的讀者可以參閱其他教材和相關(guān)資料。8.6案例分析【例8-2】影響糧食產(chǎn)量的因素是多種多樣的,以河南省為例,將糧食產(chǎn)量作為被解釋變量,農(nóng)業(yè)機(jī)械總動力、灌溉面積、化肥施用量、糧食播種面積、農(nóng)村用電量為解釋變量建立多元線性回歸模型(數(shù)據(jù)見教學(xué)資源data8-2,數(shù)據(jù)來源:河南統(tǒng)計年鑒2021),用最小二乘法對模型進(jìn)行估計,并檢驗?zāi)P椭惺欠翊嬖诙嘀毓簿€性。解:打開Eviews錄入數(shù)據(jù),并對變量命名:其中Y—糧食產(chǎn)量,X1—農(nóng)業(yè)機(jī)械總動力,X2—灌溉面積,X3—化肥施用量,X4—糧食播種面積,X5-農(nóng)村用電量。多元線性回歸模型的估計結(jié)果如下:8.6案例分析DependentVariable:Y
Method:LeastSquares
Date:06/26/22Time:11:00
Sample:19782020
Includedobservations:43
VariableCoefficientStd.Errort-StatisticProb.
C636.39941626.8000.3911970.6979X1-0.1841780.056512-3.2590720.0024X2-0.0369150.181080-0.2038580.8396X34.5855240.9350354.9041220.0000X40.1701220.1339021.2704950.2118X59.0176362.1863894.1244420.0002
R-squared0.984431Meandependentvar4224.698AdjustedR-squared0.982327S.D.dependentvar1495.880S.E.ofregression198.8624Akaikeinfocriterion13.55189Sumsquaredresid1463212.Schwarzcriterion13.79764Loglikelihood-285.3657Hannan-Quinncriter.13.64252F-statistic467.8993Durbin-Watsonstat1.729130Prob(F-statistic)0.000000
8.6案例分析表8-5解釋變量的相關(guān)系數(shù)矩陣從相關(guān)系數(shù)矩陣可以看到,諸解釋變量之間存在較高的相關(guān)性,故模型中可能存在多重共線性。X1X2X3X4X5
X11.0000000.9541940.9864860.7983260.973916X20.9541941.0000000.9619830.6926270.937275X30.9864860.9619831.0000000.7706820.966887X40.7983260.6926270.7706821.0000000.876123X50.9739160.9372750.9668870.8761231.0000008.6案例分析我們可以用逐步回歸法修正多重共線性。先做一元線性回歸估計,得到如下比較結(jié)果表8-6一元線性回歸估計結(jié)果從結(jié)果看,6個解釋變量的一元線性回歸結(jié)果的對應(yīng)的斜率項系數(shù)均為正,t檢驗都是顯著的。比較可決系數(shù)發(fā)現(xiàn)X1對應(yīng)的最高,故選擇X5作為基礎(chǔ)變量做二元線性回歸。變量估計值(斜率項)t統(tǒng)計量P值可決系數(shù)x10.38000722.837320.00000.927117x21.75691816.340100.00000.866883x36.36633026.047600.00000.943014x41.67152610.775950.00000.739055x512.5914839.179840.00000.9739868.6案例分析表8-7二元線性回歸估計結(jié)果變量估計值(斜率項)t統(tǒng)計量P值調(diào)整后的可決系數(shù)X512.180158.5035500.00000.972744x10.0130650.2948600.7696X511.9949612.926370.00000.973003x20.0941300.6858590.4968X59.3977808.0802680.00000.977269x31.6972582.8400030.0071X512.8304719.049400.00000.972797X4-0.041571-0.4049990.68768.6案例分析選擇多元線性回歸模型的原則為:一是系數(shù)的符號要符合經(jīng)濟(jì)理論或預(yù)期;二是t檢驗是顯著的;三是調(diào)整后的可決系數(shù)較大。通過對表8-7的結(jié)果比較,X5、X3為解釋變量的模型是理想的結(jié)果,故以X5、X3為基礎(chǔ)變量做三元線性回歸模型。表8-8三元線性回歸估計結(jié)果通過對表8-8的結(jié)果比較,X5、X3、X4為解釋變量的模型在顯著性水平為10%的條件下是理想的結(jié)果,加之X4為糧食播種面積,是糧食產(chǎn)量決定性的因素,故保留X4,并以X5、X3、X4為基礎(chǔ)變量做四元線性回歸模型。變量估計值(斜率項)t統(tǒng)計量P值可決系數(shù)X511.28529 9.5088650.00000.981797X33.8603774.5709070.0000X1-0.189230-3.3092580.0020X59.556541 8.253632 0.00000.977708X32.3336153.0730070.0039X2-0.214004-1.3373360.1889X56.7341523.5167690.00110.978343X32.4960343.3530890.0018X40.2018771.7273200.09208.6案例分析表8-9四元線性回歸估計結(jié)果變量估計值(斜率項)t統(tǒng)計量P值可決系數(shù)X58.7764124.8350230.00000.982773X34.5505165.0145410.0000X40.1868861.7912310.0812X1-0.184915-3.3209880.0020X57.2386463.0541830.00410.977852X32.5834323.2737750.0023X40.1678401.1197050.2699X2-0.074682-0.3691700.71418.6案例分析通過對表8-9的結(jié)果比較,沒有合適的統(tǒng)計結(jié)果。故以X5、X3、X4為解釋變量的模型是理想的結(jié)果,最終的估計結(jié)果為:表8-10多重共線性修正結(jié)果DependentVariable:Y
Method:LeastSquares
Date:06/26/22Time:16:18
Sample:19782020
Includedobservations:43
VariableCoefficientStd.Errort-StatisticProb.
C295.60431071.2770.2759360.7841X56.7341521.9148693.5167690.0011X32.4960340.7443993.3530890.0018X40.2018770.1168731.7273200.0920
R-squared0.979890Meandependentvar4224.698AdjustedR-squared0.978343S.D.dependentvar1495.880S.E.ofregression220.1403Akaikeinfocriterion13.71482Sumsquaredresid1890009.Schwarzcriterion13.87865Loglikelihood-290.8685Hannan-Quinncriter.13.77523F-statistic633.4310Durbin-Watsonstat1.245811Prob(F-statistic)0.000000
8.6案例分析第8章
多重共線性【本章小結(jié)】多重共線是一種不滿足古典假定的情況。異方差產(chǎn)生的原因主要是經(jīng)濟(jì)變量具有的共同變化趨勢和模型設(shè)定的偏誤,。如果模型中存在多重共線會對估計結(jié)果產(chǎn)生很大的誤導(dǎo)作用,檢驗多重共線的常用方法是相關(guān)系數(shù)法,修正重共線的常用方法是剔除變量法?!緦W(xué)習(xí)建議】本章要理解多重共線的含義,了解多重共線產(chǎn)生的原因,掌握多重共線的修正方法。1.本章重點(diǎn)多重共線的含義相關(guān)系數(shù)法剔除變量法2.本章難點(diǎn)相關(guān)系數(shù)法剔除變量法【核心概念】多重共線方差膨脹因子剔除變量法第9章虛擬變量回歸第9章虛擬變量回歸理解虛擬變量的含義掌握虛擬變量的設(shè)置規(guī)則掌握虛擬變量回歸的估計方法了解虛擬變量的相關(guān)應(yīng)用LEARNINGTARGET學(xué)習(xí)目標(biāo)為了描述那些不是定量變量的現(xiàn)象,我們要引入虛擬變量。所謂虛擬變量就是其變量值只取0或1的變量,也稱為定性變量、二值變量等等,虛擬變量可以表示哪些具備某種屬性的現(xiàn)象。一般情況下我們都以變量值取0表示這個變量對應(yīng)的現(xiàn)象不具體某種屬性;而取1表示這個變量對應(yīng)的現(xiàn)象具體某種屬性。例如,以D表示性別,當(dāng)D取0時表示女性,取1時表示男性。需要特別注意的是,虛擬變量只能取0和1兩個值。上面所說的是一個最簡單和情況,我們只需要描述一個取兩個值(兩個屬性)的因素。如果需要描述取多個值(多個屬性)的因素,那么要怎樣設(shè)置虛擬變量呢?9.1虛擬變量9.1虛擬變量地區(qū)/變量D1D2西部00中部10東部01這樣,我們就可以表示各地區(qū)了。東部:(D1=0,D2=1);中部:(D1=1,D2=0);西部:(D1=0,D2=0)。可以歸納為下表:例如,我們要描述不同的地區(qū),比如東部、中部、西部。這個因素有三個屬性,所以需要取三個值,這時可以設(shè)置二個虛擬變量。在刻畫多個屬性時,我們首先要選擇一個屬性作為比較的基礎(chǔ),比如可以在三個不同的地區(qū)選擇西部作為比較的基礎(chǔ),這樣選擇就意味著用東部、中部和西部做比較。于是我們可以這樣設(shè)置虛擬變量:D1=1—中部D2=1—東部D1=0—其他D2=0—其他9.1虛擬變量這樣,我們就可以表示春、夏、秋、冬四季了。季節(jié)/變量D1D2D3春100夏010秋001冬000現(xiàn)在我們再來設(shè)置一個需要取四個值的情況,例如,春、夏、秋、冬四季。根據(jù)上面的設(shè)置方法,設(shè)置三個虛擬變量即可(以冬為比較基礎(chǔ)):D1=1—春D2=1—夏D3=1—秋D1=0—其他D2=0—其他D3=0—其他9.1虛擬變量通過上面的討論,我們可以歸納出設(shè)置虛擬變量的規(guī)則:(1)設(shè)置虛擬變量取值的規(guī)則。一般情況下,我們設(shè)置作為比較基礎(chǔ)的屬性為0,用于與比較基礎(chǔ)進(jìn)行比較的屬性為1;(2)設(shè)置虛擬變量個數(shù)的規(guī)則。如果我們需要描述m個互相排斥的屬性,那么需要且僅需要設(shè)置m-1個虛擬變量。要注意的是,上述規(guī)則的第2點(diǎn)。這項規(guī)則與含有虛擬變量的模型中有無截距有密切關(guān)系,如果模型中有截距項,則只能設(shè)置m-1個虛擬變量,否則會掉入“虛擬變量陷阱”,關(guān)于這一點(diǎn)我們在后面討論;如果模型中沒有截距項,則可以設(shè)置m個虛擬變量。有了虛擬變量,我們就可以在模型中引入虛擬變量,來刻畫某些屬性對被解釋變量的影響。虛擬變量模型可以分為兩大類:一是加法模型;二是乘法模型。為了簡化問題,我們假設(shè)模型中只有一個定量變量。1.加法模型加法模型是指虛擬變量與其他解釋變量之間是加法關(guān)系,其一般形式為:(9-1)式中X—定量變量,D—虛擬變量如果是時間序列模型,則下標(biāo)改為t。由于虛擬變量D只能取0或者1,所以模型(9-1)實(shí)際是只是改變了截距,而斜率沒有改變。在(9-1)中,令D=0或1得:
(D=0);
(D=1)9.2虛擬變量回歸模型圖9-1加法虛擬變量模型截距的位移9.2虛擬變量回歸模型面我們分不同類型討論加法虛擬變量模型。(1)模型中只包含同一因素的虛擬變量這種模型的基本形式為:(9-2)式中D—某一因素不同屬性的虛擬變量這類模型稱為方差分析模型。模型中含有k-1個虛擬變量,可以對k個屬性(總體)判斷其均值是否有差異。在對應(yīng)的樣本回歸方程中,如果通過F檢驗或t檢驗,得到對應(yīng)的偏回歸參數(shù)是否為零,則可推斷k個屬性(總體)均值是有差異的,否則k個總體均值沒有顯著差異。其中,常數(shù)項表示比較基礎(chǔ)總體的均值。模型中各項系數(shù)的含義是:表示基礎(chǔ)屬性(總體)的均值;表示第i個屬性(總體)較基礎(chǔ)屬性的增量。9.2虛擬變量回歸模型【例9-1】為科學(xué)反映我國不同區(qū)域的社會經(jīng)濟(jì)發(fā)展?fàn)顩r,為黨中央、國務(wù)院制定區(qū)域發(fā)展政策提供依據(jù),根據(jù)《中共中央、國務(wù)院關(guān)于促進(jìn)中部地區(qū)崛起的若干意見》、《國務(wù)院發(fā)布關(guān)于西部大開發(fā)若干政策措施的實(shí)施意見》以及黨的十六大報告的精神,現(xiàn)將我國的經(jīng)濟(jì)區(qū)域劃分為東部、中部、西部和東北四大地區(qū)。東部包括:北京、天津、河北、上海、江蘇、浙江、福建、山東、廣東和海南。中部包括:山西、安徽、江西、河南、湖北和湖南。西部包括:內(nèi)蒙古、廣西、重慶、四川、貴州、云南、西藏、陜西、甘肅、青海、寧夏和新疆。東北包括:遼寧、吉林和黑龍江。(國家統(tǒng)計局2011-06-13)電子商務(wù)是數(shù)字及數(shù)字化產(chǎn)品的流通和消費(fèi)方式,推動了生產(chǎn)方式的定制化、數(shù)字化和網(wǎng)絡(luò)化,是數(shù)字經(jīng)濟(jì)最主要的組成部分。選取2020年各地區(qū)電子商務(wù)銷售額的數(shù)據(jù)(數(shù)據(jù)見教學(xué)資源data9-1數(shù)據(jù),數(shù)據(jù)來源:中國統(tǒng)計年鑒2021),試分析不同經(jīng)濟(jì)區(qū)域的電子商務(wù)銷售額有無顯著差異。9.2虛擬變量回歸模型解:設(shè)電子商務(wù)銷售額為Y。以西部作為比較的基礎(chǔ)設(shè)置虛擬變量:地區(qū)/變量D1D2D3西部000中部100東部010東北0019.2虛擬變量回歸模型9.2虛擬變量回歸模型(2)模型中包含不同因素的虛擬變量這種模型的基本形式為:
(9-3)式中D—某一因素不同屬性的虛擬變量
G—另一因素不同屬性的虛擬變量例如,我們要分析影響個人收入的因素,特別想知道“受教育程度”(D)和“性別”(G)收入的影響,可以設(shè)定形如(9-3)的模型加以估計。當(dāng)然,這類模型可以推廣到包含更多個不同因素屬性的虛擬變量的模型。9.2虛擬變量回歸模型對估計結(jié)果進(jìn)行t檢驗和F檢驗,可以判斷這些因素影響是否是顯著的。模型中各項系數(shù)的含義是:表示基礎(chǔ)屬性(總體)的均值(D=0,G=0);表示D對應(yīng)的屬性(總體)在G對應(yīng)的屬性不變的條件下較基礎(chǔ)屬性的增量;表示G對應(yīng)的屬性(總體)在D對應(yīng)的屬性不變的條件下較基礎(chǔ)屬性的增量。(3)模型中包含一個定量變量和同一因素的虛擬變量這種模型的基本形式為:
(9-4)式中X—定量變量
D—某一因素不同屬性的虛擬變量我們用一個實(shí)例來說明問題。9.2虛擬變量回歸模型【例9-2】消費(fèi)可以用收入來解釋,但在不同的季節(jié),消費(fèi)會表現(xiàn)出一定的季節(jié)性,我們希望除了知道收入對消費(fèi)的影響程度,還要描述消費(fèi)是否會有季節(jié)性。搜集到2013年第一季度至2021年第四季度的居民人均可支配收入中位數(shù)和居民人均消費(fèi)支出的季度數(shù)據(jù)(數(shù)據(jù)見教學(xué)資源data9-2數(shù)據(jù),數(shù)據(jù)來源:國家數(shù)據(jù)庫),試分析收入對消費(fèi)的影響,并判斷消費(fèi)是否存在季節(jié)性。解:設(shè)為居民人均可支配收入中位數(shù)X,居民人均消費(fèi)支出為Y。做兩個變量的線圖:9.2虛擬變量回歸模型9.2虛擬變量回歸模型從兩張線圖中可以看出,兩個變量即存在趨勢性也存在季節(jié)性,但是我們希望從數(shù)量分析的角度來進(jìn)行判斷。由于兩個變量在第二季度的值最小,故以第二季度作為比較的基礎(chǔ),設(shè)置虛擬變量如下:季節(jié)/變量D1D2D3一100二000三010四0019.2虛擬變量回歸模型9.2虛擬變量回歸模型9.2虛擬變量回歸模型(4)模型中包含一個定量變量和不同因素的虛擬變量這種模型的基本形式為:
(9-5)式中X—定量變量
D—某一因素不同屬性的虛擬變量
G—另一因素不同屬性的虛擬變量例如,Y表示個人儲蓄,X表示個人收入。儲蓄會受到收入的影響,除此之外,我們還想知道此人“性別”(D)和“婚姻狀況”(G)對儲蓄的影響,于是我們可以建立形如(9-5)的模型進(jìn)行估計。對估計的結(jié)果進(jìn)行F檢驗和t檢驗,可以判斷這些因素是否對儲蓄有顯著的影響。當(dāng)然,這類模型可以推廣到包含更多個虛擬變量的模型。9.2虛擬變量回歸模型現(xiàn)在我們來討論“虛擬變量陷阱”問題。在設(shè)置虛擬變量時,我們要遵循一個規(guī)則:如果我們需要描述m個互相排斥的屬性,那么需要且僅需要設(shè)置m-1個虛擬變量。在有截距的虛擬變量模型中必須這樣設(shè)置,否則的話就會落入“虛擬變量陷阱”。下面我們舉例說明。例如在形如(9-1)的模型中,Y表示消費(fèi),X表示收入,D表示性別。根據(jù)設(shè)置虛擬變量的規(guī)則,m=2,所以只能設(shè)置m-1=2-1=1個虛擬變量。如果我們不這樣設(shè)置,而是設(shè)置2個虛擬變量,會出現(xiàn)什么情況呢?如果設(shè)置2個虛擬變量,則模型為:(9-6)我們假定D1=0表示女性,D1=1表示其他;D2=1表示男性,D2=0表示其他。這時,對于任何一個調(diào)查者都會有D1+D2=1,也就是說,模型(9-6)存在完全的多重共線性,這就是所謂的虛擬變量陷阱。當(dāng)然,這種情況只是在有截距的模型中出現(xiàn),如果是無截距,則可以設(shè)置2個虛擬變量。9.2虛擬變量回歸模型2.乘法模型在虛擬變量模型中,還有一種是虛擬變量與定量變量之間是乘法關(guān)系的模型,稱為乘法模型,也稱為協(xié)方差分析模型。例如,我們想知道工作經(jīng)驗和性別對收入的共同影響,假定Y表示收入,X表示工作年限(工作經(jīng)驗的代表變量),D代表性別(D=0表示女性,D=1代表男性),這時我們應(yīng)該如何建立模型呢?因為要測度工作經(jīng)驗和性別兩個變量對收入的共同影響,也就是交互作用,這時兩個變量之間是乘積關(guān)系,即DX。我們?nèi)绻⑿稳纾?-7)的乘法模型結(jié)果會怎樣呢?(9-7)9.2虛擬變量回歸模型當(dāng)我們要表示男性時,則D=1,這時(9-7)為。說明男性的收入會隨著工作經(jīng)驗的增加而增加;當(dāng)表示女性時,則D=0,這時(9-7)為,說明女性的收入不會隨著工作經(jīng)驗的增加而發(fā)生系統(tǒng)性的增加,這個結(jié)論顯然是不正確的。之所以出現(xiàn)這樣的結(jié)論,是因為在(9-7)中沒有考慮工作經(jīng)驗(X)獨(dú)立的對收入(Y)的影響,于是我們將模型設(shè)定為:(9-8)這時,當(dāng)D=0時表示女性的收入變化,(9-8)為,說明女性的收入隨著工作經(jīng)驗的增加而增加,平均工作經(jīng)驗每增加1年,收入增加;當(dāng)D=1時表示男性的收入變化,(9-8)為,說明男性平均工作經(jīng)驗增加1年,收入增加,如果,則說明男性的增加幅度高于女性。這個結(jié)果相當(dāng)于只改變了斜率,說明男性和女性的起薪?jīng)]有顯著差異,其效果見圖9-2a。9.2虛擬變量回歸模型如果我們還想考慮性別獨(dú)立的對收入的影響,可以將設(shè)定為:(9-9)這時,當(dāng)D=0時表示女性的收入變化,(9-9)為,說明女性的收入隨著工作經(jīng)驗的增加而增加,平均工作經(jīng)驗每增加1年,收入增加;當(dāng)D=1時表示男性的收入變化,(9-9)為,說明男性的起薪為,平均工作經(jīng)驗增加1年,收入增加,如果,則說明男性的起薪和收入增加幅度高于女性。這個結(jié)果即改變了斜率也改變了截距,其效果見圖9-2b。通過以上分析可知,乘法模型的基本形式如(9-8)、(9-9)a)只改變斜率b)即改變斜率也改變截距9.3參數(shù)的結(jié)構(gòu)變化在有些問題中,我們要考慮參數(shù)的結(jié)構(gòu)穩(wěn)定性問題。這個問題的直觀表達(dá)是解釋變量與被解釋變量之間的關(guān)系是否會出現(xiàn)結(jié)構(gòu)性變化,例如,由于受到外部力量的影響,經(jīng)濟(jì)變量會發(fā)生一些明顯的突變:如經(jīng)濟(jì)政策的變化(減稅、匯率等)或者經(jīng)濟(jì)形勢發(fā)生重大變化(經(jīng)濟(jì)危機(jī))。在這些情況下,模型中參數(shù)可能會表現(xiàn)出不穩(wěn)定的情況,表現(xiàn)在圖形上如圖9-3所示。我們怎樣判斷經(jīng)濟(jì)變量之間的關(guān)系是否穩(wěn)定呢?有一種方法稱為鄒志莊檢驗(Chowtest)。圖9-3參數(shù)的結(jié)構(gòu)變化9.3參數(shù)的結(jié)構(gòu)變化鄒志莊檢驗的基本方法是拆分樣本。將所有觀測值(n個)分為兩組,第一組是前n1個觀測值,第二組后n2個觀測值(n1+n2=n);分組的依據(jù)是假定我們知道在某個時間點(diǎn)上變量可能會發(fā)生結(jié)構(gòu)性變化。先估計全部樣本模型,得到其殘差平方和,設(shè)為RSSR,稱其為有約束平方和,因為這時我們設(shè)定參數(shù)是沒有變化的,這時其自由度為n-k(其中k是模型中參數(shù)的個數(shù));再分別估計兩組樣本模型,得到其殘差平方和RSS1和RSS2,這時兩個樣本組的自由度分別是:n1-k和n2-k。令RSSU=RSS1+RSS2,稱其為無約束平方和,因為這時我們認(rèn)為參數(shù)的結(jié)構(gòu)是有變化的,其自由度為:n1-k+n2-k=n1+n2-2k。如果參數(shù)不存在結(jié)構(gòu)上的變化,這時RSSR和RSSU在統(tǒng)計上不應(yīng)該有顯著的不同,因此,我們構(gòu)造統(tǒng)計量:
(9-10)9.3參數(shù)的結(jié)構(gòu)變化鄒志莊證明了,在滿足一定條件的前提下,上述統(tǒng)計量在原假設(shè)“參數(shù)沒有結(jié)構(gòu)變化”成立時,服從自由度為k和n1+n2-2k的F分布。如果F統(tǒng)計量大于臨界值則拒絕原假設(shè),說明參數(shù)存在結(jié)構(gòu)變化,否則不拒絕原假設(shè),說明參數(shù)不存在結(jié)構(gòu)變化。我們現(xiàn)在可以利用虛擬變量來檢驗參數(shù)的結(jié)構(gòu)變化問題。具體方法如下:將樣本分成兩組,其中一組為基礎(chǔ)組,另一組為比較組。引入虛擬變量D,基礎(chǔ)組D=0,比較組D=1。在模型中引入虛擬變量,設(shè)置不同的形式進(jìn)行估計,如果能夠在驗證在統(tǒng)計上D的系數(shù)、或者X的系數(shù)、或者DX的系數(shù)顯著的不為0,則說明模型的參數(shù)存在結(jié)構(gòu)上的變化。9.3參數(shù)的結(jié)構(gòu)變化【例9-3】消費(fèi)是推動經(jīng)濟(jì)增長的持續(xù)穩(wěn)定的因素,以居民消費(fèi)水平解釋國內(nèi)生產(chǎn)總值建立模型(數(shù)據(jù)見教學(xué)資源data9-3數(shù)據(jù),數(shù)據(jù)來源:國家數(shù)據(jù)庫),其中X表示居民消費(fèi)水平,Y表示國內(nèi)生產(chǎn)總值,檢驗?zāi)P偷膮?shù)是否存在結(jié)構(gòu)上的變化。解:作兩個變量的線圖:從這個線圖上可以看出,兩個變量大約在2000年這個時間點(diǎn)出現(xiàn)一個轉(zhuǎn)折點(diǎn)。這樣我們把樣本為成兩組,1978-1999年為基礎(chǔ)組,2000-2020年為比較組。設(shè)虛擬變量D,取值如下:當(dāng)變量在1978-1999年取值時,D=0;當(dāng)變量在2000-2020年取值時,D=1。9.3參數(shù)的結(jié)構(gòu)變化設(shè)置不同的模型進(jìn)行估計并進(jìn)行比較。(9-11)(9-12)從估計的結(jié)果可以得到,(9-11)的參數(shù)在統(tǒng)計上是顯著的不為0,說明參數(shù)存在結(jié)構(gòu)變化,具體來說,截距不變,斜率變化;(9-12)除常數(shù)項外,參數(shù)在統(tǒng)計上是顯著的不為0,說明參數(shù)存在結(jié)構(gòu)變化,具體來說,截距變化,斜率也變化。將(9-12)調(diào)整為:(因為估計的結(jié)果常數(shù)項顯著為0)9.3參數(shù)的結(jié)構(gòu)變化9.3參數(shù)的結(jié)構(gòu)變化利用虛擬變量描述結(jié)構(gòu)性變化的另一個應(yīng)用是分段線性回歸。例如,一家公司對銷售代理以銷售額為標(biāo)準(zhǔn)支付獎金,并規(guī)定當(dāng)銷售額達(dá)到一個水平時(比如)適用更高的獎金支付比例。雖然對于銷售代理而言,銷售額不是唯一獲得獎金的因素(比如服務(wù)質(zhì)量也是一個因素),我們假設(shè)這些因素的影響都?xì)w結(jié)到隨機(jī)擾動項中。這樣,我們可以預(yù)計,銷售代理所得獎金會在其銷售額超過時發(fā)生變化。面對這樣的問題我們可以利用虛擬變量做分段線性回歸,具體方法如下:設(shè)X表示銷售額,Y表示獎金。當(dāng)銷售代理的銷售額小于時,所得獎金較少,這時Y與X之間的關(guān)系以一個線性形式存在;當(dāng)其銷售額超過時,所得獎金較多,這時Y與X之間的關(guān)系會發(fā)生變化,應(yīng)該是斜率比原來的要大。我們引入虛擬變量D:當(dāng)X<時,D=0;當(dāng)X>時,D=1。這時我們設(shè)定模型:9.3參數(shù)的結(jié)構(gòu)變化(9-13)當(dāng)銷售代理的銷售額小于時,Y與X之間的關(guān)系為:
(D=0)當(dāng)銷售代理的銷售額大于時,Y與X之間的關(guān)系為:(D=1)從這個結(jié)果可以看出,當(dāng)銷售額超過臨界值時,Y與X的關(guān)系會發(fā)生結(jié)構(gòu)性變化。9.4案例分析【例9-4】勞動經(jīng)濟(jì)學(xué)家會對“教育的回報”這個問題感興趣,也就是說個人收入怎樣受到教育年限的影響。當(dāng)然,個人收入還會受到其他因素的影響,如工作經(jīng)驗、任現(xiàn)職年限等,還會受到諸如性別、婚姻狀況的影響。數(shù)據(jù)data9-4中是1976年美國的數(shù)據(jù),我們想知道上面我們提到的因素對個人收入的影響。其中,個人收入是小時工資,受教育年限、工作年限、任現(xiàn)職年限都影響個人收入的定量變量,而性別、婚姻狀況則是虛擬變量。解:受教育年限是以怎樣的形式影響個人收入的呢?當(dāng)一個人只接受初等教育時(比如小學(xué)),我們有理由相信這時的教育對其收入的影響程度是小的,但這個人在接受了高等教育以后,后面接受高等教育的年限會對其收入產(chǎn)生很大的影響。所以,個人收入與受教育年限之間不是線性關(guān)系,大量的研究表明,這兩個變量之間是近似指數(shù)關(guān)系。同樣,工作所限、任現(xiàn)職年限都有這樣的特點(diǎn),于是我們要建立一個半對數(shù)模型:9.4案例分析(9-14)其中:Y—個人收入(小時工資)X1—受教育年限X2—工作年限X3—任現(xiàn)職年限D(zhuǎn)1—性別(男性=0,女性=1)D2—婚姻狀況(已婚=1,其他=0)或者:(9-15)其中D1D2是兩個虛擬變量的乘積,表示兩個因素的交互作用。在這個例子中,其意義是:若在統(tǒng)計意義上顯著的不為0,說明存在交互作用。如果D1、D2中至少有一個等于0,則模型的截距項沒有變化;如果D1=1,D2=1,則模型的截距項為,這時的截距項是有顯著變化的。9.4案例分析模型(9-14)估計的結(jié)果如下:
Se=(0.101237)(0.006982)(0.001684)(0.002959(0.037312)(0.125072)t=(4.830354)(12.05115)(1.875688)(5.711221)(-7.677723)(3.123932)p=(0.0000)(0.0000)(0.0613)(0.0000)(0.0000)(0.0019)
DW=1.786797F=70.51962p=0.000000從估計的如果可以看出,除了X2系數(shù)對應(yīng)的的t值較小(略小于2),p值較大(略大于0.05)外其他系數(shù)對應(yīng)的t值都較大,p值都較低小。如果我們設(shè)定顯著性水平為10%,則這個模型可能通過t檢驗和F檢驗。9.4案例分析模型(9-14)估計結(jié)果的意義為:在其他因素不變的條件下,女性要比男性和收入少約28.6%,說明性別是影響收入的一個重要因素,或者說當(dāng)時美國社會存在性別岐視;已婚人群的收入相對于其他婚姻狀況的人群的收入要多約12.5%,這可能是因為已婚人群一般年齡較大,而且社會地位較穩(wěn)定,從而使這部分人群的收入會高一些。9.4案例分析模型(9-15)估計的結(jié)果如下:
Se=(0.102469)(0.006871)(0.001657)(0.002925)(0.057546)(0.055469)(0.074074)t=(3.777826)(12.19190)(1.924062)(5.374682)(-1.708530)(5.243861)(-4.246120)p=(0.0002)(0.0000)(0.0549)(0.0000)(0.0881)(0.0000)(0.0000)DW=1.775466F=63.69582p=0.000000同樣,如果我們設(shè)定顯著性水平為10%,這個模型也可能通過t檢驗和F檢驗。9.4案例分析模型(9-15)估計結(jié)果的意義為:在其他因素不變的條件下,女性要比男性和收入少約9.8%;已婚人群的收入相對于其他婚姻狀況的人群的收入要多約2.9%;而已婚的女性的收入會比其他婚姻狀況的人群收入少約31.5%,這可能是已婚女性要承擔(dān)更多的家務(wù)勞動的原因造成的。通過以上分析,我們可能得到我們需要的關(guān)于一些虛擬變量對應(yīng)的結(jié)論。經(jīng)濟(jì)分析中經(jīng)常要考慮定性變量的影響,為了將定性變量引入進(jìn)模型必須定義虛擬變量。虛擬變量是以0和1代表現(xiàn)在因素同屬性的變量,含有虛擬變量的模型稱為虛擬變量模型,虛擬變量模型有多種表現(xiàn)形式,用來刻畫不同的經(jīng)濟(jì)因素,估計虛擬變量模型仍然運(yùn)用最小二乘法。通過對虛擬變量的檢驗,能夠判斷虛擬變量對被解釋變量的影響?!颈菊滦〗Y(jié)】本章要理解建立虛擬變量模型的經(jīng)濟(jì)背景,理解虛擬變量模型系數(shù)的意義,掌握估計的方法。1.本章重點(diǎn)虛擬變量模型的設(shè)定虛擬變量模型系數(shù)的意義虛擬變量模型的估計2.本章難點(diǎn)虛擬變量的設(shè)定虛擬變量模型的設(shè)定【學(xué)習(xí)建議】虛擬變量虛擬變量模型加法模型乘法模型【核心概念】第10章異方差第10章異方差理解異方差的含義了解異方差產(chǎn)生的原因理解異方差對估計結(jié)果的影響掌握判斷異方差的方法掌握修正異方差的方法LEARNINGTARGET學(xué)習(xí)目標(biāo)10.1異方差回憶古典假定中對隨機(jī)擾動項的假定2:同方差假定。其含義是對于所有的i,的條件方差都相等,即:。這個假定的意義是,我們希望對于不同的X,對應(yīng)的Y的分散程度是相同的,其含義是他們均值的代表程度也相同。這個假定對我們得到高斯—馬爾可夫定理的結(jié)論是必要的,也就是說,如果這個假定沒有被滿足,我們就不能得到高斯—馬爾可夫定理的結(jié)論。而我們稱這種不滿足同方差假定的情況為異方差,即:。10.1異方差例如,在消費(fèi)模型中我們可以觀察到,低收入人群的消費(fèi)差異較小,而隨著收入的增加,消費(fèi)的差異也會增加。也就是說,當(dāng)收入()較小時,對應(yīng)的消費(fèi)()的值差異較小,此時的條件方差較??;當(dāng)收入()較大時,對應(yīng)的消費(fèi)()的值差異較大,此時的條件方差較大。這時我們就會發(fā)現(xiàn),的條件方差會隨著的增大而增大,也就是異方差。這種情形稱為遞增型異方差,其表現(xiàn)形式如圖10-1所示。10.1異方差如果的條件方差會隨著的增大而減小,則稱為遞減型異方差,其表現(xiàn)形式與遞增型異方差相反。還有一種復(fù)雜型異方差,的條件方差會隨著的增大表現(xiàn)出不規(guī)則的變化。無論哪一種情形,所謂異方差都是的條件方差會隨著某個的變化而發(fā)生變化。即有:
(10-1)10.2異方差產(chǎn)生的原因由于實(shí)際的經(jīng)濟(jì)現(xiàn)象是錯綜復(fù)雜的,很多變量會表現(xiàn)出其固有的規(guī)律性,從而導(dǎo)致異方差的產(chǎn)生,歸納起來有以下一些主要原因。1.模型設(shè)定偏誤我們已經(jīng)多次談到這個問題。模型設(shè)定偏誤主要包括變量設(shè)定偏誤和函數(shù)形式設(shè)定偏誤,這兩種情形都有可能產(chǎn)生異方差。假設(shè)正確的模型是多元的,例如正確的模型為:,因為模型是正確的,所以其隨機(jī)擾動項滿足古典假定,具有同方差性。而由于各種原因我們將模型設(shè)定為一元線性回歸模型:
(10-2)其中。這樣,中就包含了變動的因素,可能會產(chǎn)生異方差。再例如,正確的模型為:,其中隨機(jī)擾動項滿足古典假定,具有同方差性。同樣,如果我們將模型設(shè)定為式(10-2),則有,這樣,中就包含了變動的因素,也可能會產(chǎn)生異方差。10.2異方差產(chǎn)生的原因2.截面數(shù)據(jù)中各總體的差異一般來說,截面數(shù)據(jù)要比時間序列數(shù)據(jù)更容易產(chǎn)生異方差,這是因為截面數(shù)據(jù)來自于不同總體,但時間是同一時間。由于不同總體可能會有不同的分布,故其方差可能會不同,從而產(chǎn)生異方差。例如,用截面數(shù)據(jù)建立消費(fèi)模型,由于各地區(qū)的收入水平差異較大,故其消費(fèi)數(shù)據(jù)也會表現(xiàn)出不同的差異,故可能產(chǎn)生異方差。雖然異方差多產(chǎn)生于截面數(shù)據(jù)中,但不能否認(rèn)時間序列數(shù)據(jù)也會產(chǎn)生異方差。例如,用時間序列數(shù)據(jù)建立消費(fèi)模型,隨著時間的推移,人們的收入水平會提高,消費(fèi)也會有更大的選擇性和隨意性,雖然是同一個總體,前后不同時間的消費(fèi)數(shù)據(jù)也會存在明顯差異,故可能產(chǎn)生異方差。10.2異方差產(chǎn)生的原因3.數(shù)據(jù)的影響數(shù)據(jù)也會是產(chǎn)生異方差的原因。如出現(xiàn)異常值(非常的大或非常的?。?,會產(chǎn)生異方差,特別是當(dāng)樣本容量較小是更是如此。此外,數(shù)據(jù)采集技術(shù)的改進(jìn)也會產(chǎn)生異方差。例如隨著時間對推移,數(shù)據(jù)采集技術(shù)會得到較大的改進(jìn),使數(shù)據(jù)的誤差越來越小,從而方差也會隨之變小,從而產(chǎn)生異方差。再就是不正確的數(shù)據(jù)變形(如計算比率或差分等)也會產(chǎn)生異方差。10.3異方差的后果我們知道,高斯—馬爾可夫定理的條件是模型的設(shè)定要滿足古典假定。如果存在異方差,即存在不滿足古典假定的情況,我們就有理由認(rèn)為高斯—馬爾可夫定理不成立了。也就是說,異方差可能會對估計的結(jié)果產(chǎn)生影響。1.參數(shù)的OLS估計量仍然是線性的和無偏的由于線性性和無偏性僅依賴于古典假定中的零均值假定,即,以及解釋變量是非隨機(jī)變量,異方差的存在顯然不會影響這個結(jié)果的成立。2.對參數(shù)OLS估計量方差的影響以一元線性回歸模型為例來說明。由第3章的內(nèi)容可知,參數(shù)的OLS估計量的方差計算式為:
(10-3)這個結(jié)果要以同方差和無自相關(guān)假定作為條件。如果同方差假定不滿足,但無自相關(guān)假定滿足,可以證明,此時參數(shù)的OLS估計量真實(shí)的方差為:
(10-4)如果(即同方差時),則式(10-3)和(10-4)完全相同。10.3異方差的后果比較式(10-3)和(10-4),我們不能準(zhǔn)確的判斷哪個的值更大或更小。但有一點(diǎn)可以肯定,就是如果忽略異方差,用式(10-3)計算的方差(EViews就是這樣計算的),那么所得到的估計量是真實(shí)方差的有偏差的估計,而且可以證明,我們用來估計的估計量不再是的無偏估計量。在歷史上,戴維斯和麥金農(nóng)做過異方差問題的蒙特卡羅實(shí)驗,通過20000次重復(fù)實(shí)驗結(jié)果表明,用式(10-3)計算得到的方差不再是最小方差,即存在其他的估計方法,得到的方差要比OLS得到的方差小,這是一個非常嚴(yán)重的問題,說明此時的OLS估計量不是有效的估計量,雖然這個結(jié)果是一個經(jīng)驗結(jié)果。3.對t檢驗的影響t檢驗依賴于對應(yīng)估計量的標(biāo)準(zhǔn)差,而標(biāo)準(zhǔn)差又以方差為基礎(chǔ)。即,其中是對應(yīng)的標(biāo)準(zhǔn)差。當(dāng)模型存在異方差時,OLS估計量仍然是參數(shù)的無偏估計,而當(dāng)我們忽略了異方差,則所得到的參數(shù)估計量的方差是真實(shí)方差的有偏估計,而且一般來說會高估,這樣用t檢驗來判斷解釋變量影響的顯著性將失去意義。10.3異方差的后果4.對參數(shù)的區(qū)間估計和預(yù)測的影響由于存在異方差時,OLS估計量的方差會高估實(shí)際的方差,因此,以這樣的方差做參數(shù)的區(qū)間估計會使估計的區(qū)間無謂的增大;同理,在進(jìn)行預(yù)測時,也會增加預(yù)測的誤差。從以上個點(diǎn)來看,如果模型中存在異方差,可能會有比較嚴(yán)重的結(jié)果發(fā)生,即OLS估計量不再是最佳線性無偏估計量了,運(yùn)用這些結(jié)果可能對我們產(chǎn)生誤導(dǎo)。10.3異方差的后果10.4異方差的檢驗【例10-1】在我國,一個地區(qū)的進(jìn)出口商品總額與當(dāng)?shù)氐?/p>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 部編版八年級歷史(上)第4課洋務(wù)運(yùn)動聽課評課記錄
- 環(huán)保合作項目協(xié)議書
- 2022年新課標(biāo)八年級上冊道德與法治《第六課 角色與責(zé)任同在 》聽課評課記錄(2課時)
- 蘇科版數(shù)學(xué)七年級下冊7.2《探索平行線的性質(zhì)》聽評課記錄1
- 湘教版數(shù)學(xué)八年級上冊1.3.3《整數(shù)指數(shù)冪的運(yùn)算法則》聽評課記錄
- 無錫蘇教版四年級數(shù)學(xué)上冊《觀察由幾個正方體擺成的物體》聽評課記錄
- 湘教版數(shù)學(xué)九年級下冊2.6《弧長與扇形面積》聽評課記錄2
- 可轉(zhuǎn)股債權(quán)投資協(xié)議書范本
- 投資框架協(xié)議書范本
- 多人合辦店鋪合伙協(xié)議書范本
- 衛(wèi)生院安全生產(chǎn)知識培訓(xùn)課件
- 口腔醫(yī)院感染預(yù)防與控制1
- 發(fā)生輸液反應(yīng)時的應(yīng)急預(yù)案及處理方法課件
- 中國旅游地理(高職)全套教學(xué)課件
- 門脈高壓性消化道出血的介入治療課件
- 民航保密培訓(xùn)課件
- 兒童尿道黏膜脫垂介紹演示培訓(xùn)課件
- 詩詞寫作入門
- 學(xué)校教育中的STEM教育模式培訓(xùn)課件
- 電器整機(jī)新產(chǎn)品設(shè)計DFM檢查表范例
- 樁基礎(chǔ)工程文件歸檔內(nèi)容及順序表
評論
0/150
提交評論