版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第1章 線性回歸模型線性回歸模型用于考察多個自變量對一個因變量的影響。例如施肥量、土質(zhì)與作物產(chǎn)量的關(guān)系;受教育年數(shù)、工齡、性別對收入的影響,警察數(shù)量、下崗職工對城市犯罪率的影響等。以雙變量為例。x1、x2對y存在影響,同時x1和x2之間也存在相關(guān)關(guān)系。如圖所示。X1X2y1.1 模型設(shè)定假定變量yt與k個變量xt j, j = 1, , k,存在線性關(guān)系。多元線性回歸模型表示為, 1.1其中yt是被解釋變量(因變量),xj t是解釋變量(自變量),ut是隨機(jī)誤差項,bi, i = 0, 1, , k是回歸參數(shù)(通常未知)。這說明xj t, j = 1, , k, 是yt的重要解釋變量。ut代表
2、其他影響yt變化的隨機(jī)因素。 給定一個樣本(yt , xt1, xt2 , xt k),t = 1, 2, , T,上述模型表示為, 1.2令 , , 則(3.3) 式可以寫為, y = Xb + u 1.31.2 參數(shù)估計1.2.1 參數(shù)的點(diǎn)估計1 最小二乘法(OLS)設(shè)殘差平方和用Q表示, 1.4上式中,因為和是一個標(biāo)量()的結(jié)果是一個數(shù)值標(biāo)量,而不是向量,同理也是標(biāo)量;向量是既有大小又有方向的量),所以有。求Q對的一階偏導(dǎo)數(shù),并令其為零, 1.5化簡得, 假定1 解釋變量之間線性無關(guān)。Rank(X'X) = Rank(X) = K1 1.6其中Rank(×)表示矩陣的秩
3、,矩陣的秩等于它所含的線性無關(guān)的列向量的最大數(shù)目,有:秩(A)= 秩(A)min(行數(shù),列數(shù)),。即解釋變量之間彼此線性無關(guān)。如果假定1成立,可以直接得到的最小二乘估計量, 1.7Stata程序?qū)崿F(xiàn)的例子:*begin1/*下面是最簡單的一元回歸,操作一下看結(jié)果*/use consume, clear /使用consume.dta數(shù)據(jù)文件regress consume income /*用reg命令回歸,常數(shù)項是stata自動加入的*/reg consume income if income>300 /對收入(income)大于300的樣本進(jìn)行回歸reg consume income i
4、n 5/11 /對第5至11個樣本進(jìn)行回歸regress consume income /再對全部回歸樣本回歸一次,因為下面要用到回歸的預(yù)測值predict y, xb /根據(jù)X預(yù)測y的擬合值predict e, residual /預(yù)測回歸殘差值list /列出所有變量/*根據(jù)公式估計*/local N = _N /取得樣本個數(shù),_N是系統(tǒng)變量,其值等于樣本數(shù)量gen cons = 1 /生成一列值全為1的向量,對應(yīng)于式1.1中的常數(shù)項0mkmat consume, mat(y) /將數(shù)據(jù)庫中的consume列定義為矩陣y(此時y是向量)mkmat income cons, mat(X) /
5、將數(shù)據(jù)庫中的imcome列和新生成的定義為矩陣Xmat b = inv(X'*X)*X'*y / 式的stata實(shí)現(xiàn)mat list b /列出向量值,和reg結(jié)果比較看是否一樣mat list y /列出y的觀測值,和前面是一樣的mat list X /列出X矩陣的值,注意到它有一列是1,即常數(shù)項取值為1(對應(yīng)0)*over1表示y的擬合值,表示殘差項。擬合值和殘差項經(jīng)常表示為另外一種形式: 1.8 1.9其中,稱為映射矩陣。Py表示y對X回歸的擬合值。,稱為零化子矩陣。My表示y對X的殘差項。因此,y總是可以表示為y=Py+My。可以證明,P和M都是對稱冪等矩陣,即 M =
6、 M ',P = P ' M2 = M ' M = M ',P 2 = P ' P = P ' 1.10且有 PX=X, MX=0 1.11M+P=I,PM=0 由正規(guī)方程組可得,即。進(jìn)而可得。即1.2.2 FML定理接下來我們介紹OLS估計量的一個重要性質(zhì),即FML定理(Frisch and Waugh(1933)、Lovell (1963))。這一定理體現(xiàn)了線性回歸模型參數(shù)的經(jīng)濟(jì)含義。在虛擬變量等問題的處理中重要的應(yīng)用。將所有的解釋變量拆分為兩部分。模型表述為: 1.12殘差平方和為: 1.13其中和為標(biāo)量(可以看到,所有的矩陣表達(dá)式結(jié)果均為
7、標(biāo)量,但值不一樣,只能把和這二個標(biāo)量值相同的項合并),同樣,對應(yīng)的正規(guī)方程組為: 1.14由(1)式可得: 1.15由此可以看出,如果,則。即當(dāng)X2與X1正交時,模型與的參數(shù)估計量是完全相同的。將(1.15)式帶入正規(guī)方程(2)可得到解: 1.16其中,M1表示X1的零化矩陣,根據(jù)零化矩陣的性質(zhì), 1.17其中,表示X2對X1回歸的殘差項,表示y對X1回歸的殘差項。由此得到如下定理。Frisch-Waugh定理:與得到相同的估計量和殘差。(式1.12兩邊左乘MX1,然后再回到式1.17,估計過程可參考http:/personal.rhul.ac.uk/uhte/006/ec5040/Frisc
8、hWaugh.pdf)即,y對X1、X2的回歸方程中,X2的參數(shù)估計量等價于y對X1回歸的殘差項對X2對X1回歸的殘差項進(jìn)行回歸得到的參數(shù)估計量,二者的殘差也是相同的。這一定理表明,多元回歸模型中,回歸參數(shù)2體現(xiàn)了“排除”(partial out)X1影響后的“凈”影響。因此,2也稱作“偏回歸系數(shù)”,體現(xiàn)了X2對y的凈影響,稱之為“偏影響”(partial effect)。也正是由于回歸參數(shù)2體現(xiàn)了排除X1影響后的“凈”影響,因此把X1稱作“控制變量”。也就是說,雖然實(shí)際經(jīng)濟(jì)環(huán)境中,我們幾乎不能控制X1的變化。但在多元回歸模型中,2已經(jīng)把X1的影響排除掉了,因此2理解為“當(dāng)其他條件不變的情況下
9、”,X2對y的邊際影響。對于如下結(jié)構(gòu)關(guān)系:X1X2y如果回歸模型,參數(shù)b1的估計量不會顯著,因為將x2的影響排除后,x1對y不存在任何影響。例:*begin2/Consider an OLS regression of wage on education and ageuse "womenwk.dta", clear /使用womenwk.dta數(shù)據(jù)文件keep if work=1 /保留已工作婦女的樣本數(shù)據(jù)(即刪除未工作婦女樣本)reg wage education age / 估計多元回歸方程reg wage education /首先求出教育年限、年齡的對工資的影響系
10、數(shù)reg wage education /求education對wage的偏影響predict yhat2 if e(sample), resid /得出上面ols回歸的殘差并保存為變量yhat2reg age education /求education對age的偏影響predict xhat2 if e(sample), resid /得出上面ols回歸的殘差并保存為變量xhat2;if e(sample)指Obtain predictions for just the sample on which we fit the modelreg yhat2 xhat2 /用xhat2對yhat2
11、回歸,此時注意xhat2的系數(shù)與多元回歸方程中education的系數(shù)是一致的predict ahat if e(sample) sort xhat2two (scatter yhat2 xhat2) (line ahat xhat2) /Graphing this relationship*over21.2.3 參數(shù)估計量的分布特征設(shè)真實(shí)的DGP為y = Xb0 + u其中,b0為真實(shí)的參數(shù)。如果模型設(shè)定準(zhǔn)確的話,即y = Xb + u我們來看參數(shù)估計量的統(tǒng)計特征。對于模型錯誤設(shè)定的情況,請參見本章“模型的設(shè)定分析”部分。1 一致性設(shè)模型的參數(shù)為,估計量為。如果,則稱具有一致性。一致性意味著
12、隨著樣本量的增加,參數(shù)估計量可以無限接近真實(shí)參數(shù),即估計量的分布為真實(shí)參數(shù)那一點(diǎn)。也就是說,隨著樣本量的增加,我們可以對真實(shí)參數(shù)作出越來越精確的推斷。一致性是對參數(shù)估計量的最低要求。如果估計誤差與樣本量沒有關(guān)系,那么很難建立真實(shí)參數(shù)與參數(shù)估計量之間的關(guān)系。 1.18由假定Rank(X)=K和大數(shù)定律,樣本均值的概率極限等于總體均值,可得: 1.19又由Slustky定理,。由此可得 1.202 的無偏性的隨機(jī)性來源于u的隨機(jī)性,因此,將寫為關(guān)于u的表達(dá)式。 1.21即是隨機(jī)向量u的線性組合。如果X為確定性變量,則的期望為: 1.22因此,是b的線性無偏估計量。但將X做為確定性變量過于簡單。大多
13、數(shù)情況下,X與y一樣,具有明顯的隨機(jī)特征。假定2 u關(guān)于X的條件期望為0。Eu|X=0。假定2也稱作X具有嚴(yán)格外生性。具有兩個基本含義。第一個含義是,u的無條件均值也為0。這一特征可以通過迭代期望公式直接導(dǎo)出。E(u|X) = 0 E(u) = EE(u| X) = 0 1.23第二個含義是,u與X以及X的任何函數(shù)正交,不相關(guān)。 1.24Cov(g(X), u) = Eg(X)-E(g(X)u- E(u)= E(X-E(X)u=E g(X)-E(g(X)u = E g(X)u Eg(X)u = Eg(X)u- Eg(X)E(u) = 0當(dāng)g(X)= X時,u與X正交,u與X不相關(guān)。E(Xu|
14、X)= XE(u| X) = 0, E(Xu) = EE(Xu|X) = E(X) E(u| X) = 0Cov(X, u) = E(X-E(X)(u- E(u)= E(X-E(X)u= EXu- E(X)E(u) = 0的條件期望為: 1.25當(dāng)然,的無條件期望為: 1.26因此,是b0的線性無偏估計量,具有無偏性。與之相關(guān)的另外一個較弱的假定是,ut關(guān)于Xt的條件期望為0。Eut|Xt=0。3 的有效性假定3 隨機(jī)誤差項向量u是同方差、無序列相關(guān)的。即協(xié)方差矩陣為:Var (u|X) = s 2I = s 2 1.27OLS估計量的方差矩陣為: 1.28其中,s 2 (X 'X)-
15、1第i行第j列的元素表示第i個參數(shù)估計量和和第j個參數(shù)估計量的協(xié)方差。當(dāng)i=j時(即對角線上的元素),表示第i個(包括常數(shù)項)參數(shù)估計量的標(biāo)準(zhǔn)差。高斯馬爾科夫定理:在假定13成立的條件下,OLS估計量是最有效的線性無偏估計量。即:設(shè)是OLS估計量,為其他無偏估計量,那么。根據(jù)迭代期望公式,可以得到。將線性回歸模型中OLS估計量稱之為最佳線性無偏估計量(BLUE)。4 方差來源的方差對于統(tǒng)計推斷以及經(jīng)濟(jì)解釋都是至關(guān)重要的。方差越大,說明估計量越不精確,因此參數(shù)的置信區(qū)間就越大,假設(shè)檢驗也就越不準(zhǔn)確。假設(shè)關(guān)注變量x2,設(shè)DGP為,模型設(shè)定為。根據(jù)FML定理, 其方差為:其中,表示x2對X1回歸的殘
16、差平方和。因此,方差也可以表述為: 1.29其中,SSE2、R22表示x2對X1回歸的殘差平方和與可決系數(shù),表示x2的離差平方和。因此,的方差來源于三部份:回歸標(biāo)準(zhǔn)差02、解釋變量之間的相關(guān)性、x2的波動?;貧w標(biāo)準(zhǔn)差02體現(xiàn)了模型中噪音的成分,噪音越多(02越大),那么解釋變量的影響就越難以判斷,估計量的就越不準(zhǔn)確。02是一個總體概念,與樣本無關(guān)。但它是未知的,在后面的章節(jié)推導(dǎo)出其無偏估計量。給定被解釋變量y,要想降低2,那就需要將更多的成分從隨機(jī)擾動項中提取出來,方法只有一個:加入新的解釋變量。但加入新的變量并不總是有效的,后面的章節(jié)還會詳細(xì)地加以解釋。Ri2體現(xiàn)了xi與其他解釋變量的線性相
17、關(guān)程度。相關(guān)程度越高,Ri2就越高,就越大。當(dāng)Ri21時,。這時,我們稱之為多重共線性(multicollinearity)。當(dāng)然,如果部分解釋變量之間存在多重共線性,不會影響其他的參數(shù)估計。比如,在下面的模型中:yt = b0 + b1 x1t + b2 x2t+ b3 x3t + ut如果x2t與x3t高度相關(guān),那么和會比較大。但x2t與x3t的相關(guān)性對沒有影響。事實(shí)上,如果x1t、x2t都與x3t不相關(guān),即R120,那么2/SST1,與x2t、x3t之間的相關(guān)性沒有任何關(guān)系。因此,如果模型關(guān)注的是x1t,那么就沒有必要在乎x2t、x3t之間的多重共線性問題。給定其他條件不變的情況下,xi
18、的離差平方和越大,的方差越小。提高xi的離差平方和的方法是增加樣本容量。當(dāng)樣本容量不斷增加時,離差平方和可以無限大,可以有力地降低的方差。Arthur Goldberger針對人們面臨多重共線性問題的困擾提出了小樣本問題(micronumerosity),參見Goldberger(1991)。1.2.4 區(qū)間估計我們已經(jīng)知道了的分布形式,如果進(jìn)行區(qū)間估計的話,還需要估計s 2。根據(jù)前文所述,= Mu。殘差平方和為 1.30則殘差的方差估計量 1.31因s2是一個標(biāo)量,所以有 1.32其中tr(×) 表示矩陣的跡。tr(I ) = T,tr(X ( X ' X)-1 X
19、9;) = k+1。因為對于矩陣A B C有tr(ABC) = tr(BCA)= tr(CAB),所以tr(X (X 'X )-1 X ' ) = tr( (X 'X)-1 X 'X ) = tr(I ) = k+1。由此可見s 2是s 2的無偏估計量。/*估計s 2的Stata程序*/ *begin3/接bigin1local K = colsof(X) / colsof(X)函數(shù)取得矩陣X的列數(shù)(注意,不是行,行數(shù)即樣本數(shù))mat e = y - X*b /*殘差*/ mat s2 = (1/(N'-K')*(e'*e) /*即式1.
20、32的Stata表達(dá)*/mat list s2*over3得到了的方差估計量,就可以構(gòu)建區(qū)間估計了。/*回歸系數(shù)的標(biāo)準(zhǔn)誤差s.e.(bj)*/ *begin4/接bigin3mat Var_b = s2*inv(X'*X) /求出系數(shù)的協(xié)方差矩陣Var(b)mat list Var_b /列出協(xié)方差矩陣dis sqrt(0. 00099544) /結(jié)果和reg結(jié)果中變量income的系數(shù)S.E值一樣dis sqrt(90800.216) /結(jié)果和reg結(jié)果中常數(shù)項的S.E值一樣/*矩陣解析*/mat se_b = cholesky(diag(vecdiag(Var_b) / 這條命令將
21、回歸系數(shù)協(xié)方差矩陣中的對角元素開平方,結(jié)果和上面兩個開平方結(jié)果相等,只是以矩陣形式表達(dá)。其中,函數(shù)diag(v):將列向量轉(zhuǎn)化成對角方陣,對角線元素為列向量各元素;vecdiag(v):與diag(v)正好相反,將矩陣中的對角元素提出生成列向量;cholesky(v)為矩陣開平方;mat list se_b /列出回歸系數(shù)標(biāo)準(zhǔn)差向量reg consume income /reg命令是上面所有分析過程的集成*over4回歸系數(shù)t值的計算。公式:t = 系數(shù)/標(biāo)準(zhǔn)誤*begin5use consume, clearregress consume incomedis %4.2f 0.74711 /0
22、.0315506 /*income 的 t 值*/dis %4.2f 201.3083 / 301.3307 /*常數(shù)項 的 t 值*/*下面這條命令非常重要,以后都要涉及到*/eret list /列出reg命令估計后的內(nèi)存里的所有變量* 矩陣解析mat b0 = diag(b) /將系數(shù)向量轉(zhuǎn)化為對角陣mat list b0 /列出上面的矩陣mat inv_se_b = inv(se_b) /將回歸系數(shù)標(biāo)準(zhǔn)差矩陣求逆(數(shù)值變成分母)mat list inv_se_b /列出系數(shù)標(biāo)準(zhǔn)差逆矩陣mat t= hadamard(b0, inv_se_b) /將系數(shù)對角陣與標(biāo)準(zhǔn)差逆矩陣相乘(事實(shí)上相
23、當(dāng)于前者除以系數(shù)標(biāo)準(zhǔn)差矩陣),生成t值矩陣mat list t mat t = vecdiag(t) /將t值矩陣對角線元素提出reg consume income /上面的結(jié)果等同于reg命令結(jié)出的結(jié)果。*over51.2.5 殘差的分布接下來我們進(jìn)一步考察殘差的特征。上面我們利用殘差估計隨機(jī)誤差項的方差,后面很多統(tǒng)計檢驗都要利用殘差。由, 可以得到幾個基本結(jié)論。(1)每個殘差都是所有誤差項的線性組合。因此,雖然u同方差、無序列相關(guān),但是異方差、存在序列相關(guān)的。(2)。因此,殘差的方差小于隨機(jī)誤差項的方差。杠桿越高的觀測值,殘差的方差越小。與之相關(guān)聯(lián)的另外兩種殘差為標(biāo)準(zhǔn)化殘差與學(xué)生化殘差。標(biāo)
24、準(zhǔn)化殘差為,學(xué)生化殘差為。其中,表示刪除第i個觀測值后誤差項的標(biāo)準(zhǔn)差。1.2.6 標(biāo)準(zhǔn)化的回歸系數(shù)參數(shù)估計量是有量綱的,因此不能直接比較不同解釋變量的相對重要性。如果要比較不同變量的相對重要性,可以首先將所有的解釋變量進(jìn)行標(biāo)準(zhǔn)化,這樣便將其轉(zhuǎn)換為沒有量綱的概念了。, , 然后利用標(biāo)準(zhǔn)化后的解釋變量進(jìn)行回歸, 標(biāo)準(zhǔn)化的回歸系數(shù)消除了量綱,可以直接用于比較不同變量重要性。思考題:標(biāo)準(zhǔn)化的回歸系數(shù)與最初模型的回歸系數(shù)(b0,b0, , bk) 存在什么關(guān)系?例 1.1 考察CEO年薪方程Salary=b0+b1roe+b2sale+b3ros+u 其中,salary表示CEO年薪(千美元),roe為
25、前三年的平均資產(chǎn)收益率(%),sale表示公司銷售額(百萬美元),ros表示股票收益率(%)。(數(shù)據(jù)文件:ceosal1,http:/gul.gu.se/public/courseId/56281/coursePath/39029/56278/ecp/lang-en/publicPage.do?item=22024223)(1)計算OLS估計量、95%的置信區(qū)間。. regress salary roe sale ros, level(95) noheader(2)計算殘差、標(biāo)準(zhǔn)化殘差、學(xué)生化殘差;觀察每個指標(biāo)的描述指標(biāo). predict res, residual. predict res_
26、std, rstandard. predict res_stu, rstudent. summ res res_*例 1.2 估計工資收入方程,wage=b0+b1educ+b2exper+b3tenure+u 其中,wage表示工資(千美元),educ表示接受教育的程度(年),exper表示工齡(年),tenure表示在現(xiàn)有崗位的任職時間(年)。(數(shù)據(jù)文件:wage1)(1)計算OLS估計量、99%的置信區(qū)間。. regress wage educ exper expersq age, level(99) noheader(2)計算標(biāo)準(zhǔn)化的回歸系數(shù). regress wage educ ex
27、per expersq age, beta level(95) noheader1.3 模型檢驗1.3.1 擬合優(yōu)度y的變化由兩部分引起,一是解釋變量X=(x1, x2 , x k)(注意,X不包括常數(shù)項),二是隨機(jī)誤差項。那么解釋變量與誤差項對y的變化所作的貢獻(xiàn)如何衡量呢?擬合優(yōu)度即回歸線對散點(diǎn)的擬合程度?;貧w線擬合散點(diǎn)的程度越好,則表明解釋變量對y的解釋能力就越強(qiáng)。1 可決系數(shù)考慮如下兩個模型:模型中不包括X只有常數(shù)項時,的OLS估計量為,殘差為。將X納入模型之后,得到的殘差項為。由于X的加入,使得模型的誤差項縮小了。這即是被X所解釋的部分。因此,可以通過被X所解釋的部分在y的離差中所占比
28、例來衡量X對y 的解釋能力??傠x差平方和, 1.33回歸平方和為 由回歸直線的性質(zhì):y與的均值相同,可得,因此回歸平方和又可以寫為: 1.34殘差平方和為 1.35則有如下關(guān)系存在, SST = SSR + SSE 1.36證明: 由于,因此 1.37平方和除以它相應(yīng)的自由度稱為均方?;貧w均方定義為MSR = SSR / k,誤差均方定義為MSE = SSE / (T - k - 1)(即隨機(jī)誤差項的方差估計量),誤差均方平方 (RMSE,Root Mean Squared Error, RMSE),RMSE越小越好。Stata求SST、SSR、SSE、RMSE的程序如下:*begin6*方差
29、分析* Total sum of square = Model sum of square + Residual sum of square* y 的總波動 = 模型能夠解釋的波動 + 殘差的波動sysuse auto, clear /使用系統(tǒng)自帶的auto.dta數(shù)據(jù)文件reg price weight lengthpredict yhat /*price的擬合值*/predict e, res /*殘差*/foreach v of varlist price weight length /注意到這個循環(huán)語句用法,v可自定義egen avg_v' = mean(v') /va
30、rlist指后面指定的所有變量gen dif_v' = v' - avg_v' /egen和gen為生成新變量 /最終生成各個變量值與其均值之差的新列變量qui reg dif_price dif_wei dif_len, nocons /對新生成的變量進(jìn)行回歸,其中qui(quietly)放在回歸命令reg前表示不顯示回歸結(jié)果predict yhatd /*dif_price的擬合值*/* 公式TSS = MSS + RSS* 根據(jù)式1.33:TSS = sum of yd2 yd = y - mean(y)gen dprice2 = dif_price2 /生成新變
31、量dprice2,為上面剛生成變量dif_price的平方qui sum dprice2 /命令sum統(tǒng)計單變量匯總數(shù)據(jù),運(yùn)行后運(yùn)行return list,看內(nèi)存統(tǒng)計摘要dis "SST = " %12.0f r(sum) /r(sum)就是引用sum命令后生成的r(sum)結(jié)果。許多命令執(zhí)行后都會有一批結(jié)果放在內(nèi)存里,需要時可隨時調(diào)出來scalar SST = r(sum) /將r(sum)賦值給變量TSS,這里不用命令gen* 根據(jù)式1.34:SSR = sum of yhatd2,即(y-y)2, yhatd = Xd'bgen yhatd2 = yhatd2
32、 qui sum yhatd2dis "SSR = " %12.0f r(sum)scalar SSR = r(sum)* SSE = sum of e2 e = y-yhat = y-X'b = yd - Xd'b gen e2 = e2qui sum e2dis "SSE = " %12.0f r(sum)scalar SSE = r(sum)reg price weight length* MSR = SSR / (k-1) MSR: mean of SSR square回歸均方 dis "MSR = " %12
33、.0f SSR/2* MSE = SSE / (N-k) MSE:誤差均方dis "MSE =" SSE/71* MST = SST / (N-1)dis "MST =" SST/73 reg price weight length * Root MSE(mean square error): sqrt(s2)qui sum e2scalar Root_MSE = sqrt(r(sum)/(74-3) dis "Root MSE = " Root_MSE*over62 擬合優(yōu)度R2計算的變差占y的變差的比值是評價一個估計模型優(yōu)劣的方法
34、之一。多重可決系數(shù)定義如下: 1.38顯然有0 £ R 2 £ 1。R 2越接近1,估計的回歸函數(shù)對樣本點(diǎn)的擬合優(yōu)度越好,即解釋變量對被解釋變量的解釋作用越強(qiáng)。3 調(diào)整的擬合優(yōu)度對于給定的樣本值yt,總離差平方和是固定不變的。但隨著模型中解釋變量個數(shù)的增加,殘差平方和逐漸減小,因此可決系數(shù)R 2逐漸增加。結(jié)論1:增加解釋變量時,殘差平方和的變化。在模型中加入新的解釋變量z時,的殘差平方和為: 1.39其中,表示的殘差平方和,表示的殘差平方和,表示z對X回歸的殘差平方和。證明:設(shè)的回歸結(jié)果為。根據(jù)分塊矩陣的估計公式, ,可得: 1.40因此, 1.41新模型的殘差平方和為:
35、1.42根據(jù)Frisch-Waugh定理, 1.43即。因此, 1.44結(jié)論2:增加解釋變量時,可決系數(shù)的變化由上述結(jié)論, 1.45其中,表示控制變量X時y與z的偏相關(guān)系數(shù)。上式兩邊同時除以總離差平方和,可得 1.46因此,當(dāng)模型中加入新的解釋變量的時候,模型的殘差平方和總是遞減的,可決系數(shù)總是遞增的。為考慮模型中解釋變量個數(shù)的變化對R 2的影響,定義調(diào)整的多重可決系數(shù)如下, 1.47當(dāng)在模型中增加解釋變量時,SSE將減小,同時 T- k - 1也減小。從而使SSE的減小量得到一定補(bǔ)償。通常的值比R 2小。有時還會出現(xiàn)取負(fù)值的情況。增加新的解釋變量時,可能會增加,也可能會降低。這取決于新的解釋
36、變量對y的解釋能力。結(jié)論3:增加解釋變量時,調(diào)整的可決系數(shù)的變化。如果新增加的變量的t統(tǒng)計量大于(小于)1,則模型的調(diào)整的可決系數(shù)會增加(下降)。Stata求R 2和的程序如下:*begin7* R2 與 adj-R2* R2 的基本定義scalar R2a = SSE / SST /*模型能夠解釋的波動占總波動的比例*/dis R2ascalar R2b = 1 - SSE/SSTdis R2b* 對 R2 的第二種理解reg price weight length predict price_hatcorr price price_hatlocal R2 = r(rho)2dis &quo
37、t;R2 = ' R2'* 調(diào)整后的 R2local adj_R2 = R2' - (3-1)/(74-3)*(1-R2') dis "adj-R2 = " adj_R2'*over74 非中心化的R2當(dāng)模型中沒有常數(shù)項時,的均值不一定為0,y與的均值也不一定相同。因此,等式SST = SSR + SSE不一定成立,即總離差平方和(SST)不能分解為回歸平方和(SSR)與殘差平方和(SSE)兩部分。這時R2可能會出現(xiàn)負(fù)值或者大于1的情況。這時可采用非中心化的擬合優(yōu)度。我們知道,(2.44)式總是成立的,即y的平方和恰好分解為擬合值的平
38、方和與殘差平方和。定義非中心化的可決系數(shù)為: 1.48對比可決系數(shù)與非中心化的可決系數(shù)可以看出,如果模型中存在常數(shù)項,當(dāng)y的均值為0時,二者是完全相同的。對y進(jìn)行線性變換y*=by,則Ru2不變。即,y由以米為單位變?yōu)橐岳迕诪閱挝?,或者以公斤為單位變?yōu)橐越餅閱挝徊粫淖僐u2。如果對y進(jìn)行線性變換y*=al+y,則Ru2會發(fā)生相應(yīng)的變化。X中不包括常數(shù)項。當(dāng)a增加時,Ru2也隨之增加。因此,當(dāng)模型中包含常數(shù)項時,如果常數(shù)項比較大,則Ru2會比較高。但Ru2更多地是由常數(shù)項帶來的,并沒有直觀的經(jīng)濟(jì)意義。因此,在解釋模型的可決系數(shù)或非中心化的可決系數(shù)時,首先要明確Ru2的計算方法及其可能存在的問題
39、,避免對模型的錯誤解讀。例 1.3計算例1.1的方差分析表及R2等指標(biāo)。. regress ceosal ret 例 1.4計算例1.2的方差分析表及R2等指標(biāo)。. regress wage educ exper expersq age1.3.2 整個方程的顯著性檢驗假定4:隨機(jī)誤差項服從正態(tài)分布。當(dāng)檢驗被解釋變量yt與一組解釋變量x1, x2 , . , xk是否存在回歸關(guān)系時,給出的零假設(shè)與備擇假設(shè)分別是H0:b1 = b2 = . = bk = 0 ;H1:bi, i = 1, ., k不全為零。檢驗思路:無約束模型為:yt = b0 +b1x1t + b2x2t + bkx k t +
40、 ut , (a)受約束模型: yt = b0 + vt (b)如果原假設(shè)成立,那么模型(a)中的參數(shù)b1, , bk均不顯著,模型(a)與模型(b)的殘差平方和近似相等。如果備擇假設(shè)成立,那么模型(a)中至少有一個變量是顯著的,而模型(b)中的隨機(jī)擾動項ut包含了這些顯著性的變量,因此模型(b)的殘差平方和會明顯高于模型(a)的殘差平方和。模型(a)的殘差平方和表示為SSEU(其中U表示沒有約束(Unrestricted) 模型(b)的殘差平方和表示為SSER(其中R表示帶有約束(Restricted) 因此,可以根據(jù)殘差項方差的變化來檢驗假設(shè)是否是正確的。如果(SSER - SSEU)比較
41、大(?。瑒t傾向于拒絕(接受)原假設(shè)。正式的統(tǒng)計檢驗是通過構(gòu)建如下F統(tǒng)計量來完成的。 1.49在H0成立條件下,有F F(k, T k 1)由檢驗思路可以看出,F(xiàn)統(tǒng)計量越大(?。覀冊絻A向于拒絕(接受)原假設(shè)。因此,這是右單端檢驗。檢驗可以臨界值方法和構(gòu)建p值的方法來完成。設(shè)檢驗水平為a ,檢驗規(guī)則如下。1 臨界值法:若F £ Fa (k, T k 1),則接受H0;若F > Fa (k, T k 1),則拒絕H0。2 P值法:若P(x > F ) > ,接受H0;若P(x > F ) < ,拒絕H0。拒絕H0意味著肯定有解釋變量與yt存在回歸關(guān)系。若
42、F檢驗的結(jié)論是接受H0,則說明k個解釋變量都不與yt存在回歸關(guān)系。此時,假設(shè)檢驗應(yīng)該到此為止。當(dāng)F檢驗的結(jié)論是拒絕H0時,應(yīng)該進(jìn)一步做t檢驗,從而確定模型中哪些是重要解釋變量,哪些是非重要解釋變量。檢驗統(tǒng)計量還可以寫為另外一種形式。約束模型(b)中的b0估計量為,因此,其殘差平方和又等于離差平方和SST。因此,F(xiàn)統(tǒng)計量又可以寫為: 1.50其中,SSRU表示無約束模型的回歸平方和。注:當(dāng)模型中沒有常數(shù)項時,Stata輸出的R2為非中心化R2;而F統(tǒng)計量也是基于非中心化的F統(tǒng)計量,即(SSR/k)/SSE/(n-k)。思考題:證明,在一元回歸模型中,F(xiàn)統(tǒng)計量與t統(tǒng)計量存在關(guān)系:F=t2?Stat
43、a做F檢驗的程序如下:*begin8* F 檢驗:檢驗除常數(shù)項外其他所有解釋變量的聯(lián)合解釋能力是否顯著* X= X1 X2 X1=常數(shù) | X2=lnL lnKreg price weight length if foreign=1test _bweight=_blength=0 /注意到F值等于上面回歸結(jié)果中的F值*over81.3.3 單個回歸參數(shù)的約束檢驗當(dāng)F檢驗拒絕H0時,并不見得每個解釋變量都對yt有顯著的解釋作用(即不見得每一個都是重要解釋變量),所以還應(yīng)對每個解釋變量的系數(shù)進(jìn)行顯著性檢驗。檢驗統(tǒng)計量為: 1.51結(jié)論:在基本假定14的條件下,上式中的t統(tǒng)計量服從(N-K-1)個自
44、由度的t分布。證明: 令,由可知,。 1.52如果,并且與zj獨(dú)立的話,就可以證明上述結(jié)論。 1.53根據(jù)概率統(tǒng)計中的兩個基本結(jié)論:(1)如果向量,A為冪等矩陣,則,即自由度為矩陣A的秩;(2)如果A為冪等矩陣,則Rank(A)=Trace(A)以及基本假定,可得:由可得Trace(M)=N-K-1。因此,的自由度為N-K-1。由及,可得, 1.54綜上所述,可得到結(jié)論:檢驗的判別方法與簡單線性模型的完全相同,此處不予贅述。Stata做t檢驗的程序如下:*begin9* 單變量t檢驗webuse production.dta,cleargen lnY=lnoutputgen lnL=ln(la
45、bor)gen lnK=ln(capital)reg lnY lnL lnKtest lnL = 0test lnL = 0.7*over91.3.4 線性約束檢驗與整個方程的顯著性相類似,如果僅對其中部分變量的聯(lián)合顯著性進(jìn)行檢驗,也可以按照相同的思路利用F檢驗來進(jìn)行。將所有的解釋變量分解為兩部分,X1=(1, x1, x2, , xJ)和X2 = (xJ+1, , xK)。模型重新表述為:y = X11 + X22 + u 1.55其中,共有K個變量,其中X1含有K1個變量,X2含有K2個變量,K= K1+ K2。原假設(shè)與備擇假設(shè)分別是H0:2 =0;H1:2 0。無約束模型為:y = X11 + X22 + u 1.56受約束模型為:y = X11 + u 1.57如果原假設(shè)成立,則無約束模型的殘差平方不能明顯地提高模型的解釋能力;如果備擇假設(shè)成立,能無約束模型應(yīng)明顯地降低受約束模型的殘差平方和。F統(tǒng)計量為: 1.58在H0成立條件下,有F F(K2, T K 1) 判斷規(guī)則與整個方程的判斷規(guī)則完全相同。例 1.5 在例1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 綠色建筑施工安全費(fèi)用支付計劃
- 礦山企業(yè)安全生產(chǎn)操作規(guī)程
- 一年級數(shù)學(xué)下冊復(fù)習(xí)計劃
- 2024年度海南省公共營養(yǎng)師之三級營養(yǎng)師強(qiáng)化訓(xùn)練試卷A卷附答案
- 危險廢物貯存間的員工培訓(xùn)措施
- 酒店設(shè)施設(shè)備質(zhì)量管理措施
- 2025年農(nóng)村黨支部書記個人述職報告范文
- 推動民族地區(qū)經(jīng)濟(jì)發(fā)展的心得體會
- 黃大年事跡對志愿服務(wù)的影響與體會
- 五年級語文下冊學(xué)習(xí)評價計劃
- 軟件項目應(yīng)急措施及方案
- 2025河北邯鄲經(jīng)開國控資產(chǎn)運(yùn)營管理限公司招聘專業(yè)技術(shù)人才5名高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2024年民法典知識競賽考試題庫及答案(共50題)
- 2025老年公寓合同管理制度
- 2024-2025學(xué)年人教版數(shù)學(xué)六年級上冊 期末綜合卷(含答案)
- 2024中國汽車后市場年度發(fā)展報告
- 鈑金設(shè)備操作培訓(xùn)
- 感染性腹瀉的護(hù)理查房
- 天津市部分區(qū)2023-2024學(xué)年高二上學(xué)期期末考試 物理 含解析
- 水利工程招標(biāo)文件樣本
- 第17課 西晉的短暫統(tǒng)一和北方各族的內(nèi)遷(說課稿)-2024-2025學(xué)年七年級歷史上冊素養(yǎng)提升說課稿(統(tǒng)編版2024)
評論
0/150
提交評論