Chapter1線性回歸模型的OLS估計(jì)

上傳人：1*** IP屬地：貴州上傳時(shí)間：2023-04-10 格式：DOC 頁數(shù)：32 大?。?.28MB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩27頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

線性回歸模型考察多個(gè)自變量對(duì)一個(gè)因變量的影響。比如，施肥量、土質(zhì)與農(nóng)業(yè)產(chǎn)量的關(guān)系，受教育年數(shù)、工齡、性別對(duì)收入的影響，警察數(shù)量、下崗職工對(duì)城市犯罪率的影響等。以雙變量為例。x1、x2對(duì)y存在影響，同時(shí)x1和x2之間也存在相關(guān)關(guān)系。如圖所示。X1X1X2y模型設(shè)定假定變量yt與k個(gè)變量xtj,j=1,…,k，存在線性關(guān)系。多元線性回歸模型表示為，STYLEREF1\s1.SEQ公式\*ARABIC\s11其中yt是被解釋變量（因變量），xjt是解釋變量（自變量），ut是隨機(jī)誤差項(xiàng)，i,i=0,1,…,k是回歸參數(shù)（通常未知）。這說明xjt,j=1,…,k,是yt的重要解釋變量。ut代表其他影響yt變化的隨機(jī)因素。給定一個(gè)樣本（yt,xt1,xt2,…,xtk），t=1,2,…,T，上述模型表示為，STYLEREF1\s1.SEQ公式\*ARABIC\s12令,,則(3.3)式可以寫為，y=X+uSTYLEREF1\s1.SEQ公式\*ARABIC\s13參數(shù)估計(jì)參數(shù)的點(diǎn)估計(jì)最小二乘法（OLS）設(shè)殘差平方和用Q表示，STYLEREF1\s1.SEQ公式\*ARABIC\s14上式中，因?yàn)槭且粋€(gè)標(biāo)量，所以有。求Q對(duì)的一階偏導(dǎo)數(shù)，并令其為零，STYLEREF1\s1.SEQ公式\*ARABIC\s15化簡(jiǎn)得，假定1解釋變量之間線性無關(guān)。Rank(X'X)=Rank(X)=K＋1STYLEREF1\s1.SEQ公式\*ARABIC\s16其中Rank()表示矩陣的秩。即解釋變量之間彼此線性無關(guān)。如果假定1成立，可以直接得到的最小二乘估計(jì)量，STYLEREF1\s1.SEQ公式\*ARABIC\s17表示y的擬合值，表示殘差項(xiàng)。擬合值和殘差項(xiàng)經(jīng)常表示為另外一種形式：STYLEREF1\s1.SEQ公式\*ARABIC\s18STYLEREF1\s1.SEQ公式\*ARABIC\s19其中，，稱為映射矩陣。Py表示y對(duì)X回歸的擬合值。，稱為零化子矩陣。My表示y對(duì)X的殘差項(xiàng)。因此，y總是可以表示為y=Py+My?？梢宰C明，P和M都是對(duì)稱冪等矩陣，即M=M'，P=P'M2=M'M=M'，P2=P'P=P'STYLEREF1\s1.SEQ公式\*ARABIC\s110且有PX=X，MX=0STYLEREF1\s1.SEQ公式\*ARABIC\s111M+P=I，PM=0由正規(guī)方程組可得，即。進(jìn)而可得。即FML定理接下來我們介紹OLS估計(jì)量的一個(gè)重要性質(zhì)，即FML定理（FrischandWaugh(1933)、Lovell(1963)）。這一定理體現(xiàn)了線性回歸模型參數(shù)的經(jīng)濟(jì)含義。在虛擬變量等問題的處理中重要的應(yīng)用。將所有的解釋變量拆分為兩部分。模型表述為：STYLEREF1\s1.SEQ公式\*ARABIC\s112殘差平方和為：STYLEREF1\s1.SEQ公式\*ARABIC\s113對(duì)應(yīng)的正規(guī)方程組為：STYLEREF1\s1.SEQ公式\*ARABIC\s114由（1）式可得：STYLEREF1\s1.SEQ公式\*ARABIC\s115由此可以看出，如果，則。即當(dāng)X2與X1正交時(shí)，模型與的參數(shù)估計(jì)量是完全相同的。將（2.21）式帶入正規(guī)方程（2）可得到解：STYLEREF1\s1.SEQ公式\*ARABIC\s116其中，M1表示X1的零化矩陣，根據(jù)零化矩陣的性質(zhì)，STYLEREF1\s1.SEQ公式\*ARABIC\s117其中，表示X2對(duì)X1回歸的殘差項(xiàng)，表示y對(duì)X1回歸的殘差項(xiàng)。由此得到如下定理。Frisch-Waugh定理：與得到相同的估計(jì)量和殘差。即，y對(duì)X1、X2的回歸方程中，X2的參數(shù)估計(jì)量等價(jià)于y對(duì)X1回歸的殘差項(xiàng)對(duì)X2對(duì)X1回歸的殘差項(xiàng)進(jìn)行回歸得到的參數(shù)估計(jì)量，二者的殘差也是相同的。這一定理表明，多元回歸模型中，回歸參數(shù)β2體現(xiàn)了“排除”（partialout）X1影響后的“凈”影響。因此，β2也稱作“偏回歸系數(shù)”，體現(xiàn)了X2對(duì)y的凈影響，稱之為“偏影響”（partialeffect）。也正是由于回歸參數(shù)β2體現(xiàn)了排除X1影響后的“凈”影響，因此把X1稱作“控制變量”。也就是說，雖然實(shí)際經(jīng)濟(jì)環(huán)境中，我們幾乎不能控制X1的變化。但在多元回歸模型中，β2已經(jīng)把X1的影響排除掉了，因此β2理解為“當(dāng)其他條件不變的情況下”，X2對(duì)y的邊際影響。對(duì)于如下結(jié)構(gòu)關(guān)系：X1X2X1X2y如果回歸模型，參數(shù)1的估計(jì)量不會(huì)顯著，因?yàn)閷2的影響排除后，x1對(duì)y不存在任何影響。參數(shù)估計(jì)量的分布特征設(shè)真實(shí)的DGP為y=X0+u其中，0為真實(shí)的參數(shù)。如果模型設(shè)定準(zhǔn)確的話，即y=X+u我們來看參數(shù)估計(jì)量的統(tǒng)計(jì)特征。對(duì)于模型錯(cuò)誤設(shè)定的情況，請(qǐng)參見本章“模型的設(shè)定分析”部分。一致性設(shè)模型的參數(shù)為θ，估計(jì)量為。如果，則稱具有一致性。一致性意味著隨著樣本量的增加，參數(shù)估計(jì)量可以無限接近真實(shí)參數(shù)，即估計(jì)量的分布為真實(shí)參數(shù)那一點(diǎn)。也就是說，隨著樣本量的增加，我們可以對(duì)真實(shí)參數(shù)作出越來越精確的推斷。一致性是對(duì)參數(shù)估計(jì)量的最低要求。如果估計(jì)誤差與樣本量沒有關(guān)系，那么很難建立真實(shí)參數(shù)與參數(shù)估計(jì)量之間的關(guān)系。STYLEREF1\s1.SEQ公式\*ARABIC\s118由假定Rank(X)=K和大數(shù)定律，樣本均值的概率極限等于總體均值，可得：STYLEREF1\s1.SEQ公式\*ARABIC\s119又由Slustky定理，。由此可得STYLEREF1\s1.SEQ公式\*ARABIC\s120的無偏性的隨機(jī)性來源于u的隨機(jī)性，因此，將寫為關(guān)于u的表達(dá)式。STYLEREF1\s1.SEQ公式\*ARABIC\s121即是隨機(jī)向量u的線性組合。如果X為確定性變量，則的期望為：STYLEREF1\s1.SEQ公式\*ARABIC\s122因此，是的線性無偏估計(jì)量。但將X做為確定性變量過于簡(jiǎn)單。大多數(shù)情況下，X與y一樣，具有明顯的隨機(jī)特征。假定2u關(guān)于X的條件期望為0。E[u|X]=0。假定2也稱作X具有嚴(yán)格外生性。具有兩個(gè)基本含義。第一個(gè)含義是，u的無條件均值也為0。這一特征可以通過迭代期望公式直接導(dǎo)出。E(u|X)=0E(u)=E[E(u|X)]=0STYLEREF1\s1.SEQ公式\*ARABIC\s123第二個(gè)含義是，u與X以及X的任何函數(shù)正交，不相關(guān)。STYLEREF1\s1.SEQ公式\*ARABIC\s124Cov(g(X),u)=E{[g(X)-E(g(X))][u-E(u)]}=E[(X-E(X))u]=E{[g(X)-E(g(X))]u}=E{g(X)u–E[g(X)u]}=E[g(X)u]-E[g(X)]E(u)=0當(dāng)g(X)=X時(shí)，u與X正交，u與X不相關(guān)。E(Xu|X)=XE(u|X)=0,E(Xu)=E[E(Xu|X)]=E(X)E(u|X)=0Cov(X,u)=E[(X-E(X))(u-E(u))]=E[(X-E(X))u]=E[Xu]-E(X)E(u)=0的條件期望為：STYLEREF1\s1.SEQ公式\*ARABIC\s125當(dāng)然，的無條件期望為：STYLEREF1\s1.SEQ公式\*ARABIC\s126因此，是0的線性無偏估計(jì)量，具有無偏性。與之相關(guān)的另外一個(gè)較弱的假定是，ut關(guān)于Xt的條件期望為0。E[ut|Xt]=0。的有效性假定3隨機(jī)誤差項(xiàng)向量u是同方差、無序列相關(guān)的。即協(xié)方差矩陣為：Var(u|X)=2I=2STYLEREF1\s1.SEQ公式\*ARABIC\s127OLS估計(jì)量的方差矩陣為：STYLEREF1\s1.SEQ公式\*ARABIC\s128其中，2(X'X)-1第i行第j列的元素表示第i個(gè)參數(shù)估計(jì)量和和第j個(gè)參數(shù)估計(jì)量的協(xié)方差。當(dāng)i=j時(shí)（即對(duì)角線上的元素），表示第i個(gè)（包括常數(shù)項(xiàng)）參數(shù)估計(jì)量的標(biāo)準(zhǔn)差。高斯馬爾科夫定理：在假定1~3成立的條件下，OLS估計(jì)量是最有效的線性無偏估計(jì)量。即：設(shè)是OLS估計(jì)量，為其他無偏估計(jì)量，那么。根據(jù)迭代期望公式，可以得到。將線性回歸模型中OLS估計(jì)量稱之為最佳線性無偏估計(jì)量（BLUE）。方差來源的方差對(duì)于統(tǒng)計(jì)推斷以及經(jīng)濟(jì)解釋都是至關(guān)重要的。方差越大，說明估計(jì)量越不精確，因此參數(shù)的置信區(qū)間就越大，假設(shè)檢驗(yàn)也就越不準(zhǔn)確。假設(shè)關(guān)注變量x2，設(shè)DGP為，模型設(shè)定為。根據(jù)FML定理，其方差為：其中，表示x2對(duì)X1回歸的殘差平方和。因此，方差也可以表述為：STYLEREF1\s1.SEQ公式\*ARABIC\s129其中，SSE2、R22表示x2對(duì)X1回歸的殘差平方和與可決系數(shù)，表示x2的離差平方和。因此，的方差來源于三部份：回歸標(biāo)準(zhǔn)差σ02、解釋變量之間的相關(guān)性、x2的波動(dòng)。回歸標(biāo)準(zhǔn)差σ02體現(xiàn)了模型中噪音的成分，噪音越多（σ02越大），那么解釋變量的影響就越難以判斷，估計(jì)量的就越不準(zhǔn)確。σ02是一個(gè)總體概念，與樣本無關(guān)。但它是未知的，在后面的章節(jié)推導(dǎo)出其無偏估計(jì)量。給定被解釋變量y，要想降低σ2，那就需要將更多的成分從隨機(jī)擾動(dòng)項(xiàng)中提取出來，方法只有一個(gè)：加入新的解釋變量。但加入新的變量并不總是有效的，后面的章節(jié)還會(huì)詳細(xì)地加以解釋。Ri2體現(xiàn)了xi與其他解釋變量的線性相關(guān)程度。相關(guān)程度越高，Ri2就越高，就越大。當(dāng)Ri2→1時(shí)，→∝。這時(shí)，我們稱之為多重共線性(multicollinearity)。當(dāng)然，如果部分解釋變量之間存在多重共線性，不會(huì)影響其他的參數(shù)估計(jì)。比如，在下面的模型中：yt=0+1x1t+2x2t+3x3t+ut如果x2t與x3t高度相關(guān)，那么和會(huì)比較大。但x2t與x3t的相關(guān)性對(duì)沒有影響。事實(shí)上，如果x1t、x2t都與x3t不相關(guān)，即R12→0，那么＝σ2/SST1，與x2t、x3t之間的相關(guān)性沒有任何關(guān)系。因此，如果模型關(guān)注的是x1t，那么就沒有必要在乎x2t、x3t之間的多重共線性問題。給定其他條件不變的情況下，xi的離差平方和越大，的方差越小。提高xi的離差平方和的方法是增加樣本容量。當(dāng)樣本容量不斷增加時(shí)，離差平方和可以無限大，可以有力地降低的方差。ArthurGoldberger針對(duì)人們面臨多重共線性問題的困擾提出了小樣本問題（micronumerosity），參見Goldberger(1991)。區(qū)間估計(jì)我們已經(jīng)知道了的分布形式，如果進(jìn)行區(qū)間估計(jì)的話，還需要估計(jì)。根據(jù)前文所述，=Mu。殘差平方和為STYLEREF1\s1.SEQ公式\*ARABIC\s130則殘差的方差估計(jì)量STYLEREF1\s1.SEQ公式\*ARABIC\s131因s2是一個(gè)標(biāo)量，所以有STYLEREF1\s1.SEQ公式\*ARABIC\s132其中tr()表示矩陣的跡。tr(I)=T，tr(X(X'X)-1X')=k+1。因?yàn)閷?duì)于矩陣ABC有tr(ABC)=tr(BCA)=tr(CAB)，所以tr(X(X'X)-1X')=tr((X'X)-1X'X)=tr(I)=k+1。由此可見s2是的無偏估計(jì)量。得到了的方差估計(jì)量，就可以構(gòu)建區(qū)間估計(jì)了。方法與第一章相同，此處不予贅述。殘差的分布接下來我們進(jìn)一步考察殘差的特征。上面我們利用殘差估計(jì)隨機(jī)誤差項(xiàng)的方差，后面很多統(tǒng)計(jì)檢驗(yàn)都要利用殘差。由，可以得到幾個(gè)基本結(jié)論。（1）每個(gè)殘差都是所有誤差項(xiàng)的線性組合。因此，雖然u同方差、無序列相關(guān)，但是異方差、存在序列相關(guān)的。（2）。因此，殘差的方差小于隨機(jī)誤差項(xiàng)的方差。杠桿越高的觀測(cè)值，殘差的方差越小。與之相關(guān)聯(lián)的另外兩種殘差為標(biāo)準(zhǔn)化殘差與學(xué)生化殘差。標(biāo)準(zhǔn)化殘差為，學(xué)生化殘差為。其中，表示刪除第i個(gè)觀測(cè)值后誤差項(xiàng)的標(biāo)準(zhǔn)差。標(biāo)準(zhǔn)化的回歸系數(shù)參數(shù)估計(jì)量是有量綱的，因此不能直接比較不同解釋變量的相對(duì)重要性。如果要比較不同變量的相對(duì)重要性，可以首先將所有的解釋變量進(jìn)行標(biāo)準(zhǔn)化，這樣便將其轉(zhuǎn)換為沒有量綱的概念了。,,然后利用標(biāo)準(zhǔn)化后的解釋變量進(jìn)行回歸，標(biāo)準(zhǔn)化的回歸系數(shù)消除了量綱，可以直接用于比較不同變量重要性。思考題：標(biāo)準(zhǔn)化的回歸系數(shù)與最初模型的回歸系數(shù)(0,0,…,k)存在什么關(guān)系？例STYLEREF1\s1.SEQ例\*ARABIC\s11考察CEO年薪方程Salary=0+1roe+2sale+3ros+u其中，salary表示CEO年薪（千美元），roe為前三年的平均資產(chǎn)收益率（%），sale表示公司銷售額（百萬美元），ros表示股票收益率（%）。（數(shù)據(jù)文件：ceosal）（1）計(jì)算OLS估計(jì)量、95%的置信區(qū)間。.regresssalaryroesaleros,level(95)noheader（2）計(jì)算殘差、標(biāo)準(zhǔn)化殘差、學(xué)生化殘差；觀察每個(gè)指標(biāo)的描述指標(biāo) .predictres,residual .predictres_std,rstandard .predictres_stu,rstudent .summresres_*例STYLEREF1\s1.SEQ例\*ARABIC\s12估計(jì)工資收入方程，wage=0+1educ+2exper+3tenure+u其中，wage表示工資（千美元），educ表示接受教育的程度（年），exper表示工齡（年），tenure表示在現(xiàn)有崗位的任職時(shí)間（年）。（數(shù)據(jù)文件：wage1）（1）計(jì)算OLS估計(jì)量、99%的置信區(qū)間。.regresswageeducexperexpersqage,level(99)noheader（2）計(jì)算標(biāo)準(zhǔn)化的回歸系數(shù).regresswageeducexperexpersqage,betalevel(95)noheader模型檢驗(yàn)擬合優(yōu)度y的變化由兩部分引起，一是解釋變量X=（x1,x2,…,xk）（注意，X不包括常數(shù)項(xiàng)），二是隨機(jī)誤差項(xiàng)。那么解釋變量與誤差項(xiàng)對(duì)y的變化所作的貢獻(xiàn)如何衡量呢？擬合優(yōu)度即回歸線對(duì)散點(diǎn)的擬合程度?；貧w線擬合散點(diǎn)的程度越好，則表明解釋變量對(duì)y的解釋能力就越強(qiáng)。可決系數(shù)考慮如下兩個(gè)模型：模型中不包括X只有常數(shù)項(xiàng)時(shí)，的OLS估計(jì)量為，殘差為。將X納入模型之后，得到的殘差項(xiàng)為。由于X的加入，使得模型的誤差項(xiàng)縮小了。這即是被X所解釋的部分。因此，可以通過被X所解釋的部分在y的離差中所占比例來衡量X對(duì)y的解釋能力?？傠x差平方和,STYLEREF1\s1.SEQ公式\*ARABIC\s133回歸平方和為由回歸直線的性質(zhì)：y與的均值相同，可得，因此回歸平方和又可以寫為：STYLEREF1\s1.SEQ公式\*ARABIC\s134殘差平方和為STYLEREF1\s1.SEQ公式\*ARABIC\s135則有如下關(guān)系存在，SST=SSR+SSESTYLEREF1\s1.SEQ公式\*ARABIC\s136證明：由于，因此STYLEREF1\s1.SEQ公式\*ARABIC\s137平方和除以它相應(yīng)的自由度稱為均方?；貧w均方定義為MSR=SSR/k，誤差均方定義為MSE=SSE/(T-k-1)（即隨機(jī)誤差項(xiàng)的方差估計(jì)量）。擬合優(yōu)度R2計(jì)算的變差占y的變差的比值是評(píng)價(jià)一個(gè)估計(jì)模型優(yōu)劣的方法之一。多重可決系數(shù)定義如下： STYLEREF1\s1.SEQ公式\*ARABIC\s138顯然有0R21。R2越接近1，估計(jì)的回歸函數(shù)對(duì)樣本點(diǎn)的擬合優(yōu)度越好，即解釋變量對(duì)被解釋變量的解釋作用越強(qiáng)。調(diào)整的擬合優(yōu)度對(duì)于給定的樣本值yt，總離差平方和是固定不變的。但隨著模型中解釋變量個(gè)數(shù)的增加，殘差平方和逐漸減小，因此可決系數(shù)R2逐漸增加。結(jié)論1：增加解釋變量時(shí)，殘差平方和的變化。在模型中加入新的解釋變量z時(shí)，的殘差平方和為：STYLEREF1\s1.SEQ公式\*ARABIC\s139其中，表示的殘差平方和，表示的殘差平方和，表示z對(duì)X回歸的殘差平方和。證明：設(shè)的回歸結(jié)果為。根據(jù)分塊矩陣的估計(jì)公式，，可得：STYLEREF1\s1.SEQ公式\*ARABIC\s140因此，STYLEREF1\s1.SEQ公式\*ARABIC\s141新模型的殘差平方和為：STYLEREF1\s1.SEQ公式\*ARABIC\s142根據(jù)Frisch-Waugh定理，STYLEREF1\s1.SEQ公式\*ARABIC\s143即。因此，STYLEREF1\s1.SEQ公式\*ARABIC\s144結(jié)論2：增加解釋變量時(shí)，可決系數(shù)的變化由上述結(jié)論，STYLEREF1\s1.SEQ公式\*ARABIC\s145其中，表示控制變量X時(shí)y與z的偏相關(guān)系數(shù)。上式兩邊同時(shí)除以總離差平方和，可得STYLEREF1\s1.SEQ公式\*ARABIC\s146因此，當(dāng)模型中加入新的解釋變量的時(shí)候，模型的殘差平方和總是遞減的，可決系數(shù)總是遞增的。為考慮模型中解釋變量個(gè)數(shù)的變化對(duì)R2的影響，定義調(diào)整的多重可決系數(shù)如下，STYLEREF1\s1.SEQ公式\*ARABIC\s147當(dāng)在模型中增加解釋變量時(shí)，SSE將減小，同時(shí)T-k-1也減小。從而使SSE的減小量得到一定補(bǔ)償。通常的值比R2小。有時(shí)還會(huì)出現(xiàn)取負(fù)值的情況。增加新的解釋變量時(shí)，可能會(huì)增加，也可能會(huì)降低。這取決于新的解釋變量對(duì)y的解釋能力。結(jié)論3：增加解釋變量時(shí)，調(diào)整的可決系數(shù)的變化。如果新增加的變量的t統(tǒng)計(jì)量大于（小于）1，則模型的調(diào)整的可決系數(shù)會(huì)增加（下降）。非中心化的R2當(dāng)模型中沒有常數(shù)項(xiàng)時(shí)，的均值不一定為0，y與的均值也不一定相同。因此，等式SST=SSR+SSE不一定成立，即總離差平方和（SST）不能分解為回歸平方和（SSR）與殘差平方和（SSE）兩部分。這時(shí)R2可能會(huì)出現(xiàn)負(fù)值或者大于1的情況。這時(shí)可采用非中心化的擬合優(yōu)度。我們知道，（2.44）式總是成立的，即y的平方和恰好分解為擬合值的平方和與殘差平方和。定義非中心化的可決系數(shù)為：STYLEREF1\s1.SEQ公式\*ARABIC\s148對(duì)比可決系數(shù)與非中心化的可決系數(shù)可以看出，如果模型中存在常數(shù)項(xiàng)，當(dāng)y的均值為0時(shí)，二者是完全相同的。對(duì)y進(jìn)行線性變換y*=by，則Ru2不變。即，y由以米為單位變?yōu)橐岳迕诪閱挝唬蛘咭怨餅閱挝蛔優(yōu)橐越餅閱挝徊粫?huì)改變Ru2。如果對(duì)y進(jìn)行線性變換y*=al+y，則Ru2會(huì)發(fā)生相應(yīng)的變化。X中不包括常數(shù)項(xiàng)。當(dāng)a增加時(shí)，Ru2也隨之增加。因此，當(dāng)模型中包含常數(shù)項(xiàng)時(shí)，如果常數(shù)項(xiàng)比較大，則Ru2會(huì)比較高。但Ru2更多地是由常數(shù)項(xiàng)帶來的，并沒有直觀的經(jīng)濟(jì)意義。因此，在解釋模型的可決系數(shù)或非中心化的可決系數(shù)時(shí)，首先要明確Ru2的計(jì)算方法及其可能存在的問題，避免對(duì)模型的錯(cuò)誤解讀。例STYLEREF1\s1.SEQ例\*ARABIC\s13計(jì)算例1.1的方差分析表及R2等指標(biāo)。.regressceosalret例STYLEREF1\s1.SEQ例\*ARABIC\s14計(jì)算例1.2的方差分析表及R2等指標(biāo)。.regresswageeducexperexpersqage整個(gè)方程的顯著性檢驗(yàn)假定4：隨機(jī)誤差項(xiàng)服從正態(tài)分布。當(dāng)檢驗(yàn)被解釋變量yt與一組解釋變量x1,x2,...,xk是否存在回歸關(guān)系時(shí)，給出的零假設(shè)與備擇假設(shè)分別是H0：1=2=...=k=0；H1：i,i=1,...,k不全為零。檢驗(yàn)思路：無約束模型為：yt=0+1x1t+2x2t+…+kxkt+ut，（a）受約束模型：yt=0+vt（b）如果原假設(shè)成立，那么模型（a）中的參數(shù)1,…,k均不顯著，模型（a）與模型（b）的殘差平方和近似相等。如果備擇假設(shè)成立，那么模型（a）中至少有一個(gè)變量是顯著的，而模型（b）中的隨機(jī)擾動(dòng)項(xiàng)ut包含了這些顯著性的變量，因此模型（b）的殘差平方和會(huì)明顯高于模型（a）的殘差平方和。模型（a）的殘差平方和表示為SSEU（其中U表示沒有約束（Unrestricted））模型（b）的殘差平方和表示為SSER（其中R表示帶有約束（Restricted））因此，可以根據(jù)殘差項(xiàng)方差的變化來檢驗(yàn)假設(shè)是否是正確的。如果（SSER-SSEU）比較大（?。?，則傾向于拒絕（接受）原假設(shè)。正式的統(tǒng)計(jì)檢驗(yàn)是通過構(gòu)建如下F統(tǒng)計(jì)量來完成的。STYLEREF1\s1.SEQ公式\*ARABIC\s149在H0成立條件下，有FF(k,T–k–1)由檢驗(yàn)思路可以看出，F(xiàn)統(tǒng)計(jì)量越大（小），我們?cè)絻A向于拒絕（接受）原假設(shè)。因此，這是右單端檢驗(yàn)。檢驗(yàn)可以臨界值方法和構(gòu)建p值的方法來完成。設(shè)檢驗(yàn)水平為，檢驗(yàn)規(guī)則如下。臨界值法：若FF(k,T–k–1)，則接受H0；若F>F(k,T–k–1)，則拒絕H0。P值法：若P(x>F)>α，接受H0；若P(x>F)<α，，拒絕H0。拒絕H0意味著肯定有解釋變量與yt存在回歸關(guān)系。若F檢驗(yàn)的結(jié)論是接受H0，則說明k個(gè)解釋變量都不與yt存在回歸關(guān)系。此時(shí)，假設(shè)檢驗(yàn)應(yīng)該到此為止。當(dāng)F檢驗(yàn)的結(jié)論是拒絕H0時(shí)，應(yīng)該進(jìn)一步做t檢驗(yàn)，從而確定模型中哪些是重要解釋變量，哪些是非重要解釋變量。檢驗(yàn)統(tǒng)計(jì)量還可以寫為另外一種形式。約束模型（b）中的0估計(jì)量為，因此，其殘差平方和又等于離差平方和SST。因此，F(xiàn)統(tǒng)計(jì)量又可以寫為：STYLEREF1\s1.SEQ公式\*ARABIC\s150其中，SSRU表示無約束模型的回歸平方和。注：當(dāng)模型中沒有常數(shù)項(xiàng)時(shí)，Stata輸出的R2為非中心化R2；而F統(tǒng)計(jì)量也是基于非中心化的F統(tǒng)計(jì)量，即(SSR/k)/[SSE/(n-k)]。思考題：證明，在一元回歸模型中，F(xiàn)統(tǒng)計(jì)量與t統(tǒng)計(jì)量存在關(guān)系：F=t2？單個(gè)回歸參數(shù)的約束檢驗(yàn)當(dāng)F檢驗(yàn)拒絕H0時(shí)，并不見得每個(gè)解釋變量都對(duì)yt有顯著的解釋作用（即不見得每一個(gè)都是重要解釋變量），所以還應(yīng)對(duì)每個(gè)解釋變量的系數(shù)進(jìn)行顯著性檢驗(yàn)。檢驗(yàn)統(tǒng)計(jì)量為：STYLEREF1\s1.SEQ公式\*ARABIC\s151結(jié)論：在基本假定1~4的條件下，上式中的t統(tǒng)計(jì)量服從（N-K-1）個(gè)自由度的t分布。證明：令，由可知，。STYLEREF1\s1.SEQ公式\*ARABIC\s152如果，并且與zj獨(dú)立的話，就可以證明上述結(jié)論。STYLEREF1\s1.SEQ公式\*ARABIC\s153根據(jù)概率統(tǒng)計(jì)中的兩個(gè)基本結(jié)論：（1）如果向量，A為冪等矩陣，則，即自由度為矩陣A的秩；（2）如果A為冪等矩陣，則Rank(A)=Trace(A)以及基本假定，可得：由可得Trace(M)=N-K-1。因此，的自由度為N-K-1。由及，可得，STYLEREF1\s1.SEQ公式\*ARABIC\s154綜上所述，可得到結(jié)論：檢驗(yàn)的判別方法與簡(jiǎn)單線性模型的完全相同，此處不予贅述。線性約束檢驗(yàn)與整個(gè)方程的顯著性相類似，如果僅對(duì)其中部分變量的聯(lián)合顯著性進(jìn)行檢驗(yàn)，也可以按照相同的思路利用F檢驗(yàn)來進(jìn)行。將所有的解釋變量分解為兩部分，X1=(1,x1,x2,…,xJ)和X2=(xJ+1,…,xK)。模型重新表述為：y=X1β1+X2β2+uSTYLEREF1\s1.SEQ公式\*ARABIC\s155其中，共有K個(gè)變量，其中X1含有K1個(gè)變量，X2含有K2個(gè)變量，K=K1+K2。原假設(shè)與備擇假設(shè)分別是H0：β2=0；H1：β2≠0。無約束模型為：y=X1β1+X2β2+uSTYLEREF1\s1.SEQ公式\*ARABIC\s156受約束模型為：y=X1β1+uSTYLEREF1\s1.SEQ公式\*ARABIC\s157如果原假設(shè)成立，則無約束模型的殘差平方不能明顯地提高模型的解釋能力；如果備擇假設(shè)成立，能無約束模型應(yīng)明顯地降低受約束模型的殘差平方和。F統(tǒng)計(jì)量為：STYLEREF1\s1.SEQ公式\*ARABIC\s158在H0成立條件下，有FF(K2,T–K判斷規(guī)則與整個(gè)方程的判斷規(guī)則完全相同。例STYLEREF1\s1.SEQ例\*ARABIC\s15在例1.2中，利用F統(tǒng)計(jì)量檢驗(yàn)變量educ、tenure的聯(lián)合顯著性.testeducexper多個(gè)變量的顯著性檢驗(yàn)－LM檢驗(yàn)拉格朗日乘子檢驗(yàn)是檢驗(yàn)多個(gè)變量聯(lián)合顯著性的另外一種常用方法。其基本思路如下。在無約束模型中，隨機(jī)擾動(dòng)項(xiàng)u與X2不相關(guān)。如果原假設(shè)成立，利用受約束模型得到的殘差項(xiàng)與X2也不相關(guān)。但如果原假設(shè)不成立，利用受約束模型得到的殘差項(xiàng)與X2就會(huì)出現(xiàn)高度相關(guān)。LM檢驗(yàn)步驟如下。Step1：回歸受約束模型，提取殘差項(xiàng)；Step2：利用OLS方法回歸輔助方程：，記其擬合優(yōu)度為；Step3：LM統(tǒng)計(jì)量（也稱為得分統(tǒng)計(jì)量）為：。需要注意的是，（1）在輔助回歸方程中，雖然與X1是正交的，也要把X1放在模型中；否則，檢驗(yàn)統(tǒng)計(jì)量不再漸進(jìn)服從卡方分布。（2）常數(shù)項(xiàng)包含在X1中，如果X1中不包含常數(shù)項(xiàng)，則采用非中心化的可決系數(shù)。事實(shí)上，因?yàn)闉?均值，因此，X1包含常數(shù)項(xiàng)的時(shí)候，可決系數(shù)與非中心化的可決系數(shù)是相同的。線性約束的F檢驗(yàn)線性約束檢驗(yàn)是指檢驗(yàn)回歸系數(shù)的某個(gè)或某幾個(gè)線性組合。對(duì)于模型y=X1β1+X2β2+u原假設(shè)形式為：H0：其中，R為J×K矩陣，J表示對(duì)K個(gè)參數(shù)的J個(gè)線性約束。對(duì)于上述原假設(shè)構(gòu)建F統(tǒng)計(jì)量STYLEREF1\s1.SEQ公式\*ARABIC\s159結(jié)論：假定1~4成立，如果原假設(shè)成立，則上述F統(tǒng)計(jì)量服從自由度為（J，N-K）的F分布。證明：將F統(tǒng)計(jì)量寫為：STYLEREF1\s1.SEQ公式\*ARABIC\s160令。前文已經(jīng)證明?，F(xiàn)在只需要證明w服從卡方分布，且與相互獨(dú)立即可。令，如果原假設(shè)成立，則。其期望和方差分別為：根據(jù)結(jié)論：如果n維隨機(jī)向量，則，可得。w是的函數(shù)，而是的函數(shù)。前文已經(jīng)證明，與是獨(dú)立的。因此，w與也相互獨(dú)立。綜上所述，。檢驗(yàn)步驟如下。Step1：根據(jù)上式計(jì)算F統(tǒng)計(jì)量。Step2：根據(jù)對(duì)應(yīng)自由度的F分布查臨界值Fcrit。Step3：如果F>Fcrit，則拒絕原假設(shè)；否則，接受原假設(shè)。實(shí)際上，前面的整個(gè)方程的顯著性檢驗(yàn)、部分參數(shù)的聯(lián)合顯著性檢驗(yàn)、單個(gè)參數(shù)的顯著性檢驗(yàn)都是線性約束檢驗(yàn)的特殊形式。比如，在模型lwage=0+1exper+2educ+u檢驗(yàn)1=0，即檢驗(yàn)1=2=0，即檢驗(yàn)1=2，即1個(gè)自由度的t分布的平方為1個(gè)自由度的卡方分布，因此如果只有一個(gè)約束時(shí)，。因此，對(duì)于參數(shù)關(guān)系的單個(gè)約束也可以利用t檢驗(yàn)來完成。例STYLEREF1\s1.SEQ例\*ARABIC\s16教育（educ）和工作時(shí)間（tenure）的對(duì)工資的影響相同，即檢驗(yàn)：1=2。.testeduc=tenure工齡（exper）對(duì)工資沒有影響，即檢驗(yàn)：3=0。.testexper對(duì)上面兩個(gè)假設(shè)進(jìn)行聯(lián)合檢驗(yàn)，即檢驗(yàn)：1=2，3=0。.testeduc=tenureexper說明：與整個(gè)方程的顯著性相類似，線性約束的F統(tǒng)計(jì)量也是通過比較受約束模型與無約束模型的殘差平方和來構(gòu)建。無約束模型：受約束模型：對(duì)于受約束模型的OLS估計(jì)，最小化殘差平方和STYLEREF1\s1.SEQ公式\*ARABIC\s161STYLEREF1\s1.SEQ公式\*ARABIC\s162利用分塊矩陣求解，可得：STYLEREF1\s1.SEQ公式\*ARABIC\s163殘差項(xiàng)為：STYLEREF1\s1.SEQ公式\*ARABIC\s164受約束模型的殘差平方和為：STYLEREF1\s1.SEQ公式\*ARABIC\s165由（2.71）式，STYLEREF1\s1.SEQ公式\*ARABIC\s166STYLEREF1\s1.SEQ公式\*ARABIC\s167故而可得無約束模型與受約束模型的殘差平方和的差為：STYLEREF1\s1.SEQ公式\*ARABIC\s168檢驗(yàn)統(tǒng)計(jì)量為：STYLEREF1\s1.SEQ公式\*ARABIC\s169判別方法與整個(gè)方程的顯著性檢驗(yàn)相同。（非）線性約束的Wald檢驗(yàn)對(duì)于一般的參數(shù)約束（包括線性約束和非線性約束）的檢驗(yàn)的另外一種常見的方法是Wald檢驗(yàn)。原假設(shè)為：H0：Wald檢驗(yàn)統(tǒng)計(jì)量為STYLEREF1\s1.SEQ公式\*ARABIC\s170根據(jù)Delta方法（參見附錄：概率統(tǒng)計(jì)），，其中，STYLEREF1\s1.SEQ公式\*ARABIC\s171因此，Wald統(tǒng)計(jì)量又可以寫為：STYLEREF1\s1.SEQ公式\*ARABIC\s172結(jié)論：如果原假設(shè)成立，則Wald統(tǒng)計(jì)量漸進(jìn)服從J個(gè)自由度的卡方分布，J表示約束條件的個(gè)數(shù)。如果參數(shù)約束為線性形式，即H0：。則因此，Wald統(tǒng)計(jì)量為事實(shí)上，F(xiàn)統(tǒng)計(jì)量與Wald統(tǒng)計(jì)量之間的關(guān)系是漸進(jìn)等價(jià)的。由，F(xiàn)與具有相同的極限分布。而Wald統(tǒng)計(jì)量中，因此，JW*正是Wald統(tǒng)計(jì)量。也就是說，JF與Wald統(tǒng)計(jì)量都漸進(jìn)服從J個(gè)自由度的卡方分布。例STYLEREF1\s1.SEQ例\*ARABIC\s17在消費(fèi)模型：const=0+1inct+2const-1+ut中，長(zhǎng)期邊際消費(fèi)傾向MPC=1/(1-2)，利用數(shù)據(jù)估計(jì)模型，并檢驗(yàn)MPC>1；H0：MPC≥1；H1：MPC<1約束形式為：Wald統(tǒng)計(jì)量為：.regressconspgdppL.gdpp.testnl_b[gdpp]*(1-_b[L.gdpp])=1可得：F=105.45，拒絕原假設(shè)。模型的設(shè)定分析上面所分析的估計(jì)量的統(tǒng)計(jì)特征都是基于模型設(shè)定準(zhǔn)確的前提。如果模型設(shè)定錯(cuò)誤，那么會(huì)直接影響到參數(shù)估計(jì)量的統(tǒng)計(jì)分布特征。這里，我們介紹兩種情形，過度設(shè)定和欠設(shè)定。過度設(shè)定如果模型的解釋變量中加入了本來與y不相關(guān)的變量xj，我們稱之為過度設(shè)定(overspecify)。設(shè)真實(shí)DGP為但模型設(shè)定為：根據(jù)FML定理，期望值和方差分別為：如果模型設(shè)定正確，即，則其估計(jì)量的方差為。由可知，。即模型中加入多余的變量，不會(huì)影響參數(shù)估計(jì)量的無偏性，但會(huì)影響有效性。除非，即X與Z正交，則。但在一般情況下，解釋變量會(huì)存在一定程度的相關(guān)。而且，加入的多余變量越多，則估計(jì)量的方差越大，越不準(zhǔn)確。欠設(shè)定與過度設(shè)定相對(duì)應(yīng)，如果把本來與y相關(guān)的變量排除在模型之外，那么我們稱之為欠設(shè)定(underspecifying)。設(shè)真實(shí)DGP為模型設(shè)定為：OLS估計(jì)量的期望為參數(shù)估計(jì)量的偏差取決于兩個(gè)因素，Z對(duì)X回歸的系數(shù)以及Z對(duì)y的回歸系數(shù)。Z對(duì)X的影響越大，或者Z對(duì)y的影響越大，都將導(dǎo)致參數(shù)估計(jì)量較大偏差。只有或時(shí)，參數(shù)估計(jì)量才具有無偏性。由于估計(jì)量是有偏的，用均方誤差（MeanSquaredError）計(jì)算估計(jì)量的精確度。對(duì)于無偏估計(jì)量，均方誤差等于方差?？梢杂?jì)算出，估計(jì)量的MSE為相對(duì)于過度設(shè)定模型，欠設(shè)定模型的均方誤差可能更有效、也可能非有效，取決于上述公式的第二部分的大小。例STYLEREF1\s1.SEQ例\*ARABIC\s18利用蒙特卡羅模擬考察模型過度設(shè)定與欠設(shè)定對(duì)參數(shù)估計(jì)量的影響。假設(shè)DGP為y=10+2x1+5x2+u，其中，x1與x2的相關(guān)系數(shù)為0.6，u~NIID(0,1)。模型1設(shè)定為y=0+1x1+2x2+u，模型2設(shè)定為y=0+1x1+u，模型3設(shè)定為y=0+1x1+2x2+3x3+u。x1與x3的相關(guān)系數(shù)為0.1，x2與x3的相關(guān)系數(shù)為0.3。每次生成200個(gè)觀測(cè)值，模擬1000次，觀察模型1、2、3的參數(shù)估計(jì)量的分布。（程序文件：spec.ado）.simulateunder_b=(r(under_b))under_se=(r(under_se))c_b=(r(c_b))c_se=(r(c_se))over_b=(r(over_b))over_se=(r(over_se)),reps(1000)nodots:spec.twoway(kdensityunder_b,lpattern(dot))(kdensityc_b,lpattern(solid))(kdensityover_b,lpattern(dash))異常點(diǎn)檢測(cè)異常點(diǎn)是指對(duì)估計(jì)量具有較大影響的觀測(cè)值，即如果刪除某個(gè)觀測(cè)值會(huì)引起估計(jì)量的較大變化。刪除第i個(gè)觀測(cè)值后，參數(shù)估計(jì)量為：可以等價(jià)地表述為：。其中，，即映射矩陣的第i個(gè)對(duì)角元素，稱為杠桿。因此，第i個(gè)觀測(cè)值對(duì)估計(jì)量的影響取決于一個(gè)很關(guān)鍵的因素，即hi。hi介于[0，1]，且和為k+1。如果一個(gè)觀測(cè)值具有較大的杠桿，則它對(duì)估計(jì)量具有較大的潛在影響。同樣地可以求出，刪除第i個(gè)觀測(cè)值的殘差為：DFITS（WelschandKuh，1977）、Cook距離（Cook，1977）和Welsch距離（Welsch，1982）、COVRATIO（Belsley,KuhandWelsch（1980））都是描述杠桿與殘差平方之間關(guān)系的統(tǒng)計(jì)量。，體現(xiàn)了用保留與刪除第i個(gè)觀測(cè)值的樣本分別估計(jì)方程的擬合值的差異；Cook距離與Welsch距離體現(xiàn)了刪除第i個(gè)觀測(cè)值后系數(shù)向量之間的距離，Cook距離，Welsch距離。COVRATIO是Belsley,KuhandWelsch（1980）提出的測(cè)度單個(gè)觀測(cè)值對(duì)估計(jì)量協(xié)方差矩陣影響的統(tǒng)計(jì)量，它等于用保留與刪除第i個(gè)觀測(cè)值的樣本分別估計(jì)方程的協(xié)方差矩陣的行列式的比，其中，e表示標(biāo)準(zhǔn)化的殘差。對(duì)于正常的觀測(cè)值，COVRATIO近似等于1。較高的殘差或較高的杠桿率都會(huì)導(dǎo)致COVRATIO偏離1。但如果殘差和杠桿率都比較高，那么COVRATIO也近似等于1，這時(shí)就無法利用COVRATIO判斷異常值。DFBETA是測(cè)度不同解釋變量的單個(gè)觀測(cè)值對(duì)模型估計(jì)影響的最直接的統(tǒng)計(jì)量，它等于用保留與刪除第i個(gè)觀測(cè)值的樣本別估計(jì)方程的標(biāo)準(zhǔn)化參數(shù)的差異。其中，表示用xj對(duì)其它解釋變量回歸得到的殘差。如果DFITS超過（Belskey,KuhandWelsch(1980)），或者Cook距離超過4/n（BollenandJackman，1990），或者Welsch距離超過（ChatterjeeandHadi，1988），或者（Belsley,KuhandWelsch（1980））、或者DFBETA超過，都是值得關(guān)注或作進(jìn)一步考察的樣本點(diǎn)。其中，k表示模型中的解釋變量個(gè)數(shù)（包括常數(shù)項(xiàng)）。例STYLEREF1\s1.SEQ例\*ARABIC\s19利用DFBETA、CORATIO等統(tǒng)計(jì)量考察例1.1的異常點(diǎn)（1）利用杠桿-殘差平方圖進(jìn)行觀察 .regresssalaryroesaleros .lvr2plot,mlabel(code)（2）利用DFITS、Cook距離、Welsch距離、COVRATIO、DFBETA統(tǒng)計(jì)量進(jìn)行觀察。 .predictdfits,dfits .listcoderoesalerosifabs(dfits)>2*sqrt(4/209) .predictcooksdife(sample),cooksd .listcoderoesaleroscooksdifcooksd>4/209 .predictwelsch,welsch .listcoderoesaleroswelschifabs(welsch)>3*sqrt(4) .predictcovratio,covratio .listcoderoesaleroscovratioifabs(covratio-1)>=3*4/209 .predictdfbeta,dfbeta(ret) .listcoderoesalerosdfbetaifabs(dfbeta)>2/sqrt(209)虛擬變量在實(shí)際建模過程中，被解釋變量不但受定量變量影響，同時(shí)還有可能受定性變量的影響。例如需要考慮性別、民族、不同歷史時(shí)期、季節(jié)差異、企業(yè)所有制性質(zhì)不同等因素的影響。這些定性變量也應(yīng)該包括在模型中。計(jì)量經(jīng)濟(jì)學(xué)是利用數(shù)據(jù)研究經(jīng)濟(jì)學(xué)問題，因此，在對(duì)這些定性變量進(jìn)行模型估計(jì)之前首先需要將其量化，即用一定的數(shù)值代表其觀測(cè)值。不同的類型的變量被量化的程度是有差異的，定性變量在量化時(shí)所代表的信息是最少的。定性變量的量化稱為虛擬變量，即將分類變量轉(zhuǎn)換為二元指示變量。虛擬變量在模型中可以作為解釋變量，也可以作為被解釋變量。本節(jié)中所處理的是虛擬變量作為解釋變量的情況。虛擬變量如果一個(gè)變量具有m個(gè)類別，可以設(shè)定m個(gè)虛擬變量。比如，性別設(shè)定為如下形式：，。學(xué)歷（分為大學(xué)、中學(xué)、小學(xué)三個(gè)類別）設(shè)定為如下形式：，，但是，要注意到male+female=l，univ+high+elem=l，即虛擬變量之和恰好等于模型中的常數(shù)變量。因此，對(duì)于m個(gè)類別的分類變量，可以按照兩種方法加以設(shè)定。保留模型中的常數(shù)變量，僅加入（m-1）個(gè)虛擬變量；或者m個(gè)虛擬變量全部作為解釋變量，將常數(shù)項(xiàng)刪掉。被刪掉的虛擬變量中1所對(duì)應(yīng)的類別稱作基礎(chǔ)類別。比如，季節(jié)虛擬變量，,,,模型設(shè)定為（X不包括常數(shù)變量）STYLEREF1\s1.SEQ公式\*ARABIC\s173第1、2、3、4季度所對(duì)應(yīng)的回歸方程的截距項(xiàng)分別為1、2、3、4。虛擬變量的系數(shù)表示對(duì)應(yīng)類別的回歸方程的系數(shù)。如果將模型設(shè)定如下（以第1季度作為基礎(chǔ)類別）STYLEREF1\s1.SEQ公式\*ARABIC\s174上面兩個(gè)方程是完全等價(jià)的。將D1+D2+D3+D4=l代入模型，可得到兩個(gè)方程系數(shù)的對(duì)應(yīng)關(guān)系。因此，模型（1.74）中的常數(shù)項(xiàng)表示基礎(chǔ)類別的回歸方程的系數(shù)，虛擬變量表示其它類別與基礎(chǔ)類別回歸系數(shù)的差異。例STYLEREF1\s1.SEQ例\*ARABIC\s110隨機(jī)調(diào)查美國(guó)舊金山地區(qū)20個(gè)家庭的儲(chǔ)蓄情況，建立年儲(chǔ)蓄額yt(千美元)對(duì)年收入xt(千美元)的回歸模型。（數(shù)據(jù)文件：save）觀察兩個(gè)變量的散點(diǎn)圖，用是否租房作為標(biāo)簽加以標(biāo)記。.twoway(scattersaveincome,mlabel(rent))顯然，租房家庭與有房家庭的儲(chǔ)蓄行為存放明顯區(qū)別。模型中加入虛擬變量，rent，對(duì)于租房家庭，rent=0，對(duì)于有房家庭，rent=1。重新回歸方程，.regresssaveincomerent例STYLEREF1\s1.SEQ例\*ARABIC\s111在例1.1中，加入行業(yè)虛擬變量，重新回歸方程。（數(shù)據(jù)文件：ceosal）。.regresssalarysalesroeindus-utility例STYLEREF1\s1.SEQ例\*ARABIC\s112在例1.2中加入性別、種族變量，重新回歸方程。（數(shù)據(jù)文件：wage1）.regresswageeducexpertenurefemalenowhite例STYLEREF1\s1.SEQ例\*ARABIC\s124NationalOpinionResearchCenter’sGeneralSocialSurvey搜集了1972~1984年婦女就業(yè)、家庭等相關(guān)數(shù)據(jù)。利用數(shù)據(jù)分析家庭小孩個(gè)數(shù)的變化規(guī)律?？刂谱兞堪ǎ航逃潭?、年齡、種族、地區(qū)、生活環(huán)境（農(nóng)村、城鎮(zhèn)、小城市等）。（數(shù)據(jù)文件：fertil1）kids=0+1educ+2age+3age2+4race+5farm+6town+7D74+8D76+9D78+10D80+11D82+12D84+ut.regresskidseduc-d84季節(jié)虛擬變量季節(jié)波動(dòng)是很多季度數(shù)據(jù)的共同特點(diǎn)。對(duì)季節(jié)數(shù)據(jù)進(jìn)行計(jì)量分析時(shí)，需要首先對(duì)其進(jìn)行季節(jié)調(diào)整，消除其季節(jié)波動(dòng)成分，利用季節(jié)調(diào)整后的序列進(jìn)行分析。季節(jié)調(diào)整的方法如下?；貧w模型：其中，S表示季節(jié)虛擬變量構(gòu)成的向量。季節(jié)調(diào)整的序列則為：或者如果要同時(shí)消除序列的季節(jié)成分和趨勢(shì)成分，則可以將模型為：其中，t表示時(shí)間趨勢(shì)變量。季節(jié)調(diào)整的退勢(shì)序列則為：或者例STYLEREF1\s1.SEQ例\*ARABIC\s114首先對(duì)天津市1998~2006年的季度GDP、投資等數(shù)據(jù)進(jìn)行季節(jié)調(diào)整，然后對(duì)季節(jié)調(diào)整的投資對(duì)季節(jié)調(diào)整的GDP進(jìn)行回歸，Invest_sa=0+1GDP_sa+u。（數(shù)據(jù)文件：tjpbc2）.xi:regressgdpi.month.predictgdp_sa,res.summgdp.replacegdp_sa=gdp_sa+r(mean).xi:regressinvesti.month.predictinvest_sa,res.summinvest.replaceinvest_sa=invest_sa+r(mean).regressinvest_saL.gdp_sa處理季節(jié)數(shù)據(jù)的另外一種方法是，直接在模型中加入季節(jié)虛擬變量，Invest=0+1GDP+2S1+3S2+4S3+u，事實(shí)上，首先進(jìn)行季節(jié)調(diào)整，然后利用季節(jié)調(diào)整序列進(jìn)行分析，與在模型中直接加入季節(jié)虛擬變量是等價(jià)的。根據(jù)FML定理，(1)中的可以通過回歸如下方程得到，(2)而Msy和MsX即是季節(jié)調(diào)整后的序列。因此，體現(xiàn)了經(jīng)過季節(jié)調(diào)整序列的X對(duì)季節(jié)調(diào)整序列y的邊際影響。對(duì)于時(shí)間序列數(shù)據(jù)，采用季節(jié)調(diào)整序列(2)、與模型中加入季節(jié)虛擬變量(1)，得到相同的估計(jì)量。例STYLEREF1\s1.SEQ例\*ARABIC\s115用天津市季度GDP對(duì)季度投資數(shù)據(jù)進(jìn)行回歸，模型中加入季節(jié)虛擬變量。（數(shù)據(jù)文件：tjpbc2）.regressInvestGDPi.month當(dāng)然，實(shí)踐中官方公布的季節(jié)調(diào)整數(shù)據(jù)不是簡(jiǎn)單地利用虛擬變量來進(jìn)行處理的。因此，利用其季節(jié)調(diào)整序列與在模型中直接加入虛擬變量會(huì)得到不同的估計(jì)結(jié)果。線性回歸模型的結(jié)構(gòu)分析結(jié)構(gòu)模型中，考察變量結(jié)構(gòu)關(guān)系的兩個(gè)常用概念是邊際與彈性。前文所介紹線性模型中，變量x對(duì)y的邊際影響是常數(shù)。接下來我們來看在其它幾種常見模型中的結(jié)構(gòu)解釋。對(duì)數(shù)模型先來考察幾種常見對(duì)數(shù)模型。對(duì)數(shù)函數(shù)：yt=0+1Lnxt+utSTYLEREF1\s1.SEQ公式\*ARABIC\s175指數(shù)函數(shù)：Lnyt=β0+β1xt+utSTYLEREF1\s1.SEQ公式\*ARABIC\s176冪函數(shù)：Lnyt=β0+β1Lnxt+utSTYLEREF1\s1.SEQ公式\*ARABIC\s177其中Ln表示自然對(duì)數(shù)。方程（1.75）中，y與x是對(duì)數(shù)函數(shù)；方程（1.76）中，y與x是指數(shù)函數(shù)；方程（1.77）中，y與x是冪函數(shù)。這些方程中，被解釋變量關(guān)于參數(shù)都是線性的，因此可以直接進(jìn)行OLS估計(jì)、檢驗(yàn)。對(duì)方程求偏導(dǎo)數(shù)可得：dy=1dx/xSTYLEREF1\s1.SEQ公式\*ARABIC\s178dy/y=1dxSTYLEREF1\s1.SEQ公式\*ARABIC\s179d/y/y=1dx/xSTYLEREF1\s1.SEQ公式\*ARABIC\s180dx表示x的變化量，dx/x表示x的變化率。因此，模型（1.75）的經(jīng)濟(jì)含義為：其他條件不變時(shí)，x每變化100%，y相應(yīng)變化β1個(gè)單位；即x每變化1%，y相應(yīng)變化β1/100個(gè)單位。模型（1.76）的經(jīng)濟(jì)含義為：x每變化1個(gè)單位，y相應(yīng)變化100β1%。模型（1.77）的經(jīng)濟(jì)含義為：即x每變化1%，y相應(yīng)變化β1%個(gè)單位。在指數(shù)模型中，參數(shù)體現(xiàn)的y的變化率，而這一變化率為常數(shù)，因此也被稱作常數(shù)增長(zhǎng)率模型。下表列出了幾種模型設(shè)定形式的經(jīng)濟(jì)解釋模型形式含義經(jīng)濟(jì)解釋yt=β0+β1xt+utdy=β1dxx變化一個(gè)單位，y變化β1個(gè)單位yt=β0+β1Ln(xt)+utdy=β1dx/xx變化1%，y變化β1/100個(gè)單位Ln(yt)=β0+β1xt+utdy/y=β1dxx變化一個(gè)單位，y變化(100β1)%Ln(yt)=β0+β1Ln(xt)+utdy/y=β1dx/xx變化1%，y變化β1%對(duì)變量取自然對(duì)數(shù)是對(duì)經(jīng)濟(jì)數(shù)據(jù)處理的常用方法。一方面，變量取自然對(duì)數(shù)后，參數(shù)體現(xiàn)了變化率或彈性的概念。另一方面，取自然對(duì)數(shù)有助于降低變量的波動(dòng)，消除異方差。其三，對(duì)于時(shí)間序列，變量自然對(duì)數(shù)的差分變量近似表示變量的增長(zhǎng)率。當(dāng)然，并不是所有的變量都適合取對(duì)數(shù)。如果變量不適合以增長(zhǎng)率來表述，則不適合取對(duì)數(shù)。比如，以時(shí)間為測(cè)度單位變量，如受教育的年數(shù)、年齡、工齡等。比率變量一般傾向于不取對(duì)數(shù)。比如失業(yè)率、犯罪率、入學(xué)率等。如果對(duì)其取對(duì)數(shù)形式，那么一定要注意其經(jīng)濟(jì)解釋。比如，設(shè)GDP增長(zhǎng)率對(duì)失業(yè)率回歸Gowth=+Unem+u二者均以增長(zhǎng)率（%）表示，設(shè)最初的失業(yè)率為8%。回歸系數(shù)β解釋為當(dāng)失業(yè)率增加一個(gè)百分點(diǎn)的時(shí)候，即由8%增加至9%的時(shí)候，GDP增長(zhǎng)率會(huì)變化β個(gè)百分點(diǎn)。如果失業(yè)率取對(duì)數(shù)形式，Gowth=+ln(Unem)+u那么回歸系數(shù)β應(yīng)解釋為當(dāng)失業(yè)率變動(dòng)1%的時(shí)候，即由8%增加至8%(1+1%)=8.08%的時(shí)候，GDP增長(zhǎng)率會(huì)變化β/100個(gè)百分點(diǎn)。當(dāng)變量y為非負(fù)數(shù)時(shí)，可以采用ln(y+1)作為y的對(duì)數(shù)變量。除了0點(diǎn)以外，在其他點(diǎn)上，對(duì)系數(shù)的經(jīng)濟(jì)解釋不變。上述模型中，變量取自然對(duì)數(shù)表示變化率的概念。這里的變化率是針對(duì)連續(xù)變量的情況。也可以計(jì)算離散情況下的變化率。比如，模型Ln(yi)=β0+β1xi+ui，x變化一個(gè)單位時(shí)，ln(y)變化β1。設(shè)新的取值為yf。即，可得，變化率為。例STYLEREF1\s1.SEQ例\*ARABIC\s116工資收入模型Ln(wage)=0+1educ+2exper+3tenure+4female+5nowhte+u回歸模型.regresslnwageeducexpertenurefemalenowhite可以根據(jù)公式計(jì)算出比較精確的工資差異。實(shí)際上，對(duì)變量取對(duì)數(shù)除了體現(xiàn)其變化率的概念之外，對(duì)于很多數(shù)據(jù)帶來另外一種好處，即降低變量的有偏分布，使其接近于正態(tài)分布。我們可以觀察對(duì)數(shù)工資的分布圖，并與工資的分布做比較。.histogramwage,normal.histogramlnwage,normal.tabstatsalarylnsalary,statistics(skewnesskurtosis).sktestsalarylnsalary偏度和峰度指標(biāo)以及正態(tài)分布檢驗(yàn)統(tǒng)計(jì)量顯示，雖然工資取對(duì)數(shù)后仍然不服從正態(tài)分布，但相對(duì)與工資來講，情況已經(jīng)改善了很多。例STYLEREF1\s1.SEQ例\*ARABIC\s117常數(shù)增長(zhǎng)率模型由于指數(shù)模型的回歸系數(shù)表示y的變化率，而這一變化率是常數(shù)，因此指數(shù)模型在時(shí)間序列中的一個(gè)重要應(yīng)用是常數(shù)增長(zhǎng)率模型（即變量的增長(zhǎng)率為常數(shù)）。Ln(yt)=ln(y0)+ln(1+g)*t=+t表示y的連續(xù)增長(zhǎng)率，可以根據(jù)公式計(jì)算離散增長(zhǎng)率。以利用常數(shù)增長(zhǎng)率模型計(jì)算我國(guó)1952-2002年期間的經(jīng)濟(jì)增長(zhǎng)率。（數(shù)據(jù)文件：cnmaro）。.genlny=ln(y).gentime=_n.regresslnytime年均（離散）增長(zhǎng)率為=0.08。附：設(shè)y的增長(zhǎng)率為常數(shù)g，那么y的變化曲線為： yt=y0(1+g)t兩邊取對(duì)數(shù)，可以得到：Ln(yt)=ln(y0)+ln(1+g)*t=+t其中，=ln(y0)，=ln(1+g)代表y的連續(xù)增長(zhǎng)率，而g代表了y的離散增長(zhǎng)率，g=。例STYLEREF1\s1.SEQ例\*ARABIC\s118利用ZellnerandRevankar(1970)美國(guó)制造業(yè)的數(shù)據(jù)進(jìn)行如下分析。變量包括：valueadd=各個(gè)州機(jī)械制造業(yè)的產(chǎn)出增加值，nfirm=各個(gè)州的企業(yè)個(gè)數(shù)，capital=各個(gè)州的企業(yè)資本，labor=各個(gè)州的企業(yè)勞動(dòng)力。（數(shù)據(jù)文件：zellner）（1）估計(jì)CD生產(chǎn)函數(shù).genlny=ln(valueadded/nfirm).genlnk=ln(capital/nfirm).genlnl=ln(labor/nfirm).regresslnylnklnl,noheader（2）計(jì)算模型的擬合值、殘差項(xiàng)，并作圖。.predictlny_f,xb.predictlny_fse,stdp.scatterlnylny_f（3）檢驗(yàn)假設(shè)：行業(yè)處于規(guī)模報(bào)酬不變的狀態(tài)。.testlnk+lnl=1例STYLEREF1\s1.SEQ例\*ARABIC\s119利用ChristensenandGreene(1976)數(shù)據(jù)（文件：christensen.dta），估計(jì)如下成本函數(shù)Ln(Cost)=0+1Ln(Q)+2Ln(Plabor)+3Ln(Pcapital)+4Ln(Pfuel)+u根據(jù)經(jīng)濟(jì)理論，1體現(xiàn)了規(guī)模收益，而2+3+4=1。.regresslncostlnqlnpllnpklnpf.testlnpl+lnpk+lnpf=1.testlnq=1多項(xiàng)式模型如果模型中的解釋變量含有某個(gè)變量的多項(xiàng)式函數(shù)，則稱之為多項(xiàng)式函數(shù)模型。二次多項(xiàng)式和三次多項(xiàng)式是兩種常見的多項(xiàng)式函數(shù)。三次多項(xiàng)式模型：y=b0+b1x+b2x2+b3x3+uSTYLEREF1\s1.SEQ公式\*ARABIC\s181二次多項(xiàng)式模型：y=b0+b1x+b2x2+uSTYLEREF1\s1.SEQ公式\*ARABIC\s182比如，拉弗曲線、庫茲涅茨倒U曲線、平均成本與產(chǎn)量都表現(xiàn)為二次多項(xiàng)式關(guān)系，總成本與產(chǎn)量表現(xiàn)為三次多項(xiàng)式關(guān)系。多項(xiàng)式模型體現(xiàn)了x對(duì)y的非線性影響。比如，在二次多項(xiàng)式模型中，x與y之間表現(xiàn)為拋物線形狀，x對(duì)y的邊際影響為b1+2b2x。x對(duì)y的影響取決于x的取值。如果b2為負(fù)值，則表明x對(duì)y的邊際影響是遞減的。例STYLEREF1\s1.SEQ例\*ARABIC\s120工資收入模型中加入工齡的平方項(xiàng)，重新回歸方程。log(wage)=0+1educ+2exper+3tenure+4exper2+u.genexpersq=exper^2.regreslnwageeducexperexpersqtenure交叉積模型如果變量x1對(duì)y的影響依賴于另外一個(gè)變量x2，則我們稱x1與x2存在交叉影響。模型中用交叉積來體現(xiàn)變量的交叉影響。比如，模型x1對(duì)y的邊際影響為。即，x1對(duì)y的影響直接取決于x2的取值。交叉效應(yīng)中一種常見形式是帶有虛擬變量的情況，或者是一個(gè)連續(xù)變量與虛擬變量的交叉積，或者是兩個(gè)虛擬變量的交叉積。例STYLEREF1\s1.SEQ例\*ARABIC\s121在儲(chǔ)蓄方程的案例中，加入虛擬變量與收入的交叉積。Save=0+1Rent+2Income+3RentIncome+u其中，1體現(xiàn)了租房家庭與有房家庭在截距項(xiàng)的差異，即相同收入水平上的有房家庭比租房家庭的儲(chǔ)蓄額高出1。2體現(xiàn)了租房家庭與有房家庭的收入對(duì)儲(chǔ)蓄的邊際影響的差異，即有房家庭比租房家庭的邊際儲(chǔ)蓄傾向高出2。.genrent_inc=rent*income.regresssaveincomerentrent_inc例STYLEREF1\s1.SEQ例\*ARABIC\s122在工資收入方程中，加入性別與種族的交叉積，Ln(Wage)=0+1Educ+2Exper+3Tenure+4Female+5Nowhite+6Female*nowhite+u4體現(xiàn)了工資的性別差異，5體現(xiàn)了工資的種族差異，5體現(xiàn)了性別差異在不同種族也不同。.genfem_now=female*nowhite.regresslnwageeducexpertenurefemalenowhitefem_now例STYLEREF1\s1.SEQ例\*ARABIC\s123利用ZellnerandRevankar(1970)數(shù)據(jù)估計(jì)超對(duì)數(shù)生產(chǎn)函數(shù)Ln(Q)=0+1Ln(L)+2Ln(K)+3Ln2(L)+4Ln2(K)+5Ln(L)Ln(K)+u.regresslnqlnllnklnlsqlnksqlnllnk估計(jì)資本和勞動(dòng)力的產(chǎn)出彈性，并對(duì)CD生產(chǎn)函數(shù)進(jìn)行約束檢驗(yàn)。勞動(dòng)力的產(chǎn)出彈性為(L)=1+23Ln(L)+5Ln(K)，資本的產(chǎn)出彈性為(K)=2+24Ln(K)+5Ln(L)，規(guī)模報(bào)酬系數(shù)為(L)+(K)。約束3=4=5，得到了CD生產(chǎn)函數(shù)。.testlnlsqlnksqlnllnk例STYLEREF1\s1.SEQ例\*ARABIC\s125考察教育程度、性別對(duì)工資的影響。數(shù)據(jù)包含了1975、1985年的調(diào)查數(shù)據(jù)。（數(shù)據(jù)文件：cps78_85）模型設(shè)定：log(wage)=0+1y85+2educ+3y85educ+4exper+5union+6female+7y8

人人文庫> 全部分類> 應(yīng)用文書 > 技術(shù)指導(dǎo)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

Chapter1線性回歸模型的OLS估計(jì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

Chapter1線性回歸模型的OLS估計(jì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔