一元線性回歸的估計教學提綱_第1頁
一元線性回歸的估計教學提綱_第2頁
一元線性回歸的估計教學提綱_第3頁
一元線性回歸的估計教學提綱_第4頁
一元線性回歸的估計教學提綱_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Good is good, but better carries it.精益求精,善益求善。一元線性回歸的估計-第三章雙變量回歸的估計我們在第二章已導出PRL和SPL,回歸分析的目的是運用樣本估計樣本回歸直線SRL,使之能最大限度“逼近”于PRL.即對于總體回歸直線-PRL,即(3.1)利用樣本形成樣本回歸直線(SRL),由此而提出的問題是,在什么假定下,運用何種方法形成SRL,使SRL盡可能逼近PRL(3.1)?由于是對總體回歸直線的偏差,自然地希望基于u來實現這一目的.由于ui的估計度量了樣本點Yi到樣本回歸直線的距離(誤差或偏差),且成為ui的主部,因此基于總體誤差ui就轉化于基于樣本誤

2、差。如果直接使最小,但單個的可能有正有負,有大有小,從而導致部分較大但其代數和卻較小,這樣產生的參數估計和對應的樣本回歸直線就可能沒有最大可能逼近PRL的性質。類似地,可討論對求最小所產生的問題。為回避這一類問題,通過對求最小所產生的參數估計及其SPL,才可能盡可能逼近PRL,由此形成樣本回歸直線的估計,即(3.2)這一種方法稱為最小二乘法(OLS)?,F在,我們有總體回歸直線Yi=E(Yi/X=Xi)+ui=Xi+ui樣本回歸直線(為方便,有時亦記作bi)為i的估計,(為方便,有時亦記作ei)稱為殘差,可看作ui的估計,為E(Yi/X=Xi)的估計,為方便和出于殘差的均值為0,即為Yi的估計.

3、3.1.OLS回歸分析的目的是運用樣本數據,求出待估參數,為此將殘差平方和表述為待估參的函數并求最小,由此求出參數估計,這一過程為OLS,實質上是最優(yōu)化問題,故這一求解問題可表述為(3.3)(3.3)表明,殘差平方和為待估參數的函數,因此對其求最小,能解出這些參數。我們從代數或統計中已學習,求(3.3)即是對其求偏導并令為0,即有由此得到(3.4)(3.5)聯立上述兩個方程(記),求解有(3.6)(3.6)中,分別為樣本的均值,所以為對樣本均值的離差,度量第個觀測值和對其均值的偏離。上述推導中,N為樣本點個數或樣本長度,為方便,以后以小寫的表示。將(3.6)代入(3.4)中,有(3.7)對于(

4、3.6)和(3.7)所得到的樣本回歸直線的參數估計,由此得到OLS樣本回歸直線對于上一章的例子和樣本1,運用OLS所得到的SRL如下圖,SRL具有性質:1.參數估計由樣本信息所形成;2.這二個估計稱為點估計(稍后將討論區(qū)間估計),即給定一組樣本,可得到相應的參數估計值,它們是對于總體參數(i)的一個點估計,不同的樣本,得到的估計可能不完全相同,不同的樣本所得到的估計,均是對總體的一個點估計;3.由樣本得到參數估計即得到了SRL,樣本回歸直線具有性質:(1).SRL通過樣本均值點()(由,即樣本均值滿足樣本回歸直線,所以通過樣本均值點),如圖.圖3.1樣本回歸直線(2).的均值等于樣本均值,即(

5、3.9)這一性質是指,回歸直線上的點的均值等于樣本均值。證明:由故所以(3)殘差的均值為0,即證明:由(3.4)利用上述性質1,2,3,SRL可以表述為離差形式。對于最后一步是將樣本點表示(3.2)(3.2)減去所得到的的結果。這樣(3.10)即為樣本離差形式即,所以(3.10)為(3.11)于是,SRL可寫為(3.12)(3.12)實際上是將原有含截踞不過原點的直線平移至過以為原點的直線。(4)殘差與預測或估計的Y不相關,這一性質需證明。對于相關的概念,我們這里暫不從數學上說明,只是理解不相關的含義為,兩個變量沒有線性關系,相關的嚴格定義在以后給出。我們這里說與不相關,等價于與不相關。這是因

6、為證明:(5).與不相關,即,它等價于。因為這一性質由(3.5)給出.3.2.OLS的基本假定以上我們僅得到了估計以及相應的樣本回歸直線,盡管從估計的角度看,運用OLS已經能求出參數的估計。但沒有對殘差的分布和變量X作出任何假定,因此我們無法對這種估計或SRL作出評價和推斷,而回歸分析的目的不僅要求出參數的估計,還需對總體作出推斷,即對于PRL通過上述OLS方法,得到了SRL問題:SRL是否為PRL的一個無偏估計?如何定義無偏?這一問題歸結為估計量在期望的意義下是否與總體參數有偏差?也就是說,從SRL能否推斷PRL的真值?解決這一問題的途徑是對總體的殘差作出分布假定,然后討論估計量的分布性質,

7、基于此討論估計量是否有偏等一系列問題。另一方面,從PRL可知,Y依賴于X和擾動,只有對X和擾動作出相應的假定,才可能對Y和參數作出統計推斷,亦即對模型作出評價。經典線性回歸模型(CLRM)或稱為高斯或標準直線回歸模型具有10大假設,構成了計量經濟學理論基礎。在這10大假設下,SRL具有對總體無偏等性質。這些假定有下述10條。線性回歸模型,即模型對參數而言是線性的。這一假定強調的是對參數,而不是變量。如YX+uYX1+X2+u為線性模型(對參數而言),但YX1+X2+u對參數而言就是非直線模型,如果設定這樣的非直線模型,則違反了性線回歸模型的假設.在重復抽樣中X是固定的,或X是非隨機的。這一假定

8、難以理解,對于表2.1所假定的總體,對于X80,隨機抽取一個家庭,其Y70,直至X=260,隨機抽取Y=150,在第二次抽樣時,仍將X固定在X80,再次抽取一個樣本Y55,直至X=260,隨機抽取Y=175.這種重復抽樣的過程是將X固定在X80直至X=260.在重復抽樣過程中,將X固定或不變,從這個意義上說,X是非隨機的,X固定后,隨機抽取相應的Y。干擾項或隨機項的均值為0,即這一假定是對于固定的X,如X80,指偏離總體條件均值的和為0,無論個別的偏差有多大(?。?,是正還是負,其和為0.回到表2.1,X80,總體為5戶家庭,Y的均值為65,第一個家庭的Y為55,偏差為10,第二個為60,偏差為

9、5,等等,這些偏差相加應為0,也就是說,正和負的偏差相互抵消。圖3.3P49所示。由上述性質2和3,回歸分析是建立在條件回歸的基礎上。隨機項的同方差或擾動的方差相同。即由P50的圖3.4所示.圖3.2.擾動(以及Yi)的同方差與之不同的是異方差,如下圖所示.圖3.3.擾動(以及Yi)的異方差這是因為由假定3即擾動的均值為0,5.擾動之間無(自)相關。即給定任意的X的兩個值,對應的擾動沒有自相關。基于相關和協方差的定義,不相關與協方差為0等價。即其中的記號cov表示協方差?;氐嚼?.1,如X80和X100兩個不同的水平,與總體均值的偏差不相關。協方差正是針對不同水平之間而定義的。這一性質所強調的

10、是,所有的與總體均值的偏差(誤差)之間不相關,而不僅僅是對給定某一水平(如X80)之下的誤差而言。與之不同的是殘差的相關,即殘差之間具有某種變化的規(guī)則.對這種相關性,目前只能作直觀的解釋。我們在分析表2.1所示的總體中,如果與正相關,總體函數為,不僅依賴于,也依賴于,而依賴于。6.擾動與X不相關,或它們之間的協方差為0。即:這一假定的表示中,非隨機是因為它已經是一個數。7.觀測次數或樣本的長度大于待估參數的個數。8.X值要有變異性,即對于一個給定的樣本,X的值不能全部相同,也就是說,X的方差必須是一個有限的正數。反之,若X在一個樣本中取相同的值(無變異性),方差就為0,無法估計參數。9.正確設

11、定了模型,或者說,所用的模型不存在設定誤差。所謂設定問題,在本書中包括:(1)模型應包括哪些變量,(2)模型的函數形式(如線性還是非線性),(3)對模型的變量和擾動應有哪些假定等。以后我們還應看到,設定問題還有更多的內容。所謂設定誤差即是指,當模型應包括但沒有包括某一個變量而引起的誤差;當模型應為線性而將其設定為非線性(或反之)而引起的誤差等.以線性和非線性菲氏曲線為例,菲氏曲線理論所陳述的是,貨幣工資變化率(或通脹率)與失業(yè)率彼此消長的關系,即Yi=Xi)+Ui若將菲氏典線模型設定為Yi=Xi+Ui則Yi=Xi+Ui具有設定錯誤,或不當設定.以上的假定就是全部關于經典線性回歸(CLR)的假定

12、,這些假定是對總體作出的假設,不是對樣本回歸函數的假定。但是,OLS的一些性質,與上述某些假定類似。如OLS的均值為0與擾動均值為0相似,即與與但是一個是對樣本,另一個是對總體。我們特別說明,這些假定并不一定全部成立,但在這些假定之下,所得到的回歸和SPL,為以后的分析建立了一個框架,或鏡子,違反這些假定的任何一條,將得不到這些假定之下的估計量的性質。因此,計量經濟學正是對這些假定的逐步取消或在某些假定之下能導出仍然有效的估計或統計推斷而不斷將研究的問題深入和逼近現實。10.解釋變量之間沒有完全的共線關系?;貞浘€性代數中關于共線的定義,對于向量X和Z,若存在常數和,使得對于X+Z=0,有X=稱

13、X和Z共線.在計量經濟模型中,對于模型Y=X+Z+u若X和Z的樣本,使得X=即稱它們完全共線,我們以后將會看到,在這種情況下,OLS將無法估計模型.3.3.OLS的精度:標準差我們在前面有關異方差的討論中已說明,方差越小,與總體的偏離就越小,對這一問題的正式分析即為標準差。從OLS可知,估計量均為樣本數據的函數,如何評價估計量的可信度或精度?工具就是所謂標準差。對于樣本回歸直線其參數估計為,其方差定義為標準差定義為(3.12)同理,有,(3.13)以上的參數估計的方差和標準差都含總體擾動的方差和標準差,而總體擾動一般是不可觀測的,即總體方差和標準差是未知的,故需要用樣本予以估計,我們以下予以推

14、導。從若定義(3.14)所以定義則它是總體方差的無偏估計。進一步,標準差的估計即為方差估計開平方。即總體的估計的標準誤差為(3.15)這一估計量所度量的是,樣本Y對估計的回歸直線的離差的平方的標準差。注意的是,所度量的是,所有的Y與總體直線的偏差的平方,而僅是它的一個無偏估計,度量的是與估計的直線即樣本回歸直線的偏差的平方。圖示。觀測值與總體直線和回歸直線的偏差。對于上述所估計的參數的方差即(3.12)和(3.13),有如下特點:由可知其特點,即它與正比,與反比,因此,對于給定的,度量X值變化的越大,越小,說明的估計越精確,因此我們假定X要有變異性。另一方面,隨著樣本長度增加,變大(相對于小樣

15、本而言),從而使估計越精確。同理分析的方差。是樣本估計量,故不同的樣本所得到的估計不一定相同,對于同一樣本,它們還可能是相互依賴的,或是相關的。這種相互依賴性由它們之間的協方差所度量,可推證其協方差為(3.16)如何利用估計量的方差來評價這些估計量的可靠性,這即是統計推斷問題。3.4.OLS估計量的性質:高斯馬爾可夫定理在給定上述假定條件,由OLS所得到的估計量所具有的性質:估計量關于Yi是線性的。即是關于的線性組合,由于為隨機變量的一個樣本,所以估計量也是一個隨機變量。作為例子,估計量是無偏的,即。例子3.在所有線性無偏估計量中具有最小方差(具有最小方差的估計量稱為有效估計量).高斯馬爾可夫

16、定理:在給定經典線性回歸模型的假定下,OLS估計量,在無偏線性估計量中,具有最小方差,即OLS估計量是最優(yōu)線性無偏估計量(BLUE).注意:有效估計量強調最小方差,即對所有線性和非線性估計量,只要是最小方差,就稱為有效估計量。一般而言,這一定義對于大樣本而定義的。而BLUE是定義在所有線性估計量中,方差最小的估計量稱為BLUE。也就是說,對于其它任何線性無偏估計量,的方差均比它們的方差小。因此,證明BLUE的方法是假定有一個線性無偏估計,需證明由于的任意性,即具有最小方差。如圖P59所示,由于和均為線性無偏,所以它們的分布圖都對稱于真值,即,但由于,故的分布圖比的分布圖更集中于總體。3.5.判

17、定系數:擬合優(yōu)度的一個度量1.以上所討論的是關于估計量的性質,即線性無偏且方差最小,因此,樣本回歸直線是總體的一個無偏且具有高精度(方差最小)的估計,但由于總體一般是未知的,所以以下的分析針對樣本回歸直線。但對于所謂盡可能逼近還沒有正式定義和度量,所謂盡可能逼近,其定義和度量之一是,圍繞樣本回歸直線的偏差(殘差)盡可能小,即樣本數據盡可能擬合SRL,度量這種擬合程度即為判定系數,或擬合優(yōu)度,記為?;趯RL的殘差盡可能小,我們以下導出擬合優(yōu)度的公式。由(3.17)在(3.17)中,定義(3.18)(3.18)所度量的是所有觀測值(樣本點)與其均值(或總體均值,因為)的總變異(),故稱為總變異

18、或總平方和,記為TSS。而解釋平方和ESS定義為(3.19)由于在ESS中,表示回歸直線上的點與樣本均值(等于總體均值)的總離差,因此它度量了回歸直線與總體均值的“逼近”程度,故稱為解釋平方和,或由回歸解釋的平方和,即在TSS(總變異)中,由回歸所解釋的變異。而殘差平方和RSS定義為(3.20)這一項稱為殘差平方和。這樣TSS就分解為TSSESSRSS(3.21)其意義如上所述,圖示如P61圖3.10.圖3.3.Yi的總離差分解圖對(3.20),有1ESS/TSSRSS/TSS擬合優(yōu)度的定義即是在總變異中,由回歸所產生的變異占的比重(3.22)顯然,有,經簡單推導,可表示為進一步,將TSS=E

19、SS+RSS用r2表示,有圖示:用園表示變異,r2的大小可直觀表示為下圖.3.相關系數X和Y的相關系數,度量這兩個變量之間的線性相關程度,這是與擬合優(yōu)度相關但不相同的一個概念。定義:X和Y之間的相關系數,定義為(3.22)這一相關系數稱為樣本相關系數。我們前面所講的擬合優(yōu)度的意義是X的變異對Y的變異的解釋程度,即r2=ESS/TSS但相關系數r所度量的是線性相關程度,盡管它們之間的關系為相關系數r的性質:1;2.對稱性,即X與Y之間的相關系數等于Y與X之間的相關系數,rXY=rYX;3.相關系數與原點和尺度無關,即其中X*=aX+c,Y*=bY+d,a0,b0,a,b,c,d為常數;4.X與Y

20、獨立,則它們之間的相關系數為0,反之,不相關,即相關系數r=0不等于它們獨立;5.相關系數r僅是線性相關(或線性相依)的一個度量,不能用于度量非線性,如X與Y之間有非線性關系Y=X2,即X與Y沒有線性相關,故相關系數r=0;7.相關系數r不能度量X的變異解釋Y的變異的程度.P64圖3.11所示的是正負相關和不相關的圖解,當X的變化與Y的變化成比例,X與Y有正或負相關,而當X與Y呈現出近似的比例變化,r接近于1或1,而r0表明X與Y之間沒有線性相關而是具有確定的非線性的函數關系。3.6.數值例子。關鍵概念,MPC,估計,注意從表3.2中讀取數據Xi和Yi后計算xi=Xi,yi=和x2i,xiyi

21、(i=1,2,10)等數據,按定義計算計算和進一步,計算參數估計的方差和標準差:再計算TSS,ESS和RSS和擬合優(yōu)度基于以上的計算所得到的回歸直線為其樣本表示為圖形為:對于以上的計算(估計)結果的解釋:1.樣本回歸直線是總體回歸直線的一個估計,即對于任一X(如X=100),從樣本回歸直線上可找到相應的點YX=100=24.4545+0.5091*100=75.46它是總體E(Y/X=100)的估計,一般地,為E(Y/X=Xi)估計,由于E(Y/X=Xi)為條件均值,所以為Y的期望(均值)的估計;2.表示在X=80至260這樣的極差變化的范圍內,周收入X每增加一美元,將使每周消費增加0.51美

22、元,即MPC=0.51,3.可機械地解釋為當收入為0時,每周消費平均需24.4545,由于X的值不包括0,故上述解釋是強行令X=0,故這種解釋是機械地解釋.另一種解釋是,模型僅包括收入變量,故截距的估計可解釋為沒有包括在模型中的變量對消費的平均影響.4.擬合優(yōu)度為0.9621,表明樣本回歸直線對數據擬合的程度很高,從圖形看,樣本數據Yi沒有偏離樣本回歸直線較遠,且有兩個點落在直線上,說明每周消費的變異約有96%被X所解釋。3.7例子例1.美國咖啡需求:替代品與模型設定,即咖啡的替代品(水,茶等)可能對咖啡需求產生影響,如考慮替代品的影響,需用多元模型。我們這里用二元模型研究需求與價格的關系(可

23、能導致模型設定偏差),作為例子,用每人每日杯數和每杯價格分別作為應變量和解釋變量,故模型為Yi=Xi+ui例2.消費函數與關于總體和樣本的例子不同,本例研究總量個人消費支出(PCE,記為Y)與GDP(度量總量收入,記為X)的關系,基于消費理論,有Yi=Xi+ui運用EVIEWS,第一步,輸入數據;第二步,根據所設定的模型進行估計,命令:LSYCX,產生回歸結果;第三步,報告和分析回歸結果.數據如圖回歸:LSYCXDependentVariable:YMethod:LeastSquaresDate:09/05/04Time:18:31Sample:19801991Includedobservat

24、ions:12VariableCoefficientStd.Errort-StatisticProb.C-231.79510357694.5275-2.45210.03413X0.7194334726580.0217433.07801.5051e-11R-squared0.99094334525Meandependentvar2880.6AdjustedR-squared0.990037679775S.D.dependentvar314.4417S.E.ofregression31.3848778159Akaikeinfocriterion9.8815Sumsquaredresid9850.1

25、0555522Schwarzcriterion9.96235897529Loglikelihood-57.289247202F-statistic1094.16045179Durbin-Watsonstat1.28418254948Prob(F-statistic)1.50516803291e-11基于以上的回歸結果,有3.8.要點:1.CLRM,方差標準差及其估計性質,無偏估計,最優(yōu)無偏估計,評價數據對模型的擬合優(yōu)度,BLUM的假定與估計性質,2.概念:方差與變異,自由度,相關系數,獨立。正態(tài)性假定:經典正態(tài)線性回歸模型在前面的分析中,我們對擾動作出了一系列假定,但沒有假定分布,相應地,對估

26、計量也就沒有討論分布問題,因此,我們也無法對估計量進行推斷.本章將繼續(xù)討論推斷這一問題.對于模型(4.1)我們首先討論擾動的分布。4.1.的概率分布.前述對(4.1)作OLS時,對擾動的分布沒有假定。也就是說,無論擾動的分布為何,對(3.1)作OLS,所得到的估計量,在前面10條假定之下,均為BLUE,如果研究的目的僅是估計參數,OLS方法就可實現這一目的。但是,沒有分布假設,不可能對估計參數作出任何推斷,也就不可能對估計作出有意義的評價,而且也不可能對任何有關總體的假定作出檢驗。對的概率分布作出合適的假定,即假定為正態(tài)分布,能解決上述問題。4.2.的概率分布假定為正態(tài)分布經典正態(tài)線性回歸假定具有正態(tài)分布,且均值:方差:,表示對每一個,方差相同協方差上述假定采取記為(4.2)上述假定表示,每一個具有同

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論