一元線性回歸模型new課件_第1頁
一元線性回歸模型new課件_第2頁
一元線性回歸模型new課件_第3頁
一元線性回歸模型new課件_第4頁
一元線性回歸模型new課件_第5頁
已閱讀5頁,還剩94頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1第二章經(jīng)典單方程計量經(jīng)濟學(xué)模型:

一元線性回歸模型

回歸分析概述一元線性回歸模型的參數(shù)估計一元線性回歸模型檢驗一元線性回歸模型預(yù)測實例分析2授課目標與要求:經(jīng)典單方程計量經(jīng)濟學(xué)模型的一元線性回歸模型,是課程最基礎(chǔ)的內(nèi)容。通過教學(xué),要求學(xué)生達到:理解經(jīng)典線性單方程計量經(jīng)濟學(xué)模型的數(shù)理統(tǒng)計學(xué)基礎(chǔ),包括回歸分析、假設(shè)檢驗和區(qū)間估計;熟練掌握經(jīng)典線性單方程計量經(jīng)濟學(xué)模型的理論與方法,包括基本假設(shè)、模型估計和統(tǒng)計檢驗;理解最小二乘原理和最大或然原理,以及在模型估計中的應(yīng)用。本章重點和難點:第二節(jié):一元線性回歸模型的參數(shù)估計第三節(jié):一元線性回歸模型的統(tǒng)計檢驗

3§2.1回歸分析概述一、回歸分析的基本概念二、簡單線性相關(guān)分析三、總體回歸函數(shù)(PRF)四、隨機擾動項五、樣本回歸函數(shù)(SRF)51.變量間的關(guān)系⑴確定性關(guān)系或函數(shù)關(guān)系:研究的是確定現(xiàn)象非隨機變量間的關(guān)系。⑵統(tǒng)計依賴或相關(guān)關(guān)系:研究的是隨機變量間的非確定關(guān)系。又分為簡單相關(guān)(存在于兩個變量之間的相關(guān)關(guān)系)和多重相關(guān)(存在于三個及以上變量之間的相關(guān)關(guān)系)。

⑶模糊關(guān)系(隨機變量的似有似無)62、相關(guān)分析的基本概念⑴相關(guān)關(guān)系,是指兩個或兩個以上的變量,其樣本序列觀測值之間表現(xiàn)出來的隨機數(shù)學(xué)關(guān)系,常用相關(guān)系數(shù)來衡量,主要用來判斷變量間是否相關(guān)。如果兩個變量樣本序列觀測值之間的相關(guān)系數(shù)的絕對值為1,則二者之間具有完全的相關(guān)關(guān)系。⑵偏相關(guān)關(guān)系,是指一個變量與其他兩個或兩個以上變量的線性組合之間的相關(guān)關(guān)系。該變量與每一個變量間的相關(guān)系數(shù)又稱偏相關(guān)系數(shù)。⑶因果關(guān)系,是指兩個或兩個以上的變量,在行為機制等方面上的依賴性。因果關(guān)系有單向因果關(guān)系和雙向因果關(guān)系之分。如:價格與供給,價格與需求,投資與GDP等。具有因果關(guān)系的變量之間一定具有數(shù)學(xué)上的相關(guān)關(guān)系;而具有相關(guān)關(guān)系的變量之間并不一定就具有因果關(guān)系。如:GDP與一棵小樹的生長速度,中國GDP與印度人口的關(guān)系。⑷相關(guān)分析,是判斷變量之間是否具有相關(guān)關(guān)系的一種數(shù)學(xué)分析方法,一般是通過計算變量之間的相關(guān)系數(shù)來實現(xiàn)。7○對變量間統(tǒng)計依賴關(guān)系的考察主要是通過相關(guān)分析(correlation)或回歸分析(regression)來完成的?!鹣嚓P(guān)分析是討論變量之間相關(guān)程度的一種統(tǒng)計分析方法。在相關(guān)分析中,通常假設(shè)兩個變量:①對其是同等看待的,②不考慮其因果關(guān)系,③對自變量和因變量不加區(qū)別,④兩個變量均是隨機變量。

正相關(guān)線性相關(guān)

不相關(guān)

相關(guān)系數(shù)(-1≤ρ≤1)統(tǒng)計依賴關(guān)系

負相關(guān)

有因果關(guān)系

回歸分析

正相關(guān)無因果關(guān)系

相關(guān)分析

非線性相關(guān)

不相關(guān)

負相關(guān)94、注意事項①不線性相關(guān)并不意味著不相關(guān)。②有相關(guān)關(guān)系并不意味著一定有因果關(guān)系。③回歸分析和相關(guān)分析:都是研究隨機變量間的統(tǒng)計依賴關(guān)系,并能測度線性依賴程度的大小,不關(guān)注具體的依賴關(guān)系。但它們并不意味著一定有因果關(guān)系。④相關(guān)分析:僅僅從統(tǒng)計數(shù)據(jù)上測度變量間的相關(guān)程度,無需考察兩者間的因果關(guān)系,對稱地對待任何(兩個)變量,兩個變量都被看作是隨機的。⑤回歸分析:更注重變量間的因果關(guān)系和具體的依賴關(guān)系,對變量的處理方法存在不對稱性,即區(qū)分應(yīng)變量(被解釋變量)和自變量(解釋變量),前者是隨機變量,后者不是。10二、簡單線性相關(guān)分析△總體相關(guān)系數(shù)△樣本相關(guān)系數(shù)△樣本相關(guān)系數(shù)的取值范圍△相關(guān)系數(shù)的顯著性檢驗△線性相關(guān)理論的局限性111、總體相關(guān)系數(shù)總體相關(guān)系數(shù)。通過觀察散點圖只能得到兩個變量之間相關(guān)關(guān)系的一個粗略概念。要想精確刻畫他們之間的相關(guān)程度,需要采用一個數(shù)量指標—相關(guān)系數(shù)來描述。大致進行分析判斷。兩個變量X、Y之間真實的相關(guān)程度,使用總體相關(guān)系數(shù)ρ來表示的,即:ρ=Cov(X,Y)/[(Var(X)·Var(Y)]1/2=σXY/(σX2·σY2)1/2可以證明總體相關(guān)系數(shù)的取值范圍定義為-1到1之間,即:ρ∈[-1,1],當(dāng)ρ其取不同值時,兩變量間的相關(guān)關(guān)系也就確定了。

13○但是,在由∑xi·yi的數(shù)值符號和大小所提供的相關(guān)類型和近似相關(guān)程度的信息中,存在兩點不足:

第一,∑xi·yi的數(shù)值大小受觀測點數(shù)目n的影響。為校正該點的不足,利用與樣本容量n有關(guān)的量:n-1去除∑xi·yi,則得到表達式:∑xi·yi/(n-1),即X、Y的樣本協(xié)方差:SXY=∑xi·yi/(n-1)。第二,∑xi·yi的數(shù)值大小受X、Y的計量單位的影響。為校正該點的不足,利用X、Y的標準差SX、SY之乘積去除樣本協(xié)方差SXY,即表達式:SXY/(SX·SY)?!鹨驗镾X、SY與X、Y的計量單位相同,所以表達式SXY/(SX·SY)的比值不受計量單位的影響。因此,我們定義樣本相關(guān)系數(shù)的表達式為:○

r=SXY/(SX·SY)=SXY/(SX2·SY2)?=[∑xi·yi/(n-1)]/[∑xi2/(n-1)·∑yi2/(n-1)]?○即:樣本相關(guān)系數(shù):r=∑xi·yi/[∑xi2·∑yi2]?143、樣本相關(guān)系數(shù)的取值范圍○可以證明:r∈[-1,1]○案例2.1.1:證明:當(dāng)Xi、Yi完全相關(guān)時,∣r∣=1○證明:設(shè)樣本容量為n,當(dāng)Xi、Yi完全相關(guān)時,有:①Yi=0+1Xi,即:(Xi,Yi)均在一條直線上。②兩端連加則有:∑Yi=n0+1∑Xi,同除n:Y=0+1X;即:均值(X,Y)也在直線Yi=0+1Xi上。③兩式①、②相減得到:Yi

-Y=1(Xi–X)

,即:yi=1xi④兩邊同乘xi,yi分別得到:xiyi=1xi2

,yi2=1xiyi,

即:∑xiyi=

1∑xi2;∑yi2=

1∑xiyi⑤將上式代入樣本相關(guān)系數(shù):r=∑xi·yi/[∑xi2·∑yi2]1/2公式,即可得到:∣r∣=1

154、相關(guān)系數(shù)的顯著性檢驗(相關(guān)檢驗)○相關(guān)系數(shù)在統(tǒng)計上是否顯著,即總體之間是否顯著線性相關(guān),必須進行相應(yīng)的顯著性檢驗,簡稱相關(guān)檢驗。相關(guān)檢驗步驟如下:⑴首先計算樣本相關(guān)系數(shù)r。⑵根據(jù)樣本容量n和顯著性水平α(置信水平),查相關(guān)系數(shù)表,得到臨界值(自由度為n-2)rα。⑶檢驗判斷:當(dāng)∣r∣>rα?xí)r,則X,Y顯著線性相關(guān),否則不顯著。17三、總體回歸函數(shù)△回歸分析△案例分析△總體回歸函數(shù)181、回歸分析○回歸分析:相關(guān)關(guān)系的特征是不確定性,一個變量不能依據(jù)其他有關(guān)變量的數(shù)值,精確地、一一對應(yīng)地求出其數(shù)值。但是,我們可以根據(jù)大量的統(tǒng)計數(shù)據(jù),找出變量之間在數(shù)量變化方面的統(tǒng)計規(guī)律,這種統(tǒng)計規(guī)律所表現(xiàn)出來的數(shù)量關(guān)系就叫做回歸關(guān)系,描述這種回歸關(guān)系的數(shù)學(xué)公式就稱為回歸方程;○有關(guān)回歸關(guān)系的計算方法和理論稱為回歸分析。又分為:一元回歸分析(方程)、多元回歸分析(方程);線性回歸分析(方程)、非線性回歸分析(方程)?!鸹貧w分析關(guān)心的是根據(jù)解釋變量的已知或給定值,考察被解釋變量的總體均值,即當(dāng)解釋變量取某個確定值時,與之統(tǒng)計相關(guān)的被解釋變量所有可能出現(xiàn)的對應(yīng)值的平均值○回歸分析的主要目的有三點:①、根據(jù)樣本觀測值,對模型參數(shù)進行估計,求得回歸方程;②、對回歸方程、模型參數(shù)估計值進行顯著性檢驗;③、利用回歸方程進行預(yù)測和控制。192、案例分析:案例2.1.2:一個假想的社區(qū)有100戶家庭組成,要研究該社區(qū)每月家庭消費支出Y與每月家庭可支配收入X的關(guān)系。即如果知道了家庭的月收入,能否預(yù)測該社區(qū)家庭的平均月消費支出水平?為達到此目的,將該100戶家庭劃分為組內(nèi)收入差不大(可支配收入水平)的10組,以分析每一可支配收入組的家庭消費支出?!鹩捎诓淮_定因素的影響,對同一收入水平X,不同家庭的消費支出可能不完全相同;見下表:21○但由于調(diào)查的完備性,給定收入水平X的消費支出Y的分布是確定的,即以X的給定值為條件的Y的條件分布(Conditionaldistribution)是已知的,例如:P(Y=561|X=800)=1/4。因此,給定收入X的某一個值Xi,可得消費支出Y的條件均值(conditionalmean)或條件期望值(conditionalexpectation):E(Y|X=Xi)。該例中:E(Y|Xi=800)=605○描出散點圖發(fā)現(xiàn):雖然不同的家庭其消費支出存在差異,但是,隨著收入的增加,消費“平均地說”也在增加,且Y的條件均值均落在一根正斜率的直線上。這條直線稱為總體回歸線。05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消費支出Y(元)233、總體回歸函數(shù)○在給定解釋變量Xi條件下被解釋變量Yi的期望軌跡稱為總體回歸線(populationregressionline),或更一般地稱為總體回歸曲線(populationregressioncurve)。相應(yīng)的函數(shù):○稱為(雙變量)總體回歸函數(shù)(populationregressionfunction,PRF)。含義:回歸函數(shù)(PRF)說明被解釋變量Y的平均狀態(tài)(總體條件期望)隨解釋變量X變化的規(guī)律。函數(shù)形式:可以是線性或非線性的。○案例中,將居民消費支出看成是其可支配收入的線性函數(shù)時,為一線性函數(shù):其中,0,1是未知參數(shù),稱為總體回歸系數(shù)(regressioncoefficients)。251、隨機擾動項在案例2.1.2中,總體回歸函數(shù)說明在給定的收入水平Xi下,該社區(qū)家庭平均的消費支出水平Y(jié)。但對某一個別的家庭,其消費支出Yi可能與該平均水平Y(jié)有偏差,并且聚集在平均水平Y(jié)的周圍?!饘θ魏蝹€別家庭,記:○稱i為觀察值Yi圍繞它的期望值的離差(deviation),它是一個不可觀測的隨機變量,又稱為隨機干擾項(stochasticdisturbance)或隨機誤差項(stochasticerror)。○觀測值點的散布情況表明了經(jīng)濟行為間的真實關(guān)系,直線僅僅表示了這種真實關(guān)系的理論部分,觀測值的點與直線的偏離程度—離差i,表示了這種真實關(guān)系的隨機成分。262、總體回歸模型○在例2.1.2中,給定收入水平Xi,個別家庭的支出可表示為兩部分之和:Yi=E(Y|Xi)+

i=

0+1Xi+

i

⑴該收入水平下所有家庭的平均消費支出E(Y|Xi),稱為系統(tǒng)性(systematic)或確定性(deterministic)部分;⑵其他稱為隨機或非確定性(nonsystematic)部分i?!鹕鲜接址Q為總體回歸函數(shù)(PRF)的隨機設(shè)定形式。表明被解釋變量除了受解釋變量的系統(tǒng)性影響外,還受其他因素的隨機性影響,就成為這些隨機影響因素的綜合代表。由于方程中引入了隨機項,成為計量經(jīng)濟學(xué)模型,因此也稱其為總體回歸模型。隨機擾動項i=Yi-E(Yi)○不難證明,對應(yīng)于Xi值的條件下,Yi的期望值即:E(Yi)。那么Yi的期望值E(Yi)的軌跡就稱作總體回歸直線,相應(yīng)的方程:E(Yi)=0+1Xi就是總體回歸方程,0,1稱作總體回歸方程的參數(shù)。291、案例分析案例2.1.3:能從一次抽樣中獲得總體的近似的信息嗎?如果可以,如何從抽樣中獲得總體的近似信息?在案例2.1.2的總體中有如下一個樣本,能否從該樣本估計總體回歸函數(shù)PRF?回答:能表2.1.3家庭消費支出與可支配收入的一個隨機樣本○畫一條直線以盡好地擬合該散點圖,由于樣本取自總體,可以該直線近似地代表總體回歸線。該直線稱為樣本回歸線(sampleregressionlines)。

X

800

1100

1400

1700

2000

2300

2600

2900

3200

3500

Y

594

638

1122

1155

1408

1595

1969

2078

2585

2530

302、樣本回歸函數(shù)(SRF)○該樣本的散點圖(scatterdiagram):○記樣本回歸線的函數(shù)形式為:○稱為樣本回歸函數(shù)(sampleregressionfunction,SRF)31注意:這里將樣本回歸線看成是總體回歸線的近似替代323、樣本回歸模型同樣地,樣本回歸函數(shù)也有如下的隨機形式:其中:Yi為真實的樣本觀測值;殘差ei=Yi-?i是隨機擾動項i的估計值,代表了其他影響因素的集合。由于方程中引入了隨機項,成為計量經(jīng)濟模型,因此也稱為樣本回歸模型(sampleregressionmodel)。334、回歸分析的主要目的▼回歸分析的主要目的:就是要采用有效的估計方法,根據(jù)樣本回歸函數(shù)SRF,估計總體回歸函數(shù)PRF。使估計得到的樣本回歸方程盡可能接近真實的總體回歸方程。根據(jù)SRF:估計PRF:有關(guān)關(guān)系如圖。345、一元線性回歸方程和回歸模型小結(jié)一元線性理論方程:Yi=0+1Xi一元線性總體回歸方程:E(Yi)=0+1Xi一元線性總體回歸模型:Yi=0+1Xi+i一元線性樣本回歸方程:一元線性樣本回歸模型:抽樣誤差:?i-E(Yi)=i–ei§2.2一元線性回歸模型的參數(shù)估計一、一元線性回歸模型的基本假設(shè)二、參數(shù)的普通最小二乘估計(OLS)三、參數(shù)估計的最大或然法(ML)四、最小二乘估計量的性質(zhì)五、參數(shù)估計量的概率分布及隨機干擾項方差的估計36說明單方程計量經(jīng)濟學(xué)模型分為:線性模型和非線性模型線性模型中,變量之間的關(guān)系呈線性關(guān)系非線性模型中,變量之間的關(guān)系呈非線性關(guān)系一元線性回歸模型是最簡單的模型:只有一個解釋變量Yi=

0+1Xi+

i

i=1,2,…,n其中:Y為被解釋變量,X為解釋變量,0與1為待估參數(shù),為隨機干擾項回歸分析的主要目的是要通過樣本回歸函數(shù)(模型)SRF盡可能準確地估計總體回歸函數(shù)(模型)PRF。估計方法有多種,其中最廣泛使用的是普通最小二乘法(ordinaryleastsquares,OLS)。37一、線性回歸模型的基本假設(shè)○為保證參數(shù)估計量具有良好的性質(zhì),通常對模型提出若干基本假設(shè)。這些假設(shè)與所采用的估計方法緊密相關(guān),如果實際模型滿足這些基本假設(shè),普通最小二乘法(OLS)就是比較適用的估計方法,否則,OLS就不再適用,進而需要使用其他估計方法。因此,這里的基本假定并不是針對模型的,而是針對OLS的?!鹁€性回歸模型的基本假設(shè)主要有四條:△隨機假定△自變量假定△因變量假定△其他假定381、隨機假定○隨機假定:是關(guān)于i值分布的假定,i是一個隨機變量,不包含對Y的系統(tǒng)影響。⑴零期望值假定:E(i)=0,隨機擾動項i=Yi-E(Yi),就樣本總體而言,i的平均擾動程度為零,也就是說i的隨機擾動相互抵消;⑵同方差假定:Var(i)=E[i-E(i)]2=E(i2)=σ2,即對于X的任何值,i

的波動是一樣;⑶正態(tài)性假定:i~N(0,σ2),對于任一Xi,i

是一個關(guān)于他們的零均值對稱的正態(tài)分布;⑷無自相關(guān)假定:Cov(i,j)=E{[i-E(i)][j-E(j)]}

=E(i·j)=E(i)E(j)=0,i≠j。對于不同觀測值的i

與j

完全相互獨立,互不相關(guān)、互不干擾。392、自變量假定○自變量假定:是關(guān)于Xi的假定,Xi在回歸分析中是固定取值的確定性變量,即非隨機變量。⑴Xi與i互不相關(guān)假定:即Xi與i

是相互獨立地影響Yi的;

Cov(Xi,i)=E{[Xi-E(Xi)][i-E(i)]}=0·0=0。⑵Xi是確定性變量假定:即Xi作為解釋變量,沒有測量、統(tǒng)計等誤差;⑶解釋變量無自相關(guān)性假定:解釋變量的各個觀測值不能近似相同,或與常量之間不存在某種線性關(guān)系,各個解釋變量之間也不存在線性相關(guān)。⑷隨著樣本容量的無限增加,解釋變量X的樣本方差趨于一有限常數(shù)。即:該假設(shè)旨在排除時間序列數(shù)據(jù)出現(xiàn)持續(xù)上升或下降的變量作為解釋變量,因為這類數(shù)據(jù)不僅使大樣本統(tǒng)計推斷變得無效,而且往往產(chǎn)生所謂的偽回歸問題(spuriousregressionproblem)。403、因變量假定○因變量假定:是關(guān)于Yi的假定,Yi在分析中是一個隨機變量。⑴同方差假定:Var(Yi)=E[Yi-E(Yi)]2=E(i2)=σ2

;⑵無自相關(guān)假定:Cov(Yi,Yj)=E{[Yi-E(Yi)][Yj-E(Yj)]}=E(i·j)=E(i)·E(j)=0,i≠j。對于不同觀測值的Yi與Yj完全相互獨立,互不相關(guān)、互不干擾;⑶Yi的分布假定:Yi

~(0+1Xi,σ2),Yi是一個關(guān)于他們的均值對稱的分布。▼以上假設(shè)也稱為線性回歸模型的經(jīng)典假設(shè)或高斯(Gauss)假設(shè),滿足經(jīng)典假設(shè)的線性回歸模型,也稱為經(jīng)典線性回歸模型(ClassicalLinearRegressionModel,CLRM)。414、其他假定○其他假定:是關(guān)于方程形式的假定。⑴綜合變量應(yīng)能夠正確歸并,即Xi與Yi分別表示各自的項目之和變量;⑵所關(guān)心的方程已經(jīng)被識別,即假定要估計其系數(shù)的關(guān)系式具有唯一(不同其他)的數(shù)學(xué)形式;⑶關(guān)系式的確定是正確的,即模型沒有設(shè)定偏誤。假定在確定解釋變量的過程中,沒有出現(xiàn)任何誤差,即已經(jīng)把所有重要的回歸自變量明確地包括在模型中了,其數(shù)學(xué)形式也是正確的。42二、參數(shù)的普通最小二乘估計(OLS)○最佳原則:對于樣本回歸直線的確定,是以能夠最好的擬合觀測值為準則的。這個準則要求:選擇最佳的參數(shù),使全部觀測值的殘差平方和達到最小,即:∑ei2=>Min

。△普通最小二乘法△幾種離差變換形式

431、普通最小二乘法○給定一組樣本觀測值(Xi,Yi)(i=1,2,…n),要求樣本回歸函數(shù)盡可能好地擬合這組值?!鹌胀ㄗ钚《朔ǎ∣rdinaryleastsquares,OLS)給出的判斷標準是:使二者之差(殘差)的平方和最小?!芿i2=○由于是已知的觀測值,那么根據(jù)極值的性質(zhì),應(yīng)有兩個關(guān)于未知參數(shù)的一階條件,從而使:∑ei2=>Min

。44方程組(*)稱為正規(guī)方程組(normalequations)。

45記上述參數(shù)估計量可以寫成:

○稱為OLS估計量的離差形式(deviationform)?!鹩捎趨?shù)的估計結(jié)果是通過最小二乘法得到的,故稱其為普通最小二乘估計量(ordinaryleastsquaresestimators)。

462、幾種離差變換形式⑴總體回歸模型的離差形式:yi=1xi+i-ū

對總體回歸模型Yi=0+1Xi+i,兩端連加并同除n,得到:Y=0+1X+ū;兩式相減得到離差形式:yi=1xi+i-ū⑵樣本回歸直線的離差形式:對樣本回歸直線:,兩端連加并同除n,得到樣本均值回歸直線方程。兩式相減,并根據(jù)均值性質(zhì),得到樣本回歸直線的離差形式:⑶正規(guī)方程組的離差形式:∑eixi=0

根據(jù)已知一階條件:∑ei=0,∑eiXi=0,將xi=Xi-X代入第二式得到:∑eixi=0;○將樣本回歸模型的離差形式:+ei

代入∑eixi=0,即:∑(

)xi=0

即可以得到樣本回歸模型的參數(shù)估計值的表達式?!鹱⒁猓骸芛i=∑Y,∑Xi=∑X;∑xi=0,∑yi=0

iixy1?b=iixy1?b-47三、參數(shù)估計的最大或然法(ML)△基本原理△似(或)然函數(shù)△參數(shù)的最大或然估計量△案例分析481、基本原理○最大或(似)然法(MaximumLikelihood,簡稱ML),是從最大或然原理出發(fā)發(fā)展起來的其他估計方法的基礎(chǔ)。最大似然原理能更本質(zhì)地揭示通過樣本估計總體參數(shù)的內(nèi)在機理。○當(dāng)從模型總體中隨機抽取n組樣本觀測值后:對于最小二乘法,最合理的參數(shù)估計量應(yīng)該使得模型能夠最好地擬合樣本數(shù)據(jù);對于最大或然法,最合理的參數(shù)估計量應(yīng)該使得從模型中抽取該n組樣本觀測值的概率最大。○從總體中經(jīng)過n次隨機取樣,抽到樣本容量為n的樣本觀測值,在任一次隨機抽取中,樣本觀測值都以一定的概率出現(xiàn),如果已經(jīng)知道總體的參數(shù),則由變量的頻率函數(shù)可以計算其概率?!饦颖居^測值已知,如何確定哪個總體最可能產(chǎn)生已經(jīng)得到的樣本觀測值?顯然:對每個可能的正態(tài)總體,估計其取得樣本觀測值的聯(lián)合概率,然后選擇其參數(shù)使樣本觀測值的聯(lián)合概率最大的那個總體?!饘颖居^測值的聯(lián)合概率函數(shù)稱為變量的似然函數(shù)。通過似然函數(shù)極大化求得總體參數(shù)估計量的方法稱為極大似然法。492、似(或)然函數(shù)滿足基本假設(shè)條件下,對一元線性回歸模型:隨機抽取n組樣本觀測值(Xi,Yi)(i=1,2,…n)。假如模型的參數(shù)估計量已經(jīng)求得,為:那么Yi服從如下的正態(tài)分布:○于是,Yi的概率函數(shù)為:○因為Yi是相互獨立的,所以Y的所有樣本觀測值的聯(lián)合概率,也即或然函數(shù)(likelihoodfunction)為:將該或然函數(shù)極大化,即可求得到模型參數(shù)的極大或然估計量。503、參數(shù)的最大或然估計量由于或然函數(shù)的極大化與或然函數(shù)的對數(shù)的極大化是等價的,所以,取對數(shù)或然函數(shù)如下:其極值的一階條件為:○對模型的參數(shù)估計量求解:○可見,在滿足一系列基本假設(shè)的情況下,模型結(jié)構(gòu)參數(shù)的最大或然估計量與普通最小二乘估計量是相同的。514、案例分析案例2.2.1:上述家庭可支配收入-消費支出例中,對于所抽出的一組樣本數(shù),參數(shù)估計的計算可通過下表進行。表2.2.1

參數(shù)估計的計算表

iX

iY

ix

iy

iiyx

2ix

2iy

2iX

2iY

1

800

594

-1350

-973

947508

640000

352836

2

1100

638

-1050

-929

975870

863784

407044

3

1400

1122

-750

-445

334050

562500

198381

4

1700

1155

-450

-412

185580

202500

170074

5

2000

1408

-150

-159

23910

22500

25408

6

2300

1595

150

28

4140

22500

762

7

2600

1969

450

402

180720

202500

161283

8

2900

2078

750

511

382950

562500

260712

9

3200

2585

1050

1018

10

3500

2530

1350

963

926599

求和

21500

15674

平均

2150

1567

52因此,由該樣本估計的回歸方程為:

53四、最小二乘估計量的性質(zhì)○當(dāng)模型參數(shù)估計出后,需考慮參數(shù)估計值的精度,即是否能代表總體參數(shù)的真值,或者說需考察參數(shù)估計量的統(tǒng)計性質(zhì)?!鸶咚埂R爾可夫定理(Gauss-Markovtheorem):在給定經(jīng)典線性回歸的假定下,最小二乘估計量是具有最小方差的線性無偏估計量?!髯钚《斯烙嬃康男再|(zhì)△線性特性△無偏特性△最小方差特性541、最小二乘估計量的性質(zhì)○考察總體的估計量,可從如下幾個方面考察其優(yōu)劣性:⑴線性性,即是否是另一隨機變量的線性函數(shù);⑵無偏性,即其均值或期望值是否等于總體的真實值;⑶有效性,即是否在所有線性無偏估計量中具有最小方差?!疬@三個準則也稱作估計量的小樣本性質(zhì)。擁有這類性質(zhì)的估計量稱為最佳線性無偏估計量(bestlinerunbiasedestimator,BLUE)。○當(dāng)不滿足小樣本性質(zhì)時,需進一步考察估計量的大樣本或漸近性質(zhì),即樣本容量趨于無窮大時:⑷漸近無偏性,是否它的均值序列趨于總體真值;⑸一致性,它是否依概率收斂于總體的真值;⑹漸近有效性,是否它在所有的一致估計量中具有最小的漸近方差。552、線性特性:參數(shù)估計值的線性特性是指參數(shù)估計值的

表達式均為樣本觀測值Yi的線性函數(shù)式。

○ki和wi均是非隨機變量,是由離差xi的非隨機特性決定的;○ki的幾個性質(zhì)①∑ki=∑(xi/∑xi2)=∑xi/∑xi2=0;②∑kiXi=∑(xiXi/∑xi2)

=∑xi2/∑xi2=1③∑kixi=∑(xixi/∑xi2)=∑xi2

/∑xi2=1④∑ki2

=1/∑xi2○wi的幾個性質(zhì)①∑wi=∑[1/n-kiX]=∑1/n-∑kiX

=1;②∑wiXi=∑[1/n-kiX]Xi

=∑Xi/n-∑kiXXi=0;③∑wixi=∑[1/n-kiX]xi

=∑xi

/n-∑kiXxi=-X563、參數(shù)估計值的無偏特性⑴證明:E(a1)=a1將Yi=a0+a1Xi+i代入表達式:a1=∑kiYi,得:a1=∑ki(a0+a1Xi+i)將上式展開得到:a1=a1+∑ki

i

,則:E(a1)=a1+∑ki

E(i)=a1如果基本假定中的E(i)≠0,則估計值就是有偏的。⑵證明:E(a0)=a0將Yi=a0+a1Xi+i代入表達式:a0

=∑wiYi,得:a0=∑wi(a0+a1Xi+i)將上式展開得到:a0=a0+∑wii

,則:E(a0)=a0+∑wiE(i)=a0如果基本假定中的E(i)≠0,則估計值就是有偏的?!饏?shù)估計值的無偏特性是指參數(shù)估計值的期望值等于總體回歸參數(shù)的值。574、參數(shù)估計值的最小方差特性○參數(shù)估計值的最小方差特性是指在所有的線性無偏參數(shù)估計值中,普通最小二乘法的參數(shù)估計量具有最小的方差特性,即其波動最小、最穩(wěn)定。58(2)證明:普通最小二乘法的參數(shù)估計量a1具有最小的方差特性,即:Var(a1)=σ2/∑xi2=>Min○假設(shè)a′1是用其他方法估計的關(guān)于a1的線性無偏估計量,即:a′1=∑CiYi,E(a′1)=a1其中Ci=ki+di

,di是不全為零的常數(shù),據(jù)線性無偏性有:E(a′1)=E∑Ci(a0+a1Xi+i)=a0∑Ci+a1∑CiXi+∑CiE(i)=a0∑Ci+a1∑CiXi=a1因此得到:a0∑Ci=0,∑CiXi=1,由:a0∑Ci=0,得到:∑(ki+di)=0,即:∑di=0由:∑CiXi=1,得到:∑(ki+di)Xi=1即:∑diXi=0,那么:Var(a′1)=Var(∑CiYi)=∑Ci2Var(Yi)=∑Ci2σ2=σ2∑(ki+di)2展開∑(ki+di)2得到:∑(ki+di)2=∑ki2+∑di2+2∑kidi而∑kidi=∑xi/∑xi2di=∑(Xi-X)di/∑xi2=(∑Xidi-∑Xdi)/∑xi2=0,所以∑(ki+di)2=∑ki2+∑di2>∑Ki2,即:Var(a′1)>Var(a1)這就是著名的高斯—馬爾可夫定理。59

由于最小二乘估計量擁有一個“好”的估計量所應(yīng)具備的小樣本特性,它自然也擁有大樣本特性。

60五、參數(shù)估計量的概率分布及隨機干擾項方差的估計△參數(shù)估計量的概率分布△隨機誤差項的方差2的估計611、參數(shù)估計量的概率分布622、隨機誤差項的方差2的估計○2又稱為總體方差。○由于隨機項i不可觀測,只能從i的估計——殘差ei出發(fā),對總體方差進行估計?!鹂梢宰C明,2的最小二乘估計量是關(guān)于2的無偏估計量。即:63在最大或然估計法中,因此,2的最大或然估計量不具無偏性,但卻具有一致性。

§2.3一元線性回歸模型的統(tǒng)計檢驗

一、擬合優(yōu)度檢驗

二、變量的顯著性檢驗

三、參數(shù)的置信區(qū)間

65說明回歸分析是要通過樣本所估計的參數(shù)來代替總體的真實參數(shù),或者說是用樣本回歸線代替總體回歸線。盡管從統(tǒng)計性質(zhì)上已知,如果有足夠多的重復(fù)抽樣,參數(shù)的估計值的期望(均值)就等于其總體的參數(shù)真值,但在一次抽樣中,估計值不一定就等于該真實值。那么,在一次抽樣中,參數(shù)的估計值與真值的差異有多大,是否顯著,這就需要進一步進行統(tǒng)計檢驗。統(tǒng)計檢驗主要包括:擬合優(yōu)度檢驗、變量的顯著性檢驗及參數(shù)的置信區(qū)間估計。66一、擬合優(yōu)度檢驗○擬合優(yōu)度檢驗:對樣本回歸直線與樣本觀測值之間擬合程度的檢驗。度量擬合程度的指標:判定系數(shù)(又稱可決系數(shù))R2問題:采用普通最小二乘估計方法,已經(jīng)保證了模型最好地擬合了樣本觀測值,為什么還要檢驗擬合程度?問題在于,在一個特定的條件下,做的最好的并一定就是質(zhì)量最高的。所保證的最好擬合,最小二乘估計方法是同一問題內(nèi)部的比較,擬合優(yōu)度檢驗結(jié)果所表示的是不同問題間的比較。(不同模型、變量)

△總離差平方和的分解△可決系數(shù)(擬合優(yōu)度系數(shù))671、總離差平方和的分解⑴總離差的分解:已知由一組樣本觀測值(Xi,Yi),i=1,2…,n得到如下樣本回歸直線:68⑵總離差平方和的分解:對于所有樣本點,則需考慮這些點與樣本均值離差的平方和,可以證明:如果Yi=?i

,即實際觀測值落在樣本回歸“線”上,則擬合最好,可認為“離差”全部來自回歸線,而與“殘差”無關(guān)。其中:∑Xi

ei=0則有:∑?i

ei=0,∑(?i

-Y)ei=0,69記:總體平方和(TotalSumofSquares)

回歸平方和(ExplainedSumofSquares)

殘差平方和(ResidualSumofSquares

)○TSS=ESS+RSS○Y的觀測值圍繞其均值的總離差(totalvariation)可分解為兩部分:一部分來自回歸線(ESS),另一部分則來自隨機勢力(RSS)。在給定樣本中,總體平方和TSS不變,如果實際觀測點離樣本回歸線越近,則ESS在TSS中占的比重越大,因此定義:擬合優(yōu)度:回歸平方和ESS/Y的總離差平方和TSS702、可決系數(shù)R2○稱R2

為(樣本)可決系數(shù)/判定系數(shù)(coefficientofdetermination)。○可決系數(shù)的取值范圍:[0,1]。R2越接近1,說明實際觀測點離樣本線越近,擬合優(yōu)度越高?!鹱⒁猓嚎蓻Q系數(shù)是一個非負的統(tǒng)計量。它也是隨著抽樣的不同而不同。為此,對可決系數(shù)的統(tǒng)計可靠性也應(yīng)進行檢驗,這將在第3章中進行。在例2.1.1的收入-消費支出例中,71二、變量的顯著性檢驗○回歸分析是要判斷解釋變量X是否是被解釋變量Y的一個顯著性的影響因素。在一元線性模型中,就是要判斷X是否對Y具有顯著的線性影響。這就需要進行變量的顯著性檢驗。○變量的顯著性檢驗所應(yīng)用的方法是數(shù)理統(tǒng)計學(xué)中的假設(shè)檢驗。在計量經(jīng)濟學(xué)中,主要是針對變量的參數(shù)真值是否為零來進行顯著性檢驗的。

△假設(shè)檢驗△變量的顯著性檢驗△案例分析721、假設(shè)檢驗○假設(shè)檢驗是統(tǒng)計推斷的一個主要內(nèi)容,其基本任務(wù)是根據(jù)樣本所提供的信息,對未知總體分布的某些假設(shè)作出合理的判斷?!鹚^假設(shè)檢驗,就是事先對總體參數(shù)或總體分布形式作出一個原假設(shè)(記為H0),然后利用樣本信息來判斷原假設(shè)是否合理,即判斷樣本信息與原假設(shè)是否顯著差異,從而決定是否接受或否定原假設(shè)?!鸺僭O(shè)檢驗采用的邏輯推理方法是反證法。先假定原假設(shè)H0正確,然后根據(jù)樣本信息觀察由此假設(shè)而導(dǎo)致的結(jié)果是否合理,從而判斷是否接受原假設(shè)○反證法的判斷結(jié)果合理與否,是基于“小概率事件不易發(fā)生”這一原理的。在原假設(shè)下構(gòu)造一個小概率事件,隨機抽樣容量為n的樣本進行該事件的試驗,如果該事件發(fā)生了,說明原假設(shè)是錯誤的,因為不該出現(xiàn)的小概率事件發(fā)生了,因而應(yīng)拒絕原假設(shè)的正確性。反之,則接受假設(shè)的正確性。732、變量的顯著性檢驗○構(gòu)造t統(tǒng)計量:○檢驗步驟(針對X的顯著性進行檢驗):⑴對總體參數(shù)提出原假設(shè)H0:1=0,備擇假設(shè)H1:10;⑵以原假設(shè)H0構(gòu)造t統(tǒng)計量,并由樣本計算其實值;⑶給定顯著性水平,查t分布表得臨界值t/2(n-2);⑷比較,并判斷:若|t|>t/2(n-2),則拒絕H0接受H1

,X與Y顯著相關(guān);若|t|t/2(n-2),則拒絕H1接受H0

,X與Y不顯著相關(guān);○對于一元線性回歸方程中的0,可以此方法構(gòu)造其t統(tǒng)計量進行顯著性檢驗。743、案例分析○案例2.3.1:在上述案例的家庭收入—消費支出中,首先計算2的估計值,○

t統(tǒng)計量的計算結(jié)果分別為:

給定顯著性水平=0.05,查t分布表臨界值:t0.05/2(8)=2.306○|t1|>2.306,說明家庭可支配收入在95%的置信度下顯著,即是消費支出的主要解釋變量;○

|t0|<2.306,表明在95%的置信度下,無法拒絕截距項為零的假設(shè)。75三、參數(shù)的置信區(qū)間△置信區(qū)間估計△一元線性模型中i(i=0,1)的置信區(qū)間△如何縮小置信區(qū)間761、置信區(qū)間估計○假設(shè)檢驗:可以通過一次抽樣的結(jié)果檢驗總體參數(shù)可能的假設(shè)值的范圍(如是否為零),但它并沒有指出在一次抽樣中樣本參數(shù)值到底離總體參數(shù)的真值有多“近”。要判斷樣本參數(shù)的估計值在多大程度上可以“近似”地替代總體參數(shù)的真值,往往需要通過構(gòu)造一個以樣本參數(shù)的估計值為中心的“區(qū)間”,來考察它以多大的可能性(概率)包含著真實的參數(shù)值。這種方法就是參數(shù)檢驗的置信區(qū)間估計?!鹑绻嬖谶@樣一個區(qū)間,稱之為置信區(qū)間(confidenceinterval);1-稱為置信系數(shù)(置信度)(confidencecoefficient),稱為顯著性水平(levelofsignificance);置信區(qū)間的端點稱為置信限(confidencelimit)或臨界值(criticalvalues)。772、一元線性模型中i(i=0,1)的置信區(qū)間○在變量的顯著性檢驗中已經(jīng)知道:○也就是意味著,如果給定置信度(1-),從分布表中查得自由度為(n-2)的臨界值,那么t值處在(-t/2,t/2)的概率是(1-)。表示為:即于是得到:(1-)的置信度下,i的置信區(qū)間是在上述收入-消費支出例中,如果給定

=0.01,查表得:因為已知:○于是,1、0的置信區(qū)間分別為:

1∈(0.6345,0.9195),0∈(-433.32,226.98)783、如何縮小置信區(qū)間○由于置信區(qū)間一定程度地給出了樣本參數(shù)估計值與總體參數(shù)真值的“接近”程度,因此置信區(qū)間越小越好?!鹨s小置信區(qū)間,一般需要采取以下措施:⑴增大樣本容量n。因為在同樣的置信水平下,n越大,t分布表中的臨界值越??;同時,增大樣本容量,還可使樣本參數(shù)估計量的標準差減??;⑵提高模型的擬合優(yōu)度。因為樣本參數(shù)估計量的標準差與殘差平方和呈正比,模型擬合優(yōu)度越高,殘差平方和應(yīng)越小?!鹉P蛥?shù)一般具有特定的經(jīng)濟意義,如案例中1的估計值為0.777,能否說邊際消費傾向為0.777呢?不能,我們只能說:邊際消費傾向以0.99的置信水平,處于以0.777為中心的區(qū)間(0.6345,0.9195)中。79§2.4一元線性回歸分析的應(yīng)用:預(yù)測問題

一、?0的無偏估計值二、總體條件均值與個值預(yù)測值的置信區(qū)間80說明對于一元線性回歸方程:給定樣本以外的解釋變量的觀測值X0,可以得到被解釋變量的預(yù)測值?0

,可以此作為其條件均值E(Y|X=X0)或個別值Y0的一個近似估計。嚴格地說,這只是被解釋變量的預(yù)測值的估計值,而不是預(yù)測值。原因是:

(1)參數(shù)估計量是不確定的;(2)存在隨機項的影響所以我們得到僅是預(yù)測值的一個估計值,預(yù)測值僅以某一個置信度處于以該估計值為中心的一個區(qū)間內(nèi),預(yù)測在更大程度上說是一個區(qū)間估計問題81一、?0的無偏估計值△?0是條件均值E(Y|X=X0)的一個無偏估計△?0是個值Y0的一個無偏估計

821、?0是條件均值E(Y|X=X0)的無偏估計○對于總體回歸函數(shù)E(Y|X)=0+1X,當(dāng)X=X0時,有:E(Y|X=X0)=0+1X0

于是有:○可見,?0是條件均值E(Y|X=X0)的無偏估計。832、?0是個值Y0的一個無偏估計○對總體回歸模型Y=0+1X+,當(dāng)X=X0時,于是有:○可見,?0也是個值Y0的一個無偏估計。84二、總體條件均值與個值預(yù)測值的置信區(qū)間△總體均值預(yù)測值的置信區(qū)間△總體個值預(yù)測值的置信區(qū)間△案例分析△小結(jié)851、總體均值預(yù)測值的置信區(qū)間由于已知:于是有:可以證明:因此有:故有:86○于是,在1-的置信度下,總體均值E(Y|X0)的置信區(qū)間為:其中872、總體個值預(yù)測值的置信區(qū)間由Y0=0+1X0+

知:于是有:式中:○從而在1-的置信度下,Y0的置信區(qū)間為:883、案例分析○在上述收入—消費支出案例中,得到的樣本回歸函數(shù)為:○則在X0=1000處,有:?0=–103.172+0.777×1000=673.84○而○因此,總體均值E(Y|X=1000)的95%的置信區(qū)間為:

673.84-2.30661.05<E(Y|X=1000)<673.84+2.30661.05

或者是:(533.05,814.62)○同樣地,對于Y在X=1000的個體值,其95%的置信區(qū)間為:

673.84-2.306130.88<Yx=1000<673.84+2.306130.88

或者是:(372.03,975.65)894、小結(jié)○對于Y的總體均值E(Y|X)與個值的預(yù)測區(qū)間(置信區(qū)間):⑴樣本容量n越大,預(yù)測精度越高,反之預(yù)測精度越低;⑵樣本容量一定時,置信帶的寬度當(dāng)在X均值處最小,其附近進行預(yù)測(插值預(yù)測)精度越大;X越遠離其均值,置信帶越寬,預(yù)測可信度下降。⑶總體回歸函數(shù)的置信帶(域)和個體的置信帶(域)

90§2.5實例:時間序列問題

一、中國居民人均消費模型

二、時間序列問題三、線性回歸模型評價91一、中國居民人均消費模型△案例分析△建立模型△模型統(tǒng)計檢驗△預(yù)測分析921、案例分析○案例2.5.1:考察中國居民收入與消費支出的關(guān)系。GDPP:人均國內(nèi)生產(chǎn)總值(1990年不變價)CONSP:人均居民消費(以居民消費價格指數(shù)(1990=100)縮減)。

表2.5.1

中國居民人均消費支出與人均GDP/人(元)

年份

人均居民消費

CONSP

人均GDP

GDPP

年份

人均居民消費

CONSP

人均GDP

GDPP

1978

395.8

675.1

1990

797.1

1602.3

1979

437.0

716.9

1991

861.4

1727.2

1980

464.1

763.7

1992

966.6

1949.8

1981

501.9

792.4

1993

1048.6

2187.9

1982

533.5

851.1

1994

1108.7

2436.1

1983

572.8

931.4

1995

1213.1

2663.7

1984

635.6

1059.2

1996

1322.8

2889.1

1985

716.0

1185.2

1997

1380.9

3111.9

1986

746.5

1269.6

1998

1460.6

3323.1

1987

788.3

1393.6

1999

1564.4

3529.3

1988

836.4

1527.0

2000

1690.8

3789.7

1989

779.7

1565.9

932、建立模型○該兩組數(shù)據(jù)是1978—2000年的時間序列數(shù)據(jù)(timeseriesdata)○前例中的收入—消費數(shù)據(jù)是截面數(shù)據(jù)(cross-sectionaldata)?!饘Π咐龜M建立一元回歸模型:○采用Eviews軟件進行回歸分析的結(jié)果見下表2.5.2;○一般可寫出如下回歸分析結(jié)果:

(13.51)(53.47)SMPL:1978-2000R2=0.9927F=2859.23D.W=0.550394

表2.5.2中國居民人均消費支出對人均GDP的回歸(1978~2000)

LS//DependentVariableis

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論