回歸分析原理_第1頁
回歸分析原理_第2頁
回歸分析原理_第3頁
回歸分析原理_第4頁
回歸分析原理_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第三章 回歸分析原理 3·1、一元線性回歸數(shù)學模型按理說,在研究某一經(jīng)濟現(xiàn)象時,應該盡量考慮到與其有關(guān)各種有影響的因素或變量。但作為理論的科學研究來說,創(chuàng)造性地簡化是其的基本要求,從西方經(jīng)濟學的基本理論中,我們可以看到在一般的理論分析中,至多只包含二、三個 變量的數(shù)量關(guān)系的分析或模型。這里所討論的一元線性回歸數(shù)學模型,是數(shù)學模型的最簡單形式。當然要注意的是,這里模型討論是在真正回歸意義上來進行的,也可稱之為概率意義上的線性模型。在非確定性意義上,或概率意義上討論問題,首先要注意一個最基本的概念或思路問題,這就是總體和樣本的概念。我們的信念是任何事物在總體上總是存在客觀規(guī)律的,雖然我們

2、無論如何也不可能觀察或得到總體,嚴格說來,總體是無限的。而另一方面,我們只可能觀察或得到的是樣本,顯然樣本肯定是總體的一部分,但又是有限的。實際上概率論和數(shù)理統(tǒng)計的基本思想和目的,就是希望通過樣本所反映出來的信息來揭示總體的規(guī)律性,這種想法或思路顯然存在重大的問題。但另一方面,我們也必須承認,為了尋找總體的規(guī)律或客觀規(guī)律,只能通過樣本來進行,因為我們只可能得到樣本。在前面我們已經(jīng)知道,用回歸的方法和思路處理非確定性問題或散點圖,實際上存在一些問題,亦即只有在某些情況下,回歸的方法才是有效的。因此,在建立真正回歸意義上建立其有效方法時,必須作出相應的假設(shè)條件。l 基本假設(shè)條件:(1)假設(shè)概率函數(shù)

3、或隨機變量的分布對于所有值,具有相同的方差 ,且 是一個常數(shù),亦即=。(2)假設(shè)的期望值位于同一條直線上,即其回歸直線為 = 等價于 這個假設(shè)是最核心的假設(shè),它實際上表明與之間是確定性的關(guān)系。(3)假設(shè)隨機變量是完全獨立的,亦即3·2、隨機項或誤差項的含義 一元線性回歸模型的一般形式為 是一隨機項或誤差項,它的存在表明對的影響是隨機的,非確定性的。所以,對于每一個值來說,是一個概率分布,而不是一個值或幾個值。正是由于的出現(xiàn),使我們的方法或思路發(fā)生巨大的變化,這是我們必須充分注意的。l 那么,究竟包含了什么意義或內(nèi)容呢?概括地說來主要有:(1) 模型中被忽視了的影響因素;(2) 變量的

4、測量誤差,這種誤差主要來自統(tǒng)計數(shù)據(jù)本身的誤差;(3) 隨機誤差。社會經(jīng)濟現(xiàn)象中涉及到人的主觀因素和行為,還有歷史的、文化的等因素,這些因素一般來說是難以量化的、多變的;(4) 模型的數(shù)量關(guān)系誤差。即數(shù)學形式所帶來的誤差。一般來說,模型中的常數(shù)項也可以包含某些較為固定的誤差。但是值得指出的是,如果能夠包含上述所有的內(nèi)容,那它的分布及其性質(zhì)將是十分復雜的,任意的。前面的假設(shè)條件的核心正是限制了的分布形式,因此,實際上并不能包含如此多的內(nèi)容或負擔。另外,上面4個方面中,我們最主要的是要第4個問題,這也正是經(jīng)濟學研究所要真正解決的問題。一般來說,所有的經(jīng)濟數(shù)學模型的誤差也就是這4個方面,或者說是存在的

5、主要問題,對此我們必須要有清醒和深入的認識。 3·3、一元線性回歸模型的參數(shù)估計我們已知道,總體意義上真正的回歸模型是未知的,我們的任務(wù)是如何通過樣本觀察值給出總體真正回歸模型的最好估計。我們必須理解和認識總體回歸模型和樣本回歸模型的區(qū)別和關(guān)系,必須反反復復地去認識、體會。假設(shè)總體真正的回歸直線是 它是由總體回歸模型 顯然,上面的模型是想象的、理論上的,實際上是找不到的,它們實際上就是所謂客觀規(guī)律。而樣本的回歸直線為 它是來自于樣本的回歸模型 注意總體和樣本模型的區(qū)別和聯(lián)系,無限和有限,相同和不同等。下面我們同樣根據(jù)最小二乘準則,建立真正回歸意義上的最小二乘法:對樣本模型 假設(shè)其估計

6、的回歸模型為 因此,其殘差則為 所以,其殘差平方和為 根據(jù)前面的結(jié)果,我們有 其中 到此樣本回歸模型的參數(shù)就估計出來了。對于這個結(jié)果需要注意的是,這里的 , 都是的函數(shù),而是隨機變量,因此,從理論上說,隨機變量,而不是一個或幾個固定的值,是一個概率分布。正因為如此,回歸的結(jié)果實際上也不是確定的,而是概率意義上的。接著我們關(guān)心的是,這個估計結(jié)果怎么樣?是否可用樣本回歸模型來推斷或替代總體回歸模型呢?因此,我們必須進一步討論,的性質(zhì),亦即討論樣本回歸模型的性質(zhì)。 34、估計值的性質(zhì)(1) 估計值的線性性質(zhì)。所謂線性性是指估計值,是觀測值的線性函數(shù)。證明: 而 其中同理可證:= 其中 所以,是線性函

7、數(shù)(應注意線性性的意義和作用)。(2) 估計值的無偏性。所謂無偏性是指估計值,的期望值等于總體回歸模型參數(shù),的值。亦即 ,。證明:通過計算可知 , 其中所以有 同理可證 (3)有效性(或稱,具有最小方差性)。所謂有效性主要是指最小二乘估計,在所有線性無偏估計中,其方差是最小的。證明的基本思路是: ,證明(略)。上面三個性質(zhì)是最小二乘估計的主要性質(zhì),理論上說已達到最好的結(jié)果了。因此,滿足這三條的估計也稱作最優(yōu)線性無偏估計。值得注意的是,這里的最優(yōu)只是相對所有線性估計中而言的,而不包括非線性估計。也可以說在很多的情況下,肯定存在比最小二乘估計更好的估計值,這一點必須要認識清楚。還有一點,最小二乘估

8、計的性質(zhì)實際上與其假設(shè)條件是密切相關(guān)的,沒有這樣假設(shè)就沒有這樣的性質(zhì),因此,我們還要看看其假設(shè)條件到底是什么意思,要進一步去認識假設(shè)條件。 3·5、最小二乘估計,的顯著性檢驗與置信區(qū)間所謂顯著性檢驗實際上就是對檢驗估計值與總體參數(shù)值差別大小的方法。也就是數(shù)理統(tǒng)計中的“假設(shè)檢驗”的方法一種實際應用。這里再一次指出,參數(shù)估計之所以要進行檢驗,是因為這里的,是隨機變量。根據(jù)“假設(shè)檢驗”的要求,我們要想辦法求出,的概率分布函數(shù),又由于它們是的線性函數(shù),則首先要知道的分布。因此,我們只能假設(shè)服從正態(tài)分布(根據(jù)大數(shù)定理和中心極限定理,在大樣本情況下并不失一般性)。假設(shè)服從正態(tài)分布,又因,是的線性

9、函數(shù),所以,也是服從正態(tài)分布的。只要計算出,的方差,我們就可得到 在上面的分布函數(shù)中,除了, 不可能知道外,我們必須解決未知數(shù)估計值,才可能繼續(xù)進行顯著性檢驗。1、 建立隨機變量方差的估計值采用一定的辦法是可以解決估計值的,下面給出其推理過程,并證明其估計值是一個無偏估計。設(shè): 所以 而 (1) 又(2) 代入 則有 由此我們就有 因此,進一步則有 下面我們分別計算上式右邊每一項的期望值: 其中 ( 注意其中 )因此,我們最終得到 如果我們定義 ,那么就是的無偏估計,亦即有 。 但是我們還不能證明 是最小方差估計,這是十分遺憾的。 2、 最小二乘估計值,的顯著性檢驗現(xiàn)在我們可以開始對,檢驗了。

10、我們應該認識到,通過樣本得到具體估計值, 只是一個值,或者說只是無窮個可能值中的一個,此時我們并不了解它們的精度和可靠性。因此,顯著性檢驗實際上是檢驗,與,之間的差距和可靠性。具體的檢驗方法就是“假設(shè)檢驗”的方法。我們從數(shù)理統(tǒng)計中知道,一般假設(shè)檢驗中用來進行檢驗的統(tǒng)計量(實際上就是一種隨機變量)主要有二個,即Z統(tǒng)計量和T統(tǒng)計量。(1)應用Z統(tǒng)計量的條件是:已知而無論樣本的大小,或者未知但樣本足夠的大(n至少大于30)。 已知 則我們有N(0 ,1) N(0 ,1)當然如果未知,但樣本數(shù)大于30,則在上式中用替代即可。(2)應用T統(tǒng)計量的條件:當方差未知,且樣本小于30時。已知 則我們有 = t

11、(n-k) =t(n-k)這里的n是樣本的個數(shù),k是模型中變量的個數(shù),n-k是自由度。到此假設(shè)檢驗的基本工作基本上做好了,需要指出的是,統(tǒng)計量的設(shè)計一方面是把特殊的分布函數(shù)轉(zhuǎn)化成標準的分布形式,另一方面把需要檢驗的對象同時也明確起來了。上面統(tǒng)計量分子正好反映了我們檢驗的意義。在“假設(shè)檢驗”的實際應用中,一個十分重要的問題是如何確定總體意義上的,的值。我們知道“總體”概念說到底只是一個設(shè)想,一個信念而已,我們不可能知道,的具體值,但我們又要依據(jù),具體值才能判斷或檢驗,是否是可接受的或誤差不大。這個問題或矛盾怎么解決呢?這實際上是一個深刻的方法論問題。簡單地說,我們只能用假設(shè)、或者具體地說是用理論

12、假說的數(shù)量結(jié)論來替代,的具體值,也就是“假設(shè)檢驗”方法中作出“零假設(shè)”的主要依據(jù);當然在把回歸模型作為預測用途時,也可以把其他主觀或經(jīng)驗的判斷作為“零假設(shè)”的依據(jù)。這樣我們就可看到,所謂“假設(shè)檢驗”中原來希望檢驗,與 ,之間差異的想法或思路,已經(jīng)轉(zhuǎn)變?yōu)闄z驗,是否與理論假說或其他主觀判斷和經(jīng)驗相符。這一轉(zhuǎn)變是深刻的和巨大的,這里,已變成了檢驗的標準,由被動變?yōu)橹鲃?,而理論假說或其他主觀判斷則變成了被檢驗對象。這一轉(zhuǎn)變所說明是問題是很多的、深刻的,應該好好認識和體會?!凹僭O(shè)檢驗”的具體過程(例子):略3、總體參數(shù),置信區(qū)間的估計通過“假設(shè)檢驗”方法或顯著性檢驗,雖然證實了估計值,的顯著性,但還沒有

13、說明它們就完全正確估計了真實總體參數(shù),至多只能說明,是它們的一種可能的值,其它更多的可能性顯然是存在的,或許其它的值更好或更合適,因為,只是來自一組樣本的估計結(jié)果。因此,為了確定,是怎樣接近真實總體的參數(shù),我們期望構(gòu)造一個區(qū)間來具體加以說明,亦即建立一個圍繞估計值,的一定限制范圍,來推斷總體參數(shù),在一定置信度下落在此區(qū)間。所謂置信(或稱置信水平)度實際上與顯著性的意義類似,只是數(shù)量的大小相反而已。例如,對于的T統(tǒng)計量,有 =t(n-k)先確定其置信度如95%和自由度(n-k),然后通過t分布表找出臨界值的值。則我們有 即 所以,置信度是95%的置信區(qū)間為 我們可以看出,置信區(qū)間的長度與置信度的

14、大小是密切相關(guān)的,其長度與置信度的大小是成正比的。這種關(guān)系也是值得思考的。3·6、預測值問題的分析 所謂預測問題就是對于已估計的計量經(jīng)濟學模型來說,相對于一給定的X值,例如,其預測值的性質(zhì)和效果如何?再來回顧一下我們建立回歸模型的過程及其性質(zhì)。根據(jù)最小二乘法我們從樣本模型 找到了它的回歸直線我們已對 ,作了檢驗并通過后,應該可以根據(jù)上式來進行預測了,亦即對于,可得到,亦即我們要具體考察性質(zhì),實際上主要是分析它的誤差性質(zhì),我們可以通過不同角度的分析來進行。我們可以從兩種角度來看待的誤差。一是把看成是總體回歸線(即)的估計值;二是把看成是(即)的估計值。下面來具體分析:(1)如果把看成是

15、總體回歸線即的近似值,則有什么樣的性質(zhì)呢。首先可以證明的是是的無偏估計?,F(xiàn)證明如下: 然后,我們來看看 方差的性質(zhì)和具體形式: (具體計算過程參看4344頁)從方差的計算結(jié)果可看出,如果離樣本觀測值的距離越大,則的方差也就越大。這實際上說明回歸的基本思想實際上是歸納的思路,亦即我們的不能脫離樣本或經(jīng)驗的范圍太遠,否則模型的預測值的方差將增大,預測將將變得更加不可靠。這個結(jié)果也許使我們對歸納法及思想的局限性或存在的問題有了一個數(shù)學上的解釋。同時這個結(jié)果也把回歸模型預測的類型分為兩類,第一類稱之為“內(nèi)插檢驗”亦即這時的必須在樣本所限定的區(qū)間內(nèi),言外之意是對經(jīng)驗之內(nèi)的情況,回歸模型的預測效果是比較可

16、靠的。第二類稱之為“外推預測”,這時的是在樣本區(qū)間的外面,這時的預測值的誤差方差顯然是較大的,亦即“外推預測”是十分不可靠的。(2)如果把看作真正總體或的預測估計值,其性質(zhì)和結(jié)果又會什么變化呢?這里要注意的是,這時不僅可能有抽樣誤差的存在,而且還可能由隨機項而引起隨機誤差的出現(xiàn),它們將使得不同于。下面我們來具體看看這種情況下的期望值和方差: 對于給定的,有 則 取其期望值,則有 這個結(jié)論是否與上面的情形是一樣的呢?是否能說是的無偏估計呢?看來是有問題的,其問題的關(guān)鍵是是什么?是一個隨機變量?還是一個確定的值?不同的理解就會有不同的結(jié)論。再來看看此時的方差又有什么變化: =從上面的結(jié)果可清楚看出

17、,總體的與樣本的估計值之間的方差,要比與總體回歸線的方差大,準確地說大。這是一個十分重要的結(jié)論,可具體表示為 預測誤差的方差=抽樣誤差的方差+隨機誤差項的方差這個結(jié)論表明,人為降低預測誤差只能在抽樣誤差的方差方面作出努力,而其存在的隨機誤差是無法避免或改變的。通過上面的討論和計算,我們就可以進一步對進行顯著性檢驗和計算其置信區(qū)間。下面只介紹T統(tǒng)計量檢驗的情形,對于構(gòu)造的T統(tǒng)計量為 t(n-k) 具有n-k個自由度具體的檢驗過程和置信區(qū)間的推導過程這里就省略了。值得指出地是,在進行用于預測值的檢驗時,與前面的假設(shè)檢驗是有較大區(qū)別的,這里需要關(guān)心的不是理論的假說結(jié)果,而是回歸模型預測值的具體精度,是精度而不是數(shù)量的性質(zhì),亦即是量而不是質(zhì)的問題。第三章 作業(yè)1、 知下列數(shù)據(jù):有關(guān)英國車禍次數(shù)與有執(zhí)照汽車數(shù)的數(shù)據(jù) 年份: 1947 48 49 50 51 52 53 5 4 55 56 57車禍

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論