第七章相關(guān)與回歸分析_第1頁
第七章相關(guān)與回歸分析_第2頁
第七章相關(guān)與回歸分析_第3頁
第七章相關(guān)與回歸分析_第4頁
第七章相關(guān)與回歸分析_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第五章 相關(guān)與回歸分析 1第一節(jié) 相關(guān)與回歸分析的基本概念 第二節(jié) 簡單線性相關(guān)與回歸分析 第三節(jié) 多元線性相關(guān)與回歸分析 第一節(jié) 相關(guān)與回歸分析的基本概念一、函數(shù)關(guān)系與相關(guān)關(guān)系二、相關(guān)關(guān)系的種類三、相關(guān)分析與回歸分析四、相關(guān)圖2一、函數(shù)關(guān)系與相關(guān)關(guān)系函數(shù)關(guān)系當(dāng)一個或幾個變量取一定的值時,另一個變量有確定值與之相對應(yīng),我們稱這種關(guān)系為確定性的函數(shù)關(guān)系。例如,商品的銷售收入與該商品的銷售量以及該商品價格之間的關(guān)系。相關(guān)關(guān)系當(dāng)一個或幾個相互聯(lián)系的變量取一定數(shù)值時,與之相對應(yīng)的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內(nèi)變化。 變量間的這種相互關(guān)系,稱為具有不確定性的相關(guān)關(guān)系。例如,勞動生

2、產(chǎn)率與工資水平的關(guān)系。3一、函數(shù)關(guān)系與相關(guān)關(guān)系變量之間的函數(shù)關(guān)系和相關(guān)關(guān)系,在一定條件下是可以互相轉(zhuǎn)化的。本來具有函數(shù)關(guān)系的變量,當(dāng)存在觀測誤差時,其函數(shù)關(guān)系往往以相關(guān)的形式表現(xiàn)出來。而具有相關(guān)關(guān)系的變量之間的聯(lián)系,如果我們對它們有了深刻的規(guī)律性認(rèn)識,并且能夠把影響因變量變動的因素全部納入方程,這時的相關(guān)關(guān)系也可能轉(zhuǎn)化為函數(shù)關(guān)系。4一、函數(shù)關(guān)系與相關(guān)關(guān)系相關(guān)關(guān)系也具有某種變動規(guī)律性,所以,相關(guān)關(guān)系經(jīng)常可以用一定的函數(shù)形式去近似地描述。客觀現(xiàn)象的函數(shù)關(guān)系可以用數(shù)學(xué)分析的方法去研究,而研究客觀現(xiàn)象的相關(guān)關(guān)系必須借助于統(tǒng)計學(xué)中的相關(guān)與回歸分析方法。5二、相關(guān)關(guān)系的種類 按相關(guān)的程度可分為完全相關(guān)、不

3、完全相關(guān)和不相關(guān)。當(dāng)一種現(xiàn)象的數(shù)量變化完全由另一個現(xiàn)象的數(shù)量變化所確定時,稱這兩種現(xiàn)象間的關(guān)系為完全相關(guān)。在這種場合,相關(guān)關(guān)系便成為函數(shù)關(guān)系。因此也可以說函數(shù)關(guān)系是相關(guān)關(guān)系的一個特例。當(dāng)兩個現(xiàn)象彼此互不影響,其數(shù)量變化各自獨立時,稱為不相關(guān)現(xiàn)象。兩個現(xiàn)象之間的關(guān)系介于完全相關(guān)和不相關(guān)之間,稱為不完全相關(guān),一般的相關(guān)現(xiàn)象都是指這種不完全相關(guān)。6二、相關(guān)關(guān)系的種類 按相關(guān)的方向可分為正相關(guān)和負(fù)相關(guān)。當(dāng)一個現(xiàn)象的數(shù)量增加(或減少),另一個現(xiàn)象的數(shù)量也隨之增加(或減少)時,稱為正相關(guān)。例如,消費水平隨收入的增加而提高。當(dāng)一個現(xiàn)象的數(shù)量增加(或減少),而另一個現(xiàn)象的數(shù)量向相反方向變動時,稱為負(fù)相關(guān)。例如

4、商品流轉(zhuǎn)的規(guī)模愈大,流通費用水平則愈低。7二、相關(guān)關(guān)系的種類 按相關(guān)的形式可分為線性相關(guān)和非線性相關(guān)。按所研究的變量多少可分為單相關(guān)、復(fù)相關(guān)和偏相關(guān)。兩個變量之間的相關(guān),稱為單相關(guān)。當(dāng)所研究的是一個變量對兩個或兩個以上其他變量的相關(guān)關(guān)系時,稱為復(fù)相關(guān)。在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場合,假定其他變量不變,專門考察其中兩個變量的相關(guān)關(guān)系稱為偏相關(guān)。例如,在假定人們的收入水平不變的條件下,某種商品的需求與其價格水平的關(guān)系就是一種偏相關(guān)。8三、相關(guān)分析與回歸分析 相關(guān)分析是用一個指標(biāo)來表明現(xiàn)象間相互依存關(guān)系的密切程度?;貧w分析是根據(jù)相關(guān)關(guān)系的具體形態(tài),選擇一個合適的數(shù)學(xué)模型,來近似地表達(dá)變量間的平均變化

5、關(guān)系。相關(guān)分析和回歸分析有著密切的聯(lián)系,它們不僅具有共同的研究對象,而且在具體應(yīng)用時,常常必須互相補充。9相關(guān)分析與回歸分析之間的區(qū)別相關(guān)分析研究變量之間相關(guān)的方向和相關(guān)的程度?;貧w分析則是研究變量之間相互關(guān)系的具體形式,它對具有相關(guān)關(guān)系的變量之間的數(shù)量聯(lián)系進(jìn)行測定,確定一個相關(guān)的數(shù)學(xué)表達(dá)式,根據(jù)這個數(shù)學(xué)方程式可以從已知量來推測未知量,從而為估算和預(yù)測提供一個重要的方法。10相關(guān)分析與回歸分析之間的區(qū)別相關(guān)分析不能指出變量間相互關(guān)系的具體形式,也無法從一個變量的變化來推測另一個變量的變化情況??梢圆槐卮_定變量中哪個是自變量,哪個是因變量,其所涉及的變量可以都是隨機(jī)變量。而回歸分析則必須事先研究

6、確定具有相關(guān)關(guān)系的變量中哪個為自變量,哪個為因變量。一般地說,回歸分析中因變量是隨機(jī)的,而把自變量作為研究時給定的非隨機(jī)變量。在應(yīng)用相關(guān)和回歸分析方法對客觀現(xiàn)象進(jìn)行研究時,一定要始終注意把定性分析和定量分析結(jié)合起來,在定性分析的基礎(chǔ)上開展定量分析。11把定性分析和定量分析結(jié)合【例7-1】教堂數(shù)與監(jiān)獄服刑人數(shù)同步增長美國印第安納州的地區(qū)教會想要籌款興建新教堂,提出教堂能潔凈人們的心靈,減少犯罪,降低監(jiān)獄服刑人數(shù)的口號。為了增進(jìn)民眾參與的熱誠和信心,教會的神父收集了近年的教堂數(shù)與在監(jiān)獄服刑的人數(shù)進(jìn)行統(tǒng)計分析。結(jié)果卻令教會大吃一驚。最近年教堂數(shù)與監(jiān)獄服刑人數(shù)呈顯著的正相關(guān)。那么是否可以由此得出,教堂

7、建得越多,就可能帶來更多的犯罪呢?12 經(jīng)過統(tǒng)計學(xué)家和教會神父深入討論,并進(jìn)一步收集經(jīng)過統(tǒng)計學(xué)家和教會神父深入討論,并進(jìn)一步收集近年的當(dāng)?shù)厝丝谧儎淤Y料和犯罪率等資料作進(jìn)一步近年的當(dāng)?shù)厝丝谧儎淤Y料和犯罪率等資料作進(jìn)一步分析,發(fā)現(xiàn)監(jiān)獄服刑人數(shù)的增加和教堂數(shù)的增加都與人分析,發(fā)現(xiàn)監(jiān)獄服刑人數(shù)的增加和教堂數(shù)的增加都與人口的增加有關(guān)。教堂數(shù)的增加并非監(jiān)獄服刑人數(shù)增加的口的增加有關(guān)。教堂數(shù)的增加并非監(jiān)獄服刑人數(shù)增加的原因。至此,教會人士總算松了一口氣。原因。至此,教會人士總算松了一口氣。四、相關(guān)圖 相關(guān)圖又稱散點圖。它是以直角坐標(biāo)系的橫軸代表變量X,縱軸代表變量Y,將兩個變量間相對應(yīng)的變量值用坐標(biāo)點的形式

8、描繪出來,用來反映兩變量之間相關(guān)關(guān)系的圖形。 13第二節(jié) 簡單線性相關(guān)與回歸分析 一、相關(guān)系數(shù)及其檢驗二、標(biāo)準(zhǔn)的一元線性回歸模型三、一元線性回歸模型的估計四、一元線性回歸模型的檢驗五、一元線性回歸模型預(yù)測14一、相關(guān)系數(shù)及其檢驗(一)相關(guān)系數(shù)的定義 總體相關(guān)系數(shù)的定義式是 總體相關(guān)系數(shù)是反映兩變量之間線性相關(guān)程度的一種特征值,表現(xiàn)為一個常數(shù)。 樣本相關(guān)系數(shù)的定義公式是 上式中, 和 分別是和的樣本平均數(shù)。樣本相關(guān)系數(shù)是根據(jù)樣本觀測值計算的,抽取的樣本不同,其具體的數(shù)值也會有所差異。樣本相關(guān)系數(shù)是總體相關(guān)系數(shù)的一致估計量。 15(, )()( )Cov X YVar X Var Y22)()()

9、(YYXXYYXXrttttXY(二)相關(guān)系數(shù)的特點 r的取值介于-1與1之間1、當(dāng)r=0時,與的樣本觀測值之間沒有線性關(guān)系。2、在大多數(shù)情況下,0r0時,與為正相關(guān),當(dāng)r0時,與為負(fù)相關(guān)。3、如果r=1,則表明與完全線性相關(guān),當(dāng)r=1時,稱為完全正相關(guān),而-1時,稱為完全負(fù)相關(guān)。4、是對變量之間線性相關(guān)關(guān)系的度量。r=0,并不意味著與之間不存在其他類型的關(guān)系。對于二者之間可能存在的非線性相關(guān)關(guān)系,需要利用其他指標(biāo)去進(jìn)行分析。16(三)相關(guān)系數(shù)的計算 相關(guān)系數(shù)的計算 具體計算樣本相關(guān)系數(shù)時,通常利用以下公式: 17)( )(2222ttttttttYYnXXnYXYXnr(三)相關(guān)系數(shù)的計算

10、【例7-2】1992年-2003年我國城鎮(zhèn)居民人均年消費性支出和人均年可支配收入有關(guān)資料如下,試計算消費性支出與可支配收入間的相關(guān)系數(shù)。18(三)相關(guān)系數(shù)的計算 【例7-2】表7-1是 1992年-2003年我國城鎮(zhèn)居民人均年消費性支出和人均年可支配收入的有關(guān)資料,試計算消費性支出與可支配收入的樣本相關(guān)系數(shù)。190.999097)073.507719.23221)(976.626661.37221 (073.50976.624539.2942122r(四)相關(guān)系數(shù)的檢驗 對總體相關(guān)系數(shù) 是否等于進(jìn)行檢驗。計算相關(guān)系數(shù)r的值:根據(jù)給定的顯著性水平和自由度(n-2),查找分布表中相應(yīng)的臨界值t/2

11、。若tt/2,表明在統(tǒng)計上是顯著的。 若tt/2,表明在統(tǒng)計上是不顯著的。20212rnrt(四)相關(guān)系數(shù)的檢驗 解:0:;1:的檢驗值 查表可知:顯著水平為,自由度為的臨界值t/2=2.776 ,上式中的t值小于2.776,因此,不能通過顯著性檢驗。這就是說,盡管根據(jù)樣本觀測值計算的達(dá)到0.5,但是由于樣本單位過少,這一結(jié)論并不可靠,它不足以證明該公司的股票與氣溫之間存在一定程度的線性相關(guān)關(guān)系。211547. 1122rnrt【例7-3】假設(shè)根據(jù)對樣本觀測數(shù)據(jù)計算出某公司的股票價格與氣溫的樣本相關(guān)系數(shù)r=0.5,試問是否可以根據(jù)的顯著水平認(rèn)為該公司的股票與氣溫之間存在一定程度的線性相關(guān)關(guān)系?

12、二、標(biāo)準(zhǔn)的一元線性回歸模型 tttuXY2122(一)總體回歸函數(shù) 上式被稱為總體回歸函數(shù)。式中的1和2是未知的參數(shù),又叫回歸系數(shù)。t和t分別是和的第個觀測值。u t是隨機(jī)誤差項,又稱隨機(jī)干擾項,它是一個特殊的隨機(jī)變量,反映未列入方程式的其他各種因素對的影響。 (二)樣本回歸函數(shù) 在現(xiàn)實問題研究中,由于所要研究的現(xiàn)象的總體單位數(shù)一般是很多的,在許多場合甚至是無限的,因此無法掌握因變量總體的全部取值。也就是說,總體回歸函數(shù)事實上是未知的,需要利用樣本的信息對其進(jìn)行估計。一元線性回歸模型的樣本回歸線可表示為: 式中 的是樣本回歸線上與t相對應(yīng)的值,可視為(t)的估計; 是樣本回歸函數(shù)的截距系數(shù),

13、是樣本回歸函數(shù)的斜率系數(shù),它們是對總體回歸系數(shù)1和2的估計。23ttXY21tY12(二)樣本回歸函數(shù) 實際觀測到的因變量t值,并不完全等于 ,如果用t表示二者之差, 則有: (,.)上式稱為樣本回歸函數(shù)。式中t稱為殘差。24tYtteXYt21(二)樣本回歸函數(shù) 樣本回歸函數(shù)與總體回歸函數(shù)之間的區(qū)別1、總體回歸線是未知的,它只有一條。而樣本回歸線則是根據(jù)樣本數(shù)據(jù)擬合的,每抽取一組樣本,便可以擬合一條樣本回歸線。2、總體回歸函數(shù)中的1和2是未知的參數(shù),表現(xiàn)為常數(shù)。而樣本回歸函數(shù)中的 和 是隨機(jī)變量,其具體數(shù)值隨所抽取的樣本觀測值不同而變動。2512(二)樣本回歸函數(shù) 樣本回歸函數(shù)與總體回歸函數(shù)

14、之間的區(qū)別3、總體回歸函數(shù)中的u t是t與未知的總體回歸線之間的縱向距離,它是不可直接觀測的。樣本回歸函數(shù)中的t是t與樣本回歸線之間的縱向距離,當(dāng)根據(jù)樣本觀測值擬合出樣本回歸線之后,可以計算出t的具體數(shù)值。 26(三)誤差項的標(biāo)準(zhǔn)假定 假定:誤差項的期望值為,即對所有的總有假定:誤差項的方差為常數(shù),即對所有的總有假定:誤差項之間不存在序列相關(guān)關(guān)系,其協(xié)方差為零,即當(dāng)時有:270)(tuE22)()(ttuEuVar0)Cov(stuu(三)誤差項的標(biāo)準(zhǔn)假定 假定:自變量是給定的變量,與隨機(jī)誤差項線性無關(guān)。假定:隨機(jī)誤差項服從正態(tài)分布。滿足以上標(biāo)準(zhǔn)假定的一元線性模型,稱為標(biāo)準(zhǔn)的一元線性回歸模型。

15、28三、一元線性回歸模型的估計 (一)回歸系數(shù)的點估計所謂最小二乘法就是根據(jù)這一思路,是通過使殘差平方和為最小來估計回歸系數(shù)的一種方法。 2922)(tttYYeQ設(shè)221)(ttXY0)(221ttXY0)(221tttXYX三、一元線性回歸模型的估計 (一)回歸系數(shù)的點估計加以整理后有222)(ttttttXXnYXYXnXYnXnYtt22130ttYXn21ttttYXXX221以上方程組稱為正規(guī)方程組或標(biāo)準(zhǔn)方程組,式中的以上方程組稱為正規(guī)方程組或標(biāo)準(zhǔn)方程組,式中的是樣本容量。求解這一方程組可得:是樣本容量。求解這一方程組可得: (一)回歸系數(shù)的點估計【例7-】我們利用例7-2的表7-

16、1中已給出我國歷年城鎮(zhèn)居民人均消費支出和人均可支配收入的數(shù)據(jù),來估計我國城鎮(zhèn)居民的邊際消費傾向和基礎(chǔ)消費水平。解:t12tut=50.07312-0.751162.976120.2310317511. 062.976372.666112 50.07362.976 294.453912221(一)回歸系數(shù)的點估計【例7-】我們利用例7-2的表7-1中已給出我國歷年城鎮(zhèn)居民人均消費支出和人均可支配收入的數(shù)據(jù),來估計我國城鎮(zhèn)居民的邊際消費傾向和基礎(chǔ)消費水平。樣本回歸方程為: 上式中:0.7511是邊際消費傾向,表示人均可支配收入每增加1千元,人均消費支出會增加0.7511千元;0.2310是基本消費

17、水平,即與收入無關(guān)最基本的人均消費為0.2310千元。 32ttXY7511. 02310. 0(二)總體方差的估計 數(shù)學(xué)上可以證明,2的無偏估計S2可由下式給出: 式中,分子是殘差平方和,分母是自由度,其中是樣本觀測值的個數(shù),是一元線性回歸方程中回歸系數(shù)的個數(shù)。)S2的正平方根又叫做回歸估計的標(biāo)準(zhǔn)誤差。一般采用以下公式計算殘差平方和:上式的推導(dǎo)過程如下: 33222neSttttttYXYYe2122tttttttttttttYXYYXYYeYeXYe21221212)()((二)總體方差的估計 【例7-】根據(jù)例7-中給出的有關(guān)數(shù)據(jù)和例7-中已得到的回歸系數(shù)估計值,計算我國城鎮(zhèn)居民消費函數(shù)的

18、總體方差S2和回歸估計標(biāo)準(zhǔn)差S。解:根據(jù)例7-中給出的有關(guān)數(shù)據(jù)和例7-中已得到的回歸系數(shù)估計值,可得: =232.7719-0.231050.073-0.7511294.4539=0.0407S2=0.0407/(12-2)=0.00407 進(jìn)而有:S=0.0638 342te(三)最小二乘估計量的性質(zhì)按照最小二乘法求得的估計總體回歸系數(shù)的數(shù)學(xué)公式是樣本觀測值的函數(shù),通常稱之為最小二乘估計量??梢宰C明,在標(biāo)準(zhǔn)假定能夠得到滿足的條件下,回歸系數(shù)的最小二乘估計量的期望值等于其真值,即有:其方差為: 和 的期望值與方差的推導(dǎo)過程基本類似。3511)(E22)(E122221)(1)(1XXXnVar

19、t2222)()(2XXVart(三)最小二乘估計量的性質(zhì)數(shù)學(xué)上可以證明:最小二乘估計量是因變量觀測值t的線性函數(shù),其期望值等于總體回歸系數(shù)的真值。因此,最小二乘估計量是總體回歸系數(shù)的線性無偏估計量。數(shù)學(xué)上還可以進(jìn)一步證明,在所有的線性無偏估計量中,回歸系數(shù)的最小二乘估計量的方差最??;同時隨著樣本容量的增大,其方差會不斷縮小。也就是說,回歸系數(shù)的最小二乘估計量是最優(yōu)線性無偏估計量和一致估計量。高斯-馬爾可夫定理表明,在標(biāo)準(zhǔn)的假定條件下,最小二乘估計量是一種最佳的估計方式。但是應(yīng)當(dāng)明確,這并不意味著根據(jù)這一方式計算的每一個具體的估計值都比根據(jù)其他方式計算的具體估計值更接近真值,而只是表明如果反復(fù)

20、多次進(jìn)行估計值計算或是擴(kuò)大樣本的容量進(jìn)行估計值計算,按最佳估計方式計算的估計值接近真值的可能性(概率)最大。 36(四)回歸系數(shù)的區(qū)間估計 根據(jù)第五章中介紹的關(guān)于參數(shù)區(qū)間估計的原理,可得到以下回歸系數(shù)區(qū)間估計的公式: (j =1,2)式中, 是回歸系數(shù)估計的樣本標(biāo)準(zhǔn)誤差, 是顯著水平為,自由度為(n-2)的分布雙側(cè)臨界值。37jStnj)2(2/jS/ 2(2)nt121()tXSnXX22()tSSXX(四)回歸系數(shù)的區(qū)間估計 【例7-6】利用例7-的有關(guān)資料和例7-與例7-的結(jié)果,對例7-中估計的我國城鎮(zhèn)居民邊際消費傾向進(jìn)行置信度為95的區(qū)間估計。解:查分布表可知:顯著水平為,自由度為10

21、的分布雙側(cè)臨界值是2.228,前面已求得 ,將其代入回歸系數(shù)區(qū)間估計的公式 ,可得:38220.06380.0098372.6661 62.976 /12S20.75110980 . 0282 . 25117 . 00980 . 0282 . 25117 . 0220.72930.7729即即四、一元線性回歸模型的檢驗 (一) 回歸模型檢驗的種類回歸模型的檢驗包括理論意義檢驗、一級檢驗和二級檢驗。理論意義檢驗主要涉及參數(shù)估計值的符號和取值區(qū)間,如果它們與實質(zhì)性科學(xué)的理論以及人們的實踐經(jīng)驗不相符,就說明模型不能很好地解釋現(xiàn)實的現(xiàn)象。例如,在前面所舉的消費函數(shù)中,2的取值區(qū)間應(yīng)在至之間。在對實際的

22、社會經(jīng)濟(jì)現(xiàn)象進(jìn)行回歸分析時,常常會遇到經(jīng)濟(jì)意義檢驗不能通過的情況。造成這一結(jié)果的主要原因是:社會經(jīng)濟(jì)的統(tǒng)計數(shù)據(jù)無法像自然科學(xué)中的統(tǒng)計數(shù)據(jù)那樣通過有控制的實驗去取得,因而所觀測的樣本容量有可能偏小,不具有足夠的代表性,或者不能滿足標(biāo)準(zhǔn)線性回歸分析所要求的假定條件。39四、一元線性回歸模型的檢驗 一級檢驗又稱統(tǒng)計學(xué)檢驗,它是利用統(tǒng)計學(xué)中的抽樣理論來檢驗樣本回歸方程的可靠性,具體又可分為擬合程度評價和顯著性檢驗。一級檢驗是對所有現(xiàn)象進(jìn)行回歸分析時都必須通過的檢驗。二級檢驗又稱經(jīng)濟(jì)計量學(xué)檢驗,它是對標(biāo)準(zhǔn)線性回歸模型的假定條件能否得到滿足進(jìn)行檢驗,具體包括序列相關(guān)檢驗、異方差性檢驗、多重共線性檢驗等。二

23、級檢驗對于社會經(jīng)濟(jì)現(xiàn)象的定量分析具有特別重要的意義。40四、一元線性回歸模型的檢驗 (二)擬合程度的評價總離差平方和的分解對任一實際觀測值t總有: 對上式兩邊取平方并求和,得到: 可以證明: 從而有: 即 41()()()()ttttttYYYYYYYYe222()()()2()()tttttttYYYYYYYYYY()()0tttYYYY222()()()ttttYYYYYY四、一元線性回歸模型的檢驗 上式中,是總離差平方和;是由回歸直線可以解釋的那一部分離差平方和,稱為回歸平方和;是用回歸直線無法解釋的離差平方和,稱為殘差平方和。式子兩邊同除以,得:顯而易見,各個樣本觀測點與樣本回歸直線靠

24、得越緊,SSR在SST中所占的比例就越大。因此,可定義這一比例為決定系數(shù),即有:決定系數(shù)是對回歸模型擬合程度的綜合度量,決定系數(shù)越大,模型擬合程度越高。決定系數(shù)越小,則模型對樣本的擬合程度越差。 421SSRSSESSTSST21SSRSSErSSTSST (二)擬合程度的評價決定系數(shù)r2具有如下特性:1決定系數(shù)r2具有非負(fù)性。 由決定系數(shù)的定義式可知, r2的分子分母均是不可能為負(fù)值的平方和,因此其比值必大于零。(但是在回歸模型中不包括截距項的場合, 由于總離差平方和的分解公式不成立,按該式計算的r2有可能小于。 )2決定系數(shù)的取值范圍為 r2 。3決定系數(shù)是樣本觀測值的函數(shù),它也是一個統(tǒng)計

25、量。4在一元線性回歸模型中,決定系數(shù)是單相關(guān)系數(shù)的平方。43(二)擬合程度的評價【例7-7】利用例7-5中計算的殘差平方和,計算例7-3所擬合的樣本回歸方程的決定系數(shù)。解:上式中的SST是利用表7-1中給出的數(shù)據(jù)按下式計算的:4420.040710.998223.8298SSErSST 222() /232.7719(50.073) /1223.8298ttSSTYYn(三)顯著性檢驗 所謂回歸系數(shù)的顯著性檢驗,就是根據(jù)樣本估計的結(jié)果對總體回歸系數(shù)的有關(guān)假設(shè)進(jìn)行檢驗。下面我們以2的檢驗為例,介紹回歸系數(shù)顯著性檢驗的基本步驟:45(三)顯著性檢驗 1t 檢驗(1)提出假設(shè)。 對回歸系數(shù)進(jìn)行顯著性

26、檢驗,所提出的假設(shè)的一般形式是: 式中,o表示原假設(shè);1表示備擇假設(shè); 是假設(shè)的總體回歸系數(shù)的真值。在許多回歸分析的計算機(jī)程序里,常常令 0。這是因為2 是否為,可以表明對是否有顯著的影響。46*022122:,:HH*2*2(三)顯著性檢驗 (2)確定顯著水平。顯著水平的大小應(yīng)根據(jù)犯哪一類錯誤可能帶來損失的大小確定。一般情況下可取0.05。(3)計算回歸系數(shù)的值。上式中,是回歸系數(shù)估計的標(biāo)準(zhǔn)誤差。 4722*22tS(三)顯著性檢驗 (4)確定臨界值。t檢驗的臨界值是由顯著水平和自由度df決定的。 這時應(yīng)該注意,原假設(shè)和備擇假設(shè)設(shè)定的方式不同,據(jù)以判斷的接受域和拒絕域也不相同。例如,對0:2

27、=0,1:20,進(jìn)行的是雙側(cè)檢驗;而對0:2=0.9,1:2k。我們稱這條假定為標(biāo)準(zhǔn)假定6。65tktkttuXXY221tktktteXXY221 (一)回歸系數(shù)的估計 多元線性回歸模型中回歸系數(shù)的估計同樣采用最小二乘法。設(shè)根據(jù)微積分中求極小值的原理,可知殘差平方和存在極小值,欲使達(dá)到最小,對 的偏導(dǎo)數(shù)必須等于零。將對 求偏導(dǎo)數(shù),并令其等于零,加以整理后可得到以下個方程式: 以上元一次方程組稱為正規(guī)方程組或標(biāo)準(zhǔn)方程組,通過求解這一方程組便可以得到 。 66222122)()(ktktttttXXYYYeQk,、21k,、21tktktkkttktttkttktttktktYXXXXXYXXX

28、XXYXXn22212222221221k,、21(二)總體方差的估計 多元線性回歸模型中的2也是利用殘差平方和除以其自由度來估計的。即有:上式中,n是樣本觀測值的個數(shù);k是方程中回歸系數(shù)的個數(shù);數(shù)學(xué)上可以證明,S2是2的無偏估計。S2的正平方根S又叫做回歸估計的標(biāo)準(zhǔn)誤差。 S越小表明樣本回歸方程的代表性越強(qiáng)。在編制計算機(jī)程序時,殘差平方和一般不是按照其定義式計算,而是利用以下公式計算:上式是殘差平方和的矩陣形式。式中Y是因變量樣本觀測值向量;X是自變量樣本觀測值矩陣; 是回歸系數(shù)估計值向量的轉(zhuǎn)置向量。 67kneSt22YXYYee2te三、多元線性回歸模型的檢驗和預(yù)測 (一)擬合程度的評價

29、利用R2來評價多元線性回歸方程的擬合程度,必須注意以下問題。由決定系數(shù)的定義可知, R2的大小取決于殘差平方和 在總離差平方和 中所占的比重。在樣本容量一定的條件下,總離差平方和與自變量的個數(shù)無關(guān),而殘差平方和則會隨著模型中自變量個數(shù)的增加不斷減少,至少不會增加。因此, R2是自變量個數(shù)的非遞減函數(shù)。 在一元線性回歸模型中,所有模型包含的變量數(shù)目都相同,如果所使用的樣本容量也一樣,決定系數(shù)便可以直接作為評價擬合程度的尺度。然而在多元線性回歸模型中,各回歸模型所含的變量的數(shù)目未必相同,以R2的大小作為衡量擬合優(yōu)劣的尺度是不合適的。 68222)(1YYeRtt2te2)YYt(在多元回歸分析中,

30、人們更常用的評價指標(biāo)是所謂的修正自由度的決定系數(shù)。 該指標(biāo)的定義如下:式中,n是樣本容量;k是模型中回歸系數(shù)的個數(shù)。( n -)和( n - k )實際上分別是總離差平方和與殘差平方和的自由度。69)1 ()() 1(1) 1/()()/(12222RknnnYYkneRtt修正自由度的決定系數(shù)具有以下特點:1. 。因為k1,所以根據(jù) 和R2各自的定義式可以得出這一結(jié)論。對于給定的R2值和n值, k值越大 越小。在進(jìn)行回歸分析時,一般總是希望以盡可能少的自變量去達(dá)到盡可能高的擬合程度。 作為綜合評價這兩方面情況的一項指標(biāo)顯然比R2更為合適。2. 小于1,但未必都大于0。在擬合極差的場合,有可能

31、取負(fù)值。 7022RR 2R2R2R2R【例7-10】假設(shè)有7年的年度統(tǒng)計資料,現(xiàn)利用其對同一因變量擬合了兩個樣本回歸方程。方程一中:k=6, R2=0.82;方程二中:k=2, R2 =0.80。試對這兩個回歸方程的擬合程度做出評價。解:如果僅從R2考察,似乎方程一的擬合程度更佳。但是,由于兩個方程選用的自變量個數(shù)不同,這一結(jié)論是不正確的。將上列數(shù)據(jù)代入修正自由度的決定系數(shù) 公式,可得:方程一的 =1-(7-1)/(7-6)(1-0.82)=-0.08方程二的 =1-(7-1)/(7-2)(1-0.80)=0.76由此可見,方程二的實際擬合程度遠(yuǎn)遠(yuǎn)優(yōu)于方程一。712R2R(二)顯著性檢驗1回

32、歸系數(shù)的顯著性檢驗多元回歸中進(jìn)行這一檢驗的目的主要是為了檢驗與各回歸系數(shù)對應(yīng)的自變量對因變量的影響是否顯著,以便對自變量的取舍做出正確的判斷。一般來說,當(dāng)發(fā)現(xiàn)某個自變量的影響不顯著時,應(yīng)將其從模型中刪除。這樣才能夠做到以盡可能少的自變量去達(dá)到盡可能高的擬合優(yōu)度。多元模型中回歸系數(shù)的檢驗同樣采用檢驗和P檢驗,其原理和基本步驟與一元回歸模型基本相同,這里不再贅述。下面僅給出回歸系數(shù)顯著性檢驗統(tǒng)計量的一般計算公式。 72 j=1,2,k式中, 是回歸系數(shù)的估計值, 是的標(biāo)準(zhǔn)差的估計值,其按下式計算:式中, 是(XX)-1的第j個對角線元素,S2是隨機(jī)誤差項方差的估計值。上式的 t 統(tǒng)計量背后的原假設(shè)

33、是0:j=0,因此 t 的絕對值越大表明j為0的可能性越小,即表明相應(yīng)的自變量對因變量的影響是顯著的。73jjStj/jjSjjSSj2jj2回歸方程的顯著性檢驗必須在方差分析的基礎(chǔ)上利用檢驗進(jìn)行。其具體的方法步驟可歸納如下:(1)假設(shè)總體回歸方程不顯著,即有H0:23k0 (2)進(jìn)行方差分析,列出回歸方差分析表(見下表)74回歸模型方差分析表表中, 回歸平方和的取值受個回歸系數(shù)估計值的影響,同時又要服從 的約束條件,因此其自由度是k-1。殘差平方和取決于n個因變量的觀測值,同時又要服從k個正規(guī)方程式的約束,因此其自由度是n-k。 回歸平方和與殘差平方和各除以自身的自由度得到的是樣本方差。75

34、YnYt/(3)根據(jù)方差分析的結(jié)果求統(tǒng)計量,即數(shù)學(xué)上可以證明,在隨機(jī)誤差項服從正態(tài)分布同時原假設(shè)成立的條件下,服從于自由度為(k-1)和(n-k)的分布。(4)根據(jù)自由度和給定的顯著性水平,查F分布表中的理論臨界值F。當(dāng)F F時,拒絕原假設(shè),即認(rèn)為總體回歸函數(shù)中各自變量與因變量的線性回歸關(guān)系顯著。當(dāng)F F時,接受原假設(shè),即認(rèn)為總體回歸函數(shù)中,自變量與因變量的線性關(guān)系不顯著,因而所建立的回歸模型沒有意義。 76/(1) /()SSRkFSSEnk(三)多元線性回歸預(yù)測在通過各種檢驗的基礎(chǔ)上,多元線性回歸模型可以用于預(yù)測。多元線性回歸預(yù)測與一元線性回歸預(yù)測的原理是一致的,其基本公式如下:式中,Xjf(j=2,3,k)是給定的Xj在預(yù)測期的具體數(shù)值; 是已估計出的樣本回歸系數(shù); 是Xj給定時的預(yù)測值。該方程的矩陣形式為:77kfkffXXY221jfYffY X 式中:多元線性回歸預(yù)測標(biāo)準(zhǔn)誤差的計算公式如下:式中,S是回歸方程估計的標(biāo)準(zhǔn)誤差。多元線性回歸預(yù)測f的()的置信區(qū)間可由下式給出:式中,t/2是顯著水平為的t分布雙側(cè)臨界值。 7822()11()feftXXSSnXX/ 2(2)nfefYtSkfffXX21Xk21四、復(fù)相關(guān)系數(shù)和偏相關(guān)系數(shù) (一)復(fù)相關(guān)系數(shù)樣本復(fù)相關(guān)系數(shù)(以下簡稱復(fù)相關(guān)系數(shù))的定義式如下:實際計算復(fù)相關(guān)系數(shù)時,一般不直接根據(jù)其定義式,而是先計算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論