第七章相關與回歸分析

上傳人：5*** IP屬地：湖北上傳時間：2022-02-05 格式：PPT 頁數(shù)：83 大?。?.50MB 積分：30 舉報 版權申訴

已閱讀5頁，還剩78頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、第五章相關與回歸分析 1第一節(jié) 相關與回歸分析的基本概念第二節(jié) 簡單線性相關與回歸分析第三節(jié) 多元線性相關與回歸分析第一節(jié) 相關與回歸分析的基本概念一、函數(shù)關系與相關關系二、相關關系的種類三、相關分析與回歸分析四、相關圖2一、函數(shù)關系與相關關系函數(shù)關系當一個或幾個變量取一定的值時，另一個變量有確定值與之相對應，我們稱這種關系為確定性的函數(shù)關系。例如，商品的銷售收入與該商品的銷售量以及該商品價格之間的關系。相關關系當一個或幾個相互聯(lián)系的變量取一定數(shù)值時，與之相對應的另一變量的值雖然不確定，但它仍按某種規(guī)律在一定的范圍內(nèi)變化。變量間的這種相互關系，稱為具有不確定性的相關關系。例如，勞動生

2、產(chǎn)率與工資水平的關系。3一、函數(shù)關系與相關關系變量之間的函數(shù)關系和相關關系，在一定條件下是可以互相轉(zhuǎn)化的。本來具有函數(shù)關系的變量，當存在觀測誤差時，其函數(shù)關系往往以相關的形式表現(xiàn)出來。而具有相關關系的變量之間的聯(lián)系，如果我們對它們有了深刻的規(guī)律性認識，并且能夠把影響因變量變動的因素全部納入方程，這時的相關關系也可能轉(zhuǎn)化為函數(shù)關系。4一、函數(shù)關系與相關關系相關關系也具有某種變動規(guī)律性，所以，相關關系經(jīng)?？梢杂靡欢ǖ暮瘮?shù)形式去近似地描述?？陀^現(xiàn)象的函數(shù)關系可以用數(shù)學分析的方法去研究，而研究客觀現(xiàn)象的相關關系必須借助于統(tǒng)計學中的相關與回歸分析方法。5二、相關關系的種類按相關的程度可分為完全相關、不

3、完全相關和不相關。當一種現(xiàn)象的數(shù)量變化完全由另一個現(xiàn)象的數(shù)量變化所確定時，稱這兩種現(xiàn)象間的關系為完全相關。在這種場合，相關關系便成為函數(shù)關系。因此也可以說函數(shù)關系是相關關系的一個特例。當兩個現(xiàn)象彼此互不影響，其數(shù)量變化各自獨立時，稱為不相關現(xiàn)象。兩個現(xiàn)象之間的關系介于完全相關和不相關之間，稱為不完全相關，一般的相關現(xiàn)象都是指這種不完全相關。6二、相關關系的種類按相關的方向可分為正相關和負相關。當一個現(xiàn)象的數(shù)量增加（或減少），另一個現(xiàn)象的數(shù)量也隨之增加（或減少）時，稱為正相關。例如，消費水平隨收入的增加而提高。當一個現(xiàn)象的數(shù)量增加（或減少），而另一個現(xiàn)象的數(shù)量向相反方向變動時，稱為負相關。例如

4、商品流轉(zhuǎn)的規(guī)模愈大，流通費用水平則愈低。7二、相關關系的種類按相關的形式可分為線性相關和非線性相關。按所研究的變量多少可分為單相關、復相關和偏相關。兩個變量之間的相關，稱為單相關。當所研究的是一個變量對兩個或兩個以上其他變量的相關關系時，稱為復相關。在某一現(xiàn)象與多種現(xiàn)象相關的場合，假定其他變量不變，專門考察其中兩個變量的相關關系稱為偏相關。例如，在假定人們的收入水平不變的條件下，某種商品的需求與其價格水平的關系就是一種偏相關。8三、相關分析與回歸分析相關分析是用一個指標來表明現(xiàn)象間相互依存關系的密切程度?；貧w分析是根據(jù)相關關系的具體形態(tài)，選擇一個合適的數(shù)學模型，來近似地表達變量間的平均變化

5、關系。相關分析和回歸分析有著密切的聯(lián)系，它們不僅具有共同的研究對象，而且在具體應用時，常常必須互相補充。9相關分析與回歸分析之間的區(qū)別相關分析研究變量之間相關的方向和相關的程度?；貧w分析則是研究變量之間相互關系的具體形式，它對具有相關關系的變量之間的數(shù)量聯(lián)系進行測定，確定一個相關的數(shù)學表達式，根據(jù)這個數(shù)學方程式可以從已知量來推測未知量，從而為估算和預測提供一個重要的方法。10相關分析與回歸分析之間的區(qū)別相關分析不能指出變量間相互關系的具體形式，也無法從一個變量的變化來推測另一個變量的變化情況。可以不必確定變量中哪個是自變量，哪個是因變量，其所涉及的變量可以都是隨機變量。而回歸分析則必須事先研究

6、確定具有相關關系的變量中哪個為自變量，哪個為因變量。一般地說，回歸分析中因變量是隨機的，而把自變量作為研究時給定的非隨機變量。在應用相關和回歸分析方法對客觀現(xiàn)象進行研究時，一定要始終注意把定性分析和定量分析結(jié)合起來，在定性分析的基礎上開展定量分析。11把定性分析和定量分析結(jié)合【例7-1】教堂數(shù)與監(jiān)獄服刑人數(shù)同步增長美國印第安納州的地區(qū)教會想要籌款興建新教堂，提出教堂能潔凈人們的心靈，減少犯罪，降低監(jiān)獄服刑人數(shù)的口號。為了增進民眾參與的熱誠和信心，教會的神父收集了近年的教堂數(shù)與在監(jiān)獄服刑的人數(shù)進行統(tǒng)計分析。結(jié)果卻令教會大吃一驚。最近年教堂數(shù)與監(jiān)獄服刑人數(shù)呈顯著的正相關。那么是否可以由此得出，教堂

7、建得越多，就可能帶來更多的犯罪呢？12 經(jīng)過統(tǒng)計學家和教會神父深入討論，并進一步收集經(jīng)過統(tǒng)計學家和教會神父深入討論，并進一步收集近年的當?shù)厝丝谧儎淤Y料和犯罪率等資料作進一步近年的當?shù)厝丝谧儎淤Y料和犯罪率等資料作進一步分析，發(fā)現(xiàn)監(jiān)獄服刑人數(shù)的增加和教堂數(shù)的增加都與人分析，發(fā)現(xiàn)監(jiān)獄服刑人數(shù)的增加和教堂數(shù)的增加都與人口的增加有關。教堂數(shù)的增加并非監(jiān)獄服刑人數(shù)增加的口的增加有關。教堂數(shù)的增加并非監(jiān)獄服刑人數(shù)增加的原因。至此，教會人士總算松了一口氣。原因。至此，教會人士總算松了一口氣。四、相關圖相關圖又稱散點圖。它是以直角坐標系的橫軸代表變量X，縱軸代表變量Y,將兩個變量間相對應的變量值用坐標點的形式

8、描繪出來，用來反映兩變量之間相關關系的圖形。 13第二節(jié) 簡單線性相關與回歸分析一、相關系數(shù)及其檢驗二、標準的一元線性回歸模型三、一元線性回歸模型的估計四、一元線性回歸模型的檢驗五、一元線性回歸模型預測14一、相關系數(shù)及其檢驗（一）相關系數(shù)的定義總體相關系數(shù)的定義式是總體相關系數(shù)是反映兩變量之間線性相關程度的一種特征值，表現(xiàn)為一個常數(shù)。樣本相關系數(shù)的定義公式是上式中，和分別是和的樣本平均數(shù)。樣本相關系數(shù)是根據(jù)樣本觀測值計算的，抽取的樣本不同，其具體的數(shù)值也會有所差異。樣本相關系數(shù)是總體相關系數(shù)的一致估計量。 15(, )()( )Cov X YVar X Var Y22)()()

9、(YYXXYYXXrttttXY（二）相關系數(shù)的特點 r的取值介于-1與1之間1、當r=0時，與的樣本觀測值之間沒有線性關系。2、在大多數(shù)情況下，0r0時，與為正相關，當r0時，與為負相關。3、如果r=1，則表明與完全線性相關，當r=1時，稱為完全正相關，而-1時，稱為完全負相關。4、是對變量之間線性相關關系的度量。r=0，并不意味著與之間不存在其他類型的關系。對于二者之間可能存在的非線性相關關系，需要利用其他指標去進行分析。16（三）相關系數(shù)的計算相關系數(shù)的計算具體計算樣本相關系數(shù)時，通常利用以下公式： 17)( )(2222ttttttttYYnXXnYXYXnr（三）相關系數(shù)的計算

10、【例7-2】1992年-2003年我國城鎮(zhèn)居民人均年消費性支出和人均年可支配收入有關資料如下，試計算消費性支出與可支配收入間的相關系數(shù)。18（三）相關系數(shù)的計算【例7-2】表7-1是 1992年-2003年我國城鎮(zhèn)居民人均年消費性支出和人均年可支配收入的有關資料，試計算消費性支出與可支配收入的樣本相關系數(shù)。190.999097)073.507719.23221)(976.626661.37221 (073.50976.624539.2942122r（四）相關系數(shù)的檢驗對總體相關系數(shù) 是否等于進行檢驗。計算相關系數(shù)r的值：根據(jù)給定的顯著性水平和自由度（n-2），查找分布表中相應的臨界值t/2

11、。若tt/2，表明在統(tǒng)計上是顯著的。若tt/2，表明在統(tǒng)計上是不顯著的。20212rnrt（四）相關系數(shù)的檢驗解：0：；1：的檢驗值查表可知：顯著水平為，自由度為的臨界值t/2=2.776 ,上式中的t值小于2.776，因此，不能通過顯著性檢驗。這就是說，盡管根據(jù)樣本觀測值計算的達到0.5，但是由于樣本單位過少，這一結(jié)論并不可靠，它不足以證明該公司的股票與氣溫之間存在一定程度的線性相關關系。211547. 1122rnrt【例7-3】假設根據(jù)對樣本觀測數(shù)據(jù)計算出某公司的股票價格與氣溫的樣本相關系數(shù)r=0.5，試問是否可以根據(jù)的顯著水平認為該公司的股票與氣溫之間存在一定程度的線性相關關系?

12、二、標準的一元線性回歸模型 tttuXY2122（一）總體回歸函數(shù) 上式被稱為總體回歸函數(shù)。式中的1和2是未知的參數(shù)，又叫回歸系數(shù)。t和t分別是和的第個觀測值。u t是隨機誤差項，又稱隨機干擾項，它是一個特殊的隨機變量，反映未列入方程式的其他各種因素對的影響。（二）樣本回歸函數(shù) 在現(xiàn)實問題研究中，由于所要研究的現(xiàn)象的總體單位數(shù)一般是很多的，在許多場合甚至是無限的，因此無法掌握因變量總體的全部取值。也就是說，總體回歸函數(shù)事實上是未知的，需要利用樣本的信息對其進行估計。一元線性回歸模型的樣本回歸線可表示為：式中的是樣本回歸線上與t相對應的值，可視為(t)的估計；是樣本回歸函數(shù)的截距系數(shù)，

13、是樣本回歸函數(shù)的斜率系數(shù)，它們是對總體回歸系數(shù)1和2的估計。23ttXY21tY12（二）樣本回歸函數(shù) 實際觀測到的因變量t值，并不完全等于，如果用t表示二者之差, 則有：（，.）上式稱為樣本回歸函數(shù)。式中t稱為殘差。24tYtteXYt21（二）樣本回歸函數(shù) 樣本回歸函數(shù)與總體回歸函數(shù)之間的區(qū)別1、總體回歸線是未知的，它只有一條。而樣本回歸線則是根據(jù)樣本數(shù)據(jù)擬合的，每抽取一組樣本，便可以擬合一條樣本回歸線。2、總體回歸函數(shù)中的1和2是未知的參數(shù)，表現(xiàn)為常數(shù)。而樣本回歸函數(shù)中的和是隨機變量，其具體數(shù)值隨所抽取的樣本觀測值不同而變動。2512（二）樣本回歸函數(shù) 樣本回歸函數(shù)與總體回歸函數(shù)

14、之間的區(qū)別3、總體回歸函數(shù)中的u t是t與未知的總體回歸線之間的縱向距離，它是不可直接觀測的。樣本回歸函數(shù)中的t是t與樣本回歸線之間的縱向距離，當根據(jù)樣本觀測值擬合出樣本回歸線之后，可以計算出t的具體數(shù)值。 26(三)誤差項的標準假定假定：誤差項的期望值為，即對所有的總有假定：誤差項的方差為常數(shù)，即對所有的總有假定：誤差項之間不存在序列相關關系，其協(xié)方差為零，即當時有：270)(tuE22)()(ttuEuVar0)Cov(stuu(三)誤差項的標準假定假定：自變量是給定的變量，與隨機誤差項線性無關。假定：隨機誤差項服從正態(tài)分布。滿足以上標準假定的一元線性模型，稱為標準的一元線性回歸模型。

15、28三、一元線性回歸模型的估計（一）回歸系數(shù)的點估計所謂最小二乘法就是根據(jù)這一思路，是通過使殘差平方和為最小來估計回歸系數(shù)的一種方法。 2922)(tttYYeQ設221)(ttXY0)(221ttXY0)(221tttXYX三、一元線性回歸模型的估計（一）回歸系數(shù)的點估計加以整理后有222)(ttttttXXnYXYXnXYnXnYtt22130ttYXn21ttttYXXX221以上方程組稱為正規(guī)方程組或標準方程組，式中的以上方程組稱為正規(guī)方程組或標準方程組，式中的是樣本容量。求解這一方程組可得：是樣本容量。求解這一方程組可得：（一）回歸系數(shù)的點估計【例7-】我們利用例7-2的表7-

16、1中已給出我國歷年城鎮(zhèn)居民人均消費支出和人均可支配收入的數(shù)據(jù)，來估計我國城鎮(zhèn)居民的邊際消費傾向和基礎消費水平。解：t12tut=50.07312-0.751162.976120.2310317511. 062.976372.666112 50.07362.976 294.453912221（一）回歸系數(shù)的點估計【例7-】我們利用例7-2的表7-1中已給出我國歷年城鎮(zhèn)居民人均消費支出和人均可支配收入的數(shù)據(jù)，來估計我國城鎮(zhèn)居民的邊際消費傾向和基礎消費水平。樣本回歸方程為：上式中：0.7511是邊際消費傾向，表示人均可支配收入每增加1千元，人均消費支出會增加0.7511千元；0.2310是基本消費

17、水平，即與收入無關最基本的人均消費為0.2310千元。 32ttXY7511. 02310. 0（二）總體方差的估計數(shù)學上可以證明，2的無偏估計S2可由下式給出：式中，分子是殘差平方和,分母是自由度，其中是樣本觀測值的個數(shù)，是一元線性回歸方程中回歸系數(shù)的個數(shù)。）S2的正平方根又叫做回歸估計的標準誤差。一般采用以下公式計算殘差平方和：上式的推導過程如下： 33222neSttttttYXYYe2122tttttttttttttYXYYXYYeYeXYe21221212)()(（二）總體方差的估計【例7-】根據(jù)例7-中給出的有關數(shù)據(jù)和例7-中已得到的回歸系數(shù)估計值，計算我國城鎮(zhèn)居民消費函數(shù)的

18、總體方差S2和回歸估計標準差S。解：根據(jù)例7-中給出的有關數(shù)據(jù)和例7-中已得到的回歸系數(shù)估計值，可得： =232.7719-0.231050.073-0.7511294.4539=0.0407S2=0.0407/(12-2)=0.00407 進而有：S=0.0638 342te（三）最小二乘估計量的性質(zhì)按照最小二乘法求得的估計總體回歸系數(shù)的數(shù)學公式是樣本觀測值的函數(shù)，通常稱之為最小二乘估計量?？梢宰C明，在標準假定能夠得到滿足的條件下，回歸系數(shù)的最小二乘估計量的期望值等于其真值，即有：其方差為：和的期望值與方差的推導過程基本類似。3511)(E22)(E122221)(1)(1XXXnVar

19、t2222)()(2XXVart（三）最小二乘估計量的性質(zhì)數(shù)學上可以證明：最小二乘估計量是因變量觀測值t的線性函數(shù)，其期望值等于總體回歸系數(shù)的真值。因此，最小二乘估計量是總體回歸系數(shù)的線性無偏估計量。數(shù)學上還可以進一步證明，在所有的線性無偏估計量中，回歸系數(shù)的最小二乘估計量的方差最??；同時隨著樣本容量的增大，其方差會不斷縮小。也就是說，回歸系數(shù)的最小二乘估計量是最優(yōu)線性無偏估計量和一致估計量。高斯-馬爾可夫定理表明，在標準的假定條件下，最小二乘估計量是一種最佳的估計方式。但是應當明確，這并不意味著根據(jù)這一方式計算的每一個具體的估計值都比根據(jù)其他方式計算的具體估計值更接近真值，而只是表明如果反復

20、多次進行估計值計算或是擴大樣本的容量進行估計值計算，按最佳估計方式計算的估計值接近真值的可能性（概率）最大。 36（四）回歸系數(shù)的區(qū)間估計根據(jù)第五章中介紹的關于參數(shù)區(qū)間估計的原理，可得到以下回歸系數(shù)區(qū)間估計的公式：（j =1,2）式中，是回歸系數(shù)估計的樣本標準誤差，是顯著水平為，自由度為(n-2)的分布雙側(cè)臨界值。37jStnj)2(2/jS/ 2(2)nt121()tXSnXX22()tSSXX（四）回歸系數(shù)的區(qū)間估計【例7-6】利用例7-的有關資料和例7-與例7-的結(jié)果，對例7-中估計的我國城鎮(zhèn)居民邊際消費傾向進行置信度為95的區(qū)間估計。解：查分布表可知：顯著水平為，自由度為10

21、的分布雙側(cè)臨界值是2.228，前面已求得，將其代入回歸系數(shù)區(qū)間估計的公式，可得：38220.06380.0098372.6661 62.976 /12S20.75110980 . 0282 . 25117 . 00980 . 0282 . 25117 . 0220.72930.7729即即四、一元線性回歸模型的檢驗（一）回歸模型檢驗的種類回歸模型的檢驗包括理論意義檢驗、一級檢驗和二級檢驗。理論意義檢驗主要涉及參數(shù)估計值的符號和取值區(qū)間，如果它們與實質(zhì)性科學的理論以及人們的實踐經(jīng)驗不相符，就說明模型不能很好地解釋現(xiàn)實的現(xiàn)象。例如，在前面所舉的消費函數(shù)中，2的取值區(qū)間應在至之間。在對實際的

22、社會經(jīng)濟現(xiàn)象進行回歸分析時，常常會遇到經(jīng)濟意義檢驗不能通過的情況。造成這一結(jié)果的主要原因是：社會經(jīng)濟的統(tǒng)計數(shù)據(jù)無法像自然科學中的統(tǒng)計數(shù)據(jù)那樣通過有控制的實驗去取得，因而所觀測的樣本容量有可能偏小，不具有足夠的代表性，或者不能滿足標準線性回歸分析所要求的假定條件。39四、一元線性回歸模型的檢驗一級檢驗又稱統(tǒng)計學檢驗，它是利用統(tǒng)計學中的抽樣理論來檢驗樣本回歸方程的可靠性，具體又可分為擬合程度評價和顯著性檢驗。一級檢驗是對所有現(xiàn)象進行回歸分析時都必須通過的檢驗。二級檢驗又稱經(jīng)濟計量學檢驗，它是對標準線性回歸模型的假定條件能否得到滿足進行檢驗，具體包括序列相關檢驗、異方差性檢驗、多重共線性檢驗等。二

23、級檢驗對于社會經(jīng)濟現(xiàn)象的定量分析具有特別重要的意義。40四、一元線性回歸模型的檢驗（二）擬合程度的評價總離差平方和的分解對任一實際觀測值t總有：對上式兩邊取平方并求和，得到：可以證明：從而有：即 41()()()()ttttttYYYYYYYYe222()()()2()()tttttttYYYYYYYYYY()()0tttYYYY222()()()ttttYYYYYY四、一元線性回歸模型的檢驗上式中，是總離差平方和；是由回歸直線可以解釋的那一部分離差平方和，稱為回歸平方和；是用回歸直線無法解釋的離差平方和，稱為殘差平方和。式子兩邊同除以，得：顯而易見，各個樣本觀測點與樣本回歸直線靠

24、得越緊，SSR在SST中所占的比例就越大。因此，可定義這一比例為決定系數(shù)，即有：決定系數(shù)是對回歸模型擬合程度的綜合度量，決定系數(shù)越大，模型擬合程度越高。決定系數(shù)越小，則模型對樣本的擬合程度越差。 421SSRSSESSTSST21SSRSSErSSTSST （二）擬合程度的評價決定系數(shù)r2具有如下特性：1決定系數(shù)r2具有非負性。由決定系數(shù)的定義式可知， r2的分子分母均是不可能為負值的平方和，因此其比值必大于零。（但是在回歸模型中不包括截距項的場合，由于總離差平方和的分解公式不成立，按該式計算的r2有可能小于。）2決定系數(shù)的取值范圍為 r2 。3決定系數(shù)是樣本觀測值的函數(shù)，它也是一個統(tǒng)計

25、量。4在一元線性回歸模型中，決定系數(shù)是單相關系數(shù)的平方。43（二）擬合程度的評價【例7-7】利用例7-5中計算的殘差平方和，計算例7-3所擬合的樣本回歸方程的決定系數(shù)。解：上式中的SST是利用表7-1中給出的數(shù)據(jù)按下式計算的：4420.040710.998223.8298SSErSST 222() /232.7719(50.073) /1223.8298ttSSTYYn（三）顯著性檢驗所謂回歸系數(shù)的顯著性檢驗，就是根據(jù)樣本估計的結(jié)果對總體回歸系數(shù)的有關假設進行檢驗。下面我們以2的檢驗為例，介紹回歸系數(shù)顯著性檢驗的基本步驟：45（三）顯著性檢驗 1t 檢驗（1）提出假設。對回歸系數(shù)進行顯著性

26、檢驗，所提出的假設的一般形式是：式中，o表示原假設；1表示備擇假設；是假設的總體回歸系數(shù)的真值。在許多回歸分析的計算機程序里，常常令 0。這是因為2 是否為，可以表明對是否有顯著的影響。46*022122:,:HH*2*2（三）顯著性檢驗（2）確定顯著水平。顯著水平的大小應根據(jù)犯哪一類錯誤可能帶來損失的大小確定。一般情況下可取0.05。（3）計算回歸系數(shù)的值。上式中，是回歸系數(shù)估計的標準誤差。 4722*22tS（三）顯著性檢驗（4）確定臨界值。t檢驗的臨界值是由顯著水平和自由度df決定的。這時應該注意，原假設和備擇假設設定的方式不同，據(jù)以判斷的接受域和拒絕域也不相同。例如，對0：2

27、=0，1：20,進行的是雙側(cè)檢驗；而對0：2=0.9，1：2k。我們稱這條假定為標準假定6。65tktkttuXXY221tktktteXXY221 （一）回歸系數(shù)的估計多元線性回歸模型中回歸系數(shù)的估計同樣采用最小二乘法。設根據(jù)微積分中求極小值的原理，可知殘差平方和存在極小值，欲使達到最小，對的偏導數(shù)必須等于零。將對求偏導數(shù)，并令其等于零，加以整理后可得到以下個方程式：以上元一次方程組稱為正規(guī)方程組或標準方程組，通過求解這一方程組便可以得到。 66222122)()(ktktttttXXYYYeQk，、21k，、21tktktkkttktttkttktttktktYXXXXXYXXX

28、XXYXXn22212222221221k，、21（二）總體方差的估計多元線性回歸模型中的2也是利用殘差平方和除以其自由度來估計的。即有：上式中，n是樣本觀測值的個數(shù)；k是方程中回歸系數(shù)的個數(shù)；數(shù)學上可以證明，S2是2的無偏估計。S2的正平方根S又叫做回歸估計的標準誤差。 S越小表明樣本回歸方程的代表性越強。在編制計算機程序時，殘差平方和一般不是按照其定義式計算，而是利用以下公式計算：上式是殘差平方和的矩陣形式。式中Y是因變量樣本觀測值向量；X是自變量樣本觀測值矩陣；是回歸系數(shù)估計值向量的轉(zhuǎn)置向量。 67kneSt22YXYYee2te三、多元線性回歸模型的檢驗和預測（一）擬合程度的評價

29、利用R2來評價多元線性回歸方程的擬合程度，必須注意以下問題。由決定系數(shù)的定義可知， R2的大小取決于殘差平方和在總離差平方和中所占的比重。在樣本容量一定的條件下，總離差平方和與自變量的個數(shù)無關，而殘差平方和則會隨著模型中自變量個數(shù)的增加不斷減少，至少不會增加。因此， R2是自變量個數(shù)的非遞減函數(shù)。在一元線性回歸模型中，所有模型包含的變量數(shù)目都相同，如果所使用的樣本容量也一樣，決定系數(shù)便可以直接作為評價擬合程度的尺度。然而在多元線性回歸模型中，各回歸模型所含的變量的數(shù)目未必相同，以R2的大小作為衡量擬合優(yōu)劣的尺度是不合適的。 68222)(1YYeRtt2te2)YYt（在多元回歸分析中，

30、人們更常用的評價指標是所謂的修正自由度的決定系數(shù)。該指標的定義如下：式中，n是樣本容量；k是模型中回歸系數(shù)的個數(shù)。（ n -）和（ n - k ）實際上分別是總離差平方和與殘差平方和的自由度。69)1 ()() 1(1) 1/()()/(12222RknnnYYkneRtt修正自由度的決定系數(shù)具有以下特點：1. 。因為k1，所以根據(jù) 和R2各自的定義式可以得出這一結(jié)論。對于給定的R2值和n值， k值越大越小。在進行回歸分析時，一般總是希望以盡可能少的自變量去達到盡可能高的擬合程度。作為綜合評價這兩方面情況的一項指標顯然比R2更為合適。2. 小于1，但未必都大于0。在擬合極差的場合，有可能

31、取負值。 7022RR 2R2R2R2R【例7-10】假設有7年的年度統(tǒng)計資料，現(xiàn)利用其對同一因變量擬合了兩個樣本回歸方程。方程一中：k=6， R2=0.82；方程二中：k=2， R2 =0.80。試對這兩個回歸方程的擬合程度做出評價。解：如果僅從R2考察，似乎方程一的擬合程度更佳。但是，由于兩個方程選用的自變量個數(shù)不同，這一結(jié)論是不正確的。將上列數(shù)據(jù)代入修正自由度的決定系數(shù) 公式，可得：方程一的 =1-(7-1)/(7-6)(1-0.82)=-0.08方程二的 =1-(7-1)/(7-2)(1-0.80)=0.76由此可見，方程二的實際擬合程度遠遠優(yōu)于方程一。712R2R(二)顯著性檢驗1回

32、歸系數(shù)的顯著性檢驗多元回歸中進行這一檢驗的目的主要是為了檢驗與各回歸系數(shù)對應的自變量對因變量的影響是否顯著，以便對自變量的取舍做出正確的判斷。一般來說，當發(fā)現(xiàn)某個自變量的影響不顯著時，應將其從模型中刪除。這樣才能夠做到以盡可能少的自變量去達到盡可能高的擬合優(yōu)度。多元模型中回歸系數(shù)的檢驗同樣采用檢驗和P檢驗，其原理和基本步驟與一元回歸模型基本相同，這里不再贅述。下面僅給出回歸系數(shù)顯著性檢驗統(tǒng)計量的一般計算公式。 72 j=1,2,k式中，是回歸系數(shù)的估計值，是的標準差的估計值，其按下式計算：式中，是(XX)-1的第j個對角線元素，S2是隨機誤差項方差的估計值。上式的 t 統(tǒng)計量背后的原假設

33、是0：j=0，因此 t 的絕對值越大表明j為0的可能性越小，即表明相應的自變量對因變量的影響是顯著的。73jjStj/jjSjjSSj2jj2回歸方程的顯著性檢驗必須在方差分析的基礎上利用檢驗進行。其具體的方法步驟可歸納如下：（1）假設總體回歸方程不顯著，即有H0：23k0 （2）進行方差分析，列出回歸方差分析表（見下表）74回歸模型方差分析表表中，回歸平方和的取值受個回歸系數(shù)估計值的影響，同時又要服從的約束條件，因此其自由度是k-1。殘差平方和取決于n個因變量的觀測值，同時又要服從k個正規(guī)方程式的約束，因此其自由度是n-k。回歸平方和與殘差平方和各除以自身的自由度得到的是樣本方差。75

34、YnYt/（3）根據(jù)方差分析的結(jié)果求統(tǒng)計量，即數(shù)學上可以證明，在隨機誤差項服從正態(tài)分布同時原假設成立的條件下，服從于自由度為(k-1)和(n-k)的分布。（4）根據(jù)自由度和給定的顯著性水平，查F分布表中的理論臨界值F。當F F時，拒絕原假設，即認為總體回歸函數(shù)中各自變量與因變量的線性回歸關系顯著。當F F時，接受原假設，即認為總體回歸函數(shù)中，自變量與因變量的線性關系不顯著，因而所建立的回歸模型沒有意義。 76/(1) /()SSRkFSSEnk（三）多元線性回歸預測在通過各種檢驗的基礎上，多元線性回歸模型可以用于預測。多元線性回歸預測與一元線性回歸預測的原理是一致的，其基本公式如下：式中，Xjf(j=2,3,k)是給定的Xj在預測期的具體數(shù)值；是已估計出的樣本回歸系數(shù)；是Xj給定時的預測值。該方程的矩陣形式為：77kfkffXXY221jfYffY X 式中：多元線性回歸預測標準誤差的計算公式如下：式中，S是回歸方程估計的標準誤差。多元線性回歸預測f的（）的置信區(qū)間可由下式給出：式中，t/2是顯著水平為的t分布雙側(cè)臨界值。 7822()11()feftXXSSnXX/ 2(2)nfefYtSkfffXX21Xk21四、復相關系數(shù)和偏相關系數(shù) （一）復相關系數(shù)樣本復相關系數(shù)（以下簡稱復相關系數(shù)）的定義式如下：實際計算復相關系數(shù)時，一般不直接根據(jù)其定義式，而是先計算

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第七章相關與回歸分析

文檔簡介

溫馨提示

最新文檔

評論

第七章相關與回歸分析

文檔簡介

溫馨提示

最新文檔

評論

相關文檔