版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統(tǒng)計學導論1統(tǒng)計學導論1第七章相關與回歸分析第一節(jié)相關與回歸分析的基本概念第二節(jié)簡單線性相關與回歸分析第三節(jié)多元線性相關與回歸分析第四節(jié)Excel在相關與回歸分析中的應用2第七章相關與回歸分析第一節(jié)相關與回歸分析的基本概念第一節(jié)相關與回歸分析的基本概念一、函數(shù)關系與相關關系二、相關關系的種類三、相關分析與回歸分析四、相關圖3第一節(jié)相關與回歸分析的基本概念一、函數(shù)關系與相關關系3一、函數(shù)關系與相關關系函數(shù)關系:當一個或幾個變量取一定的值時,另一個變量有確定值與之相對應。例如,商品的銷售收入Y與該商品的銷售量X以及該商品價格P之間的關系。相關關系:當一個或幾個相互聯(lián)系的變量取一定數(shù)值時,與之相對應的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內變化。例如,勞動生產率與工資水平的關系。4一、函數(shù)關系與相關關系函數(shù)關系:當一個或幾個變量取一定的值時變量之間的函數(shù)關系和相關關系,在一定條件下是可以互相轉化的。本來具有函數(shù)關系的變量,當存在觀測誤差時,其函數(shù)關系往往以相關的形式表現(xiàn)出來。而具有相關關系的變量之間的聯(lián)系,如果我們對它們有了深刻的規(guī)律性認識,并且能夠把影響因變量變動的因素全部納入方程,這時的相關關系也可能轉化為函數(shù)關系。5變量之間的函數(shù)關系和相關關系,在一定條件下是可以互相轉化的。相關關系也具有某種變動規(guī)律性,所以,相關關系經??梢杂靡欢ǖ暮瘮?shù)形式去近似地描述??陀^現(xiàn)象的函數(shù)關系可以用數(shù)學分析的方法去研究,而研究客觀現(xiàn)象的相關關系必須借助于統(tǒng)計學中的相關與回歸分析方法。6相關關系也具有某種變動規(guī)律性,所以,相關關系經??梢杂靡欢ǖ睦号袛嘞铝嘘P系是什么關系?1)物體體積隨溫度升高而膨脹,隨壓力加大而壓縮;2)測量次數(shù)愈多,其平均長度愈接近實際值;3)家庭收入愈多,其消費支出也有增長趨勢;4)秤砣的誤差愈大,權衡的誤差愈大;5)物價愈上漲,商品的需求量愈?。?)文化程度愈高,人口平均壽命也愈長;7)園的半徑愈長,園也愈長;8)農作物產量與雨量、施肥量等有密切關系。7例:判斷下列關系是什么關系?7二、相關關系的種類按相關的程度可分為完全相關、不完全相關和不相關。完全相關:當一種現(xiàn)象的數(shù)量變化完全由另一個現(xiàn)象的數(shù)量變化所確定時。相關關系便成為函數(shù)關系。也可以說函數(shù)關系是相關關系的一個特例。不相關:當兩個現(xiàn)象彼此互不影響,其數(shù)量變化各自獨立時。不完全相關:兩個現(xiàn)象之間的關系介于完全相關和不相關之間。8二、相關關系的種類按相關的程度可分為完全相關、不完全相關和按相關的方向可分為正相關和負相關。當一個現(xiàn)象的數(shù)量增加(或減少),另一個現(xiàn)象的數(shù)量也隨之增加(或減少)時,稱為正相關。例如,消費水平隨收入的增加而提高。當一個現(xiàn)象的數(shù)量增加(或減少),而另一個現(xiàn)象的數(shù)量向相反方向變動時,稱為負相關。例如商品流轉的規(guī)模愈大,流通費用水平則愈低。9按相關的方向可分為正相關和負相關。9按相關的形式可分為線性相關和非線性相關。10按相關的形式可分為線性相關和非線性相關。10按所研究的變量多少可分為單相關、復相關和偏相關。兩個變量之間的相關,稱為單相關。當所研究的是一個變量對兩個或兩個以上其他變量的相關關系時,稱為復相關。在某一現(xiàn)象與多種現(xiàn)象相關的場合,假定其他變量不變,專門考察其中兩個變量的相關關系稱為偏相關。例如,在假定人們的收入水平不變的條件下,某種商品的需求與其價格水平的關系就是一種偏相關。11按所研究的變量多少可分為單相關、復相關和偏相關。11三、相關分析與回歸分析相關分析是用一個指標來表明現(xiàn)象間相互依存關系的密切程度?;貧w分析是根據相關關系的具體形態(tài),選擇一個合適的數(shù)學模型,來近似地表達變量間的平均變化關系。相關分析和回歸分析有著密切的聯(lián)系,它們不僅具有共同的研究對象,而且在具體應用時,常常必須互相補充。12三、相關分析與回歸分析相關分析是用一個指標來表明現(xiàn)象間相互相關分析與回歸分析之間在研究目的和方法上是有明顯區(qū)別的。相關分析研究變量之間相關的方向和相關的程度?;貧w分析則是研究變量之間相互關系的具體形式,它對具有相關關系的變量之間的數(shù)量聯(lián)系進行測定,確定一個相關的數(shù)學表達式,根據這個數(shù)學方程式可以從已知量來推測未知量,從而為估算和預測提供一個重要的方法。相關分析不必確定變量中哪個是自變量,哪個是因變量,其所涉及的變量可以都是隨機變量。回歸分析則必須事先確定哪個為自變量,哪個為因變量。因變量是隨機的,而自變量是給定的非隨機變量。13相關分析與回歸分析之間在研究目的和方法上是有明顯區(qū)別的。13【例7-1】教堂數(shù)與監(jiān)獄服刑人數(shù)同步增長。(引自吳柏林《現(xiàn)代統(tǒng)計學》,吳南圖書出版有限公司,1999年版。)美國印第安納州的地區(qū)教會想要籌款興建新教堂,提出教堂能潔凈人們的心靈,減少犯罪,降低監(jiān)獄服刑人數(shù)的口號。教會的神父收集了近15年的教堂數(shù)與在監(jiān)獄服刑的人數(shù)進行統(tǒng)計分析。結論:最近15年教堂數(shù)與監(jiān)獄服刑人數(shù)呈顯著的正相關。也就是說,教堂建得越多,就可能帶來更多的犯罪呢?深入討論,并進一步收集近15年的當?shù)厝丝谧儎淤Y料和犯罪率等資料作進一步分析,發(fā)現(xiàn)監(jiān)獄服刑人數(shù)的增加和教堂數(shù)的增加都與人口的增加有關。教堂數(shù)的增加并非監(jiān)獄服刑人數(shù)增加的原因。至此,教會人士總算松了一口氣。14【例7-1】教堂數(shù)與監(jiān)獄服刑人數(shù)同步增長。(引自吳柏林《現(xiàn)代四、相關圖相關圖又稱散點圖。它是以直角坐標系的橫軸代表變量X,縱軸代表變量Y,將兩個變量間相對應的變量值用坐標點的形式描繪出來,用來反映兩變量之間相關關系的圖形。15四、相關圖相關圖又稱散點圖。它是以直角坐標系的橫軸代表變量五、回歸分析的種類1)簡單回歸分析——是指研究兩個變量之間相關關系的回歸分析。線性回歸分析:兩個變量之間的線性方程非線性回歸分析:兩個變量之間的曲線方程2)多元回歸分析——是指研究兩個以上變量之間相關關系的回歸分析。多元線性回歸分析:一個因變量和多個自變量之間的線性關系16五、回歸分析的種類1)簡單回歸分析——是指研究兩個變量之間相第二節(jié)簡單線性相關與回歸分析一、相關系數(shù)及其檢驗二、標準的一元線性回歸模型三、一元線性回歸模型的估計四、一元線性回歸模型的檢驗五、一元線性回歸模型預測17第二節(jié)簡單線性相關與回歸分析一、相關系數(shù)及其檢驗17一、相關系數(shù)及其檢驗(一)相關系數(shù)的定義總體相關系數(shù)的定義式是 總體相關系數(shù)是反映兩變量之間線性相關程度的一種特征值,表現(xiàn)為一個常數(shù)。樣本相關系數(shù)的定義公式是 是根據樣本觀測值計算的,抽取的樣本不同,其具體的數(shù)值也會有所差異。樣本相關系數(shù)是總體相關系數(shù)的一致估計量。18一、相關系數(shù)及其檢驗(一)相關系數(shù)的定義18(二)相關系數(shù)的特點r的取值介于-1與1之間。當r=0時,X與Y的樣本觀測值之間沒有線性關系。在大多數(shù)情況下,0<|r|<0,即X與Y的樣本觀測值之間存在著一定的線性關系,當r>0時,X與Y為正相關,當r<0時,X與Y為負相關。如果|r|=1,則表明X與Y完全線性相關,當r=1時,稱為完全正相關,而r=-1時,稱為完全負相關。r是對變量之間線性相關關系的度量。r=0只是表明兩個變量之間不存在線性關系,它并不意味著X與Y之間不存在其他類型的關系。19(二)相關系數(shù)的特點19(三)相關系數(shù)的計算具體計算樣本相關系數(shù)時,通常利用以下公式:20(三)相關系數(shù)的計算20【例7-2】表7-1是1992年-2003年我國城鎮(zhèn)居民人均年消費性支出和人均年可支配收入的有關資料,試計算消費性支出與可支配收入的樣本相關系數(shù)。21【例7-2】表7-1是1992年-2003年我國城鎮(zhèn)居民人22222323(四)相關系數(shù)的檢驗對總體相關系數(shù)是否等于0進行檢驗。計算相關系數(shù)r的t值:根據給定的顯著性水平和自由度(n-2),查找t分布表中相應的臨界值tα/2。若|t|≥tα/2,表明r在統(tǒng)計上是顯著的。若|t|≤tα/2,表明r在統(tǒng)計上是不顯著的。ρ24(四)相關系數(shù)的檢驗ρ24目的:虛假相關——是指當r趨近于1時,理論上認為變量之間具有高度的相關關系,但實際上這兩個變量之間毫無因果關系。如:印度的糧食產量與美國的啤酒價格理論上r趨近于1。25目的:虛假相關——是指當r趨近于1時,理論上認為變量之間具有【例7-3】假設根據6對樣本觀測數(shù)據計算出某公司的股票價格與氣溫的樣本相關系數(shù)r=0.5,試問是否可以根據5%的顯著水平認為該公司的股票與氣溫之間存在一定程度的線性相關關系?26【例7-3】假設根據6對樣本觀測數(shù)據計算出某公司的股票價格與解:H0:ρ=0;H1:ρ≠0
r的t檢驗值
查表可知:顯著水平為5%,自由度為4的臨界值tα/2=2.776,上式中的t值小于2.776,因此,r不能通過顯著性檢驗。這就是說,盡管根據樣本觀測值計算的r達到0.5,但是由于樣本單位過少,這一結論并不可靠,它不足以證明該公司的股票與氣溫之間存在一定程度的線性相關關系。27解:27二、標準的一元線性回歸模型(一)總體回歸函數(shù)上式被稱為總體回歸函數(shù)。式中的β1和β2是未知的參數(shù),又叫回歸系數(shù)。Yt和Xt分別是Y和X的第t個觀測值。ut是隨機誤差項,又稱隨機干擾項,它是一個特殊的隨機變量,反映未列入方程式的其他各種因素對Y的影響。28二、標準的一元線性回歸模型(一)總體回歸函數(shù)28(二)樣本回歸函數(shù)在現(xiàn)實問題研究中,總體回歸函數(shù)事實上是未知的,需要利用樣本的信息對其進行估計。一元線性回歸模型的樣本回歸線可表示為:式中的是樣本回歸線上與Xt相對應的Y值,可視為E(Yt)的估計;是樣本回歸函數(shù)的截距系數(shù),是樣本回歸函數(shù)的斜率系數(shù),它們是對總體回歸系數(shù)β1和β2的估計。29(二)樣本回歸函數(shù)29實際觀測到的因變量Yt值,并不完全等于,如果用et表示二者之差,則有:(t=1,2,...n)上式稱為樣本回歸函數(shù)。式中et稱為殘差。30實際觀測到的因變量Yt值,并不完全等于,如果用et樣本回歸函數(shù)與總體回歸函數(shù)之間的區(qū)別??傮w回歸線是未知的,它只有一條。而樣本回歸線則是根據樣本數(shù)據擬合的,每抽取一組樣本,便可以擬合一條樣本回歸線??傮w回歸函數(shù)中的β1和β2是未知的參數(shù),表現(xiàn)為常數(shù)。而樣本回歸函數(shù)中的和是隨機變量,其具體數(shù)值隨所抽取的樣本觀測值不同而變動??傮w回歸函數(shù)中的ut是Yt與未知的總體回歸線之間的縱向距離,它是不可直接觀測的。而樣本回歸函數(shù)中的et是Yt與樣本回歸線之間的縱向距離,當根據樣本觀測值擬合出樣本回歸線之后,可以計算出et的具體數(shù)值。31樣本回歸函數(shù)與總體回歸函數(shù)之間的區(qū)別。31(三)誤差項的標準假定假定1:誤差項的期望值為0,即對所有的t總有假定2:誤差項的方差為常數(shù),即對所有的t總有假定3:誤差項之間不存在序列相關關系,其協(xié)方差為零,即當t≠s時有:假定4:自變量是給定的變量,與隨機誤差項線性無關。假定5:隨機誤差項服從正態(tài)分布。 滿足以上標準假定的一元線性模型,稱為標準的一元線性回歸模型。32(三)誤差項的標準假定32三、一元線性回歸模型的估計(一)回歸系數(shù)的點估計方法:最小二乘法,其依據是使殘差平方和為最小加以整理后有
以上方程組稱為正規(guī)方程組或標準方程組,式中的n是樣本容量。求解這一方程組可得:33三、一元線性回歸模型的估計(一)回歸系數(shù)的點估計加以整理后的意義是什么?當自變量變動一個單位時,因變量變動的值34的意義是什么?當自變量變動一個單位時,因變量變動的值34【例7-4】我們利用例7-2的表7-1中已給出我國歷年城鎮(zhèn)居民人均消費支出和人均可支配收入的數(shù)據,來估計我國城鎮(zhèn)居民的邊際消費傾向和基礎消費水平。解:Yt=β1+β2Xt+ut
=50.073÷12-0.7511×62.976÷12=0.2310樣本回歸方程為:上式中:0.7511是邊際消費傾向,表示人均可支配收入每增加1千元,人均消費支出會增加0.7511千元;0.2310是基本消費水平,即與收入無關最基本的人均消費為0.2310千元。35【例7-4】我們利用例7-2的表7-1中已給出我國歷年城鎮(zhèn)居例:已知某局下10個企業(yè)銷售收入與銷售利潤的數(shù)據資料如下:試求兩者的回歸直線方程。(單位是萬元)36例:已知某局下10個企業(yè)銷售收入與銷售利潤的數(shù)據資料如下:解:散點圖為:37解:散點圖為:37計算表格:38計算表格:38代入公式計算得:則方程為:39代入公式計算得:39(二)總體方差的估計數(shù)學上可以證明,σ2的無偏估計S2可由下式給出:
式中,分子是殘差平方和,分母是自由度,其中n是樣本觀測值的個數(shù),2是一元線性回歸方程中回歸系數(shù)的個數(shù)。S2的正平方根又叫做回歸估計的標準誤差。一般采用以下公式計算殘差平方和:40(二)總體方差的估計40【例7-5】根據例7-2中給出的有關數(shù)據和例7-4中已得到的回歸系數(shù)估計值,計算我國城鎮(zhèn)居民消費函數(shù)的總體方差S2和回歸估計標準差S。解:根據例7-2中給出的有關數(shù)據和例7-4中已得到的回歸系數(shù)估計值,可得:=232.7719-0.2310×50.073-0.7511×294.4539=0.0407 S2=0.0407/(12-2)=0.00407 進而有:S=0.063841【例7-5】根據例7-2中給出的有關數(shù)據和例7-4中已得到的(三)最小二乘估計量的性質1、無偏性:在標準假定能夠得到滿足的條件下,回歸系數(shù)的最小二乘估計量的期望值等于其真值,即有:2、有效性:回歸系數(shù)的最小二乘估計量的方差最小;其方差為:3、一致性:如果隨著樣本容量的增加,估計量越來越接近于真值。42(三)最小二乘估計量的性質42(四)回歸系數(shù)的區(qū)間估計根據第五章中介紹的關于參數(shù)區(qū)間估計的原理,可得到以下回歸系數(shù)區(qū)間估計的公式:(j=1,2)式中,是回歸系數(shù)估計的樣本標準誤差,是顯著水平為α,自由度為(n-2)的t分布雙側臨界值。43(四)回歸系數(shù)的區(qū)間估計43【例7-6】利用例7-2的有關資料和例7-4與例7-5的結果,對例7-4中估計的我國城鎮(zhèn)居民邊際消費傾向進行置信度為95%的區(qū)間估計。解: 查t分布表可知:顯著水平為5%,自由度為10的t分布雙側臨界值是2.228,前面已求得,將其代入回歸系數(shù)區(qū)間估計的公式,可得:44【例7-6】利用例7-2的有關資料和例7-4與例7-5的結果四、一元線性回歸模型的檢驗(一)回歸模型檢驗的種類回歸模型的檢驗包括理論意義檢驗、一級檢驗和二級檢驗。理論意義檢驗主要涉及參數(shù)估計值的符號和取值區(qū)間,如果它們與實質性科學的理論以及人們的實踐經驗不相符,就說明模型不能很好地解釋現(xiàn)實的現(xiàn)象。例如,在前面所舉的消費函數(shù)中,β2的取值區(qū)間應在0至1之間。在對實際的社會經濟現(xiàn)象進行回歸分析時,常常會遇到經濟意義檢驗不能通過的情況。造成這一結果的主要原因是:所觀測的樣本容量有可能偏小,不具有足夠的代表性,或者不能滿足標準線性回歸分析所要求的假定條件。45四、一元線性回歸模型的檢驗(一)回歸模型檢驗的種類45一級檢驗又稱統(tǒng)計學檢驗,它是利用統(tǒng)計學中的抽樣理論來檢驗樣本回歸方程的可靠性,具體又可分為擬合程度評價和顯著性檢驗。一級檢驗是對所有現(xiàn)象進行回歸分析時都必須通過的檢驗。二級檢驗又稱經濟計量學檢驗,它是對標準線性回歸模型的假定條件能否得到滿足進行檢驗,具體包括序列相關檢驗、異方差性檢驗、多重共線性檢驗等。二級檢驗對于社會經濟現(xiàn)象的定量分析具有特別重要的意義。46一級檢驗又稱統(tǒng)計學檢驗,它是利用統(tǒng)計學中的抽樣理論來檢驗樣本(二)擬合程度的評價總離差平方和的分解 對任一實際觀測值Yt總有:
對上式兩邊取平方并求和,得到:
可以證明:
從而有:
即SST=SSR+SSE
自由度n-1rn-r-147(二)擬合程度的評價47用圖表示:y
0x回歸直線Y的平均數(shù)48用圖表示:y回歸直線Y的平均數(shù)48各自的意義:
總變差(SST)剩余變差(SSE)回歸變差(SSR)說明了各觀察表示實際值圍表示估計值與值與平均值的繞回歸直線的平均值的離差離差平方和。變動程度。它平方和。說明是除了x對y的了x變動引起線性影響外其估計值變動的它隨機因素所程度。引起y的變動。是可以由回歸直線作出解釋的部分是回歸直線不能解釋的部分。49各自的意義:是可以由回歸直線是回歸直線49上式中,SST是總離差平方和;SSR是由回歸直線可以解釋的那一部分離差平方和,稱為回歸平方和;SSE是用回歸直線無法解釋的離差平方和,稱為殘差平方和。式子兩邊同除以SST,得:決定(可決)系數(shù),即有:決定系數(shù)是對回歸模型擬合程度的綜合度量,決定系數(shù)越大,模型擬合程度越高。決定系數(shù)越小,則模型對樣本的擬合程度越差。50上式中,SST是總離差平方和;SSR是由回歸直線可以解釋的那決定系數(shù)r2具有如下特性:1.決定系數(shù)r2具有非負性。 2.決定系數(shù)的取值范圍為0≤r2≤1。3.決定系數(shù)是樣本觀測值的函數(shù),它也是一個統(tǒng)計量。4.在一元線性回歸模型中,決定系數(shù)是相關系數(shù)的平方。二者適用范圍不同:可決系數(shù)適用更廣。51決定系數(shù)r2具有如下特性:51【例7-7】利用例7-5中計算的殘差平方和,計算例7-3所擬合的樣本回歸方程的決定系數(shù)。解: 上式中的SST是利用表7-1中給出的數(shù)據按下式計算的:52【例7-7】利用例7-5中計算的殘差平方和,計算例7-3所擬可決系數(shù)的實際意義是:在人均消費性支出的變差中,有99.82%可以由人均消費性支出與人均可支配收入之間的線性關系來解釋,或者說,在人均消費性支出取值的變動中,有99.82%是由人均可支配收入所決定的??梢娙司M性支出與人均可支配收入之間有較強的線性關系。53可決系數(shù)的實際意義是:53(三)顯著性檢驗所謂回歸系數(shù)的顯著性檢驗,就是根據樣本估計的結果對總體回歸系數(shù)的有關假設進行檢驗。下面我們以β2的檢驗為例,介紹回歸系數(shù)顯著性檢驗的基本步驟:54(三)顯著性檢驗541.t檢驗(1)提出假設。
式中,Ho表示原假設;H1表示備擇假設;是假設的總體回歸系數(shù)的真值。在許多回歸分析的計算機程序里,令=0。這是因為β2是否為0,可以表明X對Y是否有顯著的影響。551.t檢驗55(2)確定顯著水平α。 顯著水平的大小應根據犯哪一類錯誤可能帶來損失的大小確定。一般情況下可取0.05。(3)計算回歸系數(shù)的t值。
上式中,是回歸系數(shù)估計的標準誤差。56(2)確定顯著水平α。56(4)確定臨界值。 t檢驗的臨界值是由顯著水平和自由度df決定的。對H0:β2=0,H1:β2≠0,進行的是雙側t檢驗;對H0:β2=0.9,H1:β2<0.9,進行的是單側t檢驗。(5)做出判斷。 如果的絕對值大于臨界值的絕對值,就拒絕原假設,接受備擇假設;反之,如果的絕對值小于臨界值的絕對值,則接受原假設。57(4)確定臨界值。572.p檢驗 回歸系數(shù)的顯著性檢驗還可以采用p檢驗。其前三步與t檢驗相同,但t值計算出來之后,計算自由度為n-2的t統(tǒng)計量大于或小于根據樣本觀測值計算數(shù)值的概率即p值。然后將其與給定的顯著水平α對比,如果p小于α,則拒絕原假設,反之則接受原假設。利用Excel進行回歸分析時,計算機將直接給出回歸系數(shù)估計的p值。582.p檢驗583、F檢驗假設:檢驗統(tǒng)計量:臨界值:注意:在一元線性回歸中,類似于T檢驗;在多元線性回歸中有其獨立的意義。分母是估計值的標準誤差593、F檢驗分母是估計值的59【例7-8】利用例7-4和例7-6的有關資料和結果,對例7-4中估計的我國城鎮(zhèn)居民邊際消費傾向進行顯著性檢驗。 (1)以5%的顯著水平檢驗可支配收入是否對消費支出有顯著影響。 (2)對Ho:β2=0.8,H1:β2<0.8進行檢驗。
60【例7-8】利用例7-4和例7-6的有關資料和結果,對例7-解: (1)H0:β2=0,H1:β2≠0其次,計算t值=0.7511/0.0098=76.6429 查t分布表可知:顯著水平為5%,自由度為10的雙側t檢驗的臨界值是2.228。以上計算的t值遠遠大于此臨界值,所以拒絕原假設,接受備擇假設,即認為可支配收入對消費支出的影響是非常顯著的。
(2)Ho:β2=0.8,H1:β2<0.8=(0.7511-0.8)/0.0098=-4.9898
查t分布表可知:顯著水平為5%,自由度為10的單側t檢驗的臨界值是1.812。因為計算的t值的絕對值大于此臨界值,所以否定β2=0.8的原假設,接受備擇假設,認為我國城鎮(zhèn)居民的平均消費傾向小于0.8。61解: (1)H0:β2=0,H1:β2≠061例:生產費用與產量的回歸問題,計算數(shù)據為:作F檢驗。解:計算得:62例:生產費用與產量的回歸問題,計算數(shù)據為:62查F分布表得:因為所以,檢驗結果特別顯著。63查F分布表得:63五、一元線性回歸模型預測(一)回歸預測的基本公式簡單回歸預測的基本公式如下:式中,Xf是給定的X的具體數(shù)值;是Xf給定時Y的預測值;回歸預測是一種有條件的預測,在進行回歸預測時,必須先給出Xf的具體數(shù)值。當給出的Xf屬于樣本內的數(shù)值時,利用該式去計算稱為內插檢驗或事后預測。而當給出的Xf在樣本之外時,利用該式去計算稱為外推預測或事前預測。通常所說的預測是指事前預測。64五、一元線性回歸模型預測(一)回歸預測的基本公式64(二)預測誤差在實際的回歸模型預測中,發(fā)生預測誤差的原因可以概括為以下四個:1.模型本身中的誤差因素所造成的誤差;這一誤差可以用總體隨機誤差項的方差來評價。2.由于回歸系數(shù)的估計值同其真值不一致所造成的誤差;這一誤差可以用回歸系數(shù)的最小二乘估計量的方差來評價。3.由于自變量X的設定值同其實際值的偏離所造成的誤差。4.由于未來時期總體回歸系數(shù)發(fā)生變化所造成的誤差。在以上造成預測誤差的原因中,3、4、兩項不屬于回歸方程本身的問題,而且也難以事先予以估計和控制。因此,在下面的討論中,假定只存在1、2、兩種誤差。65(二)預測誤差65 設Xf給定時Y的真值為Yf, Yf=β1+β2Xf+uf 則有 式中,ef是預測的殘差。利用期望值與方差的運算規(guī)則以及前面給出的回歸系數(shù)最小二乘估計量的期望值和方差,可以證明:
在此基礎上,還可以進一步證明是Yf的最優(yōu)線性無偏預測,即在標準假定能夠滿足的情況下,公式是Yf的最佳預測方式。66 設Xf給定時Y的真值為Yf, Yf=β1+β2Xf+uf6(三)區(qū)間預測 若用Sef來表示預測標準誤差的估計值, 則數(shù)學上可以證明:服從于自由度為(n-2)的t分布。按照確定置信區(qū)間的方法,可以得出Yf的(1-α)的置信區(qū)間為: 式中,是置信度為(1-α)、自由度為(n-2)的t分布的臨界值。67(三)區(qū)間預測67對于每一個給定的X值,計算相應的Y的置信區(qū)間,并將連接各點的曲線描繪在平面圖上,便可得到右圖。從置信區(qū)間和Sef的計算公式以及右圖,可以得到以下結論:回歸預測的置信區(qū)間68對于每一個給定的X值,計算相應的Y的置信區(qū)間,并將連接各點的第一,置信區(qū)間的上下限對稱地落在樣本回歸直線兩邊,呈中間小兩頭大的喇叭型。當Xf=時的置信區(qū)間最窄,而當Xf遠離時,其置信間逐漸增大。這就是說,在用回歸模型進行預測時,X
f的取值不宜離開過遠,否則預測精度將會降低,有可能使預測失效。第二,在樣本容量n保持不變時,
的值,隨置信度(1-α)的提高而增加,因此,要求預測值的概率保證程度增加,在其它條件不變時,也就意味著預測精度的降低。第三,當其它條件不變時,和Sef的值均為樣本容量n的減函數(shù),即隨著n的增加,這二者將逐漸減少。這說明隨著樣本容量的增加,預測精度將會提高,而樣本容量過小,預測的精度就較差。69第一,置信區(qū)間的上下限對稱地落在樣本回歸直線兩邊,呈中間小第四,當n足夠大時,Sef會趨近于S;會趨近于zα/2。(zα/2是置信度為(1-α)的標準正態(tài)分布的臨界值)。這時,可以用S和zα/2取代Sef和tα/2來確定預測區(qū)間。即樣本容量充分大時,Yf的(1-α)的置信區(qū)間為:Yf±zα/2×S
70第四,當n足夠大時,Sef會趨近于S;會【例7-9】假定已知某居民家庭的年人均可支配收入為8千元,要求利用例7-4中擬合的樣本回歸方程與有關數(shù)據,計算置信度為95%的年人均消費支出的預測區(qū)間。解:將有關數(shù)據代入擬合好的樣本回歸方程,可得:
從前面幾例的結果可知:S=0.0638,n=12 將其代入求預測標準誤差估計值的公式,有
查t分布表可知:顯著水平為5%,自由度為10的雙側t檢驗的臨界值是2.228。因此,當人均可支配收入為8千元時,置信度為95%的消費支出的預測區(qū)間如下:6.2398-2.228×0.0717≤Yf≤6.2398+2.228×0.07176.0801(千元)≤Yf
≤6.3995(千元)71【例7-9】假定已知某居民家庭的年人均可支配收入為8千元,要例:產量與生產費用的問題,計算數(shù)據為:回歸直線方程為:當某工廠的產量為130千個時,在顯著水平為95%時,對該廠生產費用進行預測。72例:產量與生產費用的問題,計算數(shù)據為:72解:73解:73例:銷售收入與銷售利潤的回歸問題,計算數(shù)據為其回歸直線方程為:當銷售收入為40萬元時,在95%的顯著水平下,對銷售利潤進行預測。74例:銷售收入與銷售利潤的回歸問題,計算數(shù)據為74解:75解:75例:某市的人口數(shù)與豬肉銷售量的資料如表所示。1)求人口數(shù)對豬肉銷售量的回歸直線方程。2)對1)所求的直線作相關檢驗。3)若來年人口數(shù)為56.9萬人時,預測豬肉銷售量將達到多少?顯著水平為95%。76例:某市的人口數(shù)與豬肉銷售量的資料如表所示。76資料表為:77資料表為:77解:1)散點圖:78解:782)直線方程的計算表為:792)直線方程的計算表為:79直線方程為:即:80直線方程為:803)相關系數(shù)的檢驗:n=10,查表得:因為所以,檢驗結果兩個變量之間特別顯著。813)相關系數(shù)的檢驗:814)預測:824)預測:82第三節(jié)多元線性相關與回歸分析一、標準的多元線性回歸模型二、多元線性回歸模型的估計83第三節(jié)多元線性相關與回歸分析一、標準的多元線性回歸模型8一、標準的多元線性回歸模型研究在線性相關條件下,兩個和兩個以上自變量對一個因變量的數(shù)量變化關系,稱為多元線性回歸分析,表現(xiàn)這一數(shù)量關系的數(shù)學公式,稱為多元線性回歸模型。多元線性回歸模型總體回歸函數(shù)的一般形式如下:多元線性回歸模型的樣本回歸函數(shù)如下:(t=1,2,…,n)上式中,et是Yt與其估計之間的離差,即殘差。多元線性回歸分析的標準假定除了包括上一節(jié)中已經提出的關于隨機誤差項的假定外,還要追加一條假定。這就是回歸模型所包含的自變量之間不能具有較強的線性關系,同時樣本容量必須大于所要估計的回歸系數(shù)的個數(shù)即n>k。我們稱這條假定為標準假定6。84一、標準的多元線性回歸模型研究在線性相關條件下,兩個和兩個以二、多元線性回歸模型的估計(一)回歸系數(shù)的估計多元線性回歸模型中回歸系數(shù)的估計同樣采用最小二乘法。設根據微積分中求極小值的原理,可知殘差平方和Q存在極小值,欲使Q達到最小,Q對的偏導數(shù)必須等于零。將Q對求偏導數(shù),并令其等于零,加以整理后可得到以下k個方程式:
以上k元一次方程組稱為正規(guī)方程組或標準方程組,通過求解這一方程組便可以得到。85二、多元線性回歸模型的估計(一)回歸系數(shù)的估計85(二)總體方差的估計多元線性回歸模型中的σ2也是利用殘差平方和除以其自由度來估計的。即有:上式中,n是樣本觀測值的個數(shù);k是方程中回歸系數(shù)的個數(shù);數(shù)學上可以證明,S2是σ2的無偏估計。S2的正平方根S又叫做回歸估計的標準誤差。S越小表明樣本回歸方程的代表性越強。其簡化公式(對二元線性回歸方程)86(二)總體方差的估計86(三)最小二乘估計量的性質 在標準的多元線性回歸模型中,高斯.馬爾可夫定理同樣成立。87(三)最小二乘估計量的性質87三、多元線性回歸模型的檢驗和預測(一)擬合程度的評價利用R2來評價多元線性回歸方程的擬合程度,必須注意以下問題。在樣本容量一定的條件下,總離差平方和與自變量的個數(shù)無關,而殘差平方和則會隨著模型中自變量個數(shù)的增加不斷減少,至少不會增加。因此,R2是自變量個數(shù)的非遞減函數(shù)。然而在多元線性回歸模型中,各回歸模型所含的變量的數(shù)目未必相同,以R2的大小作為衡量擬合優(yōu)劣的尺度是不合適的。88三、多元線性回歸模型的檢驗和預測(一)擬合程度的評價88在多元回歸分析中,人們更常用的評價指標是所謂的修正自由度的決定系數(shù)。該指標的定義如下:式中,n是樣本容量;k是模型中回歸系數(shù)的個數(shù)。(n-1)和(n-k)實際上分別是總離差平方和與殘差平方和的自由度。89在多元回歸分析中,人們更常用的評價指標是所謂的修正自由度的決修正自由度的決定系數(shù)具有以下特點:1.。因為k≥1,所以根據和R2各自的定義式可以得出這一結論。對于給定的R2值和n值,k值越大越小。在進行回歸分析時,一般總是希望以盡可能少的自變量去達到盡可能高的擬合程度。作為綜合評價這兩方面情況的一項指標顯然比R2更為合適。2.小于1,但未必都大于0。在擬合極差的場合,有可能取負值。90修正自由度的決定系數(shù)具有以下特點:90【例7-10】假設有7年的年度統(tǒng)計資料,現(xiàn)利用其對同一因變量擬合了兩個樣本回歸方程。方程一中:k=6,R2=0.82;方程二中:k=2,R2=0.80。試對這兩個回歸方程的擬合程度做出評價。解:如果僅從R2考察,似乎方程一的擬合程度更佳。但是,由于兩個方程選用的自變量個數(shù)不同,這一結論是不正確的。將上列數(shù)據代入修正自由度的決定系數(shù)公式,可得:方程一的=1-((7-1)/(7-6))(1-0.82)=-0.08方程二的=1-((7-1)/(7-2))(1-0.80)=0.76由此可見,方程二的實際擬合程度遠遠優(yōu)于方程一。91【例7-10】假設有7年的年度統(tǒng)計資料,現(xiàn)利用其對同一因變量(二)顯著性檢驗1.回歸系數(shù)的顯著性檢驗多元回歸中進行這一檢驗的目的主要是為了檢驗與各回歸系數(shù)對應的自變量對因變量的影響是否顯著,以便對自變量的取舍做出正確的判斷。一般來說,當發(fā)現(xiàn)某個自變量的影響不顯著時,應將其從模型中刪除。這樣才能夠做到以盡可能少的自變量去達到盡可能高的擬合優(yōu)度。多元模型中回歸系數(shù)的檢驗同樣采用t檢驗和P檢驗,其原理和基本步驟與一元回歸模型基本相同,這里不再贅述。下面僅給出回歸系數(shù)顯著性檢驗t統(tǒng)計量的一般計算公式。92(二)顯著性檢驗92j=1,2,…,k式中,是回歸系數(shù)的估計值,
是的標準差的估計值,其按下式計算:式中,是(X’X)-1的第j個對角線元素,S2是隨機誤差項方差的估計值。上式的t統(tǒng)計量背后的原假設是H0:βj=0,因此t的絕對值越大表明βj為0的可能性越小,即表明相應的自變量對因變量的影響是顯著的。93
2.回歸方程的顯著性檢驗 必須在方差分析的基礎上利用F檢驗進行。其具體的方法步驟可歸納如下:(1)假設總體回歸方程不顯著,即有H0:β2=β3=……=βk=0(2)進行方差分析,列出回歸方差分析表(見下表)942.回歸方程的顯著性檢驗94回歸模型方差分析表表中,回歸平方和的取值受k個回歸系數(shù)估計值的影響,同時又要服從的約束條件,因此其自由度是k-1。殘差平方和取決于n個因變量的觀測值,同時又要服從k個正規(guī)方程式的約束,因此其自由度是n-k?;貧w平方和與殘差平方和各除以自身的自由度得到的是樣本方差。95回歸模型方差分析表95(3)根據方差分析的結果求F統(tǒng)計量,即 數(shù)學上可以證明,在隨機誤差項服從正態(tài)分布同時原假設成立的條件下,F服從于自由度為(k-1)和(n-k)的F分布。(4)根據自由度和給定的顯著性水平α,查F分布表中的理論臨界值Fα。當F>Fα時,拒絕原假設,即認為總體回歸函數(shù)中各自變量與因變量的線性回歸關系顯著。當F<Fα時,接受原假設,即認為總體回歸函數(shù)中,自變量與因變量的線性關系不顯著,因而所建立的回歸模型沒有意義。96(3)根據方差分析的結果求F統(tǒng)計量,即96(三)多元線性回歸預測在通過各種檢驗的基礎上,多元線性回歸模型可以用于預測。多元線性回歸預測與一元線性回歸預測的原理是一致的,其基本公式如下:式中,Xjf(j=2,3,……k)是給定的Xj在預測期的具體數(shù)值;是已估計出的樣本回歸系數(shù);是Xj給定時Y的預測值。該方程的矩陣形式為:97(三)多元線性回歸預測97 式中:多元線性回歸預測標準誤差的計算公式如下: 式中,S是回歸方程估計的標準誤差。多元線性回歸預測Yf的(1-α)的置信區(qū)間可由下式給出: 式中,tα/2是顯著水平為α的t分布雙側臨界值。98 式中:98四、復相關系數(shù)和偏相關系數(shù)(一)復相關系數(shù)樣本復相關系數(shù)(以下簡稱復相關系數(shù))的定義式如下:實際計算復相關系數(shù)時,一般不直接根據其定義式,而是先計算出決定系數(shù),然后再求決定系數(shù)的平方根。復相關系數(shù)只取正值。因此,復相關系數(shù)只是反映一個變量Y與其他多個變量X2,X3,……
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年考研報名條件與選拔標準
- 2024年視角:《剪羊毛》音樂課件的創(chuàng)新演繹
- 2023年上半年系統(tǒng)集成項目管理工程師考試答案解析
- 《高等數(shù)學2》教案撰寫
- 智能家居旗艦店賬務處理實例-記賬實操
- 文書模板-安置小區(qū)題記
- 2024年白公鵝養(yǎng)殖業(yè)就業(yè)市場分析與職業(yè)規(guī)劃
- 2024年教育創(chuàng)新:2小毛蟲教案設計研究與實踐
- 2024年母親節(jié)感動瞬間:《感恩母親》課件大秀
- 創(chuàng)意無限:2024年《獨特的裝扮》新理念
- 高中地理人教版(2019)必修第一冊 全冊教案
- 萬達入職性格在線測評題
- 三年級上冊心理健康課件-第十四課-尊重他人-尊重自己|北師大版
- 2024新人教版語文二年級上冊《第五單元 課文》大單元整體教學設計
- 大型集團公司信息安全整體規(guī)劃方案相關兩份資料
- 打造低空應急體系場景應用實施方案
- 高校實驗室安全通識課學習通超星期末考試答案章節(jié)答案2024年
- 中華人民共和國標準設計施工總承包招標文件(2012年版)
- 第15課 兩次鴉片戰(zhàn)爭 教學設計 高中歷史統(tǒng)編版(2019)必修中外歷史綱要上冊+
- 2024-2025學年度第一學期七年級語文課內閱讀練習含答案
- 福建省2025屆普通高中學業(yè)水平合格考試仿真模擬政治試題(一)
評論
0/150
提交評論