統(tǒng)計學課件第9章相關與回歸分析配套講義_第1頁
統(tǒng)計學課件第9章相關與回歸分析配套講義_第2頁
統(tǒng)計學課件第9章相關與回歸分析配套講義_第3頁
統(tǒng)計學課件第9章相關與回歸分析配套講義_第4頁
統(tǒng)計學課件第9章相關與回歸分析配套講義_第5頁
已閱讀5頁,還剩83頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2023/2/31第九章相關與回歸分析第一節(jié)相關與回歸分析的基本概念第二節(jié)簡單線性相關分析第三節(jié)一元線性回歸分析第四節(jié)一元線性回歸模型預測第五節(jié)多元線性回歸第六節(jié)多元線性回歸中自變量的選擇第七節(jié)非線性回歸分析第八節(jié)定性自變量的回歸第一節(jié)相關與回歸分析的基本概念2023/2/32第九章相關與回歸分析一、函數(shù)關系與相關關系客觀現(xiàn)象總是普遍聯(lián)系和相互依存的。而客觀現(xiàn)象之間的數(shù)量關系存在著兩種不同的類型:函數(shù)關系和相關關系。函數(shù)關系是指當一個或幾個變量取一定的值時,另一個變量有確定值與之相對應的關系。在經濟管理中變量間存在的更為普遍的一種關系是相關關系,相關關系是指當一個或幾個相互聯(lián)系的變量取一定數(shù)值時,與之相對應的另一個變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內變化的關系。相關關系也稱為統(tǒng)計關系。2023/2/33二、相關關系的種類(一)按相關的程度可分為完全相關、不完全相關和不相關。(二)按相關的數(shù)量變化方向可分為正相關和負相關。(三)按相關的數(shù)學關系式中變量次數(shù)的不同可分為線性相關和非線性相關。(四)按所研究的變量多少可分為單相關、復相關和偏相關。

2023/2/34三、相關分析與回歸分析相關分析和回歸分析是研究現(xiàn)象之間相關關系的兩種基本方法。相關分析是研究現(xiàn)象間是否有相互依存關系以及依存關系的密切程度的方法?;貧w分析是根據(jù)相關關系的具體形態(tài),即選擇一個合適的數(shù)學模型,來近似地表達變量間的平均變化關系?;貧w分析能給出變量之間相互關系的具體數(shù)學表達式的形式,根據(jù)這個數(shù)學關系式可以從已知量來推測未知量。因此,相關分析不能實現(xiàn)變量間數(shù)量的互相推算,而且也不必區(qū)分哪個變量是自變量,哪個變量是因變量,其所涉及的變量可以都是隨機變量。而回歸分析中自變量和因變量是要區(qū)分的,并且一般地說,回歸分析中因變量是隨機的,而把自變量作為研究時給定的非隨機的可控變量。2023/2/35四、相關圖

2023/2/36a)正相關b)復相關c)不相關圖9-1現(xiàn)象間三種關系第二節(jié)簡單線性相關分析2023/2/37第九章相關與回歸分析一、相關系數(shù)的定義單相關分析是對兩個變量之間的線性相關程度進行分析。單相關分析所采用的尺度為單相關系數(shù),簡稱相關系數(shù)??傮w的相關系數(shù):

樣本的相關系數(shù):上式的代數(shù)等價式為2023/2/38二、相關系數(shù)的特點樣本相關系數(shù)有以下特點:(一)r的取值介于-1與1之間。(二)當r=0時,表明樣本觀測值x與y之間沒有線性關系。(三)在大多數(shù)情況下,,即x與y的之間存在著一定的線性關系:當r>0時,x與y為正相關;當r<0時,x與y為負相關。(四)如果,則表明x與y完全線性相關;當r=1時,稱為完全正相關;而r=-1時,稱為完全負相關。(五)r是對變量之間線性相關關系的度量。

2023/2/39二、相關系數(shù)的特點【例9-1】表9-1是1993-2012年我國國內生產總值(現(xiàn)價)和發(fā)電量的有關資料,試利用表中的數(shù)據(jù)計算我國年底國內生產總值和發(fā)電量的樣本相關系數(shù)。(數(shù)據(jù)見下一頁)

解:將表9-1中的有關數(shù)據(jù)代入公式,可得2023/2/3102023/2/311年份國內生產總值(千億元)發(fā)電量(千億千瓦小時)199335.3348.3951248.48670.476296.628199448.1989.2812323.03386.137447.324199560.79410.0703695.878101.411612.211199671.17710.8135066.107116.923769.640199778.97311.3566236.740128.948896.781199884.40211.6707123.745136.189984.975199989.67712.3938041.974153.5861111.368200099.21513.5569843.528183.7651344.9522001109.65514.80812024.256219.2771623.7762002120.33316.54014479.956273.5721990.3032003135.82319.10618447.821365.0302594.9962004159.87822.03325561.083485.4573522.6142005184.93725.00334201.830625.1304623.9152006216.31428.65746791.931821.2396198.9792007265.81032.81670655.1191076.8598722.7062008314.04534.95898624.5291222.03410978.2782009340.90337.147116214.7281379.86312663.3502010401.51342.072161212.5251770.02016892.2862011473.10447.130223827.3952221.25522297.4812012519.32249.378269695.3402438.15725642.926合計3809.407457.1801135316.00413875.328124215.487表9-1我國近年來國內生產總值和發(fā)電量相關數(shù)據(jù)三、相關系數(shù)的檢驗相關系數(shù)r的顯著性檢驗步驟如下:第1步提出假設:

第2步

計算樣本統(tǒng)計量t值:第3步根據(jù)給定的顯著性水平a和自由度(n-2),查找t分布表中相應的臨界值ta/2。第4步決策判斷。若,拒絕原假設,表明兩變量間有顯著的線性相關關系;若,表明不能拒絕原假設,或者說兩變量間線性相關關系在統(tǒng)計上是不顯著的。

2023/2/312三、相關系數(shù)的檢驗【例9-2】假設通過18對試驗數(shù)據(jù)得到某汽車制造企業(yè)的汽車銷售量與居民消費水平的相關系數(shù)r為0.6,問是否能夠在5%的顯著水平下認為該企業(yè)的汽車銷售量與居民消費水平之間存在一定的線性相關關系?解:首先提出假設:將以上數(shù)據(jù)代入公式,計算r的t檢驗統(tǒng)計量值

查t分布表可知,顯著水平為0.05,自由度為16的臨界值ta/2=2.21,上式中的t統(tǒng)計量值大于2.12,因此,r通過顯著性檢驗。這就是說,該企業(yè)的汽車銷售量與居民消費水平之間存在一定的線性相關關系。2023/2/313第三節(jié)一元線性回歸分析2023/2/314第九章相關與回歸分析一、一元線性回歸模型(一)總體回歸模型當變量之間存在著顯著的相關關系時,可以利用一定的數(shù)學模型對其進行回歸分析。總體回歸模型:線性回歸分析基于以下假定:隨機誤差項的期望值為0;隨機誤差項的方差為常數(shù);隨機誤差項之間不存在序列相關關系,其協(xié)方差為零;在重復抽樣中,自變量X的取值是給定的,即假定X是非隨機變量;隨機誤差項服從正態(tài)分布。2023/2/315一、一元線性回歸模型(二)總體回歸方程由上述關于隨機誤差的假定,容易得到

即Y的期望值是X的線性函數(shù),該線性函數(shù)稱為回歸方程。2023/2/316圖9-2對應不同的X的Y分布(三)樣本回歸模型假設、是由樣本數(shù)據(jù)計算出的、的估計值,那么以下方程稱樣本回歸方程:實際觀測到的因變量Yi值,并不完全等于,如果用ei表示二者之差(即),則有:

上式稱為樣本回歸模型。樣本回歸模型是對總體回歸模型的近似反映。

2023/2/317二、一元線性回歸模型的估計(一)回歸系數(shù)的點估計根據(jù)最小二乘法的思想,可得估計總體回歸系數(shù)、的公式:2023/2/318圖9-3最小二乘法的示意圖二、一元線性回歸模型的估計

【例9-3】我們利用例9-1的表9-1中已給出我國近年來國內生產總值和發(fā)電量的數(shù)據(jù),來估計我國發(fā)電量的基礎水平與發(fā)電量邊際值。解:假設總體回歸模型為將表9-1中合計欄的有關數(shù)據(jù)代入公式,可得

樣本回歸方程為式中,0.091是發(fā)電量邊際值,表示國內生產總值每增加1單位,發(fā)電量會增加0.091單位;5.596是發(fā)電量基本水平,即與國內生產總值無關最基本的發(fā)電量為5.596單位。2023/2/319二、一元線性回歸模型的估計(二)總體方差的估計的無偏估計可由下式給出:的正平方根又叫做回歸估計的標準誤差。越小表明實際觀測點與所擬合的樣本回歸線的離差程度越小,即回歸線具有較強的代表性。一般采用以下等價公式計算殘差平方和并進而根據(jù)式(9-18)計算:2023/2/320二、一元線性回歸模型的估計

【例9-4】根據(jù)例9-1中給出的有關數(shù)據(jù)和例9-3中已得到回歸系數(shù)估計值,計算我國發(fā)電量的總體方差的估計和回歸估計標準差s。解:將有關數(shù)據(jù)代入公式,得

進而可得:

2023/2/321二、一元線性回歸模型的估計(三)回歸系數(shù)估計量的統(tǒng)計性質在標準假定能夠得到滿足的條件下,回歸系數(shù)的最小二乘估計量的期望值等于其真值,即有其方差為最小二乘估計量是總體回歸系數(shù)的線性無偏估計量。回歸系數(shù)的最小二乘估計量滿足點估計的三個優(yōu)良標準:無偏性、有效性及一致性,是最優(yōu)線性無偏估計量和一致估計量。2023/2/322二、一元線性回歸模型的估計(四)回歸系數(shù)的區(qū)間估計

、

服從正態(tài)分布:回歸系數(shù)區(qū)間估計的公式:式中,是回歸系數(shù)估計量的樣本標準誤差:2023/2/323二、一元線性回歸模型的估計

【例9-5】利用例9-3和例9-4的有關資料和結果,對例9-3中估計的我國發(fā)電量邊際值進行置信度為95%的區(qū)間估計。解:將前面已求得的有關數(shù)據(jù)代入公式,可得

查t分布表可知:顯著水平為0.05,自由度為18的t分布雙側臨界值是2.101,前面已求得,將其代入公式,可得:

即:2023/2/324三、回歸方程的擬合優(yōu)度因為有

所以,對應三種離差平方和的關系為其中,SST

稱為總離差平方和;SSR稱為回歸平方和,它表示由回歸直線可以解釋的那一部分離差平方和;SSE

稱為殘差平方和,它表示用回歸直線無法解釋的離差平方和。決定系數(shù):2023/2/325圖9-4離差分解圖三、回歸方程的擬合優(yōu)度決定系數(shù)是對回歸模型擬合程度的綜合度量,決定系數(shù)越大,模型擬合程度越高。決定系數(shù)越小,則模型對樣本的擬合程度越差。決定系數(shù)具有如下特性:(一)決定系數(shù)的取值范圍為。(二)由的計算公式可以看出:=1時,SSE=0,說明所有的實際觀測值都位于回歸直線上,即總離差可以完全由所估計的樣本回歸直線來解釋;當<1,SSE>0,說明實際觀測值并不是全部位于回歸直線上時,但又大致分布在其附近;當=0,即SSE=SST,說明回歸直線沒有解釋任何離差,即模型中解釋變量與因變量完全無關。(三)在一元線性回歸模型中,決定系數(shù)是單相關系數(shù)的平方。2023/2/326三、回歸方程的擬合優(yōu)度

【例9-6】利用例9-4中計算的殘差平方和,計算例9-3所擬合的樣本回歸方程的決定系數(shù)。解:根據(jù)決定系數(shù)公式可得

上式中的SST是利用表8-1中給出的數(shù)據(jù)按下式計算的:

2023/2/327四、顯著性檢驗(一)回歸方程的顯著性檢驗步驟第1步假設總體回歸方程不顯著,即第2步進行方差分析,列出回歸方差分析表:第3步根據(jù)方差分析的結果構建統(tǒng)計量,即:第4步根據(jù)自由度和給定的顯著性水平a,查F分布表中的理論臨界值Fa。2023/2/328離差名稱平方和自由度均方差回歸平方和1殘差平方和總離差平方和

四、顯著性檢驗(二)回歸系數(shù)的顯著性檢驗所謂回歸系數(shù)的顯著性檢驗,就是要檢驗自變量對因變量的影響是否顯著的問題。方法一:t檢驗(1)提出假設:(2)構建統(tǒng)計量并證明其分布:式中,是回歸系數(shù)估計的標準誤差。(3)根據(jù)樣本數(shù)據(jù)計算統(tǒng)計量值。(4)確定臨界值。確定顯著性水平a,查t分布表所確定的臨界值是()和()。(5)做出判斷。如果的絕對值大于臨界值的絕對值,就拒絕原假設;反之,接受原假設。2023/2/329四、顯著性檢驗方法二:p檢驗回歸系數(shù)的顯著性檢驗還可以采用p檢驗。t值計算出來之后,并不與t分布的臨界值進行對比,而是直接計算自由度為n-2的t統(tǒng)計量大于或小于根據(jù)樣本觀測值計算的的概率即p值。然后將其與給定的顯著水平a對比,如果p小于a,則拒絕原假設,反之則接受原假設。2023/2/330四、顯著性檢驗

【例9-7】利用例9-3和例9-4、例9-5的有關資料和結果,對例9-3中估計的我國發(fā)電量產量邊際值進行顯著性檢驗。(1)以5%的顯著性水平檢驗國內生產總值對發(fā)電量產量是否有顯著影響;(2)對,進行檢驗。解:(1)首先,提出假設:其次,計算t值:顯著水平為5%,自由度為18的雙側t檢驗的臨界值是2.101。以上計算的值遠大于此臨界值,所以拒絕原假設,即認為國內生產總值對發(fā)電量產量的影響是非常顯著的。(2)利用公式計算得到其絕對值大于此臨界值2.101,所以否定的原假設,接受備擇假設,我國平均發(fā)電量產量的邊際值小于0.1。2023/2/331第四節(jié)一元線性回歸模型預測2023/2/332第九章相關與回歸分析一、簡單線性回歸預測所謂預測,就是根據(jù)確定的自變量X來計算相應的因變量Y的估計值的過程。(一)點估計如果所擬合的樣本回歸方程經過檢驗,被認為具有實際意義,同時通過了統(tǒng)計意義上的顯著性檢驗,對于一個給定的Xf,利用回歸方程求出關于Y的預測值,該預測值也是真實值的點估計。

點估計公式如下:2023/2/333一、簡單線性回歸預測(二)預測誤差與所要預測的Y的真值之間可能存在一定的誤差。

設Xf給定時Y的真實值為Yf,則

預測的殘差ef:均值與方差分別為2023/2/334二、區(qū)間預測在標準假定條件下,ef服從正態(tài)分布,即若用來表示預測標準誤差的估計值,則在(1-a)置信水平下,Yf的置信區(qū)間為2023/2/335圖9-5回歸預測的置信區(qū)間二、區(qū)間預測從置信區(qū)間和的計算公式以及圖9-5,可以看到:第一,置信區(qū)間的上下限對稱地落在樣本回歸直線兩側,呈中間小兩頭大的喇叭形。第二,在樣本容量n保持不變時,的值隨置信度(1-a)的提高而增加,因此,要求預測值的概率保證程度增加,在其他條件不變時,也就意味著預測精度的降低。第三,當其他條件不變時,和的值均為樣本容量n的減函數(shù),即隨著n的增加,這二者將逐漸減少。這說明隨著樣本容量的增加,預測精度將會提高。第四,當樣本容量n足夠大時,會趨近于za/2。這時,Yf的(1-a)的置信區(qū)間近似為

2023/2/336二、區(qū)間預測

【例9-8】假定預計2013年我國國內生產總值為550千億元,要求利用例9-3中擬合的樣本回歸方程與有關數(shù)據(jù),計算置信度為95%的發(fā)電量的預測區(qū)間。解:將有關數(shù)據(jù)代入擬合好的樣本回歸方程,可得

從前面幾例的結果可知:將其代入求預測標準誤差估計值的公式,有

查t分布表可知臨界值。因此,預測區(qū)間:

即51.006

(千億千瓦小時)<Yf<59.883(千億千瓦小時)2023/2/337三、一元線性回歸模型的計算機實現(xiàn)

【例9-9】以下給出我國1993~2012年人均國內生產總值和居民消費水平的數(shù)據(jù),試分析自變量“人均國內生產總值”和因變量“居民消費水平”的線性方程。(單位:千元)2023/2/338年份人均國內生產總值(現(xiàn)價)居民消費水平(現(xiàn)價)年份人均國內生產總值(現(xiàn)價)居民消費水平(現(xiàn)價)19932.9981.393200310.5424.47519944.0441.833200412.3365.03219955.0462.355200514.1855.59619965.8462.789200616.5006.29919976.4203.002200720.1697.31019986.7963.159200823.7088.43019997.1593.346200925.6089.28320007.8583.632201030.01510.52220018.6223.887201135.18112.27220029.3984.144201238.44913.946三、一元線性回歸模型的計算機實現(xiàn)解:通過Excel的“回歸分析”工具,得到輸出結果:2023/2/339MultipleR0.998RSquare0.996AdjustedRSquare0.996標準誤差0.219觀測值20表9-4回歸統(tǒng)計表

dfSSMSFSignificanceF回歸分析1241.118241.1185015.231.77747E-23殘差180.8650.048

總計19241.984

表9-5方差分析表表9-6回歸系數(shù)顯著性檢驗表

Coefficients標準誤差tStatP-value下限

95.0%上限

95.0%Intercept0.8160.0849.7260.0000.6400.992XVariable10.3310.00570.8180.0000.3220.341三、一元線性回歸模型的計算機實現(xiàn)模型的經濟意義是:當人均國內生產總值每增加1單位時,會引起居民消費水平平均增加0.331單位;常數(shù)項估計值為0.816表明當人均國內生產總值為零時的居民消費水平,可以理解為居民基礎消費水平。在表9-6中,0.084和0.005分別為常數(shù)項估計值和回歸系數(shù)估計值的標準誤,9.726和70.818分別表示常數(shù)項估計值所對應的t統(tǒng)計量的值,P-value欄的值表示相應的t統(tǒng)計量值對應的P值。由P值結果可以看出,常數(shù)項與回歸系數(shù)的t統(tǒng)計量值較大,對應的概率接近于0,故回歸系數(shù)高度顯著,方差分析表顯示,統(tǒng)計量值為5015.235,故整個回歸模型也高度顯著。關于模型的評估結果,模型的決定系數(shù)為0.996,表明該模型的整體擬合效果很好,自變量人均國內生產總值可以解釋因變量居民消費水平99.6%的變化。2023/2/340第五節(jié)多元線性回歸2023/2/341第九章相關與回歸分析一、多元線性回歸模型與回歸方程一元線性回歸分析反映的是一個因變量與一個自變量之間的線性關系。影響因變量的自變量可能不止一個。這種一個因變量與多個自變量的回歸問題就是多元回歸。當因變量和自變量之間為線性關系時,稱為多元線性回歸。(一)多元線性回歸模型多元線性回歸模型一般形式如下:(二)多元線性回歸方程(三)估計的多元線性回歸方程2023/2/342二、參數(shù)的最小二乘估計(一)回歸系數(shù)的估計假設給出了n個觀測值,則相應的自變量、因變量、回歸系數(shù)、隨機誤差項等記作寫成矩陣形式為得到回歸系數(shù)最小二乘估計的一般形式2023/2/343二、參數(shù)的最小二乘估計(二)總體方差的估計多元線性回歸模型中的隨機誤差項的方差也是利用殘差平方和除以其自由度來估計:是的無偏估計。的正平方根s又叫做回歸估計的標準誤差。s越小則表明樣本回歸方程的代表性越強。(三)最小二乘估計量的性質與一元線性回歸模型類似,多元線性回歸模型中回歸系數(shù)的最小二乘估計量也是隨機變量。多元回歸模型中回歸系數(shù)最小二乘估計量的期望值等于總體回歸系數(shù)的真實值,即回歸系數(shù)最小二乘估計量的方差、協(xié)方差矩陣為2023/2/344三、多元線性回歸模型的檢驗和預測在多元線性回歸分析中,也可以用決定系數(shù)作為評價模型擬合程度的一項指標:然而在多元線性回歸模型中,各回歸模型所含的變量數(shù)目未必相同,以的大小作為衡量擬合優(yōu)劣的尺度是不合適的。因此,在多元回歸分析中,修正自由度的決定系數(shù)的定義如下:即2023/2/345三、多元線性回歸模型的檢驗和預測修正自由度的決定系數(shù)具有以下特點:(1)。因為,所以根據(jù)和各自的定義式可以得出這一結論。對于給定的值和n值,k值越大越小。在進行回歸分析時,一般總是希望以盡可能少的自變量去達到盡可能高的擬合程度。所以比更具優(yōu)勢。(2)小于1,但未必都大于0。在擬合極差的場合,有可能取負值。2023/2/346三、多元線性回歸模型的檢驗和預測

【例9-10】假設有20年的年度統(tǒng)計資料,現(xiàn)利用其對同一因變量擬合了兩個樣本回歸方程。方程一中:k=4,;方程二中:k=2,。試對這兩個回歸方程的擬合程度做出評價。解:如果僅從來考察,似乎方程一的擬合程度更佳。但是,由于兩個方程選用的自變量個數(shù)不同,這一結論是不正確的。將上列數(shù)據(jù)代入公式,可得方程一的方程二的由此可見,方程二的實際擬合程度優(yōu)于方程一。2023/2/347三、多元線性回歸模型的檢驗和預測(二)顯著性檢驗多元線性回歸模型的顯著性檢驗同樣包括兩方面的內容,即回歸系數(shù)的顯著性檢驗與回歸方程的顯著性檢驗。1.回歸系數(shù)的顯著性檢驗采用t檢驗,基本步驟:第1步提出針對第j個回歸系數(shù)的假設:

第2步給出檢驗統(tǒng)計量計算公式并證明其分布:第3步做出決策。2023/2/348三、多元線性回歸模型的檢驗和預測

2.回歸方程的顯著性檢驗多元線性回歸模型包含了多個回歸系數(shù),除了要對單個回歸系數(shù)進行顯著性檢驗外,還要對整個回歸模型進行顯著性檢驗。其具體的方法步驟可歸納如下:第1步提出假設:

第2步計算統(tǒng)計量,即第3步做出決策。當時,拒絕原假設,即認為總體回歸方程中各自變量與因變量的線性關系顯著。當時,接受原假設,即認為自變量與因變量的線性關系不顯著2023/2/349三、多元線性回歸模型的檢驗和預測(三)多元線性回歸預測多元線性回歸預測與一元線性回歸預測的原理是一致的,其基本公式如下:式中,是給定的在預測期的具體數(shù)值;是已估計出的樣本回歸系數(shù);是Y的預測值。該方程的矩陣形式為,其中多元線性回歸預測標準誤差的計算公式:多元線性回歸預測值Yf的(1-a)的置信區(qū)間:2023/2/350四、復相關系數(shù)和偏相關系數(shù)(一)復相關系數(shù)一般情況下,復相關系數(shù)的取值在0和1之間,表明變量之間存在一定程度的線性相關關系。(二)偏相關系數(shù)在保持其他變量不變的情況下,衡量多個變量中某兩個變量之間的線性相關程度和相關方向的指標稱為偏相關系數(shù)。令Y為X1,因變量Y與各自變量的偏相關系數(shù)的一般形式可表現(xiàn)為其中,2023/2/351四、復相關系數(shù)和偏相關系數(shù)

【例9-11】我國國內旅游者人均花費相關資料如表9-7(見下一頁)所示。(單位:元)要求利用該資料進行以下分析:(1)計算國內旅游者人均花費與居民消費水平及人均國內生產總值的相關系數(shù);(2)建立我國國內旅游者人均花費的多元線性回歸方程,并進行統(tǒng)計檢驗;(3)當居民消費水平為15000元,同時人均國內生產總值為40000元時,利用以上建立的線性模型預測此時國內旅游者人均花費為多少。2023/2/3522023/2/353年份國內旅游者人均花費

居民消費水平人均國內生產總值1995218.723555045.7301996256.227895845.8871997328.130026420.181199834531596796.030199939433467158.5022000426.636327857.6762001449.538878621.7062002441.841449398.0552003395.7447510541.9712004427.5503212335.5782005436.1559614185.3602006446.9629916499.7052007482.6731020169.4612008511843023707.7152009535.4928325607.5312010598.21052230015.04820117311227235181.2372012767.91394638448.508表9-7中國國內旅游者人均花費相關資料四、復相關系數(shù)和偏相關系數(shù)解:(1)使用Excel“數(shù)據(jù)分析”功能模塊中的“相關分析”功能,得到各變量的相關系數(shù)矩陣:使用Excel“數(shù)據(jù)分析”功能模塊中的“回歸分析”功能,得到的計算結果:2023/2/354

1列

2列

3列

11.000

20.9451.000

30.9340.9991.000四、復相關系數(shù)和偏相關系數(shù)因此,擬合的樣本回歸方程為

回歸系數(shù)的符號與經濟理論分析的結果相符。從回歸系數(shù)檢驗結果可以看出,自變量X1和X2的t統(tǒng)計量值所對應的p值分別是0.005和0.019,所以居民消費水平和人均國內生產總值都高度顯著。另外,整個方程的F統(tǒng)計量也較大,達到94.098,對應的概率值為0.000,說明整個回歸方程也是高度顯著。修正自由度的決定系數(shù)達0.916,這表明該回歸方程有很好的擬合程度。(3)預測。將以上給出的居民消費水平和人均國內生產總值代入前面擬合的樣本回歸方程,可得

2023/2/355第六節(jié)多元線性回歸模型中自變量的選擇2023/2/356第九章相關與回歸分析一、問題的提出從的含義上看,增加一個解釋變量,只會增大不會變小,若僅以作為選擇解釋變量的標準,可能會使最終的模型包含的解釋變量過于龐雜。需要利用F檢驗來判斷將一個或多個自變量引入到回歸模型中是否適宜的問題?!纠?-12】一家飲料企業(yè)希望了解銷售收入與廣告費的關系,進而為制定下一步的營銷規(guī)劃做準備?,F(xiàn)收集了10個季度的廣告費與銷售收入的資料如下,試分析其回歸模型。2023/2/357季度廣告費X1

(十萬元)銷售收入Y

(百萬元)季度廣告費X1

(十萬元)銷售收入Y

(百萬元)11223.2561115.25261271322.2531416.258610.54915.59918.55815101019一、問題的提出解:我們先利用簡單線性回歸模型

來描述每季度銷售收入(Y)與每季度廣告費(X1)之間的關系。Excel回歸分析輸出估計結果:所以回歸方程是F統(tǒng)計量的值為8.94,它所對應的p值為0.017,因此拒絕原假設2023/2/358一、問題的提出于是我們能斷定,每季度銷售收入Y與每季度廣告費X1之間存在一個顯著的線性關系。決定系數(shù),企業(yè)銷售收入的波動中的52.8%能被廣告費用的線性影響所解釋。如果對剩余的47.2%的波動原因感興趣,則必須考慮增加第二個自變量去解釋因變量中剩余的變異。考慮到銷售人員數(shù)也可能影響到銷售收入總額。企業(yè)增加了銷售人員數(shù)的數(shù)據(jù):2023/2/359季度廣告費X1

(十萬元)銷售人員數(shù)X2(人)銷售收入Y

(百萬元)季度廣告費X1

(十萬元)銷售人員數(shù)

X2(人)銷售收入Y

(百萬元)1124823.256112415.252636127134822.253142416.25862410.5492415.5993618.558481510103619一、問題的提出用每季度的廣告費用X1和銷售人員數(shù)X2作為自變量,Excel輸出估計結果:所以回歸方程是2023/2/360一、問題的提出在這里,我們看到僅僅用廣告費用作為唯一的自變量,模型的誤差平方和是SSE=70.54。當銷售人員數(shù)作為第二個自變量引入到模型里時,我們得到的誤差平方和是SSE=29.30。顯然,增加X2導致了SSE數(shù)量的減少。引起SSE減少的數(shù)量是利用F檢驗去判斷這一數(shù)量上的減少是否顯著:因為臨界值,所以,拒絕零假設,增加自變量X2將有利于改進模型的解釋能力。2023/2/361二、一般情形假設含有q個自變量的多元回歸模型如下:這里q<k。如果增加自變量Xq+1,Xq+2,…,Xk到這個多元回歸模型中去,得到一個含有k個自變量的多元回歸模型:為了檢驗增加的自變量是否在統(tǒng)計上是顯著的,我們提出零假設和備擇假設:構造F統(tǒng)計量檢驗簡潔表述:

2023/2/362二、一般情形

【例9-13】假設有一個含有26個觀測值的回歸分析問題。第一個模型的自變量是X1、X2和X3,它的誤差平方和為125;第二個模型的自變量是X1、X2、X3、X4和X5,它的誤差平方和為80。增加兩個自變量X4和X5到第一個模型中,是否可使誤差平方和顯著減少?解:SST的自由度是26-1=25,完全模型的回歸平方和的自由度是5,完全模型的誤差平方和的自由度是25-5=20。因此,

。所以,F(xiàn)統(tǒng)計量是因為,所以結論是:增加的自變量X4和X5在統(tǒng)計上是顯著的。2023/2/363三、變量選擇方法(一)向前選擇開始于從所有的自變量中選擇一個自變量。第一步選擇的自變量是和因變量相關度最高的。第二步,根據(jù)因變量剩余未解釋變差的解釋能力選擇第二個自變量。在第二步以及下面的每一步中選出的自變量都是有最高偏確定性系數(shù)的變量。(二)向后剔除在向后剔除法中,開始時所有的變量都在模型中。一次剔除一個變量,直到沒有不顯著的變量。一旦變量從模型中被剔除,它就不會再次加入。(三)標準逐步回歸如果兩個或更多的變量重復了,在前面步驟中選擇的變量可能因為后面步驟中加入的變量而變得不顯著。標準逐步回歸法會把這個不顯著的變量從模型中剔除。2023/2/364四、應用實例

【例9-14】國內生產總值(GrossDomesticProduct,簡稱GDP)是指在一定時期內(一個季度或一年),一個國家或地區(qū)的經濟中所生產出的全部最終產品和勞務的價值,常被公認為衡量國家經濟狀況的最佳指標。國內生產總值的影響因素很多,主要影響因素有:第一產業(yè)(農業(yè)等)、第二產業(yè)(工業(yè)和建設業(yè)等)以及第三產業(yè)。我們選擇“建筑業(yè)總產值”、“工業(yè)總產值”和“農林牧漁業(yè)總產值”,來分析它們和GDP的關系。有關數(shù)據(jù)如表9-15(見下一頁)所示(單位:千億元)。2023/2/3652023/2/366年份GDP(現(xiàn)價)建筑業(yè)總產值工業(yè)總產值(當年價格)農林牧漁業(yè)總產值(現(xiàn)價)199448.1984.65351.35315.751199560.7945.79454.94720.341199671.1778.28262.74022.354199778.9739.12668.35323.788199884.40210.06267.73724.542199989.67711.15372.70724.519200099.21512.49885.67424.9162001109.65515.36295.44926.1802002120.33318.527110.77627.3912003135.82323.084142.27129.6922004159.87829.021201.72236.2392005184.93734.552251.62039.4512006216.31441.557316.58940.8112007265.81051.044405.17748.8932008314.04562.037507.28558.0022009340.90376.808548.31160.3612010401.51396.031698.59169.3202011473.104117.060844.26981.304表9-14國內生產總值及相關數(shù)據(jù)四、應用實例解:(一)利用全選法進行嘗試建模假設多元線性回歸模型為用全選法計算結果:2023/2/367四、應用實例得到回歸分析的結果:如果要評估模型的顯著性,可以從F檢驗和t檢驗開始。1.F檢驗:針對,給定顯著性水平a=0.05,臨界值。從Excel的計算結果可得到,所以應拒絕原假設,說明回歸方程顯著,即“建筑業(yè)總產值”、“工業(yè)總產值”、“農林牧漁業(yè)總產值”等變量聯(lián)合起來確實對“國內生產總值”有顯著影響。2023/2/368四、應用實例

2.t檢驗:分別針對,臨界值從Excel的計算結果也可看到,與對應的統(tǒng)計量分別為-1.633、0.802、1.163、4.613。對于時,其t值絕對值大于臨界值2.145,這說明解釋變量“農林牧漁業(yè)總產值”(X3)對被解釋變量“國內生產總值”(Y)有顯著的影響?!敖ㄖI(yè)總產值”(X1)和“工業(yè)總產值”(X2)的系數(shù)t絕對值小于對應t臨界值,說明在其他系數(shù)不變的情況下,解釋變量“建筑業(yè)總產值”(X1)和“工業(yè)總產值”(X2)對因變量沒有顯著的影響。2023/2/369四、應用實例(二)利用Excel統(tǒng)計插件PHStat2進行逐步回歸分析

2023/2/370圖9-8模型最終設定窗口逐步回歸分析結果2023/2/371

dfSSMSFSignificanceF回歸分析1274663.68274663.683705.4792.29702E-20殘差161185.978474.123654

總計17275849.66

表9-16變量“農林牧漁業(yè)總產值”進入模型后的方差分析表表9-17變量“農林牧漁業(yè)總產值”進入模型后的回歸結果

Coefficients標準誤差tStatP-valueLower95%Upper95%Intercept-72.653729924.6321498-15.684673.9053E-11-82.4734489-62.83401093農林牧漁業(yè)總產值(現(xiàn)價)6.7707907380.11122860.87264972.297E-206.5349962517.006585224逐步回歸分析結果2023/2/372

dfSSMSFSignificanceF回歸分析2275049.79137524.892579.0169.28E-20殘差15799.8681253.324541

總計17275849.66

表9-18變量“工業(yè)總產值”進入模型后的方差分析表

Coefficients標準誤差tStatP-valueLower95%Upper95%Intercept-30.569116.1257-1.8956780.07743-64.94033.8019農林牧漁業(yè)總產值(現(xiàn)價)4.42140.878145.035000.000142.54976.2932工業(yè)總產值(當年價格)0.18000.066902.690860.016760.03740.3226表9-19變量“工業(yè)總產值”進入模型后的回歸結果四、應用實例表9-16和9-17顯示了變量“農林牧漁業(yè)總產值”(X3)進入模型的過程,表9-18和9-19顯示了變量“工業(yè)總產值”(X2)進入模型的過程。按照P值的概率小于或等于0.05則引入,大于或等于0.05則剔除的準則,逐步引入剔除法(stepwise),首先引入的變量為“農林牧漁業(yè)總產值”(X3)得到模型1,進而引入變量“工業(yè)總產值”(X2)得到模型2。模型2間接說明了“建筑業(yè)總產值”(X1)由于統(tǒng)計量值較小,無法通過參數(shù)的顯著性檢驗,因此不納入回歸模型。同時由輸出結果可以看出,模型1與模型2的回歸方程都顯著,而模型2包含兩個變量,同時所引入的兩個變量也都顯著,由此說明模型2是最佳的回歸方程。模型2如下:2023/2/373第七節(jié)非線性回歸分析2023/2/374第九章相關與回歸分析一、非線性函數(shù)形式的確定在對實際的客觀現(xiàn)象進行定量分析時,選擇回歸方程的具體形式應遵循以下原則:首先,方程形式應與有關實質性科學的基本理論相一致。其次,方程有較高的擬合程度。最后,方程的數(shù)學形式要盡可能簡單。2023/2/375一、非線性函數(shù)形式的確定(一)拋物線函數(shù)(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論