第三章 回歸預測法_第1頁
第三章 回歸預測法_第2頁
第三章 回歸預測法_第3頁
第三章 回歸預測法_第4頁
第三章 回歸預測法_第5頁
已閱讀5頁,還剩80頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、3 回回 歸歸 預預 測測 法法 3.1 一元線性回歸預測法 3.2 多元線性回歸預測法 3.3 非線性回歸預測法 3.4 應用回歸預測時應注意的問題3.1 一元線性回歸預測法一元線性回歸預測法 是指成對的兩個變量數據分布大體上呈直線趨 勢時,運用合適的參數估計方法,求出一元線 性回歸模型,然后根據自變量與因變量之間的 關系,預測因變量的趨勢。回本章目錄 很多社會經濟現象之間都存在相關關系,因 此,一元線性回歸預測有很廣泛的應用。進 行一元線性回歸預測時,必須選用合適的統(tǒng) 計方法估計模型參數,并對模型及其參數進 行統(tǒng)計檢驗。 回本章目錄一、建立模型 一元線性回歸模型: 01iiiybb x其中

2、, 0b1b是未知參數, i為剩余殘差項或稱隨機擾動項。 ,回本章目錄 用最小二乘法進行參數的估計時,要求i滿足以下基本假設條件: 二、估計參數 回本章目錄 用最小二乘法進行參數估計 ,得到的估計表達式為:12xxyybxx01byb x回本章目錄 三、進行檢驗標準誤差:估計值與因變量值間的平均 平方根誤差。其計算公式為: 22yySEn回本章目錄可決系數:衡量自變量與因變量關系密切程度的指標,表示自變量解釋了因變量變動的百分比。計算公式為: 2222221xxyyyyRyyxxyy 可見,可決系數取值于0與1之間,并取決于回歸模型所解釋的y方差的百分比?;乇菊履夸浵嚓P系數 其計算公式為: 2

3、2xxyyrxxyy 由公式可見,可決系數是相關系數的平方。相關系數越接近+1或1,因變量與自變量的擬合程度就越好?;乇菊履夸?相關系數測定變量之間的密切程度,可決系數測定自變量對因變量的解釋程度。相關系數有正負,可決系數只有正號。 正相關系數意味著因變量與自變量以相同的方向增減。 如果直線從左至右上升,則相關系數為正; 如果直線從左至右下降,則相關系數為負。 相關系數與可決系數的主要區(qū)別:回本章目錄回歸系數顯著性檢驗檢驗假設: 01:0Hb 11:0Hb 其中,2bSESxx檢驗規(guī)則:給定顯著性水平 ,若tt則回歸系數顯著。 檢驗統(tǒng)計量: 12bbttnS回本章目錄回歸模型的顯著性檢驗 檢驗

4、假設: 0:H回歸方程不顯著 1:H回歸方程顯著 檢驗統(tǒng)計量: 222yyFyyn1,2Fn檢驗規(guī)則:給定顯著性水平 ,若 1,2FFn則回歸方程顯著。 回本章目錄德賓沃森統(tǒng)計量(DW) 檢驗 iu之間是否存在自相關關系。 21221niiiniiDW其中,iiiyyDW的取值域在04之間?;乇菊履夸?檢驗法則:回本章目錄DW檢驗表見教材附表一 四、進行預測 小樣本情況下,預測區(qū)間的常用公式為: 回本章目錄niiexxxxnSnty12202011)2( 例 1 已知身高與體重的資料如下表所示:例題分析 要求:(1)擬合適當的回歸方程; (2)判斷擬合優(yōu)度情況; (3)對模型進行顯著性檢驗;(

5、=0.05) (4)當體重為75公斤時,求其身高平均值的95% 的置信區(qū)間?;乇菊履夸?解答: (1)n=8,經計算得: 472x 281582x54.13y9788.222y02.803xy因此:0134. 047228158847254.1302.803822221 xxnyxxynxxyyxxb9 . 084720134. 0854.1310 xbyb回本章目錄因此,建立的一元線性回歸方程為: xy0134. 0898. 0(2)4815. 069. 189788.22)59828158(0134. 0)()()(22222222122212ynyxnxbyyxxbR回歸直線的擬合優(yōu)度不

6、是很理想 。回本章目錄(3))6 , 1 (50564815. 0164815. 01)2(05. 022FRnRF 所以拒絕原假設,認為所建立的線性回歸模型是顯著的?;乇菊履夸?078. 2 ,728. 1 (8/47228158)8/47275(810734. 04476. 2750134. 0898. 0)()(1)2()(22220200 xxxxnSEntYYE(4)0734. 0602.8030134. 054.139 . 09788.222102nxybybySE回本章目錄 例2 為研究銷售收入與廣告費用支出之間的關系,某醫(yī)藥管理部門隨機抽取20家藥品生產企業(yè),得到它們的年銷售收

7、入和廣告費用支出(萬元)的數據如下。繪制散點圖描述銷售收入與廣告費用之間的關系 銷售收入和廣告費用的散點圖第第1步:步:選擇【Analyze】下拉菜單,并選擇【Regression - linear】選項,進入主對話框第第2步:步:在主對話框中將因變量(本例為銷售收入)選入【Dependent】,將自變量(本例為廣告費用)選入【Independent(s)】第第3步:步:點擊【Save】 在【Predicted Values】下選中【Unstandardized】(輸出點預測值) 在【Prediction interval】下選中【Mean】和【Individual】(輸出置信區(qū)間和預測區(qū)間)

8、 在【Confidence Interval】中選擇所要求的置信水平(隱含值95%,一般不用改變) 在【Residuals】下選中【Unstandardized】和【standardized】(輸出殘差和標準化殘差) 點擊【Continue】回到主對話框。點擊【OK】參數的最小二乘估計(SPSS輸出結果)參數的最小二乘估計(例題分析)xy1309. 55502.274對于自變量 x 的一個給定值 x0,根據回歸方程得到因變量 y 的一個估計區(qū)間區(qū)間估計有兩種類型 1.置信區(qū)間估計(confidence interval estimate) 2.預測區(qū)間估計(prediction interva

9、l estimate)平均值的置信區(qū)間n利用估計的回歸方程,對于自變量 x 的一個給定值 x0 ,求出因變量 y 的平均值的估計區(qū)間 ,這一估計區(qū)間稱為置信區(qū)間置信區(qū)間(confidence interval)n E(y0) 在1-置信水平下的置信區(qū)間為niiexxxxnsnty1220201)2(個別值的預測區(qū)間n利用估計的回歸方程,對于自變量 x 的一個給定值 x0 ,求出因變量 y 的一個個別值的估計區(qū)間,這一區(qū)間稱為預測區(qū)間預測區(qū)間(prediction interval) n y0在1-置信水平下的預測區(qū)間為niiexxxxnSnty12202011)2(置信區(qū)間和預測區(qū)間xy10用

10、SPSS進行回歸 第第1步:步:選擇【Analyze】下拉菜單,并選擇【Regression - linear】選項,進入主對話框第第2步:步:在主對話框中將因變量(本例為銷售收入)選入【Dependent】,將自變量(本例為廣告費用)選入【Independent(s)】第第3步:步:點擊【Save】 在【Predicted Values】下選中【Unstandardized】(輸出點預測值) 在【Prediction interval】下選中【Mean】和【Individual】(輸出置信區(qū)間和預測區(qū)間) 在【Confidence Interval】中選擇所要求的置信水平(隱含值95%,一般

11、不用改變) 在【Residuals】下選中【Unstandardized】和【standardized】(輸出殘差和標準化殘差) 點擊【Continue】回到主對話框。點擊【OK】置信區(qū)間和預測區(qū)間(例題分析)點點預預測測值值置置信信線線預預測測線線置信區(qū)間和預測區(qū)間(例題分析)殘差(residual)因變量的觀測值與根據估計的回歸方程求出的預測值之差,用e表示反映了用估計的回歸方程去預測而引起的誤差 可用于確定有關誤差項的假定是否成立 用于檢測有影響的觀測值iiiyye殘差圖(residual plot)表示殘差的圖形關于x的殘差圖關于y的殘差圖標準化殘差圖用于判斷誤差的假定是否成立 檢測有

12、影響的觀測值殘差齊性檢驗殘殘差差殘殘差差殘差與標準化殘差圖(例題分析)點點預預測測值值殘殘差差標標準準殘殘差差殘差圖(例題分析)銷售收入與廣告費用回歸的殘差圖標準化殘差(standardized residual)殘差除以它的標準差也稱為Pearson殘差或半學生化殘差(semi-studentized residuals) 計算公式為eiieiesyysezi22)()(11xxxxnsyyziieiiei注意:注意:Excel給出的標準殘差的計算公式為 這實際上是學生化刪除殘差(studentized deleted residuals)殘差正態(tài)性檢驗 用標準化殘差圖直觀地判斷誤差項是否服

13、從正態(tài)分布, 若殘差正態(tài)分布成立,標準化殘差也應服從正態(tài)分布; 在標準化殘差圖中,大約有95%的標準化殘差在-2 到+2之間 標準化殘差圖(例題分析)銷售收入與廣告費用回歸的標準化殘差圖標準化殘差的直方圖和正態(tài)概率圖(例題分析)銷售收入與廣告費用回歸標準化殘的直方圖和正態(tài)概率圖3.2 多多 元元 線線 性性 回回 歸歸 預預 測測 法法 社會經濟現象的變化往往受到多個因素的影響,因此,一般要進行多元回歸分析,我們把包括兩個或兩個以上自變量的回歸稱為多元回歸?;乇菊履夸?多元回歸與一元回歸類似,可以用最小 二乘法估計模型參數。也需對模型及模 型參數進行統(tǒng)計檢驗。 選擇合適的自變量是正確進行多元回

14、歸預 測的前提之一,多元回歸模型自變量的選 擇可以利用變量之間的相關矩陣來解決?;乇菊履夸?一、建立模型類似使用最小二乘法進行參數估計 ?;乇菊履夸沰kxxxy22110多元線性回歸的方程的估計k,210k,210kkxxxy22110k,210k,210y 用樣本統(tǒng)計量 估計回歸方程中的 參數 時得到的方程由最小二乘法求得一般形式為 二、擬合優(yōu)度指標 估計標準誤差:對y值與模型估計值之間的離差的一種度量。 計算公式為: 回本章目錄MSEknSSEknyySniiie1112可決系數: 20R 21R 意味著回歸模型沒有對y的變差做出任何解釋; 意味著回歸模型對y的全部變差做出解釋。 回本章目

15、錄SSTSSESSTSSRyyyyRniinii112122 三、 線性關系檢驗回本章目錄1.提出假設H0:12k=0 線性關系不顯著H1:1,2, k至少有一個不等于0)1,()1()1(1212knkFknyykyyknSSEkSSRFniinii 四、 回歸系數的檢驗提出假設H0: bi = 0 (自變量 xi 與 因變量 y 沒有線性關系) H1: bi 0 (自變量 xi 與 因變量 y有線性關系) 計算檢驗的統(tǒng)計量 t) 1(kntStii五、自相關檢驗21221niiiniiDW其中 , ,與一元回歸檢驗方法相同。iiiyy回本章目錄多重共線性(multicollinearity

16、)回歸模型中兩個或兩個以上的自變量彼此相關多重共線性帶來的問題有 可能會使回歸的結果造成混亂,甚至會把分析引入歧途 可能對參數估計值的正負號產生影響,特別是各回歸系數的正負號有可能同預期的正負號相反 多重共線性的識別檢測多重共線性的最簡單的一種辦法是計算模型中各對自變量之間的相關系數,并對各相關系數進行顯著性檢驗若有一個或多個相關系數顯著,就表示模型中所用的自變量之間相關,存在著多重共線性如果出現下列情況,暗示存在多重共線性模型中各對自變量之間顯著相關當模型的線性關系檢驗(F檢驗)顯著時,幾乎所有回歸系數的t檢驗卻不顯著 回歸系數的正負號與預期的相反任何兩個自變量之間的相關系數為: 22xxy

17、yrxxyy 經驗法則認為,相關系數的絕對值小于0.75,或者 0.5,這兩個自變量之間不存在多重共線性問題。 若某兩個自變量之間高度相關,就有必要把其 中的一個自變量從模型中刪去。回本章目錄相關矩陣及其檢驗 (SPSS )多重共線性的處理將一個或多個相關的自變量從模型中剔除,使保留的自變量盡可能不相關增大樣本容量,使樣本容量n遠大于自變量個數p作回歸系數的有偏估計: 嶺回歸 主成分回歸 偏最小二乘法變量選擇過程在建立回歸模型時,對自變量進行篩選選擇自變量的原則是對統(tǒng)計量進行顯著性檢驗將一個或一個以上的自變量引入到回歸模型中時,是否使得殘差平方和(SSE)有顯著地減少。如果增加一個自變量使SS

18、E的減少是顯著的,則說明有必要將這個自變量引入回歸模型,否則,就沒有必要將這個自變量引入回歸模型確定引入自變量是否使SSE有顯著減少的方法,就是使用F統(tǒng)計量的值作為一個標準,以此來確定是在模型中增加一個自變量,還是從模型中剔除一個自變量n變量選擇的方法主要有:向前選擇、向后剔除、逐步回歸、最優(yōu)子集等 向前選擇 (forward selection)從模型中沒有自變量開始對k個自變量分別擬合對因變量的一元線性回歸模型,共有k個,然后找出F統(tǒng)計量的值最高的模型及其自變量(P值最小的),并將其首先引入模型 分別擬合引入模型外的k-1個自變量的二元線性回歸模型 如此反復進行,直至模型外的自變量均無統(tǒng)計

19、顯著性為止向后剔除 (backward elimination)先對因變量擬合包括所有k個自變量的回歸模型。然后考察p(pk)個去掉一個自變量的模型(這些模型中在每一個都有k-1個自變量),使模型的SSE值減小最少的自變量被挑選出來并從模型中剔除考察p-1個再去掉一個自變量的模型(這些模型中每一個都有k-2個自變量),使模型的SSE值減小最少的自變量被挑選出來并從模型中剔除如此反復進行,一直將自變量從模型中剔除,直至剔除一個自變量不會使SSE顯著減小為止逐步回歸 (stepwise regression)將向前選擇和向后剔除兩種方法結合起來篩選自變量在增加了一個自變量后,它會對模型中所有的變量

20、進行考察,看看有沒有可能剔除某個自變量。如果在增加了一個自變量后,前面增加的某個自變量對模型的貢獻變得不顯著,這個變量就會被剔除按照方法不停地增加變量并考慮剔除以前增加的變量的可能性,直至增加變量已經不能導致SSE顯著減少在前面步驟中增加的自變量在后面的步驟中有可能被剔除,而在前面步驟中剔除的自變量在后面的步驟中也可能重新進入到模型中用SPSS進行逐步回歸 (stepwise regression)第第1步:步:選擇【Analyze】下拉菜單,并選擇 【Regression - linear】選項進入主對話框第第2步:步:在主對話框中將因變量選入【Dependent】,將 所有自變量選入【In

21、dependent(s)】,并在 【Method】下選擇【Stepwise】第第3步:步:點擊【Options】,并在【Stepping Method Criteria】下選中【Use Probability of F】,并在 【Entry】框中輸入增加變量所要求的顯著性水平 (隱含值為0.05,一般不用改變);在 【Removal】輸入剔除變量所要求的顯著性水平 (隱含值為0.10,一般不用改變)。點擊 【Continue】回到主對話框用SPSS進行逐步回歸 (stepwise regression)第第4步:步:(需要預測時)點擊【Save】: 在【Predicted Values】下選中

22、 【Unstandardized】(輸出點預測值) 在【Prediction interval】下選中【Mean】和 【Individual】(輸出置信區(qū)間 和預測區(qū)間) 在【Confidence Interval】中選擇所要求的置 信水平(隱含值為95%,一般不用改變) (需要殘差分析時)在【Residuals】下選中所 需的殘差,點擊【Continue】回到主對話 框。點擊【OK】參數的最小二乘估計(逐步回歸) 逐步回歸 (例題分析SPSS輸出結果)變量的進入和移出標準 逐步回歸 (例題分析SPSS輸出結果)兩個模型的主要統(tǒng)計量 逐步回歸 (例題分析SPSS輸出結果)兩個模型的方差分析表

23、逐步回歸 (例題分析SPSS輸出結果)兩個模型的參數估計和檢驗 41032. 0050. 0433. 0 xxy用SPSS做回歸面圖 第第1步:步:點擊【Graphs】【Interactive-Scatterplot】第第2步:點擊【步:點擊【3D Coordine】,將各坐標軸變】,將各坐標軸變量拖入相應坐標軸量拖入相應坐標軸第第3步:點擊【步:點擊【Fit】,在【】,在【method】下選擇】下選擇【Regression】,在【】,在【Prediction Lines】下選擇【下選擇【Mean】和【】和【Individual】。點擊】。點擊【確定】【確定】不良貸款的置信面和預測面不良貸款的

24、置信面和預測面41032. 0050. 0433. 0 xxy3.3 啞變量啞變量 回回 歸歸也稱虛擬變量。用數字代碼表示的定性自變量啞變量可有不同的水平只有兩個水平的啞變量比如,性別(男,女) 有兩個以上水平的啞變量貸款企業(yè)的類型(家電,醫(yī)藥,其他) 啞變量的取值為0,1女男01x在回歸中引進啞變量回歸模型中使用啞變量時,稱為啞變量回歸當定性變量只有兩個水平時,可在回歸中引入一個啞變量比如,性別(男,女) 一般而言,如果定性自變量有k個水平,需要在回歸中模型中引進k-1個啞變量其他水平水平其他水平水平其他水平水平011,021,011121kxxxk在回歸中引進啞變量(例題分析) 引進啞變量

25、時,回歸方程表示為E(y) =0+ 1x男( x=0):E(y) =0男學生考試成績的期望值女(x=1):E(y) =0+ 1女學生考試成績的期望值注意:當指定啞變量0,1時0總是代表與啞變量值0所對應的那個分類變量水平的平均值1總是代表與啞變量值1所對應的那個分類變量水平的平均響應與啞變量值0所對應的那個分類變量水平的平均值的差值,即 平均值的差值 =(0+ 1) - 0= 1用SPSS進行啞變量回歸(有一個啞變量和有一個數值變量)第第1步:步:選擇【Analyze】,并選擇【General Linear Model-Univaiate】進入主對話框第第2步:步:將因變量(考試成績)選入【D

26、ependent Variable】,將自變量(性別)選入【Fixed Factor(s)】(模型中還含有一個數值自變量時,將數值自變量選入【Covariate(s)】)第第3步:步:點擊【Model】,并點擊【Custom】;將性別F選入【Model】(若模型中還含有工作年限自變量時,將工作年限C也選入【Model】;在【Build Term(s)】下選擇【Main effects】。點擊【Continue】回到主對話框。點擊【Options】,在【Display】下選中【Parameter estimates】(估計模型中的參數)。點擊【Continue】回到主對話框。點擊【OK】啞變量回

27、歸 (例3.5只含一個啞變量)SPSS的輸出結果 T Te es st ts s o of f B Be et tw we ee en n- -S Su ub bj je ec ct ts s E Ef ff fe ec ct ts sDependent Variable: 考試成績885.063a1885.0635.326.03788357.563188357.563531.731.000885.0631885.0635.326.0372326.37514166.17091569.000163211.43815SourceCorrected ModelIntercept性別ErrorTotalCorrected TotalType III Sumof SquaresdfMean SquareFSig.R Squar

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論