整理:多元線性回歸過程_第1頁
整理:多元線性回歸過程_第2頁
整理:多元線性回歸過程_第3頁
整理:多元線性回歸過程_第4頁
整理:多元線性回歸過程_第5頁
已閱讀5頁,還剩81頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1第三章第三章 回歸分析預測法回歸分析預測法2第一部分:多元線性回歸經(jīng)典假設(shè)第一部分:多元線性回歸經(jīng)典假設(shè)3 假設(shè)1. 解釋變量X是確定性變量,不是隨機變量,并且不存在多重共線性; 假設(shè)2. 隨機誤差項具有零均值、同方差和無自相關(guān),不存在異方差性,序列相關(guān)性: E(i)=0 i=1,2, ,n Var (i)=2 i=1,2, ,n Cov(i, j)=0 ij i,j= 1,2, ,n 4異方差XYX10XYX105 隨機誤差項包含眾多因素對因變里的影響,如果其中某一個或多個因素隨 著自變量觀側(cè)值的變化而對因變量產(chǎn)生不同的影響,往往會導致異方差性。一 般情況下,用截面數(shù)據(jù)作樣本時出現(xiàn)異方差性

2、的可能較大,或者說一般都存在 異方差性。而當隨機誤差項存在異方差性時,它的方差往往與主要的自變量之 間存在某種聯(lián)系。6序列自相關(guān)XXYX10YX10負相關(guān)正相關(guān)7 一般說來,經(jīng)濟時間序列中自相關(guān)現(xiàn)象較為常見。這主要是由經(jīng)濟變量的滯后性帶來的。許多經(jīng)濟變量都會產(chǎn)生滯后影響。 自相關(guān)的產(chǎn)生違背了回歸的基本假設(shè),若仍用OLS法估計,將導致參數(shù)估計值雖是無偏的,但不是有效的.顯著性檢驗失效。預測失效等。8假設(shè)3. 隨機誤差項與解釋變量X之間不相關(guān): Cov(Xi, i)=0 i=1,2, ,n 假設(shè)4. 服從零均值、同方差、零協(xié)方差的正態(tài)分布 iN(0, 2 ) i=1,2, ,n9多重共線性10第二

3、部分:多元線性回歸經(jīng)典假設(shè)檢驗第二部分:多元線性回歸經(jīng)典假設(shè)檢驗11912.148.29.512.948.91013.849.5410.614.850.2512.416.451.0216.220.951.8417.724.252.7620.128.153.6921.830.154.5525.335.855.3531.348.556.163654.856.9812131415VIF如果大于5,則說明有多重共線性,這個值越大,共線性越嚴重;解決方法:嶺回歸,主成份分析16 變量間關(guān)系分析計算相關(guān)系數(shù) 17 經(jīng)驗,DW值如果在2附近,不太可能有序列自相關(guān) 可以查表獲得,其中m表示自變量的個數(shù)(包含常

4、數(shù)項)m=3,因為,兩個x,一個截距18 實際應用中:存在多重共線性,需要消除多重共線性,不能直接建立多元線性回歸方程。19 序列自相關(guān) 計算結(jié)果為1.956,查表,結(jié)果發(fā)現(xiàn)不存在序列自相關(guān)20 異方差檢驗 懷特檢驗21第三部分:多元線性回歸建模過程第三部分:多元線性回歸建模過程22 F檢驗:檢驗函數(shù)整體上是否可行,如果sig.列小于0.05,說明函數(shù)整體上看可行。23 每個系數(shù)的檢驗:t檢驗 Sig列小等于0.05,說明對應行的變量通過檢驗,可接受,對應的系數(shù),就是B列的值; Sig列只要有一個大于0.05,則說明這個函數(shù)還不能用,要改進24 改進:逐個按照Sig從大到小,去掉Sig大于0.

5、05行對應的變量,重新建模 這個過程叫做逐步回歸,這個過程用spss自動完成25 到此,如果檢驗都通過,說明:這個模型是可以用的 如果有多個都可以,那個更好26 多元線性回歸方程的評價 評價回歸方程的優(yōu)劣、好壞可用確定系數(shù)R2和剩余標準差Sy,x1,2.p 。 Sy,x1,2. p SQRT(SS誤差n-p-1) 如用于預測,重要的是組外回代結(jié)果。27 R檢驗 一般接近1的好 估計標準誤,小一些好28確定系數(shù): 簡記為R2,即回歸平方和SS回歸與總離均差平方和SS總的比例。 R2 SS回歸 SS總 可用來定量評價在Y的總變異中,由P個X變量建立的線性回歸方程所能解釋的比例。29 殘差平方和,小

6、的好30 二、預測的評價標準 、平均預測誤差平方和(mean squared error,簡記MSE)平均預測誤差絕對值(mean absolute error,簡記MAE)。 變量的MSE定義為: MSE= (2.66) 其中 的預測值, 實際值,T時段數(shù)211TstttyyTstytyty31 變量的MAE定義如下: MAE= ,變量的定義同前 (2.67) 可以看到,MSE和MAE度量的是誤差的絕對大小,只能通過與該變量平均值的比較來判斷誤差的大小,誤差越大,說明模型的預測效果越不理想。 11TstttyyT32 2、Theil不相等系數(shù) 其定義為: (2.68) 注意,U的分子就是MS

7、E的平方根,而分母使得U總在0與1之間。如果U=0,則對所有的t, 完全擬合;如果U=1,則模型的預測能力最差。因此,Theil不等系數(shù)度量的是誤差的相對大小。TttTtstTttstyTyTyyTU121212111tstyy 33 Theil不等系數(shù)可以分解成如下有用的形式: 其中 分別是序列 和 的平均值和標準差, 是它們的相關(guān)系數(shù),即: ssststyyyyT121222 (2.69) ,ssyystytyyyyyTtssts134 定義不相等比例如下: 221tstsMyyTyyU(2.70)221tstsSyyTU (2.71)2112tstsCyyTU (2.72)35 偏誤比例

8、 表示系統(tǒng)誤差,因為它度量的是模擬序列與實際序列之間的偏離程度。 方差比例 表示的是模型中的變量重復其實際變化程度的能力。 協(xié)方差比例 度量的是非系統(tǒng)誤差,即反映的是考慮了與平均值的離差之后剩下的誤差。 理想的不相等比例的分布是 。MUSUCU1, 0CSMUUU比例 分別稱為U的偏誤比例,方差比例,協(xié)方差比例。它們是將模型誤差按特征來源分解的有效方法( )。CSMUUU,1CSMUUU36第五節(jié):模型選擇第五節(jié):模型選擇 一、“好”模型具有的特性 1、節(jié)省性(parsimony) 一個好的模型應在相對精確反應現(xiàn)實的基礎(chǔ)上盡可能的簡單。 2、可識別性(identifiability) 對于給定

9、的一組數(shù)據(jù),估計的參數(shù)要有唯一確定值。37 3、高擬合性(goodness of fit) 回歸分析的基本思想是用模型中包含的變量來解釋被解釋變量的變化,因此解釋能力的高低就成為衡量模型好壞的重要的標準。 4、理論一致性(theoretical consistency) 即使模型的擬合性很高,但是如果模型中某一變量系數(shù)的估計值符號與經(jīng)濟理論不符,那么這個模型就是失敗的。38 5、預測能力(predictive power) 著名經(jīng)濟學家弗里德曼(M.Friedman)認為:“對假設(shè)(模型)的真實性唯一有效的檢驗就是將預測值與經(jīng)驗值相比較”。因此一個好的模型必須有對未來的較強的預測能力。39 二

10、、用于預測的模型的選擇 因為R2將隨著模型解釋變量的增多而不斷增加,按照此標準我們將不會得到最佳的預測模型。 因此必須對由于解釋變量增多而造成自由度丟失施加一個懲罰項,其中的一個標準就是:22111RKTTR40 對自由度丟失懲罰更為嚴格的標準: Akaike的信息準則(Akaike information criterion,簡記為AIC)和Schwarz的信息準則(Schwarz information criterion,簡記為SC) 22kAIC=ln()T2kln()(lnT)TSC 41 其中 是方程隨機誤差項方差的估計值,k是解釋變量的個數(shù),T是樣本容量。 可以看到,AIC和SC

11、 的懲罰項 、 比 更為嚴厲,而且相對來說SC標準對自由度的懲罰比AIC更為嚴厲。無論是AIC標準還是SC標準,從預測的角度來看,度量值越低,模型的預測會更好。 2 2KTKlnTT()2R42標準化偏回歸系數(shù)和確定系數(shù) 標準化偏回歸系數(shù): 在比較各自變量對應變量相對貢獻大小時,由于各自變量的單位不同,不能直接用偏回歸系數(shù)的大小作比較,須用標準化偏回歸系數(shù)。 bj = bj (sj / sy) 43第四部分:多元線性回歸手工建模過程第四部分:多元線性回歸手工建模過程4422xTxxyTyxtttyx一元線性回歸計算過程 1、系數(shù)估計:ttyx45多元線性回歸計算過程 1、系數(shù)估計:tktktt

12、tuxxxy.33221 方程的矩陣形式為 這里:y是T1矩陣,X是Tk矩陣,是k1矩陣,u是T1矩陣uXy46 可以得到多變量回歸系數(shù)的估計表達式 yXXXk121M47MATLAB錄入操作 在excel數(shù)據(jù)中添加一個列,值都是1(如圖所示) 復制如圖所示所示選中的列48499 912.112.148.248.29.59.512.912.948.948.9101013.813.849.5449.5410.610.614.814.850.2550.2512.412.416.416.451.0251.0216.216.220.920.951.8451.8417.717.724.224.252.7

13、652.7620.120.128.128.153.6953.6921.821.830.130.154.5554.5525.325.335.835.855.3555.3531.331.348.548.556.1656.16363654.854.856.9856.98X=X=50 在matlab中輸入命令行,然后按回車 XX=X*X5152 在matlab中輸入INVXX=inv(XX),然后按回車(注意大小寫)53 從excel中復制y這列的數(shù)據(jù)54 在matlab命令行中 輸入:Y=,然后鼠標移到中括號中間 然后,黏貼復制的y數(shù)據(jù)55 在matlab中輸入XY=X*Y,然后按回車(注意大小寫)

14、56在matlab命令行中輸入:Beta=INVXX*XY57中間結(jié)算結(jié)果年份yx2x3x2x3x2平方x3平方x2yx3yy平方1978912.148.2583.22146.412323.24108.9433.88119799.512.948.9630.81166.412391.21122.55464.5590.2519801013.849.54683.65190.442454.212138495.4100198110.614.850.25743.7219.042525.063156.88532.65112.36198212.416.451.02836.73268.962603.04203.

15、36632.65153.76198316.220.951.841083.5436.812687.386338.58839.81262.44198417.724.252.761276.8585.642783.618428.34933.85313.29198520.128.153.691508.7789.612882.616564.811079.2404.01198621.830.154.551642906.012975.703656.181189.2475.24198725.335.855.351981.51281.643063.623905.741400.4640.09198831.348.5

16、56.162723.82352.253153.9461518.051757.8979.6919893654.856.983122.53003.043246.721972.82051.31296合計219.9312.4629.241681710346.333090.377114.19118114908.1358R檢驗 1、可決系數(shù)與調(diào)整的可決系數(shù)、可決系數(shù)與調(diào)整的可決系數(shù) 總離差平方和的分解總離差平方和的分解 可決系數(shù)可決系數(shù)TSSRSSTSSESSR12該統(tǒng)計量越接近于1,模型的擬合優(yōu)度越高。 59=0.9988公式中: 分別和前面計算的結(jié)果對應160R相關(guān)表61R查表過程 總共N=12條記錄

17、,3個變量(含截距),所以查表參數(shù):M=3,N-M=9臨界值為:62 R=0.9988臨界值0.697 說明:相關(guān)性顯著63 問題:問題: 在應用過程中發(fā)現(xiàn),如果在模型中增加一個解釋變量, R2往往增大(Why?) 這就給人一個錯覺一個錯覺:要使得模型擬合得好,只要使得模型擬合得好,只要增加解釋變量即可要增加解釋變量即可。 但是,現(xiàn)實情況往往是,由增加解釋變量個數(shù)引起的R2的增大與擬合好壞無關(guān),R2需調(diào)整需調(diào)整。64 調(diào)整的可決系數(shù)調(diào)整的可決系數(shù)(adjusted coefficient of determination) 在樣本容量一定的情況下,增加解釋變量必定使得自由度減少,所以調(diào)整的思路

18、是:將殘差平方將殘差平方和與總離差平方和分別除以各自的自由度,以剔和與總離差平方和分別除以各自的自由度,以剔除變量個數(shù)對擬合優(yōu)度的影響除變量個數(shù)對擬合優(yōu)度的影響:) 1/() 1/(12nTSSknRSSR其中:n-k-1為殘差平方和的自由度,n-1為總體平方和的自由度。k,表示變量格數(shù)(不含截距)=1-(1-0.9988*0.9988)*(12-1)/(12-3)65F檢驗:計算過程66 F F檢驗的思想檢驗的思想來自于總離差平方和的分解式: TSS=ESS+RSS由于回歸平方和2iyESS是解釋變量X的聯(lián)合體對被解釋變量 Y 的線性作用的結(jié)果,考慮比值 22/iieyRSSESS 如果這個比值較大,則X的聯(lián)合體對Y的解釋程度高,可認為總體存在線性關(guān)系,反之總體上可能不存在線性關(guān)系。 因此因此, ,可通過該比值的大小對總體線性關(guān)系進行推可通過該比值的大小對總體線性關(guān)系進行推斷斷。67 根據(jù)數(shù)理統(tǒng)計學中的知識,在原假設(shè)H0成立的條件下,統(tǒng)計量 ) 1/(/knRSSkES

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論