多元線性回歸課件_第1頁
多元線性回歸課件_第2頁
多元線性回歸課件_第3頁
多元線性回歸課件_第4頁
多元線性回歸課件_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第 3 章 多元線性回歸 3.1 多元線性回歸模型3.2 回歸參數的估計3.3 參數估計量的性質3.4 回歸方程的顯著性檢驗3.5 中心化和標準化3.6 相關陣與偏相關系數3.7 本章小結與評注 3.1 多元線性回歸模型一、多元線性回歸模型的一般形式 y=0+1x1+2x2+pxp+3.1 多元線性回歸模型一、多元線性回歸模型的一般形式 對n組觀測數據 (xi1, xi2,xip; yi), i=1,2,n,線性回歸模型表示為:3.1 多元線性回歸模型一、多元線性回歸模型的一般形式 寫成矩陣形式為: y=X+, 其中,3.1 多元線性回歸模型二、多元線性回歸模型的基本假定 1. 解釋變量x1,

2、x2,xp是確定性變量,不是隨機變量,且要求rk(X)=p+1n。表明設計矩陣X中的自變量列之間不相關,X是一滿秩矩陣。2 .隨機誤差項具有0均值和等方差,即 這個假定稱為Gauss-Markov條件 3.1 多元線性回歸模型二、多元線性回歸模型的基本假定 3. 正態(tài)分布的假定條件為: 用矩陣形式(3.5)式表示為: N(0, s2In)yN(X, s2In)E(y)=Xvar(y)= s2In 3.1 多元線性回歸模型三、多元線性回歸方程的解釋 y表示空調機的銷售量,x1表示空調機的價格,x2表示消費者可用于支配的收入。y=0+1x1+2x2+E(y)=0+1x1+2x2在x2保持不變時,有

3、在x1保持不變時,有3.1 多元線性回歸模型三、多元線性回歸方程的解釋 考慮國內生產總值GDP和三次產業(yè)增加值的關系, GDP=x1 + x2+ x3現在做GDP對第二產業(yè)增加值x2的一元線性回歸,得回歸方程3.1 多元線性回歸模型年份GDP第一產業(yè)增加值x1第二產業(yè)增加值x2第三產業(yè)增加值x3199018 547.9 5 017.0 7 717.4 5 813.5 199121 617.8 5 288.6 9 102.2 7 227.0 199226 638.1 5 800.0 11 699.5 9 138.6 199334 634.4 6 882.1 16 428.5 11 323.8 1

4、99446 759.4 9 457.2 22 372.2 14 930.0 199558 478.1 11 993.0 28 537.9 17 947.2 199667 884.6 13 844.2 33 612.9 20 427.5 199774 462.6 14 211.2 37 222.7 23 028.7 199878 345.2 14 552.4 38 619.3 25 173.5 199982 067.5 14 472.0 40 557.8 27 037.7 200089 468.1 14 628.2 44 935.3 29 904.6 200197 314.8 15 411.8

5、48 750.0 33 153.0 2002105 172.3 16 117.3 52 980.2 36 074.8 2003117 390.2 16 928.1 61 274.1 39 188.0 2004136 875.9 20 768.1 72 387.2 43 720.63.1 多元線性回歸模型三、多元線性回歸方程的解釋 建立GDP對x1和x2的回歸,得二元回歸方程=2 914.6+0.607 x1+1.709 x2你能夠合理地解釋兩個回歸系數嗎 ?3.2 回歸參數的估計 一、回歸參數的普通最小二乘估計 最小二乘估計要尋找3.2 回歸參數的估計 一、回歸參數的普通最小二乘估計 3.2

6、回歸參數的估計 一、回歸參數的普通最小二乘估計 經整理后得用矩陣形式表示的正規(guī)方程組 移項得存在時,即得回歸參數的最小二乘估計為:3.2 回歸參數的估計 二、回歸值與殘差為回歸值 稱為帽子矩陣,其主對角線元素記為hii ,則3.2 回歸參數的估計 二、回歸值與殘差 此式的證明只需根據跡的性質tr(AB)=tr(BA),因而3.2 回歸參數的估計 二、回歸值與殘差 cov(e,e)=cov((I-H)Y,(I-H)Y) =(I-H)cov(Y,Y)(I-H) =2(I-H)In(I-H)=2(I-H)得 D(ei)=(1-hii)2,i=1,2,n3.2 回歸參數的估計 二、回歸值與殘差 是2的

7、無偏估計 3.2 回歸參數的估計 三 、回歸參數的最大似然估計 yN(X,2In)似然函數為 等價于使(y-X)(y-X)達到最小,這又完全與OLSE一樣3.2 回歸參數的估計 例3.1 國際旅游外匯收入是國民經濟發(fā)展的重要組成部分,影響一個國家或地區(qū)旅游收入的因素包括自然、文化、社會、經濟、交通等多方面的因素,本例研究第三產業(yè)對旅游外匯收入的影響。中國統(tǒng)計年鑒把第三產業(yè)劃分為12個組成部分,分別為x1農林牧漁服務業(yè),x2地質勘查水利管理業(yè),x3交通運輸倉儲和郵電通信業(yè),x4批發(fā)零售貿易和餐飲業(yè),x5金融保險業(yè),x6房地產業(yè),x7社會服務業(yè),x8衛(wèi)生體育和社會福利業(yè),x9教育文化藝術和廣播,x

8、10科學研究和綜合藝術,x11黨政機關,x12其他行業(yè)。采用1998年我國31 個省、市、自治區(qū)的數據,以國際旅游外匯收入(百萬美元)為因變量y,以如上12 個行業(yè)為自變量做多元線性回歸,數據見表3.1,其中自變量單位為億元人民幣。3.2 回歸參數的估計 3.3 參數估計量的性質 性質1 是隨機向量y的一個線性變換。性質2 是的無偏估計。 3.3 參數估計量的性質 3.3 參數估計量的性質 當p=1時 3.3 參數估計量的性質 性質4 Gauss-Markov定理預測函數 是 的線性函數 Gauss-Markov定理 在假定E(y)=X, D(y)=2In時,的任一線性函數 的最小方差線性無偏

9、估計(Best Lnear Unbiased Estimator簡記為BLUE)為c,其中c是任一p+1維向量, 是的最小二乘估計。3.3 參數估計量的性質 第一,取常數向量c的第j(j=0,1,n)個分量為1,其余分量為0,這時G-M定理表明最小二乘估計是j的最小方差線性無偏估計。 第二,可能存在y1, y2 , , yn的非線性函數,作為 的無偏估計,比最小二乘估計 的方差更小。 第三,可能存在 的有偏估計量,在某種意義(例如均方誤差最?。┫卤茸钚《斯烙?更好。 第四,在正態(tài)假定下, 是 的最小方差無偏估計。也就是說,既不可能存在y1, y2 , , yn的非線性函數,也不可能存在y1,

10、 y2 , , yn的其它線性函數,作為 的無偏估計,比最小二乘估計 方差更小。3.3 參數估計量的性質 性質5 cov(,e)=0此性質說明 與e不相關,在正態(tài)假定下等價于與e獨立,從而與 獨立。性質6 在正態(tài)假設(1)(2)3.4 回歸方程的顯著性檢驗 一、F檢驗 H0:1=2=p=0SST = SSR + SSE 當H0成立時服從3.4 回歸方程的顯著性檢驗 一、F檢驗 方差來源自由度平方和均方F值P值回歸殘差總和pn-p-1n-1SSRSSESSTSSR/pSSE/(n-p-1)P(FF值)=P值3.4 回歸方程的顯著性檢驗 二、回歸系數的顯著性檢驗 H0j:j=0, j=1,2,p(

11、,(X)-1)記 (X)-1=(cij) i,j=0,1,2, ,p構造t統(tǒng)計量 其中3.4 回歸方程的顯著性檢驗 二、回歸系數的顯著性檢驗 (剔除x1)3.4 回歸方程的顯著性檢驗 二、回歸系數的顯著性檢驗 3.4 回歸方程的顯著性檢驗 二、回歸系數的顯著性檢驗 從另外一個角度考慮自變量xj的顯著性。y對自變量x1,x2,xp線性回歸的殘差平方和為SSE,回歸平方和為SSR,在剔除掉xj后,用y對其余的p-1個自變量做回歸,記所得的殘差平方和為SSE(j),回歸平方和為SSR(j),則 自變量xj對回歸的貢獻為SSR(j)=SSR-SSR(j),稱為xj的偏回歸平方和。由此構造偏F統(tǒng)計量3.

12、4 回歸方程的顯著性檢驗 二、回歸系數的顯著性檢驗 當原假設H0j :j=0成立時,(3.42)式的偏F統(tǒng)計量Fj服從自由度為(1,n-p-1)的F分布,此F檢驗與(3.40)式的t檢驗是一致的,可以證明Fj=tj23.4 回歸方程的顯著性檢驗 三、回歸系數的置信區(qū)間可得j的置信度為1-的置信區(qū)間為:3.4 回歸方程的顯著性檢驗四、擬合優(yōu)度 決定系數為: y關于x1,x2,xp的樣本復相關系數3.5 中心化和標準化 一、中心化 經驗回歸方程 經過樣本中心 將坐標原點移至樣本中心,即做坐標變換: 回歸方程轉變?yōu)椋夯貧w常數項為3.5 中心化和標準化 二、標準化回歸系數 當自變量的單位不同時普通最小

13、二乘估計的回歸系數不具有可比性,例如有一回歸方程為:其中x1的單位是噸, x2的單位是公斤3.5 中心化和標準化 二、標準化回歸系數 樣本數據的標準化公式為: 得標準化的回歸方程 3.5 中心化和標準化 二、標準化回歸系數 標準化回歸系數3.6 相關陣與偏相關系數 一、樣本相關陣自變量樣本相關陣 增廣的樣本相關陣為: 3.6 相關陣與偏相關系數 一、樣本相關陣YX1X2X3X4X5X6X7X8X9X10X11X12Y1.0000.2600.3420.5800.4790.5180.5300.7410.3790.5750.6730.2570.038X10.2601.0000.6400.6910.7

14、380.5820.5190.6630.6910.7190.1500.7580.301X20.3420.6401.0000.7730.6580.5020.4640.6020.6600.6860.1180.7600.337X30.5800.6910.7731.0000.9340.7420.7100.8850.8670.8890.3140.8550.457X40.4790.7380.6580.9341.0000.7800.7430.8870.9260.8920.3480.8490.437X50.5180.5820.5020.7420.7801.0000.9890.7400.7900.8500.630

15、0.7050.515X60.5300.5190.4640.7100.7430.9891.0000.7030.7530.8210.6460.6660.493X70.7410.6630.6020.8850.8870.7400.7031.0000.7810.8340.5410.6490.190X80.3790.6910.6600.8670.9260.7900.7530.7811.0000.9310.4040.9060.548X90.5750.7190.6860.8890.8920.8500.8210.8340.9311.0000.5690.8950.533X100.6730.1500.1180.31

16、40.3480.6300.6460.5410.4040.5691.0000.2410.155X110.2570.7580.7600.8550.8490.7050.6660.6490.9060.8950.2411.0000.613X120.0380.3010.3370.4570.4370.5150.4930.1900.5480.5330.1550.6131.0003.6 相關陣與偏相關系數 二、偏判定系數 當其他變量被固定后,給定的任兩個變量之間的相關系數,叫偏相關系數。 偏相關系數可以度量p+1個變量y,x1,x2, xp之中任意兩個變量的線性相關程度,而這種相關程度是在固定其余p-1個變量的

17、影響下的線性相關。 3.6 相關陣與偏相關系數 二、偏判定系數 偏判定系數測量在回歸方程中已包含若干個自變量時,再引入某一個新的自變量后y的剩余變差的相對減少量,它衡量y的變差減少的邊際貢獻。3.6 相關陣與偏相關系數 二、偏判定系數 以x1表示某種商品的銷售量, x2表示消費者人均可支配收入, x3表示商品價格。從經驗上看,銷售量x1與消費者人均可支配收入x2之間應該有正相關,簡單相關系數r12應該是正的。但是如果你計算出的r12是個負數也不要感到驚訝,這是因為還有其它沒有被固定的變量在發(fā)揮影響,例如商品價格x3在這期間大幅提高了。反映固定x3后x1與x2相關程度的偏相關系數r12;3會是個

18、正數。3.6 相關陣與偏相關系數 1兩個自變量的偏判定系數二元線性回歸模型為:yi=0+1xi1+2xi2+i記SSE(x2)是模型中只含有自變量x2時y的殘差平方和,SSE(x1,x2)是模型中同時含有自變量x1和x2時y的殘差平方和。因此模型中已含有x2時再加入x1使y的剩余變差的相對減小量為:此即模型中已含有x2時,y與x1的偏判定系數。3.6 相關陣與偏相關系數 1兩個自變量的偏判定系數同樣地,模型中已含有x1時,y與x2的偏判定系數為:3.6 相關陣與偏相關系數 2.一般情況在模型中已含有x2,xp時,y與x1的偏判定系數為:3.6 相關陣與偏相關系數 三、偏相關系數 偏判定系數的平

19、方根稱為偏相關系數,其符號與相應的回歸系數的符號相同。 例3.2 研究北京市各經濟開發(fā)區(qū)經濟發(fā)展與招商投資的關系,因變量y為各開發(fā)區(qū)的銷售收入(百萬元),選取兩個自變量, x1為截至1998年底各開發(fā)區(qū)累計招商數目, x2為招商企業(yè)注冊資本(百萬元)。表中列出了至1998年底招商企業(yè)注冊資本x2在5億至50億元的15個開發(fā)區(qū)的數據。3.6 相關陣與偏相關系數 三、偏相關系數 北京開發(fā)區(qū)數據x1x2yx1x2y253547.79553.967671.13122.2420896.34208.555322863.3214006750.323.175116046410012087.052815.440

20、862.757.55251639.311052.12187672.99224.188253357.73427122901.76538.94120808.47442.82743546.182442.7928520.2770.123.6 相關陣與偏相關系數 三、偏相關系數 偏相關系數表3.6 相關陣與偏相關系數 三、偏相關系數 用y與x1做一元線性回歸時,x1能消除y的變差SST的比例為再引入x2時,x2能消除剩余變差SSE(X1)的比例為因而自變量x1和x2消除y變差的總比例為=1-(1-0.651)(1-0.546)=0.842=84.2%。這個值84.2%恰好是y對x1和x2二元線性回歸的判定系數R23.6 相關陣與偏相關系數 三、偏相關系數 對任意p個變量x1,x2,xp定義它們之間的偏相關系數其中符號ij表示相關陣第i行第j列元素的代數余子式驗證3.7 本章小結與評注 例3.3 中國民航客運量的回歸模型。y民航客運量(萬人),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論