第4章 回歸分析_第1頁
第4章 回歸分析_第2頁
第4章 回歸分析_第3頁
第4章 回歸分析_第4頁
第4章 回歸分析_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第四章回歸分析回歸分析(RegressionAnalysis)是研究一個變量Y與其它若干變量X之間相關(guān)關(guān)系的一種數(shù)學(xué)工具,它是在一組試驗或觀測數(shù)據(jù)的基礎(chǔ)上,尋找被隨機性掩蓋了的變量之間的依存關(guān)系。粗略地講,可以理解為用一種確定的函數(shù)關(guān)系去近似代替比較復(fù)雜的相關(guān)關(guān)系,這個函數(shù)稱為回歸函數(shù),在實際問題中稱為經(jīng)驗公式?;貧w分析所研究的主要問題就是如何利用變量X,Y的觀察值(樣本),對回歸函數(shù)進行統(tǒng)計推斷,包括對它進行估計及檢驗與它有關(guān)的假設(shè)等。一元直線回歸1.回歸方程的建立例:在四川白鵝的生產(chǎn)性能研究中,得到如下一組關(guān)于雛鵝重(g)與70日齡重(g)的數(shù)據(jù),試建立70日齡重(y)與雛鵝重(x)的直線回歸方程。編號123456789101112雛鵝重(x)80869890120102958311310511010070日齡重(y)235024002720250031502680263024003080292029602860首先,繪制出數(shù)據(jù)的散點圖。>x<-c(80,86,98,90,120,102,95,83,113,105,110,100)>y<-c(2350,2400,2720,2500,3150,2680,2630,2400,3080,2920,2960,2860)>plot(x,y)

可以看出,數(shù)據(jù)近似的分布在一條直線上。下一步,對方程進行擬合。>lm(y~x)->rr>summary(rr)

結(jié)果如下:Call:lm(formula=y~x)Residuals:Min1QMedian3QMax-116.8259-36.6212-0.250234.2164106.5984Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)582.185147.3153.9520.00272**x21.7121.48514.6224.47e-08***---Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1Residualstandarderror:60.95on10degreesoffreedomMultipleR-Squared:0.9553,AdjustedR-squared:0.9509F-statistic:213.8on1and10DF,p-value:4.467e-082.殘差分析殘差的定義1)若用一模型擬合資料,則模型計算值與資料實測值之差為殘差,如線性回歸中的實測值與方程的計算值之差。2)變量的真值與觀測值之差>read.table(file.choose(),head=T)->test>lm(d~a,data=test)->sum>summary(sum)Call:lm(formula=d~a,data=test)Residuals:Min1QMedian3QMax-0.32220-0.14473-0.066640.021841.35978Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)-42.137783.34020-12.622.18e-09***a0.895490.0164554.43<2e-16***---Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1Residualstandarderror:0.379on15degreesoffreedomMultipleR-Squared:0.995,AdjustedR-squared:0.9946F-statistic:2963on1and15DF,p-value:<2.2e-16>residuals(sum)->y.res>plot(y.res)

>par(mfrow=c(2,2))>plot(sum)多元線性回歸分析多元線性回歸是簡單線性回歸的直接推廣,其包含一個因變量和二個或二個以上的自變量。簡單線性回歸是研究一個因變量(Y)和一個自變量(X)之間數(shù)量上相互依存的線性關(guān)系。而多元線性回歸是研究一個因變量(Y)和多個自變量(Xi)之間數(shù)量上相互依存的線性關(guān)系。簡單線性回歸的大部分內(nèi)容可用于多元回歸,因其基本概念是一樣的。1.多元線性回歸模型m元線性回歸方程Y=b0+b1x1+b2x2+……+bmxmm元線性回歸方程的圖形為維空間的一個平面,稱為回歸平面;b0稱為回歸常數(shù)項,當x1=x2=…=xm=0時,在b0有實際意義時,b0表示y的起始值;bi(i=1、2、…、m)稱為依變量y對自變量xi的偏回歸系數(shù)(partialregressioncoefficient),xi表示除自變量以外的其余個自變量都固定不變時,自變量xi每變化一個單位,依變量平均變化的單位數(shù)值,確切地說,當xi>0時,自變量每增加一個單位,依變量平均增加bi個單位;當xi<0時,自變量每增加一個單位,依變量平均減少bi個單位。2.標準化回歸系數(shù)變量標準化是將原始數(shù)據(jù)減去相應(yīng)變量的均數(shù),然后再除以該變量的標準差。

計算得到的回歸方程稱作標準化回歸方程,相應(yīng)的回歸系數(shù)即為標準化回歸系數(shù)。標準化回歸系數(shù)沒有單位,可以用來比較各個自變量Xi對y的影響強度,通常在有統(tǒng)計學(xué)意義的前提下,標準化回歸系數(shù)的絕對值越大,說明相應(yīng)自變量對y的作用越大。一般回歸系數(shù)有單位,用來解釋各自變量對應(yīng)變量的影響,表示在其它自變量保持不變時,Xi增加或減少一個單位時Y的平均變化量。不能用各|bj|來比較各Xi對Y的影響大小。標準化回歸系數(shù)無單位,用來比較各自變量對應(yīng)變量的影響大小,|bj|越大,Xi對Y的影響越大。3.逐步選擇法多元線性回歸方程中并非自變量越多越好,原因是自變量越多剩余標準差可能變大;同時也增加收集資料的難度。故需尋求“最佳”回歸方程,逐步回歸分析是尋求“較佳”回歸方程的一種方法。1.前進法,回歸方程中的自變量從無到有、從少到多逐個引入回歸方程。此法已基本淘汰。2.

后退法,先將全部自變量選入方程,然后逐步剔除無統(tǒng)計學(xué)意義的自變量。剔除自變量的方法是在方程中選一個偏回歸平方和最小的變量,作F檢驗決定它是否剔除,若無統(tǒng)計學(xué)意義則將其剔除,然后對剩余的自變量建立新的回歸方程。重復(fù)這一過程,直至方程中所有的自變量都不能剔除為止。理論上最好,建議使用采用此法。3.逐步回歸法,逐步回歸法是在前述兩種方法的基礎(chǔ)上,進行雙向篩選的一種方法。該方法本質(zhì)上是前進法。>read.table(file.choose(),head=T)->test>lm(y~.,data=test)->sum>summary(sum)Call:lm(formula=y~.,data=test)Residuals:Min1QMedian3QMax-3.1750-1.67090.25081.37833.9254Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)62.405470.07100.8910.3991x11.55110.74482.0830.0708.x20.51020.72380.7050.5009x30.10190.75470.1350.8959x4-0.14410.7091-0.2030.8441---Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1Residualstandarderror:2.446on8degreesoffreedomMultipleR-Squared:0.9824,AdjustedR-squared:0.9736F-statistic:111.5on4and8DF,p-value:4.756e-07對方程進行逐步回歸分析。>step(sum)->lm.step>summary(lm.step)Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)71.648314.14245.0660.000675***x11.45190.117012.4105.78e-07***x20.41610.18562.2420.051687.x4-0.23650.1733-1.3650.205395---Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1>drop1(lm.step)SingletermdeletionsModel:y~x1+x2+x4DfSumofSqRSSAIC<none>47.9724.97x11820.91868.8860.63x2126.7974.7628.74x419.9357.9025.42>lm(y~x1+x2,data=test)->sum1>summary(sum1)Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)52.577352.2861723.005.46e-10***x11.468310.1213012.112.69e-07***x20.662250.0458514.445.03e-08***---Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1Residualstandarderror:2.406on10degreesoffreedomMultipleR-Squared:0.9787,AdjustedR-squared:0.9744F-statistic:229.5on2and10DF,p-value:4.407e-09回歸診斷什么是回歸診斷:1.誤差是否滿足獨立性、方差齊次、正態(tài)分布。2.選擇模型是否合適。3.是否存在異常樣本4.回歸模型是否存在穩(wěn)健性。5.自變量之間是否存在相關(guān)性。>lm(y1~x,data=test)->lm.sum1>lm(y2~x,data=test)->lm.sum2>lm(y3~x,data=test)->lm.sum3>lm(y4~x4,data=test)->lm.sum4>summary(lm.sum1)>summary(lm.sum2)>summary(lm.sum3)>summary(lm.sum4)Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)3.00011.12472.6670.02573*x0.50010.11794.2410.00217**Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)3.0011.1252.6670.02576*x0.5000.1184.2390.00218**Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)3.00751.12442.6750.02542*x0.49940.11794.2370.00218**Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)2.66491.15052.3160.04576*x40.51760.12064.2920.00201**Residualstandarderror:1.237on9degreesoffreedomMultipleR-Squared:0.6665,A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論