版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
27.回歸分析回歸分析是研究一個(gè)或多個(gè)變量(因變量)與另一些變量(自變量)之間關(guān)系的統(tǒng)計(jì)方法。主要思想是用最小二乘法原理擬合因變量與自變量間的最佳回歸模型(得到確定的表達(dá)式關(guān)系)。其作用是對(duì)因變量做解釋、控制、或預(yù)測(cè)。回歸與擬合的區(qū)別:擬合側(cè)重于調(diào)整曲線的參數(shù),使得與數(shù)據(jù)相符;而回歸重在研究?jī)蓚€(gè)變量或多個(gè)變量之間的關(guān)系。它可以用擬合的手法來(lái)研究?jī)蓚€(gè)變量的關(guān)系,以及出現(xiàn)的誤差。回歸分析的步驟:(1)獲取自變量和因變量的觀測(cè)值;(2)繪制散點(diǎn)圖,并對(duì)異常數(shù)據(jù)做修正;(3)寫出帶未知參數(shù)的回歸方程;(4)確定回歸方程中參數(shù)值;(5)假設(shè)檢驗(yàn),判斷回歸方程的擬合優(yōu)度;(6)進(jìn)行解釋、控制、或預(yù)測(cè)。(一)一元線性回歸一、原理概述一元線性回歸模型:Y=o+1X+£其中X是自變量,Y是因變量,0,1是待求的未知參數(shù),0也稱為截距;£是隨機(jī)誤差項(xiàng),也稱為殘差,通常要求£滿足:£的均值為0;£的方差為2;③協(xié)方差COV(£,£.)=0,當(dāng)i的時(shí)。即對(duì)所有的i卻£與£互不1j1j相關(guān)。用最小二乘法原理,得到最佳擬合效果的B,B值:o1E3-x)(y-y)p=^-^=!,B=y-Bx1廠o1乙(X一X)2ii=1模型檢驗(yàn)擬合優(yōu)度檢驗(yàn)計(jì)算R2,反映了自變量所能解釋的方差占總方差的百分比,值越大說(shuō)明模型擬合效果越好。通常可以認(rèn)為當(dāng)R2大于0.9時(shí),所得到的回歸直線擬合得較好,而當(dāng)R2小于0.5時(shí),所得到的回歸直線很難說(shuō)明變量之間的依賴關(guān)系。回歸方程參數(shù)的檢驗(yàn)回歸方程反應(yīng)了因變量Y隨自變量X變化而變化的規(guī)律,若廣0,則Y不隨X變化,此時(shí)回歸方程無(wú)意義。所以,要做如下假設(shè)檢驗(yàn):H0:廣0,H1:1#0;①F檢驗(yàn)若廣0為真,則回歸平方和RSS與殘差平方和ESS/(N-2)都是2的無(wú)偏估計(jì),因而采用F統(tǒng)計(jì)量:來(lái)檢驗(yàn)原假設(shè)禹=0是否為真。②T檢驗(yàn)對(duì)H0:1=0的T檢驗(yàn)與F檢驗(yàn)是等價(jià)的(t2=F)。用回歸方程做預(yù)測(cè)得到回歸方程Y=B+BX后,預(yù)測(cè)X=x處的Y值y=B+BX.0i000ioy0的預(yù)測(cè)區(qū)間為:其中t,,的自由度為N-2.a/2二、R語(yǔ)言實(shí)現(xiàn)使用lm()函數(shù)實(shí)現(xiàn),基本格式為:lm(formula,data,subset,weights,na.action,
method="qr",...)其中,formula為要擬合的回歸模型的形式,一元線性回歸的格式為:y?x,y表示因變量,x表示自變量,若不想包含截距項(xiàng),使用y?x-1;data為數(shù)據(jù)框或列表;subset選取部分子集;weights取NULL時(shí)表示最小二乘法擬合,若取值為權(quán)重向量,則用加權(quán)最小二乘法;na.action設(shè)定是否忽略缺失值;method指定擬合的方法,目前只支持“qr”(QR分解),method=“model.frame”返回模型框架。三、實(shí)例例1現(xiàn)有埃及卡拉馬村莊每月記錄兒童身高的數(shù)據(jù),做一元線性回歸。
datas<-data.frame(age=18:29,height=c(76.1,77,78.1,78.2,78.8,79.7,79.9,81.1,81.2,81.8,82.8,83.5))datasageheightTOC\o"1-5"\h\z1876.11977.02078.12178.22278.82379.72479.92581.12681.22781.82882.82983.5plot(datas)#繪制散點(diǎn)圖res.reg<-lm(height~age,datas)#做一元線性回歸summary(res.reg)Residuals:summary(res.reg)Residuals:#輸出模型的匯總結(jié)果Min1QMedian3QMax-0.27238-0.24248-0.027620.160140.47238Coefficients:tvaluePr(>|t|)tvaluePr(>|t|)127.71<2e-16***29.664.43e-11***(Intercept)64.92830.5084age0.63500.0214Signif.codes:0‘***’0.001‘心’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:0.256on10degreesoffreedomMultipleR-squared:0.9888,AdjustedR-squared:0.9876F-statistic:880on1and10DF,p-value:4.428e-11說(shuō)明:輸出了殘差信息Residuals;回歸系數(shù)估計(jì)值、標(biāo)準(zhǔn)誤、t統(tǒng)計(jì)量值、p值,可得到回歸方程:height=64.9283+0.6350*age回歸系數(shù)p值(<2e-16,4.43e-11)很小,非常顯著的手0***也表示顯著程度非常顯著。擬合優(yōu)度R2=0.9888>0.5,表示擬合程度很好。F統(tǒng)計(jì)量=880,p值=4.428e-11遠(yuǎn)小于0.05,表示整個(gè)回歸模型顯著,適合估計(jì)height這一因變量。coefficients(res.reg)#返回模型的回歸系數(shù)估計(jì)值(Intercept)age64.9283220.634965confint(res.reg,parm="age”,level=0.95)#輸出參數(shù)age的置信區(qū)間,若不指定parm將返回所有參數(shù)的置信區(qū)間2.5%97.5%age0.58727220.6826578fitted(res.reg)#輸出回歸模型的預(yù)測(cè)值12345678910111276.3576976.9926677.6276278.2625978.8975579.5325280.1674880.8024581.4374182.0723882.7073483.34231anova(res.reg)#輸出模型的方差分析表Response:heightDfSumSqMeanSqFvaluePr(>F)age157.65557.655879.994.428e-11***Residuals100.6550.066—Signif.codes:0‘***’0.001‘心’0.01‘*’0.05‘.’0.1‘’1vcov(res.reg)#輸出模型的協(xié)方差矩陣(Intercept)age(Intercept)0.-0.00age-0.010766860.0004581642residuals(res.reg)#輸出模型的殘差123456789101112-0.80.0073426570.2-0.0-0.00.7-0.70.8-0.7-0.20.00.8AlC(res.reg)#輸出模型的AIC值5.161407BlC(res.reg)#輸出模型的BIC值6.616127logLik(res.reg)#輸出模型的對(duì)數(shù)似然值'logLik.'0.4192965(df=3)abline(res.reg)#給散點(diǎn)圖加上一條回歸線par(mfrow=c(2,2))plot(res.reg)#繪制回歸診斷圖說(shuō)明:分別是殘差與擬合值圖,二者越無(wú)關(guān)聯(lián)越好,若有明顯的曲線關(guān)系,則說(shuō)明需要對(duì)線性回歸模型加上高次項(xiàng);殘差的Q-Q圖,看是否服從正態(tài)分布;標(biāo)準(zhǔn)化殘差與擬合值圖,也叫位置-尺度圖,縱坐標(biāo)是標(biāo)準(zhǔn)化殘差的平方根,殘差越大,點(diǎn)的位置越高,用來(lái)判斷模型殘差是否等方差,若滿足則水平線周圍的點(diǎn)應(yīng)隨機(jī)分布;殘差與杠桿圖,虛線表示Cooks距離(每個(gè)數(shù)據(jù)點(diǎn)對(duì)回歸線的影響力)等高線,從中可以鑒別出離群點(diǎn)(第3個(gè)點(diǎn)較大,表示刪除該數(shù)據(jù)點(diǎn),回歸系數(shù)將有實(shí)質(zhì)上的改變,為異常值點(diǎn))、高杠桿點(diǎn)、強(qiáng)影響點(diǎn)。datas<-datas[-3,]#刪除第3個(gè)樣本點(diǎn),重新做一元線性回歸res.reg2<-lm(height~age,datas)summary(res.reg2)新的回歸方程為:height=64.5540+0.6489*age,擬合優(yōu)度R2=0.993,擬合效果變得更好。#用回歸模型預(yù)測(cè)ages<-data.frame(age=30:34)pre.res<-predict(res.reg2,ages,interval="prediction",level=0.95)#注意predict函數(shù)的第1個(gè)參數(shù)必須是回歸模型的自變量數(shù)據(jù)構(gòu)成的數(shù)據(jù)框或列表pre.resfitlwrupr84.0203483.4683984.5722884.6692184.0971185.2413285.3180984.7236585.9125485.9669785.3482586.5856986.6158585.9711487.26056多元線性回歸一、基本原理1.多元線性回歸模型:Y=0+1Xi+..?+/產(chǎn)其中X1,…,XN是自變量,Y是因變量,0,]...,N是待求的未知參數(shù),£是隨機(jī)誤差項(xiàng)(殘差),若記多元線性回歸模型可寫為矩陣形式:Y=Xp+s通常要求:矩陣X的秩為k+1(保證不出現(xiàn)共線性),且k<N;£為正態(tài)分布,E(£)=0和E(££’)二21,其中I為NXN單位矩陣。用最小二乘法原理,令殘差平方和最小,得到為P的最佳線性無(wú)偏估計(jì)量(高斯一馬爾可夫定理)。2.2的估計(jì)和T檢驗(yàn)選取2的估計(jì)量:則假如t值的絕對(duì)值相當(dāng)大,就可以在適當(dāng)選定的置信水平上否定原假設(shè),參數(shù)的1-a置信區(qū)間可由下式得出:其中t〃為與a%顯著水平有關(guān)的t分布臨界值。a/23.R2和F檢驗(yàn)若因變量不具有0平均值,則必須對(duì)R2做如下改進(jìn):隨著模型中增添新的變量,R2的值必定會(huì)增大,為了去掉這種增大的干擾,還需要對(duì)R2進(jìn)行修正(校正擬合優(yōu)度對(duì)自由度的依賴關(guān)系):做假設(shè)檢驗(yàn):H0:1二??=N=0;H1:1...,N至少有一個(gè)NO;使用F統(tǒng)計(jì)量做檢驗(yàn),若F值較大,則否定原假設(shè)。4.回歸診斷(1)殘差圖分析殘差圖就是以殘差£=y-y為縱坐標(biāo),某一個(gè)合適的自變量為橫坐標(biāo)的散點(diǎn)圖?;貧w模型中總是假定誤差項(xiàng)是獨(dú)立的正態(tài)分布隨機(jī)變量,且均值為零和方差相等為2.如果模型適合于觀察到的數(shù)據(jù),那么殘差作為誤差的無(wú)偏估計(jì),應(yīng)基本反映誤差的假設(shè)特征。即殘差圖應(yīng)該在零點(diǎn)附近對(duì)稱地密布,越遠(yuǎn)離零點(diǎn)的地方就疏散(在形象上似有正態(tài)趨勢(shì)),則認(rèn)為模型與數(shù)據(jù)擬合得很好。若殘差圖呈現(xiàn)如圖(a)所示的形式,則認(rèn)為建立的回歸模型正確,更進(jìn)一步再診斷“學(xué)生化殘差”是否具有正態(tài)性:圖(b)表明數(shù)據(jù)有異常點(diǎn),應(yīng)處理掉它重新做回歸分析(在SAS的REG回歸過(guò)程步中用來(lái)度量異常點(diǎn)影響大小的統(tǒng)計(jì)量是COOKD統(tǒng)計(jì)量);圖(c)殘差隨x的增大而增大,圖(d)殘差隨x的增大而先增后減,都屬于異方差。此時(shí)應(yīng)該考慮在回歸之前對(duì)數(shù)據(jù)y或x進(jìn)行變換,實(shí)現(xiàn)方差穩(wěn)定后再擬合回歸模型。原則上,當(dāng)誤差方差變化不太快時(shí)取變換、廳;當(dāng)誤差方差變化較快時(shí)取變換logy或lny;當(dāng)誤差方差變化很快時(shí)取變換1/y;還有其他變換,如著名的Box-Cox幕變換"-1.力圖(e)(f)表示選用回歸模型是錯(cuò)誤的。共線性回歸分析中很容易發(fā)生模型中兩個(gè)或兩個(gè)以上的自變量高度相關(guān),從而引起最小二乘估計(jì)可能很不精確(稱為共線性問(wèn)題)。在實(shí)際中最常見(jiàn)的問(wèn)題是一些重要的自變量很可能由于在假設(shè)檢驗(yàn)中t值不顯著而被不恰當(dāng)?shù)靥蕹恕9簿€性診斷問(wèn)題就是要找出哪些變量間存在共線性關(guān)系。誤差的獨(dú)立性回歸分析之前,要檢驗(yàn)誤差的獨(dú)立性。若誤差項(xiàng)不獨(dú)立,那么回歸模型的許多處理,包括誤差項(xiàng)估計(jì)、假設(shè)檢驗(yàn)等都將沒(méi)有推導(dǎo)依據(jù)。由于殘差是誤差的合理估計(jì),因此檢驗(yàn)統(tǒng)計(jì)量通常是建立在殘差的基礎(chǔ)上。檢驗(yàn)誤差獨(dú)立性的最常用方法,是對(duì)殘差的一階自相關(guān)性進(jìn)行Durbin-Watson檢驗(yàn)。H0:誤差項(xiàng)是相互獨(dú)立的;H1:誤差項(xiàng)是相關(guān)的檢驗(yàn)統(tǒng)計(jì)量:DW接近于0,表示殘差中存在正自相關(guān);如果DW接近于4,表示殘差中存在負(fù)自相關(guān);如果DW接近于2,表示殘差獨(dú)立性。二、R語(yǔ)言實(shí)現(xiàn)還是用函數(shù)實(shí)現(xiàn),不同是需要設(shè)置更復(fù)雜的formula格式:y?x1+x2只考慮自變量的主效應(yīng)(y=k1x1+k2x2),y?.表示全部自變量的主效應(yīng);y?x1+x2+x1:x2考慮主效應(yīng)和交互效應(yīng)(y=kix1+k2x2+k3x1x2);y?x1*x2——考慮全部主效應(yīng)和交互效應(yīng)的簡(jiǎn)寫(效果同上);y?(x1+x2+x3)A2考慮主效應(yīng)以及至2階以下的交互效應(yīng),相當(dāng)于x1+x2+x3+x1:x2+x2:x3+x1:x3y?x1%in%x2x1含于x2,相當(dāng)于x2+x2:x1y~(x1+x2)A2-x1:x2表示從(x1+x2)A2中去掉x1:x2y~x1+I((x2+x3)A2)使用I()函數(shù),相當(dāng)于用(x2+x3)A2計(jì)算出新變量h,然后y?x1+hfunction在表達(dá)式中使用數(shù)學(xué)函數(shù),例如log(y)?x1+x2三、實(shí)例例2現(xiàn)有1990?2009年財(cái)政收入的數(shù)據(jù)revenue.txt:各變量分別表示:y:財(cái)政收入(億元)x1:第一產(chǎn)業(yè)國(guó)內(nèi)生產(chǎn)總值(億元)x2:第二產(chǎn)業(yè)國(guó)內(nèi)生產(chǎn)總值(億元)x3:第三產(chǎn)業(yè)國(guó)內(nèi)生產(chǎn)總值(億元)x4:人口數(shù)(萬(wàn)人)x5:社會(huì)消費(fèi)品零售總額(億元)x6:受災(zāi)面積(萬(wàn)公頃)做多元線性回歸分析。setwd("E:/辦公資料/R語(yǔ)言/R語(yǔ)言學(xué)習(xí)系列/codes")revenue=read.table("revenue.txt",header=TRUE)Im.reg=lm(y~x1+x2+x3+x4+x5+x6,revenue)summary(lm.reg)Residuals:Min1QMedian3QMax-295.71-173.5226.5990.16370.01Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)6.046e+043.211e+0318.8298.12e-11'加HZ?x1-1.171e-018.638e-02-1.3560.19828x23.427e-023.322e-021.0320.32107x36.182e-014.103e-0215.0671.31e-0944*x4-5.152e-012.930e-02-17.5851.91e-1044*x5-1.104e-012.878e-02-3.8370.00206**x6-1.864e-021.023e-02-1.8230.09143.—Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:234.8on13degreesoffreedomMultipleR-squared:0.9999,AdjustedR-squared:0.9999F-statistic:2.294e+04on6and13DF,p-value:<2.2e-16說(shuō)明:擬合優(yōu)度R2=0.9999,效果非常好。但是多元回歸時(shí),自變量個(gè)數(shù)越多,擬合優(yōu)度必然越好,所以還要看檢驗(yàn)效果和回歸系數(shù)是否顯著。結(jié)果解釋、回歸方程、回歸預(yù)測(cè)與前文類似(略)。結(jié)合顯著性代碼可看出:x1和x2不顯著,x6只在0.1顯著水平下顯著,故應(yīng)考慮剔除x1和x2.R語(yǔ)言中提供了update()函數(shù),用來(lái)在原模型的基礎(chǔ)上進(jìn)行修正,還可以對(duì)變量進(jìn)行運(yùn)算,其基本格式為:update(object,formula.,...,evaluate=TRUE)其中,object為前面擬合好的原模型對(duì)象;formula指定模型的格式,原模型不變的部分用“.”表示,只寫出需要修正的地方即可,例如update(lm.reg,.?.+x7)表示添加一個(gè)新的變量叩date(lm.reg,sqrt(.)?.)表示對(duì)因變量y開方,再重新擬合回歸模型lm.reg2<-update(lm.reg,.~.-x1-x2)#剔除自變量x1,x2summary(lm.reg2)Residuals:Min1QMedian3QMax-325.62-147.5414.07108.28427.42Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)6.339e+042.346e+0327.0203.89e-14***x36.584e-011.548e-0242.523<2e-16***TOC\o"1-5"\h\zx4-5.438e-011.981e-02-27.4453.09e-14***x5-1.392e-011.918e-02-7.2562.80e-06***x6-1.803e-029.788e-03-1.8420.0854.—Signif.codes:0‘心*’0.001‘心’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:233.6on15degreesoffreedomMultipleR-squared:0.9999,AdjustedR-squared:0.9999F-statistic:3.476e+04on4and15DF,p-value:<2.2e-16逐步回歸多元線性回歸模型中,并不是所有的自變量都與因變量有顯著關(guān)系,有時(shí)有些自變量的作用可以忽略。這就需要考慮怎樣從所有可能有關(guān)的自變量中挑選出對(duì)因變量有顯著影響的部分自變量。逐步回歸的基本思想是,將變量一個(gè)一個(gè)地引入或剔出,引入或剔出變量的條件是“偏相關(guān)系數(shù)”經(jīng)檢驗(yàn)是顯著的,同時(shí)每引入或剔出一個(gè)變量后,對(duì)已選入模型的變量要進(jìn)行逐個(gè)檢驗(yàn),將不顯著變量剔除或?qū)@著的變量引入,這樣保證最后選入的所有自變量都是顯著的。逐步回歸每一步只有一個(gè)變量引入或從當(dāng)前的回歸模型中剔除,當(dāng)沒(méi)有回歸因子能夠引入或剔出模型時(shí),該過(guò)程停止。R語(yǔ)言中,用step()函數(shù)進(jìn)行逐步回歸,以AIC信息準(zhǔn)則作為選入和剔除變量的判別條件。AIC是日本統(tǒng)計(jì)學(xué)家赤池弘次,在熵概念的基礎(chǔ)上建立的:AIC=2(p+1)-2ln(L)其中,p為回歸模型的自變量個(gè)數(shù),L是似然函數(shù)。注:AIC值越小越被優(yōu)先選入。基本格式:step(object,direction=,steps=,k=2,...)其中,object是線性模型或廣義線性模型的返回結(jié)果;direction確定逐步回歸的方法,默認(rèn)“both”綜合向前向后法,“backward”向后法(先把全部自變量加入模型,若無(wú)統(tǒng)計(jì)學(xué)意義則剔出模型),“forward”向前法(先將部分自變量加入模型,再逐個(gè)添加其它自變量,若有統(tǒng)計(jì)學(xué)意義則選入模型);steps表示回歸的最大步數(shù),默認(rèn)1000;k默認(rèn)=2,輸出為AIC值,=log(n)有時(shí)輸出BIC或SBC值。另外,有時(shí)還需要借助使用drop1(object)和add1(object)函數(shù),其中object為逐步回歸的返回結(jié)果,判斷剔除或選入一個(gè)自變量,AIC值的變化情況,以篩選選入模型的自變量。lm.step<-step(lm.reg)summary(lm.step)Call:lm(formula=y~x3+x4+x5+x6,data=revenue)Residuals:Min1QMedian3QMax-325.62-147.5414.07108.28427.42Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)6.339e+042.346e+0327.0203.89e-14***x36.584e-011.548e-0242.523<2e-16***TOC\o"1-5"\h\zx4-5.438e-011.981e-02-27.4453.09e-14***x5-1.392e-011.918e-02-7.2562.80e-06***x6-1.803e-029.788e-03-1.8420.0854.—Signif.codes:0‘***’0.001‘心’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:233.6on15degreesoffreedomMultipleR-squared:0.9999,AdjustedR-squared:0.9999F-statistic:3.476e+04on4and15DF,p-value:<2.2e-16
最終得到最優(yōu)的模型。說(shuō)明:默認(rèn)輸出每步的結(jié)果(略),進(jìn)行了3步回歸,逐步剔除最終得到最優(yōu)的模型。SingletermdeletionsModel:y~x3+x4+x5+x6DfSumofSqRSSAIC<none>818775222.40x31316.40x41299.12x5128739293692704250.52x611851231003898224.47dropl(lm.step)了自變量x1和x2,AIC值逐步減小,lm.reg3<-lm(y~x3+x4+x5,revenue)summary(lm.reg3)Call:lm(formula=y~Residuals:Min1Q-336.34-186.82Coefficients:Estimate(Intercept)6.284e+04x36.614e-01x4-5.467e-01x5-1.412e-01x3+x4Median1.52+x5,data=revenue)3QMax89.46437.84Std.Error2.494e+031.651e-022.118e-022.053e-02tvalue25.19140.066-25.813-6.877Pr(>|t|)2.66e-14<2e-161.81e-143.72e-06Signif.codes:0‘***’0.001‘心’0.01‘*’0.05‘.’0.1‘Residualstandarderror:250.5on16degreesoffreedomMultipleR-squared:0.9999,AdjustedR-squared:0.9998F-statistic:4.032e+04on3and16DF,p-value:<2.2e-16說(shuō)明:使用drop1()函數(shù)考察分別剔除每個(gè)自變量,AIC值變化的情況,可以看出不剔除x6與剔除x6,AIC值只從222.40變大到224.47,相對(duì)其它自變量變化很小。所以,可以考慮剔除掉x6,重新做多元線性回歸。(四)回歸診斷回歸分析之后,還需要從殘差的隨機(jī)性、強(qiáng)影響分析、共線性方面進(jìn)行診斷。一、殘差診斷殘差y.res<-lm.reg3$residuals#回歸模型的殘差y.fit<-predict(lm.reg3)#回歸模型的預(yù)測(cè)值plot(y.res~y.fit,main="殘差圖”)#繪制殘差圖,以預(yù)測(cè)值作為橫坐標(biāo)說(shuō)明:從圖形看,殘差分布比較均勻,大致滿足隨機(jī)性。shapiro.test(y.res)#殘差的正態(tài)性檢驗(yàn)Shapiro-Wilknormalitytestdata:y.resW=0.94206,p-value=0.2622說(shuō)明:p值=0.2622>0.05,接受原假設(shè),即殘差服從正態(tài)分布。標(biāo)準(zhǔn)化殘差殘差與數(shù)據(jù)的數(shù)量級(jí)有關(guān),除以標(biāo)準(zhǔn)誤差后得到標(biāo)準(zhǔn)化殘差。理想的標(biāo)準(zhǔn)化殘差服從N(0,1).rs<-rstandard(lm.reg3)#得到標(biāo)準(zhǔn)化殘差plot(rs~y.fit,main="標(biāo)準(zhǔn)殘差圖”)shapiro.test(rs)#標(biāo)準(zhǔn)化殘差的正態(tài)性檢驗(yàn)Shapiro-Wilknormalitytestdata:rsW=0.97766,p-value=0.9004學(xué)生化殘差為了回避標(biāo)準(zhǔn)化殘差的方差齊性假設(shè),使用學(xué)生化殘差。rst<-rstudent(lm.reg3)plot(rs~y.fit,main="學(xué)生化殘差圖”)shapiro.test(rst)Shapiro-Wilknormalitytestdata:rstW=0.97463,p-value=0.848⑷殘差自相關(guān)性的Durbin-Watson檢驗(yàn)使用car包中的函數(shù):durbinwatsonTest(model,alternative=c("two.side","positive","negative"))H0:序列不存在自相關(guān)性library(car)durbinWatsonTest(lm.reg3)lagAutocorrelationd-wStatisticp-value2.425790.77rho2.425790.77rho!=0Alternativehypothesis:二、強(qiáng)影響分析對(duì)參數(shù)估計(jì)或預(yù)測(cè)值有異常影響的數(shù)據(jù),稱為強(qiáng)影響數(shù)據(jù)。回歸模型應(yīng)當(dāng)具有一定的穩(wěn)定性,若個(gè)別一兩組數(shù)據(jù)對(duì)估計(jì)有異常大的影響,剔除后將得到與原來(lái)差異很大的回歸方程,從而有理由懷疑原回歸方程是否真正描述了變量間的客觀存在的關(guān)系。1.反映這種強(qiáng)影響的統(tǒng)計(jì)量有4種及函數(shù):Leveragehatvalues(model)DEFITS——dffits(model)Cook’s距離cooks.distance(model)COVRATIOcovratio(model)另外,influence.measures(model)函數(shù),可以匯總上述4種統(tǒng)計(jì)量,判斷強(qiáng)影響點(diǎn)。influence.measures(lm.reg3)Influencemeasuresoflm(formula=y~x3+x4+x5,data=revenue):dfb.1_dfb.x3dfb.x4dfb.x5dffitcov.rcook.dhatinfTOC\o"1-5"\h\z0.344152-3.04124-0.4612242.916617-3.409450.8102.14e+000.6347*0.679128-0.09558-0.7071590.3090341.617040.5155.04e-010.3127*-1.7022341.565061.816261-1.982696-3.334521.4262.25e+000.6996*說(shuō)明:判斷出第18,19,20個(gè)樣本是強(qiáng)影響點(diǎn)。2.Bonferroni離群點(diǎn)檢驗(yàn)使用car包中的函數(shù)outlierTest(model)library(car)outlierTest(lm.reg3)NoStudentizedresidualswithBonferonnip<0.05Largest|rstudent|:rstudentunadjustedp-valueBonferonnip18-2.5866470.020640.4128注:去掉強(qiáng)影響點(diǎn),重新做多元線性回歸(略)。三、共線性診斷回歸分析中很容易發(fā)生模型中兩個(gè)或兩個(gè)以上的自變量高度相關(guān),從而引起最小二乘估計(jì)可能很不精確(稱為共線性問(wèn)題)。在實(shí)際中最常見(jiàn)的問(wèn)題是一些重要的自變量很可能由于在假設(shè)檢驗(yàn)中t值不顯著而被不恰當(dāng)?shù)靥蕹?。共線性診斷問(wèn)題就是要找出哪些變量間存在共線性關(guān)系。模型條件數(shù)檢驗(yàn)使用函數(shù)kappa(z,exact=FALSE,…),其中,z為矩陣XTX,或lm、glm的返回對(duì)象;exact設(shè)置是否精確計(jì)算。一般認(rèn)為:當(dāng)K<100時(shí)不存在多重共線性;當(dāng)100WK<1000時(shí)存在較強(qiáng)的多重共線性;當(dāng)KN1000時(shí)存在嚴(yán)重的多重共線性。x<-scale(revenue[,3:8])#取出自變量數(shù)據(jù),做標(biāo)準(zhǔn)化xx=crossprod(x)#求x’x即矩陣的叉積kappa(xx)[1]6132.142方差膨脹因子(VIF)檢驗(yàn)使用car包中的函數(shù)vif(model),該函數(shù)還能判斷哪些自變量間存在共線性。般認(rèn)為:當(dāng)vif<10時(shí)不存在多重共線性;當(dāng)10Wvif<100時(shí),存在較強(qiáng)的多重共線性;當(dāng)vifN100時(shí)存在嚴(yán)重的多重共線性。Im.reg<-lm(y~x1+x2+x3+x4+x5+x6,revenue)vif(lm.reg)x1x2x3x4x5x6196.993779777.7625221014.24830610.484018342.6054901.278766cor(revenue$x2,revenue$x3)#x2和x3的vif值最大,考察二者的相關(guān)性[1]0.9977899可見(jiàn),x2和x3存在嚴(yán)重的共線性,應(yīng)該考慮剔除其中的一個(gè)。嶺回歸多元線性回歸分析中,我們會(huì)在眾多變量中選擇對(duì)因變量顯著性影響大的那些自變量。但常常會(huì)遇到一個(gè)問(wèn)題:在某些情況下,增加或剔除一個(gè)自變量后,回歸系數(shù)變化很大甚至改變符號(hào)。主要原因就是變量之間存在多重共線性。嶺回歸分析是一種專用于共線性數(shù)據(jù)分析的有偏估計(jì)回歸方法,實(shí)質(zhì)上是一種改良的最小二乘估計(jì)法,通過(guò)放棄最小二乘法的無(wú)偏性,以損失部分信息、降低精度為代價(jià),獲得回歸系數(shù)更為符合實(shí)際、更可靠的回歸方法?;驹恚寒?dāng)自變量間存在多重共線性時(shí),有|X『X周0,考慮加上一個(gè)正常數(shù)矩陣kI,(k>0),則xtx+kI接近奇異的程度就會(huì)比xtx小很多,從而消除了多重共線性??紤]到變量的量綱,應(yīng)先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 沈陽(yáng)理工大學(xué)《化工環(huán)保安全創(chuàng)新學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 沈陽(yáng)理工大學(xué)《電力系統(tǒng)分析》2022-2023學(xué)年期末試卷
- 廣州市南沙區(qū)房屋租賃合同
- 2024正規(guī)廠房租賃合同書范本
- 2024水電安裝清包合同
- 2024鋼結(jié)構(gòu)工程施工合同范本
- 2024保潔服務(wù)合同模板
- 2024二手房購(gòu)買合同范文
- 沈陽(yáng)理工大學(xué)《DSP技術(shù)及應(yīng)用》2022-2023學(xué)年第一學(xué)期期末試卷
- 2024貸款公司借款合同范文
- 2024-2025學(xué)年山西省太原市數(shù)學(xué)高三上學(xué)期模擬試卷與參考答案
- 3.16謠言止于智者-正確處理同學(xué)關(guān)系班會(huì)解析
- 2024版全新勞動(dòng)仲裁證據(jù)目錄范本
- 小學(xué)數(shù)學(xué)北師大版六年級(jí)上冊(cè)《看圖找關(guān)系》課件
- 解讀退役軍人安置條例制定微課
- DL 5190.2-2019 電力建設(shè)施工技術(shù)規(guī)范 第2部分:鍋爐機(jī)組
- 二年級(jí)上冊(cè)數(shù)學(xué)應(yīng)用題100道及參考答案【黃金題型】
- (必會(huì))高級(jí)茶評(píng)員近年考試真題題庫(kù)(含答案)
- 可打印的離婚協(xié)議書模板(2024版)
- 2023年貴州省中考化學(xué)真題試卷(解析版)
- 視頻制作保密協(xié)議版
評(píng)論
0/150
提交評(píng)論