《統(tǒng)計學-基于R》(10)第10章-多元線性回歸(R3)_第1頁
《統(tǒng)計學-基于R》(10)第10章-多元線性回歸(R3)_第2頁
《統(tǒng)計學-基于R》(10)第10章-多元線性回歸(R3)_第3頁
《統(tǒng)計學-基于R》(10)第10章-多元線性回歸(R3)_第4頁
《統(tǒng)計學-基于R》(10)第10章-多元線性回歸(R3)_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)分析

(方法與案例)

作者賈俊平版權(quán)所有違者必究StatisticswithR統(tǒng)計學R語言第10章多元線性回歸10.1

回歸模型及參數(shù)估計10.2

擬合優(yōu)度和顯著性檢驗10.3多重共線性及其處理10.4相對重要性和模型比較10.5利用回歸方程進行預測10.6啞變量回歸egressionR2018-9-25多元線性回歸在許多實際問題中,影響因變量的因素往往有多個,這種一個因變量同多個自變量的回歸就是多元回歸(multipleregression)。當因變量與各自變量之間為線性關(guān)系時,稱為多元線性回歸(multiplelinearregression)多元線性回歸分析的原理同一元線性回歸基本相同,但計算和分析的內(nèi)容上要復雜得多,因此需借助于統(tǒng)計軟件來完成2018-9-25多元線性回歸

10.1多元線性回歸模型及其

參數(shù)估計

10.1.1回歸模型與回歸方程

10.1.2參數(shù)的最小二乘估計第10章多元線性回歸10.1.1

回歸模型與回歸方程10.1多元線性回歸模型及其參數(shù)估計2018-9-25多元回歸模型

(multiplelinearregressionmodel)一個因變量與兩個及兩個以上自變量的回歸描述因變量y如何依賴于自變量x1

,x2

,…,

xk

和誤差項

的方程,稱為多元回歸模型涉及k個自變量的多元線性回歸模型可表示為

b0

,b1,b2

,,bk是參數(shù)

是被稱為誤差項的隨機變量

y是x1,,x2

,

,xk

的線性函數(shù)加上誤差項

包含在y里面但不能被k個自變量的線性關(guān)系所解釋的變異性2018-9-25多元回歸模型

(基本假定)

正態(tài)性。誤差項ε是一個服從正態(tài)分布的隨機變量,且期望值為0,即ε~N(0,

2)方差齊性。對于自變量x1,x2,…,xk的所有值,

的方差

2都相同獨立性。對于自變量x1,x2,…,xk的一組特定值,它所對應的

與任意一組其他值所對應的不相關(guān)2018-9-25估計的多元線性回歸的方程

(estimatedmultiplelinearregressionequation)

估計值是y

的估計值用樣本統(tǒng)計量估計回歸方程中的參數(shù)

時得到的方程由最小二乘法求得一般形式為10.1.2參數(shù)的最小二乘估計10.1多元線性回歸模型及其參數(shù)估計2018-9-25參數(shù)的最小二乘估計求解各回歸參數(shù)的標準方程如下使因變量的觀察值與估計值之間的離差平方和達到最小來求得

。即2018-9-25參數(shù)的最小二乘法

(例題分析)

餐館153.2163.0168.6600456.5218.514.522.52091116.0311.388.2109.419191018.2484.7151.6277.07287710.057.379.117.453111517.5617.960.493.0610983.672.553.221.540571718.5827.3108.5114.5416134.095.948.761.321661011.61023.9142.8129.811125914.2…………………2018-9-25相關(guān)性分析

(相關(guān)圖)#繪制6個變量之間的相關(guān)圖#繪制6個變量之間的相關(guān)矩陣load("C:/example/ch10/example10_1.RData")library(corrgram)corrgram(example10_1[2:7],order=TRUE,lower.panel=panel.shade,upper.panel=panel.pie,text.panel=panel.txt)load("C:/example/ch10/example10_1.RData")library(car)attach(example10_1)par(cex=0.7)scatterplotMatrix(~y+x1+x2+x3+x4+x5,data=example10_1)2018-9-25#多元線性回歸建模

#回歸系數(shù)的置信區(qū)間

#方差分析表模型擬合

(例題10—1)load("C:/example/ch10/example10_1.RData")model1<-lm(y~x1+x2+x3+x4+x5,data=example10_1)summary(model1)confint(model1,level=0.95)anova(model1)

10.2擬合優(yōu)度和顯著性檢驗

10.2.1模型的擬合優(yōu)度

10.2.2模型的顯著性檢驗10.2.3模型診斷第10章多元線性回歸10.2.1模型的擬合優(yōu)度10.2擬合優(yōu)度和顯著性檢驗2018-9-25多重判定系數(shù)

(multiplecoefficientofdetermination)

回歸平方和占總平方和的比例計算公式為因變量取值的變差中,能被估計的多元回歸方程所解釋的比例

2018-9-25修正多重判定系數(shù)

(adjustedmultiplecoefficientofdetermination)

用樣本量n和自變量的個數(shù)k去修正R2得到計算公式為避免增加自變量而高估R2意義與R2類似數(shù)值小于R2

2018-9-25多重相關(guān)系數(shù)

(multiplecorrelationcoefficient)

多重判定系數(shù)的平方根R反映因變量y與k個自變量之間的相關(guān)程度實際上R度量的是因變量的觀測值與由多元回歸方程得到的預測值之間的關(guān)系強度,即多重相關(guān)系數(shù)R等于因變量的觀測值與估計值之間的簡單相關(guān)系數(shù)即

(一元相關(guān)系數(shù)r也是如此,即。讀者自己去驗證)2018-9-25估計標準誤差Se對誤差項

的標準差

的一個估計值衡量多元回歸方程的擬合優(yōu)度計算公式為10.2.2模型的顯著性檢驗10.2擬合優(yōu)度和顯著性檢驗2018-9-25線性關(guān)系檢驗檢驗因變量與所有自變量之間的線性關(guān)系是否顯著也被稱為總體的顯著性檢驗檢驗方法是將回歸均方(MSR)同殘差均方(MSE)加以比較,應用F檢驗來分析二者之間的差別是否顯著如果是顯著的,因變量與自變量之間存在線性關(guān)系如果不顯著,因變量與自變量之間不存在線性關(guān)系2018-9-25線性關(guān)系檢驗提出假設H0:

1

2

k=0線性關(guān)系不顯著H1:

1,

2,

k至少有一個不等于02.計算檢驗統(tǒng)計量F

2018-9-25回歸系數(shù)的檢驗線性關(guān)系檢驗通過后,對各個回歸系數(shù)有選擇地進行一次或多次檢驗究竟要對哪幾個回歸系數(shù)進行檢驗,通常需要在建立模型之前作出決定對回歸系數(shù)檢驗的個數(shù)進行限制,以避免犯過多的第Ⅰ類錯誤(棄真錯誤)對每一個自變量都要單獨進行檢驗應用t檢驗統(tǒng)計量2018-9-25回歸系數(shù)的檢驗

(步驟)提出假設H0:bi=0(自變量xi

因變量y沒有線性關(guān)系)H1:bi

0(自變量xi

因變量y有線性關(guān)系)計算檢驗的統(tǒng)計量t

確定顯著性水平

,并進行決策

t>t

,拒絕H0;t<t

,不拒絕H0

2018-9-25回歸系數(shù)的推斷

(置信區(qū)間)

回歸系數(shù)在(1-

)%置信水平下的置信區(qū)間為

回歸系數(shù)的抽樣標準差10.2.3模型診斷10.2擬合優(yōu)度和顯著性檢驗2018-9-25模型診斷

(例題10—1)#繪制殘差圖診斷模型#去掉第2個點和第4個點后的回歸

#去掉第2個點和第4個點后的回歸診斷par(mfrow=c(1,2))plot(model1,which=c(1,2))newmodel1<-lm(y~x1+x2+x3+x4+x5,data=example10_1[-c(2,4),])summary(newmodel1)plot(newmodel1,which=c(1,2))

10.3多重共線性及其處理

10.3.1多重共線性及其識別

10.3.2變量選擇與逐步回歸第10章多元線性回歸10.3.1多重共線性及其識別10.3多重共線性及其處理2018-9-25多重共線性

(multicollinearity)回歸模型中兩個或兩個以上的自變量彼此相關(guān)多重共線性帶來的問題有可能會使回歸的結(jié)果造成混亂,甚至會把分析引入歧途可能對參數(shù)估計值的正負號產(chǎn)生影響,特別是各回歸系數(shù)的正負號有可能同預期的正負號相反2018-9-25多重共線性的識別檢測多重共線性的最簡單的一種辦法是計算模型中各對自變量之間的相關(guān)系數(shù),并對各相關(guān)系數(shù)進行顯著性檢驗若有一個或多個相關(guān)系數(shù)顯著,就表示模型中所用的自變量之間相關(guān),存在著多重共線性2018-9-25多重共線性的識別如果出現(xiàn)下列情況,暗示存在多重共線性模型中各對自變量之間顯著相關(guān)當模型的線性關(guān)系檢驗(F檢驗)顯著時,幾乎所有回歸系數(shù)的t檢驗卻不顯著回歸系數(shù)的正負號與預期的相反容忍度(tolerance)與方差擴大因子(varianceinflationfactor,VIF)。某個自變量的容忍度等于1減去該自變量為因變量而其他k-1個自變量為預測變量時所得到的線性回歸模型的判定系數(shù),即1-Ri2。容忍度越小,多重共線性越嚴重。通常認為容忍度小于0.1時,存在嚴重的多重共線性方差擴大因子等于容忍度的倒數(shù),即。顯然,VIF越大多重共線性就越嚴重。一般要求VIF小于5,也可放寬到小于10。如果大于10則認為存在嚴重的多重共線性。2018-9-25#計算相關(guān)系數(shù)矩陣并做檢驗#計算容忍度和VIF相關(guān)矩陣及其檢驗

(例題10—1)load("C:/example/ch10/example10_1.RData")library(psych)corr.test(example10_1[3:7],use="complete")model1<lm(y~x1+x2+x3+x4+x5,data=example10_1)library(car)vif(model1)1/vif(model1)2018-9-25多重共線性的處理將一個或多個相關(guān)的自變量從模型中剔除,使保留的自變量盡可能不相關(guān)如果要在模型中保留所有的自變量,則應避免根據(jù)t統(tǒng)計量對單個參數(shù)進行檢驗對因變量值的推斷(估計或預測)的限定在自變量樣本值的范圍內(nèi)10.3.2變量選擇與逐步回歸10.3多重共線性及其處理2018-9-25變量選擇過程在建立回歸模型時,對自變量進行篩選選擇自變量的原則是對統(tǒng)計量進行顯著性檢驗將一個或一個以上的自變量引入到回歸模型中時,是否使得殘差平方和(SSE)有顯著地減少。如果增加一個自變量使SSE的減少是顯著的,則說明有必要將這個自變量引入回歸模型,否則,就沒有必要將這個自變量引入回歸模型確定引入自變量是否使SSE有顯著減少的方法,就是使用F統(tǒng)計量的值作為一個標準,以此來確定是在模型中增加一個自變量,還是從模型中剔除一個自變量變量選擇的方法主要有:向前選擇、向后剔除、逐步回歸、最優(yōu)子集等2018-9-25向前選擇

(forwardselection)從模型中沒有自變量開始對k個自變量分別擬合對因變量的一元線性回歸模型,共有k個,然后找出F統(tǒng)計量的值最高的模型及其自變量(P值最小的),并將其首先引入模型分別擬合引入模型外的k-1個自變量的二元線性回歸模型如此反復進行,直至模型外的自變量均無統(tǒng)計顯著性為止2018-9-25向后剔除

(backwardelimination)先對因變量擬合包括所有k個自變量的回歸模型。然后考察p(p<k)個去掉一個自變量的模型(這些模型中在每一個都有k-1個自變量),使模型的SSE值減小最少的自變量被挑選出來并從模型中剔除考察p-1個再去掉一個自變量的模型(這些模型中每一個都有k-2個自變量),使模型的SSE值減小最少的自變量被挑選出來并從模型中剔除如此反復進行,一直將自變量從模型中剔除,直至剔除一個自變量不會使SSE顯著減小為止2018-9-25逐步回歸

(stepwiseregression)將向前選擇和向后剔除兩種方法結(jié)合起來篩選自變量在增加了一個自變量后,它會對模型中所有的變量進行考察,看看有沒有可能剔除某個自變量。如果在增加了一個自變量后,前面增加的某個自變量對模型的貢獻變得不顯著,這個變量就會被剔除按照方法不停地增加變量并考慮剔除以前增加的變量的可能性,直至增加變量已經(jīng)不能導致SSE顯著減少在前面步驟中增加的自變量在后面的步驟中有可能被剔除,而在前面步驟中剔除的自變量在后面的步驟中也可能重新進入到模型中2018-9-25逐步回歸

(R的逐步回歸與AIC準則)R中的逐步回歸以AIC信息準則為選擇標準,選擇使AIC最小的變量建立模型赤池信息準則也被稱為AIC準則(Akaike’sInformationCriterion),由日本學者赤池于1973年提出除應用于線性模型的變量篩選外,還被應用于時間序列自回歸模型階數(shù)的確定AIC由兩部分組成,一部分反映模型的擬合精度,一部分反映模型中參數(shù)的個數(shù),即模型的繁簡程度。AIC的值越小,說明擬合的模型精度越高而且又簡潔當用最小二乘法擬合模型時,計算公式為:n為樣本量p為模型中參數(shù)的個數(shù)(包括常數(shù)項)2018-9-25#逐步回歸#擬合逐步回歸模型

#逐步回歸的方差分析表

#逐步回歸模型的診斷

逐步回歸

(例題10—4)load("C:/example/ch10/example10_1.RData")model1<lm(y~x1+x2+x3+x4+x5,data=example10_1)model2<-step(model1)model2<-lm(y~x1+x2+x5,data=example10_1)summary(model2)anova(model2)plot(model2,which=1);plot(model2,which=2)2018-9-25#除逐步回歸外,解決共線性的其他方法有:嶺回歸(ridge)——通過約束回歸系數(shù)減少共線性Lasso回歸——增加回歸系數(shù)的懲罰項,但與嶺回歸的懲罰方式不同(目的也是減少回歸系數(shù))主成分回歸——線求自變量的主成分,然后用主成分做回歸偏最小二乘回歸——在回歸之前對因變量和自變量進行轉(zhuǎn)換,再回歸附加:解決共線性的其他方法

10.4相對重要性和模型比較10.2.2自變量的相對重要性10.2.3模型比較第10章多元線性回歸2018-9-25建模關(guān)心的兩個問題在實際建模時,我們總是會關(guān)心兩個問題一是哪些自變量對預測更重要二是所建立的模型是否包含了建模型所必需的自變量10.4.1自變量的相對重要性10.4相對重要性和模型比較2018-9-25自變量的相對重要性哪些自變量對因變量的預測相對來說更重要,哪些相對來說不重要如果各自變量之間獨立,那么根據(jù)自變量與因變量之間的相關(guān)系數(shù)大小就可以對重要性做出排序,相關(guān)系數(shù)大的顯然更重要實際問題中,各自變量之間往往有一定的相關(guān)性,這就會使評價變得復雜很多評價自變量相對重要性的方法之一就是比較標準化回歸系數(shù)(standardizedregressioncoefficient)2018-9-25自變量的相對重要性

2018-9-25#計算例10-1的標準化回歸系數(shù)標準化回歸—模型擬合

(例題10—1)load("C:/example/ch10/example10_1.RData")model1<-lm(y~x1+x2+x3+x4+x5,data=example10_1)library(lm.beta)model1.beta<-lm.beta(model1)summary(model1.beta)2018-9-25相對重要性分析

標準化回歸—相對重要性分析

(例題10—1)標準化回歸系數(shù)相對重要性排位z1=0.336z2=0.413z3=0.113z4=-0.096z5=-0.17821453x1x2x3x4x5

10.4.2模型比較10.4相對重要性和模型比較2018-9-25模型比較

(anova方法)

2018-9-25模型比較

(anova方法)

2018-9-25模型比較

(anova方法)

2018-9-25模型比較

(anova方法:例題10—5)#逐步回歸模型與含所有5個自變量的回歸模型的比較

load("C:/example/ch10/example10_1.RData")model1<-lm(y~x1+x2+x3+x4+x5,data=example10_1)model2<-lm(y~x1+x2+x5,data=example10_1)anova(model2,model1)2018-9-25模型比較

(AIC準則)#用AIC準則比較逐步回歸模型與含所有5個自變量的回歸模型用anova做模型比較時,要求模型必須是嵌套的用AIC信息準則也可以用來比較模型,而且它不要求模型必須是嵌套的AIC值越小,說明模型用較少的參數(shù)(或自變量)就獲得了足夠的擬合度。因而模型將被優(yōu)先選擇model1<lm(y~x1+x2+x3+x4+x5,data=example10_1)model2<-lm(y~x1+x2+x5,data=example10_1)AIC(model2,model1)

10.5利用回歸方程進行預測第10章多元線性回歸2018-9-25#計算逐步回歸的置信區(qū)間和預測區(qū)間逐步回歸預測

(例題10—6)load("C:/example/ch10/example10_1.RData")model2<-lm(y~x1+x2+x5,data=example10_1)x<-example10_1[,c(3,4,7)]pre<-predict(model2)res<-residuals(model2)zre<-rstandard(model2)con_int<-predict(model2,x,interval="confidence",level=0.95)pre_int<-predict(model2,x,interval="prediction",level=0.95)mysummary<-data.frame(營業(yè)額=example10_1$y,點預測值=pre,殘差=res,標準化殘差=zre,置信下限=con_int[,2],置信上限=con_int[,3],預測下限=pre_int[,2],預測上限=pre_int[,3])round(mysummary,3)2018-9-25#求x1=50,x2=100,x5=10時日均營業(yè)額的點預測值、置信區(qū)間和預測區(qū)間(新值預測)逐步回歸預測

(例題10—6)model2<-lm(y~x1+x2+x5,data=example10_1)x0<-data.frame(x1=50,x2=100,x5=10)predict(model2,newdata=x0)predict(model2,data.frame(x1=50,x2=100,x5=10),interval="confidence",level=0.95)predict(model2,data.frame(x1=50,x2=100,x5=10),interval="prediction",level=0.95)第10章多元線性回歸

10.6啞變量回歸

10.6.1在模型中引進啞變量

10.6.2含有一個啞變量的回歸10.6.1在模型中引進啞變量10.6啞變量回歸2018-9-25啞變量

(dummyvariable)也稱虛擬變量。用數(shù)字代碼表示的定性自變量啞變量可有不同的水平只有兩個水平的啞變量比如,性別(男,女)有兩個以上水平的啞變量貸款企業(yè)的類型(家電,醫(yī)藥,其他)啞變量的取值為0,12018-9-25在回歸中引進啞變量回歸模型中使用啞變量時,稱為啞變量回歸當定性變量只有兩個水平時,可在回歸中引入一個啞變量比如,性別(男,女)一般而言,如果定性自變量有k個水平,需要在回歸中模型中引進k-1個啞變量10.6.2含有一個啞變量的回歸10.6啞變量回歸2018-9-25啞變量回歸

(例題分析)【例10—8】沿用例10—1。假定在分析影響日均營業(yè)額的因素中,再考慮“交通方便程度”變量,并設其取值為“方便”和“不方便”。為便于理解,原來的5個自變量我們只保留用餐平均支出一個數(shù)值自變量。假定調(diào)查得到的數(shù)據(jù)表編號日均營業(yè)額y用餐平均支出x1方便程度x2153.2168.6方便218.522.5方便311.3109.4不方便484.7277.0方便57.317.4不方便617.993.0方便72.521.5不方便827.3114.5方便95.961.3不方便1023.9129.8方便…………2018-9-25#日均營業(yè)額與用餐平均支出的一元回歸#方差分析表

#日均營業(yè)額與用餐平均支出和交通方便程度的二元回歸#方差分析表

啞變量回歸

(例題10—7)load("C:/example/ch10/example10_7.RData")model_s<-lm(日均營業(yè)額~用餐平均支出,data=example10_7)summary(model_s)anova(model_s)load("C:/example/ch10/example10_7.RData")model_dummy<-lm(日均營業(yè)額~用餐平均支出+交通方便程度,data=example10_7)summary(model_dummy)anova(model_dummy)2018-9-25#預測值和預測殘差#用anova比較只含有用餐平均支出一個變量和增加交通方便程度啞變量的回歸模型#用AIC準則比較啞變量回歸

(例題10—7)pre_model_dummy<-model_dummy$fitted.valuesres_model_dummy<-model_dummy$residualsmysummary<-data.frame(example10_7,點預測值=pre_model_dummy,殘差=res_model_dummy)mysummarymodel_s<-lm(日均營業(yè)額~用餐平均支出,data=example10_7)model_dummy<-lm(日均營業(yè)額~用餐平均支出+交通方便程度,data=example10_7)anova(model_s,model_dummy)AIC(model_s,model_dummy)2018-9-25#交通方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論