一元線性回歸_第1頁
一元線性回歸_第2頁
一元線性回歸_第3頁
一元線性回歸_第4頁
一元線性回歸_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

一元線性回歸目錄一元線性回歸介紹數(shù)據(jù)集和數(shù)學(xué)模型回歸參數(shù)估計(jì)回歸方程的顯著性檢驗(yàn)殘差分析和異常點(diǎn)檢測模型預(yù)測1.一元線性回歸介紹回歸分析(RegressionAnalysis)是用來確定2個(gè)或2個(gè)以上變量間關(guān)系的一種統(tǒng)計(jì)分析方法。如果回歸分析中,只包括一個(gè)自變量X和一個(gè)因變量Y時(shí),且它們的關(guān)系是線性的,那么這種回歸分析稱為一元線性回歸分析?;貧w分析屬于統(tǒng)計(jì)學(xué)的基本模型,涉及統(tǒng)計(jì)學(xué)基礎(chǔ),就會(huì)有一大堆的名詞和知識(shí)點(diǎn)需要介紹。在回歸分析中,變量有2類:因變量和自變量。因變量通常是指實(shí)際問題中所關(guān)心的指標(biāo),用Y表示。而自變量是影響因變量取值的一個(gè)變量,用X表示,如果有多個(gè)自變量則表示為X1,X2,…,Xn。回歸分析研究的主要步驟:確定因變量Y與自變量X1,X2,…,Xn之間的定量關(guān)系表達(dá)式,即回歸方程。對(duì)回歸方程的置信度檢查。判斷自變量Xn(n=1,2,…,m)對(duì)因變量的影響。利用回歸方程進(jìn)行預(yù)測。本文會(huì)根據(jù)回歸分析的的主要步驟,進(jìn)行結(jié)構(gòu)梳理,介紹一元線性回歸模型的使用方法。2.數(shù)據(jù)集和數(shù)學(xué)模型先讓我們通過一個(gè)例子開始吧,用一組簡單的數(shù)據(jù)來說明一元線性回歸分析的數(shù)學(xué)模型的原理和公式。找出下面數(shù)據(jù)集中Y與X的定量關(guān)系。數(shù)據(jù)集為2016年3月1日,白天開盤的交易數(shù)據(jù),為鋅的2個(gè)期貨合約的分鐘線的價(jià)格數(shù)據(jù)。數(shù)據(jù)集包括有3列,索引列為時(shí)間,zn1.Close為ZN1604合約的1分鐘線的報(bào)價(jià)數(shù)據(jù),zn2.Close為ZN1605合約的1分鐘線的報(bào)價(jià)數(shù)據(jù)。數(shù)據(jù)集如下:

zn1.Closezn2.Close2016-03-0109:01:00

14075

141452016-03-0109:02:00

14095

141602016-03-0109:03:00

14095

141602016-03-0109:04:00

14095

141652016-03-0109:05:00

14120

141902016-03-0109:06:00

14115

141802016-03-0109:07:00

14110

141702016-03-0109:08:00

14110

141752016-03-0109:09:00

14105

141702016-03-0109:10:00

14105

141702016-03-0109:11:00

14120

141802016-03-0109:12:00

14105

141702016-03-0109:13:00

14105

141702016-03-0109:14:00

14110

141752016-03-0109:15:00

14105

141752016-03-0109:16:00

14120

141852016-03-0109:17:00

14125

141902016-03-0109:18:00

14115

141852016-03-0109:19:00

14135

141952016-03-0109:20:00

14125

141902016-03-0109:21:00

14135

142052016-03-0109:22:00

14140

142102016-03-0109:23:00

14140

142002016-03-0109:24:00

14135

142052016-03-0109:25:00

14140

142052016-03-0109:26:00

14135

142052016-03-0109:27:00

14130

14205我們以zn1.Close列的價(jià)格為X,zn2.Close列的價(jià)格為Y,那么試試找到自變量X和因變量Y的關(guān)系的表達(dá)式。為了直觀起見,我們可以先畫出一張散點(diǎn)圖,以X為橫坐標(biāo),Y為縱坐標(biāo),每個(gè)點(diǎn)對(duì)應(yīng)一個(gè)X和一個(gè)Y。#數(shù)據(jù)集已存在df變量中>head(df)

zn1.Closezn2.Close2016-03-0109:01:00

14075

141452016-03-0109:02:00

14095

141602016-03-0109:03:00

14095

141602016-03-0109:04:00

14095

141652016-03-0109:05:00

14120

141902016-03-0109:06:00

14115

14180#分別給x,y賦值>x<-as.numeric(df[,1])>y<-as.numeric(df[,2])#畫圖>plot(y~x+1)從散點(diǎn)圖上發(fā)現(xiàn)X和Y的排列基本是在一條直線附近,那么我們可以假設(shè)X和Y的關(guān)系是線性,可以用公式表式為。Y=a+b*X+cY,為因變量X,為自變量a,為截距b,為自變量系數(shù)a+b*X,表示Y隨X的變化而線性變化的部分c,為殘差或隨機(jī)誤差,是其他一切不確定因素影響的總和,其值不可觀測。假定c是符合均值為0方差為σ^2的正態(tài)分布,記作c~N(0,σ^2)對(duì)于上面的公式,稱函數(shù)f(X)=a+b*X為一元線性回歸函數(shù),a為回歸常數(shù),b為回歸系數(shù),統(tǒng)稱回歸參數(shù)。X為回歸自變量或回歸因子,Y為回歸因變量或響應(yīng)變量。如果(X1,Y1),(X2,Y2)…(Xn,Yn)是(X,Y)的一組觀測值,則一元線性回歸模型可表示為Yi=a+b*X+ci,

i=1,2,...n其中E(ci)=0,var(ci)=σ^2,i=1,2,...n通過對(duì)一元線性回歸模型的數(shù)學(xué)定義,接下來讓我們利用數(shù)據(jù)集做回歸模型的參數(shù)估計(jì)。3.回歸參數(shù)估計(jì)對(duì)于上面的公式,回歸參數(shù)a,b是我們不知道的,我們需要用參數(shù)估計(jì)的方法來計(jì)算出a,b的值,而從得到數(shù)據(jù)集的X和Y的定量關(guān)系。我們的目標(biāo)是要計(jì)算出一條直線,使直接線上每個(gè)點(diǎn)的Y值和實(shí)際數(shù)據(jù)的Y值之差的平方和最小,即(Y1實(shí)際-Y1預(yù)測)^2+(Y2實(shí)際-Y2預(yù)測)^2+……+(Yn實(shí)際-Yn預(yù)測)^2的值最小。參數(shù)估計(jì)時(shí),我們只考慮Y隨X的線性變化的部分,而殘差c是不可觀測的,參數(shù)估計(jì)法并不需要考慮殘差,對(duì)于殘差的分析在后文中介紹。令公式變形為a和b的函數(shù)Q(a,b),即(Y實(shí)際-Y測試)的平方和,變成到(Y實(shí)際–(a+b*X))的平方和。公式一回歸參數(shù)變形公式通過最小二乘估計(jì)推導(dǎo)出a和b的求解公式,詳細(xì)的推導(dǎo)過程請(qǐng)參考文章一元線性回歸的細(xì)節(jié)公式二回歸參數(shù)計(jì)算公式其中x和y的均值,計(jì)算方法如下公式三均值計(jì)算公式有了這個(gè)公式,我們就可以求出a和b兩個(gè)的回歸參數(shù)的解了。接下來,我們用R語言來實(shí)現(xiàn)對(duì)上面數(shù)據(jù)的回歸模型的參數(shù)估計(jì),R語言中可以用lm()函數(shù)來實(shí)現(xiàn)一元線性回歸的建模過程。#建立線性回歸模型>lm.ab<-lm(y~1+x)#打印參數(shù)估計(jì)的結(jié)果>lm.abCall:lm(formula=y~1+x)Coefficients:(Intercept)

x

-349.493

1.029

如果你想動(dòng)手來計(jì)算也可以自己實(shí)現(xiàn)公式。#x均值>Xm<-mean(x);Xm[1]14034.82#y均值>Ym<-mean(y);Ym[1]14096.76#計(jì)算回歸系數(shù)>b<-sum((x-Xm)*(y-Ym))/sum((x-Xm)^2);b[1]1.029315#計(jì)算回歸常數(shù)>a<-Ym-b*Xm;a[1]-349.493回歸參數(shù)a和b的計(jì)算結(jié)果,與lm()函數(shù)的計(jì)算結(jié)果是相同的。有了a和b的值,我們就可以畫出這條近似的直接線。計(jì)算公式為:Y=a+b*X=-349.493+1.029315*X畫出回歸線。>plot(y~x+1)>abline(lm.ab)這條直線是我們用數(shù)據(jù)擬合出來的,是一個(gè)近似的值。我們看到有些點(diǎn)在線上,有些點(diǎn)不在線上。那么要評(píng)價(jià)這條回歸線擬合的好壞,我們就需要對(duì)回歸模型進(jìn)行顯著性檢驗(yàn)。4.回歸方程的顯著性檢驗(yàn)從回歸參數(shù)的公式二可知,在計(jì)算過程中并不一定要知道Y和X是否有線性相關(guān)的關(guān)系。如果不存相關(guān)關(guān)系,那么回歸方程就沒有任何意義了,如果Y和X是有相關(guān)關(guān)系的,即Y會(huì)隨著X的變化而線性變化,這個(gè)時(shí)候一元線性回歸方程才有意義。所以,我們需要用假設(shè)檢驗(yàn)的方法,來驗(yàn)證相關(guān)性的有效性。通常會(huì)采用三種顯著性檢驗(yàn)的方法。T檢驗(yàn)法:T檢驗(yàn)是檢驗(yàn)?zāi)P湍硞€(gè)自變量Xi對(duì)于Y的顯著性,通常用P-value判斷顯著性,小于0.01更小時(shí)說明這個(gè)自變量Xi與Y相關(guān)關(guān)系顯著。F檢驗(yàn)法:F檢驗(yàn)用于對(duì)所有的自變量X在整體上看對(duì)于Y的線性顯著性,也是用P-value判斷顯著性,小于0.01更小時(shí)說明整體上自變量與Y相關(guān)關(guān)系顯著。R^2(R平方)相關(guān)系統(tǒng)檢驗(yàn)法:用來判斷回歸方程的擬合程度,R^2的取值在0,1之間,越接近1說明擬合程度越好。在R語言中,上面列出的三種檢驗(yàn)的方法都已被實(shí)現(xiàn),我們只需要把結(jié)果解讀。上文中,我們已經(jīng)通過lm()函數(shù)構(gòu)建一元線性回歸模型,然后可以summary()函數(shù)來提取模型的計(jì)算結(jié)果。>summary(lm.ab)

#計(jì)算結(jié)果Call:lm(formula=y~1+x)Residuals:

Min

1Q

Median

3Q

Max-11.9385

-2.2317

-0.1797

3.3546

10.2766Coefficients:

EstimateStd.ErrortvaluePr(>|t|)

(Intercept)-3.495e+02

7.173e+01

-4.8722.09e-06***x

1.029e+00

5.111e-03201.390

<2e-16***---Signif.codes:

0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:4.232on223degreesoffreedomMultipleR-squared:

0.9945, AdjustedR-squared:

0.9945F-statistic:4.056e+04on1and223DF,

p-value:<2.2e-16模型解讀:Call,列出了回歸模型的公式。Residuals,列出了殘差的最小值點(diǎn),1/4分位點(diǎn),中位數(shù)點(diǎn),3/4分位點(diǎn),最大值點(diǎn)。Coefficients,表示參數(shù)估計(jì)的計(jì)算結(jié)果。Estimate,為參數(shù)估計(jì)列。Intercept行表示常數(shù)參數(shù)a的估計(jì)值,x行表示自變量x的參數(shù)b的估計(jì)值。Std.Error,為參數(shù)的標(biāo)準(zhǔn)差,sd(a),sd(b)tvalue,為t值,為T檢驗(yàn)的值Pr(>|t|),表示P-value值,用于T檢驗(yàn)判定,匹配顯著性標(biāo)記顯著性標(biāo)記,***為非常顯著,**為高度顯著,**為顯著,·為不太顯著,沒有記號(hào)為不顯著。Residualstandarderror,表示殘差的標(biāo)準(zhǔn)差,自由度為n-2。MultipleR-squared,為相關(guān)系數(shù)R^2的檢驗(yàn),越接近1則越顯著。AdjustedR-squared,為相關(guān)系數(shù)的修正系數(shù),解決多元回歸自變量越多,判定系數(shù)R^2越大的問題。F-statistic,表示F統(tǒng)計(jì)量,自由度為(1,n-2),p-value:用于F檢驗(yàn)判定,匹配顯著性標(biāo)記。通過查看模型的結(jié)果數(shù)據(jù),我們可以發(fā)現(xiàn)通過T檢驗(yàn)的截距和自變量x都是非常顯著,通過F檢驗(yàn)判斷出整個(gè)模型的自變量是非常顯著,同時(shí)R^2的相關(guān)系數(shù)檢驗(yàn)可以判斷自變量和因變量是高度相關(guān)的。最后,我們通過的回歸參數(shù)的檢驗(yàn)與回歸方程的檢驗(yàn),得到最后一元線性回歸方程為:Y=-349.493+1.029315*X5.殘差分析和異常點(diǎn)檢測在得到的回歸模型進(jìn)行顯著性檢驗(yàn)后,還要在做殘差分析(預(yù)測值和實(shí)際值之間的差),檢驗(yàn)?zāi)P偷恼_性,殘差必須服從正態(tài)分布N(0,σ^2)。我們可以自己計(jì)算數(shù)據(jù)殘差,并進(jìn)行正態(tài)分布檢驗(yàn)。#殘差>y.res<-residuals(lm.ab)#打印前6條數(shù)據(jù)>head(y.res)

1

2

3

4

5

66.88886801.30257441.30257446.30257445.56970740.7162808#正態(tài)分布檢驗(yàn)>shapiro.test(y.res) Shapiro-Wilknormalitytestdata:

y.resW=0.98987,p-value=0.1164#畫出殘差散點(diǎn)圖>plot(y.res)對(duì)殘差進(jìn)行Shapiro-Wilk正態(tài)分布檢驗(yàn),W接近1,p-value>0.05,證明數(shù)據(jù)集符合正態(tài)分布!關(guān)于正態(tài)分布的介紹,請(qǐng)參考文章常用連續(xù)型分布介紹及R語言實(shí)現(xiàn)。同時(shí),我們也可以用R語言的工具生成4種用于模型診斷的圖形,簡化自己寫代碼計(jì)算的操作。#畫圖,回車展示下一張>plot(lm.ab)

Hittoseenextplot:

#殘差擬合圖Hittoseenextplot:

#殘差QQ圖Hittoseenextplot:

#標(biāo)準(zhǔn)化的殘差對(duì)擬合值Hittoseenextplot:

#標(biāo)準(zhǔn)化殘差對(duì)杠桿值圖1,殘差和擬合值對(duì)比圖對(duì)殘差和擬合值作圖,橫坐標(biāo)是擬合值,縱坐標(biāo)是殘差。殘差和擬合值之間,數(shù)據(jù)點(diǎn)均勻分布在y=0兩側(cè),呈現(xiàn)出隨機(jī)的分布,紅色線呈現(xiàn)出一條平穩(wěn)的曲線并沒有明顯的形狀特征,說明殘差數(shù)據(jù)表現(xiàn)非常好。圖2,殘差QQ圖殘差QQ圖,用來描述殘差是否符合正態(tài)分布。圖中的數(shù)據(jù)點(diǎn)按對(duì)角直線排列,趨于一條直線,并被對(duì)角直接穿過,直觀上符合正態(tài)分布。對(duì)于近似服從正態(tài)分布的標(biāo)準(zhǔn)化殘差,應(yīng)該有95%的樣本點(diǎn)落在[-2,2]區(qū)間內(nèi)。圖3,標(biāo)準(zhǔn)化殘差平方根和擬合值對(duì)比圖對(duì)標(biāo)準(zhǔn)化殘差平方根和擬合值作圖,橫坐標(biāo)是擬合值,縱坐標(biāo)是標(biāo)準(zhǔn)化后的殘差平方根。與殘差和擬合值對(duì)比圖(圖1)的判斷方法類似,數(shù)據(jù)隨機(jī)分布,紅色線呈現(xiàn)出一條平穩(wěn)的曲線,無明顯的形狀特征。圖4,標(biāo)準(zhǔn)殘差和杠桿值對(duì)比圖對(duì)標(biāo)準(zhǔn)化殘差和杠桿值作圖,虛線表示的cooks距離等高線,通常用Cook距離度量的回歸影響點(diǎn)。本圖中沒有出現(xiàn)紅色的等高線,則說明數(shù)據(jù)中沒有特別影響回歸結(jié)果的異常點(diǎn)。如果想把把4張圖畫在一起進(jìn)行展示,可以改變畫布布局。>par(mfrow=c(2,2))>plot(lm.ab)看到上面4幅中,每幅圖上都有一些點(diǎn)被特別的標(biāo)記出來了,這些點(diǎn)是可能存在的異常值點(diǎn),如果要對(duì)模型進(jìn)行優(yōu)化,我們可以從這些來入手。但終于本次殘差分析的結(jié)果已經(jīng)很好了,所以對(duì)于異常點(diǎn)的優(yōu)化,可能并不能明顯的提升模型的效果。從圖中發(fā)現(xiàn),索引編號(hào)為27和192的2個(gè)點(diǎn)在多幅圖中出現(xiàn)。我們假設(shè)這2個(gè)點(diǎn)為異常點(diǎn),從數(shù)據(jù)中去掉這2個(gè)點(diǎn),再進(jìn)行顯著性檢驗(yàn)和殘差分析。#查看27和192>df[c(27,192),]

zn1.Closezn2.Close2016-03-0109:27:00

14130

142052016-03-0114:27:00

14035

14085#新建數(shù)據(jù)集,去掉27和192>df2<-df[-c(27,192),]回歸建模和顯著性檢驗(yàn)。>x2<-as.numeric(df2[,1])>y2<-as.numeric(df2[,2])>lm.ab2<-lm(y2~1+x2)>summary(lm.ab2)Call:lm(formula=y2~1+x2)Residuals:

Min

1Q

Median

3Q

Max-9.0356-2.1542-0.2727

3.3336

9.5879Coefficients:

EstimateStd.ErrortvaluePr(>|t|)

(Intercept)-3.293e+02

7.024e+01

-4.6884.83e-06***x2

1.028e+00

5.004e-03205.391

<2e-16***---Signif.codes:

0‘***’0.001‘**’0.01

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論