線性回歸模型

上傳人：宿*** IP屬地：廣東上傳時間：2022-10-24 格式：PPTX 頁數(shù)：119 大?。?.94MB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩114頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

線性回歸模型主要內(nèi)容1.1

模型結(jié)構(gòu)和假設(shè)1.2

解釋變量1.3

參數(shù)估計1.4

異方差與加權(quán)最小二乘估計1.5

假設(shè)檢驗1.6

模型診斷和改進1.7

模型的評價與比較1.8應(yīng)用示例

1.1模型結(jié)構(gòu)和假設(shè)1.1模型結(jié)構(gòu)和假設(shè)假設(shè)我們感興趣的變量是,希望建立它與其他個解釋變量之間的函數(shù)關(guān)系。最一般的函數(shù)形式可以表示為：式中是隨機誤差。在線性回歸模型中,設(shè)是一個線性函數(shù),可得線性回歸模型為：如果對因變量和解釋變量有n次觀測,第i次觀測值記為和則相應(yīng)的線性回歸模型可以表示為：為方便起見,線性回歸模型可以表示為矩陣形式:式中,基本假設(shè)(1)誤差項的均值為零,且與解釋變量相互獨立,即(2)誤差項獨立同分布,即每個誤差項之間相互獨立且每個誤差項的方差都相等：(3)解釋變量之間線性無關(guān)(4)正態(tài)假設(shè),即假設(shè)誤差項服從正態(tài)分布：在上述假設(shè)下,可得：1.2解釋變量1.2解釋變量1.2.1分類解釋變量

如果解釋變量是分類變量,在建模過程中需要把分類解釋變量轉(zhuǎn)化為虛擬變量。

為避免解釋變量之間出現(xiàn)完全共線性,虛擬變量個數(shù)等于分類變量的水平數(shù)減去1。Example：

車型是一個分類解釋變量,有A,B,C,D四個水平,可以轉(zhuǎn)化為x1,x2,x3三個虛擬變量,定義如下表所示：車型x1x2x3A100B010C001D000假設(shè)車型是模型中唯一的解釋變量,則線性回歸模型的擬合值表示為：根據(jù)模型,可以求得不同車型條件下對因變量的擬合值為：

在模型中,車型D是基準水平,也稱參照水平。為了預(yù)測結(jié)果的穩(wěn)定性,通常選擇觀測值較多的水平為基準水平。在R中的實現(xiàn)：type=factor(c("A","B","C","0D"))model.matrix(~type)車型=A車型=B車型=C車型=D1.2.2交互效應(yīng)交互效應(yīng)是指一個解釋變量對因變量的影響與另一個解釋變量有關(guān)。譬如,不同性別的駕駛?cè)?其年齡對索賠頻率的影響是不同的,即年齡和性別之間存在交互效應(yīng)。1.2.3變量的標準化

為了消除量綱的影響,可以考慮對變量進行標準化處理,即：式中,Example:

表示汽車保險的索賠頻率；

表示駕駛?cè)说哪挲g,是一個連續(xù)變量；

表示性別,是一個虛擬變量,值為0表示男性,1表示女性；表示年齡和性別的交互效應(yīng)；

則線性回歸模型的擬合值可以表示為：

在模型中,年齡每增加一單位,對索賠頻率擬合值的影響是一個跟性別有關(guān)的值,即：

基于標準化以后的數(shù)據(jù)建立的回歸模型為：

回歸系數(shù)間有下述關(guān)系：

標準化回歸系數(shù)的絕對值大小度量了解釋變量的相對重要性,值越大,表明該解釋變量對因變量的影響越大。在R中,用scale(data)實現(xiàn)標準化1.2.4變量變換

解釋變量與因變量之間如果是非線性關(guān)系,可以考慮對解釋變量進行變換或建立多項式回歸模型。多項式回歸是把一個解釋變量的冪變換作為新的解釋變量引入回歸模型。

為簡化表述,不妨假設(shè)只有一個原始解釋變量,則m次多項式回歸模型的基本形式如下：

所以多項式回歸也屬于線性回歸模型。

在普通多項式回歸中,多項式的階數(shù)不同,參數(shù)估計結(jié)果也不同。

為了克服這種缺陷,可以使用正交多項式回歸模型,即把原來的解釋變量轉(zhuǎn)化為新的正交解釋變量。

譬如,三階正交多項式回歸模型為表示為：在R中的實現(xiàn)：set.seed(10)x=1:20y=2+x+x^2+runif(20)*50mod1=lm(y~x)mod2=lm(y~poly(x,2))mod3=lm(y~poly(x,19))plot(y~x,yaxs='i',pch=19,ylim=c(0,500),xlim=c(0,21),xaxs='i',las=1)abline(mod1)points(x,fitted(mod2),col=2,type='l',lty=4,pch='')points(x,fitted(mod3),col=4,type='l',lty=5,pch='')legend(1,450,c('一元線性回歸','二次多項式回歸','19次多項式回歸'),lty=c(1,2,3),col=c(1,2,4))如果解釋變量取值較大,多項式模型中高次項可能會導致計算溢出,從而使得對其參數(shù)的估計值出現(xiàn)下溢。解決這一問題的常用方法是對解釋變量進行下述變換：如果模型中包含多個自變量(譬如兩個),則模型可表示為：在多項式回歸模型中,如果已經(jīng)包含高次項,則所有的低次項通常也要保留在模型中。1.3參數(shù)估計1.3參數(shù)估計1.3.1最小二乘估計

回歸參數(shù)的最小二乘估計可以通過最小化殘差平方和求得：

對S關(guān)于求偏導,并令其等于零,即得

得到回歸參數(shù)最小二乘估計：1.3.2極大似然估計

假設(shè)誤差項服從正態(tài)分布,則因變量的密度函數(shù)為：

線性回歸模型的對數(shù)似然函數(shù)可以表示為：

對數(shù)似然函數(shù)的最大化等價于殘差平方和的最小化,即在正態(tài)分布假設(shè)下,回歸參數(shù)的極大似然估計等價于最小二乘估計。對上式關(guān)于求導,并用回歸參數(shù)的極大似然估計值代入上式,并令上式等于零,則可以求得方差參數(shù)的極大似然估計值為：

這個方差估計是有偏的,在實際中很少用。1.3.3方差參數(shù)的無偏估計

在線性回歸模型中,對因變量的預(yù)測值可以表示為：

線性回歸模型的殘差可以表示為：殘差平方和表示為：在正態(tài)性假設(shè)下,有:

方差的無偏估計：1.3.4最小二乘參數(shù)估計值的性質(zhì)(1)無偏性

在的所有線性無偏估計中,最小二乘估計的方差最小。(2)協(xié)方差矩陣

式中,是對角線上元素,是解釋變量與其他解釋變量之間的復(fù)相關(guān)系數(shù)。(3)正態(tài)分布假設(shè)下的性質(zhì)

如果進一步假設(shè)誤差項服從正態(tài)分布,則有：此外,在誤差項服從正態(tài)分布的假設(shè)下最小二乘估計值與其真實值之間的加權(quán)距離服從自由度為k+1的卡方分布。1.4

異方差與加權(quán)最小二乘估計1.4

異方差與加權(quán)最小二乘估計異方差的產(chǎn)生原因：誤差學習模型（error-learning

models）數(shù)據(jù)采集技術(shù)的改進,使得減小產(chǎn)生于異常觀測（outliers）對CLRM假定的破壞,即回歸模型的設(shè)定有誤模型中一個或多個回歸元的分布偏態(tài)（skewness）其他,例如：不正確的數(shù)據(jù)變形（比率、一階差分變化等）,不正確的函數(shù)形式（線性與對數(shù)線性的變換）異方差性問題在截面數(shù)據(jù)中比在時序數(shù)據(jù)中更為常見1.4

異方差與加權(quán)最小二乘估計

在線性回歸模型中,如果誤差項的方差互不相同,即可以表示為

則式中的最小二乘估計值雖然是無偏估計,但不再是最優(yōu)線性無偏估計,即在所有的線性無偏估計中,不能保證上式的方差是最小的（有效性）。

1.4.1

異方差條件下參數(shù)估計值的標準誤異方差不影響最小二乘估計值的無偏性在異方差條件下,假設(shè)誤差項的協(xié)方差矩陣可以表示：

則最小二乘估計值的方差可以表示為：

1.4.1

異方差條件下參數(shù)估計值的標準誤矩陣W往往是未知的,不過,在大樣本條件下可以通過下式進行估計：其中是設(shè)計矩陣第i行的元素。

問題在于上式可以以求出最小二乘估計值的標準誤,但無法解決最小二乘估計的有效性問題。1.4.2加權(quán)最小二乘估計矩陣W的逆矩陣可以分解為：用矩陣可以對因變量、設(shè)計變量和誤差項進行變換：則可以建立下述的線性回歸模型：上式模型滿足線性回歸所有假設(shè)：零均值同方差

1.4.2加權(quán)最小二乘估計所以其最小二乘估計模型的回歸參數(shù)為：上述估計值的協(xié)方差矩陣為：可以證明,是回歸參數(shù)的無偏估計,即：所以,在異方差條件下回歸參數(shù)的估計值可以表示為：1.4.2加權(quán)最小二乘估計協(xié)方差矩陣W是的矩陣,難以通過n個樣本觀測值估計,所以通常設(shè)其為對角矩陣,且常假設(shè)有,所以誤差項的方差與其樣本量n成反比,即：是對因變量的觀測次數(shù)而且假設(shè)W為對角矩陣則意味著誤差項之間是相互獨立的1.4

補充異方差的檢驗方法：殘差圖ncvTest生成計分檢驗,原假設(shè)為誤差方差不變,備擇假設(shè)為誤差方差隨擬合值水平的變化而變化#library(car)Goldfeld-QuandtTestbartlett.test1.4

補充異方差的解決方法：方法一：NeweyWest()函數(shù)可以進行異方差和自相關(guān)穩(wěn)健性Newey—West估計（sandwich）library(sandwich)NeweyWest(fit)neweywest<-coeftest(fit,vcov=NeweyWest(fit))print(neweywest)方法二：加權(quán)最小二乘估計(MASS)

1.5假設(shè)檢驗線性回歸模型的參數(shù)可以通過最小二乘法進行估計,這種估計方法無須對誤差項或因變量的分布形式做任何假設(shè)。但是,在對回歸參數(shù)進行顯著性檢驗時,就必須假設(shè)誤差項或因變量服從正態(tài)分布,即：等價于：在線性回歸模型中,進行顯著性檢驗的主要統(tǒng)計量是自由度為（r,n-k-1）的F分布:1.5

假設(shè)檢驗線性回歸模型一般形式為：如果對所有參數(shù)顯著性進行檢驗,nullhypothesis：1.5.1多個參數(shù)的顯著性檢驗——模型的解釋能力進行顯著性檢驗的統(tǒng)計量為下述F分布:SSE表示當前模型的殘差平方和；SST是沒有任何解釋變量只有截距項的模型的殘差平方和。當F值很大,即p值小于置信水平α時,拒絕原假設(shè)。只對模型中的一個參數(shù)進行顯著性檢驗,則nullhypothesis：1.5.2一個參數(shù)的顯著性檢驗——自變量的解釋能力對一個參數(shù)的顯著性進行檢驗時,一般使用下述t統(tǒng)計量進行顯著性檢驗：表示參數(shù)的標準誤。當t值很大,p值小于置信水平α時,拒絕原假設(shè)。檢驗?zāi)Ｐ椭械哪承﹨?shù)是否相等,或檢驗?zāi)硞€參數(shù)是否等于一個特定值,可以使用F或t統(tǒng)計量。1.5.3參數(shù)等于特定值的顯著性檢驗比如檢驗參數(shù)是否等于特定的某數(shù)N,null

hypothesis：表示參數(shù)的標準誤。p值小于置信水平α時,拒絕原假設(shè)。檢驗統(tǒng)計量為：1.5.4統(tǒng)計顯著性與實際顯著性統(tǒng)計上具有顯著性的解釋變量并不表示實際上對因變量具有較強的解釋能力。當樣本量較小時,參數(shù)估計值的標準誤較大,則易認為該參數(shù)在統(tǒng)計上是不顯著的。換言之,如果沒有拒絕原假設(shè),或許僅僅是因為樣本量不夠大。建立mod1和mod2兩個模型mod1基于模擬數(shù)據(jù)集dt1,含有20個觀測值,x1和x2兩個解釋變量。mod2基于模擬數(shù)據(jù)集dt2,含有40個觀測值,x1和x2兩個解釋變量,dt2由兩個dt1數(shù)據(jù)集合成。1.5.4統(tǒng)計顯著性與實際顯著性1.5.4統(tǒng)計顯著性與實際顯著性1.6模型診斷和改進主要內(nèi)容殘差異常值和強影響點模型基本假設(shè)的診斷共線性的診斷殘差殘差標準化殘差定義內(nèi)學生化殘差外學生化殘差異常值和強影響點強影響點異常值和強影響點因變量中的異常值異常值和強影響點解釋變量中的異常值異常值和強影響點高杠桿點異常值和強影響點高杠桿點異常值和強影響點高杠桿點(57)強影響點的度量和識別強影響點強影響點的度量和識別強影響點的度量和識別(60)強影響點的度量和識別模型基本假設(shè)的診斷模型基本假設(shè)的診斷正態(tài)性檢驗?zāi)Ｐ突炯僭O(shè)的診斷正態(tài)性檢驗?zāi)Ｐ突炯僭O(shè)的診斷正態(tài)性檢驗?zāi)Ｐ突炯僭O(shè)的診斷正態(tài)性檢驗?zāi)Ｐ突炯僭O(shè)的診斷(67)S-K檢驗?zāi)Ｐ突炯僭O(shè)的診斷常數(shù)方差的檢驗?zāi)Ｐ突炯僭O(shè)的診斷(69)模型基本假設(shè)的診斷(70)模型基本假設(shè)的診斷常數(shù)方差的檢驗：改進模型基本假設(shè)的診斷常數(shù)方差的檢驗：改進模型基本假設(shè)的診斷模型基本假設(shè)的診斷獨立性檢驗?zāi)Ｐ突炯僭O(shè)的診斷獨立性檢驗：D-W統(tǒng)計量模型基本假設(shè)的診斷獨立性檢驗：D-W統(tǒng)計量模型基本假設(shè)的診斷獨立性檢驗:D-W統(tǒng)計量模型基本假設(shè)的診斷獨立性檢驗?zāi)Ｐ突炯僭O(shè)的診斷獨立性檢驗：D-W統(tǒng)計量模型基本假設(shè)的診斷獨立性檢驗?zāi)Ｐ突炯僭O(shè)的診斷獨立性檢驗?zāi)Ｐ突炯僭O(shè)的診斷獨立性檢驗?zāi)Ｐ突炯僭O(shè)的診斷獨立性檢驗?zāi)Ｐ突炯僭O(shè)的診斷(84)獨立性檢驗：改進模型基本假設(shè)的診斷(85)獨立性檢驗：改進模型基本假設(shè)的診斷(86)獨立性檢驗：改進模型基本假設(shè)的診斷共線性的診斷模型基本假設(shè)的診斷共線性的診斷模型基本假設(shè)的診斷共線性的診斷模型基本假設(shè)的診斷共線性的診斷：VIF模型基本假設(shè)的診斷共線性的診斷：條件數(shù)模型基本假設(shè)的診斷共線性的診斷模型基本假設(shè)的診斷共線性的診斷模型基本假設(shè)的診斷共線性的診斷模型基本假設(shè)的診斷共線性的處理方法模型基本假設(shè)的診斷嶺回歸模型基本假設(shè)的診斷LASSO模型基本假設(shè)的診斷例模型基本假設(shè)的診斷(99)模型基本假設(shè)的診斷(100)模型基本假設(shè)的診斷模型基本假設(shè)的診斷1.7模型的評價與比較1.7模型的評定與比較判定系數(shù)信息準則交叉驗證得分對于估計模型：總平方和：（SumofSquaredTotal）回歸平方和：（SumofSquaredRegression）殘差平方和：（SumofSquaredError）1.7.1判定系數(shù)判定系數(shù)定義為回歸平方和在總平方和中的比例：由可知,判定系數(shù)還可寫為：判定系數(shù)的取值在0~1之間,越接近于1,模型對數(shù)據(jù)的擬合效果更好。不難看出,判定系數(shù)其實是因變量的觀測值與擬合值之間線性相關(guān)系數(shù)的平方：

證明:證明:缺陷：隨著模型解釋變量的增加,判定系數(shù)會越大,這會誤導我們選擇更復(fù)雜的模型。

1.7.2調(diào)整可決系數(shù)其中：是回歸參數(shù)的個數(shù),是觀測值的個數(shù)。缺陷：如果新增變量的t值大于1,則在模型中增加該變量以后調(diào)整的判定系數(shù)就會增大。在R中,可決系數(shù)與調(diào)整可決系數(shù)會在模型估計中直接給出。

1.7.3信息準則增加解釋變量可改善模型的擬合效果,但增加不必要的解釋變量會降低回歸參數(shù)的估計精度,增大參數(shù)估計的方差。故在選擇模型時要同時考慮對數(shù)似然函數(shù)與參數(shù)個數(shù)的影響。其中：為對數(shù)似然值,為模型中參數(shù)個數(shù),為觀測值的個數(shù)。在正態(tài)分布假設(shè)下的線性回歸模型中：其中,是誤差項方差的極大似然估計值。則

和又可表示為：在應(yīng)用信息準則選擇模型時,建模時所使用的數(shù)據(jù)應(yīng)是相同的（或相差不大）。在R中,AIC和BIC可用以下命令求出：>AIC(model,k=2)>AIC(model,k=log(n))

1.7.4交叉驗證得分基本原理：1、把原始數(shù)據(jù)集隨機分解成r個大小近似相等的子數(shù)據(jù)集；2、把第一個子數(shù)據(jù)及作為驗證數(shù)據(jù)集,其余r-1個子數(shù)據(jù)集合并后進行模型的參數(shù)估計,并基于該模型對驗證數(shù)據(jù)集的因變量進行預(yù)測,計算誤差平方和；3、將第二個……第r個子數(shù)據(jù)集分別進行步驟二；4、計算前述r個預(yù)測誤差平方和的平均值。

特例：每個觀察值作為一個子數(shù)據(jù)集表示提出第i個觀察值后用其他所有觀察值建模對第i個觀察值的預(yù)測值。是帽子矩陣對角線上的元素；是基于全體數(shù)據(jù)建立的模型對第i個對象的預(yù)測值。

在R中,交叉驗證得分

人人文庫> 全部分類> 辦公材料 > 對照材料

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

線性回歸模型

文檔簡介

溫馨提示

最新文檔

評論

線性回歸模型

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔