




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
簡(jiǎn)單線(xiàn)性回歸01102多元線(xiàn)性回歸01自變量有定性變量的回歸0104逐步回歸03多重共線(xiàn)性分析0106線(xiàn)性回歸正則化05邏輯回歸0107PAGE2理解線(xiàn)性回歸回歸是一種有監(jiān)督學(xué)習(xí),常用于建模分析一個(gè)因變量(響應(yīng)變量、目標(biāo)變量)和一個(gè)或多個(gè)自變量(預(yù)測(cè)變量)之間的關(guān)聯(lián)。對(duì)于線(xiàn)性回歸,自變量與因變量都是連續(xù)變量。我們可以借助回歸來(lái)建立一個(gè)預(yù)測(cè)模型,基于訓(xùn)練集中給定的數(shù)據(jù)計(jì)算最小誤差平方和來(lái)找到最優(yōu)匹配的模型,并進(jìn)一步地將該模型應(yīng)用到新數(shù)據(jù)集上,對(duì)因變量進(jìn)行預(yù)測(cè)。2PAGE3簡(jiǎn)單線(xiàn)性回歸基本原理3PAGE4自定義函數(shù)實(shí)現(xiàn)4>#自定義函數(shù),計(jì)算線(xiàn)性回歸系數(shù)估計(jì)值>estmate<-function(x,y){+mean.x<-mean(x,na.rm=T)+mean.y<-mean(y,na.rm=T)+sxx<-sum((x-mean.x)^2)+syy<-sum((y-mean.y)^2)+sxy<-sum((y-mean.y)*(x-mean.x))+#計(jì)算回歸系數(shù)+alpha1<-sxy/sxx+alpha0<-mean.y-alpha1*mean.x+#返回參數(shù)估計(jì)值+return(data.frame('Intercept'=round(alpha0,2),+'X_Coefficients'=round(alpha1,2)))+}>#生成100個(gè)樣本點(diǎn)>set.seed(1234)>X<-2*runif(100)>y<-4+3*X+rnorm(100)>#估計(jì)回歸系數(shù)值>fit<-estmate(X,y)>fitInterceptX_Coefficients14.12.98>y_predict<-fit$Intercept+fit$X_Coefficients*X>plot(X,y,col='blue',pch=16,main="增加回歸直線(xiàn)的散點(diǎn)圖")>lines(X,y_predict,col='red',lwd=2)>text(2,8,labels=paste("y=",fit$Intercept,"+",fit$X_Coefficients,"*X",sep=""),+pos=2)>for(iin1:length(X)){+segments(X,y,X,y_predict,lty=2,col="seagreen")+}PAGE5簡(jiǎn)單線(xiàn)性回歸R語(yǔ)言實(shí)現(xiàn)5在R語(yǔ)言中,lm()函數(shù)可以實(shí)現(xiàn)運(yùn)行最小二乘線(xiàn)性回歸,且返回結(jié)果包括參數(shù)估計(jì)值、n個(gè)殘差值、n個(gè)擬合值以及其他許多輸出,完全用不著套用以上公式來(lái)計(jì)算。lm()函數(shù)的基本表達(dá)形式為:
lm(formula,data)其中,formula指要擬合的模型表達(dá)表形式,data是一個(gè)數(shù)據(jù)框,包含用于擬合模型的數(shù)據(jù)。表達(dá)式(formula)形式如:Y~X_1+X_2+?+X_n,波浪號(hào)(~)左邊為因變量,右邊為自變量,自變量之間用+符號(hào)分隔。當(dāng)回歸模型只包含一個(gè)因變量和一個(gè)自變量時(shí),我們稱(chēng)之為簡(jiǎn)單線(xiàn)性回歸。當(dāng)只有一個(gè)自變量,當(dāng)同時(shí)包含自變量的冪(比如,X,X^2,X^23)時(shí),我們稱(chēng)之為多項(xiàng)式回歸。當(dāng)不止有布置一個(gè)自變量時(shí)(X_1,X_2,…,X_n)時(shí),我們稱(chēng)之為多元線(xiàn)性回歸。PAGE6簡(jiǎn)單線(xiàn)性回歸R語(yǔ)言示例6>lm.fit<-lm(y~X)>names(lm.fit)[1]"coefficients""residuals""effects""rank""fitted.values"[6]"assign""qr""df.residual""xlevels""call"[11]"terms""model">lm.fit$coefficients(Intercept)X4.0991882.977789>#查看更詳細(xì)的信息>summary(lm.fit)Call:lm(formula=y~X)Residuals:Min1QMedian3QMax-2.03362-0.66078-0.086020.579262.47401Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)4.09920.178422.97<2e-16***X2.97780.172217.29<2e-16***Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:0.9553on98degreesoffreedMultipleR-squared:0.7531, AdjustedR-squared:0.7505F-statistic:298.9on1and98DF,p-value:<2.2e-16PAGE7模型診斷及預(yù)測(cè)7>#生成模型診斷圖>par(mfrow=c(2,2))>plot(lm.fit)>par(mfrow=c(1,1))>#對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)>set.seed(1234)>(X_new<-data.frame(X=2*runif(3)))X10.227406821.244598831.2185495>(y_predct<-predict(lm.fit,X_new))1234.7763587.8053417.727772PAGE8指數(shù)變換8當(dāng)因變量和自變量的散點(diǎn)不是呈現(xiàn)明顯的“直線(xiàn)”分布時(shí),我們往往考慮對(duì)因變量做指數(shù)變換或?qū)?shù)變換,其統(tǒng)一形式為Box-Cox變換。Box-Cox變換是統(tǒng)計(jì)建模中常用的一種數(shù)據(jù)變換,用于連續(xù)的因變量不滿(mǎn)足正態(tài)分布的情況。比如在使用線(xiàn)性回歸的時(shí)候,由于殘差?不符合正態(tài)分布而不滿(mǎn)足建模的條件,這時(shí)要對(duì)因變量y進(jìn)行變換,把數(shù)據(jù)變成正態(tài)的。Box-Cox變換之后,可以一定程度上減少殘差和自變量的相關(guān)性。利用MASS擴(kuò)展包的boxcox()函數(shù)可以找到回歸中的Box-Cox變換的最優(yōu)參數(shù)λ,其采取的方法是最大似然估計(jì)。在關(guān)于λ的對(duì)數(shù)最大似然圖像上找估計(jì)值的95%置信區(qū)間。對(duì)λ的搜索默認(rèn)范圍是[-2,2],步長(zhǎng)是0.1。結(jié)果會(huì)輸出一張表示似然結(jié)果的圖,當(dāng)然可以自定義搜索的范圍或者步長(zhǎng)。>set.seed(1234)>X<-2*runif(100)>y<-(4+3*X+rnorm(100))^2>if(!require(MASS))install.packages("MASS")>b<-boxcox(y~X)>lamdba<-b$x[b$y==max(b$y)]>lamdba[1]0.5050505PAGE9多項(xiàng)式回歸9如果數(shù)據(jù)實(shí)際上比簡(jiǎn)單的直線(xiàn)更復(fù)雜呢?令人驚訝的是,依然可以使用線(xiàn)性模型來(lái)擬合非線(xiàn)性數(shù)據(jù)。我們可以利用n階多項(xiàng)式來(lái)建模,這種方法稱(chēng)為多項(xiàng)式回歸。>#生成非線(xiàn)性數(shù)據(jù)>set.seed(1)>m=100>X=6*runif(m)-3>y=0.5*X^2+X+rnorm(m)>#生成二階多項(xiàng)式回歸模型>lmfit<-lm(y~X+I(X^2))>lmfitCall:lm(formula=y~X+I(X^2))Coefficients:(Intercept)XI(X^2)-0.0092771.0524890.494568>X_new<-data.frame(X=seq(-3,3,length.out=100))>y_new<-predict(lmfit,X_new)>plot(X,y,col='blue',pch=16,main="添加擬合曲線(xiàn)的散點(diǎn)圖")>lines(X_new$X,y_new,col='red',lwd=2)>abline(lm(y~X),col="slategrey",lty=2,lwd=2)PAGE10穩(wěn)健線(xiàn)性回歸10數(shù)據(jù)中的離群點(diǎn)會(huì)對(duì)直線(xiàn)的正確性帶來(lái)一定影響,可以通過(guò)剔除離群點(diǎn)后再建立線(xiàn)性回歸模型。除了去掉離群點(diǎn),也可以利用穩(wěn)健線(xiàn)性回歸來(lái)處理包含離群點(diǎn)的數(shù)據(jù)集??梢越柚鶰ASS擴(kuò)展包的rlm()函數(shù)對(duì)包含離群點(diǎn)的數(shù)據(jù)集進(jìn)行穩(wěn)健線(xiàn)性回歸分析。我們先生成30個(gè)線(xiàn)性的樣本數(shù)據(jù),并增加一個(gè)離群點(diǎn),然后直接利用rlm()函數(shù)生成穩(wěn)健線(xiàn)性回歸模型,并在散點(diǎn)圖上增加穩(wěn)健線(xiàn)性回歸直線(xiàn)和簡(jiǎn)單線(xiàn)性回歸直線(xiàn),對(duì)比差異。>#穩(wěn)健線(xiàn)性回歸>#生成30個(gè)線(xiàn)性樣本點(diǎn)>set.seed(1234)>X<-2*runif(30)>y<-4+3*X>#增加一個(gè)孤立點(diǎn)(離群點(diǎn))>X_out<-c(X,2)>y_out<-c(y,5)>#生成穩(wěn)健線(xiàn)性回歸模型>library(MASS)>rlmfit<-rlm(y_out~X_out)>rlmfitCall:rlm(formula=y_out~X_out)Convergedin5iterations
Coefficients:(Intercept)X_out4.0000112.999982
Degreesoffreedom:31total;29residualScaleestimate:0.000111>#在散點(diǎn)圖增加擬合直線(xiàn)>plot(X_out,y_out,pch=16,col="blue")>abline(rlmfit,col='red',lwd=2)>abline(lm(y_out~X_out),col="slategray",lty=2,lwd=2)PAGE11多元線(xiàn)性回歸11對(duì)于一元線(xiàn)性回歸模型來(lái)說(shuō),其反映的是單個(gè)自變量對(duì)因變量的影響,然而實(shí)際情況中,影響因變量的自變量往往不止一個(gè),從而需要將一元線(xiàn)性回歸模型擴(kuò)展到多元線(xiàn)性回歸模型。多元線(xiàn)性回歸模型也可以利用lm()函數(shù)實(shí)現(xiàn)。我們對(duì)kaggle上的個(gè)人醫(yī)療費(fèi)用數(shù)據(jù)集insurance(/mirichoi0218/insurance/)進(jìn)行研究。>#導(dǎo)入數(shù)據(jù)集,查看數(shù)據(jù)結(jié)構(gòu)>insurance<-read.csv("../data/insurance.csv")>#計(jì)算各參數(shù)值>X<-as.matrix(cbind(Intercept=1,insurance[,c("age","bmi","children")]))>y<-as.matrix(insurance[,"charges"])>theta_best<-solve(t(X)%*%X)%*%t(X)%*%y>theta_best[,1]Intercept-6916.2433age239.9945bmi332.0834children542.8647>#利用lm()函數(shù)>fit<-lm(charges~age+bmi+children,data=insurance)>summary(fit)Call:lm(formula=charges~age+bmi+children,data=insurance)Residuals:Min1QMedian3QMax-13884-6994-5092712548627Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)-6916.241757.48-3.9358.74e-05***age239.9922.2910.767<2e-16***bmi332.0851.316.4721.35e-10***children542.86258.242.1020.0357*Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:11370on1334degreesoffreedomMultipleR-squared:0.1201, AdjustedR-squared:0.1181F-statistic:60.69on3and1334DF,p-value:<2.2e-16PAGE12自變量有定性變量的回歸12線(xiàn)性回歸模型要求自變量為連續(xù)變量,當(dāng)自變量中有定性變量(也稱(chēng)分類(lèi)變量、離散變量、屬性變量等)時(shí),需要將其進(jìn)行啞變量虛擬化處理,再利用轉(zhuǎn)換后的數(shù)據(jù)構(gòu)建線(xiàn)性回歸模型。在R語(yǔ)言中的lm()函數(shù)會(huì)自動(dòng)把具有字符串水平的變量識(shí)別為定性變量,然后將其進(jìn)行虛擬化處理。直接用lm()函數(shù)擬合線(xiàn)性回歸,R語(yǔ)言默認(rèn)把定性變量的第一個(gè)因子的參數(shù)定義為0。對(duì)于定性變量,參數(shù)估計(jì)值不是斜率,而是各種截距。PAGE13逐步回歸13一般來(lái)講,如果在一個(gè)回歸方程中忽略了對(duì)y有顯著影響的自變量,那么所建立的方程必與實(shí)際有較大的偏離,如前面數(shù)據(jù)集insurance數(shù)據(jù)集中忽略smoker對(duì)charges的影響,造成判定系數(shù)(R^2)偏低情況。但變量選的過(guò)多,可能因?yàn)檎`差平方和(SSE)的自由度減少而使σ^2的估計(jì)值增大,從而影響使用回歸方程作預(yù)測(cè)的精度。因此,在眾多變量中選擇合適的自變量以建立一個(gè)“最優(yōu)”的回歸方程十分重要。這里講的“最優(yōu)”是指從可供選擇的所有變量中選出對(duì)y有顯著影響的變量建立方程,且在方程中不含對(duì)y無(wú)顯著影響的變量。多元線(xiàn)性回歸能否按照一些方法篩選變量,建立“最優(yōu)”回歸方程。常用的方法有“一切子集回歸法”、“向前法”、“向后法”、“逐步法”。這幾種方法進(jìn)入或剔除變量的一個(gè)準(zhǔn)則為AIC(AkaikeInformationCriterion,赤池信息量)準(zhǔn)則,即最小信息準(zhǔn)則,其計(jì)算公式如下:AIC=2k-2ln?(L)其中,k是參數(shù)個(gè)數(shù),L是似然函數(shù),最小二乘法在正態(tài)假設(shè)下等價(jià)于選擇參數(shù)使似然函數(shù)L最大(或-ln(L)最?。?。一般來(lái)說(shuō),增加參數(shù)可使得AIC第二項(xiàng)減少,但會(huì)使懲罰項(xiàng)2k增加。顯然,這是在模型簡(jiǎn)單性和模型擬合性上做平衡。R語(yǔ)言提供了較為方便的“逐步回歸”計(jì)算函數(shù)step(),它是以AIC信息統(tǒng)計(jì)量為準(zhǔn)則,通過(guò)選擇最小的AIC信息統(tǒng)計(jì)量,來(lái)達(dá)到刪除或增加變量的目的。其基本表達(dá)形式為:step(object,scope,scale=0,direction=c("both","backward","forward"),trace=1,keep=NULL,steps=1000,k=2,...)PAGE14多重共線(xiàn)性分析14PAGE15線(xiàn)性回歸正則化15機(jī)器學(xué)習(xí)算法的核心任務(wù)是使得我們的算法能夠在新的、未知的數(shù)據(jù)上表現(xiàn)良好,而不只是在訓(xùn)練集上表現(xiàn)良好。這種在新數(shù)據(jù)上表現(xiàn)能力被稱(chēng)為算法的泛化能力(generalization)。簡(jiǎn)單來(lái)說(shuō),如果一個(gè)模型在測(cè)試集(testset)與訓(xùn)練集(trainingset)上表現(xiàn)一樣好,就說(shuō)明這個(gè)模型的泛化能力很好;如果模型在訓(xùn)練集上表現(xiàn)良好,但在測(cè)試集上表現(xiàn)一般,就說(shuō)明這個(gè)模型的泛化能力不好。從誤差的角度來(lái)說(shuō),泛化能力差就是指的是測(cè)試誤差(testerror)比訓(xùn)練誤差(trainingset)要大的情況,所以我們常常采用訓(xùn)練誤差、測(cè)試誤差來(lái)判斷模型的擬合能力,這也是測(cè)試誤差也常常被稱(chēng)為泛化誤差(generalizationerror)的原因。機(jī)器學(xué)習(xí)的目的就是去降低泛化誤差。在訓(xùn)練模型時(shí)有兩個(gè)目標(biāo):(1)降低訓(xùn)練誤差,尋找針對(duì)訓(xùn)練集最佳的擬合曲線(xiàn)。(2)縮小訓(xùn)練誤差和測(cè)試誤差的差距,增強(qiáng)模型的泛化能力。這兩大目標(biāo)就對(duì)應(yīng)機(jī)器學(xué)習(xí)中的兩大問(wèn)題:欠擬合(Underfitting)與過(guò)擬合(Overfitting)。兩者的定義如下:(1)欠擬合是指模型在訓(xùn)練集與測(cè)試集上表現(xiàn)都不好的情況,此時(shí),訓(xùn)練誤差、測(cè)試誤差都很大。欠擬合也被稱(chēng)為高偏差(Bais),也就是我們建立的模型擬合與預(yù)測(cè)效果較差。(2)過(guò)擬合是指模型在訓(xùn)練集上表現(xiàn)良好,但在測(cè)試集上表現(xiàn)不好的情況,此時(shí),訓(xùn)練誤差很小,測(cè)試誤差很大,模型泛化能力不足。過(guò)擬合也被稱(chēng)為高方差(Variance)。PAGE16線(xiàn)性回歸正則化16當(dāng)我們使用數(shù)據(jù)訓(xùn)練模型時(shí)的時(shí)候,很重要的一點(diǎn)就是要在欠擬合和過(guò)擬合之間達(dá)成一個(gè)平衡。欠擬合問(wèn)題可以不斷嘗試各種合適的算法,優(yōu)化算法中的參數(shù)調(diào)整,以及通過(guò)數(shù)據(jù)預(yù)處理等特征工程找到模型擬合效果最優(yōu)化的結(jié)果;而當(dāng)模型過(guò)擬合的情況發(fā)生時(shí),可以通過(guò)添加更多的數(shù)據(jù)、模型加入提前終止條件、通過(guò)控制解釋變量等手段降低模型的擬合能力,提高模型的泛化能力。控制解釋變量個(gè)數(shù)有很多方法,例如變量選擇(featureselection)(featureselection),即用filter或wrapper方法提取解釋變量的最佳子集。或是進(jìn)行變量構(gòu)造(featureconstruction)(featureconstruction),即將原始變量進(jìn)行某種映射或轉(zhuǎn)換,如主成分方法和因子分析。變量選擇的方法是比較“硬”的方法,變量要么進(jìn)入模型,要么不進(jìn)入模型,只有0-1兩種選擇。但也有“軟”的方法,也就是正則化,可以保留全部解釋變量,且每一個(gè)解釋變量或多或少都對(duì)模預(yù)測(cè)型預(yù)處有些許影響。例如嶺回歸(RidgeRegression)(RidgeRegression)和套索方法(LASSO:leastabsoluteshrinkageandselectionoperator)(LASSO:leastabsoluteshrinkageandselectionoperator)。 嶺回歸和Lasso回歸都是線(xiàn)性回歸算法正則化的兩種常用方法。兩者區(qū)別在于:引入正則化的形式不同。此外,嶺回歸和Lasso回
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 北京汽車(chē)托運(yùn)合同范本
- 2025年泰州貨運(yùn)從業(yè)資格證怎么考
- 修復(fù)車(chē)交易合同范本
- 醫(yī)院弱電集成合同范本
- 制衣廠(chǎng)勞動(dòng)合同范本
- 主廚合同范本
- 與中介定金合同范本
- 棉花勞務(wù)合同范本
- 冠名使用合同范本
- 勞動(dòng)合同范本完整
- 醫(yī)院醫(yī)療設(shè)備采購(gòu)流程圖
- 文化產(chǎn)業(yè)園項(xiàng)目建議書(shū)范文
- 互聯(lián)網(wǎng)銷(xiāo)售卷煙(煙草)案件的分析
- 公務(wù)員考察政審表樣本
- 白菜花生長(zhǎng)過(guò)程記錄
- BQB480-2014無(wú)取向電工鋼
- 各類(lèi)許可證允許使用的放射性藥品目錄
- 解析幾何期末考試試卷
- 給水管道通水試驗(yàn)及沖洗記錄填寫(xiě)范本
- 唐納森焊煙除塵器(共22頁(yè))
- 機(jī)電一體化畢業(yè)設(shè)計(jì)(論文)基于PLC的玻璃搬運(yùn)機(jī)械手系統(tǒng)設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論