




已閱讀5頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1,線性回歸中的模型選擇,多元回歸分析中,輸入特征可能有許多,這些特征對(duì)模型都是必須的? 否 因?yàn)椋?預(yù)測(cè)準(zhǔn)確性:當(dāng)回歸模型中變量增多時(shí),預(yù)測(cè)的偏差的低但方差高(過擬合) 可解釋性:當(dāng)回歸模型中的預(yù)測(cè)子數(shù)目很多時(shí),模型很難解釋 希望找到效果更明顯的少數(shù)預(yù)測(cè)子,2,模型選擇,模型選擇 模型評(píng)估:用一些指標(biāo)來衡量每個(gè)模型 解析計(jì)算:AIC/BIC/MDL 模擬計(jì)算:交叉驗(yàn)證/bootstap 模型搜索:在模型空間中搜索,找到在某個(gè)衡量指標(biāo)下最優(yōu)的模型 模型空間不大:窮舉搜索 否則:貪心搜索 前向/后向/雙向逐步 上述模型選擇是離散的,亦稱子集選擇。另一類方法為連續(xù)的收縮方法 嶺回歸 Lasso,3,回顧:線性回歸模型,假定 不依賴于x: 其中 模型類型:參數(shù)模型 損失:平方誤差損失 參數(shù)選擇:訓(xùn)練數(shù)據(jù)上的最小平方誤差(最小二乘,在高斯噪聲假設(shè)下,= 極大似然 ) 計(jì)算:矩陣求逆/QR分解 模型選擇:AIC/BIC,4,回顧:線性回歸模型,最小二乘參數(shù)估計(jì)的結(jié)果: 點(diǎn)估計(jì): 偏差: 方差: 的無偏估計(jì)為:,5,回顧:線性回歸模型,預(yù)測(cè)結(jié)果: 點(diǎn)估計(jì): 偏差: 方差 其中 是固有的,與參數(shù)的估計(jì) 無關(guān)。對(duì)不同的估計(jì) ,得到的預(yù)測(cè)的方差不同( 不同),6,子集選擇,只保留變量的一個(gè)子集,將其余變量從模型中刪除(將其系數(shù)置為0) 當(dāng)p較小時(shí),可窮盡搜索最佳子集 對(duì)每個(gè) ,其中p為變量的總數(shù)目,找出容量為k的子集,計(jì)算每個(gè)模型的得分(AIC/BIC) 具體算法參考 Furnival&Wilson 1974 容量較大的最佳子集不必包含容量較小的最佳子集,7,AIC:Akaike Information Criterion,AIC為模型M測(cè)試誤差的一個(gè)估計(jì): 其中 為在模型M對(duì)應(yīng)的訓(xùn)練集數(shù)據(jù)的對(duì)數(shù)似然函數(shù),p為模型M中特征的數(shù)目 我們選擇測(cè)試誤差 最小的模型,等價(jià)于選擇下述表達(dá)式最大的模型,Akaike, Hirotugu (December 1974). “A new look at the statistical model identification“. IEEE Transactions on Automatic Control 19 (6):,訓(xùn)練集上的擬合度,模型復(fù)雜度,8,AIC:Akaike Information Criterion,當(dāng)假設(shè)高斯噪聲時(shí), 這樣導(dǎo)出AIC另一種表示: 其中 為從一個(gè)低偏差估計(jì)的MSE估計(jì) 低偏差估計(jì):復(fù)雜模型,即包括所有特征的模型,9,BIC :Bayesian Information Criterion,類似AIC,可用于極大對(duì)數(shù)似然實(shí)現(xiàn)的擬合中 所以 最小化BIC,等價(jià)于最大化 最小描述長度(MDL)的結(jié)論同BIC,Schwarz, G. 1978. Estimating the dimension of a model. Annals of Statistics, 6, 461-464.,10,前向逐步回歸,從截距開始,每次增加一個(gè)特征 計(jì)算增加特征后每個(gè)模型的AIC,假設(shè)當(dāng)前模型有k個(gè)輸入特征,則其AIC為: 選擇AIC最小的模型 直到AIC不再變小,11,后向逐步回歸,從包含所有特征的模型開始,每次去掉一個(gè)特征 計(jì)算去掉特征后每個(gè)模型的AIC 選擇AIC最小的模型 直到AIC不再變小,12,例:前列腺癌 后向逐步回歸,所有變量都用:k = 8 去掉一個(gè)變量, k = 7,去掉變量后的AIC分別為 去掉最小AIC對(duì)應(yīng)的特征,即去掉gleason,13,例:前列腺癌 后向逐步回歸(續(xù)),最小AIC為72.0215,再繼續(xù)去掉一個(gè)變量:k = 6 此時(shí)最小的AIC( 72.1945 )也比72.0215大, 不過也沒比72.0215大多少 所以根據(jù)AIC準(zhǔn)則,用后向逐步回歸最后選擇的模型為k=7,14,例:前列腺癌 后向逐步回歸(續(xù)),如果不停止,而是繼續(xù)后向逐步回歸,直到刪除所有特征,則接下來刪除的特征及其對(duì)應(yīng)的AIC分別為 k=7, 刪除gleason, AIC= 72.0215 k=6, 刪除age, AIC= 72.1945 k=5, 刪除lcp, AIC= 73.2095 k=4, 刪除pgg45, AIC= 72.6790 k=3, 刪除lbph, AIC= 74.8309 k=2, 刪除svi, AIC= 77.1088 k=1, 刪除lweight, AIC= 89.7667 k=0, 刪除lcavol, AIC= 189.7727,15,例:前列腺癌 后向逐步回歸(續(xù)),:模型與訓(xùn)練集的擬合程度 模型越復(fù)雜,與訓(xùn)練數(shù)據(jù)擬合得越好,但可能過擬合 AIC:測(cè)試誤差的估計(jì),與訓(xùn)練集的擬合程度和模型復(fù)雜度都有關(guān),16,例:前列腺癌 前向逐步回歸,不用任何變量:k = 0 增加一個(gè)變量, k = 1,增加變量后的AIC分別為 增加最小AIC對(duì)應(yīng)的特征,即lcavol,17,例:前列腺癌 前向逐步回歸(續(xù)),最小AIC為89.2667,再繼續(xù)增加一個(gè)變量:k =2 增加最小AIC對(duì)應(yīng)的特征,即lweight 再繼續(xù)增加一個(gè)變量:k =3 增加最小AIC對(duì)應(yīng)的特征,即svi,18,例:前列腺癌 前向逐步回歸(續(xù)),最小AIC為74.8039,再繼續(xù)增加一個(gè)變量:k =4 增加最小AIC對(duì)應(yīng)的特征,即lbph 再繼續(xù)增加一個(gè)變量:k =5 此時(shí)AIC不再變小,最終選擇的模型為k=4,19,測(cè)試誤差的模擬計(jì)算,模型評(píng)估與選擇: 1、選擇模型調(diào)整參數(shù)的值 2、估計(jì)給定模型的預(yù)測(cè)性能 最好有一個(gè)獨(dú)立的測(cè)試集 對(duì)1,校驗(yàn)集 對(duì)2,測(cè)試集 但通常沒有足夠多的數(shù)據(jù)來構(gòu)造校驗(yàn)集/測(cè)試集,在這種情況下,我們通過重采樣技術(shù)來模擬校驗(yàn)集。 交叉驗(yàn)證和bootstrap是重采樣技術(shù)的兩個(gè)代表,20,K-折交叉驗(yàn)證,用于估計(jì)模型的調(diào)整參數(shù) (如子集的容量k) 思想與jackknife類似 將數(shù)據(jù)分成容量大致相等的K份(通常K=5/10),21,K-折交叉驗(yàn)證,對(duì)每個(gè) ,取調(diào)整參數(shù)為 ,每次留出第k份數(shù)據(jù),其余K-1份數(shù)據(jù)用于訓(xùn)練,得到參數(shù)的估計(jì) ,并計(jì)算第k份數(shù)據(jù)的預(yù)測(cè)誤差: 交叉驗(yàn)證的誤差為 對(duì)多個(gè)不同的 ,計(jì)算其對(duì)應(yīng)的誤差 ,最佳模型為 最小的模型。,22,K-折交叉驗(yàn)證,在子集選擇的例子中, 為子集的容量 為子集容量為 的最佳子集的系數(shù)(訓(xùn)練數(shù)據(jù)為除了第k份數(shù)據(jù)的其他K-1份數(shù)據(jù)) 為該最佳子集的測(cè)試誤差的一個(gè)估計(jì) K-折交叉驗(yàn)證的測(cè)試誤差的估計(jì)為,23,例:前列腺癌 交叉驗(yàn)證,10折交叉驗(yàn)證,K=10 訓(xùn)練集:67個(gè)數(shù)據(jù)點(diǎn) 校驗(yàn)集:每次從67個(gè)訓(xùn)練數(shù)據(jù)中留出7個(gè)數(shù)據(jù)點(diǎn)(10-折) 最佳模型:測(cè)試誤差在最小測(cè)試 誤差的一倍以內(nèi)的最簡單模型,最小測(cè)試誤差,最佳模型,最佳測(cè)試誤差+1倍方差,24,回顧:線性回歸模型,預(yù)測(cè)結(jié)果: 點(diǎn)估計(jì): 偏差: 方差: 在所有的無偏估計(jì)中,最小二乘估計(jì)的方差最小 但可能存在有偏估計(jì),其MSE比最小二乘估計(jì)的MSE小,25,嶺回歸 (Ridge Regression),現(xiàn)在考慮我們要最小化一個(gè)修正的函數(shù): 由原來RSS加上一項(xiàng)懲罰權(quán)向量大小的項(xiàng), 是一個(gè)復(fù)雜度參數(shù),控制收縮量/正則量 等價(jià)于: 其中s取代了 的功能 解為: 仍然是y的線性組合 如果輸入時(shí)正交的:,26,嶺回歸:為什么?,當(dāng)矩陣 奇異時(shí),最小二乘的結(jié)果變得很壞 當(dāng)自變量系統(tǒng)中存在多重相關(guān)性時(shí),它們的系數(shù)確定性變差,這種不確定性增加了方差(如一個(gè)大的權(quán)重可以被一個(gè)相關(guān)的特征上的負(fù)權(quán)重平衡) 當(dāng)矩陣A奇異時(shí),一些特征值 ,從而使得 很大,表示 與之間的偏差很大。同時(shí) 也很大,表示結(jié)果不穩(wěn)定 嶺回歸在矩陣 求逆之前,將一個(gè)正的常數(shù)加到A的對(duì)角線上,使得問題非奇異,,其中 為矩陣 的特征值,27,嶺回歸:為什么?,從貝葉斯的觀點(diǎn):正則項(xiàng)可視為參數(shù)的先驗(yàn) 如果假設(shè) ,并且每個(gè) 都符合先驗(yàn)分布 ,嶺回歸也可以被看作是從后驗(yàn)分布得到的。那么 的負(fù)log后驗(yàn)密度就是 ,其中,28,奇異值分解 (SVD),U的列生成X的列空間,V的列生成X的行空間 用SVD的形式分解:,y 相對(duì) U 基的坐標(biāo),y 相對(duì) U 基的收縮坐標(biāo) 越小的基,收縮得越多,越小的基,收縮得越多,模型的復(fù)雜度參數(shù)(有效自由度):,29,與主成分的關(guān)系,用SVD的形式: 特征向量 為 X 的主成分方向,特征值分解,主成分 X 列向量的線性組合,歸一化的主成分,較小的 值對(duì)應(yīng)有較小方差的X的列空間方向,收縮最多,嶺回歸假設(shè)在高方差的輸入方向上,響應(yīng)會(huì)變化大,因此避免小方差的X上的Y的大的變化,30,與主成分的關(guān)系,X的SVD分解: 所以 X進(jìn)行SVD分解后,對(duì)所有的都可利用,31,例:前列腺癌 嶺回歸,32,例:前列腺癌 嶺回歸,33,Lasso,類似嶺回歸,最小化 等價(jià)于 將嶺回歸中的懲罰項(xiàng) 用 代替 使得解為y的非線性組合,計(jì)算時(shí)用二次規(guī)劃算法 如果t選擇為足夠小,會(huì)使得一些系數(shù)等于0。,選擇最小期望測(cè)試誤差的t,34,例:前列腺癌 Lasso,最佳測(cè)試誤差,最佳模型,最佳測(cè)試誤差+1倍方差,35,例:前列腺癌 Lasso,Lasso會(huì)使某些系數(shù)=0 而嶺回歸不會(huì),36,例:前列腺癌 不同正則化方法,37,收縮估計(jì)族,考慮標(biāo)準(zhǔn) 不同q對(duì)應(yīng)的 的輪廓線為 在貝葉斯框架下, 可視為 的負(fù)的log先驗(yàn),38,收縮估計(jì)族,在貝葉斯框架下,Lasso、嶺回歸和最佳子集選擇表現(xiàn)為選擇的先驗(yàn)分布不同 估計(jì)的結(jié)果都為貝葉斯估計(jì):眾數(shù)(最大后驗(yàn)) 嶺回歸同時(shí)也是后驗(yàn)均值(高斯分布的眾數(shù)也是均值),39,下節(jié)課內(nèi)容,概率密度估計(jì) Wasserman Chp19,40,Regularization,Regularization: add model complexity penalty to training error. for some constant C Now Regularization forces weights to be small, but does it force weights to be exactly zero? is equivalent to removing feature f from the model,41,L1 vs L2 regularization,42,L1 vs L2 regularization,To minimize , we can solve by (e.g.) gradient descent. Minimization is a tug-of-war between the two terms,43,L1 vs L2 regularization,To minimize , we can solve by (e.g.) gradient descent. Minimization is a tug-of-war between the two terms,44,L1 vs L2 regularization,To minimize , we can solve by (e.g.) gradient descent. Minimization is a tug-of-war between the two terms,45,L1 vs L2 regularization,To minimize , we can solve by (e.g.) gradient descent. Minimization is a tug-of-war between the two terms w is forced into the cornersmany components 0 Solution is sparse,46,L1 vs L2 regularization,To minimize , we can solve by (e.g.) gradient descent. Minimization is a tug-of-war between the two terms,47,L1 vs L2 regularization,To minimize , we can solve by (e.g.) gradient descent. Minimization is a tug-of-war between the two terms L2 regularization does not promote sparsity Even without sparsity, regularization promotes generalizationlimits expressiveness of model,48,Lasso Regression Tibshirani 94,Simply linear regression with an L1 penalty for sparsity. Two big questions: 1. How do we perform this minimization? With L2 penalty its easysaw this in a previous lecture With L1 its not a least-squares problem any more 2. How do we choose C?,49,Least-Angle Regression,Up until a few years ago this was not trivial Fitting model: optimization problem, harder than least-squares Cross validation
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 人保財(cái)險(xiǎn)車險(xiǎn)合同范本
- 保理人合同范本
- 勞務(wù)派遣合同范本 司機(jī)
- 包工頭與臨時(shí)工人合同范本
- 勞務(wù)合同單包工合同范本
- 企業(yè)合同范本封面
- 勞務(wù)用工結(jié)算合同范本
- 單位采購書合同范本
- 醫(yī)院影像科合同范本
- 與商城簽約合同范本
- 第九屆鵬程杯五年級(jí)數(shù)學(xué)競(jìng)賽初試真題
- 實(shí)驗(yàn)一 外科常用手術(shù)器械課件
- 電梯結(jié)構(gòu)與原理-第2版-全套課件
- 《現(xiàn)代漢語》語音教學(xué)上課用課件
- 采購流程各部門關(guān)系圖
- 《遙感導(dǎo)論》全套課件
- 力士樂工程機(jī)械液壓培訓(xùn)資料(共7篇)課件
- 村光伏發(fā)電申請(qǐng)書
- 降低混凝土路面裂縫發(fā)生率QC小組資料
- 【教師必備】部編版四年級(jí)語文上冊(cè)第二單元【集體備課】
- 支氣管擴(kuò)張的護(hù)理PPT
評(píng)論
0/150
提交評(píng)論