




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 本科生學(xué)年論文題目:從理論到應(yīng)用淺談lasso模型指導(dǎo)教師: 學(xué)院: 姓名: 學(xué)號: 班級: 從理論到應(yīng)用淺談lasso模型【摘要】回歸模型是我們在處理數(shù)據(jù)中常用的方法。其中,Lasso模型是一種適用于多重共線性問題,能夠在參數(shù)估計(jì)的同時(shí)實(shí)現(xiàn)變量的選擇的回歸方法。本文從lasso模型的概念談起,對其起源、思想、與嶺回歸的比較、通過lar的算法實(shí)現(xiàn)等方面進(jìn)行了探究。另外還使用R語言對簡單案例進(jìn)行l(wèi)asso模型的應(yīng)用。最后簡述了lasso模型的研究現(xiàn)狀。【abstract】Regression model is our commonly used method in processing dat
2、a. Lasso model is a kind of regression method for multiple linear problems, which can be used to achieve parameter estimation and variable selection at the same time. This paper starts from the concept of the lasso model, including its origin, ideas, and the comparison of ridge regression, through l
3、ar algorithm implementation, etc. In addition, using R language to solve a simple case through lasso. At last, the research status of lasso model is introduced.【關(guān)鍵詞】Lasso嶺回歸最小角回歸R語言【key words】Lassoridge regressionlarR language目錄一、 定義及基本信息4二、 起源與原理4三、 模型的思想4四、 Lasso與嶺回歸51、 嶺回歸的概念52、 Lasso與嶺回歸的比較5五、 L
4、asso的算法步驟61、 lasso算法實(shí)現(xiàn)的背景62、 最小角回歸73、 用lar實(shí)現(xiàn)lasso7六、 案例分析81、 問題描述82、 簡單線性回歸求解93、 利用lasso求解11七、 應(yīng)用與研究現(xiàn)狀12八、 參考資料131、 定義及基本信息Lasso模型是由Robert Tibshirani在1996年JRSSB上的一篇文章Regression shrinkage and selection via the lasso所提出的一種能夠?qū)崿F(xiàn)指標(biāo)集合精簡的估計(jì)方法。在參數(shù)估計(jì)的同時(shí)實(shí)現(xiàn)變量的選擇(可以解決回歸分析中的多重共線性問題)。全稱:Least Absolute Shrinkage a
5、nd Selection Operator讀音:læsu: 而不是læsoRobert Tibshirani 簡介:生于1956年7月10日,擔(dān)任斯坦福大學(xué)the Departments of Statistics and Health Research and Policy的教授。1985-1998年擔(dān)任多倫多大學(xué)的教授。 他主要研究方向是致力于開發(fā)處理復(fù)雜數(shù)據(jù)的分析統(tǒng)計(jì)工具。Lasso模式是他最著名的貢獻(xiàn)。同時(shí)在著名的 "Generalized Additive Models", "An Introduction to the Bootst
6、rap", and "The Elements of Statistical Learning"三本書中都有他的編著。12、 起源與原理在常規(guī)的回歸分析中,假設(shè)我們有一組(xi,yi),i=1,2,.,N,其中xi=(xi1,.,xip)T,yi是第i維觀測值的回歸量的數(shù)據(jù)。普通最小二乘(OLS)通過最小化殘差平方和來進(jìn)行估計(jì)。它對數(shù)據(jù)的分析不那么令人滿意通常有兩個(gè)原因。一是預(yù)測精度:OLS往往偏差較低但方差大;預(yù)測精度有時(shí)可以用縮小或設(shè)置一些系數(shù)為0的方法來提高。通過這樣做,我們犧牲一點(diǎn)偏差減少預(yù)測的方差值,因此可以提高整體預(yù)測準(zhǔn)確性。第二個(gè)原因是可解釋性的問題
7、。在大量的預(yù)測值中,我們通常想確定一個(gè)展現(xiàn)出最強(qiáng)影響的更小的子集。 兩個(gè)公認(rèn)優(yōu)秀的改善OLS估計(jì)的方法是子集選擇(subset selection)和嶺回歸(ridge regression)它們都有缺點(diǎn)。子集選擇提供了可解釋的模型但是可變性非常強(qiáng),因?yàn)樗且粋€(gè)離散的過程回歸量要么保留要么從模型中去掉。小的數(shù)據(jù)變化就會使得模型的選擇改變,這會降低預(yù)測準(zhǔn)確度。嶺回歸是連續(xù)縮小參數(shù)的過程,因此更穩(wěn)定:然而它不會使得任何參數(shù)為0,沒辦法得出簡單的可解釋的模型。lasso模型就此提出,The least absolute shrinkage and selection operator,同時(shí)縮小(sh
8、rinkage)和設(shè)置成參數(shù)為0(selection),保持了子集選擇和嶺回歸的良好特征。23、 模型的思想lasso是在回歸系數(shù)的絕對值之和小于一個(gè)常數(shù)的約束條件下,使殘差平方和最小化,從而能夠產(chǎn)生某些嚴(yán)格等于0的回歸系數(shù),得到解釋力較強(qiáng)的模型。給出一組測量數(shù)據(jù)x1, x2 .xp以及測量結(jié)果y,lasso符合線性模型yhat=b0 + b1×x1+ b2×x2 + . bp×xp 它所使用的標(biāo)準(zhǔn)是: 當(dāng)| bj |<= s時(shí),使得(y-yhat)2最小最初的和是根據(jù)觀察數(shù)據(jù)集得來的。邊界”s”是一個(gè)調(diào)諧參數(shù)。當(dāng)s很大時(shí),約束起不到作用,解決方案只是常見的
9、多元線性最小二乘回歸的關(guān)于y,x1,x2,xp的函數(shù)。然而當(dāng)s變小時(shí),解決方案就是縮小的版本最小二乘(least squares)估計(jì)。通常一些系數(shù)bj為零。選擇s就像選擇一個(gè)回歸模型的預(yù)報(bào)器的數(shù)值,交叉驗(yàn)證(cross-validation)是估計(jì)s最佳值的一個(gè)好辦法。34、 Lasso與嶺回歸1、 嶺回歸的概念嶺回歸(ridge regression)是一種專用于共線性數(shù)據(jù)分析的有偏估計(jì)回歸方法,實(shí)質(zhì)上是一種改良的最小二乘估計(jì)法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價(jià)獲得回歸系數(shù)更為符合實(shí)際、更可靠的回歸方法,對病態(tài)數(shù)據(jù)的擬合要強(qiáng)于最小二乘法。 它的數(shù)學(xué)表達(dá)式
10、如下:即在回歸系數(shù)的平方和小于一個(gè)常數(shù)的約束條件下,使殘差平方和最小化。2、 Lasso與嶺回歸的比較下面是lasso寫成相同形式的表達(dá)式。可以看出Lasso與嶺回歸的區(qū)別就是約束條件不一樣,一個(gè)是回歸系數(shù)絕對值之和小于一個(gè)常數(shù),一個(gè)是平方和小于一個(gè)常數(shù)。Lasso的約束條件是線性的,而ridge是L2-norm。通過這幅圖可以很明顯的看出嶺回歸和lasso之間的差異。圖中是兩個(gè)變量回歸的情況,等高線圖表示的是殘差平方和的等高線。殘差在最小二乘估計(jì)處最小。陰影部分分別是嶺回歸和lasso的限制區(qū)域。顯然圓形為嶺回歸,菱形為lasso的。這兩種帶有懲罰項(xiàng)的方法都是要找到第一個(gè)落到限制區(qū)域上的等高
11、線的那個(gè)位置的坐標(biāo)(即嶺估計(jì)和lasso估計(jì))。因?yàn)榱庑螏Ъ饨?,所以更有可能使得某個(gè)變量的系數(shù)為0(即所找到的第一個(gè)點(diǎn)是菱形四個(gè)頂點(diǎn)之一)。當(dāng)回歸變量增多時(shí),lasso的尖角也會變得更多,從而增大更多系數(shù)變0的可能性。而光滑的高維球面的顯然不可能有這樣的概率。這也就是說lasso可以用于變量選擇。這是lasso相較于ridge有優(yōu)勢的一點(diǎn)。5、 Lasso的算法步驟Lasso的算法實(shí)現(xiàn)與lar(least angle regression)有密不可分的關(guān)系。1、 lasso算法實(shí)現(xiàn)的背景Tibshirani在The Science of Bradley Efron這本書的序言里寫道,”He s
12、at down and pretty much single-handedly solved the problem. Along the way, he developed a new algorithm,least angle regression,which is interesting in its own right, and sheds great statistical insight on the Lasso.”大意是說:Efron獨(dú)自擺平了具有Shrinkage的Gradient Boosting應(yīng)用到線性回歸中時(shí)與Lasso得到的Solution Path相似這個(gè)問題,與此
13、同時(shí)發(fā)明了“Least angle regression (LAR)”。Efron結(jié)論是Lasso和Boosting的確有很緊密的數(shù)學(xué)聯(lián)系,它們都可以通過修改LAR得到。現(xiàn)在,Lasso已經(jīng)家喻戶曉了,但是Lasso出生后的頭兩年卻很少有人問津。后來Tibshirani自己回憶時(shí)說,可能是由下面幾個(gè)原因造成的:1. 速度問題:當(dāng)時(shí)計(jì)算機(jī)求解Lasso的速度太慢;2. 理解問題:大家對Lasso模型的性質(zhì)理解不夠(直到Efron的LAR出來后大家才搞明白);3. 需求問題:當(dāng)時(shí)還沒有遇到太多高維數(shù)據(jù)分析的問題,對Sparsity的需求似乎不足。42、 最小角回歸Efron5提出最小角回歸(LAR
14、S)方法,這種方法既可以進(jìn)行變量選擇,可以用來解決Lasso問題,并且可以提高計(jì)算效率。LARS算法的基本思想是:首先選擇一個(gè)與因變量相關(guān)性最大的協(xié)變量,然后沿這個(gè)方向走一定長度,知道出現(xiàn)第二個(gè)協(xié)變量,這兩個(gè)協(xié)變量與殘差的相關(guān)性相同,就沿著與這兩個(gè)變量等角度的方向繼續(xù)走,以此類推,選擇出需要的協(xié)變量。LARS算法既不像向前法那樣貪婪,選擇一個(gè)變量后,走盡量長的長度來計(jì)算殘差,也不像分段法(Stagewise),每步只走很短的距離。LARS方法具有很高的計(jì)算效率。6 3、 用lar實(shí)現(xiàn)lassoX的每一行代表一個(gè)樣本,即:首先對數(shù)據(jù)進(jìn)行預(yù)處理,使其去均值標(biāo)準(zhǔn)化。 定義為當(dāng)前擬合向量的系
15、數(shù),則有則跟殘差的相關(guān)系數(shù):剛開始時(shí),相關(guān)系數(shù)都為0,然后找出跟殘差(此時(shí)即為y)相關(guān)系數(shù)最大的變量,假設(shè)是,將其加入到活動集,這時(shí)我們在的方向上找到一個(gè)最長的步長,使得出現(xiàn)下一個(gè)變量(假設(shè)是)跟殘差的相關(guān)系數(shù)跟到殘差的相關(guān)系數(shù)相等,此時(shí)也把活動集里,LARS繼續(xù)在跟前面2個(gè)變量等角度的方向上,找到第3個(gè)變量使得該變量跟前面2個(gè)跟殘差的相關(guān)系數(shù)相等,隨后LARS繼續(xù)找尋下一個(gè)變量。7具體算法步驟如下: 當(dāng)前最小角度方向,即角平分線方向 當(dāng)前擬合的y值 殘差跟變量的相關(guān)系數(shù) 當(dāng)前的最長步長 (找p個(gè)最優(yōu)回歸量)1)2)3) 4) 5)6) 7)if else 6、 案例分析現(xiàn)在在R語言中包含了運(yùn)
16、用lasso的包。1、 問題描述我們考慮一個(gè)簡單問題:假設(shè)某種水泥在凝固時(shí)放出的熱量Y(卡/克)與水泥中的四種活血成分X1,X2,X3,X4有關(guān),現(xiàn)測得13組數(shù)據(jù),如下表所示,希望從中選出主要的變量,建立Y與它們的線性回歸方程。8序號123456X1711111711X2262956315255X36158869X4605220473322Y78.574.3104.387.695.9109.2序號78910111213271315447406668X317221842398X46442226341212Y102.772.593.1115.983.8113.3109.4
17、2、 簡單線性回歸求解用R對數(shù)據(jù)做簡單多元線性回歸:(輸入代碼以文字顯示,控制臺的響應(yīng)以圖片顯示)>cement <- data.frame(X1 = c(7, 1, 11, 11, 7, 11, 3, 1, 2, 21, 1, 11, 10), X2 = c(26, 29, 56, 31, 52, 55, 71, 31, 54, 47, 40, 66, 68), X3 = c(6, 15, 8, 8, 6, 9, 17, 22, 18, 4, 23, 9, 8), X4 = c(60, 52, 20, 47, 33, 22, 6, 44, 22, 26,
18、60;34, 12, 12), Y = c(78.5, 74.3, 104.3, 87.6, 95.9, 109.2, 102.7, 72.5, 93.1, 115.9, 83.8, 113.3, 109.4)>cement>lm.sol<-lm(Y.,data=cement)>summary(lm.sol)可以看到雖然R2接近于1,擬合優(yōu)度較理想,但是自變量的p值均大于0.05,回歸系數(shù)沒有通過顯著性檢驗(yàn)。利用簡單線性回歸得到回歸方程中的X與Y的關(guān)系不明顯。F檢驗(yàn)的值也非常大,說明自變量的顯著性較低,需要進(jìn)行變量選擇。利用car包中的vif()函數(shù)查看各自變
19、量間的共線情況>library(car)>vif(lm.sol)從結(jié)果看,各自變量的VIF值都超過10,存在多重共線性,其中,X2與X4的VIF值均超過200。>plot(X2 X4, col = "red", data = cement)圖中可以明顯看出X2與X4存在線性關(guān)系。3、 利用lasso求解此時(shí)我們嘗試用lars-lasso來求解這個(gè)方程。>library(lars)>x = as.matrix(cement, 1:4)>y = as.matrix(cement, 5)>(laa = lars(x, y, type =
20、"lar")可以看到lasso的變量選擇依次是X4,X1,X2,X3。>plot(laa)可以看出各變量的系數(shù)的變化過程。>summary(laa)其中Cp(衡量多重共線性,其值越小越好)可以看到在第3步以后cp值明顯變小。說明lasso模型在實(shí)際應(yīng)用中能夠解決多重共線性的問題,有良好的應(yīng)用。7、 應(yīng)用與研究現(xiàn)狀我們在知網(wǎng)中對lasso進(jìn)行中文數(shù)據(jù)庫的搜索,結(jié)果見下圖:可以看到該模型在計(jì)算機(jī)、醫(yī)學(xué)、經(jīng)濟(jì)等各個(gè)領(lǐng)域均有應(yīng)用。見微知著的可以下結(jié)論其運(yùn)用十分廣泛。在應(yīng)用和拓展方面的研究也十分豐富。下表中列出了部分內(nèi)容。這些研究在數(shù)學(xué)層面考察了lasso產(chǎn)生最小預(yù)測誤差
21、模型的能力,并重新獲得了真正的底層(稀疏)模型。重要的貢獻(xiàn)者包括Bickel, Buhlmann, Candes, Donoho, Johnstone, Meinshausen,van de Geer, Wainwright and Yu.也證明了lasso可以揭示更多的傳統(tǒng)技術(shù),給向前逐步選擇方法帶來了新的理解。另一個(gè)例子是graphical lasso擬合的稀疏高斯圖,將其應(yīng)用于逆協(xié)方差矩陣,提供了一個(gè)強(qiáng)有利的圖選擇方法(確定哪些邊緣)。9隨著計(jì)算機(jī)處理速度的不斷提高和當(dāng)今社會對于大數(shù)據(jù)處理的要求的不斷進(jìn)步,對lasso的研究必當(dāng)更加深入,在各個(gè)領(lǐng)域的拓展也是值得期待的。8、 參考資料1 Wikipedia. Robert TibshiraniDB/OL. 2 Tibshirani,R.Regression Shrinkage an
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 吉利學(xué)院《中學(xué)歷史課堂教學(xué)藝術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 宜春幼兒師范高等??茖W(xué)校《土力學(xué)與地基基礎(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024-2025學(xué)年廈門市第六中學(xué)高考考前適應(yīng)性測試英語試題含解析
- 長沙衛(wèi)生職業(yè)學(xué)院《網(wǎng)絡(luò)操作系統(tǒng)》2023-2024學(xué)年第二學(xué)期期末試卷
- 公共交通運(yùn)營成本控制制度
- 工程設(shè)備采購管理措施
- 四川省瀘州市2024-2025學(xué)年高一上學(xué)期1月期末統(tǒng)一考試數(shù)學(xué)試題(解析版)
- 拱橋總體施工方案
- 高空伐樹作業(yè)施工方案
- 征地界樁施工方案
- GB/T 22095-2008鑄鐵平板
- GB/T 1839-2008鋼產(chǎn)品鍍鋅層質(zhì)量試驗(yàn)方法
- 邊坡穩(wěn)定性計(jì)算書
- 教教技術(shù)cccp四種教練能力與技巧課件
- 人工濕地設(shè)計(jì)方案
- 建筑安全員A證考試題庫附答案
- 綠色化學(xué)原理課件
- 《數(shù)獨(dú)》(第一課)教學(xué)課件
- 【教學(xué)課件】鴿巢問題整理和復(fù)習(xí)示范教學(xué)課件
- 2023深圳工務(wù)署品牌名單
- 干部作風(fēng)建設(shè) 講義課件
評論
0/150
提交評論