通過Lasso進(jìn)行回歸壓縮和選擇_第1頁
通過Lasso進(jìn)行回歸壓縮和選擇_第2頁
通過Lasso進(jìn)行回歸壓縮和選擇_第3頁
通過Lasso進(jìn)行回歸壓縮和選擇_第4頁
通過Lasso進(jìn)行回歸壓縮和選擇_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、-作者xxxx-日期xxxx通過Lasso進(jìn)行回歸壓縮和選擇【精品文檔】回歸壓縮以及通過Lasso選擇變量由ROBERT TIBSHIRANIT著加拿大 多倫多大學(xué)1994年1月接收 1995年1月修訂 摘要我們提出了一個(gè)估計(jì)線性模型的新方法。Lasso最小化殘差平方和使得系數(shù)絕對(duì)值之和小于一個(gè)常數(shù)。由于這種約束的性質(zhì),它傾向于產(chǎn)生一些恰好為0的系數(shù),從而給出了解釋模型。我們的模擬研究表明,Lasso具有一些子集選擇和嶺回歸的良好特性。它產(chǎn)生像子集選擇一樣的可以解釋的模型并且展示了嶺回歸的穩(wěn)定性。Lasso與Donoho和Johnstone近期提出的關(guān)于自適函數(shù)估計(jì)的工作有著有趣的聯(lián)

2、系。Lasso想法是相當(dāng)廣泛的,并且可以運(yùn)用在各種統(tǒng)計(jì)模型中:本文簡要介紹了廣義的回歸模型和基于樹的模型的擴(kuò)展。 關(guān)鍵詞:二次規(guī)劃;回歸;壓縮;子集選擇 1.引言考慮一般的回歸情況:我們有數(shù)據(jù),和分別是第組觀測(cè)的自變量和因變量值。普通最小二乘估計(jì)(OLS)是通過殘差平方和最小化得到的。有兩個(gè)原因來解釋為什么數(shù)據(jù)分析常常不適合用OLS估計(jì)。第一個(gè)原因是預(yù)測(cè)精度:OLS估計(jì)通常偏壓較小,方差較大;預(yù)測(cè)精度有時(shí)可以通過壓縮或?qū)⒁恍┫禂?shù)設(shè)置為0而提高。通過這樣做,我們犧牲一點(diǎn)偏壓以減少所預(yù)測(cè)值的方差,并且可以提高整體的預(yù)測(cè)精度。第二個(gè)原因是模型的解釋。對(duì)于大批預(yù)測(cè)值,我們更愿意判斷

3、模型在一個(gè)更小的子集當(dāng)中顯示出來的最好的結(jié)果。兩個(gè)可以改善OLS估計(jì)的基本方法,子集選擇法和嶺回歸都有缺陷。子集選擇法提供了可解釋的模型,但是由于它是一個(gè)從模型中保留或刪除的離散過程變量,它可能極其易變。數(shù)據(jù)的微小變動(dòng)會(huì)影響由子集選擇法得出不同模型,這可以降低其預(yù)測(cè)精度。嶺回歸是一個(gè)系數(shù)收縮的連續(xù)的過程,并且因此更加穩(wěn)定:然而,它的任何系數(shù)都不為0,因此不能給出容易解釋的模型。 我們提出一個(gè)新方法,叫作Lasso,意思是最小絕對(duì)收縮和選擇算法。它縮小了一些系數(shù),并將其他的系數(shù)設(shè)置為0,從而試圖保留子集選擇法和嶺回歸的優(yōu)良特性。 在第2節(jié)我們給出了Lasso的定義,并且尋找一些特例。在第3節(jié)中給

4、出一個(gè)真實(shí)的數(shù)據(jù)例子,在第4節(jié)我們研究了預(yù)測(cè)誤差與Lasso收縮參數(shù)估計(jì)的方法。在第5節(jié)簡單提及Lasso中的一個(gè)貝葉斯方法。我們?cè)诘?節(jié)描述了Lasso算法。第7節(jié)是模擬研究和介紹。第8節(jié)和第9節(jié)研究了廣義回歸模型的拓展和其他問題。第10節(jié)討論了Lasso軟閾值的一些結(jié)論以及關(guān)系,第11節(jié)包括討論與總結(jié)。2. LASSO方法2.1 定義 假設(shè)數(shù)據(jù),其中為自變量,是因變量,在通常的回歸建立中,我們假定要么觀測(cè)值是獨(dú)立的,或者對(duì)于給定的,所有的是條件獨(dú)立的。我們假定標(biāo)準(zhǔn)化,且。令,用Lasso方法的估計(jì)量定義為 對(duì)于 (1)這里是一個(gè)調(diào)和參數(shù)。此時(shí)對(duì)所有的,有的估計(jì)是。我們可以在不失一般性的情況

5、下假定,因此可忽略。方程(1)的解決方案的計(jì)算是具有線性不等式約束的二次規(guī)劃問題。我們將在第6節(jié)針對(duì)這個(gè)問題介紹一些高效穩(wěn)定的算法。參數(shù)控制的是應(yīng)用于估計(jì)的收縮量。令為完全最小二乘估計(jì)且令。會(huì)導(dǎo)致模型的收縮量趨向0,且一些系數(shù)可能剛好等于0。舉個(gè)例子,如果,效果會(huì)大致類似于尋找大小為的最優(yōu)子集。還需要注意的是設(shè)計(jì)矩陣不一定是滿秩。在第4節(jié)我們給出估計(jì)的一些基于數(shù)據(jù)的方法。Lasso的想法來源于Breiman(1993)的一個(gè)令人剛興趣的建議。Breiman的非負(fù)鉸除法目標(biāo)函數(shù)最小化形式為 使得, (2)非負(fù)鉸除法始于普通最小二乘估計(jì),而且壓縮其系數(shù)使其非負(fù)系數(shù)的和小于一個(gè)常數(shù)。在大量的模擬實(shí)驗(yàn)

6、中,相對(duì)子集選擇法,Breiman的非負(fù)鉸除法預(yù)測(cè)誤差相對(duì)較小,而且當(dāng)真實(shí)模型具有較多非零系數(shù)時(shí),在預(yù)測(cè)方面,非負(fù)鉸除法和嶺回歸法的預(yù)測(cè)效果不相上下。非負(fù)鉸除法的缺點(diǎn)是其運(yùn)算結(jié)果依賴于最小二乘估計(jì)的符號(hào)和數(shù)值大小。并且在存在過度擬合和變量存在高度相關(guān)情況時(shí),由于最小二乘估計(jì)效果不好而會(huì)影響預(yù)測(cè)準(zhǔn)確性。相比之下,Lasso則避免了非負(fù)絞除法的缺陷。Frank和Friedman提出給標(biāo)準(zhǔn)的系數(shù)一個(gè)約束條件,這里是一個(gè)大于等于0的數(shù);Lasso方法中。我們將在第十節(jié)對(duì)此進(jìn)行簡略的討論。2.2 正交設(shè)計(jì)案例從標(biāo)準(zhǔn)正交設(shè)計(jì)案例中可以對(duì)收縮的本質(zhì)有深入了解。設(shè)矩陣是的的矩陣。其中第行第列元素為,且假定,是

7、單位矩陣。方程(1)的解可以簡單表示為 (3)這里由條件來確定。有趣的是,這恰好與Donoho和Johnstone (1994)和Donoho等人(1995)在功能預(yù)測(cè)背景下應(yīng)用于微波系數(shù)的函數(shù)估計(jì)提出的軟收縮建議具有相同的形式。Donoho等人也在信號(hào)處理以及圖像復(fù)原中指出了軟收縮和最小范數(shù)懲罰矩陣之間的聯(lián)系。在第十節(jié)我們會(huì)詳盡的解釋他們之間的聯(lián)系。在正交設(shè)計(jì)案例中,大小為的最佳子集的選擇減少到最大系數(shù)的絕對(duì)值,將其余的設(shè)置為0。對(duì)于的一些選擇相當(dāng)于如果,則,否則直接令。嶺回歸最小形式如下:或者等價(jià)地,使得如下方程最?。?使得 (4)嶺回歸的解是:這里取決于或。非負(fù)鉸除法的估計(jì)是圖1顯示了這

8、些函數(shù)的曲線。嶺回歸通過一個(gè)常數(shù)因子衡量系數(shù),然而LASSO通過常數(shù)因子轉(zhuǎn)換,并在0處截?cái)?。非?fù)鉸除法的函數(shù)和Lasso很相似,都是系數(shù)愈大收縮愈小。在設(shè)計(jì)不是正交時(shí),我們的模擬實(shí)驗(yàn)結(jié)果將顯示出非負(fù)鉸除法和Lasso之間巨大的差別。 2.3 Lasso的幾何意義 很明顯從圖1中可以得出Lasso產(chǎn)生的系數(shù)經(jīng)常是0,為什么這種狀況發(fā)生在一般(非正交)的情況下?為什么嶺回歸中用了約束式而不是,這種現(xiàn)象在嶺回歸中沒有出現(xiàn)?圖2提供了的深刻解釋。 標(biāo)準(zhǔn)與二次函數(shù)(加上一個(gè)常數(shù))相同。圖2(a)實(shí)線表示該函數(shù)的橢圓輪廓,以O(shè)LS為中心,約束區(qū)域是個(gè)旋轉(zhuǎn)的正方形。Lasso的結(jié)論是首先是其輪廓與正方形相交

9、,而且有時(shí)會(huì)發(fā)生在角落,該角落對(duì)應(yīng)于系數(shù)為0的地方。圖2(b)顯示了嶺回歸的圖像:它沒有任何角落與輪廓相交,因此很少有零解。 圖中呈現(xiàn)出一個(gè)十分有趣的現(xiàn)象:Lasso估計(jì)結(jié)果會(huì)與最小二乘估計(jì)的有何不同?由于變量是標(biāo)準(zhǔn)化的,因此當(dāng)時(shí),軸線與坐標(biāo)軸呈。近而可以得出,圖像的輪廓必需與包含的正方形在同一個(gè)象限中,且相交或相切。但是,當(dāng)時(shí)數(shù)據(jù)存在相關(guān)性,這并非特定的,圖3展示了三維示意圖,圖3(b)證實(shí)它的曲線輪廓與約束區(qū)域在與其中心所在卦限不同的另一卦限相交或相切。圖1. (a)子集選擇法回歸,(b)嶺回歸,(c)Lasso和(d)非負(fù)鉸除法:在系數(shù)收縮的形式中正交設(shè)計(jì)的案例,傾斜角為45°

10、的線作為參考圖2. (a)Lasso和(b)嶺回歸的估計(jì)圖圖3. (a)不同于總體最小二乘估計(jì)Lasso估計(jì)結(jié)果落在不同的卦限的例子;(b)俯視圖而非負(fù)鉸除法中保留每個(gè)的符號(hào),Lasso可以改變符號(hào)。甚至在Lasso估計(jì)中與非負(fù)鉸除法有相同符號(hào)的矢量的情況下,有 OLS估計(jì)存在的非負(fù)鉸除法也會(huì)變得不同。帶有約束式的模型的也可以表示成具有約束式的模型的。舉個(gè)例子,如果且,則效果將會(huì)橫向拉伸圖2(a)的正方形。因此,非負(fù)鉸除法青睞于較大的值和較小的值。2.4 兩個(gè)預(yù)測(cè)值的更多情況假設(shè),且假定不失一般性,其中最小二乘估計(jì)為正數(shù),進(jìn)而,可以得出:其中選擇的要使得。這個(gè)公式適用于,即使預(yù)測(cè)值相關(guān)此公式也

11、是有效的。解得出: (6) 相反地,嶺回歸收縮的形式也取決于預(yù)測(cè)值的相關(guān)性。如圖4所示:圖4. 對(duì)于兩個(gè)預(yù)測(cè)值的例子,實(shí)線表示LASSO,虛線表示嶺回歸:曲線表明,數(shù)據(jù)對(duì)作為lasso和嶺參數(shù)的范圍是不同的;從底部的虛線開始并向上移動(dòng),相關(guān)系數(shù)取值0,0.23,0.45,0.68和0.90。 在沒有干擾的情況下,我們從模型中產(chǎn)生100個(gè)數(shù)據(jù)點(diǎn)。這里和是標(biāo)準(zhǔn)正常變量,兩者的相關(guān)系數(shù)為。圖4曲線所示嶺估計(jì)和lasso估計(jì)的邊界和是變化的,對(duì)于所有的,lasso估計(jì)服從全曲線。嶺估計(jì)(虛線)取決于,當(dāng)嶺回歸成比例收縮。然而,當(dāng)取較大值時(shí),嶺回歸預(yù)測(cè)縮小的比例不盡相同,而且當(dāng)約束條件縮小時(shí),還可能增大一點(diǎn)。就如Jerome Friedman指出的,這是由于嶺回歸試圖使系數(shù)等于他們最小平方范數(shù)的趨勢(shì)。2.5 標(biāo)準(zhǔn)誤差 由于lasso估計(jì)是因變量的一個(gè)非線性、非可微函數(shù),即使對(duì)于固定的值,所以很難得到標(biāo)準(zhǔn)誤差的一個(gè)準(zhǔn)確估計(jì)。但有兩種方法可取,其一是通過抽樣:將值固定,或者為每個(gè)抽樣樣本對(duì)進(jìn)行優(yōu)化。其中固定值則與選擇最優(yōu)子集類似,然后用這個(gè)子集的最小二乘標(biāo)準(zhǔn)誤差作為其標(biāo)準(zhǔn)誤差。 可以用懲罰寫成的形式來進(jìn)行估計(jì)。因此,在lasso估計(jì)時(shí),我們可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論