實驗說明3回歸分析_第1頁
實驗說明3回歸分析_第2頁
實驗說明3回歸分析_第3頁
實驗說明3回歸分析_第4頁
實驗說明3回歸分析_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

一、實驗說明3:回歸分析二、實驗?zāi)康?、通過具體實例理解回歸分析;2、理解各種回歸技術(shù)中的模型選擇,為實例數(shù)據(jù)集選擇一個合適復(fù)雜度的模型。三、實驗內(nèi)容1.數(shù)據(jù)集:前列腺癌數(shù)據(jù)(prostate.da)t該數(shù)據(jù)集包括了97位準(zhǔn)備做前列腺根治手術(shù)病人的前列腺特殊抗原(Ipsa:logprostatespecificantigen)和8個臨床指標(biāo):lcavol:logcancelvolume(腫瘤體積)lweight:logprostateweight(前列腺重量)age:(年齡)lbph:logbenginprostatichypcrplasia(良性前列腺增生量)svi:seminalvesicleinvasion(精囊浸潤)lcp:logofcapsularpenetration(包膜穿透)gleason:gleasonscore(Gleason積分)pgg45:percentofGleasonscores4or5(Gleason4/5所占百分比)。該數(shù)據(jù)集是ESL一書中討論回歸分析中的數(shù)據(jù)集,意在考察前列腺特殊抗原與這些臨床指標(biāo)之間的相關(guān)性。數(shù)據(jù)集中的97個樣本被分成了67個訓(xùn)練樣本和30個測試樣本。數(shù)據(jù)來源于:/~tibs/ElemStatLearn/。2.實現(xiàn)下列回歸技術(shù)中的兩種:線性回歸:必選嶺回歸Lasso核回歸局部線性回歸對每種回歸技術(shù),選擇最合適(測試誤差最小)的模型。測試誤差可用下述技術(shù)估計:AIC/BIC交叉驗證Bootstrap。要求對每種技術(shù),給出不同復(fù)雜度模型的訓(xùn)練誤差、測試誤差的估計和真正的測試誤差,比較訓(xùn)練誤差和測試誤差隨模型復(fù)雜度不同的變化趨勢。面以嶺回歸為例,說明實驗內(nèi)容和步驟:1)嶺回歸的基本原理嶺回歸是在最小二乘的基礎(chǔ)上增加一個L2正則項,即RSSridge(RSSridge(九)=工y_Yx卩+九另卩2=(y-Xp)T(y-Xp)+Xpt卩。RSSjRSSj=1正則項嶺回歸的解為X.嶺回歸的解為X.0ridge=(XTX+九1>1XTy。在嶺回歸中,正則因子九控制模型的復(fù)雜度。當(dāng)九—0時,目標(biāo)函數(shù)RSSridge(九)中取決的作用的是RSS項,此時相當(dāng)于普通的最小二乘;當(dāng)九時,目標(biāo)函數(shù)RSSr^ge(九)中取決的作用的是正則項卩2,即要求模型越簡單,最簡單的模型為不包括任何輸入特征的模型。對給定問題,要選擇一個合適的模型,就是要確定合適的正則因子九。在度量模型復(fù)雜度時,我們更常用的一個度量df(九)表示模型中的有效參數(shù)的數(shù)目:其中d.為X的奇異值分解(SVD)中D的對角線元素,即X=UDVT,d=D。(2)嶺回歸實現(xiàn)嶺回歸求解時需要計算矩陣XtX+九I的逆,但實現(xiàn)時通常不采用直接求逆,而是采用QR分解或SVD分解。當(dāng)只需計算給定某個九的嶺回歸解時,用QR分解實現(xiàn)效率更高。而當(dāng)需要計算多個不同九的嶺回歸解時(如模型選擇時需比較不同九的對應(yīng)模型),采用SVD分解更合適,因為這時SVD分解只需進(jìn)行一次。不同九的解與SVD之間的關(guān)系為:X=UDVT,0ridge=V(D2+九I)_1DUty。(3)實驗結(jié)果及分析我們采用10折交叉驗證來估計不同復(fù)雜度模型的測試誤差。實驗中模型復(fù)雜度參數(shù)九在10-5和103之間log等分30份。不同九對應(yīng)的交叉驗證誤差、訓(xùn)練誤差和測試誤差如圖1所示,對應(yīng)的回歸系數(shù)的值如圖2所示。從圖1中可以看出,當(dāng)df(九)增大,即模型變復(fù)雜時,訓(xùn)練誤差會越來越小,而測試

誤差開始隨著模型變復(fù)雜而減小,但當(dāng)模型到一定復(fù)雜度時,測試誤差反而會增大。因此要得到測試誤差最小的模型,需要選擇一個合適的模型復(fù)雜度。采用一倍方差原則,10折交叉驗證選擇的最佳模型為:九*=41.7532,df6*)=4.0366。從圖2中可以看出,當(dāng)dfC)增大,即模型變復(fù)雜時,回歸系數(shù)越來越大(遠(yuǎn)離0),此時九減小,正則項的影響減弱。但當(dāng)模型到一定復(fù)雜度時,測試誤差反而會增大。因此要得到測試誤差最小的模型,最佳模型九*=41.7532,df6*)=4.0366對應(yīng)的回歸參數(shù)如表1所示。該模型的訓(xùn)練誤差為0.5407,在測試集上的真實測試誤差為0.5425,比最小二乘的測試誤差減小了一些。

Oi.4CJQ-Jglsa&onpgg45j.Q'.lQ:.60.^廳:戲qlheight目犯Ibph制Oi.4CJQ-Jglsa&onpgg45j.Q'.lQ:.60.^廳:戲qlheight目犯Ibph制|0.2-0.SXURid?總.Tf畤.stateData宅:2;■&45J8df(lamda)圖2:嶺回歸交叉驗證的回歸系數(shù)軌跡圖。表1.嶺回歸

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論