實驗說明3回歸分析

上傳人：l*** IP屬地：天津上傳時間：2023-09-10 格式：DOCX 頁數(shù)：6 大?。?5.18KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩1頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

一、實驗說明3:回歸分析二、實驗?zāi)康?、通過具體實例理解回歸分析；2、理解各種回歸技術(shù)中的模型選擇，為實例數(shù)據(jù)集選擇一個合適復(fù)雜度的模型。三、實驗內(nèi)容1.數(shù)據(jù)集：前列腺癌數(shù)據(jù)（prostate.da）t該數(shù)據(jù)集包括了97位準(zhǔn)備做前列腺根治手術(shù)病人的前列腺特殊抗原（Ipsa:logprostatespecificantigen）和8個臨床指標(biāo)：lcavol：logcancelvolume（腫瘤體積）lweight：logprostateweight（前列腺重量）age：（年齡）lbph：logbenginprostatichypcrplasia（良性前列腺增生量）svi：seminalvesicleinvasion（精囊浸潤）lcp：logofcapsularpenetration（包膜穿透）gleason：gleasonscore（Gleason積分）pgg45:percentofGleasonscores4or5（Gleason4/5所占百分比）。該數(shù)據(jù)集是ESL一書中討論回歸分析中的數(shù)據(jù)集，意在考察前列腺特殊抗原與這些臨床指標(biāo)之間的相關(guān)性。數(shù)據(jù)集中的97個樣本被分成了67個訓(xùn)練樣本和30個測試樣本。數(shù)據(jù)來源于：/~tibs/ElemStatLearn/。2.實現(xiàn)下列回歸技術(shù)中的兩種：線性回歸：必選嶺回歸Lasso核回歸局部線性回歸對每種回歸技術(shù)，選擇最合適（測試誤差最小）的模型。測試誤差可用下述技術(shù)估計：AIC/BIC交叉驗證Bootstrap。要求對每種技術(shù)，給出不同復(fù)雜度模型的訓(xùn)練誤差、測試誤差的估計和真正的測試誤差，比較訓(xùn)練誤差和測試誤差隨模型復(fù)雜度不同的變化趨勢。面以嶺回歸為例，說明實驗內(nèi)容和步驟：1）嶺回歸的基本原理嶺回歸是在最小二乘的基礎(chǔ)上增加一個L2正則項，即RSSridge(RSSridge(九)=工y_Yx卩+九另卩2=(y-Xp)T(y-Xp)+Xpt卩。RSSjRSSj=1正則項嶺回歸的解為X.嶺回歸的解為X.0ridge=(XTX+九1>1XTy。在嶺回歸中，正則因子九控制模型的復(fù)雜度。當(dāng)九—0時，目標(biāo)函數(shù)RSSridge（九）中取決的作用的是RSS項，此時相當(dāng)于普通的最小二乘；當(dāng)九時，目標(biāo)函數(shù)RSSr^ge（九）中取決的作用的是正則項卩2，即要求模型越簡單，最簡單的模型為不包括任何輸入特征的模型。對給定問題，要選擇一個合適的模型，就是要確定合適的正則因子九。在度量模型復(fù)雜度時，我們更常用的一個度量df（九）表示模型中的有效參數(shù)的數(shù)目：其中d.為X的奇異值分解（SVD）中D的對角線元素，即X=UDVT,d=D。（2）嶺回歸實現(xiàn)嶺回歸求解時需要計算矩陣XtX+九I的逆，但實現(xiàn)時通常不采用直接求逆，而是采用QR分解或SVD分解。當(dāng)只需計算給定某個九的嶺回歸解時，用QR分解實現(xiàn)效率更高。而當(dāng)需要計算多個不同九的嶺回歸解時（如模型選擇時需比較不同九的對應(yīng)模型），采用SVD分解更合適，因為這時SVD分解只需進(jìn)行一次。不同九的解與SVD之間的關(guān)系為：X=UDVT，0ridge=V（D2+九I）_1DUty。（3）實驗結(jié)果及分析我們采用10折交叉驗證來估計不同復(fù)雜度模型的測試誤差。實驗中模型復(fù)雜度參數(shù)九在10-5和103之間log等分30份。不同九對應(yīng)的交叉驗證誤差、訓(xùn)練誤差和測試誤差如圖1所示，對應(yīng)的回歸系數(shù)的值如圖2所示。從圖1中可以看出，當(dāng)df（九）增大，即模型變復(fù)雜時，訓(xùn)練誤差會越來越小，而測試

誤差開始隨著模型變復(fù)雜而減小，但當(dāng)模型到一定復(fù)雜度時，測試誤差反而會增大。因此要得到測試誤差最小的模型，需要選擇一個合適的模型復(fù)雜度。采用一倍方差原則，10折交叉驗證選擇的最佳模型為：九*=41.7532,df6*）=4.0366。從圖2中可以看出，當(dāng)dfC）增大，即模型變復(fù)雜時，回歸系數(shù)越來越大（遠(yuǎn)離0）,此時九減小，正則項的影響減弱。但當(dāng)模型到一定復(fù)雜度時，測試誤差反而會增大。因此要得到測試誤差最小的模型，最佳模型九*=41.7532,df6*）=4.0366對應(yīng)的回歸參數(shù)如表1所示。該模型的訓(xùn)練誤差為0.5407，在測試集上的真實測試誤差為0.5425，比最小二乘的測試誤差減小了一些。

Oi.4CJQ-Jglsa&onpgg45j.Q'.lQ:.60.^廳:戲qlheight目犯Ibph制Oi.4CJQ-Jglsa&onpgg45j.Q'.lQ:.60.^廳:戲qlheight目犯Ibph制|0.2-0.SXURid?總.Tf畤.stateData宅:2；■&45J8df(lamda)圖2：嶺回歸交叉驗證的回歸系數(shù)軌跡圖。表1.嶺回歸

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

實驗說明3回歸分析

文檔簡介

溫馨提示

最新文檔

評論

實驗說明3回歸分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔