




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
一、實驗說明3:回歸分析二、實驗?zāi)康?、通過具體實例理解回歸分析;2、理解各種回歸技術(shù)中的模型選擇,為實例數(shù)據(jù)集選擇一個合適復(fù)雜度的模型。三、實驗內(nèi)容1.數(shù)據(jù)集:前列腺癌數(shù)據(jù)(prostate.da)t該數(shù)據(jù)集包括了97位準(zhǔn)備做前列腺根治手術(shù)病人的前列腺特殊抗原(Ipsa:logprostatespecificantigen)和8個臨床指標(biāo):lcavol:logcancelvolume(腫瘤體積)lweight:logprostateweight(前列腺重量)age:(年齡)lbph:logbenginprostatichypcrplasia(良性前列腺增生量)svi:seminalvesicleinvasion(精囊浸潤)lcp:logofcapsularpenetration(包膜穿透)gleason:gleasonscore(Gleason積分)pgg45:percentofGleasonscores4or5(Gleason4/5所占百分比)。該數(shù)據(jù)集是ESL一書中討論回歸分析中的數(shù)據(jù)集,意在考察前列腺特殊抗原與這些臨床指標(biāo)之間的相關(guān)性。數(shù)據(jù)集中的97個樣本被分成了67個訓(xùn)練樣本和30個測試樣本。數(shù)據(jù)來源于:/~tibs/ElemStatLearn/。2.實現(xiàn)下列回歸技術(shù)中的兩種:線性回歸:必選嶺回歸Lasso核回歸局部線性回歸對每種回歸技術(shù),選擇最合適(測試誤差最小)的模型。測試誤差可用下述技術(shù)估計:AIC/BIC交叉驗證Bootstrap。要求對每種技術(shù),給出不同復(fù)雜度模型的訓(xùn)練誤差、測試誤差的估計和真正的測試誤差,比較訓(xùn)練誤差和測試誤差隨模型復(fù)雜度不同的變化趨勢。面以嶺回歸為例,說明實驗內(nèi)容和步驟:1)嶺回歸的基本原理嶺回歸是在最小二乘的基礎(chǔ)上增加一個L2正則項,即RSSridge(RSSridge(九)=工y_Yx卩+九另卩2=(y-Xp)T(y-Xp)+Xpt卩。RSSjRSSj=1正則項嶺回歸的解為X.嶺回歸的解為X.0ridge=(XTX+九1>1XTy。在嶺回歸中,正則因子九控制模型的復(fù)雜度。當(dāng)九—0時,目標(biāo)函數(shù)RSSridge(九)中取決的作用的是RSS項,此時相當(dāng)于普通的最小二乘;當(dāng)九時,目標(biāo)函數(shù)RSSr^ge(九)中取決的作用的是正則項卩2,即要求模型越簡單,最簡單的模型為不包括任何輸入特征的模型。對給定問題,要選擇一個合適的模型,就是要確定合適的正則因子九。在度量模型復(fù)雜度時,我們更常用的一個度量df(九)表示模型中的有效參數(shù)的數(shù)目:其中d.為X的奇異值分解(SVD)中D的對角線元素,即X=UDVT,d=D。(2)嶺回歸實現(xiàn)嶺回歸求解時需要計算矩陣XtX+九I的逆,但實現(xiàn)時通常不采用直接求逆,而是采用QR分解或SVD分解。當(dāng)只需計算給定某個九的嶺回歸解時,用QR分解實現(xiàn)效率更高。而當(dāng)需要計算多個不同九的嶺回歸解時(如模型選擇時需比較不同九的對應(yīng)模型),采用SVD分解更合適,因為這時SVD分解只需進(jìn)行一次。不同九的解與SVD之間的關(guān)系為:X=UDVT,0ridge=V(D2+九I)_1DUty。(3)實驗結(jié)果及分析我們采用10折交叉驗證來估計不同復(fù)雜度模型的測試誤差。實驗中模型復(fù)雜度參數(shù)九在10-5和103之間log等分30份。不同九對應(yīng)的交叉驗證誤差、訓(xùn)練誤差和測試誤差如圖1所示,對應(yīng)的回歸系數(shù)的值如圖2所示。從圖1中可以看出,當(dāng)df(九)增大,即模型變復(fù)雜時,訓(xùn)練誤差會越來越小,而測試
誤差開始隨著模型變復(fù)雜而減小,但當(dāng)模型到一定復(fù)雜度時,測試誤差反而會增大。因此要得到測試誤差最小的模型,需要選擇一個合適的模型復(fù)雜度。采用一倍方差原則,10折交叉驗證選擇的最佳模型為:九*=41.7532,df6*)=4.0366。從圖2中可以看出,當(dāng)dfC)增大,即模型變復(fù)雜時,回歸系數(shù)越來越大(遠(yuǎn)離0),此時九減小,正則項的影響減弱。但當(dāng)模型到一定復(fù)雜度時,測試誤差反而會增大。因此要得到測試誤差最小的模型,最佳模型九*=41.7532,df6*)=4.0366對應(yīng)的回歸參數(shù)如表1所示。該模型的訓(xùn)練誤差為0.5407,在測試集上的真實測試誤差為0.5425,比最小二乘的測試誤差減小了一些。
Oi.4CJQ-Jglsa&onpgg45j.Q'.lQ:.60.^廳:戲qlheight目犯Ibph制Oi.4CJQ-Jglsa&onpgg45j.Q'.lQ:.60.^廳:戲qlheight目犯Ibph制|0.2-0.SXURid?總.Tf畤.stateData宅:2;■&45J8df(lamda)圖2:嶺回歸交叉驗證的回歸系數(shù)軌跡圖。表1.嶺回歸
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年鏈家房屋買賣定金支付及退還標(biāo)準(zhǔn)協(xié)議
- 二零二五年度住房租賃補(bǔ)貼擔(dān)保服務(wù)合同
- 二零二五年度蘇州市教育機(jī)構(gòu)用工企業(yè)勞動合同書
- 二零二五年度云計算資源合作共享合同
- 2025年度電子商務(wù)平臺招防范合同法律風(fēng)險合作協(xié)議
- 2025年度涂料班組涂料行業(yè)市場分析咨詢合同
- 二零二五年度特色日租房短租體驗協(xié)議書
- 二零二五年度貸款居間代理及金融科技創(chuàng)新應(yīng)用合同
- 2025年度高端合同事務(wù)律師服務(wù)合同
- 2025年度智慧交通項目提前終止合同及交通設(shè)施移交協(xié)議
- 2025語文新教材三下全冊8個單元教材解讀分析匯編
- java安全編碼規(guī)范
- 美麗的春天課件
- 2025年山東青島自貿(mào)發(fā)展有限公司招聘筆試參考題庫含答案解析
- 液化氣罐的使用和安全防范
- 2025年中考物理總復(fù)習(xí)《內(nèi)能》專項測試卷含有答案
- 會計法律法規(guī)答題答案
- 2024年無錫工藝職業(yè)技術(shù)學(xué)院高職單招語文歷年參考題庫含答案解析
- 獸醫(yī)檢驗測試題(附參考答案)
- 劇本殺范本完整版
- 北師大版一年級語文下冊第一單元元宵節(jié)《1元宵節(jié)》
評論
0/150
提交評論