




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨機(jī)森林模型在生存分析中的應(yīng)用【摘要】目的:本文探討隨機(jī)森林方法用于高維度、強(qiáng)相關(guān)、小樣本的生存資料分析時(shí),可以起到變量篩選的作用。方法:以乳腺癌數(shù)據(jù)集構(gòu)建乳腺癌轉(zhuǎn)移風(fēng)險(xiǎn)評(píng)估模型為實(shí)例進(jìn)行實(shí)證分析,使用隨機(jī)森林模型進(jìn)行變量選擇,然后擬合cox回歸模型。結(jié)果:隨機(jī)森林模型通過對(duì)變量的選擇,有效的解決數(shù)據(jù)維度高且強(qiáng)相關(guān)的情況,得到了較高的AUC值。一、數(shù)據(jù)說明該乳腺癌數(shù)據(jù)集來自于NCBI,有77個(gè)觀測(cè)值以及22286個(gè)基因變量。通過篩選選取454個(gè)基因變量。將數(shù)據(jù)隨機(jī)分為訓(xùn)練集合測(cè)試集,其中2/3為訓(xùn)練集,1/3為測(cè)試集。繪制K-M曲線圖:UEUUnJ*士AJM二、隨機(jī)森林模型隨機(jī)森林由許多的決策
2、樹組成,因?yàn)檫@些決策樹的形成采用了隨機(jī)的方法,因此也叫做隨機(jī)決策樹。隨機(jī)森林中的樹之間是沒有關(guān)聯(lián)的。當(dāng)測(cè)試數(shù)據(jù)進(jìn)入隨機(jī)森林時(shí),其實(shí)就是讓每一顆決策樹進(jìn)行分類,最后取所有決策樹中分類結(jié)果最多的那類為最終的結(jié)果。因此隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器,并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定。使用randomForestSRC包得到的隨機(jī)森林模型具有以下性質(zhì):Numberofdeaths:27Numberoftrees:800Minimumterminalnodesize:3Averageno.ofterminalnodes:14.4275No.ofvariablestriedateach
3、split:3Totalno.ofvariables:452Analysis:RSFFamily:survSplittingrule:logrankErrorrate:19.87%發(fā)現(xiàn)直接使用隨機(jī)森林得到的模型,預(yù)測(cè)誤差很大,達(dá)到了19.8%,進(jìn)一步考慮使用隨機(jī)森林模型進(jìn)行變量選擇,結(jié)果如下:>our.rf$rfsrc.refit.objSamplesize:52Numberofdeaths:19Numberoftrees:500Minimumterminalnodesize:2Averageno.ofterminalnodes:11.554No.ofvariablestriedatea
4、chsplit:3Totalno.ofvariables:9Analysis:RSFFamily:survSplittingrule:logrank*random*Numberofrandomsplitpoints:10Errorrate:11.4%>our.rf$topvars1 "213821_s_at""219778_at""204690_at""220788_s_at""202202_s_at”6"211603_s_at""213055_at"&quo
5、t;219336_s_at""37892_at"一共選取了9個(gè)變量,同時(shí)誤差只有11.4%接下來,使用這些變量做cox回歸,剔除模型中不顯著(>0.01)的變量,最終參與模型建立的變量共有4個(gè)。模型結(jié)果如下:exp(coef)exp(-coef)lower.95upper.95'218150_at'1.65410.60460.1108624.6800'200914_x_at'0.99151.00860.340942.8833'220788_s_at'0.26493.77500.059441.1805'2
6、01398_s_at'1.74570.57290.331099.2038'201719_s_at'2.47080.40470.938086.5081'202945_at'0.41182.42840.039904.2499'203261_at'3.15020.31740.3364129.4983'203757_s_at'0.78611.27200.616561.0024'205068sat'0.10739.31800.022230.5181最后選取六個(gè)變量擬合生存模型,繪制生存曲線如下:CoxModel026
7、810丁12Time下面繪制訓(xùn)練集:ROCffl線,分別在訓(xùn)練集和測(cè)試集上繪制ROC®線,結(jié)果如下:gHqoQotrETSCd8ZJ1000.20.406081.0Time-dependentROCcurveFalsePositiveRate測(cè)試集:Time-dependentROCcurve80o1.FalsePositiveRate由于測(cè)試集上的樣本過少,所以得到的AUC值波動(dòng)大,考慮使用bootstrap多次計(jì)算訓(xùn)練集上的AUC值并求平均來測(cè)試模型的效果:AUCat1year0.8039456AUCat3year:0.6956907AUCat5year:0.7024846由此可
8、以看到,隨機(jī)森林通過刪除貢獻(xiàn)較低的變量,完成變量選擇的工作,在測(cè)試集上具有較高的AUC值,但是比lasso-cox模型得到的AUC略低。附錄:10ad("/R/brea.rda")library(survival)set.seed(10)i<-sample(1:77,52)train<-dati,test<-dat-i,library(randomForestSRC)disease.rf<-rfsrc(Surv(time,status).,data=train,ntree=800,mtry=3,nodesize=3,splitrule="l
9、ogrank")disease.rfour.rf<-var.select(object=disease.rf,vdv,method="vh.vimp",nrep=50)our.rf$rfsrc.refit.objour.rf$topvarsindex<-numeric(var.rf$modelsize)for(iin1:var.rf$modelsize)indexi<-which(names(dat)=var.rf$topvarsi)data<-dat,c(1,2,index)i<-sample(1:77,52)train<-d
10、atai,test<-data-i,mod.brea<-coxph(Surv(time,status).,data=train)train_data<-train,c(1,2,which(summary(mod.brea)$coefficients,5<=0.1)+2)tset_data<-test,c(1,2,which(summary(mod.brea)$coefficients,5<=0.1)+2)mod.brea1<-coxph(Surv(time,status).,data=train_data)summary(mod.brea1)names
11、(coef(mod.brea1)plot(survfit(mod.brea1),xlab="Time",ylab="Proportion",main="CoxModel",=TRUE,col=c("black","red","red"),ylim=c(0.6,1)index0<-numeric(length(coef(mod.brea1)coefficients<-coef(mod.brea1)name<-gsub("",
12、"",names(coefficients)for(jin1:length(index0)index0j<-which(names(dat)=namej)library(survivalROC)riskscore<-as.matrix(dati,index0)%*%as.matrix(coefficients)y1<-survivalROC(Stime=train$time,status=train$status,marker=riskscore,predict.time=1,span=0.25*(nrow(train)A(-0.20)y3<-sur
13、vivalROC(Stime=train$time,status=train$status,marker=riskscore,predict.time=3,span=0.25*(nrow(train)A(-0.20)y5<-survivalROC(Stime=train$time,status=train$status,marker=riskscore,predict.time=5,span=0.25*(nrow(train)A(-0.20)a<-matrix(data=c("y1","y3","y5",y1$AUC,y3
14、$AUC,y5$AUC),nrow=3,ncol=2);aplot(y1$FP,y1$TPype="l",xlab="FalsePositiveRate",ylab="TruePositiveRate",main="Time-dependentROCcurve",col="green")lines(y3$FP,y3$TP,col="red",lty=2)lines(y5$FP,y5$TP,col="blue",lty=3)legend("bott
15、omright",bty="n",legend=c("AUCat1year:0.9271","AUCat3years:0.8621","AUCat5years:0.8263"),col=c("green","red","blue"),lty=c(1,2,3),cex=0.9)abline(0,1)riskscore<-as.matrix(dat-i,index0)%*%as.matrix(coefficients)y1<-surviv
16、alROC(Stime=test$time,status=test$status,marker=riskscore,predict.time=1,span=0.25*(nrow(train)A(-0.20)y3<-survivalROC(Stime=test$time,status=test$status,marker=riskscore,predict.time=3,span=0.25*(nrow(train)A(-0.20)y5<-survivalROC(Stime=test$time,status=test$status,marker=riskscore,predict.ti
17、me=5,span=0.25*(nrow(train)A(-0.20)a<-matrix(data=c("y1","y3","y5",y1$AUC,y3$AUC,y5$AUC),nrow=3,ncol=2);aplot(y1$FP,y1$T|Pype=T,xlab="FalsePositiveRate",ylab="TruePositiveRate”,main="Time-dependentROCcurve",col="green")lines(y3$FP,y
18、3$TP,col="red",lty=2)lines(y5$FP,y5$TP,col="blue",lty=3)legend("bottomright",bty="n",legend=c("AUCat1year:0.8761","AUCat3years:0.7611","AUCat5years:0.7611"),col=c("green","red","blue"),lty=c(1,2,3),ce
19、x=0.9)abline(0,1)a<-matrix(0,30,3)for(cin1:30)i<-sample(1:77,52)train<-datai,test<-data-i,mod.brea<-coxph(Surv(time,status).,data=train)train_data<-train,c(1,2,which(summary(mod.brea)$coefficients,5<=0.1)+2)tset_data<-test,c(1,2,which(summary(mod.brea)$coefficients,5<=0.1)+2)mod.brea1<-coxph(Surv(time,status).,data=train_data)names(coef(mod.br
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 幾何概率面試真題及答案
- 達(dá)州市鄉(xiāng)村振興移民安置房屋建設(shè)培訓(xùn)課件
- 特殊教育需求與資源配置調(diào)研課件
- 《河流的水文特征》課件
- 《基因技術(shù)》課件2
- 《數(shù)據(jù)分析與可視化課件設(shè)計(jì)》
- 山東計(jì)算機(jī)二級(jí)考試單選題100道及答案
- 《胰島素治療的合理應(yīng)用》課件
- 振動(dòng)的描述課件魯科版選修:波動(dòng)的奧秘課件人教版選修
- 《神經(jīng)內(nèi)科疾病教學(xué)》課件
- 互聯(lián)網(wǎng)+農(nóng)產(chǎn)品商業(yè)計(jì)劃書
- 智能對(duì)話模型研究-全面剖析
- 考研英語03-12年真題譯文
- 公司全員安全生產(chǎn)責(zé)任制度
- 2025年陜西省西安交大附中中考物理三模試卷(含解析)
- 放射住培結(jié)業(yè)考試試題題庫及答案
- 期中綜合模擬測(cè)試卷(含答案)-2024-2025學(xué)年統(tǒng)編版道德與法治七年級(jí)下冊(cè)
- 精二類藥品培訓(xùn)大綱
- 2025屆黑龍江省哈爾濱第三中學(xué)校高三下學(xué)期第二次模擬考試物理試題+答案
- GB/T 27060-2025合格評(píng)定良好實(shí)踐指南
- PLC在洗衣機(jī)控制中的應(yīng)用實(shí)訓(xùn)報(bào)告
評(píng)論
0/150
提交評(píng)論