基于廣義交互lasso模型的肝臟疾病分類研究_第1頁
基于廣義交互lasso模型的肝臟疾病分類研究_第2頁
基于廣義交互lasso模型的肝臟疾病分類研究_第3頁
全文預覽已結(jié)束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

基于廣義交互lasso模型的肝臟疾病分類研究

肝臟疾病分類研究目前,中國有1億肝腫瘤患者,包括病毒性肝炎、脂肪性和革蘭氏性疾病。肝臟疾病已成為影響較大、影響廣泛的慢性疾病和傳染病,嚴重威脅著中國人民的生活。因此針對肝病特征進行可解釋性建模分類,對于高效、準確地診斷肝病具有重要意義。在過去的肝臟疾病分類研究工作中,研究方向大致分為兩類:傳統(tǒng)的模式識別方法和統(tǒng)計學習方法。傳統(tǒng)模式識別方法可解釋性差;而統(tǒng)計學習方法可解釋性強,但是忽略了特征交互對病癥的影響。Bien等1模型求解和變量定義其中B為了簡便起見,構(gòu)造(p構(gòu)造n£[(p1+1)£(p2+1)]維矩陣W,定義如下:其中B是式(1)中的B矩陣,WB的結(jié)果是一個n維向量。通過對模型系數(shù)添加LASSO罰函數(shù),可以使模型系數(shù)值為零,實現(xiàn)對模型進行特征選擇。因此廣義交互LASSO模型系數(shù)解可以通過求解下式的凸優(yōu)化問題獲得。2改進的admm算法的求解模型3u3000數(shù)據(jù)集求取實驗采用的數(shù)據(jù),其一是肝臟失調(diào)數(shù)據(jù)集(BUPAliverdisorders,BLD)(來源:http://archive/ml/datasets/Liver+Disorders),采集了142個肝病患者和199個健康人的數(shù)據(jù),每人取6維特征。第二個數(shù)據(jù)集是印度肝病數(shù)據(jù)集(Indianlivepatientdataset,ILPD)(來源:http://archive.ics.uciedu/ml/datasets/ILPD+(Indian+Liver+Patient+Dataet)。我們采用其中414個肝病患者和165個健康人的數(shù)據(jù),每人取10維特征。數(shù)據(jù)實驗一是模型參數(shù)矩陣B的可視化。模型可調(diào)參數(shù)(;)采用網(wǎng)格法進行優(yōu)選。數(shù)據(jù)實驗時,令輸入特征X=Z,應用(;)值在5×50的網(wǎng)格上,其中2(0;1);2(0;10),在訓練集擬合模型,在測試集基于殘差平方和來選擇可調(diào)參數(shù)。廣義交互LASSO模型和交互LASSO模型用于BLD數(shù)據(jù)集求得的估計系數(shù)矩陣B,如圖1所示。廣義交互LASSO模型和交互LASSO模型用于ILPD數(shù)據(jù)集求得的估計系數(shù)矩陣B,如圖2所示。如圖1、圖2所示,第一行和第一列均表示主效應特征系數(shù),其余表示交互特征系數(shù)。圖中特征系數(shù)非0時,即表示此特征或交互特征被選擇,對模型有貢獻。交互特征系數(shù)絕對值越大說明特征交互程度越高。如圖1所示,6維實數(shù)特征分別為:0表示主特征;1表示平均紅細胞容積;2表示堿性磷酸酶;3表示丙氨酸轉(zhuǎn)氨酶;4表示天冬氨酸轉(zhuǎn)氨酶;5表示谷氨?;D(zhuǎn)肽酶;6表示受試者平均每日飲酒量。從圖1中可以看出,兩個模型全都選擇了全部主效應特征和大部分交互特征。比如交互LASSO模型的第三行第四列值為0.39,說明第二個特征堿性磷酸酶和第三個特征丙氨酸轉(zhuǎn)氨酶的交互特征系數(shù)為0.39,對分類貢獻較大。如圖2所示,10維實數(shù)特征分別為:A表示主特征;B表示年齡;C表示性別;D表示總膽紅素;E表示直接膽紅素;F表示堿性磷酸酶;G表示丙氨酸轉(zhuǎn)氨酶;H表示天冬氨酸轉(zhuǎn)氨酶;I表示血清總蛋白;J表示血清白蛋白;K表示白蛋白與球蛋白的比值。從圖2中可以看出,兩種方法均選擇全部主效應特征和小部分交互特征。比如交互LASSO模型的第五行第六列值為0.29,說明第四個特征直接膽紅素和第五個特征堿性磷酸酶的交互特征系數(shù)為0.29,對分類貢獻較大。特征交互項說明可參考文獻[2]。數(shù)據(jù)實驗二是LASSO、交互LASSO、廣義交互LASSO三種模型方法的性能對比。如圖3所示為將三種方法應用于前述兩種肝病數(shù)據(jù)集所得的受試者工作特征曲線(receiveroperatingcharacteristiccurve,ROC)。如表1所示,為三種LASSO模型方法在數(shù)據(jù)集上的ROC曲線下面積(areaunderROCcurve,AUC)和程序運行時間的比較。結(jié)果顯示,廣義交互LASSO方法AUC最高,交互LASSO方法次之,LASSO方法最低,這說明肝病數(shù)據(jù)存在特征交互。廣義交互LASSO方法和交互LASSO方法的ROC曲線相差不大,但是交互LASSO方法求解模型參數(shù)是用梯度下降法循環(huán)更新每一步,這將導致計算效率低,尤其是特征較大的數(shù)據(jù)。因而本文研究了簡單迭代的改進ADMM算法,大大降低了時間損耗。數(shù)據(jù)實驗三是三種LASSO模型方法和傳統(tǒng)模式識別方法的對比。如表2所示,給出了支持向量機、最近鄰、線性判別分析、決策樹、LASSO方法,交互LASSO方法以及廣義交互LASSO的特異性、敏感性的實驗結(jié)果。結(jié)果表明,本文方法在敏感性和特異性兩種性能評價指標中得分較高,證明了廣義交互LASSO方法具有良好的分類性能。數(shù)據(jù)實驗四是廣義交互LASSO方法與文獻中肝病分類實驗結(jié)果的正確率對比,如圖4所示。文獻[9]所用方法為歸納學習方法,文獻[10]采用樸素貝葉斯方法。文獻[11]使用了平滑支持向量機方法,文獻[12]采用了人工免疫識別方法。從圖4可以看出本文廣義交互LASSO模型方法正確率優(yōu)于其他文獻正確率。4廣義交互lasso模型方法的應用本文中,我們推廣了廣義交互LASSO模型到logistic回歸,并應用改進的ADMM優(yōu)化算法來求解模型參數(shù)。本文所提改進的ADMM算法比廣義梯度下降算法縮短了模型訓練時間。新模型和方法應用到肝病數(shù)據(jù)集的數(shù)據(jù)實驗結(jié)果再次證明了肝病特征間存在交互,以及特征交互對于分類有貢獻。從正確率看,廣義交互LASSO模型方法優(yōu)于傳統(tǒng)模式識別方法、LASSO模型方法和交互LASSO模型方法。此外,三種LASSO模型方法的解釋性都強于傳統(tǒng)模式識別方法。進一步可用于研究高階交互模型,例如擴展到三階交互,將系數(shù)矩陣B設為(p+1)£(p+1)£(p+1)維系數(shù)張量?;诳山忉屝詮姷膬?yōu)點,本文方法可以推廣到其它生物醫(yī)學數(shù)據(jù)分類問題。式(7)對應的增廣拉格朗日函數(shù)為:最小化式(9)時,可以固定Θ求B,然后固定B求Θ。首先固定Θ求B,即求下式:對式(10)應用二階泰勒展開公式并化簡,得:其中l(wèi)表示迭代次數(shù)?;喪?11)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論