冠心病中醫(yī)證候診斷的數(shù)據(jù)挖掘方法研究_第1頁(yè)
冠心病中醫(yī)證候診斷的數(shù)據(jù)挖掘方法研究_第2頁(yè)
冠心病中醫(yī)證候診斷的數(shù)據(jù)挖掘方法研究_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

冠心病中醫(yī)證候診斷的數(shù)據(jù)挖掘方法研究

1冠心病中醫(yī)臨床數(shù)據(jù)分析技術(shù)的應(yīng)用在中國(guó),人們的生活水平和素質(zhì)都得到了提高,但冠狀動(dòng)脈硬化的發(fā)病率和死亡率逐年增加,嚴(yán)重威脅著人們的健康。西醫(yī)治療冠心病目前有三大途徑——藥物治療、經(jīng)皮冠狀動(dòng)脈介入治療(PCI)及冠狀動(dòng)脈旁路移植術(shù)(CABG)外科治療。但是每一種方法都存在自身不可克服的缺點(diǎn),比如價(jià)格昂貴等。其中中醫(yī)對(duì)冠心病的觀察和治療已經(jīng)有多年的歷史,積累了豐富的經(jīng)驗(yàn),其治療既有標(biāo)本兼治、整體調(diào)節(jié)作用,又有辨證論治、個(gè)體化治療和價(jià)格優(yōu)勢(shì),是目前治療冠心病心絞痛的重要而有效的方法之一。中醫(yī)理論的核心是證候,醫(yī)生主要通過(guò)證候作為關(guān)鍵的病理原理來(lái)理解人體的動(dòng)態(tài)平衡和指導(dǎo)臨床用藥。醫(yī)學(xué)領(lǐng)域的研究者現(xiàn)在越多越注重對(duì)臨床數(shù)據(jù)的收集和分析,一方面由于現(xiàn)代生物醫(yī)學(xué)的發(fā)展使得采集數(shù)據(jù)越來(lái)越方便以及電腦軟硬件越來(lái)越便宜和普及;另一方面,有些數(shù)據(jù)分析得到的結(jié)果為提高臨床療效提供重要指導(dǎo)作用。雖然在十幾年前就有對(duì)冠心病中的中醫(yī)的證候數(shù)據(jù)的分析和研究,但是直到今天仍然存在很多不規(guī)范,一是采集到的數(shù)據(jù)粗糙,沒(méi)有嚴(yán)格按照臨床數(shù)據(jù)采集的原則;二是所用多元統(tǒng)計(jì)方法的局限性,大部分用聚類(lèi)分析、因子分析或者主成分分析等,這些方法已被驗(yàn)證不能充分體現(xiàn)證候的特點(diǎn)——中醫(yī)臨床采集到的四診信息(一般由軀體癥狀、舌象信息和脈象信息三部分組成)之間以及它們和證候之間都存在高度的非線性關(guān)系。面對(duì)海量的醫(yī)學(xué)數(shù)據(jù)庫(kù),傳統(tǒng)的數(shù)據(jù)分析技術(shù)很難對(duì)付,所以數(shù)據(jù)挖掘技術(shù),又稱(chēng)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),正在成為數(shù)據(jù)處理的一個(gè)主要領(lǐng)域,而且越來(lái)越多的學(xué)者嘗試把它運(yùn)用到分析大量的中醫(yī)臨床數(shù)據(jù)上,在不遠(yuǎn)的將來(lái)它無(wú)疑將成為中醫(yī)臨床數(shù)據(jù)處理技術(shù)的主流。在這篇文章中,基于冠心病中醫(yī)臨床收集的1000多例數(shù)據(jù)是由中醫(yī)科學(xué)院按照973課題“冠心病心絞痛病證結(jié)合的診斷標(biāo)準(zhǔn)和療效評(píng)價(jià)體系研究”的科研設(shè)計(jì)方案,嚴(yán)格按照臨床流行病學(xué)調(diào)查原則收集到的,并用四類(lèi)經(jīng)典的監(jiān)督學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)和一種最常用的統(tǒng)計(jì)方法來(lái)對(duì)此數(shù)據(jù)進(jìn)行學(xué)習(xí)并分類(lèi),比較彼此之間的性能,以期望能選擇一個(gè)最好的監(jiān)督學(xué)習(xí)方法用于臨床研究。神經(jīng)網(wǎng)絡(luò)(NN)、支持向量機(jī)(SVM)、決策樹(shù)(decisiontree)、貝葉斯(Bayes)是數(shù)據(jù)挖掘中最能刻畫(huà)數(shù)據(jù)中存在的非線性的方法,所以它們非常適合中醫(yī)臨床數(shù)據(jù)的特點(diǎn)。本文從各類(lèi)方法中選擇一個(gè)性能最優(yōu)的算法作為此類(lèi)方法的代表,同時(shí)也選擇一個(gè)最常用的統(tǒng)計(jì)方法——Logistic回歸,這五種方法分別對(duì)冠心病中醫(yī)臨床數(shù)據(jù)進(jìn)行有監(jiān)督分類(lèi),用10倍交叉驗(yàn)證方法分別算出每個(gè)算法分類(lèi)的敏感性、特異性和準(zhǔn)確性,同時(shí)也記錄下在奔騰4、2.0GHz、1GB內(nèi)存機(jī)器上運(yùn)行的時(shí)間,以這4個(gè)指標(biāo)為標(biāo)準(zhǔn)來(lái)綜合衡量各類(lèi)方法的優(yōu)劣。2圖像信息描述本文中用到的數(shù)據(jù)在兩個(gè)中心(北京和河南)、5家大醫(yī)院(北京3家,河南2家)共收集到1069例,每一例病人都嚴(yán)格按照西醫(yī)診斷標(biāo)準(zhǔn)診斷為冠心病心絞痛(每一例都附上冠狀動(dòng)脈造影影像或者心電圖圖像)。每一例都調(diào)查了84個(gè)四診信息,包括70個(gè)全身癥狀、6個(gè)舌象信息和8個(gè)脈象信息。每個(gè)全身癥狀根據(jù)病人的情況分成無(wú)、輕、中、重,分別用0、1、2、3表示。舌象和脈象分為有無(wú),用1和0表示。每一例都由臨床主治醫(yī)生給出中醫(yī)證候的辨證結(jié)果,這些醫(yī)生都是有經(jīng)驗(yàn)的,長(zhǎng)期從事冠心病心絞痛臨床研究的,所以辨證結(jié)果是可靠的,在本文的監(jiān)督學(xué)習(xí)中,以冠心病心絞痛中最常見(jiàn)的兩個(gè)證候——?dú)馓撗龊吞叼龌プ铻槔齺?lái)探討上述五類(lèi)算法分類(lèi)的性能,試圖在冠心病心絞痛臨床辨證中找出一個(gè)性能最優(yōu)的算法,為證候的現(xiàn)代化和規(guī)范化提供適宜的數(shù)據(jù)挖掘算法。3算法的基本思想對(duì)監(jiān)督學(xué)習(xí)算法的性能評(píng)價(jià)目前主要以正確率、敏感性和特異性這三個(gè)指標(biāo)為衡量標(biāo)準(zhǔn)。它們是這樣定義的:敏感性=TPTP+FN特異性=TNTN+FP正確率=TP+TNTP+TN+FP+FN敏感性=ΤΡΤΡ+FΝ特異性=ΤΝΤΝ+FΡ正確率=ΤΡ+ΤΝΤΡ+ΤΝ+FΡ+FΝ其中,TP(truepositive)表示真陽(yáng)性的病例數(shù),即醫(yī)生診斷的結(jié)果和機(jī)器診斷結(jié)果都是痰瘀互阻(或者氣虛血瘀)的病例數(shù)。FN(falsenegative)是假陰性,即機(jī)器診斷結(jié)果是痰瘀互阻(或者氣虛血瘀),但是醫(yī)生的診斷卻不是的病例數(shù)。TN(truenegative)是真陰性,即機(jī)器診斷結(jié)果不是痰瘀互阻(或者氣虛血瘀)而且醫(yī)生診斷也不是的病例數(shù)。FP(falsepositive)是假陽(yáng)性,即機(jī)器診斷結(jié)果不是痰瘀互阻(或者氣虛血瘀),但是醫(yī)生診斷結(jié)果卻是痰瘀互阻(或者氣虛血瘀)的病例數(shù)。通常,每個(gè)算法都是對(duì)1069例數(shù)據(jù)隨機(jī)分成訓(xùn)練樣本和測(cè)試樣本,然后算出這三個(gè)指標(biāo),但是這樣的隨機(jī)分法往往會(huì)造成偏差,使得對(duì)算法的性能不能進(jìn)行充分評(píng)價(jià)。而10份交叉驗(yàn)證可以避免此問(wèn)題。把數(shù)據(jù)隨機(jī)分成10份,并標(biāo)上記號(hào),以第一份為測(cè)試樣本,以后面九個(gè)倍為訓(xùn)練樣本,算出一組正確率、敏感性和特異性。接著以第二倍為測(cè)試樣本,以另外九個(gè)為訓(xùn)練樣本,同樣也算一下算法的正確率、敏感性和特異性,依此類(lèi)推,直到全部算出10組的數(shù)值,然后求平均,得到算法的正確率、敏感性和特異性。從經(jīng)驗(yàn)角度,把數(shù)據(jù)分成10倍效果似乎是最好的。4結(jié)果和算法的參數(shù)設(shè)置4.1神經(jīng)網(wǎng)絡(luò)方法以痰瘀互阻為例,它在1069例中有295例,占28%左右,是冠心病中一類(lèi)非常常見(jiàn)的證候。四類(lèi)數(shù)據(jù)挖掘方法和一類(lèi)統(tǒng)計(jì)方法被放在一起比較,其中貝葉斯方法有Na?veBayes和Bayesiannetwork這兩類(lèi)符合本文數(shù)據(jù)特點(diǎn),表1的結(jié)果可以看出,后者的性能明顯要好,在運(yùn)行時(shí)間在一個(gè)數(shù)量級(jí)內(nèi),有著相同的敏感性前提下,Bayesiannetwork的特異性明顯要好,所以導(dǎo)致正確率高,因此就選擇Bayesian網(wǎng)絡(luò)作為貝葉斯方法的代表與其他類(lèi)算法進(jìn)行互相比較。神經(jīng)網(wǎng)絡(luò)方法選擇多層感知器(MLP)和徑向基網(wǎng)絡(luò)(RBFN)這兩個(gè)經(jīng)典的非線性算法,雖然MLP的敏感性和特異性稍高于RBFN,但是運(yùn)行時(shí)間比后者要大出幾個(gè)數(shù)量級(jí),所以選擇RBFN作為神經(jīng)網(wǎng)絡(luò)算法的代表。支持向量機(jī)選擇SMO和Libsvm,兩者的運(yùn)行時(shí)間都很快并且相差不多,雖然SMO的特異性和準(zhǔn)確率都比Libsvm高,但是Libsvm的敏感性達(dá)到91%以上,并且和特異性都在91%以上,這比前者有優(yōu)勢(shì),因此選擇Libsvm作為SVM方法的代表。決策樹(shù)方法選擇三種符合本文數(shù)據(jù)特點(diǎn)的算法,綜合四個(gè)指標(biāo),ADTree算法比J48和Randomforest有優(yōu)勢(shì),因此選擇前者為決策樹(shù)算法的代表。這樣Bayesiannetwork、RBFN、Libsvm、ADTree和Logistic回歸這五種算法被放在一起進(jìn)行相互比較,顯然,運(yùn)行時(shí)間都在一個(gè)數(shù)量級(jí)內(nèi),Bayesiannetwork最快(0.44s)而ADTree最慢(2.78s)。Libsvm有最高的敏感性,達(dá)到91.19%,而ADTree則有最好的特異性95.99%。正確率最高的是Logistic回歸,達(dá)到92.7%,比Libsvm和ADTree稍高一點(diǎn)。考慮到敏感性和特異性是一組此消彼長(zhǎng)的關(guān)系,如果只考慮正確率會(huì)使得對(duì)算法的評(píng)價(jià)不夠充分,所以在這里選擇敏感性和特異性的乘積,即敏感性軸和特異性軸圍成的面積,來(lái)評(píng)價(jià)對(duì)算法進(jìn)行排序,得到Libsvm的最高(0.8503),Logistic回歸次之(0.8323),接下來(lái)是ADTree(0.8037)和Bayesiannetwork(0.8015),最差的是神經(jīng)網(wǎng)絡(luò)(0.7929)。4.2估計(jì)條件概率估計(jì)器mlp對(duì)于每個(gè)算法,進(jìn)行參數(shù)設(shè)置,并進(jìn)行參數(shù)調(diào)節(jié),從中選擇有一個(gè)最好的。具體設(shè)置如下:Na?veBayes不用設(shè)置任何參數(shù);Bayesiannetwork選擇簡(jiǎn)單的估計(jì)條件概率的估計(jì)器,α系數(shù)設(shè)置成0.5為最優(yōu),并選擇爬坡法訓(xùn)練機(jī)器;MLP的隱層數(shù)目=(屬性數(shù)目+類(lèi)別樹(shù))/2=43,學(xué)習(xí)率為0.3。RBFN的K均值的類(lèi)種子選擇1,最小標(biāo)準(zhǔn)差選擇0.1;SMO的γ選擇0.01,Libsvm的γ=0.1,c=10,w(+1)=1,w(-1)=0.4,即第一類(lèi)分錯(cuò)的懲罰是第二類(lèi)的2.5倍;ADTree的Boosting循環(huán)數(shù)目選擇10;J48的置信因子選擇0.25,每一個(gè)樹(shù)葉的最低例數(shù)是2;RandomForest選擇10棵樹(shù),種子選擇1。5最佳向量機(jī)的選擇本文運(yùn)用四類(lèi)數(shù)據(jù)挖掘和一類(lèi)統(tǒng)計(jì)方法對(duì)1069例、84個(gè)屬性(四診信息)和一個(gè)標(biāo)簽(痰瘀互阻)的數(shù)據(jù)進(jìn)行10倍交叉驗(yàn)證的學(xué)習(xí)和預(yù)測(cè),從每一類(lèi)方法中根據(jù)敏感性,特異性和正確率以及運(yùn)行時(shí)間這四個(gè)指標(biāo)選擇一個(gè)性能最好的進(jìn)行相互比較,以找到一個(gè)適合冠心病臨床辨

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論