版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、江南大學(xué)學(xué)報(bào)(自然科學(xué)版 第3卷第3期Vol. 3No. 32004年6月J un. 2004Journal of Southern Yangtze U niversity(N atural Science Edition文章編號(hào):1671-7147(2004 03-0227-03一種基于決策樹(shù)的乳腺癌計(jì)算機(jī)輔助診斷新方法毛利鋒, 瞿海斌(浙江大學(xué)藥物信息學(xué)研究所, 摘要:選取500, , 將樣本隨機(jī)分為訓(xùn)練集和測(cè)試集, , 經(jīng)測(cè)試集測(cè)試. 結(jié)果%, 98. 28%和96. 74%.因此, 決策樹(shù).關(guān)鍵詞:; 乳腺癌; 細(xì)針吸取細(xì)胞學(xué); 數(shù)據(jù)挖掘; 診斷中圖分類號(hào):TP 391. 77; R
2、737. 9文獻(xiàn)標(biāo)識(shí)碼:AA N e w Computer 2Aided Method for Diagnosis ofBreast C ancer B ased on Decision T reeMAO Li 2feng , QU Hai 2bin(Pharmaceutical Informatics Institute , Zhe jiang University , Hangzhou 310027,China Abstract :In this research the efficacy and prospect of applying decision tree method in a
3、ssisting fine needle aspiration cytology (FNAC for breast cancer diagnosis is evaluated. Data from 500breast can 2cer patient records comprised of 9FNAC variables in each sample are randomly divided into training set and testing set. The decision tree method is used to construct a classification mod
4、el for the training data. The results show that the model achieves up to 97. 33%of classification accuracy , 98. 28%of sensitivity of and 96. 74%of specificity. Therefore , the decision tree method is a simple and useful tool for computer 2aided diagnosis.K ey w ords :decision tree ; breast cancer ;
5、 fine needle aspiration cytology ; data mining ; diagnosis乳腺癌是女性常見(jiàn)的腫瘤疾病, 由于乳腺癌的發(fā)病機(jī)理尚未完全清楚, 因此早期診斷對(duì)于防治乳腺癌十分重要. 細(xì)針吸取細(xì)胞學(xué)檢查(fine needle as 2piration cytology , 簡(jiǎn)稱FNAC 作為是診斷早期乳腺癌的有效手段1, 具有簡(jiǎn)便、安全、創(chuàng)傷極小的特點(diǎn), 臨床推廣應(yīng)用具有重要意義. 目前FNAC 診斷乳腺癌的準(zhǔn)確率約在70%90%之間, 為進(jìn)一步提收稿日期:2003-11-18; 修訂日期:2003-12-20.高FNAC 診斷乳腺癌的準(zhǔn)確率, 文中對(duì)乳腺
6、癌計(jì)算機(jī)輔助FNAC 診斷進(jìn)行研究.數(shù)據(jù)挖掘是為解決“數(shù)據(jù)豐富, 知識(shí)貧乏”狀況而興起的邊緣學(xué)科之一2, 主要研究從海量數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的技術(shù). 決策樹(shù)方法是數(shù)據(jù)挖掘最常用的技術(shù)之一, 具有快速學(xué)習(xí)、可產(chǎn)生簡(jiǎn)單易懂的分類規(guī)則、分類準(zhǔn)確率高等優(yōu)點(diǎn), 在許多領(lǐng)域(包括醫(yī)學(xué)基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(30000218 資助課題, 國(guó)家中醫(yī)藥管理局科研基金重點(diǎn)項(xiàng)目(20002J 2Z 203 資助課題. 作者簡(jiǎn)介:毛利鋒(1976- , 男, 浙江寧波人, 生物化工專業(yè)碩士研究生.瞿海斌(1969- , 男, 浙江溫嶺人, 工學(xué)博士, 副教授, 碩士生導(dǎo)師. 主要從事數(shù)據(jù)挖掘、中醫(yī)定量診斷及智能儀器
7、的研究.江南大學(xué)學(xué)報(bào)(自然科學(xué)版 第3卷228領(lǐng)域 已得到廣泛應(yīng)用3,4. 文中采用決策樹(shù)方法對(duì)500例乳腺癌病例進(jìn)行判別分析.實(shí)驗(yàn)用Wisconsin Breast Cancer Database(WBCD 數(shù)據(jù)6來(lái)自美國(guó)威斯康星州醫(yī)學(xué)院. 500個(gè)病例中確診為乳腺癌惡性(Malignant 的172例, 占34. 4%; 良性(Benign 的328例, 占65. 6%.每一病例由11個(gè)數(shù)字型屬性組成. 屬性1(Sample code number 是樣本編碼, 屬性11(class 是診斷結(jié)果, 其值2代表惡性,4; 其余9個(gè)(2的9個(gè)指, ( 、細(xì)胞大小Size 、細(xì)胞形狀均勻性(of
8、 Cell Shape 、邊界粘連(Marginal Ad 2hesion 、單個(gè)上皮細(xì)胞大小(Single Epithelial Cell Size 、裸核(Bare Nuclei 、微受激染色質(zhì)(Bland Chromatin 、正常核(Normal Nucleoli 、有絲分裂(Mitoses , 所有FNAC 指標(biāo)的屬性值都是110的1決策樹(shù)原理決策樹(shù)理論5由J R Quinlan 提出, 其基本原理可用C5. 0算法說(shuō)明. 該算法的基本步驟如下:1 考慮樣本數(shù)為s 的訓(xùn)練集S. 假定類標(biāo)號(hào)屬性(target attribute 具有m 個(gè)不同值, 即有m 個(gè)類別, 分別用C i (i
9、 =1, , m 定義. 設(shè)s i 是S 中屬于類C i 的樣本數(shù), 信息熵由下式給出mI =-i 1log 2(ii其中P i C i 的概率, 用s i /s 估計(jì).2 分別計(jì)算每一個(gè)屬性劃分所形成的子集的信息熵. 設(shè)屬性A 具有v 個(gè)不同值a 1, a 2, , a v , 那么屬性A 可將S 劃分為v 個(gè)子集S 1, S 2, S v , 其中S j 是在屬性A 上取值為a j 的S 的子集. 設(shè)s j 是子集S j 的樣本數(shù), 由A 劃分成子集的信息熵的計(jì)算公式為v整數(shù),1代表正常狀態(tài),10代表極不正常狀態(tài), 值越大表示該患者乳腺癌惡性的可能性就越大7. 這些FNAC 指標(biāo)數(shù)據(jù)中有少
10、量屬性值缺省, 以“? ”表示,整個(gè)數(shù)據(jù)集的記錄格式如下所示:1148873,3,6,6,6,5,10,6,8,3,4846423,10,6,3,6,4,10,7,8,4,4560680,1,1,1,1,2,1,1,1,1,21237674,3,1,2,1,2,1,2,1,1,22. 2特征選擇I T (A =j =1I (s j s3 計(jì)算各屬性劃分樣本的信息增益. 對(duì)于屬性A , 信息增益的計(jì)算公式為G ain (A =I (T -I T (A 由于樣本編碼與乳腺癌診斷明顯無(wú)關(guān), 因此不作為決策樹(shù)的輸入變量. 2. 3數(shù)據(jù)劃分4 具有最高信息增益的屬性選為給定樣本集合S 的測(cè)試屬性, 創(chuàng)建
11、決策樹(shù)的第一個(gè)節(jié)點(diǎn)(根節(jié)點(diǎn) , 并以該屬性標(biāo)記, 對(duì)屬性的每一個(gè)值創(chuàng)建分枝, 并據(jù)此劃分樣本. 在每個(gè)分枝中, 重復(fù)建立樹(shù)的下層節(jié)點(diǎn)和分枝, 直至終止條件(即所有樣本都屬同一類 出現(xiàn), 停止決策樹(shù)的構(gòu)建, 并在分枝的端點(diǎn)創(chuàng)建一個(gè)節(jié)點(diǎn), 用該子集樣本所屬的類別號(hào)標(biāo)記, 稱為葉節(jié)點(diǎn). 創(chuàng)建的決策樹(shù)每一個(gè)葉節(jié)點(diǎn)都會(huì)對(duì)應(yīng)一個(gè)特定的類別.決策樹(shù)產(chǎn)生后, 沿著決策樹(shù)從上到下遍歷的過(guò)程中, 在每個(gè)節(jié)點(diǎn)處都會(huì)遇到一個(gè)問(wèn)題(對(duì)該節(jié)點(diǎn)所代表屬性的屬性值判斷 , 對(duì)問(wèn)題的不同回答(即不同取值 可導(dǎo)致不同的分支, 最終到達(dá)一個(gè)葉節(jié)點(diǎn). 這個(gè)過(guò)程是利用決策樹(shù)進(jìn)行分類, 利用幾個(gè)屬性(每個(gè)屬性對(duì)應(yīng)一個(gè)問(wèn)題 來(lái)判斷所屬的類
12、別. 同時(shí), 沿著根節(jié)點(diǎn)到每一個(gè)葉節(jié)點(diǎn)的路徑都可產(chǎn)生一條分類規(guī)則, 并可轉(zhuǎn)換成If 2Then 規(guī)則.將數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集和測(cè)試集. 訓(xùn)練集包含350個(gè)樣本, 占整個(gè)數(shù)據(jù)集的70%, 用于建立決策樹(shù)分類模型; 測(cè)試集包含150個(gè)樣本, 占整個(gè)數(shù)據(jù)集的30%, 用于評(píng)估所得決策樹(shù)模型的分類性能. 2. 4決策樹(shù)分析利用Matlab6. 5編寫(xiě)決策樹(shù)程序, 對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行學(xué)習(xí), 得到?jīng)Q策樹(shù)的分類模型, 并從分類模型中歸納出用于FNAC 診斷乳腺癌的診斷規(guī)則, 再將獲得的決策樹(shù)診斷規(guī)則應(yīng)用于訓(xùn)練集和測(cè)試集, 做出相應(yīng)的診斷決策. 2. 5結(jié)果評(píng)估對(duì)訓(xùn)練集和測(cè)試集數(shù)據(jù)進(jìn)行診斷決策后, 計(jì)算相應(yīng)的準(zhǔn)
13、確率(accuracy 、靈敏度(sensitivity 和特異度(specificity , 用于評(píng)價(jià)利用決策樹(shù)方法得到的診斷規(guī)則的推廣(診斷 性能.準(zhǔn)確率=(a +b /(c +d ; 靈敏度=a/c ; 特異度=b/d .其中:a 為判斷正確的乳腺癌惡性患者樣本數(shù); b 為2材料與方法2. 1材料第3期毛利鋒等:一種基于決策樹(shù)的乳腺癌計(jì)算機(jī)輔助診斷新方法229判斷正確的乳腺癌良性患者樣本數(shù); c 為乳腺癌惡性患者樣本總數(shù); d 為乳腺癌良性患者樣本總數(shù).3結(jié)果數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集和測(cè)試集兩個(gè)數(shù)據(jù)集合. 訓(xùn)練集中有350例患者, 其中診斷為乳腺癌惡性的114例, 良性的236例; 測(cè)試集中
14、有150例患者, 其中診斷為乳腺癌惡性的58例, 良性的 92例.決策樹(shù)對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行學(xué)習(xí), 得到?jīng)Q策樹(shù)分類模型(見(jiàn)圖1 . 該模型包括一個(gè)根節(jié)點(diǎn)(裸核 、2個(gè)內(nèi)部節(jié)點(diǎn)(和4個(gè)葉節(jié)點(diǎn), 性>=2. 5Then 診斷=惡性.應(yīng)用上述診斷規(guī)則對(duì)訓(xùn)練集和測(cè)試集數(shù)據(jù)進(jìn)行診斷預(yù)測(cè), 結(jié)果見(jiàn)表1. 其中, 訓(xùn)練集數(shù)據(jù)結(jié)果為:114例惡性病例中, 正確判斷109例, 錯(cuò)判5例;236例良性病例中, 正確判斷227例, 錯(cuò)判9例. 靈敏度、特異度和準(zhǔn)確率分別為95. 61%、96. 19%和96. 00%.測(cè)試集數(shù)據(jù)結(jié)果為:58, 正57, , 正確判3例33%.表1決策樹(shù)靈敏度、特異度和準(zhǔn)確率T a
15、b. 1Decision tree sensitivity , specif icity and accuracy數(shù)據(jù)集訓(xùn)練集測(cè)試集惡性良性惡性良性實(shí)際/例1142365892正確靈敏特異度/%96. 1996. 74準(zhǔn)確率/%96. 0097. 33判斷/例度/%10995. 61227578998. 284結(jié)論圖1決策樹(shù)分類模型Fig. 1Decision tree classif ication model沿著根節(jié)點(diǎn)到每一個(gè)葉節(jié)點(diǎn)的路徑都可產(chǎn)生一條分類規(guī)則, 將它們轉(zhuǎn)換成If 2Then 規(guī)則, 得到四條乳腺癌的診斷規(guī)則:1 If 裸核<2. 5and 細(xì)胞大小均勻性<3.
16、5Then 診斷=良性;2 If 裸核<2. 5and 細(xì)胞大小均勻性>=3. 5Then 診斷=惡性;3 If 裸核>=2. 5and 細(xì)胞形狀均勻性<2. 54 IfThen 診斷=良性;研究表明, 綜合FNAC 檢查9項(xiàng)參數(shù)進(jìn)行決策樹(shù)分析, 對(duì)乳腺癌的診斷正確率可達(dá)到97. 33%; 決策樹(shù)方法提取的診斷規(guī)則描述簡(jiǎn)單, 應(yīng)用方便; 決策樹(shù)方法在輔助FNAC 診斷乳腺癌的同時(shí), 還可判斷各參數(shù)對(duì)乳腺癌診斷貢獻(xiàn)的大小; 從決策樹(shù)模型中可見(jiàn), 裸核對(duì)乳腺癌診斷起決定性作用, 細(xì)胞大小均勻性和細(xì)胞形狀均勻性則可作為診斷的重要指標(biāo), 因此, 決策樹(shù)方法是一種簡(jiǎn)便可行的計(jì)算機(jī)
17、輔助診斷方法, 可從病例自動(dòng)提取診斷規(guī)則, 具有較廣泛的實(shí)用價(jià)值, 可應(yīng)用于其它疾病的診斷研究.致謝本研究得到了美國(guó)威斯康新州立大學(xué)醫(yī)院William HWolberg 的幫助, 在此一并致謝.裸核>=2. 5and 細(xì)胞形狀均勻參考文獻(xiàn):1賀青卿, 范西紅, 劉少蘭, 等. 細(xì)針針吸細(xì)胞學(xué)診斷乳腺癌的臨床價(jià)值J.中華普通外科雜志, 2001,16(9 :568.2姚美村, 袁月梅, 艾路, 等. 數(shù)據(jù)挖掘及其在中醫(yī)藥現(xiàn)代化研究中的應(yīng)用J.北京中醫(yī)藥大學(xué)學(xué)報(bào),2002, 25(5 :20-23. 3CHRISTIN E L TSIEN , ISAAC S KOHAN E , N EIL
18、MCLN TOSH. Multi p le signal integration by decision tree induction to de 2tect artifacts in the neonatal intensive care unit J.Artif icial Intelligence in Medicine , 2000, 19:189-202.4Y OUN G MOON CHAE , SEUN G HEE HO. Data minin g approach to policy analysis in a health insurance domainJ.Interna 2tional Journal of Medical Informatics , 2001, 62:103-111.5J IEWEI HAN , MICHEL IN E K AMBER. 數(shù)據(jù)挖掘:概念與技術(shù) M .范明譯. 北京:機(jī)械工業(yè)出版社,2001.6WILL IAM H WOLBER G , MANASARIAN O L. Multisurface method of pattern separation for medical diagnosis applied tobreast cytology J.Proceedings of the N ational Aca
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 燃?xì)廨啓C(jī)發(fā)電課程設(shè)計(jì)
- L-708906-生命科學(xué)試劑-MCE
- KS-133-生命科學(xué)試劑-MCE
- Kayaflavone-生命科學(xué)試劑-MCE
- Isophorone-Standard-生命科學(xué)試劑-MCE
- 近視眼防控工作總結(jié)
- 醫(yī)藥冷鏈配送合作協(xié)議
- 公寓樓樣板房裝修合同模板
- 家具銷售居間合同文件資料
- 裝飾材料配送合同范本
- 第二章+軸對(duì)稱圖形(小結(jié)與思考)(單元復(fù)習(xí))2023-2024學(xué)年八年級(jí)數(shù)學(xué)上冊(cè)同步課堂
- GB/T 15822.1-2024無(wú)損檢測(cè)磁粉檢測(cè)第1部分:總則
- (新版)煙草行業(yè)法律法規(guī)知識(shí)競(jìng)賽參考試題庫(kù)-上(單選、多選題)
- 中國(guó)家用美容儀行業(yè)市場(chǎng)研究分析及發(fā)展趨向研判報(bào)告
- 2024年移動(dòng)網(wǎng)格經(jīng)理(認(rèn)證考試)備考試題庫(kù)大全-上單選、多選題匯
- xxx人民醫(yī)院檢查檢驗(yàn)結(jié)果互認(rèn)專項(xiàng)檢查暨診療行為規(guī)范自查報(bào)告
- 國(guó)企投資崗筆試題目
- 七年級(jí)上冊(cè)語(yǔ)文統(tǒng)編版5 《秋天的懷念》活動(dòng)式公開(kāi)課一等獎(jiǎng)創(chuàng)新教學(xué)設(shè)計(jì)(表格式)
- 年產(chǎn)120萬(wàn)件汽車鋁合金輪轂建設(shè)項(xiàng)目可行性研究報(bào)告模板-立項(xiàng)拿地
- 2023-2024學(xué)年北京市東城區(qū)廣渠門(mén)中學(xué)八年級(jí)(上)期中數(shù)學(xué)試卷【含解析】
- 高中生物學(xué)選擇性必修一測(cè)試卷及答案解析
評(píng)論
0/150
提交評(píng)論