基于關(guān)聯(lián)規(guī)則和決策樹的中醫(yī)胃炎診斷分析_第1頁
基于關(guān)聯(lián)規(guī)則和決策樹的中醫(yī)胃炎診斷分析_第2頁
基于關(guān)聯(lián)規(guī)則和決策樹的中醫(yī)胃炎診斷分析_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于關(guān)聯(lián)規(guī)則和決策樹的中醫(yī)胃炎診斷分析    【關(guān)鍵詞】  數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;決策樹;中醫(yī)辨證      中醫(yī)采用“望、聞、問、切”的診斷方法,并予以辨證施治,對慢性胃炎有很好的療效。但是隨著時(shí)間的流逝,一些寶貴的資源并沒有被保存下來,老中醫(yī)的經(jīng)驗(yàn)是需要后人在實(shí)踐的基礎(chǔ)上不斷領(lǐng)悟與總結(jié)方能表達(dá)的。需要從大量的臨床資料中提煉出有價(jià)值、有共性的信息來幫助判斷,從而達(dá)到辨證施治的目的。因而,筆者利用數(shù)據(jù)挖掘方法中的關(guān)聯(lián)規(guī)則和決策樹方法,以名老中醫(yī)的胃炎病歷信息為對象,對“癥狀”、“辨證”之間的潛在關(guān)

2、系,以及根據(jù)“癥狀”如何判斷是否能得到某一“辨證”做一初探。    基于以上目的,筆者利用現(xiàn)有的中醫(yī)胃炎病歷作為樣本數(shù)據(jù),采用關(guān)聯(lián)規(guī)則的方法建立實(shí)驗(yàn)?zāi)P?并給出實(shí)驗(yàn)分析的結(jié)果。在此基礎(chǔ)上采用決策樹方法,構(gòu)建一棵判斷是否為辨證“中虛氣滯”的決策樹。1  基于關(guān)聯(lián)規(guī)則方法的中醫(yī)胃炎分析    關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘領(lǐng)域中最為常用和成熟的方法之一。關(guān)聯(lián)規(guī)則的挖掘問題就是在給定的事務(wù)數(shù)據(jù)庫中,找出滿足最小支持度(minsup)和最小置信度(minconf)的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則有如下優(yōu)點(diǎn):可以產(chǎn)生清晰有用的結(jié)果;支持間接數(shù)據(jù)挖掘;可以處理

3、變長的數(shù)據(jù);計(jì)算的消耗量是可以預(yù)見1。經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法2有:Apriori算法3、抽樣算法、DIC算法。1.1  Apriori算法簡介    Apriori算法先根據(jù)最小支持度,計(jì)算所有的1-項(xiàng)集(k-項(xiàng)集是含有k個(gè)項(xiàng)的項(xiàng)集),記為C1。找出所有滿足支持度條件的1-項(xiàng)集,記為L1。然后根據(jù)L1確定候選2-項(xiàng)集的集合,記為C2。從C2找出所有滿足支持度條件的2-項(xiàng)集,記為L2。依此類推,直到不再有候選項(xiàng)集。1.2  基于辨證“中虛氣滯”關(guān)聯(lián)規(guī)則的實(shí)驗(yàn)設(shè)計(jì)    我們首先根據(jù)“疾病標(biāo)準(zhǔn)表”、“中醫(yī)臨床診療術(shù)語”

4、和南京中醫(yī)藥大學(xué)提供的“中藥材表”,對病歷中出現(xiàn)的癥狀、辨證與處方進(jìn)行規(guī)范化,將詞義相同或相近的整理歸類,統(tǒng)一、減少或簡化其稱謂,消除別名。比如,面色中既有“面黃少華”又有“面色萎黃”,將其統(tǒng)一糾正為“面色萎黃”。然而,用文字描述的數(shù)據(jù)不利于計(jì)算機(jī)接收和處理,用數(shù)字來表達(dá)可以大大簡化工作的復(fù)雜度。我們采用數(shù)值化的方法來體現(xiàn)某一癥狀的有無,將癥狀看成是布爾變量。    我們從中醫(yī)胃炎病歷中篩選出辨證為“中虛氣滯”的病歷,利用關(guān)聯(lián)規(guī)則的Apriori算法來探求癥狀與此辨證之間的關(guān)系。我們根據(jù)中醫(yī)胃炎病歷中所涉及到的癥狀、辨證、處方等數(shù)據(jù),在ACCESS中構(gòu)建數(shù)據(jù)庫及相

5、應(yīng)的表。其中sample表(見表1)中存放的是樣本數(shù)據(jù),即中醫(yī)病歷中辨證為“中虛氣滯”的病歷。這里的每條記錄代表辨證為“中虛氣滯”的一條病歷,分別由不同的癥狀構(gòu)成。Symptom表(見表2)中存放的是中醫(yī)胃炎病歷中所涉及到的所有癥狀名稱及其相應(yīng)的編號。 表1  sample表(略)表2  symptom 表(略)利用VC6.0作為開發(fā)平臺,從運(yùn)行界面上輸入支持度和辨證“中虛氣滯”所涉及到的癥狀數(shù)目,根據(jù)Apriori算法運(yùn)行程序,最后得到辨證“中虛氣滯”與癥狀之間的關(guān)系。1.3  基于辨證“中虛氣滯”關(guān)聯(lián)規(guī)則的實(shí)驗(yàn)結(jié)果分析    關(guān)聯(lián)

6、規(guī)則有兩個(gè)評價(jià)標(biāo)準(zhǔn):支持度和置信度。置信度描述的是包含A和B的事務(wù)數(shù)與包含A的事務(wù)數(shù)的百分比。由此可見,置信度度量規(guī)則的強(qiáng)度是我們關(guān)注的重點(diǎn)。以男性病歷為例,最后得到最大頻繁項(xiàng)集是胃脘痞脹,舌苔薄(白),吞酸或泛酸,舌質(zhì)紅,以下列舉部分結(jié)論以供分析。    置信度:舌苔薄(白)=>中虛氣滯(50%);舌質(zhì)紅=>中虛氣滯(66%);胃脘痞脹舌苔薄(白)吞酸或泛酸舌質(zhì)紅=>中虛氣滯(100%)。    置信度表明:只有舌苔薄(白)這一癥狀時(shí),辨證為“中虛氣滯”的概率是50%;只有舌質(zhì)紅這一癥狀時(shí),辨證為“中虛氣滯”的概率

7、是66%;癥狀胃脘痞脹,舌苔薄(白),吞酸或泛酸,舌質(zhì)紅同時(shí)出現(xiàn)的前提下,辨證為“中虛氣滯”的概率是100%。    由女性病歷分析,得到癥狀的兩個(gè)最大頻繁項(xiàng)集是舌苔薄(白),脈細(xì)弦,口干(欲飲),胃脘隱痛和舌苔薄(白),脈細(xì)弦,胃脘嘈雜,舌質(zhì)淡,以下列舉部分結(jié)論以供分析。    置信度:舌苔薄(白)=>中虛氣滯(22.2%);脈細(xì)弦=>中虛氣滯(25%);胃脘隱痛=>中虛氣滯(40%);口干(欲飲)=>中虛氣滯(66.7%);舌苔薄(白)脈細(xì)弦=>中虛氣滯(25%);胃脘隱痛舌苔薄(白)=>中虛氣

8、滯(50%);脈細(xì)弦胃脘隱痛=>中虛氣滯(66.7%);脈細(xì)弦胃脘隱痛舌苔薄(白)=>中虛氣滯(66.7%);舌苔薄(白)脈細(xì)口干(欲飲)胃脘隱痛=>中虛氣滯(100%);舌苔薄(白)脈細(xì)舌質(zhì)淡胃脘嘈雜=>中虛氣滯(100%)。    由實(shí)驗(yàn)結(jié)果可知,在單個(gè)癥狀出現(xiàn)的情況下,癥狀口干欲飲對于辨證“中虛氣滯”的影響最大;當(dāng)兩個(gè)癥狀同時(shí)出現(xiàn)的情況下,癥狀脈細(xì)弦和胃脘隱痛能導(dǎo)致是辨證“中虛氣滯”的可能性為66.7%,是其他幾種兩個(gè)癥狀同時(shí)出現(xiàn)的可能性中最大的。當(dāng)同時(shí)出現(xiàn)舌苔薄(白)、脈細(xì)、口干(欲飲)、胃脘隱痛和舌苔薄(白)、脈細(xì)、舌質(zhì)淡、胃脘嘈

9、雜這2組癥狀時(shí),都可判斷辨證是“中虛氣滯”。    由此可見,應(yīng)用關(guān)聯(lián)規(guī)則方法對中醫(yī)胃炎病歷進(jìn)行分析確實(shí)能在一定程度上揭示辨證與癥狀對應(yīng)的規(guī)律,從中提取有用知識,為臨床及實(shí)驗(yàn)研究提供進(jìn)一步探索的線索和目標(biāo)。2  基于決策樹方法的中醫(yī)胃炎分析    決策樹算法是目前應(yīng)用最廣泛的歸納推理算法之一4,是一種逼近離散值函數(shù)的方法,通常用來形成分類器和預(yù)測模型2。決策樹分類方法采用自頂向下的遞歸方式。從決策樹的根到葉結(jié)點(diǎn)的一條路徑就對應(yīng)這一條合取規(guī)則,整棵決策樹就對應(yīng)著一組析取表達(dá)式規(guī)則。2.1  ID3算法簡介 

10、   ID3算法先確定每一個(gè)實(shí)例屬性單獨(dú)分類訓(xùn)練樣例的能力,將分類能力最好的屬性選做樹的根結(jié)點(diǎn)。然后為根結(jié)點(diǎn)屬性的每個(gè)可能值產(chǎn)生一個(gè)分支,并把訓(xùn)練樣例排列到適當(dāng)?shù)姆种е?。重?fù)整個(gè)過程,用每個(gè)分支結(jié)點(diǎn)關(guān)聯(lián)的訓(xùn)練樣例來選取在該點(diǎn)被測試的最佳屬性。由此可見,ID3算法總是選擇分類能力最好的屬性作為當(dāng)前結(jié)點(diǎn)的測試屬性。ID3算法選用信息增益作為選擇最佳屬性的度量標(biāo)準(zhǔn)。為了精確定義信息增益,先定義信息論中廣泛使用的一個(gè)度量標(biāo)準(zhǔn)熵。    Entropy(S)         

11、;             其中:S為某個(gè)目標(biāo)概念的正反樣例的樣例集,P+是在S中的正例的比例,P-是在S中反例的比例。一般情況,如果目標(biāo)屬性具有C個(gè)不同的值,那么S相對于C個(gè)狀態(tài)的分類的熵定義為:Entropy(S)           。    一個(gè)屬性A相對樣例集合S的信息增益Gain(S,A)被定義為:Gain(S,A)Entropy(S)            

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論