數(shù)據(jù)挖掘及其在中醫(yī)領(lǐng)域的應(yīng)用研究_第1頁
數(shù)據(jù)挖掘及其在中醫(yī)領(lǐng)域的應(yīng)用研究_第2頁
數(shù)據(jù)挖掘及其在中醫(yī)領(lǐng)域的應(yīng)用研究_第3頁
數(shù)據(jù)挖掘及其在中醫(yī)領(lǐng)域的應(yīng)用研究_第4頁
數(shù)據(jù)挖掘及其在中醫(yī)領(lǐng)域的應(yīng)用研究_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘及其在中醫(yī)領(lǐng)域的應(yīng)用研究【摘要】介紹了數(shù)據(jù)挖掘的意義和任務(wù),綜述了近幾年來數(shù)據(jù)挖掘在中醫(yī)各領(lǐng)域中的應(yīng)用,分析了目前存在的問題,并探討了今后的發(fā)展趨勢?!娟P(guān)鍵詞】數(shù)據(jù)挖掘中醫(yī)隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,在中醫(yī)藥的現(xiàn)代化過程中建立了很多的數(shù)據(jù)庫。堆積在數(shù)據(jù)庫中的信息呈超指數(shù)爆炸式增長。例如中醫(yī)藥科技信息數(shù)據(jù)庫就有50個(gè)子數(shù)據(jù)庫、110個(gè)表單及數(shù)百個(gè)自動(dòng)生成的中間表、800余個(gè)著錄項(xiàng)目,涵蓋所有中醫(yī)藥有關(guān)醫(yī)、藥及學(xué)術(shù)的內(nèi)容。而數(shù)據(jù)挖掘技術(shù)的發(fā)展使我們有可能從這些海量數(shù)據(jù)中發(fā)現(xiàn)新的知識,發(fā)現(xiàn)數(shù)據(jù)背后隱藏的關(guān)系和規(guī)則,還可以對未知的情況進(jìn)行預(yù)測。多學(xué)科交叉目前正成為增強(qiáng)科技創(chuàng)新的重要途徑,數(shù)據(jù)挖掘正是從統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)等多門學(xué)科中發(fā)展起來的。1數(shù)據(jù)挖掘介紹1.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘(datamining)也稱為數(shù)據(jù)庫知識發(fā)現(xiàn),為解決上述矛盾提供了強(qiáng)有力的工具[1]。數(shù)據(jù)挖掘這一術(shù)語出現(xiàn)于1989年,其定義幾經(jīng)變動(dòng),本研究中引用FrayyadUM等提出的對數(shù)據(jù)挖掘的定義[2]。

數(shù)據(jù)挖掘是從數(shù)據(jù)庫中識別出有效的、新穎的、潛在有用的并且最終可理解的模式的非平凡過程。其中:①有效性要求挖掘前要對被挖掘的數(shù)據(jù)進(jìn)行仔細(xì)檢查,具備該特性,才能保證挖掘出來信息的可靠性。②新穎性要求發(fā)現(xiàn)的模式應(yīng)該是從前未知的,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價(jià)值。③潛在有用性是指發(fā)現(xiàn)的知識將來有實(shí)際效用,即這些信息或知識對于所討論的業(yè)務(wù)或研究領(lǐng)域是有效的、是有實(shí)用價(jià)值和可實(shí)現(xiàn)的,常識性的結(jié)論或已被人們掌握的事實(shí)或無法實(shí)現(xiàn)的推測都是沒有意義的。④最終可理解性要求發(fā)現(xiàn)的模式能被用戶理解,目前它主要是體現(xiàn)在簡潔性上。發(fā)現(xiàn)的知識要可接受、可理解、可運(yùn)用,最好能用自然語言表達(dá)所發(fā)現(xiàn)的結(jié)果。實(shí)際上,所有發(fā)現(xiàn)的知識都是相對的,是有特定前提和約束條件,面向特定領(lǐng)域的。⑤非平凡是一個(gè)數(shù)學(xué)概念,即數(shù)據(jù)挖掘既不是把數(shù)據(jù)全部抽取,也不是一點(diǎn)兒也不抽取,而是抽取出隱含的、未知的、可能的有用的信息。要有一定程度的智能性、自動(dòng)性(僅僅給出所有數(shù)據(jù)的總和不能算作是一個(gè)發(fā)現(xiàn)過程)。數(shù)據(jù)挖掘的結(jié)果通常表示為概念(concepts)、規(guī)則(rules)、規(guī)律(regularities)、模式(pattern)、約束(constraint)、可視化(visualization)等形式。這些知識可以直接提供給決策者,用于輔助決策過程;或者提供給領(lǐng)域?qū)<遥拚龑<业囊延械闹R體系;也可以作為新的知識轉(zhuǎn)存到應(yīng)用系統(tǒng)中,作為實(shí)際事務(wù)處理中決策的依據(jù)[3]。2數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘的任務(wù)主要是預(yù)測和描述。預(yù)測是指用一些變量或數(shù)據(jù)庫的若干已知字段預(yù)測其他感興趣的變量或字段的未知的或未來的值。描述是指找到描述數(shù)據(jù)的可理解模式。預(yù)測方法有統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則和決策樹預(yù)測、回歸樹預(yù)測等。其中關(guān)聯(lián)規(guī)則反映了一個(gè)事務(wù)與其他事務(wù)之間存在關(guān)聯(lián),那么就能根據(jù)其他已知事務(wù)預(yù)測到另一個(gè)事務(wù)。描述性方法主要有數(shù)據(jù)分類、回歸分析、聚類、變化和偏差分析、模式發(fā)現(xiàn)等。3數(shù)據(jù)挖掘在中醫(yī)藥中的應(yīng)用中醫(yī)藥的發(fā)展也需要多門學(xué)科的交叉應(yīng)用。數(shù)據(jù)挖掘最初在生物醫(yī)學(xué)中的應(yīng)用是在對基因組測序數(shù)據(jù)的分析,因?yàn)槿祟惢蚪M計(jì)劃研究中產(chǎn)生了數(shù)十億的核苷酸和上百萬的氨基酸,傳統(tǒng)的統(tǒng)計(jì)方法無能為力。中醫(yī)學(xué)具有系統(tǒng)性、整體性、復(fù)雜性、不確定性等特點(diǎn),不適宜運(yùn)用傳統(tǒng)的還原論的方法研究,而適宜與數(shù)據(jù)挖掘類似的從整體觀上入手的研究方法。數(shù)據(jù)挖掘可以從海量數(shù)據(jù)中挖掘出潛在的規(guī)律,數(shù)據(jù)挖掘的結(jié)果一部分可能與傳統(tǒng)的診療規(guī)律相符,不符合的部分可能是潛在的新知,也可能是沒有意義的,這都需要在相應(yīng)目標(biāo)領(lǐng)域?qū)<业闹笇?dǎo)下進(jìn)行解釋和評價(jià)。將數(shù)據(jù)挖掘(DM)和知識發(fā)現(xiàn)(DMKD)應(yīng)用于中醫(yī)藥領(lǐng)域的研究,是中醫(yī)藥現(xiàn)代化研究的重要組成部分[1],必將促進(jìn)中醫(yī)藥的發(fā)展。而數(shù)據(jù)挖掘在中藥藥譜研究和新藥開發(fā)中取得了一定進(jìn)展,本研究主要對其在中醫(yī)以下領(lǐng)域的研究作一介紹。3.1證實(shí)質(zhì)的研究中醫(yī)的“證”又稱“證候”,是疾病在某一階段病變的本質(zhì)反映,是由一組能反映疾病本質(zhì)的癥狀組成的,能揭示病因、病位、病性、病勢,為論治提供依據(jù)。證候是中醫(yī)診斷的核心概念和理論精髓,具有整體性、抽象性、時(shí)間性和相對穩(wěn)定性的特點(diǎn)?,F(xiàn)在對證實(shí)質(zhì)的研究多從西醫(yī)的生理理化指標(biāo)來揭示證的實(shí)質(zhì),但實(shí)踐中卻發(fā)現(xiàn)缺少證的特異性指標(biāo)。如果從分子生物學(xué)的角度,利用數(shù)據(jù)挖掘技術(shù)對中醫(yī)證與相關(guān)基因的對應(yīng)關(guān)系,可能取得更好的結(jié)果。通過研究“證”和基因多態(tài)性之間的內(nèi)在聯(lián)系,從基因多態(tài)性所帶來的該基因功能上的變化,由此探尋“證”的相關(guān)基因表達(dá)譜。3.2中醫(yī)診斷中醫(yī)診斷過程主要是對證的判定。而現(xiàn)在證的標(biāo)準(zhǔn)不太規(guī)范,缺乏定量的標(biāo)準(zhǔn),而且其分類與描述也存在不同的觀點(diǎn)。數(shù)據(jù)挖掘則可能完成證的規(guī)范化研究,也可輔助臨床醫(yī)生對病人進(jìn)行證的判定。陳明等[5]嘗試運(yùn)用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)診斷模式,他把《傷寒論》中的病名、癥狀、舌脈分別作為數(shù)據(jù)表建立數(shù)據(jù)庫,挖掘得出規(guī)則:發(fā)熱、惡寒、脈浮?萏?陽病(支持度65%,置信度5%),可以認(rèn)為發(fā)熱,惡寒的確是太陽病的診斷依據(jù)。秦中廣等[6]運(yùn)用粗糙集進(jìn)行中醫(yī)類風(fēng)濕證候的診斷,共收集了224個(gè)病例,每個(gè)病例有81個(gè)屬性,并從這224個(gè)病例中隨機(jī)抽取學(xué)習(xí)樣本180例,進(jìn)行預(yù)測診斷44例。他們利用屬性約簡得到寒濕阻絡(luò)、濕熱阻絡(luò)、痰閼阻絡(luò)、氣陰兩虛、寒熱錯(cuò)雜5種證的必定規(guī)則和可能規(guī)則。在44例預(yù)測診斷中診斷正確率達(dá)到90%以上,高于傳統(tǒng)的模糊數(shù)學(xué)方法,并認(rèn)為粗糙集有可能是中醫(yī)診斷研究的動(dòng)態(tài)理想工具。劉晉平[7]運(yùn)用數(shù)據(jù)挖掘的手段對中醫(yī)脈象進(jìn)行研究,并開發(fā)出初步的軟件。以明清、近現(xiàn)代3000余例病案為研究分析對象,將病案分為病名、證型、脈象、舌象及癥狀幾項(xiàng),然后進(jìn)行統(tǒng)一化及規(guī)范化處理,得出醫(yī)案中細(xì)脈出現(xiàn)頻率最高,占34.39%。其脈象軟件可以進(jìn)行脈象與病名,脈象與證型之間的相互關(guān)聯(lián)分析,發(fā)現(xiàn)其內(nèi)在的規(guī)律。4方劑配伍規(guī)律的研究方劑配伍理論是中藥方劑理論的核心,也是研究方劑的關(guān)鍵問題。采用數(shù)據(jù)挖掘技術(shù)進(jìn)行基于中醫(yī)藥理論的方劑配伍規(guī)律研究,既能為中醫(yī)新藥的臨床和實(shí)驗(yàn)研究提供目標(biāo)和思路,減少盲目性,縮短研究周期;同時(shí)又為大量古今驗(yàn)方研究探索出一條有價(jià)值的研究途徑和方法[8]。何前鋒等[9]運(yùn)用高頻集挖掘的方法,對中國方劑數(shù)據(jù)庫、中藥新藥品種數(shù)據(jù)庫、中藥成方制劑標(biāo)準(zhǔn)數(shù)據(jù)庫中各方劑藥物組成數(shù)據(jù)進(jìn)行了分析,分別得到3個(gè)庫的前20味高頻藥,可以看出古今用藥頻率的變化。并把高頻用藥組合與經(jīng)驗(yàn)藥對進(jìn)行比較分析,提示可能成為新藥對的組合。姚美村等[10]應(yīng)用關(guān)聯(lián)規(guī)則分析技術(shù),以文獻(xiàn)中收錄的106個(gè)治療消渴病的中藥復(fù)方為對象,經(jīng)解析后建立復(fù)方特征數(shù)據(jù)庫,以數(shù)據(jù)挖掘系統(tǒng)EnterpriseMiner為平臺,關(guān)聯(lián)規(guī)則分析為工具,在單味藥層次上進(jìn)行消渴病復(fù)方組成藥味之間的關(guān)聯(lián)模式研究。得到了藥物與上中下三消的關(guān)聯(lián)以及藥物之間的關(guān)聯(lián),與中醫(yī)專家對于消渴病的治療在主要藥物的配伍方面基本一致,這在一定程度上反映出歷代中醫(yī)在消渴病治療方面認(rèn)識和治療的整體規(guī)律性。陳波等[11]應(yīng)用關(guān)聯(lián)規(guī)則對李東垣的脾胃方從藥物間關(guān)聯(lián)、癥狀間關(guān)聯(lián)、處方結(jié)構(gòu)與癥狀關(guān)聯(lián)進(jìn)行分析,得出當(dāng)出現(xiàn)當(dāng)歸、黃芪、升麻時(shí),同時(shí)出現(xiàn)柴胡的次數(shù)為60次,支持度為10.91%,可信度為84.51%;當(dāng)出現(xiàn)當(dāng)歸、黃芪、柴胡時(shí),同時(shí)出現(xiàn)升麻的次數(shù)為60次,支持度為10.91%,可信度為84.51%。兩者的支持度和可信度都較高,提示他們常共同使用。此反映出李東垣補(bǔ)氣與升陽同用的學(xué)術(shù)思想,此藥組也是補(bǔ)中益氣湯的基本組成部分。現(xiàn)在的研究中存在著方法比較簡單,頻繁模式、關(guān)聯(lián)規(guī)則為其主要方法。方劑配伍不僅是各藥味之間的組合,還包含著各藥劑量比例的搭配,這也是臨床組方的關(guān)鍵,但現(xiàn)在對其進(jìn)行數(shù)據(jù)挖掘的研究還很少。

數(shù)據(jù)挖掘的方法不僅可以運(yùn)用于中醫(yī)基礎(chǔ)理論中的傷寒、溫病等研究,也可用于臨床各科的研究。但高質(zhì)量的數(shù)據(jù)挖掘不僅需要有被處理數(shù)據(jù)的質(zhì)量,更要在中醫(yī)藥專業(yè)背景知識引導(dǎo)下,針對具體問題,選擇合適的數(shù)據(jù)挖掘方法,利用各種工具的效能和應(yīng)用的可能性,取長補(bǔ)短。對中醫(yī)藥知識進(jìn)行規(guī)范化、數(shù)字化、信息化是促進(jìn)中醫(yī)藥國際化和現(xiàn)代化進(jìn)程的重要內(nèi)容[12]。通過數(shù)據(jù)挖掘,就可以對中醫(yī)藥發(fā)展過程中某些缺失的信息進(jìn)行預(yù)測完善并可以避免主觀性的干擾。數(shù)據(jù)挖掘還可以發(fā)現(xiàn)一些新的模式和規(guī)則,為中醫(yī)藥知識的創(chuàng)新和發(fā)展提供一條新途徑。參考文獻(xiàn)

1喬延江.中藥(復(fù)方)KDD研究開發(fā)的意義.北京中醫(yī)藥大學(xué)學(xué)報(bào),1998,21(3):15~17.

2FrayyadUM,Piatetsky??ShapiroG,SmythP,etal.KnowledgeDiscoveryandDatamining:TowardsaUnifyingFrameworkProcKDD96,Menlopark,CA:AAAIPress,1996,82~88.

3胡文豐,張正國.生物醫(yī)學(xué)數(shù)據(jù)挖掘.國外醫(yī)學(xué)生物醫(yī)學(xué)工程分冊,2003,26(1):11~15.

4周雪忠,吳朝暉,劉保延.生物醫(yī)學(xué)文獻(xiàn)知識發(fā)現(xiàn)研究探討及展望.復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2004,1(3):45~55.

5陳明,張書河.關(guān)聯(lián)規(guī)則在中醫(yī)疾病證候診斷中的應(yīng)用.中華醫(yī)學(xué)叢刊,2004,4(5):14~16.

6秦中廣,毛宗源,鄧兆智.粗糙集在中醫(yī)類風(fēng)濕證候診斷中的應(yīng)用.中國生物醫(yī)學(xué)工程學(xué)報(bào),2001,20(4):354~363.

7劉晉平.數(shù)據(jù)挖掘在中醫(yī)脈診研究中的應(yīng)用.天津中醫(yī)藥大學(xué)碩士論文,2002.

8蔣永光,胡波,劉娟,等.方劑配伍的數(shù)據(jù)挖掘可行性探索.四川中醫(yī),2004,22(8):25~28.

9何前鋒,崔蒙,吳朝暉,等.方劑中配伍知識的發(fā)現(xiàn).中國中醫(yī)藥信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論