中醫(yī)方劑知識挖掘研究_第1頁
中醫(yī)方劑知識挖掘研究_第2頁
中醫(yī)方劑知識挖掘研究_第3頁
中醫(yī)方劑知識挖掘研究_第4頁
中醫(yī)方劑知識挖掘研究_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

中醫(yī)方劑知識挖掘研究

0問題的提出和數(shù)學模型的構(gòu)建中醫(yī)信息的研究可以追溯到20世紀70年代。在方法論層面,中醫(yī)學系統(tǒng)、整體、多維的特點使之與信息學有著比任何其他科學更強的親和力。在思維模式方面,中醫(yī)學具有控制論特征,表現(xiàn)為其身心統(tǒng)一的觀念和與客觀性、簡化論的現(xiàn)代醫(yī)學完全不同,主張并強調(diào)人是一個生物心理信息系統(tǒng),疾病不能被解釋為單層次的、各部分割裂的現(xiàn)象,與被稱作醫(yī)學領(lǐng)域第二次革命的“信息醫(yī)學”(Infomedicine)的概念有相同的內(nèi)涵?!爸嗅t(yī)方劑”(下簡稱“方劑”)是中醫(yī)運用“中藥”防治疾病的主要形式。一個成功的方劑,是中醫(yī)醫(yī)生高層次思維方式(原則、取向、形式)的成果,而“思維方式作為文化基因的主要部分,是有巨大生命力的”。在中國近2000多年的文明史中,中醫(yī)藥維系著中國人的健康、繁衍、生息的史實也證明了這一點。為了探究中醫(yī)診治的思維特點和規(guī)律,本研究把對方劑知識的挖掘作為解讀中醫(yī)診治思維這一黑箱理論的切入點,建立相關(guān)的數(shù)學模型將其形式化,并對其結(jié)果進行量化表達,以此來探索把中醫(yī)的“經(jīng)驗”轉(zhuǎn)化為“知識”的有效途徑,為中醫(yī)學的傳承和發(fā)揚提供技術(shù)的支持。經(jīng)過多年的科研實踐,本課題組構(gòu)建了一個用計算技術(shù)對方劑知識進行挖掘的平臺,嘗試著用綜合的技術(shù)方案來探求對中醫(yī)方劑知識挖掘的理想效果。內(nèi)容包括:首先采用數(shù)據(jù)庫挖掘技術(shù),對近10萬方劑數(shù)據(jù)進行相關(guān)性的挖掘,以發(fā)現(xiàn)其中的規(guī)律;繼而采用不確定性推理的人工智能技術(shù),對方劑的相關(guān)因子進行挖掘,實現(xiàn)了包括“方劑功效”在內(nèi)的方劑主要特征的形式化和量化計算;在此基礎(chǔ)上,采用機器學習技術(shù),對方劑分類進行了模式識別的實驗。1cpdbs系統(tǒng)文獻中的“中醫(yī)方劑數(shù)據(jù)庫系統(tǒng)”(CTMPrescriptionsDatabaseSystem,CPDBS)是一個基于大型關(guān)系型數(shù)據(jù)庫技術(shù)的方案,以解決方劑關(guān)聯(lián)數(shù)據(jù)的挖掘問題。該系統(tǒng)建立在OracleforUNIX平臺上,用OAS的PL/SQL軟插件模式實現(xiàn),在技術(shù)上滿足了遠程訪問的需求。中醫(yī)專業(yè)人員對方劑數(shù)據(jù)進行采集和數(shù)據(jù)預(yù)處理,建立了“中醫(yī)方劑數(shù)據(jù)庫”。目前的數(shù)據(jù)庫中儲存有近10萬個方劑數(shù)據(jù),100萬余個數(shù)據(jù)記錄,這些數(shù)據(jù)的時間跨度在2000年以上,覆蓋了中醫(yī)各個歷史時期的主要方劑文獻,以保證數(shù)據(jù)的代表性和系統(tǒng)性,為中醫(yī)方劑知識挖掘研究儲備了豐富的數(shù)據(jù)資源,并提供挖掘分析的程序?qū)崿F(xiàn)。為保證歷史文獻信息得到充分釋放,制定了“全文解析”(解析到最小信息單位)、“主題標引”(使用“中醫(yī)藥主題詞”對解析的字段進行標引)的技術(shù)方案,用來采集和處理數(shù)據(jù)。其原則是:在保持文獻原貌、原義的前提下,實現(xiàn)數(shù)據(jù)的高度一致化和結(jié)構(gòu)化存儲。依據(jù)這一原則,用Access研制了“方劑數(shù)據(jù)采集系統(tǒng)”。這個系統(tǒng)的任務(wù)有兩個:(1)完成文本數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換;(2)為數(shù)據(jù)的預(yù)處理提供軟件環(huán)境。這一方案的意義在于使方劑數(shù)據(jù)在具備一致化語法結(jié)構(gòu)的基礎(chǔ)上,盡可能地實現(xiàn)數(shù)據(jù)在語義上的一致,為基于數(shù)據(jù)庫技術(shù)的挖掘創(chuàng)造必備的條件。從數(shù)據(jù)挖掘的結(jié)果來看,CPDBS系統(tǒng)使歷史方劑文獻的信息得到較大程度的釋放,實現(xiàn)了病、證、方、藥等全方位的交叉查詢和統(tǒng)計分析,具有序列統(tǒng)計、關(guān)系發(fā)現(xiàn)、主題集合等挖掘功能。從圖1可以了解到該系統(tǒng)挖掘功能的大致情況。CPDBS系統(tǒng)的查詢?nèi)肟趪@“方劑”設(shè)有36個選項,又設(shè)有10個條件組合框,這些條件可以用“并且”、“或者”、“并且不包括”、“或者不包括”等查詢語句完成檢索邏輯的表達,同時還設(shè)有單括號“()”和雙括號“(())”限定優(yōu)先查詢條件。完備的查詢設(shè)計目的是為了最大限度地滿足用戶查詢的需求。CPDBS系統(tǒng)的挖掘功能如圖1所示,該系統(tǒng)可以完成各種數(shù)據(jù)關(guān)系的統(tǒng)計分析。例如以“消渴”為查詢條件,查詢到數(shù)據(jù)庫中相關(guān)的記錄679條,分析其證候的分型情況,共涉及“下焦虛熱證”等70種證型。這些證型系統(tǒng)依據(jù)“中醫(yī)學主題詞表”結(jié)構(gòu)可以聚成“臟腑辨證”、“氣血津液辨證”、“病因辨證”、“八綱辨證”4類,對每類主要用藥特點進行分析,其結(jié)果如表1所示。由表1可知,(1)在治療消渴病方劑的歷史記錄中,對“證候”的記錄是不完整的,有“證候”記錄的占29%;(2)歷史方劑治療消渴病辨證方法涉及4類(略);(3)辨證方法不同方劑用藥的側(cè)重有不同的趨向(略);(4)“甘草”為所有證型共用,其次是“黃連”和麥門冬。以上僅僅是舉例而言,按照不同思路從不同角度去分析,圍繞一個查詢目標可以挖掘出的數(shù)據(jù)文件可達數(shù)十至上千個不等。但CPDBS系統(tǒng)也暴露出兩點不足:(1)基于數(shù)據(jù)庫技術(shù)的挖掘計算是基于“頻次”的,因此在“量化”表達中醫(yī)方劑知識方面有局限性;(2)在數(shù)據(jù)庫建立的過程中(解析和標引),融入了人的主觀判斷,而人的主觀認識不僅難以保證百分之百的準確和一致,并且也不易評價。為此,課題組采用人工智能技術(shù)對方劑知識的量化表達進行了深入的研究。2cdis系統(tǒng)的知識計算模型“中醫(yī)方劑智能分析系統(tǒng)”(CTMIntelligentAnalysisSystem,CPIAS)是一個基于近似推理方法的技術(shù)方案,解決的是方劑知識要點的量化計算和表達問題。該系統(tǒng)實現(xiàn)了對方劑所含因子的量化計算和表達,對方劑知識挖掘的過程可以借助概念關(guān)系網(wǎng)(ConceptualRelationalNetworks,CRN)表達,如圖2所示。CRN是由12個節(jié)點(圓圈部分)與23個關(guān)系有向弧構(gòu)成的極少輸入(Yi,Zi)、較多輸出(Yo,G1o,G2o,Qo,Wo,Jo,Fo,M1o,M2o,Zo)的系統(tǒng)(“i”表示輸入,“o”表示輸出),符合智能系統(tǒng)的基本特征。圖中的“實線”是已實現(xiàn)的關(guān)系計算,“虛線”是待實現(xiàn)的關(guān)系計算。其中,輸入Yi為處方(藥物和劑量),Zi為癥狀體征(臨床表現(xiàn));輸出Yo為中藥對方劑的貢獻度序列,G1o為方劑功效序列,G2o為基于臨床表現(xiàn)的方劑功效篩選序列,Qo為方劑藥氣序列,Wo為方劑藥味序列,Jo為方劑歸經(jīng)序列,M1o為方劑針對的證素序列,M2o為方劑適應(yīng)的證候序列,Fo為方劑治法相關(guān)信息,Zo為方劑對癥狀體征的關(guān)注度分析。圖中SVM表示上述計算結(jié)果通過接口程序輸入到用支持向量機(SupportVectorMachine,SVM)技術(shù)開發(fā)的模式識別系統(tǒng)。由此看出,CPIAS系統(tǒng)是個多節(jié)點、多關(guān)系的復(fù)雜知識系統(tǒng),其具有兩個特點:(1)提出了“藥量強度”的概念和計算模型,這在知識的挖掘和量化計算中是關(guān)鍵性的;(2)系統(tǒng)的量化計算得到上萬條中醫(yī)學基礎(chǔ)知識的支持,使“定性”與“定量”的計算得到有機的結(jié)合。當然這個推理的模式也不是最終的,它將隨著研究的深入而不斷優(yōu)化。所謂“藥量強度”,就是方劑中各味中藥對方劑功效的貢獻度。在方劑中,各單味中藥所發(fā)揮的作用力度,不僅受到“藥量”的影響,還受到“藥性”的影響,因此不能以單味藥用量的大小來直接判斷其作用力度。為此提出“藥量強度”的概念,依據(jù)此概念的原理,提出了“藥量分類強度計算模型”。該模型的建立,顧及了各中藥不同常用計量范圍的特征(這一特征間接地反映了各中藥的特性),并據(jù)此進行了分類計算。模型通過方劑給出的中藥劑量,計算出各中藥在方劑中所發(fā)揮的作用強度,即中藥對方劑功效的貢獻度。模型計算公式如下:式中,X為任意藥物;q為藥物用量,qX表示藥物X的用量;MX表示藥物X用量的上限;mX表示藥物X用量的下限。這個計算模型在CPIAS系統(tǒng)中又被稱作“基礎(chǔ)量化計算模型”,方劑所有相關(guān)因子的量化計算都是在這個基礎(chǔ)上實現(xiàn)的,隨著研究的進展,這個模型得到不斷地維護。具體內(nèi)容包括:方劑綜合藥性強度計算(氣、味、歸經(jīng))、方劑功效計算、方劑涉及的證素計算、方劑適應(yīng)證候預(yù)測、方劑對癥狀體征關(guān)注度的評估等。在系統(tǒng)進行上述各種計算時,相關(guān)的中醫(yī)學基礎(chǔ)知識參與其中,這些“知識”在系統(tǒng)中被處理成各種“關(guān)系表”,采用矩陣或條件規(guī)則等方法進行表達,具體包括“藥效關(guān)系表”(各種藥效之間發(fā)生的聯(lián)系)、“效候關(guān)系表”(方劑功效與癥狀體征間可能發(fā)生的聯(lián)系)、“效素關(guān)系表”(方劑功效與證候要素間可能發(fā)生的聯(lián)系)、“素證關(guān)系表”(證候要素與證候的關(guān)系)等。這些“關(guān)系表”構(gòu)建出系統(tǒng)的“知識庫”,知識庫中每一條記錄的建立均要求有文獻依據(jù),并符合中醫(yī)學的普遍認識。知識庫在系統(tǒng)中發(fā)揮了“大腦”的作用,幫助系統(tǒng)成功完成了對方劑知識的挖掘。各關(guān)系表的表達形式示例如下。表2用矩陣形式就“藥效”間相互作用的關(guān)系進行表達,每一行為一條記錄。該表目前有1821條記錄。表3用矩陣形式就“藥效”與“癥狀體征”(候)之間的對應(yīng)關(guān)系進行表達,表中第2列是藥效,第4列是癥狀體征,最后一列是“關(guān)系”建立的依據(jù),每行一個記錄。該表目前有6483條記錄。表4用矩陣形式就“藥效”與“證素”(構(gòu)成中醫(yī)“證候”的要素)之間的對應(yīng)關(guān)系進行表達,每行一個記錄。該表目前有167條記錄。表5用條件規(guī)則形式就“證素”和“證候”的因果關(guān)系進行表達,表中第1列是“證候”名稱(果),第2列是由“證素”按照一定邏輯關(guān)系構(gòu)成的條件(因),第3列是用以加權(quán)的“證素”(因)。每行一個記錄,該表目前有259條記錄。在對“知識庫”的研究中,知識的表達方法是非常關(guān)鍵的,有時候改變一個表達方式,可以收到事半功倍的效果。如當把“效證關(guān)系”(方劑“功效”和“證候”的對應(yīng)關(guān)系)表(現(xiàn)已不用)化解成“效素關(guān)系”和“素證關(guān)系”兩張表時,知識規(guī)則從原有的8000余條減少到426條,不僅大大降低了知識庫維護的難度,而且提升了計算的穩(wěn)健性。CPIAS系統(tǒng)雖然在方劑知識的量化計算和表達方面取得突破性進展,但只適應(yīng)于方劑個案分析的局限,尚不能滿足對大樣本方劑批量學習的需求。因此又開展了基于學習技術(shù)的方劑模式分類的研究。3臨床應(yīng)用結(jié)果任何“規(guī)律”的發(fā)現(xiàn)都是以“分類”研究為前提的,中醫(yī)學史上采用“分類”的研究方法是相當普遍的,“中醫(yī)方劑分類模式識別系統(tǒng)”(CTMClassificationModelRecognitionSystemwithSupportVectorMachine,CPSVM)就是采用SVM方法與近似推理方法相結(jié)合的技術(shù)方案,實現(xiàn)機器學習技術(shù)對方劑模式的分類識別,解決方劑群案分類的模式識別問題。CPSVM是一個集訓(xùn)練學習、參數(shù)優(yōu)化、預(yù)測和結(jié)果分析等功能于一體的全中文學習系統(tǒng),可用于分類預(yù)測和回歸分析。CPSVM最明顯的優(yōu)勢有兩點:(1)量化數(shù)據(jù)由CPIAS系統(tǒng)提供,接口程序?qū)⒁呀?jīng)量化的數(shù)據(jù)直接轉(zhuǎn)化成國際通用的數(shù)據(jù)文件格式,成功地實現(xiàn)了支持向量機方法(完全基于數(shù)據(jù))與近似推理方法(充分體現(xiàn)先驗知識)的對接和優(yōu)勢互補;(2)彌補了SVM方法中核函數(shù)的參數(shù)難以確定的不足,給出了實用有效的參數(shù)尋優(yōu)方法和程序?qū)崿F(xiàn),有效提高了所建模型的穩(wěn)健性。雖然SVM方法與基于概率測度和大多數(shù)定律的傳統(tǒng)統(tǒng)計方法風格迥異,但它與通常的統(tǒng)計分析預(yù)測方法有天然的聯(lián)系(有大致相同的問題表述和數(shù)據(jù)預(yù)處理),預(yù)測模型仍然是建立在大量樣本資料的基礎(chǔ)之上,建模步驟與常規(guī)方法基本相同。方劑分類模式識別大致流程包括:采集樣本資料—構(gòu)造預(yù)測因子—因子歸一化處理—確定建模要使用的核函數(shù)—創(chuàng)建訓(xùn)練集—創(chuàng)建實驗集—創(chuàng)建檢驗集—確定最終用于預(yù)測的推理模型。CPDBS選擇10000余個方劑數(shù)據(jù)作為實驗對象,對這些方劑的分類可以是多角度的,如按“治法”、“病種”、“證候”、“證素”、“癥狀”、“醫(yī)家”分類等。分類的目標不同,其意義也各異。然后以方劑“治法”為試算目標,具體內(nèi)容包括“汗法”、“補法”、“溫法”、“清法”、“下法”等臨床上最常用的治法,這是在較高層面上的一種分類,其意義是有助于對同類方劑的構(gòu)成和臨床運用規(guī)律進行挖掘。實驗結(jié)果見表6。該實驗以《方劑學》(高等中醫(yī)院校教材)、《傷寒論》(高等中醫(yī)院校教材)以及中醫(yī)方劑數(shù)據(jù)庫中的歷史方劑為樣本,以汗法、補法、溫法、清法、下法的方劑模式學習為目標,分別建立了學習樣本、測試樣本、檢驗樣本,經(jīng)過反復(fù)試算,建立了上述治法方劑的數(shù)學模型。應(yīng)用上述模型進行了更多、更大范圍的實驗,如應(yīng)用所建立的方劑治法模型,對某些名醫(yī)的經(jīng)驗處方進行“治法”模式的識別,識別率均可達到上述實驗的平均水平。初步實驗證明,CPSVM適合解決中醫(yī)方劑的分類問題。當然,這種用黑箱方法解決黑箱問題的做法雖然有效,但系統(tǒng)的“解釋”功能還需強化(或曰理想化),在這方面還有一段艱苦的路要走。總之,對方劑進行模式識別的研究還是初步的,要建立經(jīng)得住推敲、泛化能力強、計算穩(wěn)健的中醫(yī)方劑的分類模型,還需要進行大量的實驗,其中最關(guān)鍵的是樣本的組織。4數(shù)學方法對中醫(yī)學術(shù)和臨床的意義具有科學運用數(shù)學方法挖掘和表達中醫(yī)方劑的知識內(nèi)涵,在其科學性得到闡釋的同時(數(shù)學化),也為解讀其思維特點尋找到一種方法和手段,以促進“經(jīng)驗”向“知識”的轉(zhuǎn)化。使用數(shù)據(jù)庫技術(shù)、人工智能近似推理技術(shù)和基于支持向量機方法的模式識別技術(shù),分別研發(fā)出3款享有知識產(chǎn)權(quán)的軟件系統(tǒng),由此搭建起一個適合中醫(yī)方劑信息挖掘的平臺,從數(shù)據(jù)關(guān)聯(lián)分析、知識解讀和量化表達、模式分類等不同的側(cè)面對中醫(yī)方劑進行研究,均達到了預(yù)期的目標。其意義有兩點:(1)數(shù)學對中醫(yī)方劑的研究,有望在規(guī)范、嚴謹、合理、有效等諸方面探索中醫(yī)學現(xiàn)代化的方法,對揭示中醫(yī)辨證論治的規(guī)律具有科學意義;(2)文獻和臨床方劑分析技術(shù)的成功研發(fā),可廣泛地應(yīng)用于中醫(yī)學的科研、教學和臨床,具有推廣應(yīng)用的前景。該數(shù)據(jù)挖掘方案也存在不少問題,如在中醫(yī)學的知識體系中,尚有不少領(lǐng)域規(guī)范化程度較低,許多標準尚待制定;用信息技術(shù)來解讀人的經(jīng)驗雖然可行,但必須有行業(yè)知識的介入,而行業(yè)知識工程的研究在中醫(yī)學領(lǐng)域中幾乎還是空白。通過以上研究也可清楚地看到各系統(tǒng)的適應(yīng)性和局限性同在。今后的研究在于把“

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論