



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、運(yùn)用數(shù)據(jù)挖掘技術(shù)研究方劑配伍規(guī)律應(yīng)注意的幾個問題 作者:陳云慧,王燕,張昱,譚圣琰 宋姚屏,蔣永光【摘要】 近年來,數(shù)據(jù)挖掘技術(shù)正逐漸被廣泛運(yùn)用到方劑配伍的研究中,在運(yùn)用該技術(shù)進(jìn)行知識發(fā)現(xiàn)的過程中,由于中醫(yī)藥數(shù)據(jù)所具有的特殊性,會產(chǎn)生一系列具有中醫(yī)特色的問題,文章從數(shù)據(jù)的規(guī)范、數(shù)據(jù)挖掘方法的選擇和挖掘結(jié)果的評判
2、等3方面進(jìn)行了討論。 【關(guān)鍵詞】 數(shù)據(jù)挖掘技術(shù) 方劑配伍規(guī)律 問題中醫(yī)講求辨證論治,多病因分析、多藥物組方、多靶點論治是其基本特點。多維度的思維是其精髓。中藥方劑最典型的體現(xiàn)了這一思維特征。方劑配伍具體表現(xiàn)為方-方、方-藥、藥-藥、藥-劑量,以及方藥、方證、藥癥(證)與證-癥的多維關(guān)聯(lián),其本質(zhì)就是一種數(shù)據(jù)關(guān)系,具有復(fù)雜性和非線性動態(tài)變化的特性,符合數(shù)據(jù)處理的要求和特征。而數(shù)據(jù)挖掘涵蓋了數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)縮減、知識發(fā)現(xiàn)的目標(biāo)確定、挖掘算法確定、數(shù)據(jù)挖掘、模式解釋及知識評價等9個處理階段,其任務(wù)是根據(jù)待分析數(shù)據(jù)的特征,選擇有效的數(shù)據(jù)挖掘算法,通過引入人工神經(jīng)、關(guān)聯(lián)規(guī)則
3、、聚類分析、頻繁集、空間矢量分析、決策樹等多種數(shù)據(jù)處理方法進(jìn)行試驗和改造,使之適應(yīng)方劑配伍研究的特點和目標(biāo)。 目前,數(shù)據(jù)挖掘這一技術(shù)正逐漸被廣泛運(yùn)用到方劑配伍特點的研究中,在運(yùn)用這一個方法進(jìn)行知識發(fā)現(xiàn)的同時,會出現(xiàn)一系列具有中醫(yī)特色的問題,需要引起我們的注意。1 數(shù)據(jù)的規(guī)范 在進(jìn)行數(shù)據(jù)挖掘的前期,務(wù)必進(jìn)行數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)縮減等相關(guān)工作。而對于方劑配伍規(guī)律的分析,需要注意的問題主要涉及到各項數(shù)據(jù)的規(guī)范問題,包括藥物名稱、度量衡單位、癥狀描述、證候名稱等。由于中醫(yī)方劑數(shù)量多達(dá)數(shù)十萬首,來源跨度數(shù)
4、千年,以及古代語言文化的多樣性及豐富性,導(dǎo)致了數(shù)據(jù)描述的不一致性。這些由于命名規(guī)則、術(shù)語表達(dá)或數(shù)據(jù)代碼的不同而產(chǎn)生的噪聲數(shù)據(jù),如果不處理好,將直接影響后期數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確度和可信度,故需要對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,去除噪聲數(shù)據(jù),以使其成為更清晰和更具意義的數(shù)據(jù)。在開展規(guī)范工作前,應(yīng)就所實施的規(guī)范原則達(dá)成一致,并對相關(guān)課題人員進(jìn)行培訓(xùn)。對于癥狀數(shù)據(jù)的規(guī)范,參照中醫(yī)癥狀鑒別診斷學(xué)1以及七版中醫(yī)高校教材中醫(yī)診斷學(xué)2建立規(guī)范癥狀表,并將癥狀性質(zhì)、癥狀程度、癥狀部位有機(jī)結(jié)合,實行癥狀規(guī)范名和癥狀異名并重的原則;對于證候名稱的規(guī)范則參照中華人民共和國國家標(biāo)準(zhǔn)中醫(yī)臨床診療術(shù)語證候部分3,主要分一詞多義、多詞
5、一義、詞義模糊、詞義交叉或涵蓋和刪除數(shù)據(jù)不完整的記錄等5種情況來處理;對于藥物名稱則參照中華本草4進(jìn)行規(guī)范。2 數(shù)據(jù)挖掘方法的選擇 前期數(shù)據(jù)準(zhǔn)備完成之后,進(jìn)入了數(shù)據(jù)挖掘階段,可具體分為確定知識發(fā)現(xiàn)目標(biāo)、確定挖掘算法和進(jìn)行數(shù)據(jù)挖掘。對于方劑配伍規(guī)律的分析,知識發(fā)現(xiàn)的目標(biāo)主要包括類方方藥、方證、藥癥、藥證以及主方結(jié)構(gòu)變化規(guī)律等等。而在確定知識發(fā)現(xiàn)目標(biāo)即分析對象之后,需要注意的問題主要是如何有針對性地選擇有效的數(shù)據(jù)挖掘算法??傮w來講,根據(jù)所發(fā)現(xiàn)模式的類型,可以分為兩種:描述性數(shù)據(jù)挖掘和預(yù)測性數(shù)據(jù)挖掘。描述性數(shù)據(jù)挖掘意在刻畫數(shù)據(jù)的特性和特征,預(yù)測性數(shù)據(jù)挖
6、掘旨在當(dāng)前數(shù)據(jù)的基礎(chǔ)上進(jìn)行推斷,并預(yù)測。具體來講,數(shù)據(jù)挖掘功能在方劑配伍規(guī)律研究中的運(yùn)用大略可以歸納如下:2.1 概念描述描述數(shù)據(jù)的分布是很有意義的??筛鶕?jù)對于數(shù)據(jù)的描述,根據(jù)其特征進(jìn)行區(qū)分;若又沿著指定維添加新維,則有利于發(fā)現(xiàn)各類之間的更多區(qū)分特性。比如,對藥物的性味、歸經(jīng)、功效情況的刻畫可以用來尋找解表藥、清熱藥、補(bǔ)益藥等幾個類型的特征,并對所分析對象所涉及的藥物進(jìn)行分類,若指定清熱藥為一維,那么沿著這一指定維進(jìn)行區(qū)分,又可以尋找到清熱瀉火藥、清熱燥濕藥、清熱解毒藥等幾個特征性亞類。2.2 關(guān)聯(lián)分析數(shù)據(jù)庫中的數(shù)據(jù)一般都存在著關(guān)聯(lián)關(guān)系,也就是說,兩個或多個變量的取值之
7、間存在某種規(guī)律性,分為簡單關(guān)聯(lián)和時序關(guān)聯(lián)兩種。簡單關(guān)聯(lián),例如:含柴胡的方劑中有60%的方同時含有黃芩;時序關(guān)聯(lián)則是在簡單關(guān)聯(lián)中增加了時間屬性。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),描述一組數(shù)據(jù)項目的密切度或關(guān)系。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)是否存在精確的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有置信度,置信度級別度量了關(guān)聯(lián)規(guī)則的強(qiáng)度。在對于方劑配伍規(guī)律的研究中,可以運(yùn)用關(guān)聯(lián)規(guī)則對藥癥、方證、藥藥、藥證等相關(guān)關(guān)系進(jìn)行研究。2.3 分類和預(yù)測分類是通過訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集試圖發(fā)現(xiàn)精度達(dá)到一定程度的分類模型的過程。分類模型可預(yù)測類標(biāo)號未知對象的類,有多種形式,如分
8、類規(guī)則、判定樹、數(shù)學(xué)公式或神經(jīng)網(wǎng)絡(luò)等。比如可運(yùn)用神經(jīng)網(wǎng)絡(luò)的方法來判定方劑功效。分類用于預(yù)測數(shù)據(jù)對象的類標(biāo)號,如果在某些應(yīng)用中,希望能預(yù)測某些遺漏或空缺值,而非類標(biāo)號,稱為預(yù)測。為使分類和預(yù)測高效地進(jìn)行,就要求進(jìn)行屬性相關(guān)分析。相關(guān)分析是通過信息增益,試圖發(fā)現(xiàn)與分類和預(yù)測屬性有關(guān)和有較強(qiáng)相關(guān)性的屬性集合,排除不相關(guān)或弱相關(guān)的屬性集合。1 2.4 聚類分析聚類不同于分類,事先不知道有幾個類,聚類分析資料點之間的相似程度,根據(jù)類內(nèi)盡可能相似和類間盡可能不同的聚類原則對數(shù)據(jù)對象進(jìn)行分組并生成新的
9、類標(biāo)號。聚類分析廣泛應(yīng)用于模式識別、數(shù)據(jù)預(yù)處理等領(lǐng)域。2.5 演變和偏差分析演變分析描述事物隨時間變化的性或趨勢,包括時間相關(guān)數(shù)據(jù)的特征、區(qū)分、關(guān)聯(lián)、分類或聚類,這類分析的不同特點包括時間序列分析、序列或周期模式匹配和類似性數(shù)據(jù)分析。 需要指出的是,在確定使用某種數(shù)據(jù)挖掘方法對大批量的數(shù)據(jù)進(jìn)行處理前,可以先進(jìn)行小額數(shù)據(jù)的多種方法的預(yù)試驗,進(jìn)行比較分析,找到最適合分析對象數(shù)據(jù)特點的數(shù)據(jù)挖掘方法。3 挖掘結(jié)果的評判 對于數(shù)據(jù)挖掘結(jié)果的評判,通常采用與目前較為公認(rèn)的認(rèn)識相比較,出準(zhǔn)確率的方法。對于不滿足評
10、判標(biāo)準(zhǔn)或與傳統(tǒng)中醫(yī)認(rèn)識有所出入的分析結(jié)果,我們稱之為不確,即其中有一部分是錯誤的結(jié)果,而另一部分則可能蘊(yùn)含著新知。這就需要咨詢有關(guān)的專家教授,再做評價。如本課題組研究人員在藥對-癥狀的關(guān)聯(lián)分析中發(fā)現(xiàn)陳皮、炙甘草與乏力、泄瀉存在較高的關(guān)聯(lián)度,此藥對已知用于胃虛痰滯之胸中痞滿,惡心食少,或用于濕痰咳嗽等癥,但對于乏力、泄瀉并無相關(guān)論述。但有關(guān)專家指出這是有意義的,因為陳皮味辛苦而性溫,入脾經(jīng),辛行苦降,能調(diào)理脾胃氣機(jī),功善燥濕化痰,理氣和中;炙甘草味甘,擅入中焦,具有補(bǔ)益脾氣之力,此藥對大量存在于四君子湯類方中。而這類方劑主治證侯群集中在氣虛類,且以脾胃氣虛為主。脾胃虛弱,運(yùn)化無權(quán),濕邪內(nèi)蘊(yùn),可致升降傳導(dǎo)失司,清濁交混致泄瀉。炙甘草補(bǔ)益脾氣,陳皮行氣燥濕,氣行則水濕自行,二藥合用脾健濕除,則乏力、泄瀉癥狀得解。 綜上所述,中醫(yī)方劑配伍的數(shù)據(jù)挖掘研究是在中醫(yī)理論的指導(dǎo)下對證候判斷、中醫(yī)方劑組方理論和配伍規(guī)律等進(jìn)行多方位、多學(xué)科、多系統(tǒng)的化研究,是一個多方面協(xié)作、高維復(fù)雜的系統(tǒng)工程。同其他領(lǐng)域相比,中醫(yī)藥數(shù)據(jù)多帶有模糊性的特點,因此必須在數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)縮減、知識發(fā)現(xiàn)的目標(biāo)確定、挖掘算法確定、數(shù)據(jù)挖掘、模式解釋及知識評價等9個處理環(huán)節(jié)中,必須要在中醫(yī)理論和/或中醫(yī)專家的參與和指導(dǎo)下方能完成由數(shù)據(jù)庫數(shù)據(jù)到可利
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 制定倉庫員工激勵機(jī)制的策略計劃
- 應(yīng)用程序的監(jiān)控與評估測試試題及答案
- 2024年湖南省農(nóng)業(yè)農(nóng)村廳下屬事業(yè)單位真題
- 馬鞍山市重點中學(xué)2025屆八年級數(shù)學(xué)第二學(xué)期期末統(tǒng)考模擬試題含解析
- 2024年臨沂市技師學(xué)院招聘筆試真題
- 2024年廣西農(nóng)牧工程學(xué)校招聘教師筆試真題
- 2024年贛州市中醫(yī)院招聘工作人員筆試真題
- 計算機(jī)視覺在醫(yī)療中的應(yīng)用試題及答案
- 2025屆湖北省武漢市六中學(xué)數(shù)學(xué)七下期末質(zhì)量跟蹤監(jiān)視試題含解析
- 軟件水平考試中的創(chuàng)新思維考察與試題及答案
- 人教版初中音樂七年級上冊《牧歌》說課稿課件
- 2021年春新青島版(五四制)科學(xué)四年級下冊全冊教案
- 畢業(yè)論文指導(dǎo)教師指導(dǎo)記錄6篇
- 石油化工設(shè)備維護(hù)檢修規(guī)程
- 貝氏體鋼軌超高周疲勞行為的研究課件
- 中國各鄉(xiāng)鎮(zhèn)名錄大全、街道名錄大全(甘肅省)
- GB∕T 2518-2019 連續(xù)熱鍍鋅和鋅合金鍍層鋼板及鋼帶
- 青海省部門統(tǒng)計數(shù)據(jù)直報系統(tǒng)
- 講人工智能的誕生課件
- 大氣商務(wù)勵志年終工作總結(jié)PPT模板課件
- 學(xué)校三年級24點競賽考試試卷
評論
0/150
提交評論