基于數(shù)據(jù)挖掘的古代中醫(yī)古籍治療中風(fēng)的醫(yī)案研究_第1頁(yè)
基于數(shù)據(jù)挖掘的古代中醫(yī)古籍治療中風(fēng)的醫(yī)案研究_第2頁(yè)
基于數(shù)據(jù)挖掘的古代中醫(yī)古籍治療中風(fēng)的醫(yī)案研究_第3頁(yè)
基于數(shù)據(jù)挖掘的古代中醫(yī)古籍治療中風(fēng)的醫(yī)案研究_第4頁(yè)
基于數(shù)據(jù)挖掘的古代中醫(yī)古籍治療中風(fēng)的醫(yī)案研究_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于數(shù)據(jù)挖掘的古代中醫(yī)古籍治療中風(fēng)的醫(yī)案研究

此外,數(shù)據(jù)捕獲和數(shù)據(jù)捕獲也被翻譯為數(shù)據(jù)捕獲和數(shù)據(jù)捕獲。數(shù)據(jù)挖掘可解釋為數(shù)據(jù)庫(kù)之知識(shí)發(fā)掘(Knowledge-DiscoveryinDatabases,簡(jiǎn)稱:KDD),習(xí)慣上指從大量的資料中自動(dòng)搜索隱藏于其中之知識(shí)的過程。就是說我們可以從一個(gè)大型的數(shù)據(jù)庫(kù)里,將所儲(chǔ)存的大量數(shù)據(jù)當(dāng)中去萃取出一些有趣的知識(shí)。所謂的知識(shí)指的就是規(guī)則,而數(shù)據(jù)挖掘的目的就是要從大量的數(shù)據(jù)當(dāng)中,把這些對(duì)于決策過程有幫助的規(guī)則給找出來(lái)。所以數(shù)據(jù)挖掘乃是從大量數(shù)據(jù)中擷取出有意義的信息,以便達(dá)成有效業(yè)務(wù)統(tǒng)計(jì)的一種資料分析方法。但是數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)卻是不同的,因?yàn)榻y(tǒng)計(jì)與數(shù)據(jù)挖掘有很不同的前提是:統(tǒng)計(jì)往往是處理從母體做抽樣的,但數(shù)據(jù)挖掘的數(shù)據(jù)就是全部的母體。此外數(shù)據(jù)挖掘著重在辨識(shí)模式(patternrecognition)上,這不同于一般使用統(tǒng)計(jì)的目的,舉例來(lái)說,假如你在網(wǎng)絡(luò)上販賣皮鞋,統(tǒng)計(jì)可以幫助你加總過去銷售的數(shù)據(jù),像是每月的銷售總額,女性和男性消費(fèi)者個(gè)別在本月的消費(fèi)總額,來(lái)自不同網(wǎng)域的消費(fèi)者在本月的消費(fèi)總額,不同年齡層的消費(fèi)者在本月的消費(fèi)總額等等信息,而數(shù)據(jù)挖掘工具卻可以透過過去所有消費(fèi)者在網(wǎng)站上留下的數(shù)據(jù),綜合過濾后,發(fā)現(xiàn)其背后所隱藏的規(guī)則或規(guī)律。目前數(shù)據(jù)挖掘的技術(shù)可以利用各種的計(jì)算機(jī)應(yīng)用領(lǐng)域的人工智能方法:遺傳基因法(GeneticAlgorithms),神經(jīng)網(wǎng)絡(luò)(NeuralNetworks),模糊理論(FuzzyLogic)等等。數(shù)據(jù)挖掘的工具是利用數(shù)據(jù)建立一些仿真真實(shí)的世界的模式,利用這些模式描述數(shù)據(jù)中的特征與關(guān)系。由于數(shù)據(jù)庫(kù)中的數(shù)據(jù)存在多種特征,故數(shù)據(jù)挖掘的方法也是相當(dāng)多樣化,用不同的方法和技術(shù)找出不同種類的特征?;谔卣鞯奶剿?數(shù)據(jù)挖掘的方法區(qū)分5種模式:分類(Classification)、趨勢(shì)分析(TrendAnalysis)、分群(Clustering)、關(guān)聯(lián)(Association)、以及循序特征(SequencePattern)。國(guó)內(nèi)外許多的研究都有數(shù)據(jù)挖掘成功的案例被發(fā)表出來(lái),例如:醫(yī)學(xué)界、銀行業(yè)、通訊業(yè)等等,目前最成功的案例,主要是在金融及流通等領(lǐng)域。而在臺(tái)灣中風(fēng)居十大死因第2位,因此本研究所探討的對(duì)象為中風(fēng)病,擬探勘古代所有的中醫(yī)古籍有關(guān)中風(fēng)的醫(yī)案,并采用數(shù)據(jù)挖掘的多種數(shù)學(xué)算法,找出其背后的隱藏訊息,經(jīng)由這些隱藏訊息能夠分析出其特有的數(shù)據(jù)規(guī)則與規(guī)律,若能提出一個(gè)有效的發(fā)掘或運(yùn)用策略,勢(shì)必能更有效地幫助第一線的臨床醫(yī)師,并提升醫(yī)療質(zhì)量。1學(xué)習(xí)方法1.1頻率分析頻數(shù)分析乃是一種初級(jí)的數(shù)據(jù)挖掘法,此法可將已分類好的資料,經(jīng)過頻數(shù)分析后,可找出資料主要分布的情況,以了解數(shù)據(jù)的基本特性。1.2高頻項(xiàng)目集及關(guān)聯(lián)規(guī)則常見的數(shù)據(jù)挖掘技術(shù)有關(guān)系型規(guī)則、分類式、群集式、時(shí)間序列、類神經(jīng)網(wǎng)絡(luò),以及基因遺傳算法……等算法。本論文主要在探討,古代中醫(yī)中風(fēng)醫(yī)案的中藥配伍,與這些中藥之間的相關(guān)性,因此使用關(guān)聯(lián)法則來(lái)探討藥物之間的關(guān)聯(lián)性。Agrawal等學(xué)者首先提出一個(gè)數(shù)學(xué)模式,用以找出項(xiàng)目之間的關(guān)聯(lián)性,并以關(guān)聯(lián)規(guī)則表示,令I(lǐng)={i1,i2,…,in},I即是所欲討論的項(xiàng)目(items)所組成的集合。假設(shè)I是中醫(yī)古代名老中醫(yī)醫(yī)案的數(shù)據(jù)庫(kù)中所有項(xiàng)目的集合,T是全部中風(fēng)數(shù)據(jù)的集合,一筆數(shù)據(jù)Tj,Tj∈T,是由一些項(xiàng)目所形成的集合,稱之為項(xiàng)目組(itemsets)。關(guān)連規(guī)則算法,有兩個(gè)重要參數(shù):最小支持度(support)與最小信賴度(confidence)。最小支持度控制了一個(gè)規(guī)則必須涵蓋的最少數(shù)據(jù)數(shù)目,最小的信賴度則控制了這個(gè)規(guī)則的預(yù)測(cè)強(qiáng)度。規(guī)則的支持度和信賴度是規(guī)則有趣性的測(cè)量值,當(dāng)挖掘算法找出滿足使用者訂定的最小支持度和信賴度的關(guān)連規(guī)則,這個(gè)規(guī)則才算成立。舉例來(lái)說,如果要產(chǎn)生X?Y(當(dāng)發(fā)生X時(shí),則會(huì)發(fā)生Y)的關(guān)連規(guī)則時(shí),我們所面對(duì)的項(xiàng)目組集合(itemsets)便是{XY},如果我們?cè)O(shè)定最小支持度值為40%,且數(shù)據(jù)庫(kù)中有10000筆醫(yī)案記錄,則{XY}這個(gè)項(xiàng)目組集合(itemsets)所出現(xiàn)的筆數(shù)必須大于等于4000(10000,40%)才算高頻項(xiàng)目集(frequentitemset或largeitemset),而在{X}出現(xiàn)的所有記錄中,{Y}也同時(shí)出現(xiàn)的比例,便是X?Y這個(gè)關(guān)連規(guī)則的信賴度,假設(shè)我們?cè)O(shè)定的最小信賴度值為60%,則{XY}出現(xiàn)的次數(shù)除以所有含有{X}的記錄數(shù)目所得的比例,若大于等于60%,則表示這一個(gè)規(guī)則成立。上述的例子我們?nèi)粢詳?shù)學(xué)式來(lái)表示,支持度(support)便是P(X?Y)的機(jī)率,信賴度則是以條件機(jī)率P(Y|X)表示,以下為支持度與信賴度以機(jī)率的形式來(lái)表示的式子:為了避免產(chǎn)生過多無(wú)意義的規(guī)則,造成信息混亂,關(guān)系型規(guī)則算法均利用兩個(gè)門坎值來(lái)過濾數(shù)據(jù)庫(kù)中的關(guān)聯(lián)性。第1個(gè)為最小支持度(Minimumsupport),用來(lái)刪除數(shù)據(jù)庫(kù)中出現(xiàn)頻率低與此門坎值的項(xiàng)目集,若項(xiàng)目集出現(xiàn)頻率小于最小支持度,則稱此項(xiàng)目集為低頻項(xiàng)目集(Infrequentitemset或Smallitemset),否則稱為高頻項(xiàng)目集(Frequentitemset或Largeitemset)。另1個(gè)門坎值則是最小信賴度(Minimumconfidence),當(dāng)規(guī)則的信賴度大于或等于此門坎值時(shí),筆者才認(rèn)定是使用者所需的關(guān)系型規(guī)則,否則不予以理會(huì)。當(dāng)一條高頻項(xiàng)目集為X?Y時(shí),其信賴度則為共同支持X、Y項(xiàng)目集的筆數(shù)與所有支持X的筆數(shù)之比值。此時(shí)信賴度(confidence)的計(jì)算與支持度(support)的彼此關(guān)系,如下所示:confidence(X?Y)=support(X∪Y)support(X)confidence(X?Y)=support(X∪Y)support(X)而當(dāng)一個(gè)規(guī)則的信賴度大于等于最小信賴度,則稱其為關(guān)聯(lián)規(guī)則。一個(gè)有效的關(guān)系型法則,必須滿足信賴度大于等于使用者預(yù)設(shè)最小信賴度,且支持度大于等于使用者預(yù)設(shè)最小支持度的關(guān)系型法則。當(dāng)筆者要進(jìn)行關(guān)連規(guī)則的挖掘時(shí),作業(yè)的重點(diǎn)則包含了下列兩個(gè)步驟:(1)找出所有的高頻項(xiàng)目集(frequentitemset):先掃瞄數(shù)據(jù)庫(kù)中候選項(xiàng)目集的出現(xiàn)次數(shù),計(jì)算出候選項(xiàng)目集的支持度,以最小支持度進(jìn)行篩選,然后通過最小支持度的候選項(xiàng)目集可成為高頻項(xiàng)目集,再利用高頻項(xiàng)目集結(jié)合新的候選項(xiàng)目集,重復(fù)此步驟直到無(wú)法產(chǎn)生新的候選項(xiàng)目集為止。(2)找尋關(guān)系型規(guī)則:找出所有高頻項(xiàng)目集后,以高頻項(xiàng)目集組合出所有的關(guān)系型規(guī)則,一一檢查所產(chǎn)生的規(guī)則必須滿足最小支持度(support)及最小信賴度(confidence)的門坎才能成立。其中第1個(gè)步驟決定了整個(gè)作業(yè)的效能,它占了所有作業(yè)的大部分時(shí)間,且在第1個(gè)步驟完成后,第2個(gè)步驟的作業(yè)便可以輕易完成,所以在探討關(guān)連規(guī)則的挖掘時(shí),均將焦點(diǎn)放在如何有效率的找出高頻項(xiàng)目集(frequentitemset)來(lái)。Apriori算法是目前最普遍的探勘關(guān)系型規(guī)則算法。Apriori算法利用高頻項(xiàng)目集之父集合(Superset)有可能成為高頻項(xiàng)目集之特性,將高頻項(xiàng)目集兩兩結(jié)合產(chǎn)生下一長(zhǎng)度有可能成為高頻的項(xiàng)目集,稱為候選項(xiàng)目集(Candidateitemset),并利用低頻項(xiàng)目集的父集合不可能成為高頻項(xiàng)目集的特性,刪除子項(xiàng)目集集合中不全為高頻項(xiàng)目集的候選項(xiàng)目集,以減少必須判斷的候選項(xiàng)目集個(gè)數(shù),再掃瞄數(shù)據(jù)庫(kù)計(jì)算候選項(xiàng)目集支持度。Apriori算法挖掘關(guān)系型規(guī)則的執(zhí)行步驟如下:①使用者先設(shè)定最小支持度與最小信賴度。②掃描數(shù)據(jù)庫(kù)計(jì)算所有長(zhǎng)度為1的候選項(xiàng)目集支持度,利用最小支持度過濾出高頻項(xiàng)目集集合。③由長(zhǎng)度1的高頻項(xiàng)目集兩兩組合出候選2-項(xiàng)目集。④令k=2。⑤掃描數(shù)據(jù)庫(kù)求出長(zhǎng)度為k的候選項(xiàng)目集支持度。⑥以最小支持度刪除未通過的候選項(xiàng)目集,求出高頻項(xiàng)目集。⑦以最小信賴度檢查由高頻k-項(xiàng)目集組合出的k-項(xiàng)目集規(guī)則,產(chǎn)生關(guān)系型規(guī)則。⑧以高頻k-項(xiàng)目集,組合出候選(k+1)-項(xiàng)目集,并檢查候選(k+1)-項(xiàng)目集的k-子項(xiàng)目集是否全為高頻項(xiàng)目集,若不是,則忽略此候選項(xiàng)目集。⑨k=k+1。⑩重復(fù)5~9步驟,直到無(wú)法產(chǎn)生新的候選項(xiàng)目集為止。1.3數(shù)據(jù)來(lái)源中華醫(yī)典。本研究數(shù)據(jù)挖掘的數(shù)據(jù)來(lái)源即是中華醫(yī)典的古代名醫(yī)醫(yī)案記錄。2部分研究步驟本研究依照知識(shí)發(fā)現(xiàn)的6大步驟來(lái)進(jìn)行數(shù)據(jù)挖掘,并依研究之需重新定義部分研究步驟的方式,依資料收集、醫(yī)案處理、登入數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、樣式評(píng)估、結(jié)果展示之步驟進(jìn)行研究。2.1選擇的案料醫(yī)案收集針對(duì)本研究要探勘的中風(fēng)醫(yī)案,選出其中20個(gè)醫(yī)案,選出的醫(yī)案,分別是也是山人醫(yī)案、吳鞠通醫(yī)案、葉天士醫(yī)案、臨證指南醫(yī)案,這些醫(yī)案都來(lái)自中華醫(yī)典。2.2臨床資料與分析方法數(shù)據(jù)前置處理選擇的數(shù)據(jù)進(jìn)行整理,分別整理出病歷數(shù)據(jù)的年齡、性別、病歷來(lái)源、疾病類型(以中風(fēng)主要)、病機(jī)、治法、癥狀、處方名稱、藥物,大致上主要分為以上9種。在此,以一個(gè)在中華醫(yī)典所擷取出來(lái)的醫(yī)案數(shù)據(jù)為例,說明如何進(jìn)行分類:中華醫(yī)典的醫(yī)案原始資料如下:今年風(fēng)木司天,春夏陽(yáng)升之候,兼因平昔怒勞憂思,以致五志氣火交并于上,肝膽內(nèi)風(fēng)鼓動(dòng)盤旋,上盛則下虛,故足膝無(wú)力,肝木內(nèi)風(fēng)壯火,乘襲胃土,胃主肌肉,脈絡(luò)應(yīng)肢,繞出環(huán)口,故唇舌麻木,肢節(jié)如痿,固為中厥之萌,觀河間內(nèi)火召風(fēng)之論,都以苦降辛泄,少佐微酸,最合經(jīng)旨,折其上騰之威,使清空諸竅,毋使?jié)崽祲鸦鹈杀?乃用藥之權(quán)衡也,至于頤養(yǎng)工夫,寒暄保攝,尤當(dāng)加意于藥餌之先。故本研究,先將上述醫(yī)案資料進(jìn)行分類、整理,分成醫(yī)案來(lái)源、癥狀、治法、藥物。2.3步驟3登入數(shù)據(jù)庫(kù)依照數(shù)據(jù)前置處理的數(shù)據(jù),將數(shù)據(jù)登入數(shù)據(jù)庫(kù)。本研究依照整理出來(lái)的數(shù)據(jù)類型,制作一個(gè)登入醫(yī)案的程序以方便將數(shù)據(jù)輸入數(shù)據(jù)庫(kù)中。2.4qol東北部算法數(shù)據(jù)挖掘數(shù)據(jù)挖掘分析工具,乃使用Microsoft的SQLServer2005中的AnalysisServices功能,使用數(shù)據(jù)挖掘中的關(guān)連規(guī)則與頻數(shù)分析等算法。針對(duì)醫(yī)案中的中藥進(jìn)行數(shù)據(jù)挖掘過程示意圖如圖1~3所示。3結(jié)果與討論將所選取出的中風(fēng)案例,將其中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘后,分析其中所代表的意義。3.1肉婦、天麻、林公的頻率20個(gè)醫(yī)案里,總計(jì)中藥出現(xiàn)在醫(yī)案的次數(shù)為166次其中地黃、枸杞子各出現(xiàn)10次,所占的頻率各為6%,當(dāng)歸出現(xiàn)7次,所占的頻率為4.2%,肉蓯蓉出現(xiàn)6次,所占的頻率為3.6%,天麻、茯神、甘草、石斛、牛膝各出現(xiàn)5次,所占的頻率為3%,桑葉、大棗、菊花、陳皮、沙苑子、通草、半夏、遠(yuǎn)志、黃甘菊、巴戟天、人參、牡蠣各出現(xiàn)3次,所占的頻率為1.8%,以下就不計(jì);所以可以發(fā)現(xiàn),若以頻數(shù)分析的角度來(lái)看,古代的中醫(yī)名家治療中風(fēng)患者時(shí),經(jīng)常使用到地黃、枸杞子、當(dāng)歸、肉蓯蓉。3.2古代文獻(xiàn)中的藥對(duì)對(duì)關(guān)聯(lián)度分析將兩個(gè)藥物之間關(guān)聯(lián)進(jìn)行比較,并將比較關(guān)聯(lián)低的篩選掉,并將關(guān)聯(lián)度高的結(jié)果列出如下(關(guān)聯(lián)度>=0.6,支持度>=0.2)。由上都是關(guān)聯(lián)分析后,發(fā)現(xiàn)古代名醫(yī)最常用來(lái)治療中風(fēng)的藥對(duì)。其中又可以發(fā)現(xiàn):枸杞子是最常出現(xiàn)在治療中風(fēng)之藥對(duì)組合中的中藥。3.33關(guān)聯(lián)度、支持度關(guān)聯(lián)度筆者將3個(gè)藥物之間關(guān)聯(lián)進(jìn)行比較,并將比較關(guān)聯(lián)低的篩選掉,并將關(guān)聯(lián)度高的結(jié)果列出如下(關(guān)聯(lián)度>=0.6,支持度>=0.2)。由上都是關(guān)聯(lián)分析后,發(fā)現(xiàn)古代名醫(yī)最常用來(lái)治療中風(fēng)的3個(gè)藥對(duì)。其中可以發(fā)現(xiàn)在這3個(gè)規(guī)則中,都有枸杞子出現(xiàn)。3.4古代文獻(xiàn)中對(duì)中藥的應(yīng)用經(jīng)由分析數(shù)據(jù)挖掘的結(jié)果,參考各種分析的算法(頻數(shù)分析、關(guān)聯(lián)分析),樣式評(píng)估的這些數(shù)據(jù),筆者可以發(fā)現(xiàn)古代

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論