關(guān)聯(lián)規(guī)則挖掘在檢驗(yàn)信息系統(tǒng)中的應(yīng)用研究_第1頁
關(guān)聯(lián)規(guī)則挖掘在檢驗(yàn)信息系統(tǒng)中的應(yīng)用研究_第2頁
關(guān)聯(lián)規(guī)則挖掘在檢驗(yàn)信息系統(tǒng)中的應(yīng)用研究_第3頁
關(guān)聯(lián)規(guī)則挖掘在檢驗(yàn)信息系統(tǒng)中的應(yīng)用研究_第4頁
關(guān)聯(lián)規(guī)則挖掘在檢驗(yàn)信息系統(tǒng)中的應(yīng)用研究_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、40(總42)文章編號(hào):100325850(2008)0120040203關(guān)聯(lián)規(guī)則挖掘在檢驗(yàn)信息系統(tǒng)中的應(yīng)用研究2008年關(guān)聯(lián)規(guī)則挖掘在檢驗(yàn)信息系統(tǒng)中的應(yīng)用研究ApplicationofAssociationRulesMininginLaboratoryInformationSystem史曉蕾1李明東1劉宏博2(1西華師范大學(xué)計(jì)算機(jī)學(xué)院南充637002)(2承德醫(yī)學(xué)院附屬醫(yī)院承德067000)【摘要】隨著醫(yī)療檢驗(yàn)手段的飛速發(fā)展,檢驗(yàn)信息系統(tǒng)(LIS)由此被開發(fā)和運(yùn)用。為了能在該系統(tǒng)中充分利用醫(yī)學(xué)數(shù)據(jù)和醫(yī)生診斷經(jīng)驗(yàn),發(fā)現(xiàn)隱藏在這些數(shù)據(jù)背后的新的有學(xué)術(shù)價(jià)值的醫(yī)學(xué)信息,介紹了關(guān)聯(lián)規(guī)則挖掘方法在當(dāng)前檢

2、驗(yàn)信息系統(tǒng)中的應(yīng)用模式。其中詳細(xì)說明了數(shù)據(jù)挖掘步驟和在對(duì)檢驗(yàn)數(shù)據(jù)進(jìn)行挖掘時(shí)關(guān)聯(lián)規(guī)則挖掘算法的選用?!娟P(guān)鍵詞】關(guān)聯(lián)規(guī)則,數(shù)據(jù)挖掘,檢驗(yàn)信息系統(tǒng),關(guān)聯(lián)算法中圖分類號(hào):TP311.13文獻(xiàn)標(biāo)識(shí)碼:AABSTRACTWiththedevelopofthemedicaltreatmentstestmeasure,LaboratoryInformationSystemareborn.Inordertousemedicaldataanddoctorsdiagnosesexperiencetofindsomepotential,newandvaluablemedicalinformation,thispape

3、rintroducestheapplicationpatternofassociationrulesmininginthelaboratoryinformationsystem,explicatetheofminingaswellasthechooseofminingalgorithmwhenminingthetestdate.KEYWORDSassociationrules,datamining,laboratoryinformation,1檢驗(yàn)信息系統(tǒng)學(xué)(MedicalInformation)。隨著醫(yī)療檢驗(yàn)手段的飛速發(fā)展,檢驗(yàn)科原有的工作方式受到挑戰(zhàn)。引進(jìn)先進(jìn)的管理模式,讓計(jì)算機(jī)網(wǎng)絡(luò)全面進(jìn)

4、入科室管理,是現(xiàn)代檢驗(yàn)科發(fā)展的方向,對(duì)提高檢驗(yàn)科的工作效率及管理水平具有十分重要的意義。而檢驗(yàn)信息系統(tǒng)(LIS)就是根據(jù)這一新要求而開發(fā)運(yùn)用的。實(shí)施LIS是為檢驗(yàn)室開展檢驗(yàn)工作提供更加有效的系統(tǒng)支持。它基于數(shù)據(jù)庫,利用網(wǎng)絡(luò)和計(jì)算機(jī)實(shí)現(xiàn)軟件和儀器的無縫連接,并有效控制檢驗(yàn)數(shù)據(jù)的流向,模擬檢驗(yàn)科的工作流程,實(shí)現(xiàn)檢驗(yàn)信息的電子化和檢驗(yàn)信息管理自動(dòng)化。LIS中的檢驗(yàn)數(shù)據(jù)主要包括申請(qǐng)信息(病人基本信息,申請(qǐng)項(xiàng)目信息)、報(bào)告信息(結(jié)果信息)、其他信息(質(zhì)控信息等)。因此,檢驗(yàn)數(shù)據(jù)是一個(gè)海量概念,現(xiàn)在LIS面臨的問題就是怎樣在計(jì)算機(jī)的幫助下,充分利用醫(yī)學(xué)數(shù)據(jù)和醫(yī)生診斷經(jīng)驗(yàn),發(fā)現(xiàn)隱藏在這些海量數(shù)據(jù)背后的那些新

5、的有學(xué)術(shù)價(jià)值的醫(yī)學(xué)信息。但是由于醫(yī)學(xué)數(shù)據(jù)庫是一個(gè)復(fù)雜類型數(shù)據(jù)庫系統(tǒng),醫(yī)學(xué)信息具有隱私性、多樣性、冗余性等自身的特殊性和復(fù)雜性,使得數(shù)據(jù)挖掘與常規(guī)的數(shù)據(jù)挖掘之間存在著較大的差異。數(shù)據(jù)挖掘(DataMining)是在數(shù)據(jù)中正規(guī)地發(fā)現(xiàn)有效的、新穎的、潛在有用的,并且最終可以被讀懂的模式的過程。關(guān)聯(lián)規(guī)則(AssociationRules)是最先提出的挖掘知識(shí)形式,也是數(shù)據(jù)挖掘的主要對(duì)象。若兩個(gè)或多個(gè)變量的取值之間存在著某種規(guī)律性,就稱其為關(guān)聯(lián)(Association)。設(shè)I=i1,i2,im是項(xiàng)的集合。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,其中每個(gè)事務(wù)T是項(xiàng)的集合,使得TI。每一個(gè)事務(wù)有一個(gè)標(biāo)識(shí)符,稱

6、作TID(表1所示)。表1事物數(shù)據(jù)庫例子TID1234項(xiàng)的列表i1,i3i1,i3,ini1,i3,i5,inI3,in,im設(shè)A是一個(gè)項(xiàng)集,事務(wù)T包含A當(dāng)且僅當(dāng)AT。關(guān)聯(lián)規(guī)則是形如A=>B的蘊(yùn)涵式,其中A<I,B<I,并且A B=5。規(guī)則A=>B在事務(wù)集D中成立。具有支持度s,其中s是D中事務(wù)包含AYB(即A和B二者)的百分比。它是概率P(AYB)。如果D中包含A的事務(wù)同時(shí)也包含B的百分比是c。則規(guī)則A=>B在事務(wù)集D中具有置信度c。.這是條件概率P(B A)。即是:32007209226收到,2007211226改回33史曉蕾,女,1983年生,研究生,研究方

7、向:數(shù)據(jù)挖掘,信息系統(tǒng)設(shè)計(jì)。第21卷第1期電腦開發(fā)與應(yīng)用(總43)41YSupport(A=>B)=P(AB),confidence(A=>B)=P(B A)按挖掘的知識(shí)類型可分為關(guān)聯(lián)規(guī)則、特征規(guī)則、分類規(guī)則、偏差規(guī)則、聚集規(guī)則、判別式規(guī)則及時(shí)序規(guī)則等。其中,關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘近年來比較活躍的應(yīng)用。在檢驗(yàn)信息系統(tǒng)中進(jìn)行關(guān)聯(lián)規(guī)則挖掘的主要目的是在檢驗(yàn)項(xiàng)目和檢驗(yàn)結(jié)果與其他相關(guān)發(fā)病條件和原因中產(chǎn)生關(guān)聯(lián)并得到容易理解的,有價(jià)值的醫(yī)學(xué)信息的發(fā)現(xiàn)。3數(shù)據(jù)挖掘在檢驗(yàn)數(shù)據(jù)庫中的應(yīng)用模式遵循通用步驟,我們用關(guān)聯(lián)規(guī)則分析檢驗(yàn)信息系統(tǒng)數(shù)據(jù)庫中檢驗(yàn)數(shù)據(jù)具體的實(shí)現(xiàn)方法如圖1所示。3.1確定挖掘目標(biāo),么,

8、。首先,明確要解決的問題。這樣的問題要有可度量的結(jié)果,這些結(jié)果又要能引發(fā)相應(yīng)的行動(dòng),這樣才能為要解決的問題提供有效的幫助,才有一定的價(jià)值。比如,某類疾病治愈率的相關(guān)性問題,發(fā)現(xiàn)這些疾病的發(fā)生高峰,治療有效期以及醫(yī)療人員的治療水平之間的相關(guān)信息,為以后對(duì)該疾病的預(yù)防和治療都有一定的效果和幫助。然后,準(zhǔn)備數(shù)據(jù)。這一步驟需要花費(fèi)較長的時(shí)間,有效的數(shù)據(jù)準(zhǔn)備工作應(yīng)該包括數(shù)據(jù)收集、數(shù)據(jù)評(píng)估、數(shù)據(jù)合并與清除、數(shù)據(jù)選擇和數(shù)據(jù)轉(zhuǎn)換等。例如上面舉例的問題所需要的數(shù)據(jù)不是一個(gè)孤立的問題,數(shù)據(jù)也不是單一的數(shù)據(jù)庫可以提供的,它需要病人的病例,醫(yī)療人員的數(shù)據(jù)等,因此我們要將這些數(shù)據(jù)準(zhǔn)備好以后合理的導(dǎo)出。3.2數(shù)據(jù)倉庫模式

9、組織數(shù)據(jù)數(shù)據(jù)倉庫的目標(biāo)是進(jìn)行決策支持。它是支持管理決策過程的、而向主題的、集成的、穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合。主題是數(shù)據(jù)歸類的標(biāo)準(zhǔn)。每個(gè)主題對(duì)應(yīng)一個(gè)客觀領(lǐng)域,它可以為輔助決策集成多個(gè)部門不同系統(tǒng)的大量數(shù)據(jù)?;陉P(guān)系表的存儲(chǔ)方式是將數(shù)據(jù)倉庫的數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫的表結(jié)構(gòu)中,在元數(shù)據(jù)的管理下完成數(shù)據(jù)倉庫的功能。數(shù)據(jù)倉庫的核心是面向主題,面向主題的分析,面向主題的數(shù)據(jù)組織。醫(yī)院信息系統(tǒng)總體上是多主題的。如可針對(duì)某單病種的治愈率建立一個(gè)主題等??傊黝}的設(shè)立須在醫(yī)療管理人員和病案分析人員的全力參與下才能有效的建立。3.3數(shù)據(jù)挖掘處理數(shù)據(jù)挖掘階段可以根據(jù)任務(wù)的自身特點(diǎn)建立模型,選取有效算法對(duì)數(shù)據(jù)進(jìn)行挖

10、掘,這是整個(gè)數(shù)據(jù)挖掘應(yīng)用在檢驗(yàn)系統(tǒng)中最重要也是最主要的步驟,針對(duì)醫(yī)院檢驗(yàn)信息系統(tǒng)的檢驗(yàn)數(shù)據(jù)挖掘任務(wù)分以下幾個(gè)部分。31311確定挖掘方法確定數(shù)據(jù)挖掘方法。按挖掘的知識(shí)類型可分為關(guān)聯(lián)規(guī)則、特征規(guī)則、分類規(guī)則、偏差規(guī)則、聚集規(guī)則、判別式規(guī)則及時(shí)序規(guī)則等。另外,按知識(shí)的抽象層次可分為歸納知識(shí)、原始級(jí)知識(shí)、多層次知識(shí)。一個(gè)靈活的規(guī)。每個(gè)領(lǐng)域都有在醫(yī)學(xué)方面中有兩類,:一類;。通過描述性信息我、診療過程;通過預(yù)測性信息可為我們預(yù)測疾病發(fā)展,病員來源趨勢(shì)等等,而關(guān)聯(lián)規(guī)則的挖掘方法正是發(fā)現(xiàn)預(yù)測性的信息的關(guān)鍵技術(shù)之一,疾病癥狀與疾病診斷的直接關(guān)聯(lián);治療效果與藥物效用的直接關(guān)聯(lián)。31312關(guān)聯(lián)算法的比較和選用根據(jù)

11、檢驗(yàn)數(shù)據(jù)本身的特點(diǎn),決定采用何種算法才能高效地進(jìn)行挖掘是非常重要的。目前關(guān)聯(lián)規(guī)則的算法很多,其中以Apriori算法和FP2growth算法最為著名。Apriori算法使用的是一種逐層搜索的迭代方法,首先找出頻繁12項(xiàng)集的k2項(xiàng)集用于探索(k+1)2項(xiàng)集。集合,記為L1。然后在L1的基礎(chǔ)上進(jìn)行連接操作,產(chǎn)生候選22項(xiàng)集的集合,再在候選22項(xiàng)集的集合中進(jìn)行剪枝操作,產(chǎn)生頻繁22項(xiàng)集的集合L2。類似地,在L2的基礎(chǔ)上找出L3。如此下去,直到不能找到頻繁k2項(xiàng)集為止。FP2growth算法采取分而治之的策略:在保持項(xiàng)集關(guān)聯(lián)信息的情況下,把數(shù)據(jù)庫壓縮到一棵頻繁模式樹(FP2tree),它比原始數(shù)據(jù)庫小

12、很多;然后,將壓縮后的數(shù)據(jù)庫按照頻繁項(xiàng)投影,分成一些條件數(shù)據(jù)庫,并分別挖掘每個(gè)數(shù)據(jù)庫,這樣就減少了后續(xù)的掃描數(shù)據(jù)庫的時(shí)間。它又采取頻繁模式增長的方式,不產(chǎn)生候選項(xiàng)集,這使得它在挖掘的過程中不會(huì)產(chǎn)生數(shù)據(jù)庫中沒有的新事務(wù)。而Apriori算法則可能產(chǎn)生大量的候選項(xiàng)集,同時(shí)可能需要重復(fù)地掃描數(shù)據(jù)庫。根據(jù)對(duì)兩種算法定義的比較,Apriori算法相對(duì)于FP2growth算法的優(yōu)勢(shì)是要在更大的支持度上才能體現(xiàn)出來,也就是說,支持度的閾值隨數(shù)據(jù)集的稠密而變42(總44)關(guān)聯(lián)規(guī)則挖掘在檢驗(yàn)信息系統(tǒng)中的應(yīng)用研究2008年大。所以,我們應(yīng)該根據(jù)數(shù)據(jù)集的稀疏與否和支持度的高低相應(yīng)地選擇Apriori算法或FP2gr

13、owth算法中的一種。根據(jù)醫(yī)院的檢驗(yàn)數(shù)據(jù)來說,一個(gè)病人的記錄就是一個(gè)事務(wù),病人的一個(gè)檢驗(yàn)項(xiàng)目為一個(gè)事務(wù)項(xiàng)。通常醫(yī)院里的檢驗(yàn)項(xiàng)目都超過100項(xiàng),而一個(gè)病人實(shí)際的檢查項(xiàng)目只有24項(xiàng),所以病人的記錄庫是稀疏的。另外,對(duì)于醫(yī)院里所有就診的病人來說,得同一種病的人比例很小,根據(jù)對(duì)常見病發(fā)病率統(tǒng)計(jì),大部分常見病的發(fā)病率都在0.06以下,而一般系數(shù)數(shù)據(jù)集的最小支持度要比0.2小,所以發(fā)病率屬于稀疏數(shù)據(jù)集,因此要挖掘的診斷關(guān)聯(lián)規(guī)則的支持度將很小。根據(jù)以上比較結(jié)果和分析,在檢驗(yàn)數(shù)據(jù)挖掘中為得到較好的效果,應(yīng)首先考慮采用FP2growth算法。31313進(jìn)行關(guān)聯(lián)規(guī)則的挖掘當(dāng)已經(jīng)確定好某一種算法,就可以根據(jù)相應(yīng)的算

14、法進(jìn)行挖掘。以FP2growth算法為例,具體算法描述如下:算法:使用FP2tree輸入:事務(wù)數(shù)據(jù)庫D,2輸出:。首先,構(gòu)建FP2tree。掃描事務(wù)數(shù)據(jù)D一次,找滿足最小支持度閾值的頻繁項(xiàng)集合F,將F中的項(xiàng)按支持度降序L排列;創(chuàng)建FP2tree樹根,標(biāo)記為null。對(duì)事務(wù)數(shù)據(jù)庫D中每條事務(wù)T進(jìn)行處理。其次,FP2tree的挖掘通過調(diào)用FP2growth(FP2tree,null)具體實(shí)現(xiàn)。最后,產(chǎn)生關(guān)聯(lián)結(jié)果。找出數(shù)據(jù)資料中潛在的,有關(guān)聯(lián)的,有價(jià)值的信息來用于疾病的診斷和預(yù)防。3.4數(shù)據(jù)挖掘結(jié)果的分析數(shù)據(jù)挖掘方法在使用以后,還必須嚴(yán)格考查數(shù)據(jù)挖掘方法的效果。因?yàn)闆Q定成敗的并不是數(shù)據(jù)挖掘方法本身,

15、而是根據(jù)數(shù)據(jù)挖掘方法的結(jié)果所采取的行動(dòng)。只有通過分析最終結(jié)果,才能正確評(píng)價(jià)數(shù)據(jù)挖掘的效果。并且隨著時(shí)間的推移,所涉及的因素會(huì)有不同程度的發(fā)展和變化,這就需要經(jīng)常重新測試、再訓(xùn)練,甚至可能是徹底的重構(gòu)。目前針對(duì)檢驗(yàn)信息系統(tǒng)的數(shù)據(jù)挖掘在國內(nèi)尚少有人涉及,本文只是就其一方面進(jìn)行了探討,而數(shù)據(jù)挖掘本身是一個(gè)交互的過程,隨著用戶的要求不斷提高以及挖掘深度加深,新的方法和手段將逐步加入進(jìn)來,相信這方面的研究將會(huì)不斷豐富和深入。參考文獻(xiàn)12345陳文偉.數(shù)據(jù)挖掘技術(shù)M1北京:北京工業(yè)大學(xué)出版社,2002.崔雷.醫(yī)學(xué)數(shù)據(jù)挖掘M1北京:高等教育出版社,20061李初民,吳中福1知識(shí)發(fā)現(xiàn)技術(shù)在醫(yī)院管理數(shù)據(jù)庫中的應(yīng)

16、用研究J1計(jì)算機(jī)應(yīng)用,2003,19(10):36238.朱凌云1醫(yī)學(xué)數(shù)據(jù)挖掘的技術(shù)、方法及應(yīng)用J1生物醫(yī)學(xué)工程學(xué)雜志,2005,2(:472491,賀佳JMedicine,2005,7(11):2D1第四軍醫(yī)大學(xué)碩士學(xué)位78910論文,2005.殷彬,方思行1臨床數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則算法的選用J1計(jì)算機(jī)應(yīng)用,2004,25(1):26229.王華,胡學(xué)鋼1基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘在臨床上的應(yīng)用J1安徽大學(xué)學(xué)報(bào),2006,30(2):21225.張燕1數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在醫(yī)院信息系統(tǒng)中的應(yīng)用D1湖南大學(xué)工程碩士學(xué)位論文,2005.Tung,AnthonyKH,HongjunLu1Efficient

17、MiningofIntertransactionAssociationRulesIEEETransactionsonKnowledge&DataEngineering,2003,15(1):1782182.(上接第36頁)2ErichGammaRichardHelmRalph.設(shè)計(jì)模式:可復(fù)用面向?qū)ο筌浖幕A(chǔ)M.北京:機(jī)械工業(yè)出版社,2005.3AjaxinAction,DAVEWITHCRANEDARREN,ERICJAMES,PASCARELLO,45MANNINGGreenwich(74w.long.),2006.Bass,PaulClements,RickKazman.軟件架構(gòu)實(shí)踐M.北京:清華大學(xué)出版社,2004.MichaelSonntag.AjaxSecurityinGroupware,32ndEUROMICROConferenceonSoftwareEngineeringandAdvancedApplications2006.(EUROMICRO06),4結(jié)束語針對(duì)檢驗(yàn)信息系統(tǒng)的數(shù)據(jù)挖掘可以有很多方面,除本文提到的關(guān)聯(lián)規(guī)則挖掘以外還有聚類分析、時(shí)序數(shù)據(jù)分析、孤立點(diǎn)分析和分類等等應(yīng)用。所以這些應(yīng)用會(huì)給臨床醫(yī)學(xué)帶來更大的發(fā)展,這些應(yīng)用也將是以后研究的方向。另外如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論