數據挖掘在醫(yī)學方面的應用分享_第1頁
數據挖掘在醫(yī)學方面的應用分享_第2頁
數據挖掘在醫(yī)學方面的應用分享_第3頁
數據挖掘在醫(yī)學方面的應用分享_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、真誠為您提供優(yōu)質參考資料,若有不當之處,請指正。數據挖掘在醫(yī)學方面的應用摘要:著信息技術的發(fā)展,采集、存儲和管理數據的手段日益完善。數據挖掘學科應運而生。本文介紹數據挖掘的概念和應用,以及國內醫(yī)學方面數據挖掘的應用現狀及展望。關鍵字:數據挖掘 醫(yī)學Abstract: The discipline of data mining emerges with the development of technology and maturation of methods of data collection, storage and management. The paper introduces th

2、e concept of data mining. This paper introduces data mining concepts and applications, as well as domestic medical data mining application status and its prospect.Key Words: data mining;biomedical1引言隨著數據庫技術的飛速發(fā)展,信息技術已滲透到包括醫(yī)學在內的各種領域。很多大中型醫(yī)院都相繼建立了自己的醫(yī)院信息系統(HIS),隨著HIS的應用和不斷發(fā)展,數據庫中的數據量迅速膨脹,數據庫規(guī)模逐漸擴大,復雜程

3、度日益增加。但是盡管積累了大量的業(yè)務數據,真正能將這些數據的價值挖掘出來,并運用到醫(yī)院的臨床輔助診斷和日常管理決策中去的卻很少。提出了建立基于HIS系統的醫(yī)學信息數據倉庫,在此基礎上,對數據倉庫中的醫(yī)療數據進行疾病監(jiān)測、預測、醫(yī)院管理輔助決策等方面的數據挖掘。為醫(yī)務工XXX、臨床管理人員、科研人員提供輔助決策與綜合分析的工具。在醫(yī)療方面具有重要的意義。2.數據挖掘技術介紹2.1數據挖掘額的概念數據挖掘是商務智能應用中較高層次的一項技術,是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程1。利用數據挖掘用戶將可以更加方便地發(fā)

4、現數據的規(guī)律,用戶可以利用這些規(guī)律對某些符合特征的數據作出預測。數據挖掘所得到的信息應具有先未知,有效和可實用三個特征。先未知是指數據挖掘所得到的信息應該是先前不能憑直覺或一般的技術方法所能得到的信息,挖掘到的住處越是出乎意料就可能越有價值。在這方面的一個典型例子就是一家連鎖商店通過數據挖掘發(fā)現小孩尿布和啤酒之間有著驚人的XXX。而有效和可實用是數據挖掘的目的所在。數據挖掘的分析方法有很多種,針對不同的用途就有不同的分析方法,比較常見的分析方法有一下集幾種:分類、預測、相關性分組活關聯規(guī)則、聚類、估值、描述和可視化、復雜數據類型挖掘,包括文本數據挖掘。WEB數據挖掘、圖形圖像數據挖掘、視頻和音

5、頻數據挖掘。2.2數據挖掘的過程數據挖掘的過程一般由三個主要的階段構成:數據準備、開采操作、結果表達和解釋,對知識的發(fā)現可以描述為這三個階段的反復過程。(1)數據準備這個階段又可進一步分成三個子步驟:數據集成,數據選擇、數據預處理。數據集成將多文件和多數據庫運行環(huán)境中的數據進行組合,解決語義模糊性,處理數據中的遺漏和清洗無效數據等。數據選擇的目的是辨別出需要分析的數據集合,縮小處理范圍,提高數據挖掘的質量。預處理是為了克服目前數據挖掘工具的局限性。(2)數據挖掘這個階段進行實際性分析工作,包括的要點是:先決定如何產生假設,是讓數據挖掘系統為用戶產生假設,還是用戶自己對數據庫中可能包含的知識提出

6、假設,前一種稱為發(fā)現型的數據挖掘;后一種稱為驗證型的數據挖掘。再選擇合適的工具進行發(fā)掘知識的操作,最后進行證實。(3)結果表述和解釋根據用戶的需求對提取的信息進行分析,挑選出有效信息,并且通過決策支持工具進行移交。因此,這一步驟的任務不僅是把結果表達出來(例如采用信息可視化方法),還要對信息進行過濾處理,如果不能令用戶滿意,需要重復以上數據挖掘的過此,這一步驟的任務不僅是把結果表達出來(例如采用信息可視化方法),還要對信息進行過濾處理,如果不能令用戶滿意,需要重復以上數據挖掘的過程。23數據挖掘的功能(1)自動預測趨勢和行為:數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的

7、問題如今可以迅速直接由數據本身得出結論。(2)關聯分析:數據關聯是數據庫中存在的一類重要的可被發(fā)現的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規(guī)則帶有可信度。(3)聚類:數據庫中的記錄可被劃分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。(4)概念描述:概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同

8、特征,后者描述不同類對象之間的區(qū)別。(5)偏差檢測:數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是尋找觀測結果與參照值之間有意義的差別。3數據挖掘在醫(yī)學中的應用31數據挖掘在生物醫(yī)學DNA中的應用隨著全球人類基因組計劃(Human Genome Project)對人類24對染色體全部基因測序的完成,人類基因的研究將進入全新的發(fā)展階段。因此對DNA的序列模式分析是分子生物醫(yī)學領域工XXX面臨的重要任務,而數據挖掘成為DNA分析中的強有力的工具,并在以

9、下方面對DNA的分析做出不小的貢獻。(1)DNA序列問相似搜索與比較:在基因分析中一個最為重要的搜索問題是DNA序列中的相似搜索和比較。對分別來自帶病和健康組織的基因序列,進行比較以識別兩類基因間的差異。做法可以是首先從兩類基因中檢索出基因序列,然后找出并比較每一類中頻繁出現的模式,通常在帶病樣本中出現頻度超出健康樣本的序列,可以認為是導致疾病的基因因素;另一方面,在健康樣本中出現頻度超出帶病樣本的序列,可以認為是抗疾病的因素。(2)關聯分析:同時出現的基因序列的識別:目前許多研究關注的是一個基因與另一個基因的比較。大部分疾病不是由單一基因引起的,而是基因組合起來共同起作用的結果。關聯分析方法

10、可用于幫助確定在目標樣本中同時出現的基因種類,此類分析將有助于發(fā)現基因組和x,-t基因間的交叉與XXX的研究。(3)路徑分析:發(fā)現在不同階段的致病基因:引起一種疾病的基因可能不止一個,不過不同基因可能在不同階段起著作用。如果能找到疾病發(fā)展的不同階段遺傳因素序列,就有可能開發(fā)針對疾病不同階段的治療藥物,從而取得更為有效的治療效果,在遺傳研究中路徑分析會起到重要的作用。(4) DNA序列分類:DNA序列中有外顯子和內含子,外顯子是被轉錄為信使RNA并被翻譯成蛋白質的序列,而內顯子則不然。區(qū)分DNA序列中的外顯子和內含子也是很重要的,非線性相關統計法AMI(average mutual inform

11、ation)是可行的,另外,神經網絡、分類及聚類算法也是有用的。32數據挖掘在醫(yī)學中的應用(1)疾病診斷:正確的診斷對于指導病人的用藥及康復顯然是重要的,在臨床中有些疾病錯綜復雜,數據挖掘的有關分類分析可以應用于疾病的診斷。粗糙集理論、人T神經網絡、模糊邏輯分析在疾病診斷方面是有效的。國內有學者將粗糙集理論應用于中醫(yī)類風濕的診斷,取得了滿意的效果,大大提高了診斷準確率,國外A.Kusiak等將基于粗糙集理論的兩種算法應用于實體性肺結節(jié)的診斷,診斷準確率達100,Roshawrma Scales等基于人工神經網絡理論及模糊邏輯開發(fā)的對心血管疾病診斷的工具對疾病診斷的正確率達到92。(2)疾病相關

12、因素分析:在病案信息庫中有大量的關于病人的病情和病人的個人信息,包括年齡、性別、居住地、職業(yè)、生活情況等,對數據庫中的信息進行關聯規(guī)則分析可以發(fā)現有意義的關系及模式,某種疾病的相關發(fā)病危險因素分析可以指導患者如何預防該疾病。Jonathan CPrather等成功地應用數據挖掘的有關理論對Duke大學醫(yī)學中心的產科病人早產的3個危險因素進行了分析。(3)疾病預測:確定某些疾病的發(fā)展模式,根據病人的病史預測病情的發(fā)展趨勢,從而有針對性的預防疾病的發(fā)生。應用粗糙集理論根據以往病例歸納出診斷規(guī)則,用來預測新的疾病的發(fā)生,現有的人工預測早產的準確率只有1738,應用粗糙集理論則可提高到6890。(4)

13、在醫(yī)療質量管理中的應用:醫(yī)療保健領域的改革使得費用壓力增加,另外一方面對醫(yī)院醫(yī)療質量的需求也增高,以及其他醫(yī)療服務機構的增多,使得醫(yī)院管理者比以往更關心醫(yī)療及管理的質量以及費用一效益比率。醫(yī)療質量管理的核心是數據、標準、計劃以及治療的質量,這些質量可以用不同的指數來衡量,數據挖掘可以幫助質量管理者解決下列任務:發(fā)現新的關于數據、標準、計劃以及治療的質量指數的假說;檢驗現有的關于數據、標準、計劃以及治療的質量指數是否有效;提煉,粗糙化及調整關于數據、標準、計劃以及治療的質量指數。常見的問題有:什么原因導致違背標準?個人信息、年齡、性別是怎樣影響對標準的違背的?比如:若年齡因素和某種治療導致住院時

14、間比標準住院時間長,是否考慮修改治療方案?數據挖掘可以幫助發(fā)現有關提高臨床服務效率及質量潛力的證據。(5)在醫(yī)學圖像中的應用:醫(yī)學領域中越來越多地應用圖像作為疾病診斷的工具,如SPECT、CT、MRI、PET等,數據挖掘可以應用于醫(yī)學圖像的分析。Sacha等成功地運用基于貝葉斯分類的數據挖掘模式對心肌SPECT圖像進行分類診斷。(6)在醫(yī)學其他方面的應用:數據挖掘還應用于毒理學方面,藥物的新的副作用發(fā)現。4.國內生物醫(yī)學數據挖掘的應用現狀及展望我國的醫(yī)院信息系統(HIS)經過多年的自動化建設,已具備相當的物質條件和人才儲備,并積累了大量數據,為數據挖掘應用奠定了一定的物質基礎。而且,醫(yī)院信息化

15、發(fā)展是我國信息化建設的重要組成部分,國家對此給予了高度的重視并提供了大量政策上和經濟上的支持,為行業(yè)性數據挖掘的實施提供了良好的政策環(huán)境和經濟保障。在我國,盡管醫(yī)學的數據極為豐富,但運用數據挖掘技術分析和處理這些數據資源的研究尚處于起步階段。原因主要在于以下兩個方面:其一,數據挖掘采用許多復雜的數學工具,這可能使生物醫(yī)學科學研究者“望而卻步”。其實,這種“恐懼”心理是不必要的。對于生物醫(yī)學領域的研究者而言,并不需要設計這些數學工具,他們需要的是理性地使用這些現有的工具。許多數據處理軟件包(如Weka、BMiner、SPSS Clementine和SAS Enterprise Miner等)都包

16、含常用數據挖掘方法的功能。其二,當前醫(yī)學教育中的知識結構使大部分生物醫(yī)學研究者對“數據挖掘”這類數據分析處理技術不甚了解、也不甚敏感,也就更難以自覺地應用。隨著生物醫(yī)學研究人員對“數據挖掘”及其應用的理解不斷深入,這種新穎的數據分析工具必將對生物醫(yī)學研究產生積極的促進作用。5結語生物醫(yī)學數據庫是一個復雜數據庫,包括電子病歷、醫(yī)學影像、病理參數、化驗結果等。目前數據挖掘技術主要應用于以結構化數據為主的關系數據庫、事務數據庫和數據倉庫,對復雜類型數據的挖掘尚在起步階段。造成這種局面的可能原因有:挖掘結果的可理解性欠佳;挖掘結果數量過大,難以處置:挖掘方法在實際應用中與用戶的交互作用不理想等。數據挖掘在經過多年的發(fā)展之后已經形成相對成熟的技術體系,特別是在數據挖掘設計、數據抽取以及聯機分析處理技術等方面都取得了令人滿意的進展,為數據挖掘的應用奠定了技術基礎。隨著數據挖掘技術的廣泛應用和各種挖掘算法的不斷改進完善,結合生物醫(yī)學信息自身的特殊性和復雜性,處理好挖掘過程中的關鍵技術,使數據挖掘技術在處理生物醫(yī)學資料中的功能日益強大。數據挖掘技術在生物醫(yī)學研究、醫(yī)療衛(wèi)生管理與決策中的應用范圍也會越來越廣,并帶來可觀的經濟和社會效益。參考文獻:1康曉東基于數據倉庫的數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論