大數(shù)據(jù)時代醫(yī)學(xué)生物信息的挖掘和利用_第1頁
大數(shù)據(jù)時代醫(yī)學(xué)生物信息的挖掘和利用_第2頁
大數(shù)據(jù)時代醫(yī)學(xué)生物信息的挖掘和利用_第3頁
大數(shù)據(jù)時代醫(yī)學(xué)生物信息的挖掘和利用_第4頁
大數(shù)據(jù)時代醫(yī)學(xué)生物信息的挖掘和利用_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)時代醫(yī)學(xué)生物信息的挖掘和利用   摘要:隨著醫(yī)院信息化的建設(shè),醫(yī)療診斷手段進(jìn)步和高通量實驗設(shè)備的利用,醫(yī)學(xué)數(shù)據(jù)呈現(xiàn)幾何級數(shù)的增長表現(xiàn)出大數(shù)據(jù)的特征。如何利用現(xiàn)在已有的醫(yī)療信息系統(tǒng)和在將來醫(yī)學(xué)生物信息化建設(shè)的問題上,對醫(yī)學(xué)研究、標(biāo)本庫建設(shè)、臨床醫(yī)療、醫(yī)療衛(wèi)生監(jiān)管等都提出了巨大的挑戰(zhàn),也為生物醫(yī)學(xué)研究帶來了前所未有的機遇。開展"大數(shù)據(jù)"相關(guān)研究工作對醫(yī)院信息化建設(shè)、生物標(biāo)本信息庫建設(shè)是有著意義的。這種研究技術(shù)的應(yīng)用必將成為生物醫(yī)藥科學(xué)技術(shù)發(fā)展的趨勢,也必將是未來生物信息研究領(lǐng)域的核心技術(shù)。所以做好相關(guān)的技術(shù)知識了解、基礎(chǔ)建設(shè)要求、人才培養(yǎng)內(nèi)容是非常必要

2、的。大數(shù)據(jù)必將滲透到醫(yī)學(xué)領(lǐng)域,改變著醫(yī)學(xué)研究、醫(yī)學(xué)臨床、醫(yī)學(xué)管理的實踐。 關(guān)鍵詞:大數(shù)據(jù);海量存儲;數(shù)據(jù)挖掘;標(biāo)本庫;醫(yī)學(xué)生物信息;數(shù)據(jù)挖掘 隨著信息技術(shù)在醫(yī)學(xué)臨床和科研中的應(yīng)用,臨床醫(yī)學(xué)、生物學(xué)、信息學(xué)發(fā)生了一次交叉融合, 這種以生物大數(shù)據(jù)信息是未來生物醫(yī)學(xué)研究發(fā)展的核心點。這種以海量、高維度、數(shù)據(jù)變量復(fù)雜、為特征的數(shù)據(jù)結(jié)構(gòu), 需要我們在傳統(tǒng)的醫(yī)學(xué)基礎(chǔ)之上集數(shù)學(xué)、統(tǒng)計學(xué)、工程學(xué)、計算機信息科學(xué)的交叉綜合、理論和實驗相結(jié)合,建立新的新方法和手段。使得我們的臨床醫(yī)學(xué)模式從經(jīng)驗醫(yī)學(xué)進(jìn)一步向循證醫(yī)學(xué)轉(zhuǎn)變,無序醫(yī)療向著有序醫(yī)療發(fā)展,醫(yī)學(xué)研究也會進(jìn)入從發(fā)現(xiàn)、研究、驗證、應(yīng)用到再發(fā)現(xiàn)、

3、再研究、再驗證、再應(yīng)用的迭代式良性循環(huán)過程中。 1實現(xiàn)大數(shù)據(jù)的大價值是醫(yī)學(xué)信息建設(shè)的新目標(biāo) 信息化時代各行業(yè)信息數(shù)據(jù)量呈現(xiàn)指數(shù)上升,醫(yī)療行業(yè)的數(shù)據(jù)信息增長更快。經(jīng)研究表明,未來10年醫(yī)學(xué)數(shù)據(jù)將高爆式地增長,其增長來源于醫(yī)院醫(yī)療信息運行數(shù)據(jù)的積累、新的臨床信息系統(tǒng)的嵌入(如電子病例系統(tǒng))、新醫(yī)療診療設(shè)備接入等。隨著醫(yī)學(xué)的進(jìn)步以生物芯片為代表的高通量生物技術(shù)的飛速發(fā)展,基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)的信息也會涌入醫(yī)學(xué)生物信息領(lǐng)域。這種大量高速增長的數(shù)據(jù)被稱之為海量數(shù)據(jù)或者大數(shù)據(jù)(big data)。大數(shù)據(jù)的特點是海量、高維度、數(shù)據(jù)變量復(fù)雜、分析處理復(fù)雜。 隨

4、著信息技術(shù)在醫(yī)學(xué)臨床和科研中的應(yīng)用,臨床醫(yī)學(xué)、生物學(xué)、信息學(xué)發(fā)生了一次交叉融合,形成了生物醫(yī)學(xué)信息學(xué)(Biomedical Informatics)。這種以生物大數(shù)據(jù)信息是未來生物醫(yī)學(xué)研究發(fā)展的核心點。我們可以看到,生物醫(yī)學(xué)領(lǐng)域的大數(shù)據(jù)時代正在來臨,其發(fā)展將促使我們盡快構(gòu)建一個實時、便捷、全方位的醫(yī)學(xué)生物信息挖掘和應(yīng)用系統(tǒng)。在醫(yī)學(xué)信息研究方面,我國還主要處在對醫(yī)療流程的信息化管理、質(zhì)量控制等初級階段,尚未開展面對"大數(shù)據(jù)"挖掘的系統(tǒng)研究與應(yīng)用,但這種研究與挖掘應(yīng)用必將成為生物醫(yī)藥科學(xué)技術(shù)發(fā)展的趨勢。論文發(fā)表咨詢QQ:3028459935闕編輯 大數(shù)據(jù)時代的到來,既對臨床醫(yī)生

5、、研究人員、醫(yī)院管理者、醫(yī)療監(jiān)管機構(gòu)等都提出了巨大的挑戰(zhàn),也為生物醫(yī)學(xué)研究帶來了前所未有的機遇。生物醫(yī)學(xué)領(lǐng)域里科學(xué)研究的一個重要發(fā)展趨勢就是數(shù)據(jù)驅(qū)動。以前進(jìn)行實驗研究的目的是獲得結(jié)論或者是提出一種新的假設(shè),大數(shù)據(jù)技術(shù)通過對海量數(shù)據(jù)的研究來探索其中的規(guī)律,可以直接提出假設(shè)或得出可靠的結(jié)論。 當(dāng)前,以臨床醫(yī)療信息為基礎(chǔ)的計算機信息系統(tǒng)可擴(kuò)展到多個相聯(lián)的信息系統(tǒng),包括:電子病例系統(tǒng)、隨訪信息管理系統(tǒng)、實驗室信息管理系統(tǒng)、生物信息分析系統(tǒng)、基因組學(xué)數(shù)據(jù)庫系統(tǒng)、藥物臨床試驗信息系統(tǒng)等,在醫(yī)學(xué)科研與臨床應(yīng)用之間架起了一道不可或缺的橋梁。收集大數(shù)據(jù)、整合大數(shù)據(jù)、處理和分析大數(shù)據(jù),形成價值密度高、利

6、用價值高的數(shù)據(jù)資源體系,實現(xiàn)"大數(shù)據(jù)"的"大價值",是醫(yī)學(xué)信息建設(shè)的新目標(biāo)。 2大數(shù)據(jù)挖掘?qū)⒈P活醫(yī)學(xué)生物信息資產(chǎn) 醫(yī)學(xué)生物信息的大數(shù)據(jù)包括醫(yī)療對象以及與醫(yī)療對象相關(guān)的信息特征集合,生物標(biāo)本以及與生物標(biāo)本信息相關(guān)的特征集合,這些大數(shù)據(jù)集帶有自己的、潛在的、未被揭示的規(guī)律趨勢特征,這才是醫(yī)學(xué)生物信息價值的核心所在。這些醫(yī)學(xué)生物信息是我們進(jìn)行用于人類健康研究價值的資產(chǎn),研究、分析、挖掘海量醫(yī)學(xué)生物信息就是盤活人類健康研究的資產(chǎn)。數(shù)據(jù)挖掘,也稱知識發(fā)現(xiàn),是盤活這些寶貴的醫(yī)學(xué)生物信息資產(chǎn)的有力工具。 大數(shù)據(jù)的挖掘和應(yīng)用不同于傳統(tǒng)的采樣

7、分析法,它有自身的一些獨特特點,如:大數(shù)據(jù)挖掘分析與事物相關(guān)的所有數(shù)據(jù),而非少量數(shù)據(jù)樣本,研究的樣本數(shù)量趨近于總體數(shù)量;大數(shù)據(jù)挖掘追求的是效率和趨勢,而非絕對的準(zhǔn)確性;大數(shù)據(jù)挖掘更多關(guān)注事物的相關(guān)關(guān)系而非因果關(guān)系,這種信息與信息之間的相關(guān)關(guān)系會提醒我們某件事情正在發(fā)生。 同時,從數(shù)據(jù)中發(fā)現(xiàn)價值的實踐也由來已久。橫跨數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)和機器學(xué)習(xí)等交叉學(xué)科和技術(shù)的數(shù)據(jù)挖掘是大數(shù)據(jù)分析的基礎(chǔ),傳統(tǒng)的數(shù)據(jù)分析實踐是無法適應(yīng)大數(shù)據(jù)的發(fā)展的。 近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注。其主要原因是,由業(yè)務(wù)系統(tǒng)產(chǎn)生的大量數(shù)據(jù),迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識,并廣泛使用于業(yè)務(wù)中

8、。獲取的信息和知識可以廣泛用于各種實踐應(yīng)用,論文發(fā)表咨詢QQ:3028459935闕編輯 包括商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計和科學(xué)探索等領(lǐng)域。數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想和方法:統(tǒng)計學(xué)、人工智能、模式識別、機器學(xué)習(xí)等。數(shù)據(jù)挖掘的很多算法都采用了以上領(lǐng)域中的理論算法、建模技術(shù)和學(xué)習(xí)理論等。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化技術(shù)、進(jìn)化計算、信息論、信號處理、可視化和信息檢索技術(shù)等。數(shù)據(jù)挖掘也需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理得支持。源于高性能并行計算的技術(shù)在處理海量數(shù)據(jù)集方面常常是也重要的。分布式計算技術(shù)也能有效地幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能

9、集中到一起處理時更是至關(guān)重要的2。 醫(yī)學(xué)生物信息的數(shù)據(jù)挖掘應(yīng)用比較廣泛,醫(yī)學(xué)樣本庫領(lǐng)域的應(yīng)用就是其中的一個實例。通過建立臨床醫(yī)學(xué)樣本信息篩選和偵測交互信息平臺來建立協(xié)作樣本庫和虛擬樣本庫。建立樣本庫協(xié)作單位的協(xié)作機制、嚴(yán)格的樣本篩選策略(根據(jù)研究項目協(xié)議和國家地方相關(guān)標(biāo)準(zhǔn)診斷、歸轉(zhuǎn)標(biāo)準(zhǔn))、應(yīng)答式的標(biāo)本收集機制、樣本區(qū)域內(nèi)(研究機構(gòu)、轉(zhuǎn)化中心、醫(yī)院)權(quán)利共享機制,以建立全新模式、響應(yīng)一致、反應(yīng)迅速、整齊劃一的樣本收集研究管理的體系。建設(shè)樣本從標(biāo)篩選、采集、管理策略運轉(zhuǎn)的實例,是以一個研究中心結(jié)合45個醫(yī)院以及45個樣本篩選醫(yī)院,建立研究臨床醫(yī)學(xué)轉(zhuǎn)化知識發(fā)現(xiàn)和研究驗證系統(tǒng)信息平臺和建立臨

10、床醫(yī)學(xué)樣本信息篩選和偵測交互信息平臺的基礎(chǔ)。醫(yī)學(xué)生物信息的數(shù)據(jù)挖掘應(yīng)用的另一個實例是醫(yī)學(xué)科研。生物醫(yī)藥領(lǐng)域里科學(xué)研究的一個重要發(fā)展趨勢就是數(shù)據(jù)驅(qū)動。以前進(jìn)行實驗研究的目的是獲得結(jié)論或者是提出一種新的假設(shè),而現(xiàn)在通過對海量數(shù)據(jù)的研究來探索其中的規(guī)律,可以直接提出假設(shè)或得出可靠的結(jié)論8。另一方面,必須清楚的是,大數(shù)據(jù)作用與價值的重點在于能夠引導(dǎo)和啟發(fā)科研者的創(chuàng)新思維、并輔助決策。簡單而言,若是處理一個問題,通常人能夠想到一種方法,而大數(shù)據(jù)能夠提供若干種參考方法,將解決問題的思路拓寬、拓廣、拓深。當(dāng)然我們需要在學(xué)科知識的結(jié)合上下內(nèi)功,不能單純依靠智能挖掘技術(shù)及工具就能解決大數(shù)據(jù)的應(yīng)用問題,實際上我們

11、還要有熟悉掌握和運用智能挖掘技術(shù)及工具的業(yè)務(wù)技術(shù)人才,才能在浩瀚的信息資源中遨游,才能真正利用好醫(yī)學(xué)信息這個巨大的資產(chǎn)。 3挖掘和利用醫(yī)學(xué)生物信息的技術(shù)方法 醫(yī)學(xué)科學(xué)的第三次革命需要在傳統(tǒng)的醫(yī)學(xué)基礎(chǔ)之上集數(shù)學(xué)、統(tǒng)計學(xué)、工程學(xué)、計算機信息科學(xué)的交叉綜合、理論和實驗相結(jié)合,建立新的新方法和手段。目前,我國醫(yī)院信息系統(tǒng)存在著許多問題,集中體現(xiàn)在:醫(yī)學(xué)生物信息內(nèi)容缺失、信息標(biāo)準(zhǔn)化程度低以及發(fā)展目標(biāo)不明確等問題上。我們建設(shè)目的堅持醫(yī)療一線的工作需要,堅守醫(yī)學(xué)大數(shù)據(jù)信息資源的理念,做好大數(shù)據(jù)收儲分析的準(zhǔn)備工作。 大數(shù)據(jù)時代醫(yī)院該如何挖掘和利用醫(yī)學(xué)生物信息?我們通過與國內(nèi)外有關(guān)數(shù)據(jù)挖掘的

12、技術(shù)專家的合作,總結(jié)了醫(yī)學(xué)生物信息的挖掘和利用的一些方法。 3.1數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起) 把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機地集中,從而為醫(yī)院和研究機構(gòu)提供局部的或全面的數(shù)據(jù)共享。 3.2數(shù)據(jù)選擇(從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù)) 根據(jù)確定的數(shù)據(jù)分析對象,抽象出在數(shù)據(jù)分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集到的信息存入數(shù)據(jù)庫。對于海量數(shù)據(jù),選擇一個合適的數(shù)據(jù)存儲和管理的數(shù)據(jù)倉庫是至關(guān)重要的。 3.3數(shù)據(jù)規(guī)約 數(shù)據(jù)挖掘時往往數(shù)據(jù)量非常大,在大量數(shù)據(jù)上進(jìn)行挖掘分析需要很長的時間,數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約

13、表示,它小得多但仍然接近于保持原數(shù)據(jù)的完整性,數(shù)據(jù)挖掘的結(jié)果與歸約前結(jié)果相同或幾乎相同。 3.4數(shù)據(jù)清理(消除噪音或不一致數(shù)據(jù)) 在數(shù)據(jù)庫中的數(shù)據(jù)有一些是不完整的(有些感興趣的屬性缺少屬性值)、含噪聲的(包含錯誤的屬性值),并且是不一致的(同樣的信息不同的表示方式),因此需要進(jìn)行數(shù)據(jù)清理,將完整、正確、一致的數(shù)據(jù)信息存入數(shù)據(jù)庫中,否則會影響數(shù)據(jù)挖掘的結(jié)果。 3.5數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式;如,通過匯總或聚集操作等) 通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。對于有些實數(shù)型數(shù)據(jù),通過概念分層和數(shù)據(jù)的離散化來轉(zhuǎn)換數(shù)據(jù)也是重要的一步。&

14、#160;3.6模型運算(使用智能化的算法提取數(shù)據(jù)模式) 根據(jù)數(shù)據(jù)庫中的數(shù)據(jù)信息,選擇合適的分析工具,應(yīng)用統(tǒng)計方法、事例推理、決策樹、規(guī)則推理、模糊集、神經(jīng)網(wǎng)絡(luò)、遺傳算法等方法處理信息,得出有用的分析信息。通過對數(shù)據(jù)的挖掘,論文發(fā)表咨詢QQ:3028459935闕編輯 可以發(fā)現(xiàn)數(shù)據(jù)的歷史規(guī)律,對過去進(jìn)行總結(jié);可以根據(jù)數(shù)據(jù)對未來進(jìn)行預(yù)測,研究者可以根據(jù)預(yù)測對未來行情趨勢做出預(yù)判,并作出相關(guān)決策。 3.7模型評估 根據(jù)某種興趣度度量,識別提供知識的真正有趣的模式。 3.8知識表示。(使用可視化和知識表示技術(shù),向用戶提供挖掘的知識) 將數(shù)據(jù)挖掘所得到的分析信息以可視化的方式呈現(xiàn)給

15、用戶,或作為新的知識存放在知識庫中,供其他應(yīng)用程序使用。使用各種圖表、三維地圖、動態(tài)模擬以及相關(guān)的動畫技術(shù)使原本枯燥乏味的數(shù)據(jù)變得生動起來。數(shù)據(jù)可視化把數(shù)據(jù)以更加直觀的形態(tài)展現(xiàn)出來,使人們對相關(guān)數(shù)據(jù)做到一目了然。經(jīng)過上面幾步我們就把原先認(rèn)為毫無價值的數(shù)據(jù)變成了信息,最后演變?yōu)橛袃r值的知識。 對于醫(yī)學(xué)生物信息挖掘系統(tǒng)的建設(shè)者(這里包括醫(yī)院科研部門和信息部門)來說,數(shù)據(jù)挖掘項目不因該是一個普通的IT項目,論文發(fā)表咨詢QQ:3028459935闕編輯 不能依照原來信息項目模式建設(shè),更不能理解成為是個管理工具,在項目各個階段,數(shù)據(jù)信息每一次挖掘、演繹、分析是建設(shè)者和研究者全程參與的藝術(shù)性結(jié)合。目前對于各行業(yè)、各類典型問題的數(shù)據(jù)挖掘應(yīng)用,還缺乏標(biāo)桿模式作為參考。數(shù)據(jù)挖掘工作更像一個年輕醫(yī)師,需要通過不斷嘗試來積累經(jīng)驗,面對如潮水般涌來的海量數(shù)據(jù),她必將成為了生物醫(yī)學(xué)研究的支柱技術(shù)之一。 綜上所述,在今后的發(fā)展中計算機硬件性能的巨幅提升和數(shù)據(jù)庫技術(shù)的飛速發(fā)展,使得企業(yè)級大數(shù)據(jù)量的計算成為現(xiàn)實,數(shù)據(jù)挖掘涉及的數(shù)據(jù)量會更大。數(shù)據(jù)挖掘工具也將越來越強大,匯合的挖掘算法越來越多,并將逐步實現(xiàn)算法的自動選擇和參數(shù)自動調(diào)優(yōu),數(shù)據(jù)挖掘各類算法的巨大潛力將得到充分發(fā)揮。 我們設(shè)想在不久的將來,生物信息大數(shù)據(jù)的應(yīng)用將會改變著醫(yī)學(xué)臨床實踐。臨床醫(yī)學(xué)模式從經(jīng)驗醫(yī)學(xué)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論