郭秀花-醫(yī)學(xué)大數(shù)據(jù)分析策略與數(shù)據(jù)挖掘_第1頁
郭秀花-醫(yī)學(xué)大數(shù)據(jù)分析策略與數(shù)據(jù)挖掘_第2頁
郭秀花-醫(yī)學(xué)大數(shù)據(jù)分析策略與數(shù)據(jù)挖掘_第3頁
郭秀花-醫(yī)學(xué)大數(shù)據(jù)分析策略與數(shù)據(jù)挖掘_第4頁
郭秀花-醫(yī)學(xué)大數(shù)據(jù)分析策略與數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1提綱中心概況醫(yī)學(xué)大數(shù)據(jù)及其分析策略1中心概況2數(shù)據(jù)挖掘軟件及其實現(xiàn)方法3數(shù)據(jù)挖掘方法簡介及其應(yīng)用第1頁,共40頁。2醫(yī)學(xué)大數(shù)據(jù)及其分析策略第2頁,共40頁。大數(shù)據(jù)(BigData)

數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。3第3頁,共40頁。模擬式存量數(shù)字式存量2000年以前大部分?jǐn)?shù)據(jù)是analogdata(模擬式數(shù)據(jù))以書、報紙、錄像帶等存儲。特點(diǎn):數(shù)據(jù)量較小。2000年以后digitaldata(數(shù)字式數(shù)據(jù))大大增加以CD、DVD、硬盤等存儲。特點(diǎn):數(shù)據(jù)量巨大。2000年Source:ResearchersattheUniversityofSouthernCaliforniatookfouryears--1986,1993,2000and2007--andextrapolatednumbersfromroughly1,100sourcesofinformation.Credit:ToddLindemanandBrianVastag/TheWashingtonPost大數(shù)據(jù)時代的來臨4第4頁,共40頁。5醫(yī)學(xué)大數(shù)據(jù)的應(yīng)用意義生物標(biāo)志物識別利用大數(shù)據(jù)識別有關(guān)疾病發(fā)生、預(yù)后或治療效果的生物標(biāo)志物組學(xué)研究基因組學(xué),表觀組學(xué),蛋白組學(xué),代謝組學(xué),糖基組學(xué),等環(huán)境因素,個體行為與各組學(xué)關(guān)聯(lián)第5頁,共40頁。6公共衛(wèi)生監(jiān)測:傳染病監(jiān)測、慢性非傳染性疾病及相關(guān)危險因素監(jiān)測、健康相關(guān)監(jiān)測群體性預(yù)防。醫(yī)學(xué)大數(shù)據(jù)的應(yīng)用意義第6頁,共40頁。7健康管理:通過可穿戴設(shè)備對個體體征數(shù)據(jù)的實時、連續(xù)監(jiān)測提供個體化疾病預(yù)防和治療方案醫(yī)療協(xié)同和臨床決策支持:通過建立專用數(shù)據(jù)庫,調(diào)用患者的基因數(shù)據(jù)、病歷信息等大量醫(yī)學(xué)參考數(shù)據(jù),輔助疾病的診斷與治療,實現(xiàn)個體化診治原則醫(yī)學(xué)大數(shù)據(jù)的應(yīng)用意義第7頁,共40頁。8可視化信息:數(shù)據(jù)與信息圖像、多媒體信息可視化,更清晰有效地傳達(dá)與溝通大數(shù)據(jù)包含的生物醫(yī)學(xué)信息。醫(yī)學(xué)大數(shù)據(jù)的應(yīng)用意義第8頁,共40頁。9在生物醫(yī)學(xué)研究領(lǐng)域,大數(shù)據(jù):環(huán)境氣象學(xué)數(shù)據(jù)醫(yī)學(xué)影像數(shù)據(jù)基因、蛋白等組學(xué)數(shù)據(jù)大型臨床資料復(fù)雜的生物和環(huán)境因素研究生物醫(yī)學(xué)大數(shù)據(jù)的只要特點(diǎn):高維第9頁,共40頁。10過去假設(shè)驅(qū)動,收集數(shù)據(jù),分析尋找答案數(shù)據(jù)大多是結(jié)構(gòu)化的,可以分析現(xiàn)在數(shù)據(jù)驅(qū)動,挖掘?qū)ふ覇栴}數(shù)據(jù)多是非結(jié)構(gòu)化的,難以分析。科學(xué)問題處理方式第10頁,共40頁。11條件正態(tài)性

線性、齊性獨(dú)立性足夠大的樣本量變量的20倍......方法

多元線性回歸分析

Logistic回歸分析

Cox回歸分析聚類分析判別分析主成分分析因子分析

廣義線性模型......傳統(tǒng)的多元統(tǒng)計方法難以處理和分析醫(yī)學(xué)大數(shù)據(jù)高維、非線性、非高斯等數(shù)據(jù),采用數(shù)據(jù)挖掘方法,可以提供更高的預(yù)測精度。常用的醫(yī)學(xué)多元統(tǒng)計學(xué)應(yīng)用受到制約第11頁,共40頁。12數(shù)據(jù)挖掘方法簡介及其應(yīng)用第12頁,共40頁。13數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘:是在從大量的數(shù)據(jù)中提取隱含的、事先未知的,但又是潛在有用的信息和知識的過程。13大數(shù)據(jù)源定義研究問題模型應(yīng)用建立模型模型評估數(shù)據(jù)準(zhǔn)備提取數(shù)據(jù)第13頁,共40頁。14數(shù)據(jù)挖掘方法概述數(shù)據(jù)挖掘?qū)傩院Y選關(guān)聯(lián)分析分類預(yù)測回歸預(yù)測聚類分析隨機(jī)森林神經(jīng)網(wǎng)絡(luò)分類決策樹分布估計聚類期望最大化EMK均值聚類層次聚類支持向量機(jī)回歸回歸組合模型廣義線性回歸神經(jīng)網(wǎng)絡(luò)回歸LASSO分類回歸樹支持向量機(jī)高維數(shù)據(jù)降維屬性關(guān)聯(lián)分析購物籃分析樸素貝葉斯第14頁,共40頁。肺結(jié)節(jié)良惡性的判定是CT圖像診斷肺癌中的一個難點(diǎn)和關(guān)鍵點(diǎn)。在實際的臨床中,肺癌被確診時80%以上已屬中晚期。15數(shù)據(jù)挖掘方法應(yīng)用實例第15頁,共40頁。矢狀位冠狀位軸狀位矢狀位圖像庫冠狀位圖像庫軸狀位圖像庫三正交位成像應(yīng)用實例16第16頁,共40頁。1701基本信息年齡、性別等軸位紋理冠狀位紋理矢狀位紋理02既往史腫瘤病史粉塵接觸史遺傳病史吸煙史等

淋巴結(jié)是否腫大邊緣是否光滑是否分葉結(jié)節(jié)位置

有無空泡征等數(shù)據(jù)集合03影像學(xué)檢查CT圖像紋理04高維大數(shù)據(jù)庫(變量約1000,樣本336例)第17頁,共40頁。

數(shù)據(jù)挖掘主要分類預(yù)測方法基于肺結(jié)節(jié)紋理鑒別診斷肺癌最近鄰分類決策樹神經(jīng)網(wǎng)絡(luò)Gradientboosting隨機(jī)森林支持向量機(jī)Lasso回歸1818第18頁,共40頁。各紋理產(chǎn)生30,40,50,60個子代(即紋理分別為420,560,700,840個)。每個紋理子代分布為正態(tài)分布,均值和標(biāo)準(zhǔn)差與軸位CT圖像均值相近;設(shè)定每個紋理內(nèi)部子代之間的相關(guān)系數(shù)為r=0.1,0.2,0.3,0.4;分別產(chǎn)生2組數(shù)據(jù),設(shè)定兩組各個變量均值之間的差值為d(0.01-0.1)。MonteCarlo模擬分析結(jié)果1919第19頁,共40頁。MonteCarlo模擬分析結(jié)果紋理相關(guān)系數(shù)為0.1時,840個紋理值各預(yù)測模型擬合結(jié)果紋理相關(guān)系數(shù)為0.2時,840個紋理值各預(yù)測模型擬合結(jié)果2020第20頁,共40頁。21支持向量機(jī)支持向量機(jī)(SupportVectorMachine,SVM)是美國Vapnik教授于1963年提出的。在解決小樣本、非線性和高維模式識別問題中表現(xiàn)出許多優(yōu)勢,并在一定程度上克服了“維數(shù)災(zāi)難”和“過學(xué)習(xí)”等問題。在模式識別、回歸分析、函數(shù)估計、時間序列預(yù)測等領(lǐng)域,都得到了長足的發(fā)展。Vapnik第21頁,共40頁。最優(yōu)分類(超平)面SVM的機(jī)理是尋找一個滿足分類要求的最優(yōu)分類超平面,使得該超平面在保證分類精度的同時,能夠使超平面兩側(cè)的空白區(qū)域最大化。22第22頁,共40頁。廣義最優(yōu)分類面-23第23頁,共40頁。當(dāng)線性不可分時,SVM的主要思想是將輸人向量映射到一個高維的特征向量空間,并在該特征空間中構(gòu)造最優(yōu)分類面。代替輸入向量x,則可以得到最優(yōu)分類函數(shù)為:24第24頁,共40頁。Gaussian核函數(shù):Polynom核函數(shù)Vanilladot線性核函數(shù)雙曲切線核函數(shù)Laplacian核函數(shù)Bessel核函數(shù)25核函數(shù)SVM中不同的內(nèi)積核函數(shù)將形成不同的算法。第25頁,共40頁。26預(yù)測模型不同判別方法結(jié)果投票法:選取多數(shù)類結(jié)果(例如:2個或者2個以上預(yù)測模型結(jié)果為惡性)作為最后病例的預(yù)測結(jié)果;并聯(lián)法:只要有一個預(yù)測模型結(jié)果判斷為惡性,此病人最終判斷為惡性結(jié)果,否則為良性;串聯(lián)法:只有3個預(yù)測模型同時判斷為惡性,此病人最終判斷為惡性結(jié)果,否則為良性;綜合法:合并軸狀位、冠狀位、矢狀位數(shù)據(jù)集,建立一個預(yù)測模型,其結(jié)果作為最終結(jié)果。第26頁,共40頁。病例基本信息分析結(jié)果

良性惡性統(tǒng)計值P值性別N(Missing)84(0)252(0)0(卡方檢驗)1.0000

女性n(%)50(59.52)150(59.52)

男性n(%)34(40.48)102(40.48)

年齡N(Missing)84(0)252(0)3.45(秩和檢驗)0.0006

Mean(Std)54.10(13.57)59.90(12.68)

Median(Q1~Q3)57(46.5~63)61(53~69.5)

Min~Max21~8025~83

良惡性病例人口學(xué)特征分析第27頁,共40頁。不同評價方法支持向量機(jī)預(yù)測模型結(jié)果28第28頁,共40頁。利用病例人口學(xué)特征、環(huán)境遺傳信息和結(jié)節(jié)形態(tài)學(xué)信息等綜合性信息,建立支持向量機(jī)預(yù)測模型?;谌丝趯W(xué)、環(huán)境遺傳和結(jié)節(jié)形態(tài)學(xué)信息建立預(yù)測模型結(jié)果第29頁,共40頁。結(jié)論:基于三正交位CT圖像,結(jié)合多方面信息,采用大數(shù)據(jù)支持向量機(jī)分類分類預(yù)測方法,可以有效提高肺癌診斷正確率,輔助放射科醫(yī)生進(jìn)行輔助診斷肺癌。第30頁,共40頁。31數(shù)據(jù)挖掘軟件及其實現(xiàn)方法第31頁,共40頁。32YourtextR是統(tǒng)計領(lǐng)域廣泛使用的誕生于1980年左右的S語言的一個分支。R是一個有著統(tǒng)計分析功能及強(qiáng)大作圖功能的軟件系統(tǒng),是由奧克蘭大學(xué)統(tǒng)計學(xué)系的RossIhaka和RobertGentleman共同創(chuàng)立。在R的官方網(wǎng)址上,選擇網(wǎng)站鏡像mirrors.html2R軟件31第32頁,共40頁。R軟件

R編輯器:

編輯程序選擇運(yùn)行R

Console:

運(yùn)行過程提示錯誤等33第33頁,共40頁。支持向量機(jī)R語言實現(xiàn)library(kernlab)/加載支持向量機(jī)程序包/setwd(“D:\\ku”)/設(shè)置當(dāng)前數(shù)據(jù)庫路徑/datayuce=read.csv(“a.csv”,header=T)/導(dǎo)入預(yù)測集數(shù)據(jù)/dataxunlian=read.csv(“b.csv”,header=T))/導(dǎo)入訓(xùn)練集數(shù)據(jù)/svmModel<-ksvm(as.matrix(dataxunlian[1:5]),as.factor(dataxunlian$x),type=“C-svc”,kernel=“rbfdot”,C=10,cross=4))/核函數(shù)選擇/pre=predict(svmModel,datayuce[1:5])write.csv(data.frame(pre,class=datayuce$x,zu=datayuce$no),file="result.csv"))/輸出結(jié)果到result.csv/table(pre,class=datayuce$x)/結(jié)果整理/34第34頁,共40頁。支持向量機(jī)35第35頁,共40頁。WEKA(WaikatoEnvironmentforKnowledgeAnalysis)36WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,用于非商業(yè)目的的研究行為,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理,分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。第36頁,共40頁。37STATA該軟件是美國ComputerResourceCenter研制的統(tǒng)計軟件,目前的12、13版本就可以實現(xiàn)數(shù)據(jù)挖掘。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論