郭秀花-醫(yī)學(xué)大數(shù)據(jù)分析策略與數(shù)據(jù)挖掘_第1頁(yè)
郭秀花-醫(yī)學(xué)大數(shù)據(jù)分析策略與數(shù)據(jù)挖掘_第2頁(yè)
郭秀花-醫(yī)學(xué)大數(shù)據(jù)分析策略與數(shù)據(jù)挖掘_第3頁(yè)
郭秀花-醫(yī)學(xué)大數(shù)據(jù)分析策略與數(shù)據(jù)挖掘_第4頁(yè)
郭秀花-醫(yī)學(xué)大數(shù)據(jù)分析策略與數(shù)據(jù)挖掘_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1提綱中心概況醫(yī)學(xué)大數(shù)據(jù)及其分析策略1中心概況2數(shù)據(jù)挖掘軟件及其實(shí)現(xiàn)方法3數(shù)據(jù)挖掘方法簡(jiǎn)介及其應(yīng)用第1頁(yè),共40頁(yè)。2醫(yī)學(xué)大數(shù)據(jù)及其分析策略第2頁(yè),共40頁(yè)。大數(shù)據(jù)(BigData)

數(shù)據(jù)量規(guī)模巨大到無(wú)法通過人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。3第3頁(yè),共40頁(yè)。模擬式存量數(shù)字式存量2000年以前大部分?jǐn)?shù)據(jù)是analogdata(模擬式數(shù)據(jù))以書、報(bào)紙、錄像帶等存儲(chǔ)。特點(diǎn):數(shù)據(jù)量較小。2000年以后digitaldata(數(shù)字式數(shù)據(jù))大大增加以CD、DVD、硬盤等存儲(chǔ)。特點(diǎn):數(shù)據(jù)量巨大。2000年Source:ResearchersattheUniversityofSouthernCaliforniatookfouryears--1986,1993,2000and2007--andextrapolatednumbersfromroughly1,100sourcesofinformation.Credit:ToddLindemanandBrianVastag/TheWashingtonPost大數(shù)據(jù)時(shí)代的來臨4第4頁(yè),共40頁(yè)。5醫(yī)學(xué)大數(shù)據(jù)的應(yīng)用意義生物標(biāo)志物識(shí)別利用大數(shù)據(jù)識(shí)別有關(guān)疾病發(fā)生、預(yù)后或治療效果的生物標(biāo)志物組學(xué)研究基因組學(xué),表觀組學(xué),蛋白組學(xué),代謝組學(xué),糖基組學(xué),等環(huán)境因素,個(gè)體行為與各組學(xué)關(guān)聯(lián)第5頁(yè),共40頁(yè)。6公共衛(wèi)生監(jiān)測(cè):傳染病監(jiān)測(cè)、慢性非傳染性疾病及相關(guān)危險(xiǎn)因素監(jiān)測(cè)、健康相關(guān)監(jiān)測(cè)群體性預(yù)防。醫(yī)學(xué)大數(shù)據(jù)的應(yīng)用意義第6頁(yè),共40頁(yè)。7健康管理:通過可穿戴設(shè)備對(duì)個(gè)體體征數(shù)據(jù)的實(shí)時(shí)、連續(xù)監(jiān)測(cè)提供個(gè)體化疾病預(yù)防和治療方案醫(yī)療協(xié)同和臨床決策支持:通過建立專用數(shù)據(jù)庫(kù),調(diào)用患者的基因數(shù)據(jù)、病歷信息等大量醫(yī)學(xué)參考數(shù)據(jù),輔助疾病的診斷與治療,實(shí)現(xiàn)個(gè)體化診治原則醫(yī)學(xué)大數(shù)據(jù)的應(yīng)用意義第7頁(yè),共40頁(yè)。8可視化信息:數(shù)據(jù)與信息圖像、多媒體信息可視化,更清晰有效地傳達(dá)與溝通大數(shù)據(jù)包含的生物醫(yī)學(xué)信息。醫(yī)學(xué)大數(shù)據(jù)的應(yīng)用意義第8頁(yè),共40頁(yè)。9在生物醫(yī)學(xué)研究領(lǐng)域,大數(shù)據(jù):環(huán)境氣象學(xué)數(shù)據(jù)醫(yī)學(xué)影像數(shù)據(jù)基因、蛋白等組學(xué)數(shù)據(jù)大型臨床資料復(fù)雜的生物和環(huán)境因素研究生物醫(yī)學(xué)大數(shù)據(jù)的只要特點(diǎn):高維第9頁(yè),共40頁(yè)。10過去假設(shè)驅(qū)動(dòng),收集數(shù)據(jù),分析尋找答案數(shù)據(jù)大多是結(jié)構(gòu)化的,可以分析現(xiàn)在數(shù)據(jù)驅(qū)動(dòng),挖掘?qū)ふ覇栴}數(shù)據(jù)多是非結(jié)構(gòu)化的,難以分析??茖W(xué)問題處理方式第10頁(yè),共40頁(yè)。11條件正態(tài)性

線性、齊性獨(dú)立性足夠大的樣本量變量的20倍......方法

多元線性回歸分析

Logistic回歸分析

Cox回歸分析聚類分析判別分析主成分分析因子分析

廣義線性模型......傳統(tǒng)的多元統(tǒng)計(jì)方法難以處理和分析醫(yī)學(xué)大數(shù)據(jù)高維、非線性、非高斯等數(shù)據(jù),采用數(shù)據(jù)挖掘方法,可以提供更高的預(yù)測(cè)精度。常用的醫(yī)學(xué)多元統(tǒng)計(jì)學(xué)應(yīng)用受到制約第11頁(yè),共40頁(yè)。12數(shù)據(jù)挖掘方法簡(jiǎn)介及其應(yīng)用第12頁(yè),共40頁(yè)。13數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘:是在從大量的數(shù)據(jù)中提取隱含的、事先未知的,但又是潛在有用的信息和知識(shí)的過程。13大數(shù)據(jù)源定義研究問題模型應(yīng)用建立模型模型評(píng)估數(shù)據(jù)準(zhǔn)備提取數(shù)據(jù)第13頁(yè),共40頁(yè)。14數(shù)據(jù)挖掘方法概述數(shù)據(jù)挖掘?qū)傩院Y選關(guān)聯(lián)分析分類預(yù)測(cè)回歸預(yù)測(cè)聚類分析隨機(jī)森林神經(jīng)網(wǎng)絡(luò)分類決策樹分布估計(jì)聚類期望最大化EMK均值聚類層次聚類支持向量機(jī)回歸回歸組合模型廣義線性回歸神經(jīng)網(wǎng)絡(luò)回歸LASSO分類回歸樹支持向量機(jī)高維數(shù)據(jù)降維屬性關(guān)聯(lián)分析購(gòu)物籃分析樸素貝葉斯第14頁(yè),共40頁(yè)。肺結(jié)節(jié)良惡性的判定是CT圖像診斷肺癌中的一個(gè)難點(diǎn)和關(guān)鍵點(diǎn)。在實(shí)際的臨床中,肺癌被確診時(shí)80%以上已屬中晚期。15數(shù)據(jù)挖掘方法應(yīng)用實(shí)例第15頁(yè),共40頁(yè)。矢狀位冠狀位軸狀位矢狀位圖像庫(kù)冠狀位圖像庫(kù)軸狀位圖像庫(kù)三正交位成像應(yīng)用實(shí)例16第16頁(yè),共40頁(yè)。1701基本信息年齡、性別等軸位紋理冠狀位紋理矢狀位紋理02既往史腫瘤病史粉塵接觸史遺傳病史吸煙史等

淋巴結(jié)是否腫大邊緣是否光滑是否分葉結(jié)節(jié)位置

有無(wú)空泡征等數(shù)據(jù)集合03影像學(xué)檢查CT圖像紋理04高維大數(shù)據(jù)庫(kù)(變量約1000,樣本336例)第17頁(yè),共40頁(yè)。

數(shù)據(jù)挖掘主要分類預(yù)測(cè)方法基于肺結(jié)節(jié)紋理鑒別診斷肺癌最近鄰分類決策樹神經(jīng)網(wǎng)絡(luò)Gradientboosting隨機(jī)森林支持向量機(jī)Lasso回歸1818第18頁(yè),共40頁(yè)。各紋理產(chǎn)生30,40,50,60個(gè)子代(即紋理分別為420,560,700,840個(gè))。每個(gè)紋理子代分布為正態(tài)分布,均值和標(biāo)準(zhǔn)差與軸位CT圖像均值相近;設(shè)定每個(gè)紋理內(nèi)部子代之間的相關(guān)系數(shù)為r=0.1,0.2,0.3,0.4;分別產(chǎn)生2組數(shù)據(jù),設(shè)定兩組各個(gè)變量均值之間的差值為d(0.01-0.1)。MonteCarlo模擬分析結(jié)果1919第19頁(yè),共40頁(yè)。MonteCarlo模擬分析結(jié)果紋理相關(guān)系數(shù)為0.1時(shí),840個(gè)紋理值各預(yù)測(cè)模型擬合結(jié)果紋理相關(guān)系數(shù)為0.2時(shí),840個(gè)紋理值各預(yù)測(cè)模型擬合結(jié)果2020第20頁(yè),共40頁(yè)。21支持向量機(jī)支持向量機(jī)(SupportVectorMachine,SVM)是美國(guó)Vapnik教授于1963年提出的。在解決小樣本、非線性和高維模式識(shí)別問題中表現(xiàn)出許多優(yōu)勢(shì),并在一定程度上克服了“維數(shù)災(zāi)難”和“過學(xué)習(xí)”等問題。在模式識(shí)別、回歸分析、函數(shù)估計(jì)、時(shí)間序列預(yù)測(cè)等領(lǐng)域,都得到了長(zhǎng)足的發(fā)展。Vapnik第21頁(yè),共40頁(yè)。最優(yōu)分類(超平)面SVM的機(jī)理是尋找一個(gè)滿足分類要求的最優(yōu)分類超平面,使得該超平面在保證分類精度的同時(shí),能夠使超平面兩側(cè)的空白區(qū)域最大化。22第22頁(yè),共40頁(yè)。廣義最優(yōu)分類面-23第23頁(yè),共40頁(yè)。當(dāng)線性不可分時(shí),SVM的主要思想是將輸人向量映射到一個(gè)高維的特征向量空間,并在該特征空間中構(gòu)造最優(yōu)分類面。代替輸入向量x,則可以得到最優(yōu)分類函數(shù)為:24第24頁(yè),共40頁(yè)。Gaussian核函數(shù):Polynom核函數(shù)Vanilladot線性核函數(shù)雙曲切線核函數(shù)Laplacian核函數(shù)Bessel核函數(shù)25核函數(shù)SVM中不同的內(nèi)積核函數(shù)將形成不同的算法。第25頁(yè),共40頁(yè)。26預(yù)測(cè)模型不同判別方法結(jié)果投票法:選取多數(shù)類結(jié)果(例如:2個(gè)或者2個(gè)以上預(yù)測(cè)模型結(jié)果為惡性)作為最后病例的預(yù)測(cè)結(jié)果;并聯(lián)法:只要有一個(gè)預(yù)測(cè)模型結(jié)果判斷為惡性,此病人最終判斷為惡性結(jié)果,否則為良性;串聯(lián)法:只有3個(gè)預(yù)測(cè)模型同時(shí)判斷為惡性,此病人最終判斷為惡性結(jié)果,否則為良性;綜合法:合并軸狀位、冠狀位、矢狀位數(shù)據(jù)集,建立一個(gè)預(yù)測(cè)模型,其結(jié)果作為最終結(jié)果。第26頁(yè),共40頁(yè)。病例基本信息分析結(jié)果

良性惡性統(tǒng)計(jì)值P值性別N(Missing)84(0)252(0)0(卡方檢驗(yàn))1.0000

女性n(%)50(59.52)150(59.52)

男性n(%)34(40.48)102(40.48)

年齡N(Missing)84(0)252(0)3.45(秩和檢驗(yàn))0.0006

Mean(Std)54.10(13.57)59.90(12.68)

Median(Q1~Q3)57(46.5~63)61(53~69.5)

Min~Max21~8025~83

良惡性病例人口學(xué)特征分析第27頁(yè),共40頁(yè)。不同評(píng)價(jià)方法支持向量機(jī)預(yù)測(cè)模型結(jié)果28第28頁(yè),共40頁(yè)。利用病例人口學(xué)特征、環(huán)境遺傳信息和結(jié)節(jié)形態(tài)學(xué)信息等綜合性信息,建立支持向量機(jī)預(yù)測(cè)模型?;谌丝趯W(xué)、環(huán)境遺傳和結(jié)節(jié)形態(tài)學(xué)信息建立預(yù)測(cè)模型結(jié)果第29頁(yè),共40頁(yè)。結(jié)論:基于三正交位CT圖像,結(jié)合多方面信息,采用大數(shù)據(jù)支持向量機(jī)分類分類預(yù)測(cè)方法,可以有效提高肺癌診斷正確率,輔助放射科醫(yī)生進(jìn)行輔助診斷肺癌。第30頁(yè),共40頁(yè)。31數(shù)據(jù)挖掘軟件及其實(shí)現(xiàn)方法第31頁(yè),共40頁(yè)。32YourtextR是統(tǒng)計(jì)領(lǐng)域廣泛使用的誕生于1980年左右的S語(yǔ)言的一個(gè)分支。R是一個(gè)有著統(tǒng)計(jì)分析功能及強(qiáng)大作圖功能的軟件系統(tǒng),是由奧克蘭大學(xué)統(tǒng)計(jì)學(xué)系的RossIhaka和RobertGentleman共同創(chuàng)立。在R的官方網(wǎng)址上,選擇網(wǎng)站鏡像mirrors.html2R軟件31第32頁(yè),共40頁(yè)。R軟件

R編輯器:

編輯程序選擇運(yùn)行R

Console:

運(yùn)行過程提示錯(cuò)誤等33第33頁(yè),共40頁(yè)。支持向量機(jī)R語(yǔ)言實(shí)現(xiàn)library(kernlab)/加載支持向量機(jī)程序包/setwd(“D:\\ku”)/設(shè)置當(dāng)前數(shù)據(jù)庫(kù)路徑/datayuce=read.csv(“a.csv”,header=T)/導(dǎo)入預(yù)測(cè)集數(shù)據(jù)/dataxunlian=read.csv(“b.csv”,header=T))/導(dǎo)入訓(xùn)練集數(shù)據(jù)/svmModel<-ksvm(as.matrix(dataxunlian[1:5]),as.factor(dataxunlian$x),type=“C-svc”,kernel=“rbfdot”,C=10,cross=4))/核函數(shù)選擇/pre=predict(svmModel,datayuce[1:5])write.csv(data.frame(pre,class=datayuce$x,zu=datayuce$no),file="result.csv"))/輸出結(jié)果到result.csv/table(pre,class=datayuce$x)/結(jié)果整理/34第34頁(yè),共40頁(yè)。支持向量機(jī)35第35頁(yè),共40頁(yè)。WEKA(WaikatoEnvironmentforKnowledgeAnalysis)36WEKA作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),用于非商業(yè)目的的研究行為,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。第36頁(yè),共40頁(yè)。37STATA該軟件是美國(guó)ComputerResourceCenter研制的統(tǒng)計(jì)軟件,目前的12、13版本就可以實(shí)現(xiàn)數(shù)據(jù)挖掘。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論