版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第5章 醫(yī)學(xué)信息分析與決議支持與大數(shù)據(jù)處理第1頁本章主要內(nèi)容醫(yī)學(xué)信息與決議支持?jǐn)?shù)據(jù)挖掘與關(guān)聯(lián)規(guī)則層次分析方法與醫(yī)藥方案選擇馬爾科夫模型與應(yīng)用數(shù)據(jù)倉庫與決議支持系統(tǒng)大數(shù)據(jù)概念大數(shù)據(jù)處理方法醫(yī)療大數(shù)據(jù)應(yīng)用第2頁閱讀書目崔雷.醫(yī)學(xué)數(shù)據(jù)挖掘. 高等教育出版社涂子佩. 大數(shù)據(jù). 廣西師范大學(xué)出版社趙剛.大數(shù)據(jù)技術(shù)與應(yīng)用實(shí)踐指南. 電子工業(yè)出版社李雄飛等. 數(shù)據(jù)挖掘與知識(shí)發(fā)覺(第2版).高等教育出版社周怡.醫(yī)學(xué)信息決議與支持系統(tǒng).人民衛(wèi)生出版社第3頁術(shù)語概念數(shù)據(jù)、信息、知識(shí)?數(shù)據(jù)信息知識(shí)“1.85”是個(gè)數(shù)字奧巴馬身高1.85大多數(shù)黑人男性升高超出1.85第4頁數(shù)據(jù)、信息和知識(shí)區(qū)分與聯(lián)絡(luò)知識(shí)數(shù)據(jù)數(shù)據(jù)價(jià)值數(shù)據(jù)
2、規(guī)模信息第5頁紐約警察-杰克.梅普爾傳奇數(shù)據(jù)驅(qū)動(dòng)管理除了上帝,任何人都要用數(shù)聽說話。-愛德華.戴明第6頁圖靈獎(jiǎng)、諾經(jīng)濟(jì)學(xué)獎(jiǎng)、美心理學(xué)會(huì)終生成就獎(jiǎng)人類理性是有限,全部決議都是基于有限理性結(jié)果,假如能利用存放在計(jì)算機(jī)里信息來輔助決議,人類理性范圍將擴(kuò)大,決議質(zhì)量就能提升。決議支持商務(wù)智能第7頁醫(yī)學(xué)信息與決議支持醫(yī)學(xué)信息決議面臨一些挑戰(zhàn)醫(yī)學(xué)決議信息不完全性傳輸與存放過程失真和錯(cuò)誤醫(yī)學(xué)決議信息不確定性。如SGPT升高醫(yī)學(xué)決議信息時(shí)效性。朱令事件醫(yī)學(xué)決議信息擴(kuò)散性。SARS醫(yī)療衛(wèi)生大數(shù)據(jù)環(huán)境。第8頁醫(yī)學(xué)信息與決議支持過程臨床決議過程?決議支持是指使用各種邏輯規(guī)則和數(shù)據(jù)處理方法,經(jīng)過對(duì)低層次數(shù)據(jù)事實(shí)關(guān)聯(lián)關(guān)
3、系分析與合并,將其轉(zhuǎn)換成高層次、數(shù)量少、表達(dá)系統(tǒng)根本特征和發(fā)展方向知識(shí),以輔助決議者進(jìn)行決議。第一階段:計(jì)算機(jī)輔助信息分析(Computer Aided Information Analysis,CAIA)。人主觀能動(dòng)性仍是信息分析工作主導(dǎo)第二階段:各種類型決議支持系統(tǒng)第三階段:新型臨床決議支持系統(tǒng)(CDSS)。第9頁醫(yī)學(xué)信息決議分類按決議約束條件進(jìn)行分類不確定型:在缺乏足夠信息條件下所得到實(shí)際值和期望值產(chǎn)生了一些偏差,其結(jié)果無法用概率分布規(guī)律來描述確定型:已知某種自然狀態(tài)必定會(huì)發(fā)生風(fēng)險(xiǎn)型:需要進(jìn)行風(fēng)險(xiǎn)值判斷,即使不知道哪種自然狀態(tài)在今后發(fā)生,但各種可能自然狀態(tài)在今后發(fā)生概率能夠知道。其風(fēng)險(xiǎn)是
4、因?yàn)殡S機(jī)原因而造成實(shí)際值和期望值差異,它結(jié)果能夠用概率分布規(guī)律來描述第10頁醫(yī)學(xué)信息決議分類(續(xù))按決議目標(biāo)進(jìn)行分類單目標(biāo)決議:病人只要求治療費(fèi)用最少多目標(biāo)決議:決議目標(biāo)若包含了治療徹底性、治愈時(shí)間、費(fèi)用和痛苦程度等多個(gè)方面問題就是多目標(biāo)決議。按其它方法進(jìn)行分類決議種類決議影響程度和主要程度:戰(zhàn)略決議和戰(zhàn)術(shù)決議按決議主體不一樣:個(gè)人決議和集體決議;按決議動(dòng)態(tài)性:靜態(tài)決議和動(dòng)態(tài)決議;按決議問題量化程度:定性決議和定量決議等。第11頁不確定型決議分析案例5.1 第12頁不確定型決議分析(續(xù))樂觀決議準(zhǔn)則:各方案可能出現(xiàn)結(jié)果情況不明時(shí),采取好中取好樂觀態(tài)度三個(gè)方案最大收益值分別是800萬元、600萬
5、元和300萬元,依據(jù)樂觀準(zhǔn)則,方案A1被選中,即生產(chǎn)復(fù)方丹參滴丸。1第13頁不確定型決議分析(續(xù))2消極決議準(zhǔn)則三個(gè)方案最小收益值分別是-250萬元、-200萬元和50萬元,依據(jù)消極準(zhǔn)則,方案A3被選中,即生產(chǎn)藿香正氣滴丸。第14頁不確定型決議分析(續(xù))3折中決議準(zhǔn)則原理:決議者首先確定一個(gè)樂觀系數(shù),01,則不樂觀系數(shù)1- ;然后分別把樂觀系數(shù)和不樂觀系數(shù)乘上各方案最大收益和最小收益,把兩個(gè)積相加,得各個(gè)方案期望收益;以期望收益最大那個(gè)方案為實(shí)施方案。比如:取 =0.6 ,得折中收益為380萬元第15頁不確定型決議分析(續(xù))4后悔值決議準(zhǔn)則:所謂后悔值就是在同一個(gè)自然狀態(tài)下各種行動(dòng)方案中最大損
6、益值(理想值)與可能采取行動(dòng)方案損益值之差。原理:針對(duì)每個(gè)狀態(tài)先找出全部方案最大后悔值,然后從各方案最大后悔值中找出最小值,與最小后悔值相對(duì)應(yīng)方案即認(rèn)為最優(yōu)方案。方案A1-A3最小悔值是250萬元,故選擇方案A2。第16頁不確定型決議分析(續(xù))5等概率決議準(zhǔn)則:假定各個(gè)自然狀態(tài)發(fā)生概率相等,然后求各行動(dòng)方案期望收益值,含有最大期望收益值方案,即最優(yōu)方案。等概率決議值計(jì)算:生產(chǎn)復(fù)方丹參滴丸(A1)收益=(800+320-250)/3=290;生產(chǎn)柴胡滴丸(A2)收益=(600+300-200)/3=233;生產(chǎn)藿香正氣滴丸(A3)收益=(300+150+50)/3=167第17頁本章主要內(nèi)容醫(yī)學(xué)
7、信息與決議支持?jǐn)?shù)據(jù)挖掘與關(guān)聯(lián)規(guī)則大數(shù)據(jù)概念層次分析方法與醫(yī)藥方案選擇(了解)馬爾科夫模型與應(yīng)用(了解)數(shù)據(jù)倉庫與決議支持系統(tǒng)大數(shù)據(jù)處理方法醫(yī)療大數(shù)據(jù)應(yīng)用第18頁/10/1419數(shù)據(jù)挖掘發(fā)展動(dòng)力需要是創(chuàng)造之母數(shù)據(jù)爆炸但知識(shí)貧乏全球每秒290萬份電子郵件、每秒亞馬遜產(chǎn)生72.9筆訂單,每分鐘20個(gè)小時(shí)視屏上傳到Y(jié)ouTube,Google天天處理24PB數(shù)據(jù);淘寶有6億注冊(cè)會(huì)員,在線商品超出9億,天天交易超出數(shù)千億。自動(dòng)數(shù)據(jù)搜集工具和成熟數(shù)據(jù)庫技術(shù)使得大量數(shù)據(jù)被搜集,存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息庫中以待分析。這些數(shù)據(jù)當(dāng)中大量有用知識(shí)被淹沒其中。第19頁/10/1420處理方法-數(shù)據(jù)倉庫和數(shù)據(jù)挖
8、掘數(shù)據(jù)倉庫(ata Warehouse)和在線分析處理(OLAP)在大量數(shù)據(jù)中挖掘感興趣知識(shí)(規(guī)則、規(guī)律、模式、約束)支持?jǐn)?shù)據(jù)挖掘技術(shù)基礎(chǔ) - - 海量數(shù)據(jù)搜集- - 強(qiáng)大多處理器計(jì)算機(jī)- - 數(shù)據(jù)挖掘算法 第20頁數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個(gè)面向主題,集成,相對(duì)穩(wěn)定,反應(yīng)歷史改變數(shù)據(jù)集合,用于支持管理中決議支持。第21頁數(shù)據(jù)倉庫體系結(jié)構(gòu)第22頁數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)源:通常包含企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包含存放于RDBMS中各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包含各類法律法規(guī)、市場(chǎng)信息和競爭對(duì)手信息等等。數(shù)據(jù)存放與管理:決定采取什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫關(guān)鍵,則需要從數(shù)據(jù)倉庫技術(shù)特點(diǎn)著手
9、分析。針對(duì)現(xiàn)有各業(yè)務(wù)系統(tǒng)數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)覆蓋范圍能夠分為企業(yè)級(jí)數(shù)據(jù)倉庫和部門級(jí)數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。第23頁數(shù)據(jù)倉庫體系結(jié)構(gòu)(續(xù))OLAP(On Line Analysis Processing) 對(duì)分析需要數(shù)據(jù)進(jìn)行有效集成,按多維模型給予組織,方便進(jìn)行多角度、多層次分析,并發(fā)覺趨勢(shì)。ROLAP(關(guān)系型在線分析處理),基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP(多維在線分析處理)和HOLAP(混合型線上分析處理),基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。第2
10、4頁數(shù)據(jù)倉庫體系結(jié)構(gòu)(續(xù))前端工具各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市應(yīng)用開發(fā)工具。數(shù)據(jù)分析工具主要針對(duì)OLAP服務(wù)器報(bào)表工具、數(shù)據(jù)挖掘工具主要針對(duì)數(shù)據(jù)倉庫。第25頁數(shù)據(jù)倉庫特點(diǎn)數(shù)據(jù)倉庫是面向主題。數(shù)據(jù)庫數(shù)據(jù)組織面向事務(wù)處理任務(wù),而數(shù)據(jù)倉庫中數(shù)據(jù)是按照一定主題域進(jìn)行組織。主題是指用戶使用數(shù)據(jù)倉庫進(jìn)行決議時(shí)所關(guān)心重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。數(shù)據(jù)倉庫是集成。數(shù)據(jù)倉庫數(shù)據(jù)有來自于分散操作型數(shù)據(jù),將所需數(shù)據(jù)從原來數(shù)據(jù)中抽取出來,進(jìn)行加工與集成,轉(zhuǎn)換統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫;第26頁數(shù)據(jù)倉庫特點(diǎn)(續(xù))數(shù)據(jù)倉庫是隨時(shí)間而改變。不停跟蹤事
11、務(wù)處理系統(tǒng)中,數(shù)據(jù)倉庫會(huì)把業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中改變數(shù)據(jù)追加進(jìn)去。傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)比較適合處理格式化數(shù)據(jù),能夠很好滿足商業(yè)商務(wù)處理需求。穩(wěn)定數(shù)據(jù)以只讀格式保留,且不隨時(shí)間改變。數(shù)據(jù)倉庫是穩(wěn)定(非易失性)。其數(shù)據(jù)以物理分離方式存放,決議人員只進(jìn)行數(shù)據(jù)查詢,而不進(jìn)行數(shù)據(jù)修改。數(shù)據(jù)倉庫只需要兩類操作:數(shù)據(jù)初始化裝入和數(shù)據(jù)訪問第27頁多維數(shù)據(jù)模型數(shù)據(jù)立方體以兩維或多維來描述或分類數(shù)據(jù),維類似關(guān)系數(shù)據(jù)庫屬性或字段。三維立方體展現(xiàn)。維:是人們觀察事物、計(jì)算數(shù)據(jù)特定角度。比如,死因監(jiān)測(cè),“地域”、“時(shí)間”、“性別”、“死亡原因”等組成四維數(shù)據(jù)模型。事實(shí):多維立方體是面向主題,主題有事實(shí)來表示。比如主題死因分析,
12、則死亡人數(shù)就是事實(shí)。第28頁數(shù)據(jù)立方體結(jié)構(gòu)第29頁第30頁下鉆:一個(gè)維度能夠下鉆細(xì)分上卷:匯總第31頁/10/1432數(shù)據(jù)挖掘:數(shù)據(jù)中搜索知識(shí)(模式)知識(shí)第32頁/10/14重慶醫(yī)科大學(xué)現(xiàn)教中心王體春33進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集(60年代)“過去五年中我總收入是多少?”計(jì)算機(jī)、磁帶和磁盤IBM,CDC提供歷史性、靜態(tài)數(shù)據(jù)信息數(shù)據(jù)訪問(80年代)“在新英格蘭分部去年三月銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL),ODBC Oracle、Sybase、Informix、IBM、MicrosoftOracle、Sybase、Informix、IBM、M
13、icrosoft在統(tǒng)計(jì)級(jí)提供歷史性、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫;決議支持(90年代)“在新英格蘭分部去年三月銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)挖掘向大數(shù)據(jù)“下個(gè)月波士頓銷售會(huì)怎么樣?為何?”高級(jí)算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫Pilot、Lockheed、IBM、SGI、其它初創(chuàng)企業(yè)提供預(yù)測(cè)性信息數(shù)據(jù)挖掘數(shù)據(jù)挖掘演變過程第33頁/10/1434數(shù)據(jù)挖掘與知識(shí)發(fā)覺基本概念數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)覺知識(shí))數(shù)據(jù)挖掘(DM):從大量數(shù)據(jù)中正
14、規(guī)地發(fā)覺有效、新奇、潛在有用,最終可被讀懂模式過程,簡單說就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。 醫(yī)學(xué)數(shù)據(jù)挖掘:是針對(duì)醫(yī)學(xué)方面數(shù)據(jù)倉庫進(jìn)行挖掘知識(shí)發(fā)覺:知識(shí)發(fā)覺(KDD)包含數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)定、知識(shí)表示等步驟有些人把數(shù)據(jù)挖掘視為數(shù)據(jù)中知識(shí)發(fā)覺或KDD同義詞,另一些人將其視為知識(shí)發(fā)覺一個(gè)基本步驟。第34頁/10/1435數(shù)據(jù)挖掘: 多學(xué)科融合Data Mining數(shù)據(jù)庫技術(shù)統(tǒng)計(jì)學(xué)機(jī)器學(xué)習(xí)模式識(shí)別算法其它學(xué)科可視化第35頁/10/1436數(shù)據(jù)挖掘和知識(shí)發(fā)覺基本步驟數(shù)據(jù)庫目標(biāo)數(shù)據(jù)已處理數(shù)據(jù)已轉(zhuǎn)換數(shù)據(jù)模式趨勢(shì)知識(shí)選擇處理轉(zhuǎn)換數(shù)據(jù)挖掘解釋評(píng)價(jià)第36頁/10/1437
15、數(shù)據(jù)挖掘和知識(shí)發(fā)覺基本步驟(續(xù))選擇:依據(jù)某種標(biāo)準(zhǔn)選擇數(shù)據(jù)處理:包含去除和充實(shí)轉(zhuǎn)換:刪除丟失主要內(nèi)容統(tǒng)計(jì),將數(shù)據(jù)分類、格式變換等數(shù)據(jù)挖掘:利用工具或算法,在數(shù)據(jù)中發(fā)覺模式和規(guī)律解釋評(píng)價(jià):將發(fā)覺模式解釋為可用于決議知識(shí)第37頁/10/1438數(shù)據(jù)挖掘:數(shù)據(jù)庫中知識(shí)挖掘(KDD)數(shù)據(jù)挖掘知識(shí)發(fā)覺過程關(guān)鍵數(shù)據(jù)清理與集成數(shù)據(jù)集數(shù)據(jù)倉庫Knowledge任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評(píng)定模式第38頁/10/1439數(shù)據(jù)挖掘知識(shí)表示:(1)規(guī)則類身高頭發(fā)顏色眼睛顏色第一類人矮金色藍(lán)色高紅色藍(lán)色高金色藍(lán)色矮金色灰色第二類人高金色黑色矮黑色藍(lán)色高黑色藍(lán)色高黑色灰色矮金色黑色第39頁/10/1440數(shù)據(jù)挖掘知識(shí)表
16、示:(1)規(guī)則(續(xù))規(guī)則由前件和結(jié)論兩部分組成,前件由字段項(xiàng)(屬性)取值合?。?讀作“與”)和析?。?讀作或)組合而成,結(jié)論為決議字段項(xiàng)(屬性)取值或類別組成。如從上表數(shù)據(jù)中可挖掘出以下規(guī)則知識(shí):IF(頭發(fā)顏色金色紅色)(眼睛顏色藍(lán)色灰色)THEN第一類人IF(頭發(fā)顏色黑色)(眼睛黑色)HTEN第二類人也可用自然語言描述第40頁/10/1441數(shù)據(jù)挖掘知識(shí)表示:(2)決議樹第一類人紅黑藍(lán)頭發(fā)眼睛灰第一類人第二類人第一類人第二類人金灰第41頁/10/14重慶醫(yī)科大學(xué)現(xiàn)教中心王體春42數(shù)據(jù)挖掘知識(shí)表示:(3)知識(shí)基類頭發(fā)顏色眼睛顏色第一類人金色藍(lán)色紅色藍(lán)色金色灰色第二類人金色黑色黑色藍(lán)色黑色灰色第
17、42頁/10/1443數(shù)據(jù)挖掘知識(shí)表示:()網(wǎng)絡(luò)權(quán)值21x1x211122122T1T211 12 21 221 11 1120.51.5(T1,T2)=(-1,1)Z第43頁/10/1444知識(shí)發(fā)覺和數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘算法由3部分組成:模型表示、模型評(píng)價(jià)和檢索方法。關(guān)聯(lián)規(guī)則。兩個(gè)或多個(gè)變量之間存在某種規(guī)律性,稱為關(guān)聯(lián)。如超市中用戶買可樂和玉米片相關(guān)性。分類或者特征提取。如檢驗(yàn)特定統(tǒng)計(jì)并描述第一類統(tǒng)計(jì)特點(diǎn)。如信用分析。序列模式。重視在一定時(shí)間段內(nèi)發(fā)生購置事件。如買電視和攝像機(jī)序列。聚類分析。將數(shù)據(jù)庫中統(tǒng)計(jì)分成子類??捎媒y(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)等非監(jiān)督性符號(hào)歸納方法實(shí)現(xiàn)數(shù)據(jù)聚類。第44頁/10/1
18、445經(jīng)典數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)第45頁/10/1446數(shù)據(jù)挖掘和商業(yè)智能關(guān)系對(duì)商業(yè)決議支持潛力終端用戶商業(yè)分析 數(shù)據(jù)分析員DBA進(jìn)行決議數(shù)據(jù)表示可視化技術(shù)數(shù)據(jù)挖掘信息發(fā)覺數(shù)據(jù)挖掘引擎統(tǒng)計(jì),查詢和匯報(bào)數(shù)據(jù)預(yù)處理/集成, 數(shù)據(jù)倉庫數(shù)據(jù)資源論文,文件, Web文檔, 體魄試驗(yàn), 數(shù)據(jù)庫第46頁慣用數(shù)據(jù)挖掘方法關(guān)聯(lián)規(guī)則與關(guān)聯(lián)分析聚類分析決議樹人工神經(jīng)網(wǎng)絡(luò)遺傳算法粗糙集理論第47頁5.2 關(guān)聯(lián)規(guī)則與關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則定義關(guān)聯(lián)規(guī)則主要反應(yīng)了事物之間關(guān)聯(lián)性。在大量看似沒有任何關(guān)系數(shù)據(jù)中,發(fā)覺數(shù)據(jù)中存在關(guān)聯(lián)關(guān)系,分析事物之間關(guān)聯(lián)性。對(duì)反應(yīng)同一事物屬性一條統(tǒng)計(jì),若其含有特征屬性A同時(shí),也含有屬性B,則稱特征屬性A和B
19、是關(guān)聯(lián)。若A和B關(guān)聯(lián):A B。A能夠表示為若干屬性同時(shí)成立,邏輯與關(guān)系,即:(A 1 A 2 A 3 A 4 A k) B購物籃分析生物醫(yī)學(xué):某種疾病可能同時(shí)展現(xiàn)集中癥狀,則幾個(gè)癥狀就表現(xiàn)出關(guān)聯(lián)性。(如眼病,眼軸遠(yuǎn)視、和散光)第48頁關(guān)聯(lián)規(guī)則原理第49頁關(guān)聯(lián)規(guī)則原理(續(xù))第50頁關(guān)聯(lián)規(guī)則原理(續(xù))第51頁關(guān)聯(lián)規(guī)則原理(續(xù))第52頁眼科診療數(shù)據(jù)受檢者編號(hào)H52.0遠(yuǎn)視H52.2散光H52.4老光受檢者編號(hào)H52.0遠(yuǎn)視H52.2散光H52.4老光1100210102110220013111230104110240105111250016111260117001270118010281109001
20、2910010111300101100131011121113211113110331111401034010151103510016111360101701037011180013811019111390102000140001第53頁計(jì)算關(guān)聯(lián)規(guī)則支持度第54頁關(guān)聯(lián)規(guī)則原理(續(xù))第55頁眼科診療數(shù)據(jù)受檢者編號(hào)H52.0遠(yuǎn)視H52.2散光H52.4老光受檢者編號(hào)H52.0遠(yuǎn)視H52.2散光H52.4老光1100210102110220013111230104110240105111250016111260117001270118010281109001291001011130010110013
21、1011121113211113110331111401034010151103510016111360101701037011180013811019111390102000140001第56頁計(jì)算關(guān)聯(lián)規(guī)則置信度第57頁關(guān)聯(lián)規(guī)則原理(續(xù))定義5.7項(xiàng)集頻度、最小支持度閾值和頻繁項(xiàng)集。某項(xiàng)集出現(xiàn)頻度是包含該項(xiàng)集事務(wù)數(shù),簡稱項(xiàng)集頻度。假如某項(xiàng)集出現(xiàn)頻度不夠多時(shí),能夠認(rèn)為該項(xiàng)集中項(xiàng)間關(guān)聯(lián)規(guī)則不夠有用。 只有當(dāng)項(xiàng)集頻度大于預(yù)先設(shè)定某個(gè)頻度,該規(guī)則才有用。所以,在關(guān)聯(lián)分析中,通常預(yù)先設(shè)定最小支持度閾值(min_sup)。假如項(xiàng)集A支持度大于或等于預(yù)先設(shè)定最小支持度閾值,則稱該項(xiàng)集滿足最小支持度閾值,稱
22、項(xiàng)集A為頻繁項(xiàng)集。頻繁k項(xiàng)集集合通常記為Lk。第58頁關(guān)聯(lián)規(guī)則原理(續(xù))定義5.8最小置信度閾值。一樣,在關(guān)聯(lián)分析中,也需要預(yù)先設(shè)定最小置信度閾值(min_conf)。假如某關(guān)聯(lián)規(guī)則置信度大于或等于預(yù)先設(shè)定最小置信度閾值,則稱該規(guī)則滿足最小置信度閾值。第59頁關(guān)聯(lián)規(guī)則原理(續(xù))第60頁關(guān)聯(lián)規(guī)則原理(續(xù))第61頁關(guān)聯(lián)規(guī)則原理(續(xù))第62頁眼科診療數(shù)據(jù)受檢者編號(hào)H52.0遠(yuǎn)視H52.2散光H52.4老光受檢者編號(hào)H52.0遠(yuǎn)視H52.2散光H52.4老光1100210102110220013111230104110240105111250016111260117001270118010281109
23、0012910010111300101100131011121113211113110331111401034010151103510016111360101701037011180013811019111390102000140001第63頁關(guān)聯(lián)規(guī)則提升度計(jì)算規(guī)則H52.0 H52.2 提升度:LH52.0 H52.2= CH52.0 H52.2/SH52.2=0.833/(N H52.2 /N =0.833/(29/40)=1.149規(guī)則H52.2 H52.4 H52.0 提升度:LH52.2 H52.4 H52.0=C H52.2 H52.4 H52.0/ SH52.0 =0.692/0
24、.45表明:規(guī)則H52.0 H52.2 和規(guī)則H52.2 H52.4 H52.0 都是正關(guān)聯(lián)。第64頁Aprior算法第65頁超集 (Superset)定義:假如一個(gè)集合S2中每一個(gè)元素都在集合S1中,且集合S1中可能包含S2中沒有元素,則集合S1就是S2一個(gè)超集。 S1是S2超集,若S1中一定有S2中沒有元素,則S1是S2真超集,S2是S1真子集。簡單地說,GBK即漢字?jǐn)U展內(nèi)碼規(guī)范,它是慣用國家標(biāo)準(zhǔn)碼GB2312-80超集和補(bǔ)充。C+ is a superset of the C programming language.第66頁Aprior算法步驟第67頁Aprior算法步驟(續(xù))(3)剪
25、枝步:因?yàn)镃k是Lk超集,依據(jù)關(guān)聯(lián)規(guī)則性質(zhì)2,剔除Ck中包含非頻繁k-1項(xiàng)集k項(xiàng)集。(4)計(jì)算Ck中全部項(xiàng)集支持度,剔除小于最小支持度閾值項(xiàng)集,得到頻繁k項(xiàng)集集合Lk。(5)經(jīng)過迭代循環(huán),重復(fù)2至4步驟,直到不能產(chǎn)生新長度更大頻繁項(xiàng)集集合。(6)列出以上步驟得到全部頻繁項(xiàng)集中全部規(guī)則,計(jì)算全部規(guī)則置信度,依據(jù)最小置信度閾值產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。第68頁Aprior算法案例案例5.2 某商店隨機(jī)抽取4個(gè)用戶購物籃如表5.7所表示,支持度閾值為60%,置信度閾值為80%,利用Apriori算法挖掘表5.7蘊(yùn)含關(guān)聯(lián)規(guī)則。第69頁Aprior算法案例(續(xù))第一步:求頻繁項(xiàng)集。因?yàn)榇颂庨撝禐?0%,先計(jì)算絕對(duì)
26、閾值,然后計(jì)算百分比閾值。詳細(xì)步驟為:由表5.7求出項(xiàng)目集合C1,然后求出每個(gè)項(xiàng)集支持度,在此基礎(chǔ)上求出支持度大于等于60%1-項(xiàng)集L1。在L1基礎(chǔ)上,依據(jù)Apriori性質(zhì),求出2-項(xiàng)集C2,然后求出其支持度,我們發(fā)覺C2支持度都大于閾值,所以C2即為支持度大于等于60%2-項(xiàng)集L2。在L2基礎(chǔ)上,依據(jù)Apriori性質(zhì),求出3-項(xiàng)集C3, 然后求出其支持度。因?yàn)镃3只有一個(gè)項(xiàng)集,且支持度大于60%,此時(shí)得到項(xiàng)集即為頻繁項(xiàng)集L3。 最終得到一個(gè)頻繁項(xiàng)集 A,B,D。這就是用Apriori算法尋找頻繁項(xiàng)集過程。 上述過程能夠表示為圖5.1。第70頁圖5.1 Apriori算法過程第71頁Apr
27、ior算法案例(續(xù))第二步:關(guān)聯(lián)規(guī)則生成由第一步可得,滿足最小支持度項(xiàng)集為ABD,依據(jù)排列組合,該項(xiàng)集蘊(yùn)含著6種規(guī)則,如表5.8所表示。其中“”表示交,如AB表示同時(shí)包含項(xiàng)集A和B。依據(jù)公式和數(shù)據(jù),能夠計(jì)算出如表5.8所表示6種規(guī)則置信度,其計(jì)算過程以下所表示:依據(jù)最小置信度80%,可得到三個(gè)強(qiáng)關(guān)聯(lián)規(guī)則ADB、BDA和DAB,其置信度均為100%。第72頁依據(jù) 診療數(shù)據(jù)Apriori關(guān)聯(lián)規(guī)則分析受檢者編號(hào)H66.9中耳炎J03.9急性扁桃體炎J06.9上呼吸道炎癥K52.9胃腸炎Z04臨床觀察檢驗(yàn)受檢者編號(hào)H66.9中耳炎J03.9急性扁桃體炎J06.9上呼吸道炎癥K52.9胃腸炎Z04臨床觀
28、察檢驗(yàn)1101102100111200011221001130011023001114011112400111511011250111160011026100117000112710111800111280111190011129000111010111300011111011113100111120001132010111310111331011114011103400111150001135001111600110361111117001103700110180111038000111900111390011120011114010111第73頁本章主要內(nèi)容醫(yī)學(xué)信息與決議支持?jǐn)?shù)據(jù)挖掘與關(guān)聯(lián)
29、規(guī)則大數(shù)據(jù)概念層次分析方法與醫(yī)藥方案選擇(了解)馬爾科夫模型與應(yīng)用(了解)數(shù)據(jù)倉庫與決議支持系統(tǒng)第74頁大數(shù)據(jù)概念和特征大數(shù)據(jù)概念 無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理數(shù)據(jù)集合。-維基百科第75頁大數(shù)據(jù)產(chǎn)生數(shù)據(jù)產(chǎn)生由企業(yè)內(nèi)部向企業(yè)外部擴(kuò)展數(shù)據(jù)產(chǎn)生從Web1.0向Web2.0,從互聯(lián)網(wǎng)向移動(dòng)互聯(lián)擴(kuò)展中國聯(lián)通統(tǒng)計(jì),每秒上網(wǎng)統(tǒng)計(jì)82萬條。數(shù)據(jù)產(chǎn)生從計(jì)算機(jī)、互聯(lián)網(wǎng)向物聯(lián)網(wǎng)擴(kuò)展視頻、傳感器、智能設(shè)備和RFID、機(jī)器對(duì)機(jī)器(M2M)產(chǎn)生大量數(shù)據(jù)。思科預(yù)測(cè)僅移動(dòng)設(shè)備產(chǎn)生數(shù)據(jù)流量將到達(dá)每個(gè)月6.3EB規(guī)模。第76頁大數(shù)據(jù)應(yīng)用需求互聯(lián)網(wǎng)與電子商務(wù)用戶分析:注冊(cè)信息、博客信息用戶行為分
30、析:鼠標(biāo)移動(dòng)、移動(dòng)終端觸摸、眼球移動(dòng)基于大數(shù)據(jù)相關(guān)性分析推薦系統(tǒng)內(nèi)容針對(duì)性投放零售業(yè):比如:貨架商品關(guān)聯(lián)性分析金融業(yè):客戶行為分析、金融欺詐行為監(jiān)測(cè)政府:大數(shù)據(jù)分析用于經(jīng)濟(jì)預(yù)測(cè)第77頁奧巴馬競選連任-大數(shù)據(jù)應(yīng)用Dan Wagner, 奧巴馬競選團(tuán)體首席分析師,長有點(diǎn)像比爾 蓋茨第78頁大數(shù)據(jù)在醫(yī)療行業(yè)應(yīng)用基因組學(xué)測(cè)序分析第79頁大數(shù)據(jù)在醫(yī)療行業(yè)應(yīng)用疫情和健康趨勢(shì)分析GOOGLE官網(wǎng)全球登革熱趨勢(shì)。http:/www.谷歌.org/denguetrends/大數(shù)據(jù)分析或可助抗擊埃博拉。健康地圖”經(jīng)過搜集社交媒體、地方媒體信息,比WHO早9天確定埃博拉出血熱在幾內(nèi)亞境內(nèi)傳輸情況。第80頁大數(shù)據(jù)作者
31、 -涂子沛我們已經(jīng)不但僅處于信息時(shí)代新信息時(shí)代?后信息時(shí)代?智能時(shí)代?越來與依賴機(jī)器,越來與依賴網(wǎng)絡(luò),人機(jī)共生時(shí)代,機(jī)器是數(shù)據(jù)開啟軟件定義這個(gè)世界,數(shù)據(jù)驅(qū)動(dòng)這時(shí)代第81頁大數(shù)據(jù)特征 (四個(gè)V)數(shù)據(jù)量巨大(Volume):PB級(jí)以上數(shù)據(jù)類型多(Variety):日志、音頻、視頻數(shù)據(jù)流動(dòng)快(Velocity):實(shí)時(shí)分析獲取信息數(shù)據(jù)潛在價(jià)值大(Value):第82頁數(shù)據(jù)量級(jí)數(shù)據(jù)大小量級(jí)1Byte (B)1Kilobyte(KB)=1024b1Megabyte(MB)=1024KB1Gigabyte(GB)=1024MB1Terabyte(1TB)=1024GB1Petabyte(1PB)=1024T
32、B1Exabyte(EB)=1024PB1Zettabyte(ZB)=1024EB1Yottabyet(YB)=1024ZB第83頁大數(shù)據(jù)主流架構(gòu):Hadoop+MapReduce第84頁Hdoop+MapReduce架構(gòu)HDFS:分布式文件系統(tǒng)。運(yùn)行在廉價(jià)計(jì)算機(jī)組成大規(guī)模集群之上。采取元數(shù)據(jù)集中管理和數(shù)據(jù)塊分散存放相結(jié)合模式。Hbase:基于列存放開源非關(guān)系型數(shù)據(jù)庫。提供非常大數(shù)據(jù)集實(shí)時(shí)讀取和寫入隨機(jī)存取。MapReduce:分布式并行計(jì)算框架,Map 任務(wù)分解,Reduce綜合結(jié)果。是一個(gè)JAVA 函數(shù)。Mahout: 分布式機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫。R語言:用于統(tǒng)計(jì)分析、繪圖語言和操作環(huán)境第
33、85頁Hdoop+MapReduce架構(gòu)Hive:Facebook提供數(shù)據(jù)倉庫工具,分析結(jié)構(gòu)化數(shù)據(jù)中間件。Hive類SQL查詢語音能夠查詢分析存放在Hadoop中大規(guī)模數(shù)據(jù)。Pig:基于Hadoop并行計(jì)算高級(jí)語言,類似SQLSqoop:開源工具,Hadoop與傳統(tǒng)數(shù)據(jù)庫間進(jìn)行數(shù)據(jù)傳遞。數(shù)據(jù)從關(guān)系源導(dǎo)入HDFS,以及從HDFS導(dǎo)出到關(guān)系數(shù)據(jù)庫。Flume:Cloudera提供日志搜集系統(tǒng)。ZooKeeper:分布式應(yīng)用程序集中配置管理器。第86頁Hadoop優(yōu)勢(shì)Hadoop:分布式文件系統(tǒng)和并行執(zhí)行環(huán)境。能夠存放管理PB級(jí)數(shù)據(jù)。易于擴(kuò)充分布式架構(gòu)。數(shù)據(jù)處理采取大量計(jì)算節(jié)點(diǎn)橫向擴(kuò)充實(shí)現(xiàn)。善于處理
34、非結(jié)構(gòu)化數(shù)據(jù)。是ETL進(jìn)化。自動(dòng)化并行處理機(jī)制。數(shù)據(jù)分布在并行節(jié)點(diǎn)上,每個(gè)節(jié)點(diǎn)只處理一部分?jǐn)?shù)據(jù),全部節(jié)點(diǎn)同時(shí)并行處理。高可靠性、容錯(cuò)強(qiáng)。自動(dòng)保留數(shù)據(jù)多個(gè)副本。自動(dòng)將失敗任務(wù)重新分配。數(shù)據(jù)丟失概率小。計(jì)算靠近存放。計(jì)算與存放一體。低成本計(jì)算和存放。第87頁HDFS架構(gòu)第88頁HDFS組成NameNode:命名節(jié)點(diǎn)(僅1個(gè)),存放元數(shù)據(jù),并提供元數(shù)據(jù)服務(wù)。元數(shù)據(jù):文件名、文件目錄結(jié)構(gòu)、文件屬性、文件塊列表、塊所在DataNode等DataNode:數(shù)據(jù)節(jié)點(diǎn),為HDFS提供存放塊。在當(dāng)?shù)匚募到y(tǒng)中存放數(shù)據(jù)以及數(shù)據(jù)校驗(yàn)和,塊大小64M.NameNodeDataNode存放元數(shù)據(jù)存放文件內(nèi)容元數(shù)據(jù)保留在
35、內(nèi)存文件內(nèi)容保留在磁盤保留文件、塊、DataNode之間映射關(guān)系維護(hù)塊ID到DataNode當(dāng)?shù)匚募成潢P(guān)系第89頁HDFS寫數(shù)據(jù)流程第90頁HDFS讀數(shù)據(jù)流程第91頁MapReduce框架第92頁MapReduce原理Job:作業(yè), MapReduce 程序;一個(gè)MapReduce 程序可對(duì)應(yīng)若干個(gè)作業(yè),而每個(gè)作業(yè)被分解成若干個(gè)任務(wù)( Task)。JobTracker負(fù)責(zé)作業(yè)調(diào)度和資源監(jiān)控。TaskTracker負(fù)責(zé)運(yùn)行Job。JobTracker調(diào)度任務(wù)給TaskTracker,TaskTracker執(zhí)行任務(wù)時(shí),會(huì)返回進(jìn)度匯報(bào)。JobTracker統(tǒng)計(jì)進(jìn)度運(yùn)行情況,假如某個(gè)TaskTrac
36、ker執(zhí)行失敗,JobTracker會(huì)把這個(gè)任務(wù)分配給其它TaskTrackerTask:分Map Task和Reduce Task第93頁MapReduce原理每個(gè)MapReduce任務(wù)都被初始化為一個(gè)作業(yè)Job,一個(gè)作業(yè)由若干個(gè)任務(wù)(Task)組成。Job又分為Map和Reduce來表示。map函數(shù)接收一個(gè)原始輸入Input分解為鍵值對(duì),MapReduce框架會(huì)將全部含有相同key值value集合在一起,發(fā)送給reduce 函數(shù),reduce對(duì)value集合進(jìn)行處理,產(chǎn)生Output第94頁MapReduce原理數(shù)據(jù)首先按照TextInput給定格式分成兩個(gè)InputSplit,然后輸入到
37、兩個(gè)map中,map 函數(shù)會(huì)讀取InputSplit指定位置數(shù)據(jù),然后按照設(shè)定方法處理此數(shù)據(jù)。最終寫入到當(dāng)?shù)卮疟P中。第95頁MapReduce原理第96頁Hadoop關(guān)鍵與節(jié)點(diǎn)組成第97頁參考書Anand Rajaraman 等,王斌譯.大數(shù)據(jù) 互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理.人民郵電出版社.董西成.Hadoop技術(shù)內(nèi)幕 深入解析MapReduce架構(gòu)與設(shè)計(jì)實(shí)現(xiàn)原理.機(jī)械工業(yè)出版社.趙剛.大數(shù)據(jù) 技術(shù)與應(yīng)用實(shí)踐指南.電子工業(yè)出版社第98頁醫(yī)療大數(shù)據(jù)應(yīng)用?醫(yī)療與大數(shù)據(jù)趨勢(shì)什么是醫(yī)療大數(shù)據(jù)怎樣管理和利用大數(shù)據(jù)案例分析第99頁壓在百姓健康3座大山第一座健康大山跑步進(jìn)入老齡化社會(huì)第100頁第二座大山
38、-癌癥年輕化第101頁第102頁第三座大山-新生兒“先天缺點(diǎn)”第103頁醫(yī)療費(fèi)用在不停上升GDP占比非常高10-19%0-9%趨勢(shì)分析: 我們正處于醫(yī)療行業(yè)一個(gè)主要轉(zhuǎn)折點(diǎn)% of population over age 6030+ %25-29%20-24%2050WW Average Age 60+: 21%Source: United Nations “Population Aging ”全球老齡化平均年紀(jì)60 +: 當(dāng)前10%, 到2050年將到達(dá)20%Source: McKinsey Global Institute AnalysisESG Research Report North
39、American Health Care Provider Market Size and Forecast以美國為例: 醫(yī)療大數(shù)據(jù)價(jià)值3千億美元/年, 相當(dāng)于每年生成總值增加0.7%第104頁015000100005000 趨勢(shì)分析:我們正處于醫(yī)療行業(yè)一個(gè)主要轉(zhuǎn)折點(diǎn)存放增加醫(yī)療服務(wù)產(chǎn)生數(shù)據(jù)總量(PB)AdminImagingEMREmailFileNon Clin ImgResearch醫(yī)療影像歸檔一個(gè)醫(yī)療系統(tǒng)案例數(shù)據(jù)到20, 醫(yī)療數(shù)據(jù)將急劇增加到35 Zetabytes, 相當(dāng)于年數(shù)據(jù)量44倍增加Source: McKinsey Global Institute AnalysisESG R
40、esearch Report 2011 North American Health Care Provider Market Size and Forecast第105頁大數(shù)據(jù)對(duì)于“大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner給出了這么定義:“大數(shù)據(jù)”是需要新處理模式才能含有更強(qiáng)決議力、洞察發(fā)覺力和流程優(yōu)化能力海量、高增加率和多樣化信息資產(chǎn)。4V:Volume(大量)Velocity(高速)Variety(多樣)veracity(真實(shí)性)/Value(價(jià)值性)第106頁1. 制藥企業(yè)/生命科學(xué)3. 費(fèi)用報(bào)銷, 利用率 和 欺詐監(jiān)管2. 臨床決議支持 & 其它臨床應(yīng)用 (包含診斷相關(guān)影像信
41、息)4. 患者行為/社交網(wǎng)絡(luò)醫(yī)療大數(shù)據(jù)介紹數(shù)據(jù)起源包含哪些?我們?cè)鯓永么髷?shù)據(jù)創(chuàng)造價(jià)值? (示例)2. 臨床決議支持4. 由生活方式和行為引發(fā)疾病分析1. 個(gè)體化醫(yī)療3. 欺詐監(jiān)測(cè)得以加強(qiáng)McKinsey Global Institute Analysis第107頁醫(yī)療大數(shù)據(jù)相關(guān)處理方案健康信息服務(wù)新興醫(yī)療服務(wù)應(yīng)用數(shù)據(jù)分析及視覺化處理數(shù)據(jù)處理/管理分布式平臺(tái)老齡社會(huì)腫瘤基因組學(xué)醫(yī)療影像分析醫(yī)療影像影像數(shù)據(jù)處理加速基礎(chǔ)醫(yī)療服務(wù)臨床決議支持類SQL檢索醫(yī)療統(tǒng)計(jì)存放優(yōu)化個(gè)人健康管理個(gè)體化醫(yī)療機(jī)器學(xué)習(xí)基因數(shù)據(jù)安全和隱私第108頁大數(shù)據(jù)挑戰(zhàn)不但來自于數(shù)據(jù)量增加.需要新技術(shù)支持檢驗(yàn)結(jié)果, 費(fèi)用數(shù)據(jù), 影像
42、, 設(shè)備產(chǎn)生感應(yīng)數(shù)據(jù), 基因數(shù)據(jù)等數(shù)據(jù)量結(jié)構(gòu)化數(shù)據(jù), 遵照標(biāo)準(zhǔn)數(shù)據(jù)標(biāo)準(zhǔn)(如,HL7)非結(jié)構(gòu)化數(shù)據(jù), 如口述、手寫、照片、影像等類型實(shí)時(shí)有效商業(yè)價(jià)值基于現(xiàn)有數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行分析,來支持不一樣種類業(yè)務(wù):如費(fèi)用及報(bào)銷、患者病史、歸檔影像分析、實(shí)時(shí)臨床決議支持(數(shù)據(jù)分析) 實(shí)時(shí)數(shù)據(jù)分析,而非傳統(tǒng)批量處理分析 數(shù)據(jù)以流方式進(jìn)入系統(tǒng),進(jìn)行抽取和分析 對(duì)于實(shí)時(shí)運(yùn)行中每個(gè)時(shí)間節(jié)點(diǎn)產(chǎn)生影響,而不是事后處理在傳統(tǒng)處理方案之上,引入新數(shù)據(jù)及分析模型和技術(shù),價(jià)值速度第109頁傳統(tǒng)處理方案環(huán)境ERP, CRM, Batch,OLTP-DBData Center ProvisioningDiscreteVirtualCl
43、oud As A ServiceHPC關(guān)注數(shù)據(jù)價(jià)值大數(shù)據(jù)存放考慮傳統(tǒng)存放方式大規(guī)模分析 Hadoop*海量數(shù)據(jù)庫 Hive*大規(guī)模備份 Lustre*數(shù)據(jù)源文本-語音-視頻-傳感器Requesting Or M2M通訊批量 商業(yè)應(yīng)用豐富視覺化效果 安全數(shù)據(jù)分析和緩存邊緣服務(wù)器(Edge)分析同時(shí)端到端Machine-to-MachineSource-to-Source可行處理方案體系(示例)Applications & ServicesVisualization File Structure & AnalyticalToolsData Delivery, Operational & Graph
44、icalAnalyticsData Management & ComputationalAnalyticsCompute Storage & InfrastructurePlatforms第110頁高效大數(shù)據(jù)訪問路徑 (客戶端)“Know Me”“Free Me”“Express Me”智能手機(jī)移動(dòng)醫(yī)療助理平板電腦筆記本,Ultrabook其它設(shè)備臺(tái)式機(jī)數(shù)字標(biāo)牌自助終端MobilityVital sign,I & O entryMedicationadministrationTemplatedata entryFree-format textdata entryLarge diagnostic
45、imagesData inquiryManageability“Link Me”第111頁大數(shù)據(jù)在中國醫(yī)療行業(yè)中應(yīng)用模式1.制藥企業(yè)/生命科學(xué)3.費(fèi)用報(bào)銷, 利用率 和 欺詐監(jiān)管2.臨床決議支持 &其它臨床應(yīng)用 (包括診療相關(guān)影像信息)4.患者行為/社交網(wǎng)絡(luò)藥品研發(fā)對(duì)藥品實(shí)際 作用進(jìn)行分析;實(shí)施藥品市場(chǎng)預(yù)測(cè)基因測(cè)序分布式計(jì)算加緊基因測(cè)序計(jì)算效率公共衛(wèi)生實(shí)時(shí)統(tǒng)計(jì)分析發(fā)覺公共衛(wèi)生疫情及公民健康情況新農(nóng)合基金數(shù)據(jù)分析及時(shí)了解基金情況,預(yù)測(cè)風(fēng)險(xiǎn)輔助制訂農(nóng)合基金起付線,賠付病種等基本藥品臨床應(yīng)用分析分析基本藥品在處方中百分比臨床數(shù)據(jù)比對(duì)匹配同類型病人,用藥臨床決議支持利用規(guī)則和數(shù)據(jù)實(shí)時(shí)分析給出智能提醒遠(yuǎn)
46、程監(jiān)控采集并分析病人隨身攜帶儀器數(shù)據(jù),給出智能提議人口統(tǒng)計(jì)學(xué)分析對(duì)不一樣群體人群就醫(yī),健康數(shù)據(jù)實(shí)施人口統(tǒng)計(jì)分析了解病人就診行為發(fā)覺病人特定就診行為,分配醫(yī)療資源第112頁案例分享: Regional Health Info Network ChinaReal-time Clinical Decision Support 實(shí)時(shí)醫(yī)療數(shù)據(jù)處理(電子健康檔案,醫(yī)療影像數(shù)據(jù)),支持醫(yī)療協(xié)同、臨床決議支持和公共衛(wèi)生管理 采取 Hadoop* (HBase*/Hive*)來實(shí)現(xiàn)醫(yī)療數(shù)據(jù)分析和處理 未來將擴(kuò)展到不一樣領(lǐng)域、不一樣區(qū)域/地域(包含數(shù)據(jù)交換、處理和分析) 與當(dāng)?shù)剀浖S商及OEM廠商進(jìn)行了廣泛合作
47、技術(shù)挑戰(zhàn) Hadoop (HBase/Hive)與傳統(tǒng)關(guān)系型數(shù)據(jù)庫怎樣有效結(jié)合大數(shù)據(jù)在區(qū)域衛(wèi)生信息平臺(tái)中切實(shí)可行應(yīng)用場(chǎng)景PublicHealthHospitalPrimary care(Grassroots)HealthInformationDWEHRData &ServicesRegistriesData &ServicesLongitudinal Record ServicesHealth Information Access LayerCare CoordinationClinical decision supportData AnalyticR&DRHINAncillaryData &
48、Services第113頁分布式數(shù)據(jù)服務(wù)系統(tǒng)展現(xiàn)層(匯報(bào), 視圖)區(qū)域醫(yī)療及基層醫(yī)療信息系統(tǒng)大數(shù)據(jù)處理方案(Hadoop*)集成用戶應(yīng)用界面(居民、醫(yī)生、衛(wèi)生行政管理人員)數(shù)據(jù)挖掘(Mahout)分布式批量處理框架(Map/Reduce)區(qū)域衛(wèi)生信息訪問層(HIAL)醫(yī)院信息系統(tǒng)醫(yī)院信息系統(tǒng)語言和編譯(Hive)實(shí)時(shí)數(shù)據(jù)庫(Hbase)基層醫(yī)療信息系統(tǒng)醫(yī)療服務(wù)藥品管理新農(nóng)合醫(yī)療保險(xiǎn)服務(wù)器虛擬化基礎(chǔ)設(shè)施虛擬化網(wǎng)絡(luò)虛擬化 存放虛擬化基于云區(qū)域基層醫(yī)療服務(wù)系統(tǒng)多租戶應(yīng)用分布式文件系統(tǒng) 協(xié)作 服務(wù)(HDFS) (Zookeeper)結(jié)構(gòu)化數(shù)據(jù)采集器 日志數(shù)據(jù)采集器(Sqoop) (Flume)健康檔案
49、數(shù)據(jù)存放公共衛(wèi)生運(yùn)行管理第114頁36總結(jié) 我們正處于醫(yī)療行業(yè)大數(shù)據(jù)和分析一個(gè)主要轉(zhuǎn)折點(diǎn) 我們需要讓大數(shù)據(jù)更為高效,可方便捷訪問 專注在創(chuàng)新,依賴產(chǎn)業(yè)鏈來提供企業(yè)關(guān)鍵能力之外服務(wù) 采取標(biāo)準(zhǔn)和最正確實(shí)踐,參考全球已經(jīng)有成熟模型第115頁展望讓我們一起讓醫(yī)療大數(shù)據(jù)成為現(xiàn)實(shí):提供含有差異化技術(shù)處理方案,探索開放標(biāo)準(zhǔn)和最佳實(shí)踐尋找可能客戶和產(chǎn)業(yè)鏈合作搭檔,共同探索醫(yī)療行業(yè)關(guān)鍵應(yīng)用模式與產(chǎn)業(yè)合作進(jìn)行驗(yàn)證,加速大數(shù)據(jù)采取第116頁參考題1、文件綜述:大數(shù)據(jù)在醫(yī)療衛(wèi)生健康領(lǐng)域應(yīng)用現(xiàn)實(shí)狀況。2、慣用大數(shù)據(jù)處理技術(shù)比較分析3、試用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。第117頁本章主要內(nèi)容醫(yī)學(xué)信息與決議支持?jǐn)?shù)據(jù)挖掘與關(guān)聯(lián)規(guī)則大
50、數(shù)據(jù)概念層次分析方法與醫(yī)藥方案選擇(了解)馬爾科夫模型與應(yīng)用(了解)數(shù)據(jù)倉庫與決議支持系統(tǒng)第118頁層次分析法與醫(yī)藥方案選擇層次分析法基本原理層次分析法AHP(Analytic Hierarchy Process) 是一個(gè)定性結(jié)合定量方法。定性:層次分析法比較矩陣、一致性檢驗(yàn)定量:指標(biāo)權(quán)重特征向量計(jì)算、每一層次指標(biāo)影響原因權(quán)重計(jì)算和排序。由美國匹茲堡大學(xué)托馬斯.塞蒂(T.Lsaaty)20世紀(jì)70年代提出,1982年傳入我國第119頁層次分析法四個(gè)基本步驟1建立遞階層次結(jié)構(gòu)遞階層次結(jié)構(gòu):決議目標(biāo)、考慮原因(決議準(zhǔn)則)和決議方案按它們之間相互關(guān)系分為最高層、中間層和最低層,并繪出層次結(jié)構(gòu)圖。(1
51、)最高層:為目標(biāo)層,只有一個(gè)元素。(2)中間層:為準(zhǔn)則層或指標(biāo)層,為實(shí)現(xiàn)決議目標(biāo)而建立判斷準(zhǔn)則,它能夠有一個(gè)層次或多個(gè)層次組成。上一層元素支配下一層元素,這么就建立上下層元素之間隸屬關(guān)系。每個(gè)上層元素所支配下層元素普通不超出9個(gè)。(3)最低層:為方案層或辦法層,是為實(shí)現(xiàn)目標(biāo)可供選擇各種辦法、決議方案等。第120頁建立遞階層次結(jié)構(gòu)案例例:采取層次分析法研究某醫(yī)藥門診病人滿意度影響原因。 影響滿意度原因分4大部分:醫(yī)療專業(yè)水平、等候時(shí)間、人員服務(wù)態(tài)度、硬件實(shí)施。細(xì)分18個(gè)下一級(jí)指標(biāo):醫(yī)療專業(yè)水平:醫(yī)師專業(yè)水平、病情及治療方案講解、先進(jìn)醫(yī)療設(shè)備。等候時(shí)間:掛號(hào)等候、候診時(shí)間、劃價(jià)等候、領(lǐng)藥等候。人員
52、服務(wù)態(tài)度:掛號(hào)員態(tài)度、醫(yī)師態(tài)度、劃價(jià)員態(tài)度、藥房人員態(tài)度、服務(wù)臺(tái)人員態(tài)度、檢驗(yàn)人員態(tài)度。硬件實(shí)施:院區(qū)指示標(biāo)志、醫(yī)師介紹、環(huán)境清潔、停車便利、公共電話數(shù)量。第121頁建立遞階層次結(jié)構(gòu)案例(續(xù))滿意度影響因素醫(yī)療專業(yè)水平醫(yī)師技術(shù)病情及治療醫(yī)院有完善先進(jìn)醫(yī)療設(shè)備等候時(shí)間掛號(hào)等候候診等候劃價(jià)等候領(lǐng)藥等候服務(wù)態(tài)度掛號(hào)員態(tài)度醫(yī)師態(tài)度劃價(jià)員態(tài)度藥房人員態(tài)度服務(wù)臺(tái)人員態(tài)度檢驗(yàn)員態(tài)度硬件設(shè)施院區(qū)指示標(biāo)志醫(yī)師介紹環(huán)境清潔停車便利公共電話數(shù)量目標(biāo)層準(zhǔn)則層方案層第122頁層次分析法四個(gè)基本步驟(續(xù))2結(jié)構(gòu)成對(duì)比較矩陣在建立遞階層次結(jié)構(gòu)以后,上下層次之間元素隸屬關(guān)系就被確定了。假定上一層次元素Ck作為準(zhǔn)則,對(duì)下一層次
53、元素A1,An有支配關(guān)系,目標(biāo)是在準(zhǔn)則Ck之下按它們相對(duì)主要性賦予 A1,An對(duì)應(yīng)權(quán)重。使用成對(duì)兩兩主要性程度比較方法,針對(duì)判斷矩陣準(zhǔn)則Ck,其中兩個(gè)元素Ai和Aj比較哪個(gè)主要,主要多少,對(duì)主要性程度按1-9賦值,第123頁層次分析法四個(gè)基本步驟(續(xù))主要性標(biāo)度含 義1表示兩個(gè)元素相比,含有同等主要性(相同)3表示兩個(gè)元素相比,前者比后者稍主要(較強(qiáng))5表示兩個(gè)元素相比,前者比后者顯著主要(強(qiáng))7表示兩個(gè)元素相比,前者比后者強(qiáng)烈主要(很強(qiáng))9表示兩個(gè)元素相比,前者比后者極端主要(非常強(qiáng))2,4,6,8表示兩個(gè)元素相比,判斷中間值(兩個(gè)主要性之間)倒數(shù)若元素i與元素j主要性之比為aij, 則元素
54、j與元素i主要性之比為aji=1/aij表5.9 主要性標(biāo)度含義表第124頁層次分析法四個(gè)基本步驟(續(xù))表5.10 判斷矩陣Cka1 a2ajana1a11a12a1ja1na2a21a22 a2ja2naiai1a i2aijainanan1an2anjann對(duì)于n個(gè)元素a1,an來說,經(jīng)過兩兩比較,得到兩兩比較判斷矩陣A=(aij)nn,并稱A為正互反矩陣,其中判斷矩陣aij含有以下性質(zhì):Aij0; (2) aji=1/aij; (3) aii=1。判斷矩陣能夠含有傳遞性,即滿足等式:aijajk=aik (i,j,k=1,2,,n),對(duì)全部元素都成立時(shí),稱該判斷矩陣A含有基本一致性矩陣,
55、不然判斷矩陣為不一致性矩陣。第125頁結(jié)構(gòu)成對(duì)比較矩陣案例第126頁層次分析法四個(gè)基本步驟(續(xù))3判斷矩陣一致性檢驗(yàn)比如若A比B主要,B又比C主要,則從邏輯上講,A應(yīng)該比C主要,若兩兩比較時(shí)出現(xiàn)C比A主要結(jié)果,則該判斷矩陣違反了一致性準(zhǔn)則,在邏輯上是不合理。所以在實(shí)際中要求判斷矩陣滿足大致上一致性,需進(jìn)行一致性檢驗(yàn)。(1)一致陣性質(zhì)(P150)(2)一致陣定理n階互反矩陣A最大特征根n,當(dāng)且僅當(dāng)=n時(shí),A為一致陣。用最大特征根對(duì)應(yīng)特征向量作為被比較原因?qū)ι蠈幽吃蛴绊懗潭葯?quán)向量,其不一致程度越大,引發(fā)判斷誤差就越大。因而能夠用maxn數(shù)值大小來衡量A不一致程度。(3)一致性指標(biāo)C.I.(con
56、sistency index)定義,由5.7式表示。 (5.7)第127頁層次分析法四個(gè)基本步驟(續(xù))R.I. 平均隨機(jī)一致性指標(biāo)R.I.(random index)值。平均隨機(jī)一致性指標(biāo)R.I.是屢次(500)重復(fù)進(jìn)行隨機(jī)判斷矩陣特征根計(jì)算之后取算術(shù)平均得到。(P150)表5.11C.R 一致性百分比:C.R=C.I/R.I 0.1 一致性可接收。(4)一致性檢驗(yàn)步驟第一步,計(jì)算一致性指標(biāo)C.I.第二步,查表確定對(duì)應(yīng)平均隨機(jī)一致性指標(biāo)R.I. 依據(jù)判斷矩陣不一樣階數(shù)查表,得到平均隨機(jī)一致性指標(biāo)R.I.值。第三步,計(jì)算一致性比率C.R.并進(jìn)行判斷C.R=C.I/R.I0.1 (5.10) 第1
57、28頁層次分析法四個(gè)基本步驟(續(xù))4判斷矩陣排序計(jì)算(1)單一準(zhǔn)則下排序單排序是指每一個(gè)判斷矩陣各原因針對(duì)其準(zhǔn)則相對(duì)權(quán)重??蓺w結(jié)為計(jì)算判斷矩陣最大特征根及其對(duì)應(yīng)特征向量問題。1)方根法計(jì)算步驟(P151)2)和積法計(jì)算步驟(P152)(2)層次總排序法第129頁本章主要內(nèi)容醫(yī)學(xué)信息與決議支持?jǐn)?shù)據(jù)挖掘與關(guān)聯(lián)規(guī)則大數(shù)據(jù)概念層次分析方法與醫(yī)藥方案選擇(了解)馬爾科夫模型與應(yīng)用(略)數(shù)據(jù)倉庫與決議支持系統(tǒng)第130頁數(shù)據(jù)倉庫與決議支持系統(tǒng)醫(yī)院數(shù)據(jù)倉庫決議支持經(jīng)歷了數(shù)據(jù)化、信息化、知識(shí)化、智慧化四個(gè)階段圖5.13醫(yī)院信息數(shù)據(jù)分析深度第131頁醫(yī)院數(shù)據(jù)倉庫決議支持系統(tǒng)最終目標(biāo):以業(yè)務(wù)子系統(tǒng)中源數(shù)據(jù)為基礎(chǔ),結(jié)
58、合客觀事實(shí),做出正確、有預(yù)見性結(jié)論。從數(shù)據(jù)資料中提取信息,將其構(gòu)建為知識(shí),最終升華為智慧。醫(yī)院管理者和衛(wèi)生行政部門決議者獲取信息由普通資料數(shù)據(jù)逐步向綜合性報(bào)表、多維分析、預(yù)測(cè)預(yù)警方向發(fā)展要以規(guī)模大、效率高、安全性好醫(yī)院數(shù)據(jù)倉庫作為支撐。第132頁決議支持系統(tǒng)結(jié)構(gòu)形式?jīng)Q議支持系統(tǒng)(Decision Support System,DSS)是以管理科學(xué)、運(yùn)籌學(xué)、控制學(xué)和行為科學(xué)為基礎(chǔ),利用計(jì)算機(jī)和軟件等技術(shù)伎倆,在人們制訂決議過程中提供輔助支持,以幫助做出有效決議,含有一定智能行為人機(jī)交互計(jì)算機(jī)應(yīng)用系統(tǒng)。DSS中主要包含數(shù)據(jù)庫管理子系統(tǒng)、模型庫管理子系統(tǒng)和人機(jī)對(duì)話子系統(tǒng)第133頁 DSS多庫結(jié)構(gòu)普通
59、形式第134頁綜合決議支持系統(tǒng)結(jié)構(gòu)第135頁綜合決議支持系統(tǒng)結(jié)構(gòu)(續(xù))(1)模型庫系統(tǒng)和數(shù)據(jù)庫系統(tǒng)結(jié)合主體:這個(gè)部分主要完成多模型組合與大量數(shù)據(jù)共享處理,是利用模型資源輔助決議。(2)數(shù)據(jù)倉庫系統(tǒng)與聯(lián)機(jī)分析處理結(jié)合主體:這部分主要完成對(duì)數(shù)據(jù)庫倉庫中數(shù)據(jù)綜合、預(yù)測(cè)和多維數(shù)據(jù)分析,是利用數(shù)據(jù)資源輔助決議。(3)知識(shí)庫系統(tǒng)與數(shù)據(jù)挖掘結(jié)合主體:這里知識(shí)庫系統(tǒng)包含知識(shí)庫、推理機(jī)制和知識(shí)庫管理系統(tǒng)。這里主要完成知識(shí)推理,是利用知識(shí)資源輔助決議。第136頁決議支持系統(tǒng)三庫結(jié)構(gòu)DSS兩庫(數(shù)據(jù)庫、模型庫)結(jié)構(gòu),也稱為三部件結(jié)構(gòu)。三庫(數(shù)據(jù)庫、模型庫、方法庫)、四庫(數(shù)據(jù)庫、模型庫、方法庫、知識(shí)庫)等結(jié)構(gòu)。三庫結(jié)構(gòu)形式是DSS系統(tǒng)五部件結(jié)構(gòu)簡化,即不考慮知識(shí)部件,只包含數(shù)據(jù)庫、模型庫和方法庫及其對(duì)應(yīng)管理系統(tǒng)數(shù)據(jù)結(jié)構(gòu)表示模型用求解算法表示方法第137頁模型庫和知識(shí)庫模型庫模型庫系統(tǒng)主要功效是經(jīng)過使用人機(jī)交互語言使決議者能方便地利用模型庫支持決議,引導(dǎo)決議者應(yīng)用建模語言和自己熟悉專業(yè)知識(shí)建立、修改和運(yùn)行模
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 商務(wù)合同范本-工程合同模板
- 品牌策劃合作協(xié)議-合同范本
- 合伙協(xié)議書范文
- 2024房屋租賃居間合同
- 2024運(yùn)輸合同物流運(yùn)輸合同糾紛案例
- 2024設(shè)立有限責(zé)公司出資協(xié)議模板
- 2024年冷庫轉(zhuǎn)讓協(xié)議合同書
- 深圳發(fā)展銀行委托貸款操作流程
- 2024年學(xué)校食堂用工合同協(xié)議書樣本
- 北京借款合同的范本2024年
- 初中女生會(huì)議課件省公開課金獎(jiǎng)全國賽課一等獎(jiǎng)微課獲獎(jiǎng)?wù)n件
- 跨界產(chǎn)品研發(fā)與實(shí)戰(zhàn)智慧樹知到期末考試答案2024年
- 2024年山東青島城投金融控股集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 工業(yè)機(jī)器人應(yīng)用4-裝配
- 中醫(yī)外治治療風(fēng)濕病
- 美國實(shí)時(shí)總統(tǒng)大選報(bào)告
- 外貿(mào)業(yè)務(wù)與國際市場(chǎng)培訓(xùn)課件
- 信創(chuàng)醫(yī)療工作總結(jié)
- 教師教育教學(xué)質(zhì)量提升方案
- 滅火器的規(guī)格與使用培訓(xùn)
- 2024《中央企業(yè)安全生產(chǎn)治本攻堅(jiān)三年行動(dòng)方案(2024-2026年)》
評(píng)論
0/150
提交評(píng)論