醫(yī)學(xué)數(shù)據(jù)挖掘與大數(shù)據(jù)處理資料_第1頁
醫(yī)學(xué)數(shù)據(jù)挖掘與大數(shù)據(jù)處理資料_第2頁
醫(yī)學(xué)數(shù)據(jù)挖掘與大數(shù)據(jù)處理資料_第3頁
醫(yī)學(xué)數(shù)據(jù)挖掘與大數(shù)據(jù)處理資料_第4頁
醫(yī)學(xué)數(shù)據(jù)挖掘與大數(shù)據(jù)處理資料_第5頁
已閱讀5頁,還剩92頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第七章 醫(yī)學(xué)數(shù)據(jù)挖掘與大數(shù)據(jù)處理本章主要內(nèi)容數(shù)據(jù)挖掘與數(shù)據(jù)倉庫 常用的數(shù)據(jù)挖掘方法大數(shù)據(jù)概念大數(shù)據(jù)處理方法醫(yī)療大數(shù)據(jù)應(yīng)用閱讀書目崔雷.醫(yī)學(xué)數(shù)據(jù)挖掘. 高等教育出版社涂子佩. 大數(shù)據(jù). 廣西師范大學(xué)出版社趙剛.大數(shù)據(jù)技術(shù)與應(yīng)用實(shí)踐指南. 電子工業(yè)出版社李雄飛等. 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(第2版).高等教育出版社1. 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫數(shù)據(jù)、信息、知識(shí)?數(shù)據(jù)信息知識(shí)“1.85”是個(gè)數(shù)字奧巴馬身高1.85大多數(shù)黑人男性的升高超過1.85數(shù)據(jù)、信息和知識(shí)的區(qū)別與聯(lián)系知識(shí)數(shù)據(jù)數(shù)據(jù)價(jià)值數(shù)據(jù)規(guī)模信息紐約警察-杰克.梅普爾的傳奇數(shù)據(jù)驅(qū)動(dòng)管理除了上帝,任何人都要用數(shù)據(jù)說話。-愛德華.戴明圖靈獎(jiǎng)、諾經(jīng)濟(jì)學(xué)獎(jiǎng)、美心理學(xué)

2、會(huì)終身成就獎(jiǎng)人類理性是有限的,所有決策都是基于有限理性的結(jié)果,如果能利用存儲(chǔ)在計(jì)算機(jī)里的信息來輔助決策,人類理性的范圍將擴(kuò)大,決策的質(zhì)量就能提高。決策支持商務(wù)智能2022/8/258數(shù)據(jù)挖掘的發(fā)展動(dòng)力需要是發(fā)明之母數(shù)據(jù)爆炸但知識(shí)貧乏全球每秒290萬份電子郵件、每秒亞馬遜產(chǎn)生72.9筆訂單,每分鐘20個(gè)小時(shí)視屏上傳到Y(jié)ouTube,Google每天處理24PB數(shù)據(jù);淘寶有6億注冊會(huì)員,在線商品超過9億,每天交易超過數(shù)千億。自動(dòng)數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術(shù)使得大量的數(shù)據(jù)被收集,存儲(chǔ)在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中以待分析。這些數(shù)據(jù)當(dāng)中大量有用的知識(shí)被淹沒其中。2022/8/259解決方法-數(shù)據(jù)倉

3、庫和數(shù)據(jù)挖掘數(shù)據(jù)倉庫(ata Warehouse)和在線分析處理(OLAP)在大量的數(shù)據(jù)中挖掘感興趣的知識(shí)(規(guī)則、規(guī)律、模式、約束)支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ) - - 海量數(shù)據(jù)搜集- - 強(qiáng)大的多處理器計(jì)算機(jī)- - 數(shù)據(jù)挖掘算法 數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個(gè)面向主題的,集成的,相對穩(wěn)定的,反映歷史變化的數(shù)據(jù)集合,用于支持管理中的決策支持。數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)源:通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于RDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等等。數(shù)據(jù)的存儲(chǔ)與管理:決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫

4、的技術(shù)特點(diǎn)著手分析。針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。數(shù)據(jù)倉庫體系結(jié)構(gòu)OLAP(On Line Analysis Processing) 對分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。ROLAP(關(guān)系型在線分析處理),基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP(多維在線分析處理)和HOLAP(混合型線上分析處理),基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫

5、中。數(shù)據(jù)倉庫體系結(jié)構(gòu)前端工具各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。數(shù)據(jù)分析工具主要針對OLAP服務(wù)器報(bào)表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。數(shù)據(jù)倉庫四大特點(diǎn)數(shù)據(jù)倉庫是面向主題的。數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。數(shù)據(jù)倉庫是集成的。數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進(jìn)行加工與集成,轉(zhuǎn)換統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫;數(shù)據(jù)倉庫特點(diǎn)數(shù)據(jù)倉庫是隨時(shí)間而變化的。不斷跟蹤事務(wù)

6、處理系統(tǒng)中,數(shù)據(jù)倉庫會(huì)把業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中變化數(shù)據(jù)追加進(jìn)去。傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿足商業(yè)商務(wù)處理的需求。穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時(shí)間改變。數(shù)據(jù)倉庫是穩(wěn)定的(非易失性的)。其數(shù)據(jù)以物理分離的方式存儲(chǔ),決策人員只進(jìn)行數(shù)據(jù)查詢,而不進(jìn)行數(shù)據(jù)修改。數(shù)據(jù)倉庫只需要兩類操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問多維數(shù)據(jù)模型數(shù)據(jù)立方體以兩維或多維來描述或分類數(shù)據(jù),維類似關(guān)系數(shù)據(jù)庫的屬性或字段。三維立方體呈現(xiàn)。維:是人們觀察事物、計(jì)算數(shù)據(jù)的特定角度。例如,死因監(jiān)測,“地區(qū)”、“時(shí)間”、“性別”、“死亡原因”等構(gòu)成四維數(shù)據(jù)模型。事實(shí):多維立方體是面向主題的,主題有事實(shí)來表示。例如

7、主題死因分析,則死亡人數(shù)就是事實(shí)。數(shù)據(jù)立方體結(jié)構(gòu)下鉆:一個(gè)維度可以下鉆細(xì)分上卷:匯總2022/8/2521數(shù)據(jù)挖掘:數(shù)據(jù)中搜索知識(shí)(模式)知識(shí)2022/8/25重慶醫(yī)科大學(xué)現(xiàn)教中心王體春22進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集(60年代)“過去五年中我的總收入是多少?”計(jì)算機(jī)、磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL),ODBC Oracle、Sybase、Informix、IBM、MicrosoftOracle、Sybase、Informix、IBM、Mic

8、rosoft在記錄級提供歷史性的、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫;決策支持(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘(正在流行)“下個(gè)月波士頓的銷售會(huì)怎么樣?為什么?”高級算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司提供預(yù)測性的信息從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化數(shù)據(jù)挖掘逐漸演變的過程 2022/8/2523數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)基本概念數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)

9、現(xiàn)知識(shí))數(shù)據(jù)挖掘(DM):從大量的數(shù)據(jù)中正規(guī)地發(fā)現(xiàn)有效的、新穎的、潛在有用的,最終可被讀懂的模式的過程,簡單的說就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。 醫(yī)學(xué)數(shù)據(jù)挖掘:是針對醫(yī)學(xué)方面的數(shù)據(jù)倉庫進(jìn)行挖掘知識(shí)發(fā)現(xiàn):知識(shí)發(fā)現(xiàn)(KDD)包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識(shí)表示等步驟有人把數(shù)據(jù)挖掘視為數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)或KDD同義詞,另一些人將其視為知識(shí)發(fā)現(xiàn)的一個(gè)基本步驟。2022/8/2524數(shù)據(jù)挖掘: 多學(xué)科的融合Data Mining數(shù)據(jù)庫技術(shù)統(tǒng)計(jì)學(xué)機(jī)器學(xué)習(xí)模式識(shí)別算法其他學(xué)科可視化2022/8/2525數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的基本步驟數(shù)據(jù)庫目標(biāo)數(shù)據(jù)已處理數(shù)據(jù)已轉(zhuǎn)換數(shù)據(jù)模式趨

10、勢知識(shí)選擇處理轉(zhuǎn)換數(shù)據(jù)挖掘解釋評價(jià)2022/8/2526數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的基本步驟選擇:根據(jù)某種標(biāo)準(zhǔn)選擇數(shù)據(jù)處理:包括清除和充實(shí)轉(zhuǎn)換:刪除丟失重要內(nèi)容的記錄,將數(shù)據(jù)分類、格式變換等數(shù)據(jù)挖掘:運(yùn)用工具或算法,在數(shù)據(jù)中發(fā)現(xiàn)模式和規(guī)律解釋評價(jià):將發(fā)現(xiàn)的模式解釋為可用于決策的知識(shí)2022/8/2527數(shù)據(jù)挖掘:數(shù)據(jù)庫中的知識(shí)挖掘(KDD)數(shù)據(jù)挖掘知識(shí)發(fā)現(xiàn)過程的核心數(shù)據(jù)清理與集成數(shù)據(jù)集數(shù)據(jù)倉庫Knowledge任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估模式2022/8/2528數(shù)據(jù)挖掘的知識(shí)表示:(1)規(guī)則類身高頭發(fā)顏色眼睛顏色第一類人矮金色藍(lán)色高紅色藍(lán)色高金色藍(lán)色矮金色灰色第二類人高金色黑色矮黑色藍(lán)色高黑色藍(lán)

11、色高黑色灰色矮金色黑色2022/8/2529數(shù)據(jù)挖掘的知識(shí)表示:(1)規(guī)則(續(xù))規(guī)則由前件和結(jié)論兩部分組成,前件由字段項(xiàng)(屬性)取值的合?。?讀作“與”)和析取( 讀作或)組合而成,結(jié)論為決策字段項(xiàng)(屬性)的取值或類別組成。如從上表的數(shù)據(jù)中可挖掘出如下規(guī)則知識(shí):IF(頭發(fā)顏色金色紅色)(眼睛顏色藍(lán)色灰色)THEN第一類人IF(頭發(fā)顏色黑色)(眼睛黑色)HTEN第二類人也可用自然語言描述2022/8/2530數(shù)據(jù)挖掘的知識(shí)表示:(2)決策樹第一類人紅黑藍(lán)頭發(fā)眼睛灰第一類人第二類人第一類人第二類人金灰2022/8/25重慶醫(yī)科大學(xué)現(xiàn)教中心王體春31數(shù)據(jù)挖掘的知識(shí)表示:(3)知識(shí)基類頭發(fā)顏色眼睛顏色

12、第一類人金色藍(lán)色紅色藍(lán)色金色灰色第二類人金色黑色黑色藍(lán)色黑色灰色2022/8/2532數(shù)據(jù)挖掘的知識(shí)表示:()網(wǎng)絡(luò)權(quán)值21x1x211122122T1T211 12 21 221 11 1120.51.5(T1,T2)=(-1,1)Z2022/8/2533知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的算法數(shù)據(jù)挖掘算法由3部分組成:模型表達(dá)、模型評價(jià)和檢索方法。關(guān)聯(lián)規(guī)則。兩個(gè)或多個(gè)變量之間存在某種規(guī)律性,稱為關(guān)聯(lián)。如超市中顧客買可樂和玉米片的相關(guān)性。分類或者特征提取。如檢查特定記錄并描述第一類記錄的特點(diǎn)。如信用分析。序列模式。注重在一定時(shí)間段內(nèi)發(fā)生的購買事件。如買電視和攝像機(jī)序列。聚類分析。將數(shù)據(jù)庫中的記錄分成子類。可用

13、統(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)等非監(jiān)督性符號(hào)歸納方法實(shí)現(xiàn)數(shù)據(jù)聚類。2022/8/2534典型數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)2022/8/2535數(shù)據(jù)挖掘和商業(yè)智能的關(guān)系對商業(yè)決策的支持潛力終端用戶商業(yè)分析 數(shù)據(jù)分析員DBA進(jìn)行決策數(shù)據(jù)表示可視化技術(shù)數(shù)據(jù)挖掘信息發(fā)現(xiàn)數(shù)據(jù)挖掘引擎統(tǒng)計(jì),查詢和報(bào)告數(shù)據(jù)預(yù)處理/集成, 數(shù)據(jù)倉庫數(shù)據(jù)資源論文,文件, Web文檔, 體魄實(shí)驗(yàn), 數(shù)據(jù)庫本章主要內(nèi)容數(shù)據(jù)挖掘與數(shù)據(jù)倉庫 常用的數(shù)據(jù)挖掘方法大數(shù)據(jù)概念大數(shù)據(jù)處理方法醫(yī)療大數(shù)據(jù)應(yīng)用常用的數(shù)據(jù)挖掘方法關(guān)聯(lián)規(guī)則與關(guān)聯(lián)分析聚類分析決策樹人工神經(jīng)網(wǎng)絡(luò)遺傳算法粗糙集理論關(guān)聯(lián)規(guī)則與關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則的定義關(guān)聯(lián)規(guī)則主要反映了事物之間的關(guān)聯(lián)性。對反映同一事

14、物屬性的一條記錄,若其具有特征屬性A的同時(shí),也具有屬性B,則稱特征屬性A和B是關(guān)聯(lián)的。購物籃分析生物醫(yī)學(xué):某種疾病可能同時(shí)呈現(xiàn)集中癥狀,則幾種癥狀就表現(xiàn)出關(guān)聯(lián)性。(如眼病,眼軸遠(yuǎn)視、和散光)若A和B關(guān)聯(lián):A BA可以表示為若干屬性同時(shí)成立,邏輯與的關(guān)系,即:(A 1 A 2 A 3 A 4 A k) B關(guān)聯(lián)分析時(shí)所涉及的特征屬性的數(shù)據(jù)類型是布爾型。關(guān)聯(lián)規(guī)則的支持度支持度(Support,S):表達(dá)了關(guān)聯(lián)規(guī)則在總體中發(fā)生的概率,是關(guān)聯(lián)規(guī)則重要性的度量。 SA B=N A B/N其中,N表示記錄總數(shù), N A B表示N條記錄中滿足A和B 共同發(fā)生的記錄總數(shù)。案例:眼科數(shù)據(jù)受檢者編號(hào)H52.0 遠(yuǎn)視

15、H52.2 散光H52.4老光110021103111.40001統(tǒng)計(jì):(H52.0遠(yuǎn)視)=18( H52.2 散光)=29( H52.4老光)=21(H52.0遠(yuǎn)視 H52.2 散光)=15 (H52.0遠(yuǎn)視 H52.2 散光 H52.4老光)=9(H52.2 散光 H52.4老光)=13 規(guī)則支持度計(jì)算規(guī)則H52.0 的支持度: SH52.0=N H52.0/N=18/40=0.45規(guī)則H52.0 H52.2 的支持度:SH52.0 A H52.2= N H52.0 H52.2 /N=15/40=0.375 規(guī)則H52.2 H52.4 H52.0 的支持度:SH52.2 H52.4 H52

16、.0=N H52.2 H52.4 H52.0 /N=9/40=0.225 關(guān)聯(lián)規(guī)則的置信度置信度(Confidence,C):表示構(gòu)成關(guān)聯(lián)規(guī)則的一個(gè)特征屬性A發(fā)生時(shí),另一個(gè)特征屬性B的發(fā)生概率,反映了這兩個(gè)屬性之間的關(guān)聯(lián)強(qiáng)度。規(guī)則A B的置信度C CA B=N A B/N A=(N A B/N )/(N A/N)= SA B/ SA 置信度僅對一條規(guī)則。規(guī)則置信度計(jì)算規(guī)則H52.0 H52.2 的置信度:CH52.0 H52.2= N H52.0 H52.2 /N H52.0 =15/18=0.833注意:規(guī)則H52.2 H52.0 的置信度:CH52.2 H52.0= N H52.2 H52

17、.0 /N H52.2 =15/29=0.517規(guī)則H52.2 H52.4 H52.0 的置信度:CH52.2 H52.4 H52.0=N H52.2 H52.4 H52.0 /N H52.2H52.4 =9/13=0.692 關(guān)聯(lián)規(guī)則的提升度提升度(Lift,l):反映了關(guān)聯(lián)規(guī)則的重要性以及研究者對其感興趣程度。如果提升度等于1,則表示該關(guān)聯(lián)規(guī)則反映的只是一種普遍現(xiàn)象;提升度小于1,該規(guī)則表現(xiàn)為負(fù)關(guān)聯(lián),反映其所涉及的特征屬性是互相排斥的;提升度大于1,該規(guī)則表現(xiàn)為正關(guān)聯(lián),反映其所涉及的特征屬性是互為共生的。規(guī)則A B的提升度L LA B=CA B/SB=S A B/ SA * SB 規(guī)則提升

18、度計(jì)算規(guī)則H52.0 H52.2 的提升度:LH52.0 H52.2= CH52.0 H52.2/SH52.2=0.833/(N H52.2 /N =0.833/(29/40)=1.149規(guī)則H52.2 H52.4 H52.0 的提升度:LH52.2 H52.4 H52.0=C H52.2 H52.4 H52.0 N/ SH52.0 =0.692/0.45關(guān)聯(lián)規(guī)則的分析方法Aprior算法本章主要內(nèi)容數(shù)據(jù)挖掘與數(shù)據(jù)倉庫 常用的數(shù)據(jù)挖掘方法大數(shù)據(jù)概念大數(shù)據(jù)處理方法醫(yī)療大數(shù)據(jù)應(yīng)用大數(shù)據(jù)概念和特征大數(shù)據(jù)概念 無法在一定時(shí)間內(nèi)用傳統(tǒng)的數(shù)據(jù)庫軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。-維基百科大數(shù)

19、據(jù)的產(chǎn)生數(shù)據(jù)產(chǎn)生由企業(yè)內(nèi)部向企業(yè)外部擴(kuò)展數(shù)據(jù)產(chǎn)生從Web1.0向Web2.0,從互聯(lián)網(wǎng)向移動(dòng)互聯(lián)擴(kuò)展中國聯(lián)通統(tǒng)計(jì),每秒上網(wǎng)記錄82萬條。數(shù)據(jù)產(chǎn)生從計(jì)算機(jī)、互聯(lián)網(wǎng)向物聯(lián)網(wǎng)擴(kuò)展視頻、傳感器、智能設(shè)備和RFID、機(jī)器對機(jī)器(M2M)產(chǎn)生大量數(shù)據(jù)。思科預(yù)測2015年僅移動(dòng)設(shè)備產(chǎn)生的數(shù)據(jù)流量將達(dá)到每月6.3EB的規(guī)模。大數(shù)據(jù)的應(yīng)用需求互聯(lián)網(wǎng)與電子商務(wù)用戶分析:注冊信息、博客信息用戶行為分析:鼠標(biāo)移動(dòng)、移動(dòng)終端觸摸、眼球移動(dòng)基于大數(shù)據(jù)相關(guān)性分析的推薦系統(tǒng)內(nèi)容針對性投放零售業(yè):例如:貨架商品關(guān)聯(lián)性分析金融業(yè):客戶行為分析、金融欺詐行為監(jiān)測政府:大數(shù)據(jù)分析用于經(jīng)濟(jì)預(yù)測奧巴馬競選連任-大數(shù)據(jù)應(yīng)用Dan Wagn

20、er, 奧巴馬2012年競選團(tuán)隊(duì)首席分析師,長的有點(diǎn)像比爾 蓋茨大數(shù)據(jù)在醫(yī)療行業(yè)的應(yīng)用基因組學(xué)測序分析大數(shù)據(jù)在醫(yī)療行業(yè)的應(yīng)用疫情和健康趨勢分析GOOGLE官網(wǎng)全球登革熱趨勢。/denguetrends/大數(shù)據(jù)分析或可助抗擊埃博拉。健康地圖”通過搜集社交媒體、地方媒體信息,比WHO早9天確定埃博拉出血熱在幾內(nèi)亞境內(nèi)的傳播情況。大數(shù)據(jù)的作者-涂子沛我們已經(jīng)不僅僅處在信息時(shí)代新信息時(shí)代?后信息時(shí)代?智能時(shí)代?越來與依賴機(jī)器,越來與依賴網(wǎng)絡(luò),人機(jī)共生的時(shí)代,機(jī)器是數(shù)據(jù)啟動(dòng)的軟件定義這個(gè)世界,數(shù)據(jù)驅(qū)動(dòng)這時(shí)代大數(shù)據(jù)的特征 (四個(gè)V)數(shù)據(jù)量巨大(Volume):PB級以上數(shù)據(jù)類型多(Variety):日志、

21、音頻、視頻數(shù)據(jù)流動(dòng)快(Velocity):實(shí)時(shí)分析獲取信息數(shù)據(jù)潛在價(jià)值大(Value):數(shù)據(jù)的量級數(shù)據(jù)大小的量級1Byte (B)1Kilobyte(KB)=1024b1Megabyte(MB)=1024KB1Gigabyte(GB)=1024MB1Terabyte(1TB)=1024GB1Petabyte(1PB)=1024TB1Exabyte(EB)=1024PB1Zettabyte(ZB)=1024EB1Yottabyet(YB)=1024ZB本章主要內(nèi)容數(shù)據(jù)挖掘與數(shù)據(jù)倉庫 常用的數(shù)據(jù)挖掘方法大數(shù)據(jù)概念大數(shù)據(jù)處理方法醫(yī)療大數(shù)據(jù)應(yīng)用大數(shù)據(jù)主流架構(gòu):Hadoop+MapReduceHdoop

22、+MapReduce架構(gòu)HDFS:分布式文件系統(tǒng)。運(yùn)行在廉價(jià)的計(jì)算機(jī)組成的大規(guī)模集群之上。采用元數(shù)據(jù)集中管理和數(shù)據(jù)塊分散存儲(chǔ)相結(jié)合的模式。Hbase:基于列存儲(chǔ)的開源非關(guān)系型數(shù)據(jù)庫。提供非常大數(shù)據(jù)集的實(shí)時(shí)讀取和寫入的隨機(jī)存取。MapReduce:分布式并行計(jì)算框架,Map 任務(wù)分解,Reduce綜合結(jié)果。是一個(gè)JAVA 函數(shù)。Mahout: 分布式機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫。R語言:用于統(tǒng)計(jì)分析、繪圖的語言和操作環(huán)境Hdoop+MapReduce架構(gòu)Hive:Facebook提供的數(shù)據(jù)倉庫工具,分析結(jié)構(gòu)化數(shù)據(jù)的中間件。Hive類SQL查詢語音可以查詢分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)。Pig:基于

23、Hadoop的并行計(jì)算高級語言,類似SQLSqoop:開源工具,Hadoop與傳統(tǒng)的數(shù)據(jù)庫間進(jìn)行數(shù)據(jù)傳遞。Flume:Cloudera提供的日志收集系統(tǒng)。ZooKeeper:分布式應(yīng)用程序集中配置管理器。Hadoop優(yōu)勢Hadoop:分布式文件系統(tǒng)和并行執(zhí)行環(huán)境。能夠存儲(chǔ)管理PB級的數(shù)據(jù)。易于擴(kuò)充的分布式架構(gòu)。數(shù)據(jù)處理采用大量計(jì)算節(jié)點(diǎn)橫向擴(kuò)充實(shí)現(xiàn)。善于處理非結(jié)構(gòu)化數(shù)據(jù)。自動(dòng)化的并行處理機(jī)制。數(shù)據(jù)分布在并行節(jié)點(diǎn)上,每個(gè)節(jié)點(diǎn)只處理一部分?jǐn)?shù)據(jù),所有節(jié)點(diǎn)同時(shí)并行處理。高可靠性、容錯(cuò)強(qiáng)。自動(dòng)保存數(shù)據(jù)多個(gè)副本。計(jì)算靠近存儲(chǔ)。計(jì)算與存儲(chǔ)一體。低成本計(jì)算和存儲(chǔ)。HDFS架構(gòu)HDFS組成NameNode:命名節(jié)

24、點(diǎn),存儲(chǔ)元數(shù)據(jù),并提供元數(shù)據(jù)服務(wù)。元數(shù)據(jù):文件名、文件目錄結(jié)構(gòu)、文件屬性、文件塊列表、塊所在的DataNode等DataNode:數(shù)據(jù)節(jié)點(diǎn),為HDFS提供存儲(chǔ)塊。在本地文件系統(tǒng)中存儲(chǔ)數(shù)據(jù)以及數(shù)據(jù)校驗(yàn)和,塊大小64M.NameNodeDataNode存儲(chǔ)元數(shù)據(jù)存儲(chǔ)文件內(nèi)容元數(shù)據(jù)保存在內(nèi)存文件內(nèi)容保存在磁盤保存文件、塊、DataNode之間的映射關(guān)系維護(hù)塊ID到DataNode本地文件的映射關(guān)系HDFS寫數(shù)據(jù)流程HDFS讀數(shù)據(jù)流程MapReduce框架MapReduce原理每個(gè)MapReduce任務(wù)都被初始化為一個(gè)Job,Job又分為Map和Reduce來表示。map函數(shù)接收一個(gè)的輸入,然后產(chǎn)生一

25、個(gè)的中間輸出,Hadoop會(huì)將所有的具有相同key值的value集合在一起,發(fā)送給reduce 函數(shù),reduce對value集合進(jìn)行處理,產(chǎn)生OutputMapReduce原理數(shù)據(jù)首先按照TextInput給定的格式分成兩個(gè)InputSplit,然后輸入到兩個(gè)map中,map 函數(shù)會(huì)讀取InputSplit指定的位置的數(shù)據(jù),然后按照設(shè)定的方法處理此數(shù)據(jù)。最后寫入到本地磁盤中。MapReduce原理負(fù)責(zé)調(diào)度及控制MapReduce job的是JobTracker,負(fù)責(zé)運(yùn)行Job的是TaskTracker。JobTracker調(diào)度任務(wù)給TaskTracker,TaskTracker執(zhí)行任務(wù)時(shí),會(huì)

26、返回進(jìn)度報(bào)告。JobTracker記錄進(jìn)度的運(yùn)行狀況,如果某個(gè)TaskTracker執(zhí)行失敗,JobTracker會(huì)把這個(gè)任務(wù)分配給其他TaskTrackerMapReduce原理Hadoop本章主要內(nèi)容數(shù)據(jù)挖掘與數(shù)據(jù)倉庫 常用的數(shù)據(jù)挖掘方法大數(shù)據(jù)概念大數(shù)據(jù)處理方法醫(yī)療大數(shù)據(jù)應(yīng)用?提綱一、 醫(yī)療與大數(shù)據(jù)的趨勢二 、什么是醫(yī)療大數(shù)據(jù)三 、大數(shù)據(jù)面臨的挑戰(zhàn)四、 如何管理和利用大數(shù)據(jù)五、 案例分析六、 總結(jié)與展望一、 醫(yī)療與大數(shù)據(jù)的趨勢二 、什么是醫(yī)療大數(shù)據(jù)三 、大數(shù)據(jù)面臨的挑戰(zhàn)四、 如何管理和利用大數(shù)據(jù)五、 案例分析六、 總結(jié)與展望壓在百姓健康3座大山第一座健康大山跑步進(jìn)入老齡化社會(huì)第二座大山-癌

27、癥年輕化第三座大山-新生兒“先天缺陷”醫(yī)療費(fèi)用在不斷上升GDP的占比非常高10-19%0-9%趨勢分析: 我們正處在醫(yī)療行業(yè)的一個(gè)重要轉(zhuǎn)折點(diǎn)% of population over age 6030+ %25-29%20-24%2050WW Average Age 60+: 21%Source: United Nations “Population Aging 2002”全球老齡化平均年齡60 +: 目前的10%, 到2050年將達(dá)到20%Source: McKinsey Global Institute AnalysisESG Research Report 2011 North Ameri

28、can Health Care Provider Market Size and Forecast以美國為例: 醫(yī)療大數(shù)據(jù)的價(jià)值3千億美元/年, 相當(dāng)于每年生成總值增長0.7%0150001000050002010 2011 2012 2013 2014 2015趨勢分析:我們正處在醫(yī)療行業(yè)的一個(gè)重要轉(zhuǎn)折點(diǎn)存儲(chǔ)的增長醫(yī)療服務(wù)產(chǎn)生的數(shù)據(jù)總量(PB)AdminImagingEMREmailFileNon Clin ImgResearch醫(yī)療影像歸檔一個(gè)醫(yī)療系統(tǒng)案例的數(shù)據(jù)到2020年, 醫(yī)療數(shù)據(jù)將急劇增長到35 Zetabytes, 相當(dāng)于2009年數(shù)據(jù)量的44倍增長Source: McKinsey

29、 Global Institute AnalysisESG Research Report 2011 North American Health Care Provider Market Size and Forecast一、 醫(yī)療與大數(shù)據(jù)的趨勢二 、什么是醫(yī)療大數(shù)據(jù)三 、大數(shù)據(jù)面臨的挑戰(zhàn)四、 如何管理和利用大數(shù)據(jù)五、 案例分析六、 總結(jié)與展望大數(shù)據(jù)對于“大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。4V:Volume(大量)Velocity(高速)Variety(

30、多樣)veracity(真實(shí)性)/Value(價(jià)值性)1. 制藥企業(yè)/生命科學(xué)3. 費(fèi)用報(bào)銷, 利用率 和 欺詐監(jiān)管2. 臨床決策支持 & 其他臨床應(yīng)用 (包括診斷相關(guān)的影像信息)4. 患者行為/社交網(wǎng)絡(luò)醫(yī)療大數(shù)據(jù)簡介數(shù)據(jù)來源包括哪些?我們?nèi)绾卫么髷?shù)據(jù)創(chuàng)造價(jià)值? (示例)2. 臨床決策支持4. 由生活方式和行為引發(fā)的疾病分析1. 個(gè)體化醫(yī)療3. 欺詐監(jiān)測得以加強(qiáng)McKinsey Global Institute Analysis醫(yī)療大數(shù)據(jù)相關(guān)解決方案健康信息服務(wù)新興的醫(yī)療服務(wù)應(yīng)用數(shù)據(jù)分析及視覺化處理數(shù)據(jù)處理/管理分布式平臺(tái)老齡社會(huì)腫瘤基因組學(xué)醫(yī)療影像分析醫(yī)療影像影像數(shù)據(jù)處理加速基礎(chǔ)醫(yī)療服務(wù)臨

31、床決策支持類SQL的檢索醫(yī)療記錄存儲(chǔ)優(yōu)化個(gè)人健康管理個(gè)體化醫(yī)療機(jī)器學(xué)習(xí)基因數(shù)據(jù)安全和隱私一、 醫(yī)療與大數(shù)據(jù)的趨勢二 、什么是醫(yī)療大數(shù)據(jù)三 、大數(shù)據(jù)面臨的挑戰(zhàn)四、 如何管理和利用大數(shù)據(jù)五、 案例分析六、 總結(jié)與展望大數(shù)據(jù)的挑戰(zhàn)不僅來自于數(shù)據(jù)量的增長.需要新技術(shù)的支持檢驗(yàn)結(jié)果, 費(fèi)用數(shù)據(jù), 影像, 設(shè)備產(chǎn)生的感應(yīng)數(shù)據(jù), 基因數(shù)據(jù)等數(shù)據(jù)量結(jié)構(gòu)化數(shù)據(jù), 遵循標(biāo)準(zhǔn)的數(shù)據(jù)標(biāo)準(zhǔn)(如,HL7)非結(jié)構(gòu)化數(shù)據(jù), 如口述、手寫、照片、影像等類型實(shí)時(shí)有效的商業(yè)價(jià)值基于現(xiàn)有數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析,來支持不同種類的業(yè)務(wù):如費(fèi)用及報(bào)銷、患者病史、歸檔影像分析、實(shí)時(shí)臨床決策支持(數(shù)據(jù)分析) 實(shí)時(shí)數(shù)據(jù)分析,而非傳統(tǒng)的批量處理分

32、析 數(shù)據(jù)以流的方式進(jìn)入系統(tǒng),進(jìn)行抽取和分析 對于實(shí)時(shí)運(yùn)行中的每個(gè)時(shí)間節(jié)點(diǎn)產(chǎn)生影響,而不是事后處理在傳統(tǒng)的解決方案之上,引入新的數(shù)據(jù)及分析模型和技術(shù),價(jià)值速度一、 醫(yī)療與大數(shù)據(jù)的趨勢二 、什么是醫(yī)療大數(shù)據(jù)三 、大數(shù)據(jù)面臨的挑戰(zhàn)四、 如何管理和利用大數(shù)據(jù)五、 案例分析六、 總結(jié)與展望傳統(tǒng)解決方案環(huán)境ERP, CRM, Batch,OLTP-DBData Center ProvisioningDiscreteVirtualCloud As A ServiceHPC關(guān)注數(shù)據(jù)的價(jià)值大數(shù)據(jù)存儲(chǔ)的考慮傳統(tǒng)存儲(chǔ)方式大規(guī)模分析 Hadoop*海量數(shù)據(jù)庫 Hive*大規(guī)模備份 Lustre*數(shù)據(jù)源文本-語音-視頻

33、-傳感器Requesting Or M2M通訊批量 商業(yè)應(yīng)用豐富的視覺化效果 安全的數(shù)據(jù)分析和緩存邊緣服務(wù)器(Edge)分析同步端到端Machine-to-MachineSource-to-Source可行的解決方案體系(示例)Applications & ServicesVisualization File Structure & AnalyticalToolsData Delivery, Operational & GraphicalAnalyticsData Management & ComputationalAnalyticsCompute Storage & Infrastructu

34、rePlatforms高效的大數(shù)據(jù)訪問途徑 (客戶端)“Know Me”“Free Me”“Express Me”智能手機(jī)移動(dòng)醫(yī)療助理平板電腦筆記本,Ultrabook其他設(shè)備臺(tái)式機(jī)數(shù)字標(biāo)牌自助終端MobilityVital sign,I & O entryMedicationadministrationTemplatedata entryFree-format textdata entryLarge diagnosticimagesData inquiryManageability“Link Me”大數(shù)據(jù)在中國醫(yī)療行業(yè)中的應(yīng)用模式1.制藥企業(yè)/生命科學(xué)3.費(fèi)用報(bào)銷, 利用率 和 欺詐監(jiān)管2.

35、臨床決策支持 &其他臨床應(yīng)用 (包括診斷相關(guān)的影像信息)4.患者行為/社交網(wǎng)絡(luò)藥品研發(fā)對藥品實(shí)際 作用進(jìn)行分析;實(shí)施藥品市場預(yù)測基因測序分布式計(jì)算加快基因測序計(jì)算效率公共衛(wèi)生實(shí)時(shí)統(tǒng)計(jì)分析發(fā)現(xiàn)公共衛(wèi)生疫情及公民健康狀況新農(nóng)合基金數(shù)據(jù)分析及時(shí)了解基金狀況,預(yù)測風(fēng)險(xiǎn)輔助制定農(nóng)合基金的起付線,賠付病種等基本藥物臨床應(yīng)用分析分析基本藥物在處方中的比例臨床數(shù)據(jù)比對匹配同類型的病人,用藥臨床決策支持利用規(guī)則和數(shù)據(jù)實(shí)時(shí)分析給出智能提示遠(yuǎn)程監(jiān)控采集并分析病人隨身攜帶儀器數(shù)據(jù),給出智能建議人口統(tǒng)計(jì)學(xué)分析對不同群體人群的就醫(yī),健康數(shù)據(jù)實(shí)施人口統(tǒng)計(jì)分析了解病人就診行為發(fā)現(xiàn)病人的特定就診行為,分配醫(yī)療資源一、 醫(yī)療與大數(shù)據(jù)的趨勢二 、什

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論