基于Spark的醫(yī)療行業(yè)大數(shù)據(jù)平臺方案設(shè)計_第1頁
基于Spark的醫(yī)療行業(yè)大數(shù)據(jù)平臺方案設(shè)計_第2頁
基于Spark的醫(yī)療行業(yè)大數(shù)據(jù)平臺方案設(shè)計_第3頁
基于Spark的醫(yī)療行業(yè)大數(shù)據(jù)平臺方案設(shè)計_第4頁
基于Spark的醫(yī)療行業(yè)大數(shù)據(jù)平臺方案設(shè)計_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 基于Spark的醫(yī)療行業(yè)大數(shù)據(jù)平臺方案設(shè)計 目 錄 TOC o 1-3 h z u HYPERLINK l _Toc66521534 基于Spark的醫(yī)療行業(yè)大數(shù)據(jù)平臺方案設(shè)計 PAGEREF _Toc66521534 h 1 HYPERLINK l _Toc66521535 一、醫(yī)療大數(shù)據(jù)項目可行性評估報告 PAGEREF _Toc66521535 h 3 HYPERLINK l _Toc66521536 1.1、醫(yī)療行業(yè)大數(shù)據(jù)的發(fā)展趨勢 PAGEREF _Toc66521536 h 3 HYPERLINK l _Toc66521537 1.2、大數(shù)據(jù)建設(shè)所面臨的問題 PAGEREF _T

2、oc66521537 h 4 HYPERLINK l _Toc66521538 1.3、項目價值 PAGEREF _Toc66521538 h 4 HYPERLINK l _Toc66521539 1.4、項目風(fēng)險管理 PAGEREF _Toc66521539 h 6 HYPERLINK l _Toc66521540 1.5、項目預(yù)算 PAGEREF _Toc66521540 h 7 HYPERLINK l _Toc66521541 1.6、產(chǎn)品選型 PAGEREF _Toc66521541 h 7 HYPERLINK l _Toc66521542 二、醫(yī)療大數(shù)據(jù)項目方案設(shè)計 PAGEREF

3、_Toc66521542 h 10 HYPERLINK l _Toc66521543 2.1、項目設(shè)計目標(biāo) PAGEREF _Toc66521543 h 10 HYPERLINK l _Toc66521544 2.2、項目數(shù)據(jù)建模 PAGEREF _Toc66521544 h 11 HYPERLINK l _Toc66521545 2.3、項目整體架構(gòu)設(shè)計 PAGEREF _Toc66521545 h 14 HYPERLINK l _Toc66521546 2.4、大數(shù)據(jù)分析平臺架構(gòu)設(shè)計 PAGEREF _Toc66521546 h 16 HYPERLINK l _Toc66521547 2.

4、5、關(guān)鍵技術(shù)難點(diǎn)分析 PAGEREF _Toc66521547 h 18 HYPERLINK l _Toc66521548 2.6、關(guān)鍵設(shè)備配置算法 PAGEREF _Toc66521548 h 18 HYPERLINK l _Toc66521549 2.7、關(guān)鍵設(shè)備選型 PAGEREF _Toc66521549 h 19 HYPERLINK l _Toc66521550 2.8、大數(shù)據(jù)分析軟件選型 PAGEREF _Toc66521550 h 23 HYPERLINK l _Toc66521551 2.9、建議軟硬件產(chǎn)品配置 PAGEREF _Toc66521551 h 24一、醫(yī)療大數(shù)據(jù)項

5、目可行性評估報告1.1、醫(yī)療行業(yè)大數(shù)據(jù)的發(fā)展趨勢醫(yī)院醫(yī)療費(fèi)用在不斷上升,醫(yī)療費(fèi)用的GDP占比逐年增加,全球平均60歲以上的老年人目前占11%,到2050年將達(dá)到21%,醫(yī)療大數(shù)據(jù)的價值達(dá)3千億美元并以每年0.75%增長,醫(yī)療行業(yè)在數(shù)字世界中占比達(dá)30%以上,每年以48%的速度增長,是增速最快的行業(yè)之一,從2009年到2020年醫(yī)療數(shù)據(jù)增長了44倍,醫(yī)療行業(yè)數(shù)據(jù)呈PB級增長,一個三甲醫(yī)院每年的醫(yī)療影像數(shù)據(jù)將增加數(shù)十TB,根據(jù)估算,中國一個中等城市(一千萬人口計算)50年累計的醫(yī)療數(shù)據(jù)量將達(dá)到10PB級。醫(yī)療行業(yè)大數(shù)據(jù)可以實現(xiàn)醫(yī)生與病人、醫(yī)生與護(hù)士、大型醫(yī)院與社區(qū)醫(yī)院、醫(yī)療與保險、醫(yī)療機(jī)構(gòu)與衛(wèi)生管

6、理部門、醫(yī)療機(jī)構(gòu)與藥品管理之間的協(xié)同,逐步構(gòu)建智慧化醫(yī)療服務(wù)體系。醫(yī)療行業(yè)大數(shù)據(jù)的作用如下圖:醫(yī)療行業(yè)大數(shù)據(jù)的作用1.2、大數(shù)據(jù)建設(shè)所面臨的問題1.概述某醫(yī)院是成立60多年的三級甲等醫(yī)院,是集醫(yī)療、教學(xué)、科研、預(yù)防、保健、康復(fù)為一體的綜合型醫(yī)院,現(xiàn)有員工8000多人,編制床位5000多張,年門急診量300多萬人次,打造出一張以某醫(yī)院為核心,橫跨全省的醫(yī)療協(xié)作網(wǎng)絡(luò)。最近幾年來,醫(yī)院的數(shù)據(jù)呈現(xiàn)出爆炸性增長的趨勢,海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)快速增加且結(jié)構(gòu)復(fù)雜。隨著醫(yī)院信息數(shù)據(jù)的增長,醫(yī)院信息中心越來越關(guān)注數(shù)據(jù)的集中平臺建設(shè)和大數(shù)據(jù)的技術(shù)應(yīng)用。數(shù)據(jù)大集中可以使醫(yī)院更好的將數(shù)據(jù)管理起來,統(tǒng)一病患數(shù)據(jù),為大

7、數(shù)據(jù)應(yīng)用打下基礎(chǔ)。大數(shù)據(jù)成為醫(yī)院和社會所關(guān)注的重要戰(zhàn)略資源,大數(shù)據(jù)可以使醫(yī)院在病情分析、臨床決策和醫(yī)療服務(wù)質(zhì)量等方面起到關(guān)鍵作用。2.醫(yī)院大數(shù)據(jù)建設(shè)所面臨的問題1)海量數(shù)據(jù)的存儲問題急需解決:數(shù)據(jù)來自醫(yī)院各個不同的信息系統(tǒng),包括檢驗結(jié)果、住院信息、影像數(shù)據(jù)、診療數(shù)據(jù)和臨床數(shù)據(jù)等,每年呈幾何形式增長。2)數(shù)據(jù)種類復(fù)雜:結(jié)構(gòu)化數(shù)據(jù)包括病人電子病歷、診療和臨床數(shù)據(jù)等信息,非結(jié)構(gòu)化數(shù)據(jù)包括醫(yī)學(xué)影像(心電圖、腦電圖、B超、彩超,病理切片等 )、視頻(教學(xué)、監(jiān)控)及文獻(xiàn)等。3)數(shù)據(jù)不統(tǒng)一:各個業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫割裂,很難滿足數(shù)據(jù)的一致性要求和信息安全共享。4)服務(wù)的實時性需要提高:醫(yī)院信息服務(wù)中會存在大量在線

8、或?qū)崟r數(shù)據(jù)分析處理的需求,例如臨床中的診斷和用藥建議、健康指標(biāo)預(yù)警等。實時數(shù)據(jù)分析,而非傳統(tǒng)的批量處理分析 ,數(shù)據(jù)以流的方式進(jìn)入系統(tǒng),進(jìn)行抽取和分析 ,對于實時運(yùn)行中的每個時間節(jié)點(diǎn)產(chǎn)生影響,而不是事后處理。5)提高大數(shù)據(jù)的價值:醫(yī)療數(shù)據(jù)對國家乃至全球的疾病防控、新藥研發(fā)和頑疾攻克都有著巨大的作用。醫(yī)院傳統(tǒng)的數(shù)據(jù)中心已經(jīng)不能滿足醫(yī)療行業(yè)大數(shù)據(jù)發(fā)展的要求,需要建設(shè)數(shù)據(jù)集成平臺并尋求一套具有高可靠性、高擴(kuò)展性,高性價比并且能支持開展更多高級分析、建立更多大數(shù)據(jù)功能的IT基礎(chǔ)架構(gòu)。1.3、項目價值1.大數(shù)據(jù)建設(shè)的業(yè)務(wù)價值1)大數(shù)據(jù)分析獲取最佳性價比治療方案:通過全面分析病人特征數(shù)據(jù)和療效數(shù)據(jù),然后比較

9、多種干預(yù)措施的有效性,可以找到針對特定病人的最佳治療途徑。研究表明,對同一病人來說,醫(yī)療服務(wù)提供方不同,醫(yī)療護(hù)理方法和效果不同,成本上也存在很大差異。將有可能減少過度治療(比如避免那些副作用比療效明顯的治療方式),以及治療不足。2)臨床決策支持系統(tǒng),提高準(zhǔn)確性,減少醫(yī)療事故率:臨床決策支持系統(tǒng)可提高工作效率和診療質(zhì)量。臨床決策支持系統(tǒng)分析醫(yī)生輸入條目,比較其與醫(yī)學(xué)指引不同地方,提醒醫(yī)生防止?jié)撛诘腻e誤,如藥物不良反應(yīng)。醫(yī)療服務(wù)提供方可以降低醫(yī)療事故率和索賠數(shù),尤其是那些臨床錯誤引起的醫(yī)療事故。大數(shù)據(jù)分析技術(shù)將使臨床決策支持系統(tǒng)更智能,如可以使用圖像分析和識別技術(shù),識別醫(yī)療影像(X光、CT、MRI

10、)數(shù)據(jù),或者挖掘醫(yī)療文獻(xiàn)數(shù)據(jù)建立醫(yī)療專家數(shù)據(jù)庫,從而給醫(yī)生提出診療建議。3)醫(yī)療數(shù)據(jù)透明度,實現(xiàn)高效管理,降低成本:提高醫(yī)療過程數(shù)據(jù)的透明度,可以使醫(yī)療從業(yè)者、醫(yī)療機(jī)構(gòu)績效更透明,間接促進(jìn)醫(yī)療服務(wù)質(zhì)量提高。數(shù)據(jù)分析可以帶來業(yè)務(wù)流程的精簡,通過精益生產(chǎn)降低成本,找到符合需求的工作更高效的員工,從而提高護(hù)理質(zhì)量并給病人帶來更好的體驗,也給醫(yī)療服務(wù)機(jī)構(gòu)帶來額外的業(yè)績增長潛力。公開發(fā)布醫(yī)療質(zhì)量和績效數(shù)據(jù)還可以幫助病人做出更明智的健康護(hù)理決定,這也將幫助醫(yī)療服務(wù)提供方提高總體績效,從而更具競爭力4)公眾健康:大數(shù)據(jù)使用可改善公眾健康監(jiān)控。公共衛(wèi)生部門可以通過覆蓋全國的患者電子病歷數(shù)據(jù)庫,快速檢測傳染病,

11、進(jìn)行全面的疫情監(jiān)測,并通過集成疾病監(jiān)測和響應(yīng)程序,快速進(jìn)行響應(yīng)。衛(wèi)生部門可以更快地檢測出新的傳染病和疫情。通過提供準(zhǔn)確和及時的公眾健康咨詢,將會大幅提高公眾健康風(fēng)險意識,同時也將降低傳染病感染風(fēng)險。所有的這些都將幫助人們創(chuàng)造更好生活。2.大數(shù)據(jù)建設(shè)的IT價值1)IT價值:在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)沒有整合之前x86服務(wù)器的資源利用率是很低的,每一臺服務(wù)器或一個雙機(jī)或多機(jī)集群運(yùn)行一套應(yīng)用系統(tǒng),各個應(yīng)用系統(tǒng)之間是相互割裂的,交互和接口都很復(fù)雜,現(xiàn)在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)整合后,一個雙機(jī)集群配合虛擬化軟件可以實現(xiàn)過去10多臺服務(wù)器所完成的工作量,資源利用率可以達(dá)到80%以上,功耗節(jié)約70%以上,如果二期項目采用lin

12、uxone架構(gòu)工作量還能提升4倍,空間和功耗節(jié)省可以達(dá)到90%以上。2)運(yùn)維價值:實現(xiàn)存儲和服務(wù)器虛擬化后,單臺存儲和服務(wù)器的物理故障不影響業(yè)務(wù)系統(tǒng)的正常運(yùn)行,提高和業(yè)務(wù)系統(tǒng)的可靠性和可用性,原有的老舊存儲和服務(wù)器是最易出現(xiàn)故障的,這些設(shè)備可以供測試系統(tǒng)使用,進(jìn)而發(fā)揮設(shè)備的“余熱”。 實現(xiàn)存儲和服務(wù)器虛擬化后,可以讓更少的存儲和服務(wù)器完成更多工作量,參與生產(chǎn)的服務(wù)器和存儲的數(shù)量減少了、而可靠性、可用性和可擴(kuò)展性卻提高了,運(yùn)維人員的工作也就相對輕松了。1.4、項目風(fēng)險管理項目的風(fēng)險包括業(yè)務(wù)風(fēng)險和項目風(fēng)險兩個方面,醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化是醫(yī)療大數(shù)據(jù)建設(shè)的基礎(chǔ),為了滿足臨床業(yè)務(wù)應(yīng)用數(shù)據(jù)需求,實現(xiàn)數(shù)據(jù)統(tǒng)一入口

13、和多系統(tǒng)共用目標(biāo)。醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)過程中遇到以下風(fēng)險:1.業(yè)務(wù)風(fēng)險1) 數(shù)據(jù)標(biāo)準(zhǔn)化涉及多個應(yīng)用系統(tǒng)(包括數(shù)據(jù)提供方和數(shù)據(jù)消費(fèi)方),協(xié)調(diào)接口改造進(jìn)度和接口質(zhì)量把控難度大,該問題處理不好易導(dǎo)致工期延遲,項目成本上升,需要協(xié)調(diào)好數(shù)據(jù)提供方和數(shù)據(jù)消費(fèi)方的改造進(jìn)度,把具體的進(jìn)度目標(biāo)落到紙面上,雙方簽字確認(rèn),嚴(yán)格按照進(jìn)度表執(zhí)行,雙方的責(zé)任劃分清楚,如需更改改造進(jìn)度需要上會商議,商議通過按新進(jìn)度執(zhí)行,從而保障接口質(zhì)量的把控。2)數(shù)據(jù)標(biāo)準(zhǔn)化以消費(fèi)方系統(tǒng)為建設(shè)起點(diǎn),收集各消費(fèi)方系統(tǒng)對數(shù)據(jù)標(biāo)準(zhǔn)化需求,先建立數(shù)據(jù)基本集和預(yù)留部分?jǐn)U充字段,避免接口改造反復(fù)修改,提高接口穩(wěn)定性;數(shù)據(jù)基本集和部分?jǐn)U充字段的預(yù)留要充分的

14、考慮現(xiàn)有的業(yè)務(wù)對應(yīng)用系統(tǒng)的要求并且為業(yè)務(wù)的長期發(fā)展考慮,按照確定的目標(biāo)執(zhí)行。3)數(shù)據(jù)標(biāo)準(zhǔn)化確認(rèn)業(yè)務(wù)流程,通知相關(guān)科室(數(shù)據(jù)提供方)維護(hù)數(shù)據(jù)要求,給出必填字段及業(yè)務(wù)流程,以免維護(hù)數(shù)據(jù)錯誤或空缺而影響消費(fèi)系統(tǒng)數(shù)據(jù);4)數(shù)據(jù)標(biāo)準(zhǔn)化采用雙向(拉和?。┙涌谀J剑岳〝?shù)據(jù)消費(fèi)方提供服務(wù),給數(shù)據(jù)提供方調(diào)用)為主,以?。〝?shù)據(jù)提供方提供服務(wù),由數(shù)據(jù)消費(fèi)方調(diào)用)為輔,確保數(shù)據(jù)冗余訪問機(jī)制;2.項目風(fēng)險1)項目進(jìn)度的估算是否準(zhǔn)確:對于估算是否準(zhǔn)確是對項目進(jìn)度計劃安排影響最大的一個因素,估算不準(zhǔn)確的原因很多,主要的兩個方面是缺少有經(jīng)驗的估算專家和項目缺少歷史數(shù)據(jù)的收集,對于這兩點(diǎn)只有通過項目多個版本的積累才可能得以

15、改善,而沒有捷徑。另外估算過程中還需要考慮一些特殊因素的影響,如項目新進(jìn)了幾名新員工可能會降低項目的平均生產(chǎn)率,項目過程中需要采用某種新技術(shù)而需要投入額外的預(yù)研時間等;2)關(guān)鍵資源是否應(yīng)用在了關(guān)鍵路徑上:在進(jìn)度計劃安排中是否優(yōu)先保證了項目關(guān)鍵路徑上的資源,是否通過人員技能矩陣對項目關(guān)鍵資源進(jìn)行分析和安排。在我們?nèi)蝿?wù)安排過程中是否對關(guān)鍵資源進(jìn)行了保護(hù)(盡量減少關(guān)鍵資源上非關(guān)鍵任務(wù)的安排)。另外我們在進(jìn)度計劃安排上應(yīng)該適當(dāng)安排10%-15%的余量,這樣在項目遇到突發(fā)事件,或項目風(fēng)險轉(zhuǎn)變?yōu)閷嶋H問題時候才能夠有人員和時間進(jìn)行處理。3)項目中的資源是否充分利用:由于存在關(guān)鍵路徑和崗位角色矩陣,所以項目中

16、人力資源往往并不能充分利用起來。在中小型項目中為了充分利用相關(guān)資源,項目更應(yīng)該采用敏捷和迭代的開發(fā)方法,需求階段開發(fā)人員可以先熟悉需求和進(jìn)行公有組件的開發(fā),而測試階段我們的需求人員也可以介入測試。所以對一個軟件項目而言,需要保證到項目成員的整體利用程度在70%以上,否則就應(yīng)該考慮采用新的開發(fā)模式和生命周期模型。1.5、項目預(yù)算醫(yī)院實施大數(shù)據(jù)項目的成本包括以下幾個部分,新增硬件成本,新增軟件成本,軟件二次開發(fā)成本,運(yùn)維成本,其它成本(管理成本、其它突發(fā)性成本等)。1.運(yùn)營運(yùn)維成本估算新采購的設(shè)備通常提供三年原廠質(zhì)保,設(shè)備過保后運(yùn)維成本大約是設(shè)備采購成本的6%10%,運(yùn)維成本是否包含硬件損壞的免費(fèi)

17、更換價格略有浮動。2.控制成本的建議措施與技巧1)控制風(fēng)險:事先評估項目所蘊(yùn)含的風(fēng)險,因為風(fēng)險往往意味著要用更多的資金去彌補(bǔ)。在評估風(fēng)險之后,你就能采取相應(yīng)的措施來預(yù)防、降低或承受風(fēng)險。2)明確服務(wù):在實施前確保沒有遺漏任何所需的服務(wù),并與廠商達(dá)成明確的共識。有時,一些小疏漏也會點(diǎn)點(diǎn)滴滴地增加你的預(yù)算開支,比如測試時間被延后、bug解決時間被拉長等。3)技術(shù)路線的選擇:選擇正確的技術(shù)。斥巨資,試圖讓錯誤的軟件去做它原本無法做到的事是一種最大的資源浪費(fèi)。所以在雙方簽訂合同前,一定要明確所有的條款內(nèi)容。1.6、產(chǎn)品選型大數(shù)據(jù)架構(gòu)通常采用批處理或是流處理這兩種數(shù)據(jù)處理方式,批處理適用于海量的靜態(tài)數(shù)據(jù)

18、,這個數(shù)據(jù)集代表數(shù)據(jù)的有限集合,數(shù)據(jù)需要持久保存并在計算完成后返回結(jié)果。流處理是隨時對進(jìn)入系統(tǒng)的數(shù)據(jù)進(jìn)行計算,流處理的數(shù)據(jù)集是無邊界的,除非被停止,流處理的結(jié)果隨時可用,結(jié)果隨著對新數(shù)據(jù)的計算而更新。打個不太恰當(dāng)?shù)谋确剑号幚淼臄?shù)據(jù)類似于一個大型水庫,水庫中的水就是所有數(shù)據(jù);而流處理的數(shù)據(jù)類似于一個水龍頭,水龍頭放出的水就是數(shù)據(jù)?,F(xiàn)在主流的大數(shù)據(jù)架構(gòu)有Hadoop、Storm和Spark等幾種,下表是幾種大數(shù)據(jù)架構(gòu)的對比:經(jīng)過對幾種大數(shù)據(jù)架構(gòu)的比較,結(jié)合醫(yī)院現(xiàn)有應(yīng)用系統(tǒng)的建設(shè)情況和數(shù)據(jù)量的規(guī)模以及數(shù)據(jù)類型的復(fù)雜度(醫(yī)療數(shù)據(jù)包括結(jié)構(gòu)化和非結(jié)構(gòu)化還有半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)類型多種多樣,有的數(shù)據(jù)適合批處

19、理,而有的數(shù)據(jù)適合流處理) ,所以選用開源大數(shù)據(jù)架構(gòu)的Apache Spark建設(shè)醫(yī)院大數(shù)據(jù)分析平臺。上圖是Hadoop和Spark的處理性能對比圖,處理相同的數(shù)據(jù)Spark使用了更少的節(jié)點(diǎn)、消耗了更少的時間,完成了更多的分類工作,MapReduce是Hadoop的第一代計算引擎,采用了一種比較簡化的計算模型,只有Map和Reduce兩個計算過程,可以處理大數(shù)據(jù)領(lǐng)域的很多問題,但是MapReduce的程序開發(fā)與接口調(diào)用很復(fù)雜,對于延遲要求較低、希望程序調(diào)用簡潔的應(yīng)用場景不會選擇磁盤級計算的MapReduce,MapReduce基于HDFS,需要對輸入數(shù)據(jù)進(jìn)行切分、產(chǎn)生中間數(shù)據(jù)文件、再進(jìn)行排序、

20、數(shù)據(jù)壓縮等操作,因此MapReduce效率相對較低,所以我們選擇更有效率,速度更快的內(nèi)存級計算的Spark來構(gòu)建醫(yī)療大數(shù)據(jù)分析平臺。Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎。Spark是開源的類Hadoop MapReduce的通用并行框架,Spark擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于醫(yī)療行業(yè)海量數(shù)據(jù)的數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。Spark是一種與Hadoop相似的開源集群計算環(huán)境,但是兩者之間還存在

21、一些不同之處,這些有用的不同之處使Spark在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。Spark與Hadoop性能比較如下圖:從圖中可以看到hadoop是通過磁盤存儲計算數(shù)據(jù)的,而spark是通過內(nèi)存存儲計算數(shù)據(jù)的,所以Spark 比 Hadoop 快100倍。Spark 主要有三個特點(diǎn):首先,高級 API 剝離了對集群本身的關(guān)注,Spark 應(yīng)用開發(fā)者可以專注于應(yīng)用所要做的計算本身。其次,Spark 很快,在內(nèi)存計算下,Spark 比 Hadoop 快100倍且支持交互式計算和復(fù)雜算法。最后,Spark具有

22、易用性和通用性, Spark是一個通用引擎,可用它來完成各種各樣的運(yùn)算,包括 SQL 查詢、文本處理、機(jī)器學(xué)習(xí)等,而在 Spark 出現(xiàn)之前,我們一般需要學(xué)習(xí)各種各樣的引擎來分別處理這些需求。醫(yī)療行業(yè)數(shù)據(jù)量非常大,每日增量數(shù)據(jù)也很大,數(shù)據(jù)類型復(fù)雜,選擇通用性更強(qiáng)、運(yùn)算效率更高的Spark架構(gòu)來構(gòu)建醫(yī)療大數(shù)據(jù)分析平臺,可以實現(xiàn)更好的業(yè)務(wù)價值和IT價值。二、醫(yī)療大數(shù)據(jù)項目方案設(shè)計2.1、項目設(shè)計目標(biāo)1)解決醫(yī)院海量數(shù)據(jù)的存儲問題,滿足未來三到五年的數(shù)據(jù)存儲要求。2)實現(xiàn)醫(yī)院數(shù)據(jù)的標(biāo)準(zhǔn)化。3)實現(xiàn)醫(yī)院大數(shù)據(jù)分析功能包括:臨床中的診斷和用藥建議、健康指標(biāo)預(yù)警、提高臨床決策支持系統(tǒng)的準(zhǔn)確性,減少醫(yī)療事故

23、率,大數(shù)據(jù)分析獲取最佳性價比治療方案,為全民健康奠定基礎(chǔ)。2.2、項目數(shù)據(jù)建模需求模型的確認(rèn)分三步走:第一步是以衛(wèi)計委給出的醫(yī)院信息化建設(shè)的要求和相關(guān)數(shù)據(jù)模型為基礎(chǔ),衛(wèi)計委數(shù)據(jù)模型如下圖:結(jié)合醫(yī)院的業(yè)務(wù)流程對現(xiàn)有業(yè)務(wù)進(jìn)行梳理,確定業(yè)務(wù)中的問題形成總體設(shè)計,第二步是制定數(shù)據(jù)標(biāo)準(zhǔn)、接口標(biāo)準(zhǔn)、消息標(biāo)準(zhǔn)、文檔標(biāo)準(zhǔn)和服務(wù)標(biāo)準(zhǔn)。第三步是根據(jù)總體設(shè)計和標(biāo)準(zhǔn)規(guī)范同步進(jìn)行大數(shù)據(jù)平臺實施。醫(yī)療大數(shù)據(jù)處理流程包括采集、處理、存儲、檢索、計算和應(yīng)用等五個步驟,處理流程如下圖:基于患者就診過程的醫(yī)療大數(shù)據(jù)分析與應(yīng)用模型如下:該模型展現(xiàn)了從患者入院到出院過程中產(chǎn)生的相關(guān)數(shù)據(jù),主要包括患者特征數(shù)據(jù)、病種數(shù)據(jù)、治療方案與費(fèi)用

24、數(shù)據(jù)、治療狀態(tài)數(shù)據(jù)及在該過程中產(chǎn)生的管理類數(shù)據(jù)。1)患者特征數(shù)據(jù):患者特征數(shù)據(jù)主要有主訴、現(xiàn)病史、檢查檢驗類數(shù)據(jù)。涵蓋了疾病的主要癥狀、體征、發(fā)病過程、檢查、診斷、治療及既往疾病信息、不良嗜好甚至職業(yè)、居住地等全部信息(例如:患者信息中的國籍、性別、民族、婚姻、職業(yè)、地址、電話等等。)2)病種數(shù)據(jù):即患者疾病的診斷結(jié)果,一般有第一診斷、第二診斷、第三診斷等。目前使用ICD-10進(jìn)行疾病的分類與編碼(國際疾病分類(international Classification of diseases ,ICD),是依據(jù)疾病的病因、部位、病理及臨床表現(xiàn)的特征,按照規(guī)則將疾病分門別類,并用編碼的方法來表示

25、的系統(tǒng)。)。3)治療方案與費(fèi)用數(shù)據(jù):根據(jù)診斷結(jié)果為患者提供的治療方案與費(fèi)用數(shù)據(jù)主要包括藥品、檢查、檢驗、手術(shù)、護(hù)理、治療6大類,此外費(fèi)用數(shù)據(jù)還有材料費(fèi)、床位費(fèi)、護(hù)理費(fèi)、換藥費(fèi)用等。4)治療狀態(tài)數(shù)據(jù):治療狀態(tài)數(shù)據(jù)即患者出院時的治療結(jié)論,一般分為治愈、好轉(zhuǎn)、未愈、死亡4類。5)管理類數(shù)據(jù):除患者就醫(yī)過程產(chǎn)生的服務(wù)于醫(yī)院管理的數(shù)據(jù)外,還包括醫(yī)院運(yùn)營和管理系統(tǒng)中的數(shù)據(jù),如物資系統(tǒng)、HRP、財務(wù)系統(tǒng)、績效考核系統(tǒng)等產(chǎn)生的數(shù)據(jù)?;颊叩臋z查信息,圖像序列表的生成,系統(tǒng)圖像記錄,業(yè)務(wù)參數(shù)如下圖:標(biāo)準(zhǔn)化數(shù)據(jù)字典包括:1)藥品字典。2)治療、護(hù)理項目編碼字典。3)醫(yī)療儀器、設(shè)備編碼字典。4)醫(yī)療費(fèi)用計價編碼字典。

26、5)國際疾病分類代碼(ICD-10)。6)醫(yī)院職工編碼字典。7)醫(yī)院科室、病區(qū)編碼字典。2.3、項目整體架構(gòu)設(shè)計1、智慧醫(yī)療大數(shù)據(jù)項目邏輯架構(gòu)智慧醫(yī)療大數(shù)據(jù)項目邏輯架構(gòu)圖從功能上劃分包括三個方面:一是資源層,資源層又包括云基礎(chǔ)設(shè)施(涉及隱私的數(shù)據(jù)放在私有云、可以對外公開的數(shù)據(jù)放在公有云上可以節(jié)約私有云的建設(shè)投入)、服務(wù)器、存儲、網(wǎng)絡(luò)安全等基礎(chǔ)設(shè)施以及對這些設(shè)施的監(jiān)管和運(yùn)維;物理資源層(包括各種數(shù)據(jù)庫和數(shù)據(jù)倉庫等)、虛擬資源池(包括健康檔案、電子病歷和公共衛(wèi)生、臨床診斷等)和應(yīng)用資源中心;二是服務(wù)層包括醫(yī)院的各個業(yè)務(wù)系統(tǒng),決策支持與管理系統(tǒng)以及基于這些系統(tǒng)建設(shè)的大數(shù)據(jù)分析平臺;三是展現(xiàn)層主要是各

27、服務(wù)對像的接入,在這三個層面中低層為高層提供服務(wù)。2、智慧醫(yī)療大數(shù)據(jù)項目物理架構(gòu)智慧醫(yī)療大數(shù)據(jù)項目物理架構(gòu)分為內(nèi)網(wǎng)和外網(wǎng)兩個部分,內(nèi)外網(wǎng)核以層和匯聚層都是雙冗余架構(gòu)的(一臺交換機(jī)或線路故障不影響業(yè)務(wù)的正常運(yùn)行),內(nèi)外網(wǎng)有數(shù)據(jù)的交互,為了保障內(nèi)網(wǎng)的數(shù)據(jù)安全和網(wǎng)絡(luò)安全,外網(wǎng)用戶需要通過授權(quán)的ssl vpn帳號才可以訪問內(nèi)網(wǎng)的數(shù)據(jù)。所有的業(yè)務(wù)系統(tǒng)和數(shù)據(jù)庫均采用集群架構(gòu),從而實現(xiàn)業(yè)務(wù)系統(tǒng)的高可靠性和高可用性。醫(yī)院于三年前按分級存儲的原則重新規(guī)劃了PACS存儲系統(tǒng),PACS數(shù)據(jù)除了少部分PACS索引、日志數(shù)據(jù)外,絕大部分為醫(yī)學(xué)影像圖片數(shù)據(jù)。存儲通常采用三級模式:第一級為在線數(shù)據(jù),保存最近半年的病人影像數(shù)

28、據(jù);第二級為近線數(shù)據(jù),保存半年以上、2年以內(nèi)的影像數(shù)據(jù)(PACS系統(tǒng)軟件可以配置保存周期);第三級為離線數(shù)據(jù),保存15年內(nèi)的影像數(shù)據(jù)。同時,還有考慮備份系統(tǒng)的建設(shè)。2.4、大數(shù)據(jù)分析平臺架構(gòu)設(shè)計醫(yī)療大數(shù)據(jù)分析平臺由數(shù)據(jù)獲取、數(shù)據(jù)整合,數(shù)據(jù)加工和數(shù)據(jù)展現(xiàn)四個模塊組成。醫(yī)療大數(shù)據(jù)處理模型如下圖:1)數(shù)據(jù)獲?。哼@個過程要先問自己要收集哪些數(shù)據(jù),大數(shù)據(jù)分析并不是對醫(yī)院所有的數(shù)據(jù)都進(jìn)行收集,而是相關(guān)的,有直接或者間接聯(lián)系的數(shù)據(jù),要知道哪些數(shù)據(jù)是對于戰(zhàn)略性的決策或者一些細(xì)節(jié)決策有幫助的,分析出來的數(shù)據(jù)結(jié)果是有價值的,這也是考驗一個數(shù)據(jù)分析員的時刻。例如哪些數(shù)據(jù)可以得出信息對于一個臨床診療是有幫助,或者是更

29、好的實現(xiàn)輔助診療目標(biāo)。在進(jìn)行大數(shù)據(jù)分析規(guī)劃的時候,一般是針對一個業(yè)務(wù)的目標(biāo)進(jìn)行精確的分析,比較容易滿足業(yè)務(wù)的目標(biāo)。2)數(shù)據(jù)整合:為了得到更加精確的結(jié)果,在大數(shù)據(jù)分析的過程當(dāng)中,數(shù)據(jù)整合是關(guān)鍵的環(huán)節(jié),數(shù)據(jù)整合是將從醫(yī)院信息平臺抽取的業(yè)務(wù)數(shù)據(jù)按照統(tǒng)一的存儲和定義進(jìn)行集成。醫(yī)院信息化經(jīng)過多年的發(fā)展,積累了很多基礎(chǔ)性和零散的業(yè)務(wù)數(shù)據(jù)。但是數(shù)據(jù)分散在臨床、輔助、管理等不同部門,致使數(shù)據(jù)查詢訪問困難,醫(yī)院管理層人員無法直接查閱數(shù)據(jù)和對數(shù)據(jù)進(jìn)行分析利用,數(shù)據(jù)整合需要綜合不同格式、不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。3)數(shù)據(jù)加工:醫(yī)院原有的業(yè)務(wù)數(shù)據(jù)必須經(jīng)過標(biāo)準(zhǔn)化處理后才能夠遷入大數(shù)據(jù)平臺。由于醫(yī)院的大數(shù)據(jù)來自各個不同的業(yè)務(wù)系

30、統(tǒng),數(shù)據(jù)格式和標(biāo)準(zhǔn)不統(tǒng)一,很難對數(shù)據(jù)進(jìn)行統(tǒng)一的管理和利用。一般大數(shù)據(jù)平臺的建設(shè)都會針對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)建立不同的主索引數(shù)據(jù),然后對源數(shù)據(jù)進(jìn)行清洗后導(dǎo)入數(shù)據(jù)集。擁有或創(chuàng)造一個干凈、結(jié)構(gòu)良好的數(shù)據(jù)集是必須的。使用數(shù)據(jù)清洗軟件工具可以幫助細(xì)化數(shù)據(jù)并將其重塑為可用的數(shù)據(jù)集。4)數(shù)據(jù)展現(xiàn):數(shù)據(jù)展現(xiàn)即數(shù)據(jù)可視化,為方便醫(yī)護(hù)人員、患者和管理人員理解和閱讀數(shù)據(jù),而采用相關(guān)技術(shù)按業(yè)務(wù)規(guī)則進(jìn)行的數(shù)據(jù)轉(zhuǎn)換。這就要求醫(yī)院相關(guān)的業(yè)務(wù)規(guī)則都是已經(jīng)確定好的,這些業(yè)務(wù)規(guī)則可以幫助數(shù)據(jù)分析員評估他們的工作,將數(shù)據(jù)進(jìn)行分析得出有價值的結(jié)果。2.5、關(guān)鍵技術(shù)難點(diǎn)分析在醫(yī)療大數(shù)據(jù)的應(yīng)用的同時,還存在數(shù)據(jù)的抽取、存儲、清洗、整合、

31、挖掘、分析、展現(xiàn)等問題需要解決。一是非結(jié)構(gòu)化文檔及自然語言的結(jié)構(gòu)化處理。包括中文分詞、標(biāo)準(zhǔn)化、XML解析、本體構(gòu)建、語義標(biāo)注等。例如,電子病歷的“結(jié)構(gòu)化”是從醫(yī)學(xué)信息學(xué)的角度將以自然語言方式錄入的醫(yī)療文書按照醫(yī)學(xué)術(shù)語的要求進(jìn)行結(jié)構(gòu)化分析,并將這些語義結(jié)構(gòu)最終以關(guān)系型結(jié)構(gòu)的方式保存到數(shù)據(jù)庫中。二是醫(yī)療大數(shù)據(jù)標(biāo)準(zhǔn)化與整合。將不同科室,不同業(yè)務(wù)系統(tǒng)的非結(jié)構(gòu)化、零亂的數(shù)據(jù)整合成有利用價值的數(shù)據(jù);對大數(shù)據(jù)進(jìn)行過濾,設(shè)計臟數(shù)據(jù)過濾規(guī)則;數(shù)據(jù)一致性檢查,無效值和缺失值處理。三是數(shù)據(jù)聚類分析、算法與建模。包括貝葉斯模型、人工神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林算法、決策樹理論、d-s證據(jù)理論、臨床決策指標(biāo)矩陣?yán)碚摰?,有可能在?/p>

32、類應(yīng)用中要涉及多個模型與算法。四是大數(shù)據(jù)快速檢索與處理。包括基礎(chǔ)設(shè)施建設(shè);大容量醫(yī)療數(shù)據(jù)的組織、存儲與索引技術(shù),實現(xiàn)數(shù)據(jù)的高并發(fā)訪問與快速提取等。采用全閃存陣列實現(xiàn)對原有存儲系統(tǒng)加速的方式,為大數(shù)據(jù)分析平臺的搭建提供存儲架構(gòu)的支持。五是數(shù)據(jù)安全。要確保醫(yī)療大數(shù)據(jù)利用過程中,不被外界竊取和修改,要建立相應(yīng)的數(shù)據(jù)加密技術(shù)和數(shù)據(jù)訪問授權(quán)機(jī)制等。數(shù)據(jù)加密采用ssl vpn技術(shù)加密,保障數(shù)據(jù)的傳輸安全和內(nèi)容安全,數(shù)據(jù)的訪問要實現(xiàn)雙因子認(rèn)證,帳號密碼加專用密鑰的方式。2.6、關(guān)鍵設(shè)備配置算法1、網(wǎng)絡(luò)配置網(wǎng)絡(luò)劃分:內(nèi)網(wǎng)(業(yè)務(wù)辦公)和外網(wǎng)(移動用戶和遠(yuǎn)程用戶)。網(wǎng)絡(luò)冗余:內(nèi)外網(wǎng)核以層和匯聚層都是雙冗余架構(gòu)的。

33、網(wǎng)絡(luò)速率:千兆核心百兆到桌面。網(wǎng)絡(luò)安全:外網(wǎng)用戶需要通過授權(quán)的ssl vpn帳號才可以訪問內(nèi)網(wǎng)的數(shù)據(jù),網(wǎng)絡(luò)部署防火墻、IPS、IDS、上網(wǎng)行為管理、防病毒網(wǎng)關(guān)等網(wǎng)絡(luò)安全設(shè)備。2、在線存儲配置醫(yī)院數(shù)據(jù)交換平臺每天新增數(shù)據(jù)量200G,為醫(yī)生提供1年內(nèi)的在線資料查詢,因此需保存的在線可用容量是:200GB/日x365天=73000GB=73TB,當(dāng)存儲空間的使用率達(dá)到80%時,其性能將下降,另外考慮冗余空間20%,因此總空間需求為:73TB/80%=91.25TB??紤]到數(shù)據(jù)的安全及高可用,存儲采用RAID5的方式,存儲祼容量應(yīng)為:91.25TB/75%=121.7TB,另外再考慮到熱備盤、數(shù)據(jù)庫空

34、間及文件的損耗,推薦配置150TB的總存存儲容量。3、近線存儲配置近線存儲主要用來存儲一些非熱點(diǎn)數(shù)據(jù)和交換數(shù)據(jù),按照在線存儲的數(shù)據(jù)量,近線存儲只需要配置在線存儲的1/3容量即可。150TB/3=50TB。4、離線存儲配置考慮數(shù)據(jù)歸檔和備份系統(tǒng):存儲容量應(yīng)大于全院10年的數(shù)據(jù)總量,因此建議配置備份容量為1500TB,配置磁帶數(shù)量:1500TB/LTO5 1.5TB=約1000盤2.7、關(guān)鍵設(shè)備選型關(guān)鍵設(shè)備選型要注意三個方面:價格與成本、產(chǎn)品擴(kuò)展能力與業(yè)務(wù)擴(kuò)展能力、售后服務(wù)。首先,由于醫(yī)院對信息化的投入都是有預(yù)算的,因此需要注意的是產(chǎn)品價格低并不代表總擁有成本低,總擁有成本還包括后續(xù)的維護(hù)成本、升

35、級成本等。其次,醫(yī)院信息化最大的特點(diǎn)就是業(yè)務(wù)增長迅速,他們需要產(chǎn)品能隨著業(yè)務(wù)的發(fā)展而升級,一方面滿足業(yè)務(wù)的需要,另一方面也保護(hù)原有的投資。最后,服務(wù)是購買任何產(chǎn)品都要考慮的,但醫(yī)院尤其看重售后服務(wù),因為由于自身技術(shù)水平和人力所限,當(dāng)產(chǎn)品出現(xiàn)故障后,他們更加依賴廠商的售后服務(wù)。1、主機(jī)選型PowerLinux服務(wù)器:因為PowerLinux服務(wù)器有比x86服務(wù)器更高的性價比,特別是在虛擬化環(huán)境下Power CPU更有優(yōu)勢,選擇PowerLinux服務(wù)器代替舊有的x86服務(wù)器(指原有服務(wù)器是linux操作系統(tǒng)的,針對windows系統(tǒng)的老舊服務(wù)器采用高性能的x86服務(wù)器替換),PowerLinux

36、服務(wù)器在標(biāo)準(zhǔn)2U機(jī)箱內(nèi)部提供了最多兩顆Power8處理器,每個處理器最多包含12個核心,最高96線程。同時,PowerLinux服務(wù)器還內(nèi)置了專為Power8處理器而優(yōu)化的PowerVM虛擬化模塊,令PowerLinux服務(wù)器可以更高的效率和更高的性能完成虛擬化建設(shè)。更高的性能和更強(qiáng)的虛擬化能力使得PowerLinux服務(wù)器可以用更少的機(jī)器、更少的空間完成更多的任務(wù)。而更少的服務(wù)器數(shù)量也就意味著更低的制冷和UPS需求;當(dāng)然,Power架構(gòu)本身的節(jié)能特性也令這一效果更加明顯。而在應(yīng)用方面,PowerLinux服務(wù)器本身便可支持各類主流Linux操作系統(tǒng),之前的應(yīng)用只需稍作調(diào)試便可遷移至新的平臺,

37、同時,Power架構(gòu)本身極高的RAS特性也令傳統(tǒng)Linux應(yīng)用運(yùn)行更加穩(wěn)定。2、小型機(jī)選型因大數(shù)據(jù)分析對主機(jī)的性能要求很高且資源需求很大,下面是幾種小型機(jī)的性能對比圖:通過對比可以發(fā)現(xiàn) IBM POWER7+ 780的性能是最優(yōu)的,780 專為虛擬化整合業(yè)務(wù)關(guān)鍵型工作負(fù)載而設(shè)計,以行業(yè)獨(dú)一無二的方式提供性能、可用性、效率和虛擬化。它們可以幫助您的企業(yè)把握新的機(jī)遇、管理業(yè)務(wù)風(fēng)險,并同時滿足高服務(wù)級別以及符合緊張的預(yù)算限制。IBM POWER7+ 780 是一款創(chuàng)新的模塊化服務(wù)器,可提供最多 128 個處理器內(nèi)核的不間斷增長,并且全部具有企業(yè)級 RAS特性。POWER7+ 780 企業(yè)級服務(wù)器使用 POWER7+處理器提供了優(yōu)異的性價比,擁有大型機(jī)的可靠性和實用性功能,靈活的容量升級和創(chuàng)新的虛擬化技術(shù),能夠管理企業(yè)增長,復(fù)雜性和風(fēng)險。這個強(qiáng)大的系統(tǒng)可用于交易和數(shù)據(jù)庫服務(wù),以及高效率的服務(wù)器合并。POWER7+ 780 是專為資源優(yōu)化,增強(qiáng)安全性,可靠性能和靈活適應(yīng)業(yè)務(wù)需求變化設(shè)計。3、存儲選型在線存儲選型:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論