醫(yī)療大數(shù)據(jù)解決實施方案_第1頁
醫(yī)療大數(shù)據(jù)解決實施方案_第2頁
醫(yī)療大數(shù)據(jù)解決實施方案_第3頁
醫(yī)療大數(shù)據(jù)解決實施方案_第4頁
醫(yī)療大數(shù)據(jù)解決實施方案_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、.醫(yī)療大數(shù)據(jù)解決方案與信息系統(tǒng)的耦合度為零的數(shù)據(jù)才是合格的大數(shù)據(jù)全國97.8萬家醫(yī)療機構(gòu)的信息系統(tǒng)基本上都是用關(guān)系數(shù)據(jù)庫而建立的,然而要對關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)進行挖掘非常困難。大數(shù)據(jù)并不是小數(shù)據(jù)之和,關(guān)系數(shù)據(jù)庫系統(tǒng)不適合處理大數(shù)據(jù)。發(fā)明專利技術(shù)發(fā)明申請?zhí)?01310495041.8醫(yī)學信息的結(jié)構(gòu)化存貯方法非常適合處理醫(yī)療大數(shù)據(jù)。目錄 TOC o 1-4 h z u HYPERLINK l _Toc24773 醫(yī)療大數(shù)據(jù)解決方案 PAGEREF _Toc24773 1 HYPERLINK l _Toc17729 第1章 概要 PAGEREF _Toc17729 4 HYPERLINK l _Toc

2、11191 1.1 名詞定義 PAGEREF _Toc11191 5 HYPERLINK l _Toc23108 第2章 醫(yī)療大數(shù)據(jù)面臨的挑戰(zhàn) PAGEREF _Toc23108 7 HYPERLINK l _Toc4037 2.1 醫(yī)療大數(shù)據(jù)與醫(yī)院信息系統(tǒng)之間的具有本質(zhì)的差異 PAGEREF _Toc4037 7 HYPERLINK l _Toc14070 2.1.1 小問題放大萬倍就會大的嚇人 PAGEREF _Toc14070 9 HYPERLINK l _Toc2229 2.2 醫(yī)療大數(shù)據(jù)面臨八大難題 PAGEREF _Toc2229 10 HYPERLINK l _Toc8757 2

3、.3 國家大數(shù)據(jù)標準工程堪比兩彈一星 PAGEREF _Toc8757 14 HYPERLINK l _Toc15218 2.4 醫(yī)療行業(yè)的信息系統(tǒng)頂層設計為何難產(chǎn) PAGEREF _Toc15218 15 HYPERLINK l _Toc18611 2.5 大數(shù)據(jù)挖掘中的問題:大數(shù)據(jù)的關(guān)鍵不在于大而在于如何挖掘 PAGEREF _Toc18611 16 HYPERLINK l _Toc14194 2.5.1 我國醫(yī)療行業(yè)每年產(chǎn)生多少數(shù)據(jù) PAGEREF _Toc14194 16 HYPERLINK l _Toc861 2.5.2 挖掘關(guān)系數(shù)據(jù)庫系統(tǒng)所產(chǎn)生的醫(yī)療數(shù)據(jù)非常困難 PAGEREF _

4、Toc861 17 HYPERLINK l _Toc1048 2.5.3 僅患者與數(shù)據(jù)的對應關(guān)系就是一個大問題 PAGEREF _Toc1048 18 HYPERLINK l _Toc3488 2.6 關(guān)系數(shù)據(jù)庫理論的致命傷 PAGEREF _Toc3488 19 HYPERLINK l _Toc25162 2.6.1 關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)在大數(shù)據(jù)環(huán)境中為何變成無意義的數(shù)據(jù) PAGEREF _Toc25162 19 HYPERLINK l _Toc4921 2.6.2 關(guān)系數(shù)據(jù)庫系統(tǒng)是一種完全封閉的系統(tǒng):外來數(shù)據(jù)無法入住 PAGEREF _Toc4921 22 HYPERLINK l _Toc1

5、1156 2.6.3 關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)據(jù)系統(tǒng)密不可分 PAGEREF _Toc11156 22 HYPERLINK l _Toc31035 2.6.4 關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)據(jù)結(jié)構(gòu)密不可分 PAGEREF _Toc31035 23 HYPERLINK l _Toc17296 2.6.5 關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與應用程序密不可分 PAGEREF _Toc17296 23 HYPERLINK l _Toc9312 2.6.6 關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)一旦脫離相應的系統(tǒng)就成了無意義的數(shù)據(jù) PAGEREF _Toc9312 24 HYPERLINK l _Toc30065 2.6.7 關(guān)系數(shù)據(jù)庫無法實現(xiàn)病

6、歷信息的結(jié)構(gòu)化存貯 PAGEREF _Toc30065 24 HYPERLINK l _Toc20208 2.6.8 關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)都是方言,大數(shù)據(jù)需要的是普通話 PAGEREF _Toc20208 24 HYPERLINK l _Toc9939 2.7 關(guān)系數(shù)據(jù)庫如何處理國家醫(yī)療大數(shù)據(jù)中數(shù)萬個數(shù)據(jù)庫、數(shù)千萬張表 PAGEREF _Toc9939 25 HYPERLINK l _Toc21175 2.8 大數(shù)據(jù)之夢十年后成真 PAGEREF _Toc21175 26 HYPERLINK l _Toc21072 2.8.1 信息化社會由概念到比較成熟用了30多年時間 PAGEREF _Toc

7、21072 27 HYPERLINK l _Toc12265 2.8.2 千年蟲問題的啟示 PAGEREF _Toc12265 27 HYPERLINK l _Toc3936 2.8.3 大數(shù)據(jù)工程遠比千年蟲問題復雜 PAGEREF _Toc3936 28 HYPERLINK l _Toc8164 2.8.4 五年之內(nèi)2020年前醫(yī)療大數(shù)據(jù)只是紙上談兵 PAGEREF _Toc8164 29 HYPERLINK l _Toc23181 2.9 必須開發(fā)新型的軟件工具才能對醫(yī)療大數(shù)據(jù)進行高效挖掘 PAGEREF _Toc23181 29 HYPERLINK l _Toc15143 第3章 發(fā)明專

8、利:醫(yī)學信息的結(jié)構(gòu)化存貯方法 PAGEREF _Toc15143 30 HYPERLINK l _Toc10248 3.1 在了解醫(yī)學信息的結(jié)構(gòu)化存貯方法時的注意事項 PAGEREF _Toc10248 31 HYPERLINK l _Toc13317 3.2 醫(yī)學信息的結(jié)構(gòu)化存貯方法 PAGEREF _Toc13317 32 HYPERLINK l _Toc23583 3.3 數(shù)據(jù)的完整性是大數(shù)據(jù)的根本 PAGEREF _Toc23583 38 HYPERLINK l _Toc29650 3.3.1 大數(shù)據(jù)的策略:以適當?shù)臄?shù)據(jù)冗余而使數(shù)據(jù)易識別 PAGEREF _Toc29650 38 HY

9、PERLINK l _Toc24612 3.3.2 一個事物的數(shù)據(jù) PAGEREF _Toc24612 40 HYPERLINK l _Toc5793 3.3.3 事物分類 PAGEREF _Toc5793 40 HYPERLINK l _Toc32704 3.3.4 關(guān)系數(shù)據(jù)庫的缺陷:關(guān)系 PAGEREF _Toc32704 42 HYPERLINK l _Toc25037 3.3.5 數(shù)據(jù)的可識別性 PAGEREF _Toc25037 46 HYPERLINK l _Toc22998 3.3.6 數(shù)據(jù)的多樣性 PAGEREF _Toc22998 48 HYPERLINK l _Toc296

10、62 3.3.7 元數(shù)據(jù)及國際元數(shù)據(jù)標準非常重要 PAGEREF _Toc29662 48 HYPERLINK l _Toc18767 3.3.8 大數(shù)據(jù)的關(guān)鍵:讓數(shù)據(jù)自己說話 PAGEREF _Toc18767 49 HYPERLINK l _Toc8334 3.3.9 大數(shù)據(jù)的策略:用數(shù)據(jù)代替程序 PAGEREF _Toc8334 51 HYPERLINK l _Toc3473 3.4 與信息系統(tǒng)的耦合度為零的數(shù)據(jù)才是合格的大數(shù)據(jù) PAGEREF _Toc3473 52 HYPERLINK l _Toc16885 3.5 醫(yī)學信息的結(jié)構(gòu)化存貯方法與關(guān)系數(shù)據(jù)庫的對比 PAGEREF _Toc

11、16885 55 HYPERLINK l _Toc30578 3.6 應用醫(yī)學信息的結(jié)構(gòu)化存貯方法的注意事項 PAGEREF _Toc30578 55 HYPERLINK l _Toc20525 3.7 超大表化問題:分為多張表 PAGEREF _Toc20525 56 HYPERLINK l _Toc18139 3.8 關(guān)系數(shù)據(jù)庫中的二維表是數(shù)據(jù)不具獨立性的一個根本原因 PAGEREF _Toc18139 56 HYPERLINK l _Toc23268 3.9 萬能數(shù)據(jù)結(jié)構(gòu)表存放病歷信息的例子 PAGEREF _Toc23268 56 HYPERLINK l _Toc1663 3.10 醫(yī)

12、學信息的結(jié)構(gòu)化存貯方法實現(xiàn)互聯(lián)互通非常簡單 PAGEREF _Toc1663 58 HYPERLINK l _Toc7354 3.11 結(jié)構(gòu)化錄入病歷信息的例子:癥狀的結(jié)構(gòu)化 PAGEREF _Toc7354 58 HYPERLINK l _Toc24145 第4章 獨立數(shù)據(jù)庫在醫(yī)療大數(shù)據(jù)方面的優(yōu)勢 PAGEREF _Toc24145 61 HYPERLINK l _Toc24163 4.1 大數(shù)據(jù)中最重要的就是查詢 PAGEREF _Toc24163 61 HYPERLINK l _Toc23197 4.2 超大表問題 PAGEREF _Toc23197 61 HYPERLINK l _To

13、c20436 4.2.1 自動調(diào)整表的長度 PAGEREF _Toc20436 62 HYPERLINK l _Toc21740 4.2.2 自動查詢多張表 PAGEREF _Toc21740 62 HYPERLINK l _Toc28696 4.3 用獨立數(shù)據(jù)庫實現(xiàn)國家醫(yī)療大數(shù)據(jù)的存貯處理 PAGEREF _Toc28696 63 HYPERLINK l _Toc21798 4.3.1 獨立數(shù)據(jù)庫如何處理國家醫(yī)療大數(shù)據(jù)中數(shù)十萬個數(shù)據(jù)庫、數(shù)千萬張表 PAGEREF _Toc21798 63 HYPERLINK l _Toc8311 4.3.2 疾病、癥狀的相關(guān)數(shù)據(jù) PAGEREF _Toc83

14、11 65概要關(guān)系數(shù)據(jù)庫理論存在很多很嚴重的問題,例如,用關(guān)系數(shù)據(jù)庫系統(tǒng)所設計出的信息系統(tǒng)都是孤島型系統(tǒng),難以實現(xiàn)系統(tǒng)之間的互聯(lián)互通;在大數(shù)據(jù)時代,人們發(fā)現(xiàn),對全國97.8萬家醫(yī)療機構(gòu)所產(chǎn)生的醫(yī)療數(shù)據(jù)進行挖掘非常困難,當前的大多數(shù)醫(yī)療信息系統(tǒng)都是用關(guān)系數(shù)據(jù)庫系統(tǒng)而設計的。用關(guān)系數(shù)據(jù)庫系統(tǒng)所設計出的信息系統(tǒng)之所以難以互聯(lián)互通,孤島問題嚴重,根本原因在于異構(gòu)數(shù)據(jù)。醫(yī)學信息的結(jié)構(gòu)化存貯方法中的萬能數(shù)據(jù)結(jié)構(gòu)表可以存貯各種各樣的數(shù)據(jù),也可說用醫(yī)學信息的結(jié)構(gòu)化存貯方法所設計出的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)都是同構(gòu)的,不存在異構(gòu)數(shù)據(jù)的問題。關(guān)系數(shù)據(jù)庫理論先天不足,不可能解決異構(gòu)數(shù)據(jù)問題。醫(yī)院信息系統(tǒng)所處理的數(shù)據(jù)只是

15、某家醫(yī)院所產(chǎn)生的某些特定的數(shù)據(jù)可稱作小數(shù)據(jù)。醫(yī)療大數(shù)據(jù)所要處理的數(shù)據(jù)是全國97.8萬家醫(yī)療機構(gòu)所擁有的數(shù)十萬個醫(yī)療信息系統(tǒng)所產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)存貯在數(shù)千萬張表中,這些系統(tǒng)由不同的開發(fā)商所開發(fā),各系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)各不相同。每家醫(yī)院的信息化工作都涉及幾十個廠家,每個廠家的數(shù)據(jù)、標準、采集、存儲都不一樣。因此,即便是在一家醫(yī)院,都會出現(xiàn)很多孤島,整個醫(yī)療行業(yè)的信息孤島問題更嚴重。各家醫(yī)院信息系統(tǒng)的標準、接口都不同,這成為利用率低、共享難的原因之一。不僅如此,數(shù)據(jù)種類的多樣化也為數(shù)據(jù)標準的制定和應用帶來了挑戰(zhàn)。小數(shù)據(jù)的特點是數(shù)據(jù)的類型和數(shù)據(jù)都是有限的,在處理數(shù)據(jù)前能事先確定數(shù)據(jù)的類型。而大數(shù)據(jù)的數(shù)據(jù)特

16、點是 多樣性 ,在處理數(shù)據(jù)時很難先事先確定數(shù)據(jù)的類型,甚至不能確定數(shù)據(jù)的類型。目前關(guān)系數(shù)據(jù)庫在數(shù)據(jù)處理中占據(jù)統(tǒng)治地位,而關(guān)系數(shù)據(jù)庫在處理數(shù)據(jù)時事先要確定數(shù)據(jù)的類型,因此,在處理數(shù)據(jù)類型不能事先確定的大數(shù)據(jù)時,關(guān)系數(shù)據(jù)庫就遇到了難以逾越的障礙。醫(yī)療大數(shù)據(jù)與醫(yī)院信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)具有本質(zhì)的差別?,F(xiàn)有的各種信息系統(tǒng)所處理的數(shù)據(jù)都是小數(shù)據(jù)。目前人們只是認識到大數(shù)據(jù)重要性,大數(shù)據(jù)還只是處于概念階段。大數(shù)據(jù)夢想將在10年后夢想成真,5年之內(nèi),難有突破性進展。國家醫(yī)療大數(shù)據(jù)所面臨的最大難題:當前的醫(yī)療信息系統(tǒng)不能適應醫(yī)療大數(shù)據(jù)的實際需求,需要對現(xiàn)有的信息系統(tǒng)進行徹底的改造才能適應大數(shù)據(jù)時代的潮流。然而,要

17、徹底改造全國現(xiàn)的醫(yī)療信息系統(tǒng),所花費的代價是非常高昂的!關(guān)鍵詞:數(shù)據(jù)與系統(tǒng)的耦合度、萬能數(shù)據(jù)結(jié)構(gòu)表、獨立數(shù)據(jù)庫、醫(yī)療大數(shù)據(jù)、數(shù)據(jù)的獨立性、數(shù)據(jù)的完整性、數(shù)據(jù)的可識別性、事物分類。聯(lián)系人:樊夢真136 6086 7965QQ:269779216名詞定義數(shù)據(jù)與系統(tǒng)的耦合度:數(shù)據(jù)與系統(tǒng)的耦合度越高,數(shù)據(jù)對系統(tǒng)的依賴程度就越高。當數(shù)據(jù)對系統(tǒng)的依賴程度比較高時,數(shù)據(jù)一旦脫離了原有的系統(tǒng)就變成了無意義的數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)來源于成千上萬家單位的系統(tǒng),因此,大數(shù)居中的數(shù)據(jù)應該是與系統(tǒng)的耦合度為零的數(shù)據(jù),否則就需要很多的應用程度來解讀數(shù)據(jù),這會增加數(shù)據(jù)處理的難度、成本。萬能數(shù)據(jù)結(jié)構(gòu)表:由發(fā)明專利技術(shù)醫(yī)學信息的結(jié)

18、構(gòu)化存貯方法在模仿大腦記憶、聯(lián)想的基礎上而所提出的一種新型數(shù)據(jù)結(jié)構(gòu),可以在同一張表中存貯各種各樣的數(shù)據(jù)。獨立數(shù)據(jù)庫:由發(fā)明專利技術(shù)醫(yī)學信息的結(jié)構(gòu)化存貯方法而建立的數(shù)據(jù)庫即可稱為獨立數(shù)據(jù)庫。獨立數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫有本質(zhì)的差異。數(shù)據(jù)的獨立性:數(shù)據(jù)的獨立性是由發(fā)明專利技術(shù)醫(yī)學信息的結(jié)構(gòu)化存貯方法所提出的概念,是指數(shù)據(jù)不信依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應用程序而獨立地表達出某種含義。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具有獨立性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應用程序才能解讀數(shù)據(jù)的含義。數(shù)據(jù)的完整性:數(shù)據(jù)的完整生是由發(fā)明專利技術(shù)醫(yī)學信息的結(jié)構(gòu)化存貯方法所提出的概念,是指數(shù)據(jù)不信依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)

19、據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應用程序而完整地表達出某種含義。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具有完整性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應用程序才能解讀數(shù)據(jù)的含義。數(shù)據(jù)的可識別性:在班、組這樣的小環(huán)境中可以用每個人的姓名而區(qū)分出每一個人,然而在全國范圍內(nèi),由于人數(shù)太多,很多姓名都有重名現(xiàn)象,因此僅靠姓名就不能準確無誤地識別出每一個人。大數(shù)據(jù)時代以前的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只是應用于某個機構(gòu)內(nèi)部,因此各個數(shù)據(jù)就容易識別,然而如果把關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)放到大數(shù)據(jù)環(huán)境中,那么這些數(shù)據(jù)就成了不可識別的數(shù)據(jù)。在大數(shù)據(jù)時代,需要通過數(shù)據(jù)的獨立性、數(shù)據(jù)的完整性而確保每一個數(shù)據(jù)都是可識別的。在醫(yī)療大數(shù)據(jù)中,各個醫(yī)療數(shù)據(jù)分別由各家醫(yī)療機

20、構(gòu)所產(chǎn)生、擁有。事物分類:事物分類是由發(fā)明專利技術(shù)醫(yī)學信息的結(jié)構(gòu)化存貯方法所提出的概念。大數(shù)據(jù)時代以前的信息系統(tǒng)的最終用戶是通過應用程序而看到各種數(shù)據(jù),最終用戶并不直接與數(shù)據(jù)庫中的數(shù)據(jù)打交道,數(shù)據(jù)庫中的數(shù)據(jù)需要通過應用程序解讀后最終用戶才能讀懂。在大數(shù)據(jù)時代,大數(shù)據(jù)中包含成千上萬家機構(gòu)的數(shù)據(jù),因此,大數(shù)據(jù)中的每一個數(shù)據(jù)庫是由哪家機構(gòu)所產(chǎn)生,數(shù)據(jù)庫中各表中所存貯的數(shù)據(jù)是什么等等都是非常重要的信息,只有搞清楚這些信息,才能正常解讀各數(shù)據(jù)的真實含義。在萬能數(shù)據(jù)結(jié)構(gòu)表中,信息系統(tǒng)的名稱、數(shù)據(jù)庫的名稱、表名是以事物分類的形式存貯在表中,其目的是讓數(shù)據(jù)具體獨立性、完整性,以此確保各數(shù)據(jù)在大數(shù)據(jù)中具有可識別

21、性。醫(yī)療大數(shù)據(jù)面臨的挑戰(zhàn)本章內(nèi)容提要:大數(shù)據(jù)并不是小數(shù)據(jù)之和,大數(shù)據(jù)與小數(shù)據(jù)有本質(zhì)的差異。關(guān)系數(shù)據(jù)庫只適合于處理小數(shù)據(jù)而不適合處理大數(shù)據(jù)。用關(guān)系數(shù)據(jù)庫來處理大數(shù)據(jù)時會遇到很多難以克服的困難。五年之內(nèi)2020年前大數(shù)據(jù)難以取得根本性突破,大數(shù)據(jù)之夢十年之后才能夢想成真。維基百科關(guān)于大數(shù)據(jù)的定義也明確指出當前的主流軟件工具不能高效地處理大數(shù)據(jù),要高效處理大數(shù)據(jù)必須開發(fā)新的軟件工具。目前的大多數(shù)信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)都存貯在關(guān)系數(shù)據(jù)庫系統(tǒng)中。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)的一大特點或者說一大問題就是數(shù)據(jù)嚴重依賴于數(shù)據(jù)庫系統(tǒng)及應用程序,當關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)脫離了相應的數(shù)據(jù)庫系統(tǒng)及應用程序后,這些數(shù)據(jù)基本上就成了

22、難以閱讀的無用數(shù)據(jù)。醫(yī)療大數(shù)據(jù)與醫(yī)院信息系統(tǒng)之間的具有本質(zhì)的差異如果把全國各家醫(yī)院所產(chǎn)生的數(shù)據(jù)全部集中上傳到國家醫(yī)療大數(shù)據(jù)中心,這些數(shù)據(jù)的數(shù)據(jù)量一定會非常龐大,這些數(shù)據(jù)能不能稱為國家醫(yī)療大數(shù)據(jù)?按維基百科對大數(shù)據(jù)的定義:大數(shù)據(jù)是指所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到獲取、處理的數(shù)據(jù)。這些數(shù)據(jù)可以稱為國家醫(yī)療大數(shù)據(jù)。維基百科的定義也明確地說明了把全國各家醫(yī)院全部集中起來的數(shù)據(jù)量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到獲取、處理。為什么不能處理呢?例如,患者就醫(yī)時,醫(yī)生非常關(guān)心患者的病史。醫(yī)生能否從國家醫(yī)療大數(shù)據(jù)中心獲得患者在全國任意一家醫(yī)院就醫(yī)時的所有病

23、歷呢?假設全國各家醫(yī)院的所有信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)都已全部集中在國家醫(yī)療大數(shù)據(jù)中心,而且醫(yī)生具有獲得這些數(shù)據(jù)的權(quán)限。截至20XX3月底,全國醫(yī)療衛(wèi)生機構(gòu)數(shù)達97.8萬個,其中:醫(yī)院2.5萬個,基層醫(yī)療衛(wèi)生機構(gòu)91.8萬個,專業(yè)公共衛(wèi)生機構(gòu)3.2萬個,其他機構(gòu)0.3萬個。全國按2.5萬家醫(yī)院計算,一家醫(yī)院按4個信息系統(tǒng)計算,全國共有10萬個醫(yī)院信息系統(tǒng),這些信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)存貯在數(shù)千萬張表中。醫(yī)療大數(shù)據(jù)應該說是永久有用的,可用來研究人類疾病的歷史變化情況。因此,國家醫(yī)療大數(shù)據(jù)應是整個國家數(shù)年內(nèi)、數(shù)十年內(nèi)所產(chǎn)生的全部數(shù)據(jù)的總和,甚至需要存貯數(shù)百年、數(shù)千年。國家醫(yī)療大數(shù)據(jù)所涉及的信息量是一般的醫(yī)院

24、信息系統(tǒng)的數(shù)據(jù)量的數(shù)萬倍、數(shù)十萬倍以上。醫(yī)生要想獲得患者以往的病史數(shù)據(jù),就必須從數(shù)據(jù)千萬張表中查詢患者的病史數(shù)據(jù)。了解關(guān)系數(shù)據(jù)庫理論者都知道,如果說僅有表中的數(shù)據(jù),沒有相應的軟件工具,那么,從數(shù)千萬張表中查詢數(shù)據(jù),即使最優(yōu)秀的程序員,在目前的技術(shù)條件下,一周的時間內(nèi)肯定查不出來患者的所有病史數(shù)據(jù)。因為程序員在查詢數(shù)據(jù)前,首先要搞清楚如下問題:這些數(shù)據(jù)分別是哪家醫(yī)院所產(chǎn)生的?這些數(shù)據(jù)分別是什么樣的數(shù)據(jù)庫系統(tǒng)產(chǎn)生的?這些數(shù)據(jù)分別存貯在哪些表中?各張表的結(jié)構(gòu)是什么?表中會含有大量的代碼,各個代碼的含義是什么?同一數(shù)據(jù)庫中會有多張表,這些表之間的關(guān)系是什么?各張表中所存貯的是什么數(shù)據(jù)?數(shù)據(jù)的類型是什么

25、?國家醫(yī)療大數(shù)據(jù)文件中含有數(shù)千萬張表,一張表詳細情況說明基本上要用一頁復印的信息量來描述,共需數(shù)千萬頁復印紙才能描述清楚全部表的基本情況。面對全國97.8萬家醫(yī)療機構(gòu),2萬多家有一定規(guī)模的醫(yī)院,數(shù)萬個醫(yī)院信息系統(tǒng),數(shù)千萬張表,程序員在一周的時間內(nèi)肯定搞不清楚上述問題。從理論上而言,只要有數(shù)據(jù),程序員可以查詢到任何需要信息,然而由于國家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量太大,數(shù)據(jù)關(guān)系太復雜,數(shù)據(jù)結(jié)構(gòu)太多、數(shù)據(jù)類型太多、不標準的數(shù)據(jù)太多,結(jié)果是太難太難。處理小數(shù)據(jù)時并未感到關(guān)系數(shù)據(jù)庫有什么不足之處,在大數(shù)據(jù)時代人們已認識到關(guān)系數(shù)據(jù)庫系統(tǒng)不適合處理大數(shù)據(jù)。小問題放大萬倍就會大的嚇人國家醫(yī)療大數(shù)據(jù)并不是把全國各家醫(yī)院

26、所產(chǎn)生的數(shù)據(jù)全部集中在一起就可以稱作是合格的醫(yī)療大數(shù)據(jù)。如果僅是把全國各家醫(yī)院所產(chǎn)生的數(shù)據(jù)全部集中在一起,而沒有處理這些數(shù)據(jù)的應用程序,那么,這些數(shù)據(jù)也沒什么用處。目前不是沒有大數(shù)據(jù),而是有很多大數(shù)據(jù),然而人們不能高效地對這些數(shù)據(jù)進行處理。到目前為止,還沒有成功處理上萬家醫(yī)療機構(gòu)所產(chǎn)生的醫(yī)療大數(shù)據(jù)的成功案例。大數(shù)據(jù)比小數(shù)據(jù)大多少倍?目前沒有明確的定義,應該說真正的大數(shù)據(jù)要比小數(shù)據(jù)大一萬倍以上,最少也應大一百倍以上。大數(shù)據(jù)的大表現(xiàn)在:一是數(shù)據(jù)量大是小數(shù)據(jù)萬倍以上,二是數(shù)據(jù)類型多是小數(shù)據(jù)萬倍以上,三是所涉及到的單位多是小數(shù)據(jù)萬倍以上,四是所涉及到的用戶多種多樣是小數(shù)據(jù)萬倍以上,五是對數(shù)據(jù)的需求多種

27、多樣而且不確定是小數(shù)據(jù)萬倍以上。在處理大數(shù)據(jù)時,會有很多的萬倍以上的問題。3歲小朋友都可以數(shù)清楚自已家里有幾口人,然而全國有多少人?由于人數(shù)十分龐大,全國人口普查就成了一項十分艱巨的大工程。自有人類以來,還無人能夠數(shù)百之百準確地數(shù)清楚全球在某段時間內(nèi)的人數(shù)。大家都認為當今的計算機技術(shù)已非常先進,然而時至今日,全球、全國的人口普查都做不到百分之百準確。我國歷次人口普查都要花費大量的人力、物力。宇宙之中有多少個星球體?誰也數(shù)不清,因為整個宇宙實在是太大了,宇宙中的星球數(shù)量實在是太多了,誰也數(shù)不清,永遠也數(shù)不清。事物的數(shù)量大到一定程度后一項非常簡單的工作就會變成一項非常艱巨的大工程。小數(shù)據(jù)所處理的數(shù)

28、據(jù)猶如小朋友數(shù)家里的人數(shù),大數(shù)據(jù)所處理的數(shù)據(jù)猶如全國人口普查。大數(shù)據(jù)的特點:小數(shù)據(jù)中的小問題一旦放大萬倍就會大的嚇人!在大數(shù)據(jù)處理中,會遇到數(shù)量眾多的小問題。當前的絕大多數(shù)信息系統(tǒng)都是用關(guān)系數(shù)據(jù)庫系統(tǒng)而建立的。在設計數(shù)據(jù)庫系統(tǒng)時,設計人員習慣于用代碼來表示各種數(shù)據(jù),例如一些設計人員人用數(shù)字0來代表女性、用1代表男性,有的用M來代表男性、F來代表女性。全國各行各業(yè)擁有數(shù)千萬個信息系統(tǒng),其中的數(shù)千萬張表中擁有人的性別這種字段。在當前的情況下,人們是用數(shù)據(jù)抽取的方法來而使性別這種字段中的數(shù)據(jù)全部轉(zhuǎn)換為統(tǒng)一的、標準的數(shù)據(jù),例如統(tǒng)一為男、女。要把全國數(shù)千萬張表中的性別數(shù)據(jù)全部轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù),就是一項非

29、常艱巨的系統(tǒng)工程。要真正建立起國家醫(yī)療大數(shù)據(jù),要解決很多個數(shù)量十分龐大的小問題。大數(shù)據(jù)一般比小數(shù)據(jù)大數(shù)萬倍、數(shù)十萬倍,小數(shù)據(jù)中的小問題一旦放大數(shù)萬倍、數(shù)十萬倍就會大的嚇人!在小數(shù)據(jù)時代,人們所設計的信息系統(tǒng)只是用來處理某個機構(gòu)、某個部門內(nèi)部的某個局部問題進行統(tǒng)計、分析,一個信息系統(tǒng)中只有幾張表、幾十張表。在大數(shù)據(jù)時代,人們更關(guān)注全國,甚至全球范圍內(nèi)的對所有事物進行統(tǒng)計、分析,涉及到數(shù)百萬、數(shù)千萬個信息系統(tǒng)、數(shù)億張表。小數(shù)據(jù)是為機構(gòu)內(nèi)部的人員所使用,是從機構(gòu)的角度看問題,而大數(shù)據(jù)而是從全國,甚至全球來考慮問題。對醫(yī)療行業(yè)而言,全國擁有近97.8萬家醫(yī)療機構(gòu),數(shù)百萬從業(yè)人員,為全國13億人服務。目

30、前商業(yè)智能所處理的還只是一家企業(yè)內(nèi)部的數(shù)據(jù),人們已感到對企業(yè)內(nèi)部的數(shù)十個信息系統(tǒng)中的數(shù)據(jù)進行處理已非常困難,而大數(shù)據(jù)所要處理的是整個行業(yè)的數(shù)據(jù),比商業(yè)智能復雜數(shù)萬倍。大數(shù)據(jù)=價值大=困難大=問題大=代價大醫(yī)療大數(shù)據(jù)面臨八大難題當前國內(nèi)的各家醫(yī)院的各種信息系統(tǒng)都是為了滿足自己的需求而開發(fā)的,可以比較好地滿足各家醫(yī)院自己的各種需求,并發(fā)揮出了重要的作用。然而,當人們從國家醫(yī)療大數(shù)據(jù)的角度來考慮問題時,就會發(fā)現(xiàn)要從全國的所有醫(yī)療機構(gòu)的所有信息系統(tǒng)中挖掘出有價值的信息實在是大難了!主要有下述八大難題。各自為政:各家醫(yī)療機構(gòu)各自為政,都想要別人的的數(shù)據(jù),都不希望自己的數(shù)據(jù)共享給他人。到目前為止,醫(yī)療數(shù)據(jù)

31、都存貯在各家醫(yī)療機構(gòu)內(nèi)部,從各家醫(yī)療機構(gòu)獲得數(shù)據(jù)非常難。數(shù)據(jù)不標準:醫(yī)療行業(yè)還未建立全國統(tǒng)一的、標準化、規(guī)范的數(shù)據(jù),各家醫(yī)院的醫(yī)療數(shù)據(jù)各不相同。數(shù)據(jù)不標準問題是影響大數(shù)據(jù)處理的一個重大問題,在大數(shù)據(jù)時代,各行各業(yè)的數(shù)據(jù)標準化工作是大數(shù)據(jù)的一項非常重要的基礎工作,這項基礎工作搞不好,大數(shù)據(jù)挖掘工作不可能搞好。醫(yī)療行業(yè)的數(shù)據(jù)標準化工作也是一項工程量巨大的系統(tǒng)工程,需要大量的醫(yī)務人員共同參與才能完成。國內(nèi)還未做好這項基礎工作。數(shù)據(jù)不標準、不規(guī)范,會嚴重影響數(shù)據(jù)挖掘的結(jié)果。數(shù)據(jù)不一致可以有多種情況,如數(shù)據(jù)類型不一致,隨意縮寫造成的不一致,計量單位不一致等。當從多個不同的數(shù)據(jù)源整合數(shù)據(jù)時,由于定義的不同

32、,更容易產(chǎn)生數(shù)據(jù)不一致問題。在不同的數(shù)據(jù)源中,相同類型的信息可能表現(xiàn)為不同的格式。例如,電話號碼通常定義為字符型數(shù)據(jù),但在有些數(shù)據(jù)源中可能將定義數(shù)值型數(shù)據(jù),因此應將其標準化。典型的例子是字段性別,一些人用數(shù)字0、1、2來表示不清、男、女。而在其它數(shù)據(jù)庫中,可能直接用不清、男、女來描述。另一種情況是字段值在不同的數(shù)據(jù)源中不一致,如出生地可能分別使用上海、滬、上海市、滬市、SHANGHAI、SH等表示上海市出生的人。解決這一問題首先應該進行標準化,然后根據(jù)標準逐步消除數(shù)據(jù)不一致的問題。業(yè)務及業(yè)務流程不標準:要對全國的某個行業(yè)的大數(shù)據(jù)進行分析統(tǒng)一,行業(yè)內(nèi)的業(yè)務及業(yè)務流程的標準化工作也是一項非常重要的

33、工作,否則,各個機構(gòu)的數(shù)據(jù)也就會百花齊放、各不相同,不利于分析統(tǒng)計。數(shù)據(jù)多樣性數(shù)據(jù)結(jié)構(gòu)不標準、不統(tǒng)一:全國有97.8萬家醫(yī)療機構(gòu),這些機構(gòu)的全部信息系統(tǒng)有數(shù)十萬個,這些系統(tǒng)由不同的開發(fā)商所開發(fā),各系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)不盡相同。每家醫(yī)院的信息化工作都涉及幾十個廠家,每個廠家的數(shù)據(jù)、標準、采集、存儲都不一樣。因此,即便是在一家醫(yī)院,都會出現(xiàn)很多孤島,更別說整個醫(yī)療行業(yè)了。各家醫(yī)院信息系統(tǒng)的標準、接口都不同,這成為利用率低、共享難的原因之一。數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)、應用系統(tǒng)密切不可分:關(guān)系數(shù)據(jù)庫系統(tǒng)中的每一個數(shù)據(jù)都要先定義數(shù)據(jù)結(jié)構(gòu)才能入住數(shù)據(jù)庫。信息系統(tǒng)的最終用戶所看到的數(shù)據(jù)都需要應用程序的解讀,最終用戶看不懂

34、關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)。不能實現(xiàn)醫(yī)學信息的結(jié)構(gòu)化存貯:醫(yī)學信息非常復雜,醫(yī)務人員習慣于用自然語言編寫各種醫(yī)學檔案,例如醫(yī)生都是用自然語言編寫病歷。然而,計算機很笨,不能理解自然語言,因此只有把醫(yī)學信息結(jié)構(gòu)化之后進行存貯,才能用計算機進行處理。而當前的眾多醫(yī)學信息都未能很好地進行結(jié)構(gòu)化存貯。信息孤島:各家醫(yī)院的各個信息系統(tǒng)不能實現(xiàn)全國互聯(lián)互通。老系統(tǒng)升級改造難題:當前的信息系統(tǒng)都是小數(shù)據(jù)系統(tǒng),不適應大數(shù)據(jù)時代的需求,然而要對現(xiàn)有的信息系統(tǒng)進行全面改造也是非常困難的,其代價也是非常高昂的。為什么要升級改造?因為當前的各家醫(yī)院的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)各不相同,數(shù)據(jù)不標準、不規(guī)范。要對大數(shù)據(jù)進行處理,必須確

35、保全國各家醫(yī)療機構(gòu)的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)是統(tǒng)一的、標準的、規(guī)范的醫(yī)學標準數(shù)據(jù)。只有這樣,才能高效處理大數(shù)據(jù)。從理論上而言,醫(yī)療大數(shù)據(jù)挖掘很簡單,只要懂關(guān)系數(shù)據(jù)庫,基本上就能對醫(yī)療大數(shù)據(jù)進行挖掘。然而,要想對全國近百萬個醫(yī)療機構(gòu)、數(shù)十萬個信息系統(tǒng)的全部數(shù)據(jù)進行高效地挖掘,所面臨的挑戰(zhàn)是非常嚴重的。如何解決八大難題?各自為政:這個問題必須國家衛(wèi)生和計劃生育委員會以行政命令的方式來解決,強制要求各醫(yī)療單位實時地把各種醫(yī)療信息上傳到國家醫(yī)療大數(shù)據(jù)中心。若沒有強制的行政命令,不可能建立起合格的國家醫(yī)療大數(shù)據(jù)。數(shù)據(jù)不標準難題:此難題涉及到的數(shù)據(jù)量太大、工程量太大。國家衛(wèi)計委及很多人士雖說早就注意到此問題的

36、存在,然而直到目前還未從根本上解決醫(yī)療行業(yè)的數(shù)據(jù)標準化問題。此問題不從根本上解決,那么醫(yī)療大數(shù)據(jù)的挖掘就等于說大話。醫(yī)療行業(yè)數(shù)據(jù)標準化工作是大數(shù)據(jù)挖掘的基礎工作。此問題應該由國家衛(wèi)計委組織業(yè)內(nèi)外力量來解決,解決此問題需要3至5年的時間。有了國家醫(yī)療大數(shù)據(jù)標準之后,還需要用標準的醫(yī)療數(shù)據(jù)去代替現(xiàn)有的不標準的醫(yī)療數(shù)據(jù),而此項工作的工作量也是非常巨大的。標準化工作是不賺錢的基礎性工作,商業(yè)機構(gòu)沒有從事這項工作的動力,應該由國家衛(wèi)計委來解決。業(yè)務、業(yè)務流程不標準:目前全國各醫(yī)療機構(gòu)的業(yè)務及業(yè)務流程并不標準,因此,各醫(yī)療機構(gòu)所產(chǎn)生的數(shù)據(jù)也各不一樣。要建立國家醫(yī)療大數(shù)據(jù),就必須道先對全國醫(yī)療機構(gòu)的業(yè)務流程

37、進行標準化處理,這也是一項工程量巨大的基礎性系統(tǒng)工程。這項工作也應該由國家衛(wèi)計委來解決。此項工作最快需要三至五年的時間才能完成。只有解決了上述三項基礎性問題,才能夠建立起國家醫(yī)療大數(shù)據(jù)這個大廈的堅實地基,否則醫(yī)療大數(shù)據(jù)只能是空中樓閣。由于上述三個因素牽涉到全國各個醫(yī)療機構(gòu)的方方面面,非常復雜,十年之內(nèi)很難看到真正的國家醫(yī)療大數(shù)據(jù)的曙光。下述4個問題屬于技術(shù)問題,關(guān)系數(shù)據(jù)庫理論解決不了這4個問題,可由發(fā)明專利技術(shù)醫(yī)學信息的結(jié)構(gòu)化存貯方法從技術(shù)上加以徹底解決:數(shù)據(jù)多樣性數(shù)據(jù)結(jié)構(gòu)不標準、不統(tǒng)一:目前關(guān)系數(shù)據(jù)庫占據(jù)統(tǒng)治地位,絕大多數(shù)信息系統(tǒng)都是用關(guān)系數(shù)據(jù)庫而建立的。醫(yī)院的各種信息系統(tǒng)中,多數(shù)也是用關(guān)系

38、數(shù)據(jù)庫系統(tǒng)而建立。例如,目前國內(nèi)醫(yī)療行業(yè)的HIS系統(tǒng)是由多個開發(fā)商所開發(fā),各家開發(fā)商所用的數(shù)據(jù)庫系統(tǒng)不一樣,所用的數(shù)據(jù)結(jié)構(gòu)結(jié)構(gòu)及數(shù)據(jù)類型也不一樣。因此,如果要對全國各家醫(yī)療機構(gòu)的HIS系統(tǒng)中的數(shù)據(jù)進行分析,那么首先就要把各種數(shù)據(jù)全部轉(zhuǎn)換為同一的數(shù)據(jù)結(jié)構(gòu),然后才能對數(shù)據(jù)進行分析統(tǒng)計。然而要對全國近百萬個醫(yī)療機構(gòu)的數(shù)十萬個、數(shù)百萬個信息系統(tǒng)中的數(shù)據(jù)進行轉(zhuǎn)換,也是一項工程量巨大的系統(tǒng)工程。另一外很重要的問題是,所有這些信息系統(tǒng)中的數(shù)據(jù)要轉(zhuǎn)換為哪一種統(tǒng)一的、標準的數(shù)據(jù)結(jié)構(gòu),也是需要國家衛(wèi)計委制定相應的標準、規(guī)范。數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)、應用系統(tǒng)密不可分。不能實現(xiàn)醫(yī)學信息的結(jié)構(gòu)化存貯:醫(yī)學信息非常復雜,用關(guān)系

39、數(shù)據(jù)庫不能實現(xiàn)病歷信息的結(jié)構(gòu)化存貯。有人用XML實現(xiàn)病歷信息的結(jié)構(gòu)化存貯,然而XML只適合處于少量數(shù)據(jù),不適合對全國的病歷信息的處理。信息孤島。信息系統(tǒng)改造:現(xiàn)有的醫(yī)療信息系統(tǒng)就猶如XX的城中村,XX的城中村雖有一定的作用,然而城中村與XX這樣的國際化大都市非常不協(xié)調(diào)。改造XX城中村的最佳方案就是推倒重建,局部的修補是沒用的。然而要全部推倒重建,所花費的資金是非常巨大的。國家大數(shù)據(jù)標準工程堪比兩彈一星大數(shù)據(jù)工程,標準先行。國家大數(shù)據(jù)標準的工程的工程量要比兩彈一星的工程量大。國家大數(shù)據(jù)標準涉及到每一個行業(yè),也涉及到各種各樣的業(yè)務。大數(shù)據(jù)標準涉及數(shù)據(jù)的標準化、數(shù)據(jù)結(jié)構(gòu)的標準化、業(yè)務的標準化、業(yè)務流

40、程的標準化。大數(shù)據(jù)標準化工作完成之后還要對現(xiàn)有的信息系統(tǒng)進行改造,這種改造的工程量及代價也是非常高昂的。目前的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)不適應大數(shù)據(jù)的需求。歷史對秦始皇統(tǒng)一文字、統(tǒng)一度量衡、統(tǒng)一貨幣的評價非常高:功惠千秋。大數(shù)據(jù)所面臨的問題也猶如秦始皇時代所面臨的文字不統(tǒng)一、度量衡不統(tǒng)一、貨幣不統(tǒng)一問題。因此,要解決大數(shù)據(jù)所面臨的問題,也需要由秦國、秦始皇那樣強大的機構(gòu)、領袖人物以行政命令的形式強制推行,才能從根本上解決問題。大數(shù)據(jù)八大難題中的五大難題各自為政、數(shù)據(jù)不標準、業(yè)務流程不標準、數(shù)據(jù)多樣性數(shù)據(jù)結(jié)構(gòu)不標準、不統(tǒng)一、信息孤島與秦始皇曾經(jīng)遇到的問題有些類似。為解決千年蟲問題,全球花費了超千億美元

41、的資金。徹底砸爛小數(shù)據(jù)而建立大數(shù)據(jù)新環(huán)境的代價遠遠超過千年蟲問題。千年蟲只是解決一個時間數(shù)據(jù)的問題,而徹底砸爛小數(shù)據(jù)建立大數(shù)據(jù)新環(huán)境則涉及到幾乎所有信息系統(tǒng)的所有數(shù)據(jù)!小數(shù)據(jù):只要能滿足自己需求,能解決自己的問題即可。大數(shù)據(jù):不只是滿足自己的需求、解決自己的問題,還要考慮他人的需求。重點是如何讓他人能夠找到所需要的數(shù)據(jù)。要讓他人、大家找到所需要的數(shù)據(jù),最重要的是大家都要遵循相同的標準,大家都講普通話,而不是方言,這猶如泰始皇統(tǒng)一六國后的書同文的標準化改革。當前在處理大數(shù)據(jù)時的首要工作就是數(shù)據(jù)抽取ETL: Extract、 Transform 、Load,抽取、轉(zhuǎn)換、裝載,其實數(shù)據(jù)抽取工作也類似

42、秦始皇的書同文,只是數(shù)據(jù)抽取并未能真正象秦始那樣從根本上解決書同文問題。要使大數(shù)據(jù)真正做到書同文,需要象秦始皇那樣從根本上解決問題。而真正實現(xiàn)大數(shù)據(jù)書同文時,就不再需要數(shù)據(jù)抽取。與當前人們所提到的大數(shù)據(jù)相比,關(guān)系數(shù)據(jù)庫所處理的數(shù)據(jù)則是小數(shù)據(jù)。大數(shù)據(jù)中的數(shù)據(jù)是數(shù)萬家、數(shù)十萬家以上的各中機構(gòu)中各種數(shù)據(jù)的總和。而關(guān)系數(shù)據(jù)庫所處理的小數(shù)據(jù)則是一家機構(gòu)或幾家機構(gòu)中的部分數(shù)據(jù)。當我們面對數(shù)十萬個、數(shù)百萬個以上的信息系統(tǒng)中的數(shù)據(jù)大數(shù)據(jù)時,就會發(fā)現(xiàn),我們面臨很多挑戰(zhàn):維基百科對大數(shù)據(jù)的定義無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理。也就說明用關(guān)系數(shù)據(jù)庫系統(tǒng)已無法在可承受的時間范圍內(nèi)用常規(guī)軟件工

43、具進行捕捉、管理和處理大數(shù)據(jù)。在小數(shù)據(jù)時代,信息系統(tǒng)的用戶是通過應用程序而查到自己所需要的數(shù)據(jù),而信息系統(tǒng)對關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)進行處理后而以用戶能夠理解的形式展現(xiàn)給用戶。然而,在大數(shù)據(jù)時代,這種方法行不通了。因為在小數(shù)據(jù)時代,我們所要處理的數(shù)據(jù)是有限的、可確定的,而在大數(shù)據(jù)時代,我們所要處理的數(shù)據(jù)是無限的,不確定的數(shù)據(jù)。秦始皇之所以能使書同文成為現(xiàn)實,是因為他擁有至高無上的權(quán)威;兩彈一星之所以能成功,關(guān)鍵在于兩彈一星關(guān)系到國家的生死存亡,國家大力支持。大數(shù)據(jù)的成敗與國家的支持是分不開的。醫(yī)療行業(yè)的信息系統(tǒng)頂層設計為何難產(chǎn)國家衛(wèi)生和計劃生育委員會幾年前就注意到了醫(yī)療行業(yè)信息系統(tǒng)頂層設計的重要性,

44、并希望從根本上解決此問題,但至今未能從根本上實現(xiàn)醫(yī)療行業(yè)信息系統(tǒng)的頂層設計。為什么要進行頂層設計?因為當前的各種醫(yī)院信息系統(tǒng)存在嚴重的問題,信息孤島問題嚴重,不能互聯(lián)互通。頂層設計建立在醫(yī)療數(shù)據(jù)標準化、醫(yī)療業(yè)務流程標準化的基礎之上。而如今醫(yī)療數(shù)據(jù)標準化、醫(yī)療業(yè)務流程標準化這兩個基礎工作還未做好,因此頂層設計就不可能有結(jié)果。技術(shù)上的原因:關(guān)系數(shù)據(jù)庫理論的先天不足??陀^原因:問題非常復雜、牽涉面太廣、所需資金非常巨大。頂層設計非常難,比頂層設計更難的是有了頂層設計之后再對全國的醫(yī)療信息系統(tǒng)進行全面更新?lián)Q代。大數(shù)據(jù)挖掘中的問題:大數(shù)據(jù)的關(guān)鍵不在于大而在于如何挖掘如果把全國97.8萬個醫(yī)療衛(wèi)生機構(gòu)所產(chǎn)

45、生的數(shù)據(jù)全部存貯到國家醫(yī)療大數(shù)據(jù)中心,這些數(shù)據(jù)可以稱作是國家醫(yī)療大數(shù)據(jù),然而這樣的數(shù)據(jù)并不能稱作是真正合格的國家醫(yī)療大數(shù)據(jù),因為,對這樣的數(shù)據(jù)的挖掘非常困難,從這些數(shù)據(jù)中挖掘出有用數(shù)據(jù)的代價非常高,猶如沙里淘金,大海撈針。大數(shù)據(jù)不是小數(shù)據(jù)之和。大數(shù)據(jù)的關(guān)鍵不在于大,而在于挖掘。只有可以讓大家高效挖掘、任意挖掘的大數(shù)據(jù)才是真正合格的大數(shù)據(jù)。我國醫(yī)療行業(yè)每年產(chǎn)生多少數(shù)據(jù)國家醫(yī)療大數(shù)據(jù)的概況:截至20XX3月底,全國醫(yī)療衛(wèi)生機構(gòu)數(shù)達97.8萬個,其中:醫(yī)院2.5萬個,基層醫(yī)療衛(wèi)生機構(gòu)91.8萬個,專業(yè)公共衛(wèi)生機構(gòu)3.2萬個,其他機構(gòu)0.3萬個。僅按全國擁有2.5萬家醫(yī)院、每家醫(yī)院4個信息系統(tǒng)計算,全

46、國約有10萬個以上的醫(yī)院信息系統(tǒng),每個信息系統(tǒng)按20張表估算,全國共擁有200百萬張表。除了存貯在關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)外,還有其它類型的數(shù)據(jù):XML、音像、文本等。國家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量估算:XX軍區(qū)XX總醫(yī)院目前擁有5臺存儲設備,2臺專用于PACS,其中HIS、LIS、EMR等數(shù)據(jù)3T,病案縮微數(shù)據(jù)12T,PACS數(shù)據(jù)120T左右,每個月的數(shù)據(jù)增長為2T左右,每年產(chǎn)生的數(shù)據(jù)量:24T/年。國家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量估算=2.5萬家未計小醫(yī)療機構(gòu)的數(shù)據(jù)*24T/年=60萬T/年。國家醫(yī)療大數(shù)據(jù)的數(shù)據(jù)量估算:6萬T/年至100萬T/年。挖掘關(guān)系數(shù)據(jù)庫系統(tǒng)所產(chǎn)生的醫(yī)療數(shù)據(jù)非常困難如果全國97.8萬家

47、醫(yī)療機構(gòu)以鏡像的方式把所有數(shù)據(jù)都上傳到國家醫(yī)療大數(shù)據(jù)中心,那么該如何對這些數(shù)據(jù)進行挖掘?全國共有97.8萬家醫(yī)療機構(gòu),這些醫(yī)療機構(gòu)所擁有的信息系統(tǒng)有10萬個以上,這些醫(yī)療機構(gòu)所擁有的數(shù)據(jù)庫有10萬個以上,這些數(shù)據(jù)庫中的表有200萬張以上。這些醫(yī)療機構(gòu)的數(shù)據(jù)存貯在數(shù)十萬個以上的文件夾中存貯XML、音像、文本等數(shù)據(jù)。患者病史可能是患者自出生以來的所有情況,病史數(shù)據(jù)可能存貯在幾十年的數(shù)據(jù)中,并不僅是一年的數(shù)據(jù)中。當前的大多數(shù)醫(yī)療數(shù)據(jù)都是存貯在關(guān)系數(shù)據(jù)庫中,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)密切相關(guān)、與數(shù)據(jù)結(jié)構(gòu)密切相關(guān)、與應用程序密切相關(guān)、數(shù)據(jù)不標準。如果只是以鏡像的方式把全國97.8萬家醫(yī)療機構(gòu)的數(shù)據(jù)全

48、部上傳到國家醫(yī)療大數(shù)據(jù)中心,要從這些數(shù)據(jù)中挖掘數(shù)據(jù),也是非常困難的。要從國家醫(yī)療大數(shù)據(jù)中查詢患者病歷數(shù)據(jù),必要首先搞清楚如下情況:10萬個以上的數(shù)據(jù)庫各用什么數(shù)據(jù)庫系統(tǒng)?10萬個以上的數(shù)據(jù)庫的數(shù)據(jù)存貯在哪里?IP?如何訪問數(shù)據(jù)庫帳號?100萬張以上的表中的每張表的數(shù)據(jù)結(jié)構(gòu)100萬張以上的表中各表之間的關(guān)系100萬張以上的表中的各個數(shù)據(jù)代碼的含義10萬個以上的文件夾中存貯什么樣的數(shù)據(jù)基礎醫(yī)療數(shù)據(jù)大多存在于HIS、LIS、PACS、EMR、手術(shù)麻醉、體檢、心電等多個子系統(tǒng)中。各系統(tǒng)來源于不同的生產(chǎn)廠商,數(shù)據(jù)存放在不同的數(shù)據(jù)庫,數(shù)據(jù)多而散,數(shù)據(jù)庫的設計缺乏標準化,不同數(shù)據(jù)庫中的數(shù)據(jù)靠患者主索引等進行

49、關(guān)聯(lián),關(guān)聯(lián)關(guān)系相當復雜。各自廠家研發(fā)人員除了對自家系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)非常了解之外,缺乏對其他系統(tǒng)數(shù)據(jù)結(jié)構(gòu)的了解,整體數(shù)據(jù)分析能力較差。專業(yè)做數(shù)據(jù)分析及整合的公司,缺乏對醫(yī)院實際操作流程的深入了解,導致對數(shù)據(jù)流向及關(guān)聯(lián)關(guān)系的分析不夠準確,且很難準確的拿到各子系統(tǒng)的基礎數(shù)據(jù),最終未必能做到數(shù)據(jù)全面、準確。僅患者與數(shù)據(jù)的對應關(guān)系就是一個大問題如果說要從國家醫(yī)療大數(shù)據(jù)中查詢患者影像數(shù)據(jù),那么,該如何實現(xiàn)?在當前的醫(yī)療信息系統(tǒng)中,關(guān)于患者的編碼并不是唯一的,也不是全國統(tǒng)一的。要查詢某個患者的醫(yī)療數(shù)據(jù),最理想的查詢方式就是以患者的身份證號作為查詢條件而查詢相關(guān)數(shù)據(jù)。由于目前國內(nèi)的各種醫(yī)療信息系統(tǒng)中的各個表中并

50、不一定擁有患者身份證這一字段,從而使查詢變得非常繁瑣。例如:下面的表中的數(shù)據(jù)是一個PACS系統(tǒng)中的數(shù)據(jù)。此表中并沒有包含可以直接識別患者身份的數(shù)據(jù)。因為由下表中的姓名及門診及住院號并不能準確地識別出是哪一個患者。國內(nèi)同名的人非常多,僅由姓名查義患者的數(shù)據(jù)是不行的。門診及住院號只是各家醫(yī)院自己的編號,也不能把門診及住院號作為查詢條件。在上面的PACS系統(tǒng)表中未包含患者身份證數(shù)據(jù)。因此,需要從HIS系統(tǒng)中根據(jù)患者身份證號而查出患者的門診或住院號,再根據(jù)門診或住院號而從PACS系統(tǒng)表中查出PACS影像數(shù)據(jù)?;颊吲c數(shù)據(jù)的對應關(guān)系這樣的問題其實是大數(shù)據(jù)中的一個非常突出的問題。為了查詢的方便,一定要把數(shù)據(jù)

51、的最主要的特征在數(shù)據(jù)中表現(xiàn)出來。但關(guān)系數(shù)據(jù)庫理論未考慮此問題。在大數(shù)據(jù)挖掘中,僅是確定患者的身份就是一項艱巨的工程。對小數(shù)據(jù)而言,程序員知道相關(guān)的數(shù)據(jù)存貯在哪個表中,但在大數(shù)據(jù)環(huán)境中,程序員不知道想要查詢的數(shù)據(jù)存貯在哪里。關(guān)系數(shù)據(jù)庫理論的致命傷關(guān)系數(shù)據(jù)庫系統(tǒng)只適合于處理小數(shù)據(jù),而不適合處理大數(shù)據(jù),其根本原因在于關(guān)系數(shù)據(jù)庫理論的先天不足。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)在大數(shù)據(jù)環(huán)境中為何變成無意義的數(shù)據(jù)如果在國家醫(yī)療大數(shù)據(jù)中心查詢到下表的數(shù)據(jù),誰能看懂?該表中的數(shù)據(jù)是某家醫(yī)院的信息系統(tǒng)中的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),普通人看不懂,醫(yī)生也只能靠猜測才能猜出部分內(nèi)容。下面的兩張表中的數(shù)據(jù)也是關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),這兩張表中

52、的數(shù)據(jù)也是普通人難以看懂的:IDXMXBNLTZSG1張三男5672180IDXMXBZYFXYFQTFY2146張三男5672180 上面兩表中的數(shù)據(jù)的實際含義如下:ID姓名性別所齡體重身高1張三男5672180ID姓名性別中藥費西藥費其它費用2146張三男5672180下表是用發(fā)明專利技術(shù)醫(yī)學信息的結(jié)構(gòu)化存貯方法而設計的表,該表中的數(shù)據(jù)無論是誰,只要懂漢語,就可以看懂表中內(nèi)容:ID事物代號事物特征事物特征值超長特征值單位附件時間100280事物分類體育管理系統(tǒng)101280事物分類教練信息102280事物分類教練基本情況103280身份證號XXXXXXXXXX105280姓名張三106280

53、性別男107280年齡56108280體重72KG109280身高180CM11001280事物分類病歷11011280事物分類住院病歷11021280事物分類醫(yī)療費用11031280身份證號XXXXXXXXXX11041280住院號XXXXXXXXXX11051280姓名張三11061280性別男11071280中藥費56元11081280西藥費72元11091280其它費用180元相對大數(shù)據(jù)而言,關(guān)系數(shù)據(jù)庫理論是小數(shù)據(jù)時代的產(chǎn)物,只適合處理小數(shù)據(jù),而不適合處理大數(shù)據(jù)。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)基本上都是不合格的失真數(shù)據(jù),因為關(guān)系數(shù)據(jù)庫系統(tǒng)所面對的用戶只是熟悉關(guān)系數(shù)據(jù)庫理論的設計人員,而不是最終的用

54、戶。關(guān)系數(shù)據(jù)庫的最終用戶所看到的數(shù)據(jù)是設計人員利用應用程序?qū)﹃P(guān)系數(shù)據(jù)庫中的數(shù)據(jù)進行解讀之后的數(shù)據(jù),最終用戶并不是直接閱讀關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)。最終用戶也看不懂關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)。關(guān)系數(shù)據(jù)庫理論非常注重數(shù)據(jù)的冗余,用關(guān)系數(shù)據(jù)庫所建立的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)所占用的存貯空間比較小,但關(guān)系數(shù)據(jù)庫在減少數(shù)據(jù)冗余的同時也導致關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只有通過應用程序的解讀才能讓最終用戶讀懂數(shù)據(jù)的含義。關(guān)系數(shù)據(jù)理論的一個致命傷就是由設計人員隨意定義數(shù)據(jù)結(jié)構(gòu)表結(jié)構(gòu),關(guān)系數(shù)據(jù)庫理論中沒有定義數(shù)據(jù)結(jié)構(gòu)的國際標準。由此而帶來的嚴重問題就是不同的設計者所設計出的數(shù)據(jù)結(jié)構(gòu)各不相同,每一個信息系統(tǒng)只認識自己所定義的數(shù)據(jù),而不認識其

55、它信息系統(tǒng)所定義的數(shù)據(jù)。系統(tǒng)與系統(tǒng)之間不能互聯(lián)互通,用關(guān)系數(shù)據(jù)庫理論所設計出的信息系統(tǒng)都是孤島型信息系統(tǒng)。在小數(shù)據(jù)環(huán)境中,可由應用程序來解讀數(shù)據(jù)的真實含義。然而在大數(shù)據(jù)環(huán)境中,面對數(shù)百萬張以上的表,就是災難。數(shù)據(jù)猶如語言,數(shù)據(jù)互聯(lián)互通、信息共享的基礎就是大家都講普通話。而用關(guān)系數(shù)據(jù)庫理論所設計的每一個信息系統(tǒng)都有自己獨特的方言,任何兩個信息系統(tǒng)之間誰也聽不懂對方的方言。關(guān)系數(shù)據(jù)庫理論中根本就沒有普通話的概念。在小數(shù)據(jù)時代,一個信息系統(tǒng)只應用于一個單位,甚至只應用于某個部門,例如醫(yī)院的HIS系統(tǒng)、PACS系統(tǒng)、LIS系統(tǒng)。在互聯(lián)網(wǎng)時代、大數(shù)據(jù)時代,人們逐步發(fā)現(xiàn)信息系統(tǒng)之間的互聯(lián)互通、信息共享,以

56、及處理數(shù)百萬家單位的全部數(shù)據(jù)具有更大的價值。此時人們才發(fā)現(xiàn)原來用關(guān)系數(shù)據(jù)庫理論所設計的信息系統(tǒng)不能互聯(lián)互通,用關(guān)系數(shù)據(jù)庫理論不能處理數(shù)百萬家單位所產(chǎn)生的大數(shù)據(jù)。關(guān)系數(shù)據(jù)庫理論是單機時代時代的產(chǎn)物。在創(chuàng)立關(guān)系數(shù)據(jù)理論之初根本就沒有考慮系統(tǒng)之間的互聯(lián)互通、信息共享、大數(shù)據(jù)問題。關(guān)系數(shù)據(jù)庫理論只適用于一個單位內(nèi)部,不適合于處理單位之間數(shù)據(jù)互聯(lián)互通。關(guān)系數(shù)據(jù)庫理論于1970年的6月由IBM公司的研究員埃德加.考特Edgar Frank Codd創(chuàng)立論文名稱為大型共享數(shù)據(jù)庫數(shù)據(jù)的關(guān)系模型A Relational Model of Data for Large Shared Data Banks。ORAC

57、LE誕生于1979年。關(guān)系數(shù)據(jù)庫是信息化社會的功臣,也是當今嚴重的信息孤島的罪魁禍首!關(guān)系數(shù)據(jù)庫理論是單機時代、局域網(wǎng)時代的產(chǎn)物,是一種以自我為中心的孤島型理論,沒有與外界進行數(shù)據(jù)交換及數(shù)據(jù)共享的概念,也沒有數(shù)據(jù)接口及互聯(lián)互通的概念。而當今的互聯(lián)網(wǎng)是一種沒有中心的網(wǎng)絡,系統(tǒng)之間的互聯(lián)互通是重中之重。用關(guān)系數(shù)據(jù)庫理論所建立的信息系統(tǒng)都是孤島型的,不能互聯(lián)互通。關(guān)系數(shù)據(jù)庫的特點是:雞犬之聲相聞,老死不相往來。我只處理我的系統(tǒng)中的數(shù)據(jù),我不處理你的系統(tǒng)中的數(shù)據(jù),你也不能處理我的系統(tǒng)中的數(shù)據(jù)。我不管你的數(shù)據(jù),你也別想管我的數(shù)據(jù)。我的就是我的,你的就是你的,你我之間沒關(guān)系。你的數(shù)據(jù)來到我的系統(tǒng)中是無意義

58、的數(shù)據(jù),我的數(shù)據(jù)到了你的系統(tǒng)中也是意義的數(shù)據(jù)。我的數(shù)據(jù)只能在我的系統(tǒng)中生存,你的數(shù)據(jù)只能在你的系統(tǒng)中生存。正因如此,用關(guān)系數(shù)據(jù)庫理論所設計出的信息系統(tǒng)全都是孤島型信息系統(tǒng)。關(guān)系數(shù)據(jù)庫系統(tǒng)是一種完全封閉的系統(tǒng):外來數(shù)據(jù)無法入住關(guān)系數(shù)據(jù)庫系統(tǒng)猶如私人住宅,只有家庭成員才能入住,外人莫入。大數(shù)據(jù)所需要的是旅館。旅館向所有人開放,誰來了都可以入住,只要有房間。關(guān)系數(shù)據(jù)庫系統(tǒng)中并沒有現(xiàn)成的位置供數(shù)據(jù)入住到數(shù)據(jù)庫中,數(shù)據(jù)要入住關(guān)系數(shù)據(jù)庫系統(tǒng)中,首先必須先為其定義數(shù)據(jù)結(jié)構(gòu),或者說只有已定義數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)入能入住到數(shù)據(jù)庫中,而絕大多數(shù)外來數(shù)據(jù)都未經(jīng)過定義,因此,外來數(shù)據(jù)都不能入住到數(shù)據(jù)庫系統(tǒng)中。關(guān)系數(shù)據(jù)庫中的

59、數(shù)據(jù)與數(shù)據(jù)系統(tǒng)密不可分關(guān)系數(shù)據(jù)庫有多種ORACLE、SQLSERVER、DB2、ACCESS等等,每一種數(shù)據(jù)庫都有自己的特點,各種數(shù)據(jù)庫系統(tǒng)只能處理自己的數(shù)據(jù),不能處理其它系統(tǒng)的數(shù)據(jù),例如由ORACLE所產(chǎn)生的數(shù)據(jù)只能由ORACLE系統(tǒng)處理,SQLSERVER處理不了ORACLE所產(chǎn)生的數(shù)據(jù)。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)在相應的數(shù)據(jù)庫系統(tǒng)中才是有意義的,一旦脫離了相應的數(shù)據(jù)庫系統(tǒng)就成了無意義的數(shù)據(jù)。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)據(jù)結(jié)構(gòu)密不可分關(guān)系數(shù)據(jù)庫中的每一個數(shù)據(jù)都是有數(shù)據(jù)結(jié)構(gòu)的,一旦失去相應的數(shù)據(jù)結(jié)構(gòu),就成了無意義的數(shù)據(jù)。對小數(shù)據(jù)而言,一個信息系統(tǒng)只有幾張表、幾十張表,多的也只有幾百張表。而對大數(shù)據(jù)而言,例

60、如國家醫(yī)療大數(shù)據(jù),就會涉及到數(shù)十萬個信息系統(tǒng)中的數(shù)百萬張表。而現(xiàn)有的信息系統(tǒng)都只是小數(shù)據(jù)信息系統(tǒng),只能認識自己的系統(tǒng)中的數(shù)據(jù),都不認識其它系統(tǒng)的數(shù)據(jù),都不能處理其它系統(tǒng)的數(shù)據(jù)。對關(guān)系數(shù)據(jù)庫而言,它只能處理特定的數(shù)據(jù),所謂特定的數(shù)據(jù)就是只有事先在關(guān)系數(shù)據(jù)庫定義了結(jié)構(gòu)的數(shù)據(jù)關(guān)系數(shù)據(jù)庫才能處理,不能處理事先未定義結(jié)構(gòu)的數(shù)據(jù)。而大數(shù)據(jù)所面臨的數(shù)據(jù)以不確定,或不好確定為特點,面對不確定的數(shù)據(jù)、不確定的數(shù)據(jù)結(jié)構(gòu),關(guān)系數(shù)據(jù)庫無能為力。大數(shù)據(jù)的特點:大數(shù)據(jù)所面臨的是無窮的數(shù)據(jù)、無窮的數(shù)據(jù)結(jié)構(gòu),這是關(guān)系數(shù)據(jù)庫所不能解決的。因此,要處理大數(shù)據(jù),必須從根本上解決大數(shù)據(jù)所涉及到的無窮的數(shù)據(jù)、無窮的數(shù)據(jù)結(jié)構(gòu)問題。例如,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論