版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、(一)建設(shè)什么樣的大數(shù)據(jù)中心 大數(shù)據(jù)利用是個(gè)性化的數(shù)據(jù)研究服務(wù),簡(jiǎn)單例子: 數(shù)據(jù)檢索: 化療后白細(xì)胞數(shù)下降的患者30天內(nèi)二次住院的患者 數(shù)據(jù)分析: 65歲以上老年人患兩種以上疾病的排名前三的共病組合老年下肢關(guān)節(jié)手術(shù)麻醉方式與術(shù)后肺部感染的相關(guān)性 大數(shù)據(jù)中心的職責(zé)是服務(wù),與傳統(tǒng)的信息中心有所不同大信息中心數(shù)據(jù)中心大信息系統(tǒng)建設(shè)與運(yùn)維數(shù)據(jù)應(yīng)用系統(tǒng)數(shù)據(jù)服務(wù)CHIMA 2019之一:數(shù)據(jù)管理中心 職責(zé) 數(shù)據(jù)采集、整合 數(shù)據(jù)存儲(chǔ)管理 數(shù)據(jù)訪問(wèn)授權(quán)數(shù)據(jù)檢索數(shù)據(jù)瀏覽虛擬桌面 工作平臺(tái)數(shù)據(jù)管理 數(shù)據(jù)整合平臺(tái)(ETL) 數(shù)據(jù)檢索系統(tǒng) 數(shù)據(jù)瀏覽系統(tǒng)數(shù)據(jù)存儲(chǔ)授權(quán)提取 數(shù)據(jù)在線使用(虛擬桌面) 所需人才數(shù)據(jù)整合平臺(tái)
2、IT工程師CHIMA 2019之二:數(shù)據(jù)加工中心 職責(zé) 根據(jù)用戶需求,從原始數(shù)據(jù)加工生成特征數(shù)據(jù)專(zhuān)病數(shù)據(jù)庫(kù)平臺(tái) 工作平臺(tái) 自然語(yǔ)言處理工具 專(zhuān)病數(shù)據(jù)庫(kù)平臺(tái) 組學(xué)等專(zhuān)業(yè)數(shù)據(jù)處理平臺(tái) SQL特征數(shù)據(jù)特征數(shù)據(jù)特征數(shù)據(jù)結(jié)構(gòu)化處理、SQL、組學(xué)數(shù)據(jù)平臺(tái) 所需人才原始數(shù)據(jù) IT工程師CHIMA 2019之三:數(shù)據(jù)分析中心 職責(zé) 為用戶提供數(shù)據(jù)分析服務(wù) 工作平臺(tái) 各類(lèi)建模工具人工服務(wù) 數(shù)據(jù)可視化工具 深度學(xué)習(xí)平臺(tái)SAS、SPSS、R、深度學(xué)習(xí) 所需人才 IT工程師 數(shù)據(jù)分析工程師數(shù)據(jù)存儲(chǔ)CHIMA 2019大數(shù)據(jù)中心的職能定位 大數(shù)據(jù)中心的三種職能定位數(shù)據(jù)分析全功能的+大數(shù)據(jù)中心數(shù)據(jù)加工+數(shù)據(jù)管理CHIMA
3、 2019(一)建設(shè)什么樣的大數(shù)據(jù)中心觀點(diǎn)認(rèn)識(shí):“大數(shù)據(jù)中心”是數(shù)據(jù)服務(wù)中心而不是系統(tǒng)建設(shè)中心,“服務(wù)”有不同的內(nèi)涵,不同的職能定位對(duì)應(yīng)不同的技術(shù)平臺(tái)與人才團(tuán)隊(duì)建設(shè)內(nèi)容。在提出建設(shè)大數(shù)據(jù)中心規(guī)劃時(shí),首先要明確大數(shù)據(jù)中心的職能定位。CHIMA 2019(二)數(shù)據(jù)是否要做整體預(yù)處理大數(shù)據(jù)中心數(shù)據(jù)處理的兩種流程分析分析分析分析歸一化歸一化清洗后數(shù)據(jù)歸一化結(jié)構(gòu)化 結(jié)構(gòu)化VS結(jié)構(gòu)化原始數(shù)據(jù)數(shù)據(jù)整合數(shù)據(jù)整合整體預(yù)處理針對(duì)應(yīng)用的預(yù)處理數(shù)據(jù)治理可以一次性完成嗎?CHIMA 2019(二)數(shù)據(jù)是否要做整體預(yù)處理 信息的損失 病歷文本結(jié)構(gòu)化的結(jié)果不能完整表達(dá)原病歷文本的語(yǔ)義 標(biāo)準(zhǔn)化(歸一化)可能導(dǎo)致特定信息丟失,
4、如藥品名稱(chēng)轉(zhuǎn)換:諾欣、鉑龍、順鉑順鉑 技術(shù)上的困難 歷史數(shù)據(jù)的不一致,如疾病編碼 ICD-9與ICD-10由于編碼原則可能不同導(dǎo)致轉(zhuǎn)換難以自動(dòng)對(duì)照完成 整體結(jié)構(gòu)化的困難,如不同病種的病歷文本有不同的特點(diǎn),目前尚難以做到泛病種的結(jié)構(gòu)化處理CHIMA 2019(二)數(shù)據(jù)是否要做整體預(yù)處理 病歷結(jié)構(gòu)化不能完整反映文本語(yǔ)義,如癥狀之間的順序關(guān)系CHIMA 2019(二)數(shù)據(jù)是否要做整體預(yù)處理 如,判斷不同腫瘤分期的結(jié)構(gòu)化處理方法不同肺癌N分期判定胃癌N分期判定N0:無(wú)區(qū)域淋巴結(jié)轉(zhuǎn)移N0:無(wú)區(qū)域淋巴結(jié)轉(zhuǎn)移N1:同側(cè)支氣管或肺門(mén)淋巴結(jié)轉(zhuǎn)移N2:同側(cè)縱隔和/隆突下淋巴結(jié)轉(zhuǎn)移N1:區(qū)域淋巴結(jié)轉(zhuǎn)移12個(gè)N2:區(qū)
5、域淋巴結(jié)轉(zhuǎn)移36個(gè)N3:區(qū)域淋巴結(jié)轉(zhuǎn)移715個(gè)N4:區(qū)域淋巴結(jié)轉(zhuǎn)移16個(gè)以上格式:陽(yáng)性個(gè)數(shù)/送檢個(gè)數(shù)CHIMA 2019(二)數(shù)據(jù)是否要做整體預(yù)處理觀點(diǎn)認(rèn)識(shí):在大數(shù)據(jù)中心數(shù)據(jù)資源建設(shè)中,預(yù)先將數(shù)據(jù)整體進(jìn)行預(yù)處理的過(guò)程會(huì)帶來(lái)信息丟失,技術(shù)上也存在較大困難,一次性的數(shù)據(jù)治理難以滿足數(shù)據(jù)后續(xù)利用需求。采用“數(shù)據(jù)湖”概念,保留數(shù)據(jù)的原始性,針對(duì)特定研究問(wèn)題開(kāi)展數(shù)據(jù)預(yù)處理是更好的選擇。CHIMA 2019(三)臨床數(shù)據(jù)研究的兩種路徑建立專(zhuān)病庫(kù)選擇特征預(yù)先分析時(shí)數(shù)據(jù)分析原始數(shù)據(jù)抽取數(shù)據(jù)/特征提取分析時(shí) 專(zhuān)病數(shù)據(jù)庫(kù)路徑:按病種設(shè)置特征,建立數(shù)據(jù)模型,預(yù)先整理加工 隨機(jī)特征提取路徑:按照研究問(wèn)題抽取和處理特征
6、,在分析時(shí)進(jìn)行建立科研病種數(shù)據(jù)庫(kù)是臨床數(shù)據(jù)研究的必然選擇嗎?CHIMA 2019科研數(shù)據(jù)庫(kù)的局限性 泛研究目的的科研病種數(shù)據(jù)庫(kù) 以收集準(zhǔn)備病種數(shù)據(jù)為目的,用以支持本病種不同目的的研究 數(shù)據(jù)庫(kù)涉及數(shù)據(jù)項(xiàng)多,結(jié)構(gòu)復(fù)雜,人工加工工作量巨大,持續(xù)難度大 針對(duì)問(wèn)題分析時(shí)需要二次加工 難以滿足所有研究需求 例:糖尿病視網(wǎng)膜病變專(zhuān)病數(shù)據(jù)庫(kù)(片段)是否降血壓藥物、服用降血壓藥物種類(lèi)數(shù)量、開(kāi)始日期、服用時(shí)長(zhǎng)(月)、目前規(guī)律服用降血壓藥物;鈣離子拮抗劑降壓藥是否使用、藥物名稱(chēng)、劑量、開(kāi)始日期、服用時(shí)長(zhǎng)(月);受體阻滯劑降壓藥是否使用、藥物名稱(chēng)、劑量、開(kāi)始日期、服用時(shí)長(zhǎng)(月);血管擴(kuò)張藥是否使用、藥物名稱(chēng)、劑量、開(kāi)
7、始日期、服用時(shí)長(zhǎng)(月);Ang受體阻滯劑是否使用、藥物名稱(chēng)、劑量、開(kāi)始日期、服用時(shí)長(zhǎng)(月);CHIMA 2019科研數(shù)據(jù)庫(kù)的局限性 單一研究目的的科研病種數(shù)據(jù)庫(kù) 以特定問(wèn)題為導(dǎo)向收集病種數(shù)據(jù) 數(shù)據(jù)庫(kù)涉及數(shù)據(jù)少,人工加工工作量小 難以滿足特定問(wèn)題以外的研究需求 例:肺癌患者生存研究數(shù)據(jù)庫(kù)性別、年齡、吸煙史、是否戒煙、家族史、ABO血型、RhD血型、基礎(chǔ)疾病、合并癥、病理類(lèi)型、分化程度、基因檢測(cè)方法、基因突變狀態(tài)、PD-L1(陽(yáng)性/陰性)、MMR/MSI、TNMG分期、手術(shù)、輔助治療(化療、放療)、一線治療、療效評(píng)估、副反應(yīng)、PFS、二線治療、生存狀態(tài)、隨訪時(shí)間、總生存時(shí)間、最后一次隨訪時(shí)間、是否
8、存活、是否復(fù)發(fā)/進(jìn)展、復(fù)發(fā)/進(jìn)展位置、復(fù)發(fā)/進(jìn)展時(shí)間CHIMA 2019(三)臨床數(shù)據(jù)研究的兩種路徑觀點(diǎn)認(rèn)識(shí):通過(guò)建立專(zhuān)病數(shù)據(jù)庫(kù)和直接基于原始數(shù)據(jù)庫(kù)開(kāi)展臨床數(shù)據(jù)研究是大數(shù)據(jù)中心兩種數(shù)據(jù)研究路徑。依托專(zhuān)病數(shù)據(jù)庫(kù)的路徑有較大的局限性。在現(xiàn)實(shí)研究實(shí)踐中,特別是在回顧性研究中,更多地采用直接依托原始數(shù)據(jù)的方式。CHIMA 2019(四)對(duì)醫(yī)療大數(shù)據(jù)平臺(tái)的認(rèn)識(shí)問(wèn)題:醫(yī)療大數(shù)據(jù)平臺(tái)是什么?是一體化的產(chǎn)品嗎?技術(shù)形態(tài)是什么? 面向一線臨床研究人員的需求 數(shù)據(jù)檢索與瀏覽系統(tǒng) 科研專(zhuān)病數(shù)據(jù)庫(kù)管理系統(tǒng) 多中心數(shù)據(jù)采集系統(tǒng) 數(shù)理統(tǒng)計(jì)工具 面向數(shù)據(jù)處理分析人員的需求 數(shù)據(jù)處理工具SQL、ETL工具 自然語(yǔ)言處理及結(jié)構(gòu)化工具 去隱私工具 各類(lèi)建模工具:R、Matlab、SAS、SPSS 院后隨訪系統(tǒng) 深度學(xué)習(xí)數(shù)據(jù)標(biāo)注工具 可視化分析工具 深度學(xué)習(xí)平臺(tái) 組學(xué)數(shù)據(jù)處理分析平臺(tái)功能形態(tài)CHIMA 2019(四)對(duì)醫(yī)療大數(shù)據(jù)平臺(tái)的認(rèn)識(shí) 數(shù)據(jù)形態(tài) 數(shù)據(jù)檢索:列數(shù)據(jù)庫(kù)(結(jié)構(gòu)化數(shù)據(jù)),文本分布式索引(病歷文本) 數(shù)據(jù)處理:傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù) 數(shù)據(jù)分析:傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù) 專(zhuān)病系統(tǒng):傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)/XML檢索處理分析專(zhuān)病 多重?cái)?shù)據(jù)存在 針對(duì)不同的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度民航機(jī)場(chǎng)消毒防疫與旅客安全合同3篇
- 進(jìn)度計(jì)劃編制課程設(shè)計(jì)
- 三月三活動(dòng)方案例文(3篇)
- 線下商務(wù)談判課程設(shè)計(jì)
- 人事行政專(zhuān)員工作職責(zé)模版(2篇)
- 水泥筒倉(cāng)及風(fēng)送設(shè)備安全操作規(guī)程(4篇)
- 二零二五年度國(guó)際貿(mào)易代理供應(yīng)鏈管理合同3篇
- 2025年度安全生產(chǎn)的工作總結(jié)例文(3篇)
- 2025年蘇科版九年級(jí)物理上冊(cè)階段測(cè)試試卷
- 2025年滬教版高一物理下冊(cè)階段測(cè)試試卷
- 化學(xué)-安徽省淮北市和淮南市2025屆高三第一質(zhì)量檢測(cè)(淮北淮南一模)試題和答案
- 2025內(nèi)蒙古電力(集團(tuán))限責(zé)任公司供電單位邊遠(yuǎn)地區(qū)崗位招聘713高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2020-2021學(xué)年【江西省撫州市】八年級(jí)(上)期末生物試卷
- 2025年山西文旅集團(tuán)招聘筆試參考題庫(kù)含答案解析
- 2023學(xué)年杭州市十四中高二數(shù)學(xué)(上)期末考試卷附答案解析
- GB/T 8607-2024專(zhuān)用小麥粉
- 新增值稅法學(xué)習(xí)課件
- 如何反饋與指導(dǎo)-培訓(xùn)課件
- 江蘇省高中名校2025屆高三下學(xué)期一??荚嚁?shù)學(xué)試題含解析
- 2024年上海市16區(qū)高考英語(yǔ)一模試卷聽(tīng)力部分匯編(附14區(qū)聽(tīng)力音頻)含答案與文本
- 江蘇省南通市2023-2024學(xué)年高二上學(xué)期期末考試物理試題(含答案)
評(píng)論
0/150
提交評(píng)論