《醫(yī)療知識圖譜構建技術要求》_第1頁
《醫(yī)療知識圖譜構建技術要求》_第2頁
《醫(yī)療知識圖譜構建技術要求》_第3頁
《醫(yī)療知識圖譜構建技術要求》_第4頁
《醫(yī)療知識圖譜構建技術要求》_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

ICS35.080

CCSC07

T/CI

中國國際科技促進會團體標準

T/CIXXX—2023

醫(yī)療知識圖譜構建技術要求

Technicalrequirementsformedicalknowledgegraphconstruction

(征求意見稿)

2023-XX-XX發(fā)布2023-XX-XX實施

中國國際科技促進會發(fā)布

T/CIXXX—2023

醫(yī)療知識圖譜構建技術要求

1范圍

本文件規(guī)定了醫(yī)療知識圖譜構建的架構要求、構建要求、系統(tǒng)要求。

本文件適用于指導科研院所、科技企業(yè)、第三方機構等,對醫(yī)療知識圖譜進行設計、開發(fā)、測試等。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T5271.17—2010信息技術詞匯第17部分:數(shù)據(jù)庫

GB/T22239信息安全技術網(wǎng)絡安全等級保護基本要求

GB/T35273信息安全技術個人信息安全規(guī)范

3術語和定義

GB/T5271.17—2010界定的以及下列術語和定義適用于本文件。

知識圖譜knowledgegraph

一種以結構化的形式描述客觀世界中概念、實體及其關系的方式。它將互聯(lián)網(wǎng)的海量信息表達成更

接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。

[來源:YD/T4044—2022,3.1]

醫(yī)療知識圖譜medicalknowledgegraph

在人工構建的專業(yè)知識基礎上,通過算法不斷擴充實體及關系構建的,包括疾病、癥狀、藥品、手

術等醫(yī)學概念和多種醫(yī)學關系的知識圖譜。

4縮略語

下列縮略語適用于本文件。

API:應用程序編程接口(ApplicationProgrammingInterface)

NLP:自然語言處理(NaturalLanguageProcessing)

5架構要求

整體架構

醫(yī)療知識圖譜整體架構如圖1所示。

1

T/CIXXX—2023

知識管理層圖數(shù)據(jù)存儲全文檢索引擎屬性數(shù)據(jù)存儲元數(shù)據(jù)配置管理

知識抽取與加工層知識抽取本體設計實例獲取知識融合任務調(diào)度

數(shù)據(jù)源層外部數(shù)據(jù)內(nèi)部數(shù)據(jù)

基礎支撐層大數(shù)據(jù)平臺數(shù)據(jù)倉庫NLP

圖1醫(yī)療知識圖譜整體架構圖

基礎支撐層

基礎支撐層是醫(yī)療知識圖譜構建所需的基礎技術支撐,主要包括大數(shù)據(jù)平臺、數(shù)據(jù)倉庫、NLP。

數(shù)據(jù)源層

數(shù)據(jù)源層是醫(yī)療知識圖譜構建所需數(shù)據(jù)的最初來源??煞譃獒t(yī)療機構內(nèi)部數(shù)據(jù)源與外部數(shù)據(jù)源,其

中的數(shù)據(jù)形態(tài)包括結構化數(shù)據(jù)、半結構化數(shù)據(jù)及非結構化數(shù)據(jù)。

知識抽取與加工層

知識抽取與加工層將數(shù)據(jù)源層的各類型數(shù)據(jù)通過知識抽取、本體設計、實例獲取、知識融合、任務

調(diào)度,加工形成滿足要求的數(shù)據(jù)。

知識管理層

知識管理層將知識抽取與加工層形成的數(shù)據(jù)作為輸入,通過圖數(shù)據(jù)存儲、全文檢索引擎、屬性數(shù)據(jù)

存儲和元數(shù)據(jù)配置管理等模塊化處理,實現(xiàn)知識圖譜展現(xiàn)結果的有效管理和高效訪問。

6構建要求

構建流程

6.1.1構建流程如圖2所示。

開始知識抽取加工知識評估知識存儲結束

圖2醫(yī)療知識圖譜構建流程圖

6.1.2知識抽取加工是將數(shù)據(jù)源層結構化、半結構化和非結構化數(shù)據(jù)轉化形成滿足知識圖譜存儲要求

的標準形式,主要包括數(shù)據(jù)甄別、數(shù)據(jù)清洗、數(shù)據(jù)轉換和數(shù)據(jù)融合等步驟。

6.1.3知識評估用于保障新加入醫(yī)療知識圖譜的知識質(zhì)量,主要包括遠程監(jiān)督學習與人工核查兩種方

式。

6.1.4知識存儲是有效管理知識圖譜依賴的屬性數(shù)據(jù)、圖數(shù)據(jù)、全文檢索數(shù)據(jù),高效訪問數(shù)據(jù)動態(tài)更

2

T/CIXXX—2023

新后的可視化結果。

知識抽取加工

6.2.1知識抽取

6.2.1.1抽取步驟

6.2.1.1.1宜選擇結構化程度相對較高、質(zhì)量較優(yōu)的數(shù)據(jù)源,根據(jù)數(shù)據(jù)來源選擇差異化的數(shù)據(jù)抽取及

加工方式。

6.2.1.1.2知識抽取主要步驟包括數(shù)據(jù)甄別、數(shù)據(jù)清洗、數(shù)據(jù)轉換數(shù)據(jù)融合4個步驟:

a)數(shù)據(jù)甄別:應明確建立知識圖譜的數(shù)據(jù)來源。數(shù)據(jù)來源主要為生物銀行數(shù)據(jù)庫、醫(yī)學指南;

b)數(shù)據(jù)清洗:對數(shù)據(jù)中的干擾項進行清洗,對表示不規(guī)范的數(shù)據(jù)進行統(tǒng)一與規(guī)范;

c)數(shù)據(jù)轉換:將不同形式、不同格式的數(shù)據(jù)轉換成統(tǒng)一的表達形式;

d)數(shù)據(jù)融合:針對不同來源的數(shù)據(jù)在字段、元組等層次的融合,不涉及實體、屬性、關系的融合。

6.2.1.2標準接口對接

6.2.1.2.1標準接口主要用于對接已完成抽取加工的各種數(shù)據(jù),包括實體數(shù)據(jù)和關系數(shù)據(jù)。通過實體

接口和關系接口的調(diào)用,將數(shù)據(jù)以實時或非實時的方式接入對應版本的存儲層。接口形式主要包括數(shù)據(jù)

文件和API。

6.2.1.2.2接口格式主要包括JavaScript對象簡譜(JSON)、可擴展標記語言(XML)、另一種標記

語言(YAML)等多種形式。

注1:JSON是一種輕量級的數(shù)據(jù)交換格式。

注2:XML是一種簡單的數(shù)據(jù)存儲語言。

注3:YAML是一個可讀性高,用來表達數(shù)據(jù)序列化的格式。

6.2.2知識加工

知識加工以知識抽取階段形成的高質(zhì)量基礎數(shù)據(jù)作為輸入,輸出高質(zhì)量的知識圖譜構建所依賴的

實體、關系數(shù)據(jù)并形成醫(yī)療知識庫。主要包括知識加工的步驟如下:

a)本體設計:

1)概念層定義:明確定義醫(yī)療知識圖譜構建需要的實體類型與關系類型;

2)屬性定義:明確醫(yī)療知識圖譜構建的各類實體需要的屬性名稱;

3)約束/規(guī)則定義:明確需要約定的限定條件與規(guī)則;

4)模式精簡:對同樣范圍的實體、關系,宜選擇精簡的關聯(lián)與表達方式;

b)實例獲?。?/p>

1)實體識別:在完成知識抽取后的數(shù)據(jù)中識別上述已經(jīng)明確的實體類型對應數(shù)據(jù);

2)關系識別:在完成知識抽取后的數(shù)據(jù)中識別上述已經(jīng)明確的關系類型對應數(shù)據(jù);

3)實體鏈指:將完成文本解析后的事件關聯(lián)方鏈接至對應實體;

4)文本解析:利用NLP技術對文本進行分析,實現(xiàn)事件關聯(lián)方的提取、實體/關系屬性的槽

填充。

注:槽填充即從大規(guī)模的語料庫中抽取給定實體的被明確定義的屬性值的技術。

c)知識融合:

1)共指消解:將具有相同標識的兩個實體合并為同一實體;

2)屬性融合:將同一標識實體下,相同名稱的屬性所對應的屬性值進行融合;

3)規(guī)范化一:將不同實體屬性值與不同關系屬性值的表達方式進行統(tǒng)一;

3

T/CIXXX—2023

4)跨語言實體對齊:將不同語言的實體通過預訓練翻譯模型和字符串相似匹配算法進行對

齊。

知識評估

知識評估階段首先利用遠程監(jiān)督學習篩選出可信度較低的知識,再交由人工核查,確認無誤后更新

到知識圖譜中。

知識存儲

6.4.1屬性知識存儲

6.4.1.1屬性數(shù)據(jù)存儲內(nèi)容宜包含實體屬性和關系屬性。

6.4.1.2屬性數(shù)據(jù)存儲方式宜根據(jù)數(shù)據(jù)規(guī)模決定采用分布式存儲或單機存儲,主要包括單個和批量屬

性數(shù)據(jù)的增加、更新、刪除操作。

6.4.1.3屬性數(shù)據(jù)存儲宜主要考慮下列因素:

a)高可用,主要包括:

1)雙機熱備;

2)雙機互備;

3)雙機雙工;

b)高并發(fā):可提供高并發(fā)的讀寫請求;

c)高性能:數(shù)據(jù)實時寫入和實時讀取性能高;

d)可擴展:可按需增加集群的計算能力。

6.4.2圖數(shù)據(jù)存儲

6.4.2.1圖數(shù)據(jù)存儲內(nèi)容宜包括實體數(shù)據(jù)和關系數(shù)據(jù),分別以實體表和關系表的形式體現(xiàn)。

6.4.2.2圖數(shù)據(jù)存儲方式宜根據(jù)數(shù)據(jù)規(guī)模決定采用分布式存儲或單機存儲。

6.4.2.3圖數(shù)據(jù)存儲宜考慮的因素主要包括:

a)數(shù)據(jù)庫維度與表維度均采用邏輯劃分和物理存儲隔離;

b)各數(shù)據(jù)分片有多份副本,保證安全、可容災、高可用等性能要求;

c)通過提高服務器硬件配置或服務器數(shù)量提升集群數(shù)據(jù)處理能力。

6.4.3檢索引擎

6.4.3.1檢索引擎的功能主要應包括:

a)實時全文檢索;

b)實時條件過濾查詢;

c)實時復合條件查詢;

d)實時聚合查詢。

6.4.3.2檢索引擎宜根據(jù)數(shù)據(jù)規(guī)模決定采用分布式部署或單機部署。

6.4.4知識可視化

知識可視化提供圖形化的操作界面,主要功能應包括:

a)屬性展示:查看實體和關系的屬性詳細信息;

b)實體及關系過濾:篩選出關注的實體及關系,隱藏其他實體和關系;

c)前端效果配置:可對實體和關系展示的前端效果進行配置,主要包括:

1)顏色;

4

T/CIXXX—2023

2)形狀;

3)尺寸;

d)自適用頁面的展示:可支持放大、拖拽、調(diào)整結構等操作;

e)爆炸節(jié)點的聚合:可防止因展示實體及關系過多而引起的前端崩潰、卡頓等問題。

6.4.5動態(tài)構圖

6.4.5.1動態(tài)構圖功能主要包括:

a)新增實體或關系類型;

b)新增實體或關系的屬性信息。

6.4.5.2新增實體或關系信息宜根據(jù)后續(xù)應用的時效性要求決定采用實時或批量方式存儲,實現(xiàn)圖譜

動態(tài)更新。

6.4.6權限管理

權限管理功能主要包括:

a)實現(xiàn)不同應用分區(qū)的構建,各分區(qū)中實體、關系和屬性數(shù)據(jù)獨立管理;

b)支持多用戶管理,支持實體、關系和屬性數(shù)據(jù)增加、刪除、改動、查詢的授權和權限回收等。

7系統(tǒng)要求

基本功能

7.1.1構建的醫(yī)療知識圖譜系統(tǒng)基本功能要求如下:

a)應支持對知識的管理功能,包括知識采集、知識建模、知識獲取、知識融合及知識評估等;

b)應保證模型可用性,無論輸入什么樣的樣本數(shù)據(jù),模型都能返回一個結果,供系統(tǒng)進行決策處

理;

c)應支持對算法的管理,采用多種方式提高算法魯棒性,增強安全性;

注:魯棒性指在異常和危險情況下系統(tǒng)生存的能力。

d)宜支持機器學習主流算法,包括線性回歸、邏輯回歸、線性判別分析、樸素貝葉斯、最臨近節(jié)

點算法、隨機森林等;

e)宜支持機器學習模型訓練優(yōu)化,包括支持模型組合和調(diào)參,支持加快模型訓練和實驗調(diào)優(yōu);

f)宜支持產(chǎn)品化流程,提升模型訓練迭代效率,提高模型性能和泛化能力;

g)宜支持對機器學習服務模塊的管理,保證據(jù)傳輸過程安全、開發(fā)框架安全,支持權限管理和服

務接口規(guī)范制定等。

7.1.2知識采集功能要求如下:

a)對于組織內(nèi)的內(nèi)部數(shù)據(jù),應對數(shù)據(jù)進行脫敏轉換后進行使用;

b)應通過接口采集或數(shù)據(jù)文件傳送采集數(shù)據(jù);

c)應將采集到的數(shù)據(jù)導入到數(shù)據(jù)庫或存儲中,用于后續(xù)分析。

7.1.3知識建模功能要求如下:

a)應支持通過圖譜的模式建模能力將醫(yī)療數(shù)據(jù)抽象成圖譜的源實體、關系、目標實體:

b)應支持針對模式的增刪改查等操作;

c)應支持自動化建模;

d)應支持針對文本、向量、空間等索引查詢召回能力的索引配置能力;

e)宜支持引用其他領域已有的關系、實體定義等;

f)宜支持自上而下和自下而上的途徑進行知識構建;

5

T/CIXXX—2023

g)宜支持流、批一體的構建鏈路,支持醫(yī)療知識變更后秒級通過圖譜構建鏈路更新到圖譜中;

h)宜支持多人在線協(xié)同編輯,且實時更新。

7.1.4知識獲取功能要求如下:

a)應支持通過NLP規(guī)則結合模型等方式從半結構化、非結構化的文檔、pdf等中獲取結構化實體,

更新或連接到圖譜中;

b)應支持通過圖譜的模式建模能力知識抽象成圖譜的實體、關系、屬性、約束等;

c)應支持使用NLP規(guī)則結合模型,結合觸發(fā)詞等策略獲取事件分類、事件主體、事件客體等;

d)應支持從不同信息源中采集特定實體的屬性信息;

e)宜支持通過有限配置構建事件獲取服務,并將獲取結果寫入圖譜。

7.1.5知識融合功能要求如下:

a)在同構環(huán)境下,應支持每個實體在全局有唯一實例,如通過實體相似度等能力實現(xiàn)開發(fā)少量代

碼即可快速發(fā)現(xiàn)、消除重復冗余實體;

b)應支持包括異構多源實體、不同圖譜下同質(zhì)異構實體的融合,如通過提供可解釋、可回溯的規(guī)

則管理能力,方便管理融合策略;

c)應支持為不同領域同實體共享、差異化迭代提供的實體繼承能力,宜支持選擇深度、淺度繼承

公共實體,新增或覆蓋已有屬性;

d)宜支持多源知識子圖的融合,如通過提供子圖約簡、圖嵌入、子圖相似度等能力,實現(xiàn)高效地

融合知識圖譜間的結構信息與語義信息;

e)宜支持關系分層繼承能力,方便概念管理;

f)宜支持多語言的知識融合;

g)官支持新增知識的實時融合。

7.1.6知識評估功能應支持智能評估與人工審核結合,針對知識正確性等進行評估。

7.1.7知識存儲功能要求如下:

a)應滿足基礎的圖數(shù)據(jù)存儲需求,設計具備可伸縮性和靈活性的知識存儲結構,可滿足多種圖數(shù)

據(jù)模型的存儲;在此基礎上,應具備可擴展性,可實現(xiàn)基于數(shù)據(jù)增長的彈性擴展;

b)應具備查詢、讀取、計算和應用需求的支持,可實現(xiàn)和不同存儲、計算組件的交互,可滿足上

層應用對于存儲組件進行增刪查改的功能和性能需求;

c)應具備對于安全性、可靠性、維護和管理的支持,可實現(xiàn)基于角色的訪問控制、加密、多用戶、

高可用性、備份和還原的功能。

可擴展性

對醫(yī)療知識圖譜系統(tǒng)的可擴展性要求如下:

a)應具備可擴展性,根據(jù)需求隨時進行擴展和收縮;

b)宜支持自動伸縮機制的可信通道管理方案,簡單高效管理可信計算通道;

c)應支持橫向擴展,用戶可通過API直接接入。

可靠性

對醫(yī)療知識圖譜系統(tǒng)的可靠性要求如下:

a)應確保數(shù)據(jù)按約定好的行為進行使用,避免數(shù)據(jù)濫用;

b)宜支持通過多機房主從協(xié)調(diào)機制,解決可信執(zhí)行環(huán)境集群跨機房災備的問題,提升系統(tǒng)容災能

力;

c)應具備出現(xiàn)故障后系統(tǒng)進行自動容災恢復的能力,包括數(shù)據(jù)備份和恢復等。如服務器故障、硬

盤故障、網(wǎng)絡故障、關機、重啟等。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論