版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
M
e
d
i
c
a
l
N
a
t
u
r
a
l
L
a
n
g
u
a
g
e
P
r
o
c
e
s
s
i
n
g醫(yī)學(xué)自然語言處理概述MedicalNaturalL1MedicalNaturalL醫(yī)學(xué)自然語言處理的基本任務(wù)
目 錄 1醫(yī)學(xué)自然語言處理的基本技術(shù)2醫(yī)學(xué)自然語言處理的典型問題3我院的實踐與總結(jié)4醫(yī)學(xué)自然語言處理的基本任務(wù)目 錄 1醫(yī)學(xué)自然語言處理的基本2醫(yī)學(xué)自然語言處理的基本任務(wù)目 錄 1醫(yī)學(xué)自然語言處理的基本01醫(yī)學(xué)自然語言處理的基本任務(wù)主要用途、基本任務(wù)01醫(yī)學(xué)自然語言處理的基本任務(wù)301醫(yī)學(xué)自然語言處理的基本任務(wù)01醫(yī)學(xué)自然語言處理的基本任務(wù)醫(yī)學(xué)自然語言處理的基本任務(wù)主要用途病歷文本數(shù)據(jù)挖掘醫(yī)療知識庫構(gòu)建病歷檢索……NLP技術(shù)電子病歷醫(yī)學(xué)文獻(xiàn)臨床指南健康檔案……結(jié)構(gòu)化、標(biāo)準(zhǔn)化數(shù)據(jù)分析統(tǒng)計分析機(jī)器學(xué)習(xí)疾病診斷模式藥物治療模式預(yù)后評價模式……可分析的醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化的電子病歷醫(yī)學(xué)知識庫整合后的健康檔案……臨床應(yīng)用輔助診療系統(tǒng)CDSS藥物安全性檢測醫(yī)療政策決策支持相似病歷檢索應(yīng)用實踐醫(yī)學(xué)自然語言處理的基本任務(wù)主要用途NLP技術(shù)電子病歷結(jié)構(gòu)化、4醫(yī)學(xué)自然語言處理的基本任務(wù)主要用途NLP技術(shù)電子病歷結(jié)構(gòu)化、例:? 可見多發(fā)結(jié)節(jié)影,大小約1
.
1
6
X
0
.
9
8
厘米例:? 在“肌力4+級”中“+”表示“強(qiáng)”“頭MRI+MRA示”中“+”表示“和”醫(yī)學(xué)自然語言處理的基本任務(wù)例:? 胃脹反酸、泛酸、返酸例:“無意識障礙”? 無
|
意識
|
障礙
無
|
意識障礙例:“細(xì)菌性痢疾”? 細(xì)菌
/n
性
/ng
痢疾
/
n名詞名詞性語素例:? 可見多發(fā)結(jié)節(jié)影,大小約1
.
1
6
X
0
.
9
8
厘米010603040502語義分析06分詞01詞性標(biāo)注02實體識別03實體關(guān)系抽取05實體標(biāo)準(zhǔn)化04例:1.16X0.98厘米例:? 在“肌力5例:1.16X0.98厘米例:? 在“肌力02醫(yī)學(xué)自然語言處理的基本技術(shù)分詞、詞性標(biāo)注、實體識別、實體關(guān)系抽取、語義分析02醫(yī)學(xué)自然語言處理的基本技術(shù)602醫(yī)學(xué)自然語言處理的基本技術(shù)02醫(yī)學(xué)自然語言處理的基本技術(shù)醫(yī)學(xué)自然語言處理的基本技術(shù)分詞分詞是將一句話切分成一個個單詞的過程分詞工具結(jié)巴(jieba)分詞工具、NLPIR漢語分詞系統(tǒng)、IKAnalyzer開源分詞軟件關(guān)鍵技術(shù)基于詞典的分詞方法(機(jī)械分詞法)按照一定策略,將待分析的漢字串與一個充分大的機(jī)器字典中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則匹配成功逆向最大匹配法正向最大匹配法雙向匹配法基于機(jī)器學(xué)習(xí)的分詞方法例:?
“無意識障礙” 無意識
|障礙() 無
|
意識障礙(?)醫(yī)學(xué)自然語言處理的基本技術(shù)分詞分詞是將一句話切分成一個個單詞7醫(yī)學(xué)自然語言處理的基本技術(shù)分詞分詞是將一句話切分成一個個單詞醫(yī)學(xué)自然語言處理的基本技術(shù)設(shè)詞典中詞語長度的最大值為M基于詞典的分詞方法開始從文檔末尾開始掃描,取最末端的M個字符作為匹配字段,查找字典記錄分詞結(jié)果,對剩余的字符串繼續(xù)重復(fù)以上步驟匹配成功是否將字符串長度減少1是剩余字串的長度為零輸出例:“南京市長江大橋”1. 設(shè)最長詞為52. 在詞典中匹配“市長江大橋”3. 匹配失敗,去掉最前面一個字“市”匹配“長江大橋”,匹配成功在詞典中剩余字符“南京市”,匹配成功輸出結(jié)果:南京市
/
長江大橋醫(yī)學(xué)自然語言處理的基本技術(shù)設(shè)詞典中詞語長度的最大值為M基于詞8醫(yī)學(xué)自然語言處理的基本技術(shù)設(shè)詞典中詞語長度的最大值為M基于詞醫(yī)學(xué)自然語言處理的基本技術(shù)詞性標(biāo)注在給定句子中判定每個詞的詞性加以標(biāo)注,如將詞分為名詞、形容詞、動詞等關(guān)鍵技術(shù)基于詞典的標(biāo)注方法先對語句進(jìn)行分詞,然后從字典中查找每個詞語的詞性,對其進(jìn)行標(biāo)注基于規(guī)則的標(biāo)注方法① 簡單處理,得到初標(biāo)注結(jié)果② 建立轉(zhuǎn)換規(guī)則,修正錯誤③ 得到標(biāo)注結(jié)果例:細(xì)菌性痢疾膽囊壁明顯增厚細(xì)菌
/n
性
/ng
痢疾
/n膽囊
/n
壁
/ng
明顯
/a
增
/v
厚
/a名詞名詞性語素例:1.初標(biāo)注:“他/r做/v了/u一/m個/q報告/v”2.轉(zhuǎn)換規(guī)則:激活環(huán)境:該詞左邊第一個緊鄰詞的詞性是量詞(q),左邊第二個詞的詞性是數(shù)詞(m)改寫規(guī)則:將該詞的詞性從動詞(v)改為名詞(n)3.得到標(biāo)注結(jié)果:“他/r做/v了/u一/m個/q報告/n”醫(yī)學(xué)自然語言處理的基本技術(shù)詞性標(biāo)注在給定句子中判定每個詞的詞9醫(yī)學(xué)自然語言處理的基本技術(shù)詞性標(biāo)注在給定句子中判定每個詞的詞醫(yī)學(xué)自然語言處理的基本技術(shù)實體識別醫(yī)學(xué)領(lǐng)域的實體抽取是從醫(yī)學(xué)數(shù)據(jù)源中提取出特定類型的命名實體,主要有疾病、藥物、癥狀、檢查、手術(shù)操作、器官部位等1組淋巴結(jié)、2組淋巴結(jié)、3組淋巴結(jié)關(guān)鍵技術(shù)基于規(guī)則的方法正則法例:清掃第1組,2組,3組淋巴結(jié)正則表達(dá)式:“%
[/d]
+
組淋巴結(jié)”基于機(jī)器學(xué)習(xí)的方法詞向量表示將自然語言處理問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)問題,首先在于采用一種詞表示方法將文本中的單詞和符號數(shù)學(xué)化,即用一個數(shù)學(xué)向量表示。常用的詞向量表示方法:獨熱碼表示、Word2vec算法例:
“乙肝”表示為
[
0
0
0
1
0
0
0
0
0
0
0
0…]
,“肝硬化”表示為
[
0
0
0
0
0
0
0
0
1
0
0
0…]醫(yī)學(xué)自然語言處理的基本技術(shù)實體識別1組淋巴結(jié)、2組淋巴結(jié)、310醫(yī)學(xué)自然語言處理的基本技術(shù)實體識別1組淋巴結(jié)、2組淋巴結(jié)、3醫(yī)學(xué)自然語言處理的基本技術(shù)基于機(jī)器學(xué)習(xí)的實體識別方法例:
頭顱CT檢查顯示腔隙性腦梗死1.人工特征標(biāo)注:頭顱CT——檢查手段;腔隙性腦梗死——疾病;2.
訓(xùn)練:將字符轉(zhuǎn)為向量表示,將分類標(biāo)簽id化,并進(jìn)行特征提取,構(gòu)建訓(xùn)練集特征向量[000001000000…]—“TES”,[00000000000010…]—“DIS”
3.模型進(jìn)行訓(xùn)練,訓(xùn)練完成后對測試文本進(jìn)行識別,得到機(jī)器標(biāo)注結(jié)果:<頭顱CT
/TES>
平掃見右側(cè)腦室體旁
<腔隙性腦梗死
/DIS
>已標(biāo)注數(shù)據(jù)人工特征標(biāo)注原始文本訓(xùn)練集構(gòu)建機(jī)器學(xué)習(xí)模型測試集測試的未標(biāo)注文本輸入輸出機(jī)器標(biāo)注結(jié)果訓(xùn)練特征提取醫(yī)學(xué)自然語言處理的基本技術(shù)基于機(jī)器學(xué)習(xí)的實體識別方法例:頭11醫(yī)學(xué)自然語言處理的基本技術(shù)基于機(jī)器學(xué)習(xí)的實體識別方法例:頭醫(yī)學(xué)自然語言處理的基本技術(shù)實體標(biāo)準(zhǔn)化醫(yī)學(xué)實體在不同的數(shù)據(jù)源中存在嚴(yán)重的多元指代問題關(guān)鍵技術(shù)基于醫(yī)學(xué)標(biāo)準(zhǔn)術(shù)語庫匹配的方法醫(yī)學(xué)知識圖譜如兩個實體被多個相同實體以相同關(guān)系指向,則二者為同一實體的概率較高基于機(jī)器學(xué)習(xí)的方法用Word2vec模型對上下文取窗口進(jìn)行訓(xùn)練,求解最大似然的共現(xiàn)概率。訓(xùn)練完成后,使用向量余弦相似度計算實體相似性。對于訓(xùn)練充分的詞表示向量而言,一組相似詞的向量語義距離更近。如“首都”和“北京”的語義距離要比“上?!备t(yī)學(xué)自然語言處理的基本技術(shù)實體標(biāo)準(zhǔn)化12醫(yī)學(xué)自然語言處理的基本技術(shù)實體標(biāo)準(zhǔn)化醫(yī)學(xué)自然語言處理的基本技醫(yī)學(xué)自然語言處理的基本技術(shù)實體關(guān)系抽取發(fā)現(xiàn)文本中實體對間的各種語義關(guān)系實體關(guān)系可以用于構(gòu)建知識框架,如疾病與藥物的關(guān)系、癥狀與疾病的關(guān)系、基因與疾病的關(guān)系等關(guān)鍵技術(shù)實體共現(xiàn)法認(rèn)為兩個相距很近的實體如果以一定的順序在一個文本語料庫中高頻率地重復(fù),那么這兩個實體相關(guān)的可能性很大機(jī)器學(xué)習(xí)方法將關(guān)系抽取看作是一個分類問題,通過具體的學(xué)習(xí)算法,在人工標(biāo)引語料的基礎(chǔ)上構(gòu)造分類器,再用訓(xùn)練得到的分類器抽取測試文本中的實體關(guān)系深度學(xué)習(xí)例如:?
患者3
天前受涼后出現(xiàn)咳嗽、咳痰?
高血壓病史40
年,口服厄貝沙坦控制可誘因醫(yī)學(xué)自然語言處理的基本技術(shù)實體關(guān)系抽取實體關(guān)系可以用于構(gòu)建知13醫(yī)學(xué)自然語言處理的基本技術(shù)實體關(guān)系抽取實體關(guān)系可以用于構(gòu)建知醫(yī)學(xué)自然語言處理的基本技術(shù)基于深度學(xué)習(xí)的實體關(guān)系抽取輸入層編碼層卷積層 池化層 輸出層(1)輸入層:需要判別關(guān)系類別的實體文本(2)編碼層:預(yù)處理,使用Word2vec訓(xùn)練的向量模型表示實體文本對于一句話中每個單詞均為
k
維的詞向量,因此對于長度為
n的一句話則可用維度為
n*k的矩陣(3)卷積層:設(shè)計一個過濾器窗口W,其維度為h?k,h表示窗口所含的單詞個數(shù),不斷地滑動該窗口,每次滑動一個位置時,完成非線性激活函數(shù)的計算(4)最大池化層:為了得到最大特征,進(jìn)行max-over-time操作,取出最大值(5)輸出層:通過向量映射,得到待預(yù)測的類別結(jié)果醫(yī)學(xué)自然語言處理的基本技術(shù)基于深度學(xué)習(xí)的實體關(guān)系抽取輸入層編14醫(yī)學(xué)自然語言處理的基本技術(shù)基于深度學(xué)習(xí)的實體關(guān)系抽取輸入層編醫(yī)學(xué)自然語言處理的基本技術(shù)語義分析在詞的層次上,語義分析的基本任務(wù)是進(jìn)行詞義消歧在句子層面上是語義角色標(biāo)注在篇章層面上是指代消歧,也稱共指消解基于機(jī)器學(xué)習(xí)的消歧方法有監(jiān)督:通過建立分類器,根據(jù)上下文和標(biāo)注結(jié)果完成分類任務(wù),用劃分多義詞上下文類別的方法來區(qū)分多義詞的詞義貝葉斯模型、最大熵模型、支持向量機(jī)模型、深度神經(jīng)網(wǎng)絡(luò)模型無監(jiān)督:使用聚類算法對同一個多義詞的所有上下文進(jìn)行等價類劃分,在詞義識別的時候,將該詞的上下文與各個詞義對應(yīng)上下文的等價類進(jìn)行比較,通過上下文對應(yīng)的等價類來確定詞的詞義聚類算法例:病毒(計算機(jī)病毒、生物病毒)打球、打電話、打毛衣醫(yī)學(xué)自然語言處理的基本技術(shù)語義分析在詞的層次上,語義分析的基15醫(yī)學(xué)自然語言處理的基本技術(shù)語義分析在詞的層次上,語義分析的基醫(yī)學(xué)自然語言處理方法總結(jié)基于詞典和規(guī)則的處理方法詞典匹配正則表達(dá)式基于統(tǒng)計的處理方法支持向量機(jī)(Support
Vector
Machine,SVM)隱馬爾可夫(Hidden
Markov
Model,HMM)條件隨機(jī)場(Conditional
Random
Fields,CRF)長短時記憶網(wǎng)絡(luò)(Long
Short
Term
Memory,LSTM)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional
Neural
Network
,CNN)兩者融合的方法醫(yī)學(xué)自然語言處理方法總結(jié)基于詞典和規(guī)則的處理方法16醫(yī)學(xué)自然語言處理方法總結(jié)基于詞典和規(guī)則的處理方法醫(yī)學(xué)自然語言03醫(yī)學(xué)自然語言處理的典型問題03醫(yī)學(xué)自然語言處理的典型問題1703醫(yī)學(xué)自然語言處理的典型問題03醫(yī)學(xué)自然語言處理的典型問題醫(yī)學(xué)自然語言處理的典型問題問題一有瑕疵的或不規(guī)范的輸入不同的數(shù)據(jù)來源(如病歷、醫(yī)學(xué)論文等)或不同的人員(如科研人員、臨床醫(yī)生、病人等)在表達(dá)相同或相似概念時其描述方式多種多樣例:?
2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠狀動脈支架置入術(shù)、冠狀動脈支架植入術(shù)胃脹反酸、泛酸、返酸例:冠心病、冠狀動脈粥樣硬化性心臟病、CAD上述現(xiàn)象本質(zhì)上是歸屬于同一類問題,這類問題在通用領(lǐng)域稱為實體對齊、實體標(biāo)準(zhǔn)化醫(yī)學(xué)自然語言處理的典型問題問題一不同的數(shù)據(jù)來源(如病歷、醫(yī)學(xué)18醫(yī)學(xué)自然語言處理的典型問題問題一不同的數(shù)據(jù)來源(如病歷、醫(yī)學(xué)醫(yī)學(xué)自然語言處理的典型問題解決方法采用規(guī)則的方法,將實體描述經(jīng)過一系列規(guī)則變換(如,簡寫轉(zhuǎn)全稱)后進(jìn)行匹配采用機(jī)器學(xué)習(xí)方法,基于向量空間模型將實體表示為詞向量再學(xué)習(xí)向量之間的相似性關(guān)系例:冠心病、冠狀動脈粥樣硬化性心臟病、CAD例:?
2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠狀動脈支架置入術(shù)、冠狀動脈支架植入術(shù)胃脹反酸、泛酸、返酸冠狀動脈粥樣硬化性心臟病2型糖尿病冠狀動脈支架置入術(shù)胃脹反酸醫(yī)學(xué)自然語言處理的典型問題解決方法采用機(jī)器學(xué)習(xí)方法,基于向量19醫(yī)學(xué)自然語言處理的典型問題解決方法采用機(jī)器學(xué)習(xí)方法,基于向量醫(yī)學(xué)自然語言處理的典型問題問題二病歷文檔經(jīng)常需要對某些概念進(jìn)行否定性質(zhì)的描述,因而要在病歷中單純地依賴文中有沒有出現(xiàn)術(shù)語作為信息檢索的依據(jù)并不能取得好的結(jié)果解決方法正則表達(dá)式實體關(guān)系抽取問題判斷概念是否具有“否定”的上下文環(huán)境例:“否認(rèn)手術(shù)史”、“未觸及質(zhì)硬結(jié)節(jié)”、“支氣管斷端未見癌”實體識別確定實體關(guān)系共現(xiàn)法尋找距離相近的實體抽取目標(biāo)實體前后出現(xiàn)的否定詞醫(yī)學(xué)自然語言處理的典型問題問題二解決方法判斷概念是否具有“否20醫(yī)學(xué)自然語言處理的典型問題問題二解決方法判斷概念是否具有“否醫(yī)學(xué)自然語言處理的典型問題?
問題三醫(yī)學(xué)領(lǐng)域相關(guān)實體和實體之間的關(guān)系比較復(fù)雜,例:蛋白質(zhì)之間相互作用關(guān)系、藥物之間相互作用關(guān)系、藥物疾病對應(yīng)關(guān)系等?
解決方案建立完備的醫(yī)學(xué)知識庫、知識圖譜LSTM、CNN等算法,建立學(xué)習(xí)模型,識別疾病——藥物之間的關(guān)系相對規(guī)范的文本記錄(病理報告),可考慮基于規(guī)則的方法提取,如正則表達(dá)式例:既往史:否認(rèn)肝炎、肺結(jié)核、瘧疾病史,高血壓10年余,糖尿病7年,口服二甲雙胍治療,血糖控制可,口服硝苯地平,血壓維持在130/70mmHg左右屬于實體關(guān)系抽取的一類典型問題例:送檢(右肺中葉結(jié)節(jié))淋巴結(jié)見轉(zhuǎn)移癌(1/1),送檢(第2組、第4組、第7組、第11組)淋巴結(jié)未見轉(zhuǎn)移癌(分別為0/1、0/2、0/1、0/1)淋巴結(jié)陽性數(shù)清掃數(shù)第2組01第4組02第7組01第11組01右肺中葉結(jié)節(jié)11病史病程藥物治療高血壓10年硝苯地平糖尿病7年二甲雙胍醫(yī)學(xué)自然語言處理的典型問題?問題三醫(yī)學(xué)領(lǐng)域相關(guān)實體和實體之21醫(yī)學(xué)自然語言處理的典型問題?問題三醫(yī)學(xué)領(lǐng)域相關(guān)實體和實體之醫(yī)學(xué)自然語言處理的典型問題?
問題四電子病歷中出現(xiàn)大量長句,需要做語義識別?
解決方案對于長句語義識別,適合用LSTM網(wǎng)絡(luò)模型,通過搭建多層復(fù)合LSTM網(wǎng)絡(luò),將原語料反向輸入生成反向LSTM層,與正向LSTM層相結(jié)合,加強(qiáng)關(guān)鍵成分與上下文的關(guān)聯(lián)度例:食管胃交界部小彎側(cè)潰瘍型中-低分化腺癌,部分為粘液腺癌,腫瘤大小為5x3.5x1.5cm,癌組織侵及胃壁全層,并侵犯神經(jīng),檢出之上下切緣及送檢(食管切緣)均未見癌keyvalue組織學(xué)類型腺癌、粘液腺癌分化程度低分化腫瘤大小5x3.5x1.5cm腫瘤部位胃食管結(jié)合部胃小彎醫(yī)學(xué)自然語言處理的典型問題?問題四?解決方案例:keyv22醫(yī)學(xué)自然語言處理的典型問題?問題四?解決方案例:keyv醫(yī)學(xué)自然語言處理的典型問題難點問題相同的醫(yī)學(xué)問題、不同的研究目的,提取規(guī)則不一樣例:糖尿病提取藥物史
——
降壓藥、降糖藥從文本中直接抽取實體即可侵襲性真菌病提取抗菌藥物史
——
病前30天內(nèi)使用抗菌藥物、長期(超過2周)使用抗菌藥物 不是在文本中直接體現(xiàn),需要添加復(fù)雜的語義分析病歷結(jié)構(gòu)化后,抽取出的信息是孤立的,丟失了大量的時間信息和因果邏輯關(guān)系例:入院記錄會描述患者病情的發(fā)展情況,包含了大量時間信息,以及前后、因果邏輯關(guān)系緣于2012年4月24日車禍后出現(xiàn)左腕及左眼眶骨折左腕及左眼眶骨折左眼眶骨折,
在當(dāng)?shù)蒯t(yī)院住院手術(shù)治療,
出院后因左腕疼痛輾轉(zhuǎn)于各診所肌肉注射或靜脈滴注各種抗生素(隔2-3天應(yīng)用3-5天),達(dá)3個月;
于2012年8月出現(xiàn)高熱,口腔內(nèi)白斑,體溫達(dá)40℃,伴發(fā)冷,
在某醫(yī)院診斷為“真菌感染”,
打針治療后癥狀無明顯好轉(zhuǎn),
后轉(zhuǎn)至某醫(yī)院呼吸科,
診斷為“成人Still病”,
接受“氟康唑、免疫球蛋白、甲潑尼龍40mg
1/日”等治療,體溫降至正常,
出院口服“甲潑尼龍6片
1/日,
硫酸羥氯喹0.2g
2/日;
來氟米特
20mg
1/日”
。
于2013年12月出現(xiàn)左側(cè)髖關(guān)節(jié)疼痛,
下蹲困難(蹲起時自覺雙側(cè)腘窩疼痛),
于某醫(yī)院行髖關(guān)節(jié)核磁檢查,
示:左側(cè)髖臼信號異常并左側(cè)髖關(guān)節(jié)腔積液……醫(yī)學(xué)自然語言處理的典型問題難點問題糖尿病提取藥物史——降23醫(yī)學(xué)自然語言處理的典型問題難點問題糖尿病提取藥物史——降04實踐經(jīng)驗總結(jié)04實踐經(jīng)驗總結(jié)2404實踐經(jīng)驗總結(jié)04實踐經(jīng)驗總結(jié)24病案紙解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理原始病歷——零散的文件存儲、純文本格式、信息不易查詢提取清洗治理后的病歷——數(shù)據(jù)庫形式存儲、半結(jié)構(gòu)化格式、顯著提高電子病歷利用率患者基本信息患者ID…入院記錄現(xiàn)病史個人史家族史主訴既往史婚育史體格檢查首次病程記錄病例特點診療計劃擬診討論…日常病程記錄查房記錄…病歷數(shù)據(jù)庫存儲查詢提取統(tǒng)計病案紙解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗25病案紙解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理平臺界面展示解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理26解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理解解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展基于專病的病歷文本結(jié)構(gòu)化處理平臺不同病種需要提取的醫(yī)學(xué)問題有較大差異,需要個性化定制例:胃癌手術(shù)報告需要提?。呵谐秶⒏味?、消化道重建方式等肺癌手術(shù)報告需要提?。呵锌陬愋汀⑶谐课?、是否可見胸腔積液、胸腔粘連等1 建立標(biāo)準(zhǔn)化的語料庫2輔助建立專病數(shù)據(jù)庫3 建立專病知識圖譜4 數(shù)據(jù)挖掘、輔助臨床科研胃癌手術(shù)報告、病理報告、病程記錄的結(jié)構(gòu)化處理肺癌手術(shù)報告、病理報告、CT報告的結(jié)構(gòu)化處理乳腺癌病理報告、超聲報告的結(jié)構(gòu)化處理侵襲性真菌病的入院記錄結(jié)構(gòu)化處理解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展基于專病的病歷文本結(jié)構(gòu)化處27解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展基于專病的病歷文本結(jié)構(gòu)化處解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展病歷文本結(jié)構(gòu)化平臺AI輔助的可配置規(guī)則抽取框架基于深度網(wǎng)絡(luò)的信息抽取模型醫(yī)療文本結(jié)構(gòu)化平臺可定制抽取字段、精細(xì)化要素提取標(biāo)準(zhǔn)化歸一映射、智能化技術(shù)框架解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展病歷文本結(jié)構(gòu)化平臺醫(yī)療文本28解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展病歷文本結(jié)構(gòu)化平臺醫(yī)療文本解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展AI輔助的可配置規(guī)則抽取框架,高效地應(yīng)對個性化提取需求AI預(yù)處理深度理解醫(yī)療文本要素及屬性分析定位候選句字段值抽取歸一化/標(biāo)準(zhǔn)化字段配置結(jié)構(gòu)化輸出字段名值腫瘤部位胃小彎,
胃體組織學(xué)類型腺癌分化程度低分化腫瘤大小8x8x1.8cmBorrmann分型局限潰瘍型T分期T4a切緣陰性病歷文本胃小彎及胃體后壁潰瘍型低分化腺癌,腫瘤大小約為8×8×1.8cm。癌組織侵及胃壁全層、神經(jīng)伴脈管內(nèi)癌栓,再取上、下切緣及送檢(食管下切縁)均未見癌。病歷相似句擴(kuò)展同義要素擴(kuò)展醫(yī)生AI輔助AI輔助指導(dǎo)解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展AI輔助的可配置規(guī)則抽取框29解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展AI輔助的可配置規(guī)則抽取框解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展基于深度網(wǎng)絡(luò)的信息抽取模型,精準(zhǔn)理解病歷文本基于序列到序列的深度神經(jīng)網(wǎng)絡(luò)模型,不但可以在原文中精確定位結(jié)果,還可以對文本進(jìn)行推理總結(jié)結(jié)構(gòu)化輸出字段名值腫瘤部位胃小彎,
胃體組織學(xué)類型腺癌分化程度低分化腫瘤大小8x8x1.8cmBorrmann分型局限潰瘍型T分期T4a切緣陰性病歷文本胃
小
彎
及
胃
體
后
壁
潰
瘍
型
低
分
化
腺
癌
,腫
瘤
大
小
約
為
8 ×
8
×
1
.
8
c
m
。
癌組織侵及胃壁全層、神經(jīng)伴脈管
內(nèi)癌栓
,
再
取
上
、
下
切
緣
及
送
檢
(
食
管
下結(jié)果歸一切
緣
)
均
未
見
癌
??截惤Y(jié)果拷貝結(jié)果解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展基于深度網(wǎng)絡(luò)的信息抽取模型30解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展基于深度網(wǎng)絡(luò)的信息抽取模型總結(jié)與展望醫(yī)學(xué)自然語言處理技術(shù)的發(fā)展水平在詞法分析層面,醫(yī)療實體識別以及實體關(guān)系的抽取技術(shù)已經(jīng)比較成熟,在此基礎(chǔ)上可實現(xiàn)電子病歷文本數(shù)據(jù)的特征提取、
病歷檢索例:檢索條件:既往病史中有肺結(jié)核的患者特征提取需求:提取肺癌患者的吸煙史、飲酒史等在語義分析層面,NLP技術(shù)還無法實現(xiàn)完全理解病歷中隱含的知識,難以像醫(yī)生一樣去理解病歷例:檢索條件:提取長期使用抗菌藥物史、化療后腫瘤尺寸變小的患者——“長期使用抗菌藥物”“腫瘤變小”不是在文本中直接體現(xiàn)的,需要通過復(fù)雜的語義理解去判斷難以利用一種通用模型解決所有的醫(yī)學(xué)問題現(xiàn)階段醫(yī)療文本結(jié)構(gòu)化應(yīng)用模式,大部分是帶著醫(yī)學(xué)問題去抽取知識,很大程度上依賴于醫(yī)生對醫(yī)學(xué)問題的歸納和總結(jié)相同的醫(yī)學(xué)問題,在不同應(yīng)用場景下,知識抽取模型不同總結(jié)與展望醫(yī)學(xué)自然語言處理技術(shù)的發(fā)展水平31總結(jié)與展望醫(yī)學(xué)自然語言處理技術(shù)的發(fā)展水平總結(jié)與展望醫(yī)學(xué)自然語總結(jié)與展望自然語言處理未來在醫(yī)療行業(yè)的應(yīng)用模式通用化模型與個性化定制相結(jié)合的醫(yī)療文本結(jié)構(gòu)化工具通用化模型——解決醫(yī)療實體識別、實體關(guān)系抽取的問題個性化定制——解決特定條件、特定病種的信息抽取問題,輔助臨床科研人員、數(shù)據(jù)分析人員提取文本特征,進(jìn)行數(shù)據(jù)挖掘智能化的病歷檢索系統(tǒng)支持多種形式的高精度檢索總結(jié)與展望自然語言處理未來在醫(yī)療行業(yè)的應(yīng)用模式32總結(jié)與展望自然語言處理未來在醫(yī)療行業(yè)的應(yīng)用模式總結(jié)與展望自然謝謝聆聽!謝謝聆聽!33謝謝聆聽!謝謝聆聽!33M
e
d
i
c
a
l
N
a
t
u
r
a
l
L
a
n
g
u
a
g
e
P
r
o
c
e
s
s
i
n
g醫(yī)學(xué)自然語言處理概述MedicalNaturalL34MedicalNaturalL醫(yī)學(xué)自然語言處理的基本任務(wù)
目 錄 1醫(yī)學(xué)自然語言處理的基本技術(shù)2醫(yī)學(xué)自然語言處理的典型問題3我院的實踐與總結(jié)4醫(yī)學(xué)自然語言處理的基本任務(wù)目 錄 1醫(yī)學(xué)自然語言處理的基本35醫(yī)學(xué)自然語言處理的基本任務(wù)目 錄 1醫(yī)學(xué)自然語言處理的基本01醫(yī)學(xué)自然語言處理的基本任務(wù)主要用途、基本任務(wù)01醫(yī)學(xué)自然語言處理的基本任務(wù)3601醫(yī)學(xué)自然語言處理的基本任務(wù)01醫(yī)學(xué)自然語言處理的基本任務(wù)醫(yī)學(xué)自然語言處理的基本任務(wù)主要用途病歷文本數(shù)據(jù)挖掘醫(yī)療知識庫構(gòu)建病歷檢索……NLP技術(shù)電子病歷醫(yī)學(xué)文獻(xiàn)臨床指南健康檔案……結(jié)構(gòu)化、標(biāo)準(zhǔn)化數(shù)據(jù)分析統(tǒng)計分析機(jī)器學(xué)習(xí)疾病診斷模式藥物治療模式預(yù)后評價模式……可分析的醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化的電子病歷醫(yī)學(xué)知識庫整合后的健康檔案……臨床應(yīng)用輔助診療系統(tǒng)CDSS藥物安全性檢測醫(yī)療政策決策支持相似病歷檢索應(yīng)用實踐醫(yī)學(xué)自然語言處理的基本任務(wù)主要用途NLP技術(shù)電子病歷結(jié)構(gòu)化、37醫(yī)學(xué)自然語言處理的基本任務(wù)主要用途NLP技術(shù)電子病歷結(jié)構(gòu)化、例:? 可見多發(fā)結(jié)節(jié)影,大小約1
.
1
6
X
0
.
9
8
厘米例:? 在“肌力4+級”中“+”表示“強(qiáng)”“頭MRI+MRA示”中“+”表示“和”醫(yī)學(xué)自然語言處理的基本任務(wù)例:? 胃脹反酸、泛酸、返酸例:“無意識障礙”? 無
|
意識
|
障礙
無
|
意識障礙例:“細(xì)菌性痢疾”? 細(xì)菌
/n
性
/ng
痢疾
/
n名詞名詞性語素例:? 可見多發(fā)結(jié)節(jié)影,大小約1
.
1
6
X
0
.
9
8
厘米010603040502語義分析06分詞01詞性標(biāo)注02實體識別03實體關(guān)系抽取05實體標(biāo)準(zhǔn)化04例:1.16X0.98厘米例:? 在“肌力38例:1.16X0.98厘米例:? 在“肌力02醫(yī)學(xué)自然語言處理的基本技術(shù)分詞、詞性標(biāo)注、實體識別、實體關(guān)系抽取、語義分析02醫(yī)學(xué)自然語言處理的基本技術(shù)3902醫(yī)學(xué)自然語言處理的基本技術(shù)02醫(yī)學(xué)自然語言處理的基本技術(shù)醫(yī)學(xué)自然語言處理的基本技術(shù)分詞分詞是將一句話切分成一個個單詞的過程分詞工具結(jié)巴(jieba)分詞工具、NLPIR漢語分詞系統(tǒng)、IKAnalyzer開源分詞軟件關(guān)鍵技術(shù)基于詞典的分詞方法(機(jī)械分詞法)按照一定策略,將待分析的漢字串與一個充分大的機(jī)器字典中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則匹配成功逆向最大匹配法正向最大匹配法雙向匹配法基于機(jī)器學(xué)習(xí)的分詞方法例:?
“無意識障礙” 無意識
|障礙() 無
|
意識障礙(?)醫(yī)學(xué)自然語言處理的基本技術(shù)分詞分詞是將一句話切分成一個個單詞40醫(yī)學(xué)自然語言處理的基本技術(shù)分詞分詞是將一句話切分成一個個單詞醫(yī)學(xué)自然語言處理的基本技術(shù)設(shè)詞典中詞語長度的最大值為M基于詞典的分詞方法開始從文檔末尾開始掃描,取最末端的M個字符作為匹配字段,查找字典記錄分詞結(jié)果,對剩余的字符串繼續(xù)重復(fù)以上步驟匹配成功是否將字符串長度減少1是剩余字串的長度為零輸出例:“南京市長江大橋”1. 設(shè)最長詞為52. 在詞典中匹配“市長江大橋”3. 匹配失敗,去掉最前面一個字“市”匹配“長江大橋”,匹配成功在詞典中剩余字符“南京市”,匹配成功輸出結(jié)果:南京市
/
長江大橋醫(yī)學(xué)自然語言處理的基本技術(shù)設(shè)詞典中詞語長度的最大值為M基于詞41醫(yī)學(xué)自然語言處理的基本技術(shù)設(shè)詞典中詞語長度的最大值為M基于詞醫(yī)學(xué)自然語言處理的基本技術(shù)詞性標(biāo)注在給定句子中判定每個詞的詞性加以標(biāo)注,如將詞分為名詞、形容詞、動詞等關(guān)鍵技術(shù)基于詞典的標(biāo)注方法先對語句進(jìn)行分詞,然后從字典中查找每個詞語的詞性,對其進(jìn)行標(biāo)注基于規(guī)則的標(biāo)注方法① 簡單處理,得到初標(biāo)注結(jié)果② 建立轉(zhuǎn)換規(guī)則,修正錯誤③ 得到標(biāo)注結(jié)果例:細(xì)菌性痢疾膽囊壁明顯增厚細(xì)菌
/n
性
/ng
痢疾
/n膽囊
/n
壁
/ng
明顯
/a
增
/v
厚
/a名詞名詞性語素例:1.初標(biāo)注:“他/r做/v了/u一/m個/q報告/v”2.轉(zhuǎn)換規(guī)則:激活環(huán)境:該詞左邊第一個緊鄰詞的詞性是量詞(q),左邊第二個詞的詞性是數(shù)詞(m)改寫規(guī)則:將該詞的詞性從動詞(v)改為名詞(n)3.得到標(biāo)注結(jié)果:“他/r做/v了/u一/m個/q報告/n”醫(yī)學(xué)自然語言處理的基本技術(shù)詞性標(biāo)注在給定句子中判定每個詞的詞42醫(yī)學(xué)自然語言處理的基本技術(shù)詞性標(biāo)注在給定句子中判定每個詞的詞醫(yī)學(xué)自然語言處理的基本技術(shù)實體識別醫(yī)學(xué)領(lǐng)域的實體抽取是從醫(yī)學(xué)數(shù)據(jù)源中提取出特定類型的命名實體,主要有疾病、藥物、癥狀、檢查、手術(shù)操作、器官部位等1組淋巴結(jié)、2組淋巴結(jié)、3組淋巴結(jié)關(guān)鍵技術(shù)基于規(guī)則的方法正則法例:清掃第1組,2組,3組淋巴結(jié)正則表達(dá)式:“%
[/d]
+
組淋巴結(jié)”基于機(jī)器學(xué)習(xí)的方法詞向量表示將自然語言處理問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)問題,首先在于采用一種詞表示方法將文本中的單詞和符號數(shù)學(xué)化,即用一個數(shù)學(xué)向量表示。常用的詞向量表示方法:獨熱碼表示、Word2vec算法例:
“乙肝”表示為
[
0
0
0
1
0
0
0
0
0
0
0
0…]
,“肝硬化”表示為
[
0
0
0
0
0
0
0
0
1
0
0
0…]醫(yī)學(xué)自然語言處理的基本技術(shù)實體識別1組淋巴結(jié)、2組淋巴結(jié)、343醫(yī)學(xué)自然語言處理的基本技術(shù)實體識別1組淋巴結(jié)、2組淋巴結(jié)、3醫(yī)學(xué)自然語言處理的基本技術(shù)基于機(jī)器學(xué)習(xí)的實體識別方法例:
頭顱CT檢查顯示腔隙性腦梗死1.人工特征標(biāo)注:頭顱CT——檢查手段;腔隙性腦梗死——疾??;2.
訓(xùn)練:將字符轉(zhuǎn)為向量表示,將分類標(biāo)簽id化,并進(jìn)行特征提取,構(gòu)建訓(xùn)練集特征向量[000001000000…]—“TES”,[00000000000010…]—“DIS”
3.模型進(jìn)行訓(xùn)練,訓(xùn)練完成后對測試文本進(jìn)行識別,得到機(jī)器標(biāo)注結(jié)果:<頭顱CT
/TES>
平掃見右側(cè)腦室體旁
<腔隙性腦梗死
/DIS
>已標(biāo)注數(shù)據(jù)人工特征標(biāo)注原始文本訓(xùn)練集構(gòu)建機(jī)器學(xué)習(xí)模型測試集測試的未標(biāo)注文本輸入輸出機(jī)器標(biāo)注結(jié)果訓(xùn)練特征提取醫(yī)學(xué)自然語言處理的基本技術(shù)基于機(jī)器學(xué)習(xí)的實體識別方法例:頭44醫(yī)學(xué)自然語言處理的基本技術(shù)基于機(jī)器學(xué)習(xí)的實體識別方法例:頭醫(yī)學(xué)自然語言處理的基本技術(shù)實體標(biāo)準(zhǔn)化醫(yī)學(xué)實體在不同的數(shù)據(jù)源中存在嚴(yán)重的多元指代問題關(guān)鍵技術(shù)基于醫(yī)學(xué)標(biāo)準(zhǔn)術(shù)語庫匹配的方法醫(yī)學(xué)知識圖譜如兩個實體被多個相同實體以相同關(guān)系指向,則二者為同一實體的概率較高基于機(jī)器學(xué)習(xí)的方法用Word2vec模型對上下文取窗口進(jìn)行訓(xùn)練,求解最大似然的共現(xiàn)概率。訓(xùn)練完成后,使用向量余弦相似度計算實體相似性。對于訓(xùn)練充分的詞表示向量而言,一組相似詞的向量語義距離更近。如“首都”和“北京”的語義距離要比“上海”更近醫(yī)學(xué)自然語言處理的基本技術(shù)實體標(biāo)準(zhǔn)化45醫(yī)學(xué)自然語言處理的基本技術(shù)實體標(biāo)準(zhǔn)化醫(yī)學(xué)自然語言處理的基本技醫(yī)學(xué)自然語言處理的基本技術(shù)實體關(guān)系抽取發(fā)現(xiàn)文本中實體對間的各種語義關(guān)系實體關(guān)系可以用于構(gòu)建知識框架,如疾病與藥物的關(guān)系、癥狀與疾病的關(guān)系、基因與疾病的關(guān)系等關(guān)鍵技術(shù)實體共現(xiàn)法認(rèn)為兩個相距很近的實體如果以一定的順序在一個文本語料庫中高頻率地重復(fù),那么這兩個實體相關(guān)的可能性很大機(jī)器學(xué)習(xí)方法將關(guān)系抽取看作是一個分類問題,通過具體的學(xué)習(xí)算法,在人工標(biāo)引語料的基礎(chǔ)上構(gòu)造分類器,再用訓(xùn)練得到的分類器抽取測試文本中的實體關(guān)系深度學(xué)習(xí)例如:?
患者3
天前受涼后出現(xiàn)咳嗽、咳痰?
高血壓病史40
年,口服厄貝沙坦控制可誘因醫(yī)學(xué)自然語言處理的基本技術(shù)實體關(guān)系抽取實體關(guān)系可以用于構(gòu)建知46醫(yī)學(xué)自然語言處理的基本技術(shù)實體關(guān)系抽取實體關(guān)系可以用于構(gòu)建知醫(yī)學(xué)自然語言處理的基本技術(shù)基于深度學(xué)習(xí)的實體關(guān)系抽取輸入層編碼層卷積層 池化層 輸出層(1)輸入層:需要判別關(guān)系類別的實體文本(2)編碼層:預(yù)處理,使用Word2vec訓(xùn)練的向量模型表示實體文本對于一句話中每個單詞均為
k
維的詞向量,因此對于長度為
n的一句話則可用維度為
n*k的矩陣(3)卷積層:設(shè)計一個過濾器窗口W,其維度為h?k,h表示窗口所含的單詞個數(shù),不斷地滑動該窗口,每次滑動一個位置時,完成非線性激活函數(shù)的計算(4)最大池化層:為了得到最大特征,進(jìn)行max-over-time操作,取出最大值(5)輸出層:通過向量映射,得到待預(yù)測的類別結(jié)果醫(yī)學(xué)自然語言處理的基本技術(shù)基于深度學(xué)習(xí)的實體關(guān)系抽取輸入層編47醫(yī)學(xué)自然語言處理的基本技術(shù)基于深度學(xué)習(xí)的實體關(guān)系抽取輸入層編醫(yī)學(xué)自然語言處理的基本技術(shù)語義分析在詞的層次上,語義分析的基本任務(wù)是進(jìn)行詞義消歧在句子層面上是語義角色標(biāo)注在篇章層面上是指代消歧,也稱共指消解基于機(jī)器學(xué)習(xí)的消歧方法有監(jiān)督:通過建立分類器,根據(jù)上下文和標(biāo)注結(jié)果完成分類任務(wù),用劃分多義詞上下文類別的方法來區(qū)分多義詞的詞義貝葉斯模型、最大熵模型、支持向量機(jī)模型、深度神經(jīng)網(wǎng)絡(luò)模型無監(jiān)督:使用聚類算法對同一個多義詞的所有上下文進(jìn)行等價類劃分,在詞義識別的時候,將該詞的上下文與各個詞義對應(yīng)上下文的等價類進(jìn)行比較,通過上下文對應(yīng)的等價類來確定詞的詞義聚類算法例:病毒(計算機(jī)病毒、生物病毒)打球、打電話、打毛衣醫(yī)學(xué)自然語言處理的基本技術(shù)語義分析在詞的層次上,語義分析的基48醫(yī)學(xué)自然語言處理的基本技術(shù)語義分析在詞的層次上,語義分析的基醫(yī)學(xué)自然語言處理方法總結(jié)基于詞典和規(guī)則的處理方法詞典匹配正則表達(dá)式基于統(tǒng)計的處理方法支持向量機(jī)(Support
Vector
Machine,SVM)隱馬爾可夫(Hidden
Markov
Model,HMM)條件隨機(jī)場(Conditional
Random
Fields,CRF)長短時記憶網(wǎng)絡(luò)(Long
Short
Term
Memory,LSTM)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional
Neural
Network
,CNN)兩者融合的方法醫(yī)學(xué)自然語言處理方法總結(jié)基于詞典和規(guī)則的處理方法49醫(yī)學(xué)自然語言處理方法總結(jié)基于詞典和規(guī)則的處理方法醫(yī)學(xué)自然語言03醫(yī)學(xué)自然語言處理的典型問題03醫(yī)學(xué)自然語言處理的典型問題5003醫(yī)學(xué)自然語言處理的典型問題03醫(yī)學(xué)自然語言處理的典型問題醫(yī)學(xué)自然語言處理的典型問題問題一有瑕疵的或不規(guī)范的輸入不同的數(shù)據(jù)來源(如病歷、醫(yī)學(xué)論文等)或不同的人員(如科研人員、臨床醫(yī)生、病人等)在表達(dá)相同或相似概念時其描述方式多種多樣例:?
2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠狀動脈支架置入術(shù)、冠狀動脈支架植入術(shù)胃脹反酸、泛酸、返酸例:冠心病、冠狀動脈粥樣硬化性心臟病、CAD上述現(xiàn)象本質(zhì)上是歸屬于同一類問題,這類問題在通用領(lǐng)域稱為實體對齊、實體標(biāo)準(zhǔn)化醫(yī)學(xué)自然語言處理的典型問題問題一不同的數(shù)據(jù)來源(如病歷、醫(yī)學(xué)51醫(yī)學(xué)自然語言處理的典型問題問題一不同的數(shù)據(jù)來源(如病歷、醫(yī)學(xué)醫(yī)學(xué)自然語言處理的典型問題解決方法采用規(guī)則的方法,將實體描述經(jīng)過一系列規(guī)則變換(如,簡寫轉(zhuǎn)全稱)后進(jìn)行匹配采用機(jī)器學(xué)習(xí)方法,基于向量空間模型將實體表示為詞向量再學(xué)習(xí)向量之間的相似性關(guān)系例:冠心病、冠狀動脈粥樣硬化性心臟病、CAD例:?
2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠狀動脈支架置入術(shù)、冠狀動脈支架植入術(shù)胃脹反酸、泛酸、返酸冠狀動脈粥樣硬化性心臟病2型糖尿病冠狀動脈支架置入術(shù)胃脹反酸醫(yī)學(xué)自然語言處理的典型問題解決方法采用機(jī)器學(xué)習(xí)方法,基于向量52醫(yī)學(xué)自然語言處理的典型問題解決方法采用機(jī)器學(xué)習(xí)方法,基于向量醫(yī)學(xué)自然語言處理的典型問題問題二病歷文檔經(jīng)常需要對某些概念進(jìn)行否定性質(zhì)的描述,因而要在病歷中單純地依賴文中有沒有出現(xiàn)術(shù)語作為信息檢索的依據(jù)并不能取得好的結(jié)果解決方法正則表達(dá)式實體關(guān)系抽取問題判斷概念是否具有“否定”的上下文環(huán)境例:“否認(rèn)手術(shù)史”、“未觸及質(zhì)硬結(jié)節(jié)”、“支氣管斷端未見癌”實體識別確定實體關(guān)系共現(xiàn)法尋找距離相近的實體抽取目標(biāo)實體前后出現(xiàn)的否定詞醫(yī)學(xué)自然語言處理的典型問題問題二解決方法判斷概念是否具有“否53醫(yī)學(xué)自然語言處理的典型問題問題二解決方法判斷概念是否具有“否醫(yī)學(xué)自然語言處理的典型問題?
問題三醫(yī)學(xué)領(lǐng)域相關(guān)實體和實體之間的關(guān)系比較復(fù)雜,例:蛋白質(zhì)之間相互作用關(guān)系、藥物之間相互作用關(guān)系、藥物疾病對應(yīng)關(guān)系等?
解決方案建立完備的醫(yī)學(xué)知識庫、知識圖譜LSTM、CNN等算法,建立學(xué)習(xí)模型,識別疾病——藥物之間的關(guān)系相對規(guī)范的文本記錄(病理報告),可考慮基于規(guī)則的方法提取,如正則表達(dá)式例:既往史:否認(rèn)肝炎、肺結(jié)核、瘧疾病史,高血壓10年余,糖尿病7年,口服二甲雙胍治療,血糖控制可,口服硝苯地平,血壓維持在130/70mmHg左右屬于實體關(guān)系抽取的一類典型問題例:送檢(右肺中葉結(jié)節(jié))淋巴結(jié)見轉(zhuǎn)移癌(1/1),送檢(第2組、第4組、第7組、第11組)淋巴結(jié)未見轉(zhuǎn)移癌(分別為0/1、0/2、0/1、0/1)淋巴結(jié)陽性數(shù)清掃數(shù)第2組01第4組02第7組01第11組01右肺中葉結(jié)節(jié)11病史病程藥物治療高血壓10年硝苯地平糖尿病7年二甲雙胍醫(yī)學(xué)自然語言處理的典型問題?問題三醫(yī)學(xué)領(lǐng)域相關(guān)實體和實體之54醫(yī)學(xué)自然語言處理的典型問題?問題三醫(yī)學(xué)領(lǐng)域相關(guān)實體和實體之醫(yī)學(xué)自然語言處理的典型問題?
問題四電子病歷中出現(xiàn)大量長句,需要做語義識別?
解決方案對于長句語義識別,適合用LSTM網(wǎng)絡(luò)模型,通過搭建多層復(fù)合LSTM網(wǎng)絡(luò),將原語料反向輸入生成反向LSTM層,與正向LSTM層相結(jié)合,加強(qiáng)關(guān)鍵成分與上下文的關(guān)聯(lián)度例:食管胃交界部小彎側(cè)潰瘍型中-低分化腺癌,部分為粘液腺癌,腫瘤大小為5x3.5x1.5cm,癌組織侵及胃壁全層,并侵犯神經(jīng),檢出之上下切緣及送檢(食管切緣)均未見癌keyvalue組織學(xué)類型腺癌、粘液腺癌分化程度低分化腫瘤大小5x3.5x1.5cm腫瘤部位胃食管結(jié)合部胃小彎醫(yī)學(xué)自然語言處理的典型問題?問題四?解決方案例:keyv55醫(yī)學(xué)自然語言處理的典型問題?問題四?解決方案例:keyv醫(yī)學(xué)自然語言處理的典型問題難點問題相同的醫(yī)學(xué)問題、不同的研究目的,提取規(guī)則不一樣例:糖尿病提取藥物史
——
降壓藥、降糖藥從文本中直接抽取實體即可侵襲性真菌病提取抗菌藥物史
——
病前30天內(nèi)使用抗菌藥物、長期(超過2周)使用抗菌藥物 不是在文本中直接體現(xiàn),需要添加復(fù)雜的語義分析病歷結(jié)構(gòu)化后,抽取出的信息是孤立的,丟失了大量的時間信息和因果邏輯關(guān)系例:入院記錄會描述患者病情的發(fā)展情況,包含了大量時間信息,以及前后、因果邏輯關(guān)系緣于2012年4月24日車禍后出現(xiàn)左腕及左眼眶骨折左腕及左眼眶骨折左眼眶骨折,
在當(dāng)?shù)蒯t(yī)院住院手術(shù)治療,
出院后因左腕疼痛輾轉(zhuǎn)于各診所肌肉注射或靜脈滴注各種抗生素(隔2-3天應(yīng)用3-5天),達(dá)3個月;
于2012年8月出現(xiàn)高熱,口腔內(nèi)白斑,體溫達(dá)40℃,伴發(fā)冷,
在某醫(yī)院診斷為“真菌感染”,
打針治療后癥狀無明顯好轉(zhuǎn),
后轉(zhuǎn)至某醫(yī)院呼吸科,
診斷為“成人Still病”,
接受“氟康唑、免疫球蛋白、甲潑尼龍40mg
1/日”等治療,體溫降至正常,
出院口服“甲潑尼龍6片
1/日,
硫酸羥氯喹0.2g
2/日;
來氟米特
20mg
1/日”
。
于2013年12月出現(xiàn)左側(cè)髖關(guān)節(jié)疼痛,
下蹲困難(蹲起時自覺雙側(cè)腘窩疼痛),
于某醫(yī)院行髖關(guān)節(jié)核磁檢查,
示:左側(cè)髖臼信號異常并左側(cè)髖關(guān)節(jié)腔積液……醫(yī)學(xué)自然語言處理的典型問題難點問題糖尿病提取藥物史——降56醫(yī)學(xué)自然語言處理的典型問題難點問題糖尿病提取藥物史——降04實踐經(jīng)驗總結(jié)04實踐經(jīng)驗總結(jié)5704實踐經(jīng)驗總結(jié)04實踐經(jīng)驗總結(jié)57病案紙解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理原始病歷——零散的文件存儲、純文本格式、信息不易查詢提取清洗治理后的病歷——數(shù)據(jù)庫形式存儲、半結(jié)構(gòu)化格式、顯著提高電子病歷利用率患者基本信息患者ID…入院記錄現(xiàn)病史個人史家族史主訴既往史婚育史體格檢查首次病程記錄病例特點診療計劃擬診討論…日常病程記錄查房記錄…病歷數(shù)據(jù)庫存儲查詢提取統(tǒng)計病案紙解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗58病案紙解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理平臺界面展示解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理59解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理解解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展基于專病的病歷文本結(jié)構(gòu)化處理平臺不同病種需要提取的醫(yī)學(xué)問題有較大差異,需要個性化定制例:胃癌手術(shù)報告需要提?。呵谐?/p>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新版車隊合作協(xié)議3篇
- 數(shù)碼攝像機(jī)購銷合同書3篇
- 改善企業(yè)運營承諾書3篇
- 方協(xié)議毀約流程3篇
- 教育學(xué)實習(xí)生合作協(xié)議3篇
- 方聯(lián)合體投標(biāo)協(xié)議書3篇
- 溫室大棚環(huán)境無線監(jiān)控系統(tǒng)設(shè)計畢業(yè)論文開題報告
- 物業(yè)公司高層管理合同
- 采摘園洗車場租賃合同
- 物流運輸協(xié)調(diào)協(xié)議
- 北京市餐飲行業(yè)污染防治手冊
- 2024-2030年中國外貿(mào)服裝行業(yè)市場發(fā)展現(xiàn)狀及競爭格局與投資前景研究報告
- 學(xué)科建設(shè)課件
- 四川省南充市2023-2024學(xué)年九年級上學(xué)期期末數(shù)學(xué)試題(含解析)
- 英文經(jīng)典電影賞析智慧樹知到期末考試答案2024年
- 水塘清淤專項方案
- 暗黑破壞神裝備大全
- 幼兒園游戲設(shè)計與實施研究
- 自然資源學(xué)原理(緒論)蔡運龍
- 大學(xué)英語(一)智慧樹知到期末考試答案2024年
- 高空作業(yè)安全免責(zé)聲明
評論
0/150
提交評論