基于模式的語義信息抽取及應(yīng)用研究(共92頁)_第1頁
基于模式的語義信息抽取及應(yīng)用研究(共92頁)_第2頁
基于模式的語義信息抽取及應(yīng)用研究(共92頁)_第3頁
基于模式的語義信息抽取及應(yīng)用研究(共92頁)_第4頁
基于模式的語義信息抽取及應(yīng)用研究(共92頁)_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于規(guī)則的信息抽取技術(shù)的研究及其在中醫(yī)醫(yī)案文獻中的應(yīng)用- PAGE 42 -基于模式的語義信息抽取及應(yīng)用研究王雙北京科技大學(xué)MACROBUTTON NoMacro 公開 密級:_論文(lnwn)題目:基于(jy)模式的語義信息(xnx)抽取及應(yīng)用研究G20118233王雙學(xué) 號:_軟件工程作 者:_專 業(yè) 名 稱:_2013年11月10日基于(jy)模式的語義信息(xnx)抽取及應(yīng)用研究Semantic information extraction technology and application based on patterns研究生姓名(xngmng):王雙指導(dǎo)教師姓名:孫義北京科技

2、大學(xué)計算機與通信工程學(xué)院北京100083,中國Master Degree Candidate: Wang ShuangSupervisor: Sun YiSchool of Computer &Comunication EngineeringUniversity of Science and Technology Beijing30 Xueyuan Road,Haidian DistrictBeijing 100083,P.R.CHINAMACROBUTTON NoMacro 公開 MACROBUTTON NoMacro 單擊此處鍵入UDC號TP3910008分類號:_密級:_:_單位(dnw

3、i)代碼:_北京科技大學(xué)碩士學(xué)位論文(lnwn)基于模式的語義信息抽取及應(yīng)用研究論文(lnwn)題目: 王雙作者:_北京科技大學(xué) 孫義指 導(dǎo) 教 師: 單位: 指導(dǎo)小組成員: 單位: 單位: 論文提交日期:2013年 11月1 0日學(xué)位授予單位:北 京 科 技 大 學(xué)北京科技大學(xué)碩士學(xué)位論文- PAGE XIII -致 謝本課題能夠順利完成,與我所得到(d do)的多方面的無私而熱情的幫助是分不開的。我首先要感謝(gnxi)我的導(dǎo)師孫義教授(jioshu)。在本人讀研期間,孫老師無論在學(xué)習(xí)還是在生活上,都給予了無微不至的關(guān)心。在整個畢業(yè)論文完成過程中,孫老師定期了解課題進展,積極提出寶貴意見,

4、在老師嚴(yán)謹(jǐn)治學(xué)、精益求精的工作作風(fēng)中體會到了老師崇高的人格魅力。另外我還要感謝實驗室的另外兩位老師張德政老師和劉宏嵐老師,感謝張老師和劉老師對我的鼓勵和肯定。張老師積極的人生態(tài)度和拼搏精神,對我們產(chǎn)生深遠(yuǎn)影響,同時感謝張老師為我們提供的良好的工作和學(xué)習(xí)環(huán)境。我還要感謝幫助和鼓勵過我的每一位同學(xué),他們是韋仕偉、于留寶、付彬、華鎮(zhèn)。感謝在這近三年時間里給予我知識的老師們,正是由于他們的辛勤施教,使我學(xué)到了許多寶貴的知識,能夠順利完成學(xué)業(yè)。真誠感謝我的父母、姐姐和朋友們。在他們的鼓勵下,我勇敢前進,克服很多困難。他們的關(guān)心與幫助是我學(xué)習(xí)和生活最大力量來源。最后,感謝所有在百忙之中參加我論文答辯的老師

5、們,在此致以我崇高的敬意和衷心的感謝。摘 要中醫(yī)學(xué)作為中國特色的傳統(tǒng)醫(yī)學(xué)具有(jyu)重要的社會價值,但是由于中醫(yī)學(xué)理論體系的復(fù)雜性和特殊性,對中醫(yī)理論和技術(shù)的全面把握需要(xyo)較長的時間。特別是經(jīng)過多年臨床實踐,而且擁有(yngyu)多年中醫(yī)實踐經(jīng)驗的專家,很好的反映出了中醫(yī)學(xué)的特色。從而可以通過研究這些醫(yī)案,進而了解中醫(yī)學(xué)的方法和理論,從而快速、全面地了解中醫(yī)理論和技術(shù)。面對海量文本形式的醫(yī)案,目前普遍采用手工填寫結(jié)構(gòu)化采集模板的方法結(jié)構(gòu)化病案信息,不僅耗費大量人力物力,而且不能反應(yīng)各個專家的特點。因此,本文主要研究如何通過計算機技術(shù)自動結(jié)構(gòu)化文本形式的病案信息,從而為挖掘名老中醫(yī)的臨

6、床經(jīng)驗和診療思路打下基礎(chǔ)。本文針對中醫(yī)病案文本信息的特點,從多個方面、不同角度對基于中醫(yī)病案信息的自動抽取進行了深入研究,實現(xiàn)了一個基于模式匹配的醫(yī)案信息自動抽取系統(tǒng)。本文的主要工作包括以下幾個方面:1、綜述信息抽取及相關(guān)技術(shù)方法,主要內(nèi)容包括相關(guān)概念的介紹,技術(shù)專有名詞的解釋說明,還包括對各種技術(shù)的分析。2、重點研究了基于聚類的模式獲取問題,以及基于模式的中醫(yī)醫(yī)案的信息抽取問題。實現(xiàn)了利用機器學(xué)習(xí)方法自動獲取模式,利用模式識別文本中的人名、地名、時間以及實體間關(guān)系信息。3、設(shè)計并實現(xiàn)了一個基于中醫(yī)醫(yī)案的信息抽取原型系統(tǒng)。該系統(tǒng)提供了一個方法以供用戶使用,能夠很好的實現(xiàn)對中醫(yī)醫(yī)案信息的抽取。關(guān)

7、鍵詞:自然語言處理,信息抽取,模式生成,模式匹配Semantic information extraction technology and application based on patternsAbstractTraditional Chinese medicine as a Chinese traditional medicine has important social value .Medical records as the doctor clinical thinking and treatment based on syndrome differentiation proce

8、ss records, is a concrete reflection of comprehensive application forms of traditional Chinese medicine. Pattern matching is a commonly used method in information extraction system, how to generate the model is the key problem in the field of information extraction. This paper presents a method of c

9、lustering based machine learning, the system can automatic pattern acquisition from text. The application of this method in traditional Chinese medical experiments in the literature, has achieved a good result. According to the characteristicsof text informationofmedical records, Study is conducted

10、for theautomatic extraction ofChinese medical recordinformation based onmany aspects,from different angles, amedical informationautomatic extraction system ofpattern matching.The main work of this paperinclude the following aspects:1. Summary of informationextractionand relatedtechniques, The main c

11、ontentsinclude therelated concepts introduced, Technicalterminologyexplanation, also includes theanalysis of all kinds oftechnology. 2. Focus on the information extractionproblembased on the pattern oftraditional Chinese Medicine, Construction of patternlibrary.3. The design and implementation of ap

12、rototype systembased oninformation extractionoftraditional Chinese medicine.The system provides amethodfor the user touse,can be achieved on thetraditional Chinese medicineinformation extractionis verygood.Key Words:Natural Language Processing , Information Extraction,Pattern Acquisition,Pattern Mat

13、ching(用英文逗號(duho)“,”分隔(fng))目 錄 TOC o 1-3 h z u HYPERLINK l _Toc371872020 致 謝 PAGEREF _Toc371872020 h I HYPERLINK l _Toc371872021 摘 要 PAGEREF _Toc371872021 h III HYPERLINK l _Toc371872022 Abstract PAGEREF _Toc371872022 h V HYPERLINK l _Toc371872023 插圖(cht)和附表清單 PAGEREF _Toc371872023 h XI HYPERLINK l

14、 _Toc371872024 1 緒論(xln) PAGEREF _Toc371872024 h 1 HYPERLINK l _Toc371872025 1.1 課題(kt)背景 PAGEREF _Toc371872025 h 1 HYPERLINK l _Toc371872026 1.1.1 課題的來源,目的和意義 PAGEREF _Toc371872026 h 1 HYPERLINK l _Toc371872027 1.1.2 課題的研究內(nèi)容 PAGEREF _Toc371872027 h 1 HYPERLINK l _Toc371872028 1.2 論文的主要工作 PAGEREF _T

15、oc371872028 h 2 HYPERLINK l _Toc371872029 1.3 本文的組織結(jié)構(gòu) PAGEREF _Toc371872029 h 2 HYPERLINK l _Toc371872030 2 信息抽取模式學(xué)習(xí)系統(tǒng)綜述 PAGEREF _Toc371872030 h 3 HYPERLINK l _Toc371872031 2.1 信息抽取模式學(xué)習(xí)系統(tǒng)分類 PAGEREF _Toc371872031 h 3 HYPERLINK l _Toc371872032 2.2 基于人工語料標(biāo)注的IE模式學(xué)習(xí)系統(tǒng) PAGEREF _Toc371872032 h 3 HYPERLINK

16、l _Toc371872033 2.2.1 基于人工語料標(biāo)注的IE模式學(xué)習(xí)系統(tǒng)的原理 PAGEREF _Toc371872033 h 3 HYPERLINK l _Toc371872034 2.3 基于人工語料分類的IE模式學(xué)習(xí)系統(tǒng) PAGEREF _Toc371872034 h 6 HYPERLINK l _Toc371872035 2.4 基于自舉的IE模式學(xué)習(xí)系統(tǒng) PAGEREF _Toc371872035 h 7 HYPERLINK l _Toc371872036 2.5 基于WordNet和語料標(biāo)注的IE模式學(xué)習(xí)系統(tǒng) PAGEREF _Toc371872036 h 9 HYPERLI

17、NK l _Toc371872037 2.6 本章小結(jié) PAGEREF _Toc371872037 h 11 HYPERLINK l _Toc371872038 3 中醫(yī)醫(yī)案特征分析 PAGEREF _Toc371872038 h 13 HYPERLINK l _Toc371872039 3.1 中醫(yī)醫(yī)案特征分析 PAGEREF _Toc371872039 h 13 HYPERLINK l _Toc371872040 3.1.1 中醫(yī)醫(yī)案結(jié)構(gòu)特征分析 PAGEREF _Toc371872040 h 13 HYPERLINK l _Toc371872041 3.1.2 中醫(yī)醫(yī)案內(nèi)容特征分析 PA

18、GEREF _Toc371872041 h 15 HYPERLINK l _Toc371872042 3.1.3 中醫(yī)領(lǐng)域本身的特點 PAGEREF _Toc371872042 h 15 HYPERLINK l _Toc371872043 3.2 中醫(yī)醫(yī)案語義信息抽取的研究基礎(chǔ)及存在的問題 PAGEREF _Toc371872043 h 16 HYPERLINK l _Toc371872044 3.3 本章小結(jié) PAGEREF _Toc371872044 h 17 HYPERLINK l _Toc371872045 4 一種基于聚類的信息抽取模式自動生成方法 PAGEREF _Toc37187

19、2045 h 18 HYPERLINK l _Toc371872046 4.1 基于聚類的模式生成方法的比較與選擇 PAGEREF _Toc371872046 h 18 HYPERLINK l _Toc371872047 4.2 單鏈法聚類的基本思想 PAGEREF _Toc371872047 h 18 HYPERLINK l _Toc371872048 4.3 相關(guān)(xinggun)概念 PAGEREF _Toc371872048 h 18 HYPERLINK l _Toc371872049 4.4 模式生成(shn chn)流程 PAGEREF _Toc371872049 h 20 HYP

20、ERLINK l _Toc371872050 4.4.1 文本處理與聚類 PAGEREF _Toc371872050 h 21 HYPERLINK l _Toc371872051 4.4.2 同類(tngli)之間的模式合并 PAGEREF _Toc371872051 h 24 HYPERLINK l _Toc371872052 4.5 實驗結(jié)果和分析 PAGEREF _Toc371872052 h 26 HYPERLINK l _Toc371872053 4.6 本章小結(jié) PAGEREF _Toc371872053 h 29 HYPERLINK l _Toc371872054 5 基于模式匹

21、配的信息抽取方法 PAGEREF _Toc371872054 h 30 HYPERLINK l _Toc371872055 5.1 國內(nèi)外研究進展 PAGEREF _Toc371872055 h 30 HYPERLINK l _Toc371872056 5.1.1 本課題國外研究進展 PAGEREF _Toc371872056 h 30 HYPERLINK l _Toc371872057 5.1.2 本課題國內(nèi)研究進展 PAGEREF _Toc371872057 h 30 HYPERLINK l _Toc371872058 5.2 中醫(yī)醫(yī)案信息抽取過程中模式的表示方式 PAGEREF _Toc

22、371872058 h 31 HYPERLINK l _Toc371872059 5.3 信息抽取程序的實現(xiàn)過程 PAGEREF _Toc371872059 h 33 HYPERLINK l _Toc371872060 5.3.1 自動分詞的實現(xiàn) PAGEREF _Toc371872060 h 34 HYPERLINK l _Toc371872061 5.3.2 加載模式庫 PAGEREF _Toc371872061 h 38 HYPERLINK l _Toc371872062 5.3.3 讀取醫(yī)案文件 PAGEREF _Toc371872062 h 39 HYPERLINK l _Toc37

23、1872063 5.3.4 確定醫(yī)案文件的段落主題 PAGEREF _Toc371872063 h 41 HYPERLINK l _Toc371872064 5.2.5逐句遍歷 PAGEREF _Toc371872064 h 41 HYPERLINK l _Toc371872065 5.2.6正則匹配算法 PAGEREF _Toc371872065 h 42 HYPERLINK l _Toc371872066 5.2.7存儲提取結(jié)果 PAGEREF _Toc371872066 h 43 HYPERLINK l _Toc371872067 5.4 本章小節(jié) PAGEREF _Toc3718720

24、67 h 44 HYPERLINK l _Toc371872068 6 基于模式匹配的中醫(yī)醫(yī)案信息抽取系統(tǒng)的設(shè)計與實現(xiàn) PAGEREF _Toc371872068 h 45 HYPERLINK l _Toc371872069 6.1 信息抽取系統(tǒng)的通用體系結(jié)構(gòu) PAGEREF _Toc371872069 h 45 HYPERLINK l _Toc371872070 6.2 需求分析 PAGEREF _Toc371872070 h 45 HYPERLINK l _Toc371872071 6.2.1 用戶登錄 PAGEREF _Toc371872071 h 45 HYPERLINK l _Toc

25、371872072 6.2.2 中醫(yī)醫(yī)案管理 PAGEREF _Toc371872072 h 45 HYPERLINK l _Toc371872073 6.2.3 用戶詞典管理 PAGEREF _Toc371872073 h 46 HYPERLINK l _Toc371872074 6.2.4 模板匹配 PAGEREF _Toc371872074 h 46 HYPERLINK l _Toc371872075 6.3 系統(tǒng)設(shè)計 PAGEREF _Toc371872075 h 46 HYPERLINK l _Toc371872076 6.3.1 系統(tǒng)功能結(jié)構(gòu) PAGEREF _Toc3718720

26、76 h 46 HYPERLINK l _Toc371872077 6.3.2 定義抽取任務(wù) PAGEREF _Toc371872077 h 47 HYPERLINK l _Toc371872078 6.3.3 構(gòu)建(u jin)開發(fā)程序 PAGEREF _Toc371872078 h 48 HYPERLINK l _Toc371872079 6.3.4 數(shù)據(jù)庫設(shè)計(shj) PAGEREF _Toc371872079 h 49 HYPERLINK l _Toc371872080 6.4 詳細(xì)(xingx)設(shè)計 PAGEREF _Toc371872080 h 50 HYPERLINK l _T

27、oc371872081 6.4.1 用戶登錄模塊 PAGEREF _Toc371872081 h 50 HYPERLINK l _Toc371872082 6.4.2 系統(tǒng)主界面 PAGEREF _Toc371872082 h 51 HYPERLINK l _Toc371872083 6.4.3 用戶詞典模塊 PAGEREF _Toc371872083 h 52 HYPERLINK l _Toc371872084 6.4.4 中醫(yī)醫(yī)案管理模塊 PAGEREF _Toc371872084 h 53 HYPERLINK l _Toc371872085 6.4.5 基于模板匹配的抽取模塊 PAGER

28、EF _Toc371872085 h 53 HYPERLINK l _Toc371872086 6.5 軟件測試 PAGEREF _Toc371872086 h 54 HYPERLINK l _Toc371872087 6.5.1 軟件測試的步驟 PAGEREF _Toc371872087 h 54 HYPERLINK l _Toc371872088 6.5.2 本系統(tǒng)的測試方案 PAGEREF _Toc371872088 h 55 HYPERLINK l _Toc371872089 6.6 本章小結(jié) PAGEREF _Toc371872089 h 56 HYPERLINK l _Toc371

29、872090 7 結(jié)論 PAGEREF _Toc371872090 h 57 HYPERLINK l _Toc371872091 7.1 總結(jié) PAGEREF _Toc371872091 h 57 HYPERLINK l _Toc371872092 7.2 進一步的工作 PAGEREF _Toc371872092 h 57 HYPERLINK l _Toc371872093 參考文獻 PAGEREF _Toc371872093 h 59 HYPERLINK l _Toc371872094 附錄 人工提取的語言模式 PAGEREF _Toc371872094 h 63 HYPERLINK l _

30、Toc371872095 作者簡歷及在學(xué)研究成果 PAGEREF _Toc371872095 h 69 HYPERLINK l _Toc371872096 獨創(chuàng)性說明 PAGEREF _Toc371872096 h 71 HYPERLINK l _Toc371872097 關(guān)于論文使用授權(quán)的說明 PAGEREF _Toc371872097 h 72 HYPERLINK l _Toc371872098 學(xué)位論文數(shù)據(jù)集 PAGEREF _Toc371872098 h 73插圖(cht)清單(qngdn) TOC h z c 圖2. HYPERLINK l _Toc372218579 圖2. 1 A

31、utoSlog采用(ciyng)的語言表達(dá)模式及IE模式 PAGEREF _Toc372218579 h 4 HYPERLINK l _Toc372218580 圖2. 2一個標(biāo)注后的語句及AutoSolg從中學(xué)出的一個概念節(jié)點 PAGEREF _Toc372218580 h 5 HYPERLINK l _Toc372218581 圖2. 3 PALKA的一個FP-structure的例子 PAGEREF _Toc372218581 h 6 HYPERLINK l _Toc372218582 圖2. 4 AutoSlog-TS學(xué)習(xí)IE模式的流程 PAGEREF _Toc372218582 h

32、7 HYPERLINK l _Toc372218583 圖2. 5 ExDisco中用到的”管理職位繼任”IE領(lǐng)域的兩個種子IE模式 PAGEREF _Toc372218583 h 8 HYPERLINK l _Toc372218584 圖2. 6 Exdisco的IE模式學(xué)習(xí)流程 PAGEREF _Toc372218584 h 9 HYPERLINK l _Toc372218585 圖2. 7TIMES中的模式例子 PAGEREF _Toc372218585 h 10 HYPERLINK l _Toc372218586 圖2. 8 TIMES的IE模式學(xué)習(xí)流程 PAGEREF _Toc372

33、218586 h 10 HYPERLINK l _Toc372218587 圖2. 9一個語句經(jīng)過相應(yīng)的NLP步驟處理后所得到的內(nèi)部結(jié)構(gòu) PAGEREF _Toc372218587 h 11 HYPERLINK l _Toc372218588 圖2. 10 TIMES形成的特例模式 PAGEREF _Toc372218588 h 11 TOC h z c 圖3. HYPERLINK l _Toc372218589 圖3. 1 一份典型的中醫(yī)肝病病案 PAGEREF _Toc372218589 h 14 TOC h z c 圖4. HYPERLINK l _Toc372294495 圖4. 1信

34、息抽取模式生成流程 PAGEREF _Toc372294495 h 21 HYPERLINK l _Toc372294496 圖4. 2相關(guān)文檔集 PAGEREF _Toc372294496 h 21 HYPERLINK l _Toc372294497 圖4. 3相關(guān)文檔集經(jīng)過預(yù)處理后的結(jié)果 PAGEREF _Toc372294497 h 22 HYPERLINK l _Toc372294498 圖4. 4分詞后的文本劃分為不同的類別 PAGEREF _Toc372294498 h 23 HYPERLINK l _Toc372294499 圖4. 5相關(guān)文檔集的聚類結(jié)果 PAGEREF _To

35、c372294499 h 24 HYPERLINK l _Toc372294500 圖4. 6模式合并結(jié)果 PAGEREF _Toc372294500 h 26 HYPERLINK l _Toc372294501 圖4. 7泛化后的模式結(jié)果 PAGEREF _Toc372294501 h 26 HYPERLINK l _Toc372294502 圖4. 8中醫(yī)醫(yī)案文本 PAGEREF _Toc372294502 h 27 HYPERLINK l _Toc372294503 圖4. 9測試語料劃分為不同的類別 PAGEREF _Toc372294503 h 27 HYPERLINK l _Toc

36、372294504 圖4. 10實驗得到的信息抽取模式 PAGEREF _Toc372294504 h 28 HYPERLINK l _Toc372294505 圖4. 11信息抽取模式 PAGEREF _Toc372294505 h 28 HYPERLINK l _Toc372294506 圖4. 12不適宜全部合并的實例 PAGEREF _Toc372294506 h 29 TOC h z c 圖5. HYPERLINK l _Toc372294512 圖5. 1中醫(yī)信息抽取流程圖 PAGEREF _Toc372294512 h 33 HYPERLINK l _Toc372294513 圖

37、5. 2典型中醫(yī)肝病醫(yī)案 PAGEREF _Toc372294513 h 35 HYPERLINK l _Toc372294514 圖5. 3典型中醫(yī)肝病醫(yī)案分詞標(biāo)注結(jié)果 PAGEREF _Toc372294514 h 36 HYPERLINK l _Toc372294515 圖5. 4MapRules的數(shù)據(jù)結(jié)構(gòu) PAGEREF _Toc372294515 h 39 HYPERLINK l _Toc372294516 圖5. 5典型中醫(yī)(zhngy)肝病醫(yī)案信息抽取結(jié)果 PAGEREF _Toc372294516 h 44 TOC h z c 圖6. HYPERLINK l _Toc37229

38、4629 圖6. 1基于模式匹配的中醫(yī)(zhngy)醫(yī)案信息抽取系統(tǒng)結(jié)構(gòu)圖 PAGEREF _Toc372294629 h 47 HYPERLINK l _Toc372294630 圖6. 2信息抽取(chu q)模塊流程圖 PAGEREF _Toc372294630 h 49 HYPERLINK l _Toc372294631 圖6. 3用戶登錄界面設(shè)計 PAGEREF _Toc372294631 h 50 HYPERLINK l _Toc372294632 圖6. 4用戶管理界面設(shè)計 PAGEREF _Toc372294632 h 51 HYPERLINK l _Toc372294633

39、圖6. 5系統(tǒng)主界面設(shè)計 PAGEREF _Toc372294633 h 51 HYPERLINK l _Toc372294634 圖6. 6用戶詞典管理界面 PAGEREF _Toc372294634 h 52 HYPERLINK l _Toc372294635 圖6. 7基于模版匹配的抽取界面 PAGEREF _Toc372294635 h 53附表清單 TOC h z c 表5. HYPERLINK l _Toc372219170 表5. 1模式(msh)庫-系統(tǒng)(xtng)用到的16個模式(msh) PAGEREF _Toc372219170 h 31 HYPERLINK l _Toc

40、372219171 表5. 2模式中數(shù)字的含義 PAGEREF _Toc372219171 h 32 HYPERLINK l _Toc372219172 表5. 3模式中字母的含義 PAGEREF _Toc372219172 h 32 HYPERLINK l _Toc372219173 表5. 4中醫(yī)醫(yī)案的用戶詞典 PAGEREF _Toc372219173 h 34 HYPERLINK l _Toc372219174 表5. 5 VecWordCate數(shù)據(jù)結(jié)構(gòu)圖 PAGEREF _Toc372219174 h 39 HYPERLINK l _Toc372219175 表5. 6基本信息部分實

41、例 PAGEREF _Toc372219175 h 40 HYPERLINK l _Toc372219176 表5. 7主訴部分存儲實例 PAGEREF _Toc372219176 h 40 HYPERLINK l _Toc372219177 表5. 8治則部分存儲實例 PAGEREF _Toc372219177 h 41 HYPERLINK l _Toc372219178 表5. 9 VecWordCate數(shù)據(jù)結(jié)構(gòu)圖 PAGEREF _Toc372219178 h 41 TOC h z c 表6. HYPERLINK l _Toc372219185 表6. 1用戶信息表 PAGEREF _T

42、oc372219185 h 49 HYPERLINK l _Toc372219186 表6. 2案例信息表 PAGEREF _Toc372219186 h 50- PAGE 67 -緒論(xln)課題(kt)背景課題的來源,目的(md)和意義該研究課題來源于“十二五”國家科技支撐計劃“名老中醫(yī)臨床經(jīng)驗、學(xué)術(shù)思想傳承研究(一)”項目。本課題研究目標(biāo)是從中醫(yī)傳承的臨床需求出發(fā),匯聚中醫(yī)學(xué)、認(rèn)知科學(xué)、信息技術(shù),研發(fā)中醫(yī)醫(yī)案信息抽取系統(tǒng),即臨床醫(yī)案收集、儲存、分析、管理為一體的系統(tǒng),實現(xiàn)臨床患者病案采集、數(shù)據(jù)存儲、結(jié)構(gòu)化處理等功能。研發(fā)模式庫生成系統(tǒng),實現(xiàn)自動化地從文本中獲取模式,生成模式庫,用于支持

43、信息抽取的過程。研發(fā)信息抽取系統(tǒng),實現(xiàn)系統(tǒng)自動識別出醫(yī)案文本中特定語義信息。隨著近幾年來中醫(yī)學(xué)研究的深入進行,對中醫(yī)醫(yī)案的信息分析需求越來越迫切,經(jīng)歷了中國五千年的文化變遷,中醫(yī)歷史積累了海量的中醫(yī)醫(yī)案,收錄散雜,在內(nèi)容和文字上不免也存在著訛、漏、誤、衍等錯誤現(xiàn)象15,采用人工手段進行查找與分析已經(jīng)不能滿足快節(jié)奏需求。利用信息抽取的辦法,將形式多樣、內(nèi)容豐富繁雜的中醫(yī)醫(yī)案以統(tǒng)一、完整結(jié)構(gòu)化的形式提取出來,有效而搶救性地整理和保留了臨床經(jīng)驗,將無形的經(jīng)驗變成有形的可供大家共享的知識,這對我國中醫(yī)藥領(lǐng)域的傳承意義重大。課題的研究內(nèi)容本文研究基于模式的信息抽取技術(shù)及應(yīng)用,課題解決的主要技術(shù)難點及技術(shù)

44、方案:(1)模式匹配是信息抽取普遍采用的方法,如何生成模式是課題研究的難點和重點。本文根據(jù)中文自身的特點,考慮到模式即為在文本中經(jīng)常出現(xiàn)的句法結(jié)構(gòu), 同時借鑒英文文本的模式獲取方法, 提出一種基于聚類的模式獲取方法,實現(xiàn)了從中醫(yī)醫(yī)案中自動獲取模式。首先對文本進行預(yù)處理,然后對分詞后的文本聚類,將分詞后的短語劃分為不同的類別, 則每個類別為一個模式集。將同一模式集中的模式實例進行合并, 就可以得到最終的信息抽取模式。(2)研究信息抽取技術(shù)在中醫(yī)醫(yī)案領(lǐng)域的應(yīng)用,實現(xiàn)機器自動識別中醫(yī)醫(yī)案里包含的“病”、“證”、“癥候”等相關(guān)屬性及病人基本信息形成最小數(shù)據(jù)冗余的數(shù)據(jù)。本文嘗試采用基于模式匹配的正則匹配

45、算法。第一步對文本進行分詞、詞性標(biāo)注處理,第二步在模式庫的支持下,采用模式匹配算法,最終實現(xiàn)了機器對醫(yī)案的“人名”、“出診時間”、“癥候”信息的識別,以及實體間關(guān)系識別。論文的主要(zhyo)工作本文的主要工作包括(boku)以下幾個方面:1)綜述信息(xnx)抽取及相關(guān)技術(shù)方法,主要內(nèi)容包括相關(guān)概念的介紹,技術(shù)專有名詞的解釋說明,還包括對各種技術(shù)的分析。2)重點研究了基于模式的中醫(yī)醫(yī)案的信息抽取問題。構(gòu)建動詞庫、模式庫。3)設(shè)計并實現(xiàn)了一個基于中醫(yī)醫(yī)案的信息抽取原型系統(tǒng)。該系統(tǒng)提供了一個方法以供用戶使用,能夠很好的實現(xiàn)對中醫(yī)醫(yī)案信息的抽取。本文的組織結(jié)構(gòu)本文共分7章,每部分的組織如下:第一章

46、首先介紹了本課題的課題背景,闡述了課題的來源,目的及意義,說明了課題的研究內(nèi)容。第二章給出了模式自動生成的學(xué)習(xí)方法以及它們的優(yōu)缺點。第三章介紹了中醫(yī)領(lǐng)域中文文本的特點,提出了信息抽取的任務(wù)。第四章介紹了模式自動生成方法的思想和具體步驟,并給出了實驗結(jié)果。第五章介紹了基于模式匹配的信息抽取方法第六章完成基于模式匹配的中醫(yī)醫(yī)案信息抽取系統(tǒng),實現(xiàn)了其中的命名實體識別(人名、地名、時間等名詞性短語)的工作第七章總結(jié)與展望最后是本文的參考文獻,及本文作者對導(dǎo)師和實驗室同學(xué)的衷心感謝!信息(xnx)抽取模式學(xué)習(xí)系統(tǒng)(xtng)綜述(zngsh)信息抽取模式學(xué)習(xí)系統(tǒng)分類為了進行IE(Information

47、Extraction)模式的學(xué)習(xí),人們先后設(shè)計過各種IE模式獲取系統(tǒng),例如AutoSlog、PALKA、CRYSTAL、LIEP、AutoSlog-TS、ExDisco、TIMES等。根據(jù)IE模式獲取系統(tǒng)需要用戶輔助工作方式的不同,可以把這些系統(tǒng)分為四個類別:它們?yōu)榛谌斯ふZ料標(biāo)注的IE模式學(xué)習(xí)系統(tǒng),如AutoSlog、PALKA、CRYSTAL、LIEP等;基于人工語料分類的IE模式學(xué)習(xí)系統(tǒng),如AutoSlog-TS等;基于種子模式的自舉IE模式學(xué)習(xí)系統(tǒng),如ExDisco等;基于WordNet和語料標(biāo)注的IE模式學(xué)習(xí)系統(tǒng),如TIMES等。下面分別介紹這四類系統(tǒng)的工作原理?;谌斯ふZ料標(biāo)注的I

48、E模式學(xué)習(xí)系統(tǒng)基于人工語料標(biāo)注的IE模式學(xué)習(xí)系統(tǒng)的原理基于人工語料標(biāo)注的IE模式獲取系統(tǒng)的基本原理是:使用一種IE模式表示方式,人工預(yù)先標(biāo)注訓(xùn)練語料,接著利用機器學(xué)習(xí)的方法從訓(xùn)練語料中學(xué)出IE模式。例如AutoSlog、PALAK、CRYSTAL、LIEP。本節(jié)詳細(xì)介紹AutoSlog和PALKA的工作原理。AutoSlog是世界上第一個成功實現(xiàn)利用機器學(xué)習(xí)的方法獲取信息抽取模式的系統(tǒng),由Univ.of Massachusetts開發(fā)。AutoSlog的核心就是一個模式學(xué)習(xí)算法。對于一個特定的IE任務(wù),系統(tǒng)的輸入是人工標(biāo)注的訓(xùn)練語料,一套語言模式集(領(lǐng)域無關(guān))和一個相關(guān)領(lǐng)域的語義詞典。系統(tǒng)的輸

49、出是對應(yīng)案例語句的IE模式。另外,整個統(tǒng)的實現(xiàn)需要CIRCUS句法分析器的輔助支持,CIRCUS句法分析器的功能是自動識別句子中的主語、謂語和賓語等。最后需要人工對學(xué)出的模式進行審定和篩選。語言模式集(領(lǐng)域無關(guān))由人工設(shè)計而成。對于不同領(lǐng)域的信息抽取任務(wù),語言模式集并不需要做較大改動。圖2.1列出了針對恐怖活動事件用到的語言模式,以及與它們對應(yīng)的一條IE模式。 Linguistic Pattern Example passive-verb was murdered active-verb bombed verb infinitive attempted to kill auxiliary no

50、un attempted to killactive-verb bombed infinitive to kill verb infinitive threatened to attack gerund killing noun auxiliary fatality was noun prep bomb against active-verb prep ki11ed with passive-verb prep was aimed at 圖2. SEQ 圖2. * ARABIC 1 AutoSlog采用(ciyng)的語言表達(dá)模式(msh)及IE模式(msh)這里的語言模式集和IE模式的不同之

51、處在于:語言模式是領(lǐng)域無關(guān)的,是由人工預(yù)先給定的。而IE模式是由該系統(tǒng)自動生成的,是給出的語言模式實例化的結(jié)果。IE模式用于對一個事件進行信息抽取。語言模式“ active-verb”的含義是:一個充當(dāng)主語的語法成分后面緊跟著一個主動形式的動詞短語。該種形式的句法結(jié)構(gòu)在英語文本中經(jīng)常出現(xiàn),因而將此句型抽象出來作為一條語言模式。對應(yīng)于該語言模式的一個IE模式“was murdered”的含義是:句子經(jīng)過CIRCUS句法分析器處理后,“was murdered”充當(dāng)動詞短語,動詞短語的左側(cè)是主語語法成份,則此主語作為bombing事件的victim角色。若一個含有動詞短語“was murdered

52、”的語句經(jīng)過句法分析后,在該動詞短語的左側(cè)有一個充當(dāng)主語的語法成分,則該語法成分充當(dāng)bombing事件的victim角色。上圖中列出的其它語言模式和與每條語言模式相對應(yīng)的IE模式案例可按類似的方法解釋??梢允褂么朔椒ㄒ淮螌ι鲜稣Z言模式和IE模式解釋。AutoSlog13和PALKA13等是最早向知識獲取自動化邁進的系統(tǒng)之一。隨后實現(xiàn)的CRYSTAL和LIEP,也旨在實現(xiàn)知識獲取的自動化。但這些系統(tǒng)仍較多的依賴于手工的參與,可認(rèn)為這些系統(tǒng)僅是一種半自動化的知識獲取系統(tǒng)。如AutoSlog需要用手工標(biāo)注訓(xùn)練數(shù)據(jù),并設(shè)置啟發(fā)式搜索規(guī)則以獲取錨點(可認(rèn)為是觸發(fā)詞);CRYSTAL除了要有手工標(biāo)注數(shù)據(jù),

53、還要有語義層次和相關(guān)的詞典;PALKA需要手工定義的框架(含觸發(fā)詞)、語義層次和相關(guān)的詞典;LIEP則使用預(yù)先定義的關(guān)鍵詞和對象識別器,依賴與用戶的交互,給相關(guān)的語句分配事件類型。這些系統(tǒng)的特點是依賴手工標(biāo)記過的數(shù)據(jù)或通過與用戶的交互過程,利用加工過的語料,學(xué)習(xí)語言的模式規(guī)則,是一種典型的機器輔助式知識獲取。盡管如此,通過知識的半自動獲取,系統(tǒng)仍然可以(ky)很大程度上減少手工的參與。如AutoSlog,其輸入可描述為“標(biāo)注實例+啟發(fā)(qf)規(guī)則”,雖然該系統(tǒng)仍在一定程度上依賴于領(lǐng)域?qū)I(yè)和語言學(xué)知識,但已大大減少了手工的參與,原先需1500人小時構(gòu)建的概念節(jié)點,AutoSlog只要5人小時進行

54、(jnxng)監(jiān)督即可完成。CRYSTAL則向自動化更靠近了一步,它的輸入可描述為“標(biāo)注實例+語義層次詞典”,無須人工監(jiān)督過程即可完成學(xué)習(xí)過程。Sentence: In La Oroya,Junin department,in the central Peruvian mountain range , public buildings (bombing,TARGET) were bombed and a car was detonated.CONCEPT NODEName: target-subject-passive-verb-bombedTrigger: bombedVariable Sl

55、ots: (target(SUBJECT*l)Constraints: (class PHYS一TARGET *SUBJECT*)Constant Slots: (type bombing)Enabling Conditions: ( passive) 圖2. SEQ 圖2. * ARABIC 2一個標(biāo)注后的語句及AutoSolg從中學(xué)出的一個概念節(jié)點FP-structure = Meaning Frame+Phrasal PatternMeaning Frame:(BOMBINGis-a:(TERRORIST-ACTION)keywords:(explode,hurl, throw, exp

56、losion, bomb,explosive, dynamite, grenade.)agent:(ANIMATE) ;optionalpatient:(PHYSICAL-OBJECT) ;optionaltarget:(PHYSICAL-OBJECT) ;optionalinstrument:(PHYSICAL-OBJECT) ;optionaleffect:(STATE) ;optionalPhrasal Pattern:(BOMB) BE HUTL AT (PHYSICAL-OBJ)FP-structure:(BOMBINGtarget:PHYSICAL OBi nstrument:BO

57、MBpattern:(i nstrument)BE HURL AT(target)圖2. SEQ 圖2. * ARABIC 3 PALKA的一個(y )FP-structure的例子基于人工(rngng)語料分類的IE模式學(xué)習(xí)(xux)系統(tǒng)該類系統(tǒng)的典型代表是AutoSlog-TS,它是有Riloff于 1996年發(fā)明的。AutoSlog-TS是AutoSlog的 后繼產(chǎn)品,相比AutoSlog,AutoSlog-TS對用戶的工作量與技能要求大大降低。該類系統(tǒng)的工作原理是:由人工將語料分為領(lǐng)域相關(guān)和領(lǐng)域不相關(guān)兩類,系統(tǒng)根據(jù)這種分類方式學(xué)習(xí)出IE模式。圖2.4顯示了AutoSlog-TS學(xué)習(xí)出I

58、E模式的過程。AutoSlog-TS系統(tǒng)的輸入是用戶給出的領(lǐng)域相關(guān)和不相關(guān)文檔集及AutoSlog中用到的語言模式。AutoSlog-TS系統(tǒng)的輸出是學(xué)習(xí)出的語言模式。整個過程可以分為兩個階段。第一階段,用戶提供出領(lǐng)域相關(guān)的和領(lǐng)域非相關(guān)的語料,使用CIRCUS句法分析器對語料進行句法分析,然后根據(jù)(gnj)AutoSlog中用到的語言模式學(xué)習(xí)出相應(yīng)的Concept Node。例如(lr)句子“World trade center was bombed by terrorists”,經(jīng)過(jnggu)CIRCUS句法分析器處理的結(jié)果為:“World trade center”充當(dāng)句子的主語,“w

59、as bombed”充是句子的動詞短語,“by terrorists”是介詞短語。根據(jù)AutoSlog中用到的語言模式“passive-verb”和“passive-verb prep (np)”,生成兩個Concept Node“ was bombed”和“bombed by ”。第二階段,對于第一階段學(xué)習(xí)出來的多個Concept Node,利用CIRCUS句法分析器對這些Concept Node進行領(lǐng)域相關(guān)性打分。如果Concept Node的領(lǐng)域相關(guān)性較低,則去除這個Concept Node。例如圖2.4列出了計算出的領(lǐng)域相關(guān)性值,由于Concept Nodesaw 的領(lǐng)域相關(guān)性為49%

60、,小于50%,表示相關(guān)性較差,因此去除這個Concept Node。RRSentenceAnalyzerS:world trade centerV:was bombedPP:by terroristssAutoSlogHeuristicsConcept Nodeswas bombedbombed by RRConcept Node Dictionary:was killedwas bombedbombed by sawSentenceAnalyzerConcept Nodes REL%was bombed 87%bombed by 84%was killed 63%saw 49%圖2. SEQ

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論