基于主動學習的傳統(tǒng)中醫(yī)癥狀本體構(gòu)建方法研究綜述_第1頁
基于主動學習的傳統(tǒng)中醫(yī)癥狀本體構(gòu)建方法研究綜述_第2頁
基于主動學習的傳統(tǒng)中醫(yī)癥狀本體構(gòu)建方法研究綜述_第3頁
基于主動學習的傳統(tǒng)中醫(yī)癥狀本體構(gòu)建方法研究綜述_第4頁
免費預覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于主動學習的傳統(tǒng)中醫(yī)癥狀本體構(gòu)建方法研究綜述領(lǐng)域本體的構(gòu)建方法是當前本體研究的熱點問題之一。已被廣泛應用于知識工程、自然語言處理、系統(tǒng)建模、信息處理、信息檢索和語義Web、軟件復用等領(lǐng)域之中o但是,目前的領(lǐng)域本體的創(chuàng)建還缺乏系統(tǒng)的、針對所有領(lǐng)域的、工程化的方法。本文介紹一種基于主動學習的傳統(tǒng)中醫(yī)癥狀本體的文本知識自動獲取方法的設計和實現(xiàn)。通過引入領(lǐng)域本體,實現(xiàn)半結(jié)構(gòu)化文本知識的完全自動獲取。該方法具有較好的通用性,把人們從繁重的手工勞動中解放由來,并能極大地提高中醫(yī)知識獲取的效率和應用價值。【關(guān)鍵詞】領(lǐng)域本體中醫(yī)癥狀名語義標注主動學習本體(Ontology)是近年來計算機及相關(guān)領(lǐng)域普遍關(guān)注的

2、一個研究熱點,本體可以促進各種領(lǐng)域之間的交流,這種交流實現(xiàn)了給定領(lǐng)域中不同知識的重用和共享。作為一種能在語義和知識層次上描述信息系統(tǒng)的概念模型建模工具,已被廣泛應用于知識工程、系統(tǒng)建模、信息處理、數(shù)字圖書館、自然語言理解、語義Web等領(lǐng)域之中?!皞鹘y(tǒng)中醫(yī)”領(lǐng)域知識主要來源于古中醫(yī)文獻、臨床記錄、老中醫(yī)經(jīng)驗手稿等。這些知識的主要載體常常是非結(jié)構(gòu)或半結(jié)構(gòu)的數(shù)據(jù)。中醫(yī)診斷是通過對癥狀的總體觀察和分析得到結(jié)果。由此可知中醫(yī)古籍文獻中癥狀名識別問題十分重要。如何讓計算機對自由文本中癥狀名自動分析獲取知識,進行病癥診斷是知識工程領(lǐng)域需要解決的難題。知識服務離不開大型知識庫的支持。僅僅依靠繁重的手工勞動來建

3、設大型知識庫,必將嚴重影響知識服務的能力和質(zhì)量。因此,目前當務之急是尋求一種通用的自動的文本知識獲取方法。傳統(tǒng)的文本知識獲取方法主要有兩種:一種是采用通用的算法處理自然語言文本,從文本中抽取概念以及概念之間的關(guān)系。這種方法知識獲取量大,但所獲取的知識類型較單一,知識的表示形式也相對簡單。另一種方法是通過與知識工程師進行交互,使用一些知識獲取平臺或管理環(huán)境,實現(xiàn)知識的獲取。這種方法不僅手工工作量大,而且通用性也較差。鑒于現(xiàn)有文本知識獲取方法的缺陷,本文提由一種從古籍文本的表征及內(nèi)容特征生發(fā),抽取實義詞,為實現(xiàn)中醫(yī)文獻標引和檢索從單漢字層次向詞、概念層次的過渡?;谥鲃訉W習的方法進行文本標注,再進

4、行自動領(lǐng)域本體構(gòu)建。本文第1、2章介紹本體以及領(lǐng)域本體發(fā)展;第3章介紹傳統(tǒng)中醫(yī)癥狀本體的研究背景與意義;第4章介紹基于主動學習的傳統(tǒng)中醫(yī)癥狀本體構(gòu)建方法可行性分析及結(jié)果和性能評價;第5章總結(jié)全文。1研究的范疇和發(fā)展現(xiàn)狀1.1 本體的概述本體最早是一個源于哲學的概念,是一種對“存在”的系統(tǒng)化解釋,用于描述事務的本質(zhì)。后來知識工程學者借用了這個概念,在開發(fā)知識系統(tǒng)時用于領(lǐng)域知識的獲取。近年來,本體的概念被越來越多的應用于計算機知識工程領(lǐng)域,用于對客觀世界的存在進行系統(tǒng)化描述,方便知識的重用和交互。本體是用于描述一個領(lǐng)域的術(shù)語集合,其組織結(jié)構(gòu)是層次結(jié)構(gòu)化的,可以作為一個知識庫的骨架和基礎(chǔ)。1.2 本

5、體的分類目前關(guān)于本體的研究非常廣泛,尤其是在國外,許多研究組織和機構(gòu)都研究建立了各種各具特色的本體。針對目前由現(xiàn)的各種各樣的本體,也由現(xiàn)了不同的分類方法,最為廣泛的分類方法是根據(jù)本體應用主題,將這些為數(shù)眾多的本體劃分為五種類型:領(lǐng)域本體、通用或常識本體、知識本體、語言學本體和任務本體。領(lǐng)域本體主要有以下作用:可以明確專業(yè)術(shù)語、關(guān)系及其領(lǐng)域公理,使其形式化;在人與人之間、人與機器之間達到共享;實現(xiàn)一定程度的領(lǐng)域知識復用。止匕外,Guarin也提由以詳細程度和領(lǐng)域依賴度兩個方面對本體進行劃分。其中,根據(jù)本體對領(lǐng)域的依賴程度由高到低可分為四個類別:頂級本體(top-levelOntologies)、

6、領(lǐng)域本體(domainOntologies)>任務本體(taskOntologies)和應用本體(applicationOntologies)。1.3 本體的應用領(lǐng)域目前,本體已經(jīng)被廣泛應用于知識工程、自然語言處理、數(shù)字圖書館、信息檢索和Web異構(gòu)信息的處理、軟件復用、面向?qū)ο蠹夹g(shù)和語義Web等領(lǐng)域。典型的應用有:(1)基于語義的信息檢索,特別是網(wǎng)絡搜索引擎和數(shù)字化圖書館。(2)基于本體的數(shù)據(jù)集成、機器學習等。(3)領(lǐng)域本體的應用。(4)語義Web服務。(5)在線元數(shù)據(jù)管理和自動信息發(fā)布。1.4 本體研究的現(xiàn)狀對本體的研究和應用近年來發(fā)展很快。在1998年6月,第一屆“信息系統(tǒng)中的形式化

7、本體論國際會議”的召開標志著這一領(lǐng)域在逐漸走向成熟。從國外的研究情況來看,20世紀80年代末至90年代初,哲學領(lǐng)域的概念“Ontology”被AI領(lǐng)域所借鑒,本體的建模方法也初步確立,本體論把知識工程中的知識向更深入的方向推進。近年來,國外對本體建模作了大量研究并將其運用于知識工程領(lǐng)域。主要代表為:1.5 萬維網(wǎng)聯(lián)盟W3C(WorldWideWebConsortium)的研究;1.6 德國卡爾斯魯厄大學的RudiStuder,AlexanderMaeche和以他們?yōu)槭椎腁IFB研究所從事的創(chuàng)建基于本體的知識門戶和語義門戶研究;1.7 美國斯坦福大學的知識系統(tǒng)實驗室(KSD對本體建模工具和本體應用層面的研究。與國外相比,國內(nèi)無論是在理論研究、實證研究還是在技術(shù)手段的實現(xiàn)和應用方面都相對落后,與國外高水平的研究相比存在很大差距。國內(nèi)對于本體的研究大約始于20世紀90年代初。目前,國內(nèi)進行本體研究的主

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論