版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、基于Ontology的智能檢索技術(shù)研究與實踐 基金項目:本文受中國科學(xué)院西部之光項目:基于本體的天然藥物知識推理系統(tǒng)的設(shè)計與應(yīng)用;中國科學(xué)院知識創(chuàng)新工程青年人才領(lǐng)域前沿項目:基于本體的智能檢索技術(shù)探索與實踐資助。作者簡介:1胡正銀,男,研究生,1979,中國科學(xué)院國家科學(xué)圖書館成都分館(成都文獻(xiàn)情報中心)信息技術(shù)部工程師,四川大學(xué)公共管理學(xué)院情報學(xué)碩士研究生,已發(fā)表論文6篇。研究方向:知識管理與數(shù)據(jù)挖掘。通信地址:四川省成都市人民南路四段九號中國科學(xué)院成都文獻(xiàn)情報中心。聯(lián)系電話Email:。2方曙,男,博士,1957,中科院國家科學(xué)圖書館
2、副館長,成都分館館長,中科院研究生院情報學(xué)博士生導(dǎo)師、四川大學(xué)公共管理學(xué)院情報學(xué)碩士研究生導(dǎo)師,已發(fā)表論文60余篇。研究方向:知識管理與情報分析。3鄭穎, 女 ,博士,1973,中科院國家科學(xué)圖書館副研究員,已經(jīng)發(fā)表論文多篇。研究方向:知識管理與情報分析。4鐘秀琴,女 ,博士,1976,中科院成都計算機(jī)應(yīng)用研究所,副研究員,已經(jīng)發(fā)表論文多篇。研究方向:知識庫。Method of Development and Architecture of an Ontology-Based intelligent retrieval System胡正銀1,2 ,方曙2 ,鄭穎2,鐘秀琴3(1. 四川大學(xué)公共
3、管理學(xué)院,成都 610041;2. 中科院國家科學(xué)圖書館成都分館,3. 中科院成都計算機(jī)應(yīng)用研究所,成都 610041)【摘 要】:本文在調(diào)研基于本體智能檢索相關(guān)技術(shù)的基礎(chǔ)上,總結(jié)和討論了其建設(shè)方法與體系結(jié)構(gòu)。基于本體的智能檢索系統(tǒng)體系結(jié)構(gòu)從下至上可分為:數(shù)據(jù)層、語義圖層、推理層、查詢層、接口層。論文具體討論了一個基于中醫(yī)藥本體的實驗性智能檢索系統(tǒng)實現(xiàn)的詳細(xì)過程,重點論述了語義圖層、推理層的技術(shù)實現(xiàn),并指出了在實際建設(shè)中需注意的一些問題?!娟P(guān)鍵詞】:本體;智能檢索;知識庫;推理規(guī)則【中圖分類號】 G250 【文章標(biāo)識碼】 A1、 引言傳統(tǒng)的學(xué)科信息門戶多提供基于學(xué)科分類的資源導(dǎo)航服務(wù)與基于關(guān)鍵
4、詞匹配的檢索服務(wù),由于信息之間缺乏語意的關(guān)聯(lián),因此很難提供基于知識的服務(wù)?;诒倔w的智能檢索技術(shù)在傳統(tǒng)的關(guān)鍵詞匹配檢索的基礎(chǔ)上,通過添加了語義層,可實現(xiàn)基于語義的智能檢索,目前已成為研究的熱點1。雖然基于ontology的智能檢索技術(shù)研究仍處于發(fā)展的前期,還有很多研究難題,但其已經(jīng)引起了包括圖書情報界在內(nèi)的廣泛關(guān)注。2、 智能檢索系統(tǒng)體系結(jié)構(gòu)以語義網(wǎng)七層體系結(jié)構(gòu)為參考,基于本體的智能檢索系統(tǒng)結(jié)構(gòu)如下2 :接口層(提供用戶和應(yīng)用程序接口)查詢層(在語義圖的基礎(chǔ)上,實現(xiàn)智能查詢)推理層(提供基于規(guī)則的知識推理和知識發(fā)現(xiàn)的功能)語義圖層(對概念進(jìn)行語義描述,用定義的關(guān)系連接各種概念,并對數(shù)據(jù)庫中的資
5、源進(jìn)行語義映射,建立領(lǐng)域知識的核心語義圖)數(shù)據(jù)層(有機(jī)地整合多源數(shù)據(jù)和通用本體,并提供遠(yuǎn)程訪問接口)圖1 基于本體的智能檢索系統(tǒng)體系結(jié)構(gòu)圖Fig 1 “ontology-based intelligent retrieval” architecture diagram1、數(shù)據(jù)層:有機(jī)地整合多源數(shù)據(jù)及通用本體等,并提供遠(yuǎn)程訪問其它相關(guān)數(shù)據(jù)的接口。2、語義圖層:在已有數(shù)據(jù)庫及文獻(xiàn)資料等資源的基礎(chǔ)上,采用RDF,OWL等描述語言對數(shù)據(jù)庫的各類數(shù)據(jù)和資源進(jìn)行語義描述和關(guān)系映射,建立一個領(lǐng)域知識的核心語義圖。該語義圖可擴(kuò)展、可讀寫、可推導(dǎo)。逐步構(gòu)建領(lǐng)域的本體3。3、推理層:推理規(guī)則的提取與描述,利用推理
6、引擎如:Jena或RacePro或RDF Prolog等,實現(xiàn)知識推理和新知識發(fā)現(xiàn)的功能。4、查詢層:在語義圖的基礎(chǔ)上,利用推理功能,根據(jù)數(shù)字圖書館知識服務(wù)的需要,可建立知識查詢服務(wù)。5、接口層:在一個查詢界面下實現(xiàn)跨數(shù)據(jù)庫查詢和數(shù)據(jù)整合,使得用戶查詢更加便利和全面,提供用戶和應(yīng)用程序接口。3、 智能檢索實驗性系統(tǒng)的實現(xiàn)本文以AllegroGraph知識庫管理系統(tǒng)為基礎(chǔ),以AllegroGraph知識庫系統(tǒng)自帶的RDF Prolog語言作為推理規(guī)則描述語言,在Java環(huán)境下實現(xiàn)了一個基于中醫(yī)藥本體的智能檢索演示系統(tǒng),具體方案描述如下: 1、 數(shù)據(jù)層:在中藥專家的指導(dǎo)下,以中國中醫(yī)藥主題詞表4
7、,中國大百科全書中醫(yī)5中醫(yī)卷,國科圖成都分館自建的天然藥物數(shù)據(jù)庫相關(guān)內(nèi)容,作為本系統(tǒng)的數(shù)據(jù)源。主要涉及的數(shù)據(jù)包括:中草藥的分類及其味,性,效等屬性;中藥方劑分類療效及組成等屬性;中醫(yī)病癥的癥狀等屬性。2、 語義圖層:采用OWL描述語言對數(shù)據(jù)層數(shù)據(jù)進(jìn)行描述,建立本體文件。該本體包含相關(guān)概念之間的關(guān)系及部分中草藥,中藥方劑實例的映射關(guān)系,形成該領(lǐng)域核心語義圖。在本體的建設(shè)過程中,根據(jù)中醫(yī)藥主題詞表的分類標(biāo)準(zhǔn),采用自上而下的設(shè)計方法。如在定義中草藥類時,先定義中草藥類,然后按照其療效分別定義:安神藥,補(bǔ)益藥,解表藥等類,最后才在子類下面定義具體中草藥實例4 5。中草藥本體的結(jié)構(gòu)設(shè)計如圖2:中醫(yī)藥實驗
8、本體方劑清熱劑開竅劑安神劑清熱祛濕劑清臟府熱劑清熱解毒劑八正散白頭翁湯黃連解毒湯柏子養(yǎng)心丸中草藥解表藥辛涼解表藥辛溫解表藥白芷薄荷補(bǔ)益藥補(bǔ)氣藥補(bǔ)血藥白及白芍開竅藥安息香中醫(yī)病癥陰陽癥候虛實癥候寒熱癥候六經(jīng)癥候寒證化熱肝火犯肺陽盛格陰太陽中風(fēng)圖2 中草藥實驗本體結(jié)構(gòu)圖Fig 2 “herb demo ontology” architecture diagram其中中藥類特定屬性包括:品名、別名、性(寒、熱、溫、涼)味(辛、甘、酸、苦、咸)、功效、應(yīng)用等;方劑類的特定屬性包括:成份、主治等;中醫(yī)病癥類的特定屬性包括:癥狀等。在設(shè)計概念及實例之間相互關(guān)系時,除了owl中內(nèi)置的上下位關(guān)系 subcla
9、ssof 、同一關(guān)系:SameAs、 類-實例關(guān)系:Individual外,部分定制關(guān)系如表1:表1 本體部分屬性Table1 Part of the Meridians Ontologys Attributes謂詞DomainRange舉例iscomponent中草藥方劑陳皮是純陽正氣丸配方的一部分usezy方劑中草藥純陽正氣丸配方中有陳皮這味藥cancure方劑病癥純陽正氣丸能治療寒濕癥transfer病癥病癥寒熱癥可轉(zhuǎn)換成為寒濕癥使用Protg或TBC編輯器建立本體文件。目前本體數(shù)據(jù)持久化主要有三種方式:文件存儲、傳統(tǒng)關(guān)系型數(shù)據(jù)庫存儲、RDF三元組存儲6 7 8 :表2 本體數(shù)據(jù)持久化方
10、式Table2 Method of the ontology storage持久化方式特點文件存儲輕便快捷,適合于小型的本體庫。不需要過多的配置,便于備份,復(fù)制,編輯,且查詢速度快。缺點在于不適合較大的本體庫,每次都需要讀入內(nèi)存進(jìn)行操作,缺乏單獨的索引機(jī)制,且對于模型的修改需要一次性保存全部模型,效率不高傳統(tǒng)關(guān)系型數(shù)據(jù)庫存儲可處理更大更復(fù)雜的本體模型,標(biāo)準(zhǔn)的查詢接口,容易使用。但當(dāng)本體模型變化時,需要底層改動數(shù)據(jù)庫結(jié)構(gòu),使得維護(hù),擴(kuò)展困難,在推理方面,效率低下。針對RDBMS不能有效適應(yīng)本體模型變化的缺點,技術(shù)上常用是一種改進(jìn)方案:數(shù)據(jù)存儲與本體模型存儲相分離,即:RDBMS只存儲基本的數(shù)據(jù)信
11、息,本體模型采用單獨的本體Schema文件保存,當(dāng)查詢時,根據(jù)事實庫中的已有事實,加載規(guī)則庫中的規(guī)則,從而推理出新的事實,并將新的事實加入到OWL知識庫中,實現(xiàn)了 OWL知識庫內(nèi)容的更新與擴(kuò)充RDF三元組存儲專門針對本體存儲,知識推理開發(fā)設(shè)計。有利于存儲非結(jié)構(gòu)化數(shù)據(jù),適應(yīng)本體知識的不斷變化與累積,高效的索引與搜索性能,允許智能推理。其缺點是:檢索,推理需要單獨的語言,如:SPARQL、Prolog,標(biāo)準(zhǔn)化管理界面缺乏,相關(guān)技術(shù)人員缺乏經(jīng)分析比較,本系統(tǒng)采用專門的RDF三元組存儲系統(tǒng)AllegroGraph實現(xiàn)本體數(shù)據(jù)的持久化保存。我們認(rèn)為:專門的ontology知識庫管理系統(tǒng)必將越來越成熟,成
12、為建立知識庫的首選。3、推理層: 雖然使用OWL語言可以較好的描述領(lǐng)域之間知識的關(guān)系,但是在描述一般形式的規(guī)則時,需要進(jìn)行復(fù)雜的描述,如純粹使用OWL來描述本體之間的關(guān)系,將給知識檢索性能帶來一定的影響。而通過在語義層的基礎(chǔ)上,添加一個推理層,可以較好的解決該問題9 。推理層采用的推理機(jī)有如下類型 8 9 10:表3 推理機(jī)類型Table3 Kind of the Reasoners推理機(jī)類型特點Transitive reasoner傳遞推理是指基于具有傳遞特性的屬性進(jìn)行的推理,這種推理比較簡單,也很容易實現(xiàn)RDFS rule reasoner基于RDFS約束的子集的推理實現(xiàn)OWL/OWL m
13、ini/OWL micro reasoners基于OWL/Full子集的不完全實現(xiàn)DAML micro reasoner基于DAML的微型推理機(jī)Generic rule reasoner泛化規(guī)則引擎是基于規(guī)則的,支持用戶的自定義本實驗性系統(tǒng)采用泛化規(guī)則方式實現(xiàn)推理,具體來說采用AllegroGraph知識庫系統(tǒng)自帶的RDF Prolog語言作為推理規(guī)則描述語言,來建立推理層。Prolog作為一種邏輯編程語,建立在邏輯學(xué)理論基礎(chǔ)之上,最初被運用于自然語言等研究領(lǐng)域。現(xiàn)在已廣泛的應(yīng)用在人工智能、專家系統(tǒng)、自然語言理解、智能知識庫研究中11 。現(xiàn)將部分推理規(guī)則描述如下:zyonto是在系統(tǒng)中定義的語
14、義層本體命名空間,以下分別用ZY、ZYFJ、ZYBZ定義在推理規(guī)則中中草藥,中藥方劑,中藥病癥簡稱:- (ZY ?x) (q ?x ! rdf:type !zyonto:zy)- (ZYFJ ?y) (q ?y ! rdf:type !zyonto:zyfj)- (ZYBZ ?z) (q ?z ! rdf:type !zyonto:zybz)以下定義推理規(guī)則中基本關(guān)系:定義關(guān)系:iscomponent:Prolog描述:(- (iscomponent ?x ?y) (ZY ?x)(ZYFJ ?y) (q ?x !zyonto: iscomponent ?y)關(guān)系說明:如果x是一種中草藥,y是一
15、種中藥方劑,且x的iscomponent值為y,那么x與y的關(guān)系為iscomponent;定義關(guān)系: usezy:Prolog描述:(- (usezy ?y ?x) (ZYFJ ?y)(ZY ?x) (q ?y !zyonto: usezy ?x)或者:(- (usezy ?y ?x) (iscomponent ?x ?y)關(guān)系說明:如果x與y的關(guān)系是iscomponent,那么y與x的關(guān)系為usezy;定義關(guān)系:cancure:Prolog描述:(- (cancure ?y ?z) (ZYFJ ?y)(ZYBZ ?z) (q ?y !zyonto: cancure ?z)關(guān)系說明:如果y是一
16、種中藥方劑,z是一種中醫(yī)病癥,且y的cancure值為z,那么y與z的關(guān)系為cancure;以上三種關(guān)系本身存在與語義層的定義中(即存在于OWL文件中),在推理層中重新定義,是為了給進(jìn)一步復(fù)雜的關(guān)系推理提供基礎(chǔ)。現(xiàn)在其基礎(chǔ)上定義復(fù)雜關(guān)系:定義關(guān)系:haseffect:Prolog描述:(- (haseffect ?x ?z) (iscomponent ?x ?y) (cancure ?y ?z)關(guān)系說明:如果中藥方劑y能治療病癥z,且中藥方劑y配方中包含中草藥x, 那么中草藥x可能對病癥z有療效。可能有療效規(guī)則:haseffect是在語義層基本定義的基礎(chǔ)上推理出來的,當(dāng)語義層的基本屬性定義足夠
17、多時,可以利用這些屬性編寫出很多復(fù)雜的推理規(guī)則存儲在推理層,以供查詢層直接調(diào)用。這樣做的好處是:一方面可以簡化語義層的定義工作,避免本體文件變得龐大和不可讀;另一方面有利于查詢層的封裝與調(diào)用,否則每次查詢層進(jìn)行檢索時,都要直接利用語義層定義的屬性進(jìn)行推理,效率低下。4、查詢層: 查詢層是面向知識服務(wù)的核心應(yīng)用,不同于傳統(tǒng)的信息檢索,基于本體的智能檢索系統(tǒng)中可對用戶的查詢關(guān)鍵詞經(jīng)過一組推理操作,實現(xiàn)同義、上下位及平級擴(kuò)展 ,形成語義豐富的擴(kuò)展 概念集,再提交搜尋12。5、接口層: 本系統(tǒng)采用JSP開發(fā)了一個演示性用戶界面,用戶可以進(jìn)行一些簡單的智能檢索,如:針對寒濕癥狀可能有療效的中草藥有哪些等
18、,在此不再贅述。4、 需要注意的問題1、本體與規(guī)則的結(jié)合:單純使用OWL來描述領(lǐng)域知識間的關(guān)系,其表達(dá)能力局限于描述邏輯,在描述一般形式的規(guī)則時,需要進(jìn)行很復(fù)雜的描述,會給本體建設(shè)與知識檢索性能都帶來很大的影響9。建議在實際系統(tǒng)建設(shè)中,將推理層單獨獨立出來,使用高效的推理規(guī)則描述語言如:RDF Prolog等來對語義層基本關(guān)系重新描述,并通過對這些基本關(guān)系進(jìn)行重新組合生成更復(fù)雜的關(guān)系。而不要將所有的關(guān)系試圖全部在語義層中進(jìn)行描述。2、 采用專門的知識庫存儲系統(tǒng):關(guān)系數(shù)據(jù)庫系統(tǒng)對交易數(shù)據(jù)和數(shù)據(jù)分類很有效,但是處理關(guān)聯(lián)數(shù)據(jù)(大多數(shù)的知識都屬這一類)時就有所欠缺。此外RDBMS對知識的開放式管理支持
19、有限,當(dāng)新的知識添加或修改時,很有可能涉及到數(shù)據(jù)庫底層數(shù)據(jù)結(jié)構(gòu)的修改,不適合于知識的管理。對知識庫底層知識的存儲與管理,建議使用專門的知識存儲與管理系統(tǒng),如:AllegroGraph等6。5、 結(jié)語基于本體的智能檢索技術(shù)是目前一個比較熱門的研究熱點,國內(nèi)外很多機(jī)構(gòu)、學(xué)者對此進(jìn)行了大量研究。其涉及的內(nèi)容與技術(shù)較多,還沒有形成統(tǒng)一的模式與規(guī)范。本文在系統(tǒng)調(diào)研基于本體的智能檢索技術(shù)相關(guān)技術(shù)與方法的基礎(chǔ)上,結(jié)合基于本體的天然藥物知識推理系統(tǒng)的設(shè)計與應(yīng)用項目研究,設(shè)計了一個簡單的智能檢索系統(tǒng),并指出了在建設(shè)過程中應(yīng)注意的一些問題。由于在中醫(yī)領(lǐng)域,目前尚未建立一套完整、系統(tǒng)的本體庫,本文中涉及到的中醫(yī)藥本體尚在進(jìn)行當(dāng)中,并不完善,因此該智能檢索系統(tǒng)推理規(guī)則有限,智能檢索應(yīng)用也受到一定的限制。本文希望通過描述智能檢索系統(tǒng)建設(shè)全過程,對基于本體的智能檢索應(yīng)用開發(fā)起到拋磚引玉的作用。 參考文獻(xiàn)1 楊建林. 網(wǎng)格環(huán)境下的信息檢索J. 情報理論與實踐 ,2007,(30卷3期):88-942 李潔,丁穎. 語義網(wǎng)關(guān)鍵技術(shù)概述J. 計算機(jī)工程與設(shè)計 ,2007,(28卷8期):1831-18363 田稷語義網(wǎng)與網(wǎng)絡(luò)信息和知識的表達(dá)J情報雜志,2003;(6)4 吳蘭成. 中國中醫(yī)藥主題詞表
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育政策解讀如何更好地支持學(xué)習(xí)困難學(xué)生
- 漯河2024年河南漯河市畜牧局所屬事業(yè)單位引進(jìn)人才筆試歷年參考題庫附帶答案詳解
- 河南2025年河南省第二實驗中學(xué)招聘教師3人筆試歷年參考題庫附帶答案詳解
- 2025年華師大版九年級生物上冊月考試卷含答案
- 2025年蘇教版九年級歷史上冊階段測試試卷含答案
- 楚雄云南楚雄永仁縣縣域醫(yī)共體人民醫(yī)院編外人員招聘10人筆試歷年參考題庫附帶答案詳解
- 科技企業(yè)實驗項目合作的成功要素及案例
- 科技教育行業(yè)崗位回顧與教育科技趨勢預(yù)測
- 二零二五年度文化創(chuàng)意產(chǎn)業(yè)合作開發(fā)合同樣本6篇
- 二零二五年度智慧城市基礎(chǔ)設(shè)施建設(shè)推廣合同3篇
- 焊接機(jī)器人在汽車制造中應(yīng)用案例分析報告
- 合成生物學(xué)在生物技術(shù)中的應(yīng)用
- 中醫(yī)門診病歷
- 廣西華銀鋁業(yè)財務(wù)分析報告
- 無違法犯罪記錄證明申請表(個人)
- 電捕焦油器火災(zāi)爆炸事故分析
- 大學(xué)生勞動教育PPT完整全套教學(xué)課件
- 繼電保護(hù)原理應(yīng)用及配置課件
- 《殺死一只知更鳥》讀書分享PPT
- 蓋洛普Q12解讀和實施完整版
- 2023年Web前端技術(shù)試題
評論
0/150
提交評論