淺論一種醫(yī)療本體語義相似度算法的設(shè)計_第1頁
淺論一種醫(yī)療本體語義相似度算法的設(shè)計_第2頁
淺論一種醫(yī)療本體語義相似度算法的設(shè)計_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、淺論一種醫(yī)療本體語義相似度算法的設(shè)計摘要:由于目前檢索技術(shù)效率低下,所以需要一種基于本體的檢索技術(shù)來提高效率。語義相似度計算是基于本體的檢索技術(shù)的一個關(guān)鍵問題。本文對已有語義相似度計算方法進(jìn)行總結(jié)并改進(jìn),最后對其進(jìn)行分析。關(guān)鍵詞:本體;本體檢索;語義相似度計算1 引言隨著 Internet 的日益發(fā)展和普及,本體在信息采集、信息檢索及本體集成等方面的應(yīng)用越來越廣泛。2002年12月18日Berners-Lee在國際 XML2000 的會議提出 Semantic Web(語義網(wǎng) )的構(gòu)想1 。在 Semantic Web 中,語義相似度算法是實現(xiàn)基于本體的檢索、采集等的關(guān)鍵問題。因此語義相似度算

2、法的好壞成為信息檢索效率高低的重點(diǎn),于是改良語義相似度算法是一個迫切的問題。關(guān)于語義的相關(guān)性,國內(nèi)外專家已經(jīng)做了大量的工作: Resnik 根據(jù)兩個詞的公共祖先節(jié)點(diǎn)的最大信息量來衡量兩個詞的語義相似度。 Agirre 等在利用 WordNet 計算詞語的語義相似度時,除了結(jié)點(diǎn)間的路徑長度外,還考慮到概念層次樹的深度、概念層次樹的區(qū)域密度。魯松研究了如何利用詞語的相關(guān)性來計算詞語的相似度。 Li Sujian 等提出了一種詞語語義相似度的計算方法,計算過程綜合利用了知網(wǎng)和同義詞詞林。朱禮軍等引入了計算語言學(xué)中的語義距離思想來計算領(lǐng)域本體中概念間的相似度。本文總結(jié)前人的經(jīng)驗,并將概念的數(shù)據(jù)類型考慮

3、其中,這樣概念的語義相似度就更加精確。2 本體與領(lǐng)域本體本體 (Ontology) 作為一種能在語義和知識層次上描述信息的概念模型,自被提出以來就引起了國外眾多科研人員的關(guān)注,并在計算機(jī)的許多領(lǐng)域得到了廣泛的應(yīng)用,如知識工程、數(shù)字圖書館、軟件復(fù)用、信息檢索和Web 上異構(gòu)信息的處理、語義Web 等。2.1 本體的概念目前對本體的定義有很多,專家們認(rèn)為由Studer 等人在 1998 年提出的“本體是共享概念模型的明確的形式化規(guī)范說明。3 ”最為精確。它包含 4 層含義:概念化 (conceptualization)、明確 (explicit) 、形式化(formal) 和共享 (share)。

4、(1)概念化:指通過抽象得出客觀世界中一些現(xiàn)象 (Phenomenon)的概念模型。(2)明確:指所使用的概念及使用這些概念的約束都有明確的定義。(3)形式化:指本體是計算機(jī)可讀的(即能被計算機(jī)處理)。( 4)共享:本體中體現(xiàn)的是共同認(rèn)可的知識,反映的是相關(guān)領(lǐng)域中公認(rèn)的概念集,它所針對的是團(tuán)體而不是個體。2.2 本體的分類Guarino5 在1997 年對本體依照領(lǐng)域依賴程度,分為頂級(top-level)、領(lǐng)域 (domain)、任務(wù) (task)和應(yīng)用 (application) Ontologies 共 4類。其中: (1)頂級 Ontologies 描述的是最普通的概念及概念之間的關(guān)系

5、,與具體的應(yīng)用無關(guān),其他種類的 Ontologies 都是該類 Ontologies 的特例。(2)領(lǐng)域 Ontologies 描述的是特定領(lǐng)域中的概念及概念之間的關(guān)系。(3)任務(wù) Ontologies 描述的是特定任務(wù)或行為中的概念及概念之間的關(guān)系。( 4)應(yīng)用Ontologies 描述的是依賴于特定領(lǐng)域和任務(wù)概念及概念之間的關(guān)系。本文主要就是基于領(lǐng)域Ontology來設(shè)計與研究語義相似度計算方法。3 語義相似度計算語義相似度是判斷幾個概念之間的語義的相似程度。在信息檢索中,它反映的是用戶查詢關(guān)鍵詞的意義上的符合程度。3.1 語義相似度計算原則語義相似度的計算原則是為了本體內(nèi)部概念間相似度計

6、算更加準(zhǔn)確而提出的 2 ,其內(nèi)容如下:( 1)量化原則:相似度是一個數(shù)值,取值范圍應(yīng)該在 0,1 之間 3 ,如果兩個概念完全相同,那么他們的相似度為 1,完全不同,相似度為 0。 (2)簡單性原則:計算相似度的同時應(yīng)該考慮計算復(fù)雜度 4 ,復(fù)雜度應(yīng)該盡量降低。(3)充分利用本體的特性。 (4)可調(diào)節(jié)性:可調(diào)節(jié)性是指相似度的計算結(jié)果可通過某些參數(shù)來調(diào)節(jié),詞語相似度是一個主觀性比較強(qiáng)的概念,可調(diào)節(jié)性可以滿足不同的需求,適應(yīng)不同的情況2 。(5)類型性:在計算概念相似度的時候,也應(yīng)該將概念的數(shù)據(jù)類型考慮其中,這樣能提高概念相似度的精度。(6)對稱性: Sim(C1,C2)= Sim(C2,C1),

7、對稱性有利于概念相似度之間的對比與換算。3.2 相似度計算方法本文建立了一個簡單的醫(yī)療系統(tǒng)的本體,如圖1 所示。 class:表示的是類, subClassOf:表示的是本體中最主要的關(guān)系,即概念之間子類的關(guān)系,也就是繼承關(guān)系。例如: C0 是 C1,C2 的父類,而C1 與 C2 則是 C0 的子類。利于OWL 語言構(gòu)建此本體的代碼片段,如下:( 1)語義距離:是兩個概念在本體樹中的最短距離,記作Distant(A,B) 。語義距離越大,其語義相似度越低。反之越大。兩個概念的父節(jié)點(diǎn)是同一個,那么Distance=1/n(n 表示與該節(jié)點(diǎn)有共同父節(jié)點(diǎn)的子節(jié)點(diǎn)的個數(shù))同一概念的語義距離為0。例如

8、:圖1 中所示的Distance(C5,C5)=0, Distance(C7,C8)=0.5。( 2)DataType(數(shù)據(jù)類型屬性 )的相似度:是兩個概念的數(shù)據(jù)類型的比較得出來的一個參數(shù)值,記作 SimDT(A,B) 。如果兩個概念的數(shù)據(jù)類型相同,則 SimDT(A,B)=1 。如果不同,則 SimDT(A,B)=0 。 中國(3)ObjectProperty(對象類型屬性 )的相似度 5 :是類與類之間的關(guān)系,記做 Simobject(A,B) 。和分別表示概念和的對象類型屬性的個數(shù)。 的對象類型屬性所對應(yīng)的概念為,的對象類型屬性所對應(yīng)的概念為,則概念的對象屬性的語義相似度為:(4)本體概

9、念的深度: 是概念在本體樹 中的層數(shù),記作Depth(A) 。( 5)調(diào)節(jié)因子:是為了滿足系統(tǒng)的特定需要而設(shè)定的特定參數(shù)。由于詞語相似度是一個主觀性比較強(qiáng)的概念,所以必須使用調(diào)節(jié)因數(shù)來具體情況具體分析。它通過對本體樹的廣度與深度的控制來調(diào)節(jié)特定的語義的相似度。本文用 k 來表示調(diào)節(jié)因數(shù)。 綜合得出語義相似度算法的公式: 式中 Sim(C1,C2)表示概念C1、C2 的語義相似度, Distance(C1,C2)表示概念 C1、C2 的語義距離, SimDT(C1,C2) 表示概 念 C1 、 C2 的數(shù)據(jù)類型 的相 似度,Simobject(C1,C2)表示概念C1、C2 的對象類型的相似度,

10、k 表示調(diào)節(jié)因子, Depth(C1)表示 C1 的的深度 (即本體樹中的層數(shù) ),分別是數(shù)據(jù)類型屬性和對象類型屬性在屬性相似度中的權(quán)值,且。3.3 實驗結(jié)果根據(jù)本文得出的語義相似度算法,即上述公式計算出表1 所示的本體樹的語義相似度。3.4基于本體語義相似度的應(yīng)用Begin;Input:查詢表達(dá)式Q=W1,W2, ,Wn and 語義相似度的臨界值K ;result =null,i=0;while(Qi的語義相似度>=K)resulti=Qi+ 相關(guān)概念集;i+ ;Return result;End;4 結(jié)束語人與機(jī)器之間的有語義的交流近年來成為了人們研究的焦點(diǎn)與瓶頸。本體由于其共享性和明確性以人與機(jī)器的語義交流的基礎(chǔ)進(jìn)入了人們的視野。本文通過建立本體樹,利用其層次之間的關(guān)系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論