從文本自動(dòng)構(gòu)建OWL本體的研究_第1頁(yè)
從文本自動(dòng)構(gòu)建OWL本體的研究_第2頁(yè)
從文本自動(dòng)構(gòu)建OWL本體的研究_第3頁(yè)
從文本自動(dòng)構(gòu)建OWL本體的研究_第4頁(yè)
從文本自動(dòng)構(gòu)建OWL本體的研究_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、從文本自動(dòng)構(gòu)建OWL本體的研究摘要:隨著語(yǔ)義檢索的發(fā)展,近年來(lái)涌現(xiàn)了許多基于本體的研究和應(yīng)用,但本體本身仍離不開領(lǐng)域?qū)<沂止せ虬胱詣?dòng)化的構(gòu)建,成為了本體研究領(lǐng)域的一個(gè)瓶頸。因此,本文著眼于本體的自動(dòng)化構(gòu)建,提出了一種用FCA(形式概念分析)從文本中提取并自動(dòng)生成符合W3C標(biāo)準(zhǔn)的OWL通用本體庫(kù)的方法。解決了目前本體構(gòu)建自動(dòng)化程度低,領(lǐng)域依賴性強(qiáng)的問(wèn)題,使得本體的發(fā)展和應(yīng)用不再是空中樓閣。關(guān)鍵詞:本體;形式概念分析;本體描述語(yǔ)言一、背景介紹近年來(lái),“萬(wàn)維網(wǎng)之父”Berners-Lee提出的語(yǔ)義網(wǎng)【1】的理念得到越來(lái)越廣泛的認(rèn)同和重視。在語(yǔ)義網(wǎng)層次結(jié)構(gòu)中本體(Ontology)處在核心層位置?!氨?/p>

2、體是概念模型的明確的規(guī)范說(shuō)明”,通過(guò)本體描述的概念間語(yǔ)義關(guān)系,可以進(jìn)行語(yǔ)義上的邏輯推理從而實(shí)現(xiàn)語(yǔ)義檢索。當(dāng)前的本體基本上是基于專家或詞典手工構(gòu)建的,自動(dòng)化程度很低,繁瑣而耗時(shí),難以隨著人類認(rèn)知結(jié)構(gòu)的發(fā)展對(duì)本體庫(kù)進(jìn)行自動(dòng)更新。因而,本體的自動(dòng)化構(gòu)建是個(gè)迫在眉睫的難題。要實(shí)現(xiàn)本體的構(gòu)建,關(guān)鍵在于找出概念及概念間的關(guān)系。哲學(xué)中,概念被理解為由外延和內(nèi)涵兩個(gè)部分所組成的思想單元。其中概念的外延被理解為屬于這個(gè)概念的所有對(duì)象的集合,而內(nèi)涵被認(rèn)為是所有這些對(duì)象所共有的屬性集。德國(guó)Wille R教授提出的形式概念分析(Formal Concept Analysis) 方法就是通過(guò)找出對(duì)象間的共有屬性來(lái)確定對(duì)

3、象之間的關(guān)系【2】。目前國(guó)際上利用FCA方法進(jìn)行本體學(xué)習(xí)的研究還處在探索階段,通過(guò)FCA方法得到的是一種稱為概念格的數(shù)據(jù)結(jié)構(gòu),它的層次結(jié)構(gòu)揭示了概念之間的泛化與例化關(guān)系,但與本體仍有一定差距。本文在前人的基礎(chǔ)上通過(guò)研究,實(shí)踐了一種借助FCA方法從文本中自動(dòng)提取概念及其語(yǔ)義關(guān)系并最終生成國(guó)際通用的OWL本體的方法,從而顯著提高本體構(gòu)建的自動(dòng)化程度。以上介紹了本文研究的內(nèi)容、背景和現(xiàn)狀;接下來(lái),第二節(jié)將介紹形式背景以及形式概念分析方法;第三節(jié)分析從形式概念分析方法得到的概念格的結(jié)構(gòu)特點(diǎn)及OWL語(yǔ)言的語(yǔ)義要素,給出它們之間的轉(zhuǎn)化算法;第四節(jié)將得到的OWL本體導(dǎo)入Protg進(jìn)行推理驗(yàn)證和修正,得到語(yǔ)義

4、豐富的通用本體。最后,第五節(jié)總結(jié)本文所做工作,提出下一步改進(jìn)方向。二、從形式背景到概念格2.1 形式背景介紹研究形式概念分析(FCA),通常要從形式背景(如:圖1左邊)這一基本概念開始【3】。定義1 形式背景(context): 一個(gè)形式背景K是由(O,A,R)三元組構(gòu)成,O是對(duì)象集,A是屬性集,R 是O和A之間的二元關(guān)系,表示為K=(O,A,R)且ROA。對(duì)于oO,aA,若對(duì)象o具有屬性a,則說(shuō)o與a是有關(guān)的,記為o R a ,或(o , a)R。定義2 形式概念(concept): 序偶(E,I)是形式背景K=(O,A,R)的一個(gè)形式概念C(簡(jiǎn)稱,概念),當(dāng)且僅當(dāng)EO,IA,E=I且I=E

5、時(shí)。E為概念的外延(Extent),而I稱為概念的內(nèi)涵(Intent)。定義3 格(lattice): 設(shè)( L, )是一個(gè)偏序集,如果 L 中任意兩個(gè)元素都有最小上界和最大下界,則稱( L, )為格。定義4 概念格(concept lattice):對(duì)于所有概念所屬的形式文本K而言,存在因概念層次包含關(guān)系(子概念超概念)而形成的偏序:即E1,E2均O,I1,I2均A時(shí),(E1, I1)(E2, I2) E1E2(且I2I1),則稱此偏序集為K的概念格G,此時(shí)稱(E1, I1)是(E2, I2)的子概念,(E2, I2)是(E1, I1)的超概念。根據(jù)偏序關(guān)系可生成概念格的Hasse圖。如果有

6、概念C2 C1,并且不存在另一個(gè)概念C3使得C2C3C1,則從C1到C2就存在一條邊,即C1是C2的直接超概念,C2是C1的直接子概念。如下圖1右邊所示,我們可以看出,滿足直接子概念超概念關(guān)系的所有概念節(jié)點(diǎn)的集合是一個(gè)完全格,每個(gè)概念節(jié)點(diǎn)對(duì)(E, I)都是完全對(duì),即關(guān)系R滿足以下性質(zhì)【4】:1) I = f(E) 當(dāng) f(E) = a A o E, o R a;2) E = f (I) 當(dāng) f (I) = o O a I, o R a.此性質(zhì)保證了對(duì)于同一個(gè)形式背景K而言,構(gòu)造的概念格G不受數(shù)據(jù)或?qū)傩耘帕写涡虻挠绊?,是唯一的,從而保證了算法設(shè)計(jì)的可行性。圖1. FCA示例左:形式背景K=(Ob

7、ject=1,.,4, Attribute=a1,a2, R);右:由左邊形式背景K所得到的概念格的Hasse圖通過(guò)自然語(yǔ)言處理(NLP)工具,如“Stanford Parser”軟件,可將文本提取成形如(o, a)的對(duì)象屬性對(duì)(pairs)或(o, a, R)的三元組(tuple)。例如,“Most frogs can move easily on land by jumping or climbing.”通過(guò)Stanford Parser進(jìn)行句型結(jié)構(gòu)分析和詞性標(biāo)注后可得到以下信息:amod(frogs-2, Most-1)- amod : adjectival modifier(定語(yǔ))ns

8、ubj(move-4, frogs-2)- nsubj : nominal subject(主語(yǔ))aux(move-4, can-3)- aux : auxiliary(助詞)advmod(move-4, easily-5)- advmod : adverbial modifier(狀語(yǔ))prep_on(move-4, land-7)- prep : prepositional modifier(介詞)prepc_by(move-4, jumping-9)- prep : prepositional modifier(介詞)conj_or(jumping-9, climbing-11)- co

9、nj : conjunct(連詞)抽取句子的主干,即表示主謂關(guān)系的nsubj(move-4, frogs-2)和aux(move-4, can-3),可得到(frog, can move)這樣的對(duì)象屬性對(duì)。通過(guò)處理大量文本數(shù)據(jù)便可得到相應(yīng)的形式背景,圖2是張從生物類文本得到的形式背景。圖2Live In Water形式背景2.2 概念格建格算法從形式背景生成概念格有許多建格算法【4】,本文采用Ganter的批處理建格算法【5】進(jìn)行形式概念分析,得到如下圖3的概念格:圖3Live In Water概念格自頂向下地考察這個(gè)概念格,為方便描述,稱相鄰兩個(gè)節(jié)點(diǎn)中,位于上方的是父節(jié)點(diǎn)(直接超概念),位于

10、下方的叫子節(jié)點(diǎn)(直接子概念)。圖3為便于展示簡(jiǎn)化了概念格,只顯示每個(gè)節(jié)點(diǎn)相對(duì)其父節(jié)點(diǎn)新增的屬性和相對(duì)其子節(jié)點(diǎn)新增的對(duì)象。因此,不難看出最頂端的節(jié)點(diǎn)擁有所有對(duì)象但擁有的屬性最少或?yàn)榭眨畹锥斯?jié)點(diǎn)擁有所有屬性但對(duì)象最少或?yàn)榭?。這不難理解,因?yàn)楦拍罡裰械拿總€(gè)節(jié)點(diǎn)的含義是,該節(jié)點(diǎn)中所有對(duì)象所共有的屬性,所以把越多對(duì)象放在一起,能找到的共同點(diǎn)(即共有屬性)就越少。正好說(shuō)明概念格結(jié)構(gòu)與本體想要描述的客觀現(xiàn)實(shí)是一致的。我們按節(jié)點(diǎn)生成的次序?qū)⒚總€(gè)概念格節(jié)點(diǎn)標(biāo)上序號(hào),并作為其id存儲(chǔ)到整個(gè)格數(shù)組中。其中每個(gè)格節(jié)點(diǎn)存儲(chǔ)的信息應(yīng)包括:該節(jié)點(diǎn)的對(duì)象集E和屬性集I,該節(jié)點(diǎn)新增的對(duì)象和屬性,該節(jié)點(diǎn)的父節(jié)點(diǎn)id以及子節(jié)點(diǎn)i

11、d。得到這樣的概念格后,還需理解格的語(yǔ)義信息,從中提取本體要素,并輸出生成OWL描述的本體。三、從概念格到OWL本體3.1 OWL介紹OWL(本體論Web 語(yǔ)言,Ontology Web Language)是W3C推薦的本體描述語(yǔ)言的標(biāo)準(zhǔn)。 其基本元素有類、屬性和實(shí)例【6】:(1)Class(類):類定義了一組共享某些屬性的個(gè)體所組成的集合。使用rdfs:subClassOf(子類)可以將不同的類組織成為特定的層次結(jié)構(gòu)。(2)rdfs:Property(屬性):屬性可以用于說(shuō)明個(gè)體之間或個(gè)體到數(shù)值間的關(guān)系。與類相似,屬性可以有子屬性。屬性的rdfs:domain(域)限定了可以應(yīng)用該屬性的個(gè)體

12、的類。屬性的rdfs:range(范圍)在另一個(gè)方向上限定個(gè)體的取值。(3)Individual(個(gè)體):個(gè)體是類的實(shí)例??梢杂脤傩詫⒁粋€(gè)個(gè)體與另一個(gè)個(gè)體關(guān)聯(lián)起來(lái)。3.2 概念格與OWL的轉(zhuǎn)化橫向和縱向地分析概念格結(jié)構(gòu)的邏輯含義,不難看出:概念格中超概念是子概念的泛化,相應(yīng)的子概念是超概念的例化,因此,格節(jié)點(diǎn)之間的層次關(guān)系就對(duì)應(yīng)于OWL中父類和子類的關(guān)系;其次,概念格節(jié)點(diǎn)的內(nèi)涵體現(xiàn)了該節(jié)點(diǎn)中對(duì)象所共有的屬性,即該節(jié)點(diǎn)所代表類所具有的屬性;此外,概念格節(jié)點(diǎn)的外延是該節(jié)點(diǎn)所包含的對(duì)象,相當(dāng)于類的實(shí)例。經(jīng)過(guò)以上分析和理解,得到如下FCA概念格元素的描述邏輯【7】及其與OWL中語(yǔ)義要素的對(duì)應(yīng)和轉(zhuǎn)化關(guān)系

13、:FCA元素描述邏輯OWL描述本體概念C及其直接超概念supCCsupC概念C的內(nèi)涵I=a1,a2,amC$ a1.$ am概念C的外延E=o1,o2,onC(oj)由于子類將繼承父類的所有屬性,為避免冗余,每個(gè)節(jié)點(diǎn)類只需將其相對(duì)父節(jié)點(diǎn)新增的屬性作為其屬性即可,同時(shí)還可以確定這些新增屬性的域便是該節(jié)點(diǎn)所對(duì)應(yīng)的類。同理,雖然一個(gè)實(shí)例可以屬于多個(gè)不同的類,但若所屬的類之間存在包含關(guān)系則只作為最例化的那個(gè)類的實(shí)例出現(xiàn),因此,每個(gè)節(jié)點(diǎn)類只將其相對(duì)子節(jié)點(diǎn)新增的對(duì)象作為其所代表類的實(shí)例即可。綜上所述,得到概念格至OWL本體的生成轉(zhuǎn)化算法:for (i=0;i/輸出類及其子類fprintf(outputFi

14、le, n, i);sup = getFirstSet (supC); /獲取第一個(gè)直接超概念while(sup != -1) /判斷是否還存在直接超概念fprintf(outputFile, n, sup);sup = getNextSet(supC, sup); /獲取下一個(gè)直接超概念fprintf(outputFile, n);/輸出該類的屬性if(atr = getFirstSet(newAtrs)!=-1) /判斷該節(jié)點(diǎn)是否有新增屬性fprintf (outputFile, n);while (atr != -1) /若存在新增屬性,則將新增屬性作為該類的屬性輸出fprintf(ou

15、tputFile, n, atr);fprintf(outputFile, n, i);fprintf(outputFile, n);atr = getNextSet(newAtrs, atr); /獲取下一個(gè)新增屬性/輸出該類的實(shí)例if(obj = getFirstSet(newObjs)!=-1) /判斷該節(jié)點(diǎn)是否有新增對(duì)象fprintf (outputFile, n);while (obj != -1) /若存在新增對(duì)象,則將新增對(duì)象作為該類的實(shí)例輸出fprintf (outputFile, n, obj);fprintf (outputFile, n, obj);fprintf (ou

16、tputFile, n, i);fprintf (outputFile, n);obj = getNextSet(newObjs, obj); /獲取下一個(gè)新增對(duì)象四、實(shí)驗(yàn)結(jié)果評(píng)價(jià)和修正4.1 實(shí)驗(yàn)結(jié)果展示經(jīng)過(guò)FCA處理和OWL轉(zhuǎn)化,得到Live In Water的本體片段如下:.為可視化查看生成的本體,我們將Live In Water本體的OWL文檔導(dǎo)入由斯坦福大學(xué)的Stanford Medical Informatics開發(fā)的一個(gè)開放源碼的本體編輯器Protg軟件中,以便作進(jìn)一步評(píng)價(jià)和修正。通過(guò)點(diǎn)擊Protg中的Properties標(biāo)簽可以查看類所具有的屬性。此外,用OWL Viz插件還可

17、圖形化展示該本體結(jié)構(gòu),但如圖4所示,只顯示類名,屬性和實(shí)例不可見??梢钥闯龃藭r(shí)的本體與之前的概念格結(jié)構(gòu)如出一則。說(shuō)明本體的轉(zhuǎn)化與概念格的語(yǔ)義是一致的,但由于類名只是簡(jiǎn)單地用節(jié)點(diǎn)的序號(hào)表示無(wú)實(shí)際意義,所以該本體仍待改進(jìn)。圖4 用OWL Viz查看Live In Water本體結(jié)構(gòu)4.2 本體修正通過(guò)查看類的屬性和實(shí)例,根據(jù)類所在的層次,自頂向下,借助領(lǐng)域?qū)<一蛑R(shí)庫(kù)的幫助,不難對(duì)類名進(jìn)行標(biāo)注。如:節(jié)點(diǎn)_6,它是TerrestrialPlant(陸生植物)的子類,相對(duì)其父類新增的屬性是Dicotyledon(雙子葉的),因此推測(cè)該類描述的是陸生雙子葉植物,再根據(jù)其實(shí)例Bean(大豆),將其類名精確

18、到Legumes(豆科)。由于Protg對(duì)中文圖形化的支持不理想,且考慮到數(shù)據(jù)本身為英文,故對(duì)類名的標(biāo)注仍用英文。然后,去除一些無(wú)意義的節(jié)點(diǎn),例如:對(duì)象集為空的節(jié)點(diǎn)_18。得到如下圖5語(yǔ)義信息豐富明確的Live In Water本體。該本體描述了生物有機(jī)體(Organism)的粗簡(jiǎn)分類,從生長(zhǎng)環(huán)境的角度分為水生(AquaticOrganism)和陸生(TerrestrialOrganism),從是否能動(dòng)角度分為植物(Plant)和動(dòng)物(Animal)如此交錯(cuò)劃分直至豆科(Legumes)、禾本科(Gramineae)、哺乳動(dòng)物(Mammal)、兩棲動(dòng)物(Amphibian)等具體的科目為止。使

19、用該方法生成本體,解決了手工構(gòu)建本體時(shí)對(duì)同一個(gè)類進(jìn)行不同角度的劃分的層次問(wèn)題,以及一個(gè)類隸屬于多個(gè)父類時(shí)的交叉包含問(wèn)題。該本體構(gòu)建方法的時(shí)間復(fù)雜度主要依賴于建格算法的時(shí)間復(fù)雜度,目前最快的建格算法可以達(dá)到隨屬性個(gè)數(shù)線性增長(zhǎng)的速度。由于本體一旦構(gòu)建完成就極少修改,對(duì)時(shí)間復(fù)雜度要求并不高,故不多加分析。圖5 修正后的Live In Water本體4.3 本體語(yǔ)法檢查 最后,經(jīng)racer推理機(jī)的一致性檢查,該本體不存在語(yǔ)義沖突。至此,我們得到了語(yǔ)義完整正確的Live In Water本體,完成了從形式背景數(shù)據(jù)到OWL本體的轉(zhuǎn)化。配合之前提到的自然語(yǔ)言處理工具Parser對(duì)普通文本進(jìn)行語(yǔ)法分析和提取形

20、成形式背景,輔以少許的類名標(biāo)注,便可實(shí)現(xiàn)從文本到OWL本體的自動(dòng)構(gòu)建。五、總結(jié)與展望本文提出了一種本體自動(dòng)化構(gòu)建的方法。通過(guò)自然語(yǔ)言處理工具從文本中得到形式背景,經(jīng)FCA方法從形式背景得到概念格,又通過(guò)一定的邏輯規(guī)則將概念格轉(zhuǎn)化輸出為OWL本體,最后在Protg工具中對(duì)生成的本體進(jìn)行類名標(biāo)注,得到語(yǔ)義豐富滿足邏輯推理的本體,為進(jìn)一步進(jìn)行各種諸如語(yǔ)義檢索、知識(shí)管理、數(shù)據(jù)挖掘等的智能處理奠定了基石。該方法相比其他本體構(gòu)建方法的優(yōu)點(diǎn)在于,首先,它能處理非結(jié)構(gòu)化文檔,數(shù)據(jù)來(lái)源豐富;其次,它能自動(dòng)生成OWL本體,雖然類名的描述不夠精確;最后,它解決了同一層次上不同角度的分類問(wèn)題及類之間交叉隸屬的復(fù)雜問(wèn)題

21、,這是本體構(gòu)建工程師最常面臨和最易產(chǎn)生分歧的地方。不過(guò),該方法在類名的獲取方面仍需改進(jìn),類名的手工標(biāo)注降低了該本體構(gòu)建方法的自動(dòng)化程度,下一步的研究將通過(guò)專業(yè)詞典或領(lǐng)域知識(shí)庫(kù)的自動(dòng)匹配來(lái)完成類名自動(dòng)標(biāo)識(shí)別和標(biāo)注。進(jìn)一步提高該本體構(gòu)建方法的自動(dòng)化程度,從而真正意義上實(shí)現(xiàn)本體的自動(dòng)構(gòu)建。綜上所述,本體的自動(dòng)構(gòu)建是語(yǔ)義檢索等基于本體的研究和應(yīng)用的基石,具有廣闊的研究空間和重要的研究意義。參考文獻(xiàn):【1】 宋煒,張銘.語(yǔ)義網(wǎng)簡(jiǎn)明教程.高等教育出版社【2】 Karl Erich Wolff. A First Course in Formal Concept Analysis. Faulbaum, F. (ed.) SoftStat93 Advances in Statistical Software 4, 429-438.【3】 宮玲.概念格

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論