XML向OWL本體的映射_第1頁
XML向OWL本體的映射_第2頁
XML向OWL本體的映射_第3頁
XML向OWL本體的映射_第4頁
XML向OWL本體的映射_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、XML向OWL本體的映射摘要:目前,XML在電子商務(wù)領(lǐng)域已經(jīng)作為一種交換數(shù)據(jù)標準被廣泛接受。但只有在商業(yè)伙伴對于其領(lǐng)域的基本概念形成一個共同理解并使用相同的語法時,他們之間的協(xié)作才能成為可能。XML能夠包括語法層,但缺少對于有效概念分享的支持。Web本體語言(OWL)使用類、屬性和實例在分布式環(huán)境例如互聯(lián)網(wǎng)中支持領(lǐng)域知識的表達。本體提供了一種XML中數(shù)據(jù)模型元素與OWL之間映射的方法,并對其在即將使用的XLST框架中的實現(xiàn)和通用應(yīng)用評估進行闡述。1 導(dǎo)言目前,XML在電子商務(wù)領(lǐng)域已經(jīng)作為一種交換數(shù)據(jù)標準被廣泛接受。但只有在商業(yè)伙伴對于其領(lǐng)域的基本概念形成一個共同理解并使用相同的語法時,他們之間

2、的協(xié)作才能成為可能。XML能夠包括語法層,但缺少對于有效概念分享的支持。Web本體語言(OWL)使用類、屬性和實例在分布式環(huán)境例如互聯(lián)網(wǎng)中支持領(lǐng)域知識的表達。本文的目的是解決XML和OWL之間的差異,我們提出了一種從現(xiàn)有XML數(shù)據(jù)中自動生成OWL本體的策略,該方法通過在XML不同數(shù)據(jù)模型和OWL本體之間建立適當映射來完成。研究者提出了很多XML與OWL映射的方法,部分方法解決XML與RDF之間的通用映射問題,而另外一些方法則解決不考慮XML實例數(shù)據(jù)時XML Schema與OWL的映射問題。但仍然沒有完整的方案來解決從一個“合法”的XML實例文檔行到OWL本體之間的轉(zhuǎn)換問題。Stefan Dec

3、ker甚至斷言,XML與RDF之間的自動映射方法是不可能的,因為XML并沒有包含任何語義約束,XML表達的是文檔的結(jié)構(gòu),但是并沒有包含任何內(nèi)容含義的信息。然而另一方面,其他的一些方法則認為XML文檔中存在語義,這些語義可以通過文檔結(jié)構(gòu)發(fā)掘出來。例如,Melnik嘗試通過一個簡單的語法來檢測XML實例文檔中的語義并將其映射到RDF文檔中,Melnik認為每一個XML文檔都包含一個RDF模型。在Vie中,作者提出了一種自動從XML內(nèi)容映射到RDF元數(shù)據(jù)的方法(WEESA),該方法通過使用一個從相應(yīng)XML Schema中創(chuàng)建的本體來完成,其本體只包含模型,并不包含實例。XML數(shù)據(jù)不會被映射到它的OW

4、L對應(yīng)項上。目前從XML Schema到OWL本體的映射是通過手動完成的,我們的目標是自動創(chuàng)建該映射。通過結(jié)合本體結(jié)構(gòu)定義的RDF標注,WEESA系統(tǒng)能夠被進一步用來生成(X)HTML網(wǎng)頁。Steve Battle Bat04的目的是描述一個XML和RDF模型之間的直接映射,而不用通過一個特定的序列化對象,例如RDF/XML。此外Steve Battle還認為,相比于Melnik試圖建立通用映射的方法,XML Schema對于指導(dǎo)映射過程是有幫助的。要補充的是,我們試圖發(fā)現(xiàn)一個中間階段,如果我們已有了一份XML Schema,我們能夠使用它創(chuàng)建相應(yīng)的OWL模型,但是如果我們沒有合適的XML S

5、chema,我們通過XML實例文檔來產(chǎn)生一個,因此,我們想在缺少XML Schema時也能抽取出概念關(guān)系。FZT04作者描述了XML到RDF和XML Schema到OWL的映射,這兩個映射相互獨立,這也就意味著OWL實例不一定要適用于OWL模型,因為XML文檔中的元素可能會被映射到不同的OWL元素中。然而,該方法并沒有繼續(xù)討論在缺少XML Schema時如果生成OWL模型。另一個比較有意思的系統(tǒng)是Piazza 系統(tǒng)HSM+03,Piazza并不將現(xiàn)有的XML數(shù)據(jù)轉(zhuǎn)換為OWL本體相應(yīng)的RDF文檔,而是通過一個中間Schema來在XML數(shù)據(jù)源對之間調(diào)整。Pizza能夠幫助創(chuàng)建巨大的語義內(nèi)部鏈接數(shù)據(jù)

6、庫,但是不能構(gòu)建集成本體。本文提出的方法與Pizza系統(tǒng)的更大的一個區(qū)別是,后者源與目標必須已知才能創(chuàng)建映射,而本文的工作只需要源文檔已知,目標本體會被假設(shè),然后產(chǎn)生合理的映射。本文提出了一個框架來執(zhí)行的轉(zhuǎn)換過程,從一個簡單的XML實例文檔,到(可能)產(chǎn)生XML Schema,最后生成帶有實例的OWL模型。本文認為XML數(shù)據(jù)包含關(guān)系數(shù)據(jù),因此我們也試圖從XML文檔中檢測關(guān)系結(jié)構(gòu),并將其存儲到數(shù)據(jù)庫中。本文提出的方法首要關(guān)注面向數(shù)據(jù)的XML,即將使用的框架實現(xiàn)了標準XML技術(shù)XLST中的映射。2、映射本節(jié)中我們將會提供一種從XML/XML Schema映射到OWL的方法,將XML源文檔提高到OW

7、L本體的層面上來。我們假設(shè)XML文檔包含關(guān)系結(jié)構(gòu)(見圖1),試圖檢測出它們并用OWL類、屬性和實例來表達出來。圖1 數(shù)據(jù)流圖XML數(shù)據(jù)模型Bos97描述了一個帶標注的節(jié)點樹,而OWL的數(shù)據(jù)模型基于RDF中主語-謂語-賓語(subject-predicate-object)的三元組。RDF-Schema BG02定義了創(chuàng)建類結(jié)構(gòu)、增加類屬性和類實例數(shù)據(jù)的詞匯表。因此我們試圖挖掘出XML的樹結(jié)構(gòu)來創(chuàng)建相應(yīng)的類層次。通過使用RDF和RDFS基礎(chǔ)之上OWL,可以表達一些例如屬性的基數(shù)約束的限制。這就確保了關(guān)系數(shù)據(jù)在OWL中的直接(straightforward)表達:關(guān)系/表相對于類,列相對于屬性,行

8、相對于實例。但是XML中關(guān)系結(jié)構(gòu)的檢測十分困難。例如,有一個更普遍的問題,如果處理嵌套(nested)標簽。一方面,它們可以被認為表達“part-of”關(guān)系,另一方面,它們可以表達“subtype-of”關(guān)系。由于關(guān)注面向數(shù)據(jù)的XML,我們可以假設(shè)關(guān)系結(jié)構(gòu)并使用源文檔中設(shè)計的隱形知識來提高優(yōu)化轉(zhuǎn)換過程。對于嵌套元素,我們選擇一個中間方法:例如,當一個元素包含另一個元素,而子元素不只一個文本(literal?)時,我們假設(shè)為“part-of”關(guān)系,即認為是1:N的關(guān)系,這種關(guān)系映射到owl:ObjectProperty中,它建立了兩類之間的關(guān)系。我們也可以創(chuàng)建“subtype-of”關(guān)系,例如我

9、們將“xsd:complexTypes”元素鏈接到一起,然后形成一個繼承元素(WTF?)。因此多重繼承也有可能(大于一個域)。根據(jù)以下規(guī)則,類(owl:Class)也從xsd:complexTypes和xsd:elements融合得到:如果源XML樹中的元素總是為葉節(jié)點,只包含文本而沒有屬性,當該類表達周圍元素時,該元素被映射到owl:DatatypeProperty對象中,XML屬性也同樣處理,即映射到owl:DatatypeProperty對象中。雖然XML屬性沒有真實的數(shù)據(jù)庫對應(yīng)對象,屬性大部分都是在面向文檔的XML中使用,這就是使得它們可以用來表達數(shù)據(jù)庫列。XML Schema也可以包

10、括數(shù)量限制例如xsd:minOccurs 或xsd:maxOccurs,我們可以將其映射到OWL中相應(yīng)的基數(shù)限制owl:minCardinality 和 owl:maxCardinality中,表1總結(jié)了具體的映射。3、例子本節(jié)我們展示一個從Citeseer元數(shù)據(jù)集的示例數(shù)據(jù)的映射。XML文檔類似于下面科技出版物的摘要(excerpt)描述。oai:CiteSeerPSU:1A title從一個XML文件示例的抽象開始,我們生成XML Schema。該XML實例自動抽取的XML Schema的片段如下所示:在執(zhí)行完轉(zhuǎn)換之后,OWL模型會包含表2中顯示的類和屬性。為了簡化問題,我們并沒有顯示OW

11、L語法。命名和命名空間(Naming and namespaces):從表2中可以看出,有一些屬性名稱在XML源文檔中沒有相對應(yīng)的部分。如果兩個元素名稱相同,但是位于輸入樹的不同級別,它們將會映射到同名的類和屬性上。這種二義性在OWL中是不被允許的,因為OWL需要每個源都有唯一的標識。因此我們?yōu)閛wl:ObjectProperties的屬性has和owl:DatatypeProperties的屬性“dtp”引入兩個前綴(prexes)。類的示例會自動為rdf:ID產(chǎn)生值。XML實例中的XML元素會根據(jù)產(chǎn)生的OWL模型自動地轉(zhuǎn)換為OWL實例。表2 Citeseer示例數(shù)據(jù)產(chǎn)生的OWL模型owl:

12、DatatypeProperties可以用兩種方式表達。第一種引用是在內(nèi)部定義owl:DatatypeProperties。oai:CiteSeerPSU:1第二種方式描述在外部定義的來自于Dublin Core Metadata Initiative的元素。A title為了更好地支持面向文檔的XML,我們也引入一個特殊的數(shù)據(jù)類型屬性。這種屬性在xsd:element 包含文本內(nèi)容且不只一個xsd:attribute時被使用。xsd:element被映射到一個OWL類,xsd:attribute映射到一個數(shù)據(jù)類型屬性,文本內(nèi)容存儲為新增OWL數(shù)據(jù)類型屬性。通過owl:DatatypeProp

13、erties這個例子我們可以看出,XML中數(shù)據(jù)類型的信息也能集成到本體中。在owl:DatatypeProperties的值域范圍內(nèi),我們使用XML內(nèi)置的數(shù)據(jù)類型BM04。4、實現(xiàn)框架映射過程通過XML stylesheet language transformations(XSLTCla99)來實現(xiàn),因此需要在不同編程語言中互操作。對于沒有附帶XML Schema的XML數(shù)據(jù),生成一個合適的中間XML Schema,完整的框架架構(gòu)圖如圖2所示。圖2 系統(tǒng)工作流程圖轉(zhuǎn)換過程最多需要三個階段(只有XML實例數(shù)據(jù)),最少一個階段(只有XML Schema)。當只處理XML Schema時,我們只創(chuàng)

14、建帶有類和屬性的本體模型。如果只有XML實例數(shù)據(jù),我們需要執(zhí)行中間步驟。首先從XML實例數(shù)據(jù)中抽取XML Schema,這樣才能創(chuàng)建下一步的模型。為了可維護性,我們決定只通過XML Schema創(chuàng)建OWL 模型,而不直接從XML實例文件來創(chuàng)建。Stefan Mintert在Min05中認為,在每一個XML實例文檔都隱式地包含一個XML Schema,因此我們可以試圖提取出來。不幸的是,這樣一個自動生成XML Schema的過程是不完全的,因為XML實例文檔沒有包括手工創(chuàng)建XML Schema所需要的足夠的信息。還有一些XML Schema組件不能(至少目前還不能)通過樣式表(styleshee

15、t)驅(qū)動的抽取機制發(fā)現(xiàn)(例如,SimpleTypes, patterns, substitionGroups, facets, ID/IDREF機制)等。此外,XML實例文檔還可能包括可選元素或?qū)傩?,這些信息在文檔樣本中可能并不存在,因此在XML Schema和OWL本體中也不會出現(xiàn)。因此,我們需要XML Schema抽取器能夠合理地表達XML實例文檔,這樣XML Schema可以成為一個良好的基礎(chǔ)。這樣一個基礎(chǔ)的另一個優(yōu)勢是復(fù)用性。XML Schema提取基于Charlie Halpern-Hamu HH99的XLST樣式表,我們已經(jīng)將其擴展到我們的框架中。樣式表的未來版本是使用多源文檔并添

16、加對于確實XML Schema組件的檢測,來提高XML Schema的提取過程。將XML實例文檔數(shù)據(jù)轉(zhuǎn)化為本體實例部分的樣式表是同時創(chuàng)建的。樣式表自動配置以O(shè)WL模型的轉(zhuǎn)換過程。它還會檢測元素是否映射到類或?qū)傩陨?,這一過程是必要的,因為XML實例數(shù)據(jù)會包括可選的元素和屬性,而創(chuàng)建的樣式表是他們的通用命名器。為了支持模型和數(shù)據(jù)的分離,OWL模型與OWL實例分開來存儲。OWL實例通過owl:import屬性來與模型關(guān)聯(lián),因此每一個引用OWL模型的OWL實例都會獲取一個修改后的命名空間前綴。到目前為止,我們的實現(xiàn)包括四個XLST樣式表,還有一個是在XML實例數(shù)據(jù)轉(zhuǎn)換為OWL實例的過程中自動生成的。該

17、框架設(shè)計為可擴展的,因此缺失XSD組件的支持能夠包含進來,對于面向文檔的XML支持也會被集成進來。5 數(shù)據(jù)用例為了評估本文提出的方法,我們使用Citeseer公開的XML格式生物數(shù)據(jù)集,以及從關(guān)系數(shù)據(jù)庫MySQL和Firebird產(chǎn)生的XML文件,以及使用Mircosoft Excel XML導(dǎo)出的XML數(shù)據(jù)。不幸的是,這些導(dǎo)出XML數(shù)據(jù)都不是純面向數(shù)據(jù)的XML,因此我們不得不多少處理一些面向文檔的XML。MySQL的XML導(dǎo)出器dump了整個數(shù)據(jù)庫,因此可以很容易的映射到本體中。我們也試圖映射諸如外鍵的關(guān)系約束,但MySQL目前還不支持。因此我們檢查了Firebird RDBMS,它可以使用

18、類似的關(guān)系約束,不幸的是,它的XML導(dǎo)出器只能將單個數(shù)據(jù)庫表導(dǎo)出到XML文件中。因為產(chǎn)生的XML Schema對于從某一確定Firebird數(shù)據(jù)庫導(dǎo)出的所有XML文檔都是通過的,OWL模型也適合所有對應(yīng)的OWL實例。另外,通過XML Schema產(chǎn)生的樣式表可以用在素有數(shù)據(jù)庫導(dǎo)出的XML文件上。最終的OWL示例可以通過owl:imports機制結(jié)合起來。這樣就產(chǎn)生了一個優(yōu)勢,即我們獲得了一個模塊化的本體。但問題是,外鍵約束并不能很容易地被檢測出來,因為XML文件中沒有標識外鍵的信息。因此很多情況下,它們只是通過列名稱(例如,author_id表示authors表中的id列),該功能計劃在架構(gòu)的

19、未來版本中添加。因為Mircosoft Excel被廣泛用于關(guān)系數(shù)據(jù)的工作中,我們也選用其作為另一個數(shù)據(jù)用例。Excel表可以被導(dǎo)出為XML文件,而Excel表與關(guān)系數(shù)據(jù)庫中的表有很多相似之處。不幸的是,Excel文件導(dǎo)出的XML是面向文檔的XML,它并不包含對于數(shù)據(jù)結(jié)構(gòu)的描述,但是可以被用來編碼樣式信息,它很難來區(qū)別一個元素是語義目的還是樣式目的。數(shù)據(jù)庫可能包含大量的數(shù)據(jù),導(dǎo)出數(shù)據(jù)的XML文件也會很龐大。因此如果scale轉(zhuǎn)換過程就很重要。轉(zhuǎn)換過程可以與原始的關(guān)系數(shù)據(jù)加載相比較,轉(zhuǎn)換Citeseer數(shù)據(jù)效率評估的結(jié)構(gòu)見表3。表3 轉(zhuǎn)換Citeseer數(shù)據(jù)的效率評估6 總結(jié)和下一步工作本文提出

20、了從已有XML數(shù)據(jù)和關(guān)系中自動產(chǎn)生本體的技術(shù)。該方法對于在語義網(wǎng)中引用和集成可轉(zhuǎn)換XML和關(guān)系數(shù)據(jù)源來說是非常重要的。OWL在語義上比我們映射結(jié)果所表達的能多,而且轉(zhuǎn)換(尤其是沒有XML Schema)可以基于啟發(fā)式(heuristic)的方法,這樣就不會產(chǎn)生最優(yōu)的結(jié)果。因此,在轉(zhuǎn)換源文檔后需要一些后續(xù)的手工工作,來優(yōu)化和適應(yīng)本體的需要。我們下一步的工作是解決XML Schema缺失的組件,因此能夠產(chǎn)生更精細和準確的本體。此外,我們計劃通過讓用戶控制轉(zhuǎn)換過程來對映射施加更多影響,以此提高對面向文檔XML(也包括混合內(nèi)容)的支持。我們也嘗試在處理OWL實例的過程中實現(xiàn)更好的效率。我們提供本文方法

21、在擴展XLST框架下的一個高效實現(xiàn)。該框架可以被任意XLST處理器來使用,并提供下載(/XML2OWL_XSLT)。參考文獻Bat04 Steve Battle. Round-tripping between XML and RDF. In International Semantic WebConference(ISWC), Hiroshima, Japan, November 2004. Springer, 2004.Bec04 Sean Bechhofer. Web Ontology Language (OWL) Reference

22、version 1.0.W3C. Tech-nical report, W3C, /TR/owl-ref/, 2004.BG02 Dan Brickley and R.V. Guha. RDF Vocabulary Description Language 1.0: RDFSchema. Technical report, W3C, /TR/2002/WD-rdf-schema-20021112/, 2002.BM04 P. V. Biron and A.Malhotra. XML Schema Part 2: DatatypesW3C

23、Recommendation.Technical report, W3C, /TR/2004/REC-xmlschema-2-20041028/,2004.Bos97 Bert Bos. The XML data model. /XML/Datamodel.html, 1997.Cla99 James Clark. XSL Transformations (XSLT). Technical report, W3C,/TR/xslt, 1999.DMvH+00 Stefan Decker, Serge

24、y Melnik, Frank van Harmelen, Dieter Fensel, Michel C. A.Klein, Jeen Broekstra, Michael Erdmann, and Ian Horrocks. The Semantic Web:The Roles of XML and RDF. IEEE Internet Computing, 4(5):6374, 2000.FZT04 Matthias Ferdinand, Christian Zirpins, and D. Trastour. Lifting XML Schema toOWL. In Nora Koch, Piero Fraternali, and Martin Wirsing, editors, Web Engineer-ing - 4th International Conference, ICWE 2004, Munich, Germany, July 26-30, 2004,Proceedings, pages 354358. Springer Heidelberg, 2004.HH99 Charlie Halpern-Hamu. Transform a sample instance to a schema. 1999.HSM+0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論