元數(shù)據(jù)與知識本體_第1頁
元數(shù)據(jù)與知識本體_第2頁
元數(shù)據(jù)與知識本體_第3頁
元數(shù)據(jù)與知識本體_第4頁
元數(shù)據(jù)與知識本體_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于本體的數(shù)字圖書館元數(shù)據(jù)應(yīng)用Ontology-basedMetadataApplicationforDigitalLibraries劉煒上海圖書館200031李大玲南開大學(xué)國際商學(xué)院圖書館學(xué)系300071夏翠娟華東師范大學(xué)信息學(xué)系200062摘要:本文簡要分析了知識本體對于數(shù)字圖書館的作用、功能及其實現(xiàn)方式,論述了知識本體概念的來歷、含義和目前的研究與應(yīng)用進展,以及知識本體與傳統(tǒng)的圖書分類法和敘詞表的關(guān)系,著重闡述了知識本體對于元數(shù)據(jù)方案所起到的補充和高層互操作的作用,以及建立知識本體的一般流程和方法。介紹了各種知識本體語言和工具起源、特性和發(fā)展情況,并對本體工具的性能和特性做了比較分析。Abstract:Anontologyisaformalspecificationofaconceptualization,usuallyrelatedtoaspecificdomainofknowledgelikelibraryandinformationscience.Themetadataapplicationprofilealongwiththedocumentationofitsabstractmodelcanbethoughtofaprimitiveontologyofaspecificimplementation.Classificationthemesandthesaurus,whichhavebeenusedforalongtimeinthelibraryandinformationarena,arealsoasourceofformalontologies.Afterformalizationprocessingandencodedwithstandardontologylanguages,thesekindsofconceptsystemscanbeveryusefultoestablishametadataservicebasedonontologyservicesandfulfillthehighlevelinteroperabilityofdigitallibraries.AndmanylanguagesandtoolsusedtoestablishformalOntologyareintroducedandcomparativelyanalyzedinthispaper.知識本體(0ntology)本來是哲學(xué)中的一個概念。近年來,知識本體在人工智能領(lǐng)域引起引起研究人員的興趣,并越來越多的應(yīng)用在萬維網(wǎng)信息的表示、組織與管理上,一個重要原因就是當前對基于網(wǎng)絡(luò)的知識共享和知識交換存在巨大期望和需求。隨著各種已有的和將要開發(fā)的Web應(yīng)用的不斷增多,人們希望不同的系統(tǒng)能夠共享某個共同公認的知識庫或者詞匯(術(shù)語)集合,提供統(tǒng)一的領(lǐng)域模型,這樣就極大地促進和實現(xiàn)了不同系統(tǒng)間的數(shù)據(jù)或知識共享、交換和重用。數(shù)字圖書館作為一個分布異構(gòu)環(huán)境中的知識體系,為知識的語義理解、計算機理解、計算機和人進行交互提供了應(yīng)用框架和實現(xiàn)途徑。雖然知識本體在人工智能、知識表示中已經(jīng)被廣泛的討論和實踐,但在我國圖書館情報界及數(shù)字圖書館研究領(lǐng)域中的研究僅僅局限在概念的界定和初步的理論研究層面上,對于知識本體的方法論、編碼語言、構(gòu)建工具、具體構(gòu)建缺乏實踐。本文在討論知識本體在數(shù)字圖書館中的具體作用的基礎(chǔ)上,對知識本體的語言、方法論、構(gòu)建工具進行介紹和分析,希望能夠為數(shù)字圖書館中知識本體的建設(shè)提供一個初步的理論和實踐的基礎(chǔ)。數(shù)字圖書館功能需求解決分布式網(wǎng)絡(luò)環(huán)境下系統(tǒng)或資源間的互操作問題是數(shù)字圖書館技術(shù)的核心內(nèi)容。“異構(gòu)”是指系統(tǒng)或資源在結(jié)構(gòu)上的不同,互操作是指系統(tǒng)或資源之間的兼容性或關(guān)聯(lián)關(guān)系。萬維網(wǎng)是目前最大的開放的分布式網(wǎng)絡(luò),可以看成由無數(shù)三層結(jié)構(gòu)應(yīng)用1組成的大型資源庫群(repositories)。這些資源庫群是徹底異構(gòu)的,從數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng),到數(shù)據(jù)庫系統(tǒng),到應(yīng)用系統(tǒng);從命名方式,到數(shù)據(jù)格式,到結(jié)構(gòu)模型,到用戶界面,都有可能完全不同,目前沒有多少標準規(guī)范能夠?qū)@個各個層次的異構(gòu)進行適當?shù)募s束,數(shù)字圖書館在這個方面尚缺乏完整解決方案,而且解決方案也不是唯一的。從體系結(jié)構(gòu)上來看,“語義萬維網(wǎng)”和“Web服務(wù)”技術(shù)正在形成一套異構(gòu)系統(tǒng)互操作問題完整的解決方案。元數(shù)據(jù)提供了數(shù)字圖書館的語義基礎(chǔ),使資源有了基本的微觀結(jié)構(gòu),但是元數(shù)據(jù)并不能完全解決信息系統(tǒng)的語義異構(gòu)問題,包括資源采用不同元數(shù)據(jù)方案所造成的微觀結(jié)構(gòu)的異構(gòu)問題以及資源對象之間存在的復(fù)雜的關(guān)聯(lián)關(guān)系,知識本體在某種程度上可以看成是“元”元數(shù)據(jù),信息系統(tǒng)中不同實體對象可能采用不同的元數(shù)據(jù)方案,不同的實體對象之間的關(guān)聯(lián)關(guān)系非常復(fù)雜,知識本體能夠?qū)@些情況進行很好的描述,從而為信息的組織、管理以及檢索、查詢提供模型和方法。異構(gòu)是普遍存在的,元數(shù)據(jù)對于資源描述的特殊性和一般性的矛盾與生俱來,是其本身無法克服的。或許隨著標準化的進程,DC元數(shù)據(jù)等少數(shù)元數(shù)據(jù)格式將占據(jù)主導(dǎo)地位,然而永遠不可能統(tǒng)一到僅有少數(shù)幾種格式。許多專業(yè)或?qū)iT領(lǐng)域仍然會有大量的元數(shù)據(jù)方案,這些元數(shù)據(jù)方案可能局限于一個狹小的領(lǐng)域,其本身就是一種領(lǐng)域本體,但是只有專業(yè)的元數(shù)據(jù)對于專業(yè)的應(yīng)用才是最合適的,與學(xué)科外其他領(lǐng)域的互操作性考慮是次要因素。在網(wǎng)絡(luò)環(huán)境下要聯(lián)接這些“信息孤島”,必須有某種程度的互操作解決方案,而且最好是標準的解決方案,這就需要在元數(shù)據(jù)之上再建立某些機制,來靈活地實現(xiàn)信息系統(tǒng)之間的互操作。知識本體的本質(zhì)就是領(lǐng)域知識的共享和重用,標準化和形式化的領(lǐng)域本體能夠為信息系統(tǒng)之間的高層互操作提供很好的工具。什么是知識本體知識本體(Ontology)被賦予了太多的含義,從抽象的哲學(xué)思辨,到實用的計算機推理。牛津英語辭典里對“Ontology”的解釋是“對于存在的研究或科學(xué)(thescienceorstudyofbeing)”,人工智能領(lǐng)域經(jīng)常引用Gruber在1993年的定義“概念體系的規(guī)范”(specificationofconceptualization)1三層結(jié)構(gòu)應(yīng)用指由“瀏覽器Web服務(wù)器-數(shù)據(jù)庫服務(wù)器”組成的應(yīng)用體系,俗稱動態(tài)網(wǎng)頁技術(shù),相對于將所有發(fā)布內(nèi)容均以html文件形式存放于1三層結(jié)構(gòu)應(yīng)用指由“瀏覽器Web服務(wù)器-數(shù)據(jù)庫服務(wù)器”組成的應(yīng)用體系,俗稱動態(tài)網(wǎng)頁技術(shù),相對于將所有發(fā)布內(nèi)容均以html文件形式存放于Web服務(wù)器的B/S兩層結(jié)構(gòu)而言。見:/kst/what-is-an-ontology.html(2004/4/24)知識本體作為領(lǐng)域概念及概念之間關(guān)系的規(guī)范化描述,這種描述是規(guī)范的、明確的、形式化的,共享的?!懊鞔_”意味著所采用概念的類型和它們應(yīng)用的約束實行明確的定義。“形式化”指知識本體是計算機可讀的(即能被計算機處理);“共享”反映知識本體應(yīng)捕捉該領(lǐng)域中一致公認的知識,反映的是相關(guān)領(lǐng)域中公認的概念集,即知識本體針對的是團體而非個體的共識。知識本體的目標是捕獲相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認可的詞匯,并從不同層次的形式化模式上給出這些詞匯和詞匯間相互關(guān)系的明確定義。如果把每一個知識領(lǐng)域抽象成一套概念體系,再具體化為一個詞表來表示,包括每一個詞的明確定義、詞與詞之間的關(guān)系(例如“用”“代”“屬”“分”“參”關(guān)系等)以及該領(lǐng)域的一些公理性知識的陳述(例如“所有的期刊論文都是出版物”)等,并且能夠在這個知識領(lǐng)域的專家之間達成某種共識,即能夠共享這套詞表,所有這些就構(gòu)成了該知識領(lǐng)域的一個“知識本體”。最后,為了便于計算機理解和處理,需要用一定的編碼語言(例如RDF/OWL)明確表達上述體系(詞表、詞表關(guān)系、關(guān)系約束、公理、推理規(guī)則等)。在這個意義上,知識本體已經(jīng)成為一種提取、理解和處理領(lǐng)域知識的工具,可以被應(yīng)用于任何具體的學(xué)科和專業(yè)領(lǐng)域。實際上圖書館領(lǐng)域很早就在進行類似的工作了,主題詞表、分面分類的思想即是初始的萌芽,今天能夠通過嚴格的形式化之后借助計算機的強大處理能力,可以說對網(wǎng)絡(luò)知識的“整序”已經(jīng)呈現(xiàn)出令人激動的曙光。對某個知識領(lǐng)域每個人的認識從內(nèi)容到形式都可能是不一樣的,通用的高層知識本體(CommonOntologies)常常從哲學(xué)的認識論出發(fā),其概念的根節(jié)點往往是時間、空間、事件、狀態(tài)、對象等抽象術(shù)語,而且不一定需要形式化;領(lǐng)域本體DomainOntologies)專注于解決領(lǐng)域知識的抽象,較為具體,容易進行形式化和共享;術(shù)語本體(TerminologyOntologies)常常表現(xiàn)為一個詞表,概念關(guān)系的抽取較為隨意和簡單,不嚴格要求,甚至可以沒有概念定義,例如著名的WordNet本體;形式本體(FormalOntology)對于概念術(shù)語的分類組織要求較為嚴格,需要按照一定的分析原則和標準,明確定義概念間的顯性、隱性關(guān)系,并明確各種約束、邏輯聯(lián)系等,這類本體常常由術(shù)語本體發(fā)展而來,但卻與術(shù)語本體沒有截然的界限;另外還有表現(xiàn)本體、任務(wù)本體、方法本體、混合型本體等等。需要注意的是在圖書館界知識本體并不能簡單地等同于傳統(tǒng)圖書情報領(lǐng)域的敘詞表,它也不是一個孤立的技術(shù),從宏觀上講與元數(shù)據(jù)一樣是數(shù)字圖書館的一個重要組成部分和重要技術(shù)和工具,從微觀上講可以解決在一個系統(tǒng)中的它可以理解、表達為一組概念(如實體、屬性、過程)及其定義和相互關(guān)系。知識本體一般包含某一領(lǐng)域的概念網(wǎng)絡(luò)并通過一種“屬性-值”機制來描述每個概念的關(guān)鍵特性。該網(wǎng)絡(luò)可以是有向的也可以是非有向的。它也可能是某一特定類型的網(wǎng)絡(luò),即一種概念層次(樹)。概念之間的關(guān)系可通過附加邏輯語句加以描述。目前研究人員已經(jīng)定義了不同領(lǐng)域的知識本體模型,并且有些知識本體模型已經(jīng)投入了實際應(yīng)用,這些知識本體模型的描述方式、形式化程度、建模目標等都各不相同.如上所述,某個具體領(lǐng)域的知識本體不可能是唯一的,形式化方式手段也可以不同,但是不同的知識本體必須通過某種機制保證交換和映射的順利進行,形式化的方式也需要標準化,這就是知識本體語言的作用。知識本體的作用知識本體的作用可以從兩個角度來理解:應(yīng)用于所有領(lǐng)域知識規(guī)范化的一般作用和應(yīng)用于數(shù)字圖書館建立語義模型的特殊應(yīng)用。從一般領(lǐng)域應(yīng)用的角度來理解,知識本體主要有以下作用:在人、機器(表現(xiàn)為軟件代理)以及人與機器之間共享對于信息及結(jié)構(gòu)的共同理解這是知識本體開發(fā)最基本的一個目標。采用術(shù)語和關(guān)系來編碼領(lǐng)域假設(shè)。舉例說明,假設(shè)幾個不同的web站點包含醫(yī)藥信息或者提供醫(yī)藥電子商務(wù)服務(wù)。如果這些站點之間共享和發(fā)布他們共同使用的術(shù)語的知識本體,那么計算機代理就可以從這些不同的站點中抽取并集合信息,用這些集合的信息來回答用戶的查詢請求或作為其它應(yīng)用的輸入數(shù)據(jù)。實現(xiàn)一定程度的領(lǐng)域知識的重用促進領(lǐng)域知識的重用推動了知識本體的研究。下面給出一個知識本體在領(lǐng)域知識重用方面的例子,比如有多個不同領(lǐng)域組織的模型均需要表示時間這一概念,時間的表示包括時間間隔的概念和定義、時間指針(points)、相關(guān)的時間測量方法等。如果這些領(lǐng)域和組織中有一個組織詳細開發(fā)了滿足要求的知識本體,其他領(lǐng)域和組織就可以很方面簡單的把這個知識本體應(yīng)用到自己的領(lǐng)域中來。此外,如果需要開發(fā)一個大型的知識本體,可以通過集成描述大型知識本體某些部分的多個現(xiàn)成的知識本體來實現(xiàn)。也可以通過重用諸如UNSPSC的通用知識本體,并對這類知識本體進行擴展來滿足我們對感興趣領(lǐng)域的描述要求。知識本體可以明確領(lǐng)域假設(shè),使領(lǐng)域公理得到明確描述從而達成共知通過知識本體可以明確領(lǐng)域假設(shè),這些領(lǐng)域知識的明確說明對于要了解該領(lǐng)域的新用戶了解該領(lǐng)域中的術(shù)語非常有用。如果關(guān)于領(lǐng)域的知識發(fā)生變化,通過知識本體可以非常容易的改變關(guān)于該領(lǐng)域的假設(shè)。如果關(guān)于領(lǐng)域的假設(shè)被隱藏到了程序語言代碼中,則這些假設(shè)非常難以發(fā)現(xiàn)和理解,更難修改,特別是對那些不懂程序的人而言更是如此。對于領(lǐng)域知識進行分析、明確,并使其形式化一旦明確說明了一個領(lǐng)域中的各種術(shù)語,就可對領(lǐng)域知識進行分析。當要重用現(xiàn)有知識本體和擴展現(xiàn)有知識本體時,對術(shù)語的形式化的分析就體現(xiàn)出它的重要價值。通常而言,一個領(lǐng)域中的知識本體的目的不局限于構(gòu)建它時的目的,而是為了領(lǐng)域知識的重用。問題解決方法、獨立于領(lǐng)域的應(yīng)用和軟件agents把知識本體和知識本體生成的知識庫作為數(shù)據(jù)來使用,在webservices中作為單個service來使用。一個應(yīng)用了知識本體和元數(shù)據(jù)的數(shù)字圖書館系統(tǒng),資源的組織在微觀層面都是依據(jù)各種規(guī)范的元數(shù)據(jù)方案,資源之間的宏觀聯(lián)系依據(jù)知識本體所形式化的聯(lián)系模型,知識本體使各類元數(shù)據(jù)方案聯(lián)系成一個立體的知識網(wǎng)絡(luò),并能使資源按照知識網(wǎng)絡(luò)中的不同屬性,或同一種屬性的不同編碼體系,呈現(xiàn)出規(guī)范有序的知識地圖,供瀏覽或檢索。并且還可以通過開放某些標準的元數(shù)據(jù)接口,或提供某些可供各式轉(zhuǎn)換的映射表,向某些登記系統(tǒng)(例如UDDI)進行注冊,從而達到更大范圍的互操作。在數(shù)字圖書館中知識本體的主要作用有如下一些:提供與描述型元數(shù)據(jù)有關(guān)語義描述的知識地圖元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),雖然在不同的領(lǐng)域中定義不盡相同,但是其基本的含義卻是對資源對象固有屬性的描述,無論對元數(shù)據(jù)怎樣分類,總體來說,可以認為元數(shù)據(jù)都是描述性的。元數(shù)據(jù)提供了數(shù)字圖書館的語義基礎(chǔ),使資源有了基本的微觀結(jié)構(gòu),但是元數(shù)據(jù)并不能完全解決信息系統(tǒng)的語義異構(gòu)問題,包括資源采用不同元數(shù)據(jù)方案所造成的微觀結(jié)構(gòu)的異構(gòu)問題以及資源對象之間存在的復(fù)雜的關(guān)聯(lián)關(guān)系,知識本體在某種程度上可以看成是“元”元數(shù)據(jù),信息系統(tǒng)中不同實體對象可能采用不同的元數(shù)據(jù)方案,不同的實體對象之間的關(guān)聯(lián)關(guān)系非常復(fù)雜,知識本體能夠?qū)@些情況進行很好的描述,從而為信息的組織、管理以及檢索、查詢提供模型和方法。異構(gòu)是普遍存在的,元數(shù)據(jù)對于資源描述的特殊性和一般性的矛盾與生俱來,是其本身無法克服的?;蛟S隨著標準化的進程,DC元數(shù)據(jù)等少數(shù)元數(shù)據(jù)格式將占據(jù)主導(dǎo)地位,然而永遠不可能統(tǒng)一到僅有少數(shù)幾種格式。許多專業(yè)或?qū)iT領(lǐng)域仍然會有大量的元數(shù)據(jù)方案,這些元數(shù)據(jù)方案可能局限于一個狹小的領(lǐng)域,其本身就是一種領(lǐng)域知識本體,但是只有專業(yè)的元數(shù)據(jù)對于專業(yè)的應(yīng)用才是最合適的,與學(xué)科外其他領(lǐng)域的互操作性考慮是次要因素。在網(wǎng)絡(luò)環(huán)境下要聯(lián)接這些“信息孤島”,必須有某種程度的互操作解決方案,而且最好是標準的解決方案,這就需要在元數(shù)據(jù)之上再建立某些機制,來靈活地實現(xiàn)信息系統(tǒng)之間的互操作。知識本體的本質(zhì)就是領(lǐng)域知識的共享和重用,標準化和形式化的領(lǐng)域知識本體能夠為信息系統(tǒng)之間的高層互操作提供很好的工具。從而提供與描述型元數(shù)據(jù)有關(guān)語義描述的知識地圖。提供資源庫領(lǐng)域知識的規(guī)范描述當前不同的機構(gòu)和部門根據(jù)自己的需要建設(shè)了形式多樣,內(nèi)容各異的資源庫,這些資源庫包括各種教育資源庫、法律資源庫、地方志資源庫、傳媒資源庫、專業(yè)技術(shù)資源庫等等,其中教育資源庫涵蓋了從小學(xué)、中學(xué)到大學(xué)、從個人教案到國家級的資源庫,種類繁多。如果能夠充分利用這些資源庫將會促進各行各業(yè)的知識共享和迅速發(fā)展,降低成本,避免重復(fù)建設(shè)。但是當前實際情況卻是這些資源庫一般沒有完整的結(jié)構(gòu)、存在重復(fù)建設(shè)、數(shù)量龐雜、形式不規(guī)范等問題。如果我們把知識本體引用到資源庫的建設(shè)中,通過知識本體對資源庫的領(lǐng)域知識進行識別和規(guī)范描述,達成領(lǐng)域內(nèi)關(guān)于知識和概念及概念關(guān)系之間的共識。這樣引入了知識本體點各種資源庫就能夠?qū)崿F(xiàn)真正的重用和共享,能夠解決資源庫建設(shè)中存在的問題。提供元數(shù)據(jù)映射方案,集成到數(shù)字圖書館體系中的元數(shù)據(jù)服務(wù)中,成為協(xié)議的一部分在數(shù)字圖書館中,存在著各種各樣的信息系統(tǒng),要實現(xiàn)這些異構(gòu)、分布的系統(tǒng)之間的互操作是一個難題,解決異構(gòu)系統(tǒng)之間的互操作的一種解決方案是采用元數(shù)據(jù)。但是不同的系統(tǒng)中存在著不同的元數(shù)據(jù)方案,這些方案采用的標準不同,相同的術(shù)語可能存在不同的語義,不同的術(shù)語的語義又可能相關(guān)。元數(shù)據(jù)知識提供的只是這些異構(gòu)分布系統(tǒng)互操作的一個基礎(chǔ),所以需要在元數(shù)據(jù)之上采用一種新的技術(shù)和方法來實現(xiàn)這些元數(shù)據(jù)之間的互操作,才能夠?qū)崿F(xiàn)這些系統(tǒng)之間的互操作問題。這種技術(shù)和方法采用高層互操作協(xié)議。這種高層互操作協(xié)包括元數(shù)據(jù)交換協(xié)議和相關(guān)知識本體協(xié)議。元數(shù)據(jù)交換協(xié)議能夠?qū)崿F(xiàn)元數(shù)據(jù)之間的映射,但對于元數(shù)據(jù)及信息系統(tǒng)之間的互操作,還要在元數(shù)據(jù)交換協(xié)議基礎(chǔ)上采用知識本體,實現(xiàn)這些元數(shù)據(jù)方案之間的語義映射、不同的元素之間的關(guān)系定義及規(guī)則約束,從而真正實現(xiàn)這些異構(gòu)分布系統(tǒng)之間的語義互操作。提供智能代理與信息環(huán)境之間基于語義的理解機制智能代理指的是一種計算機技術(shù),這種技術(shù)模仿人的行為執(zhí)行一定的任務(wù),而且在執(zhí)行這個任務(wù)的時候不需要或很少需要人的干預(yù)與指導(dǎo)。智能代理的主要功能有,管理個性化的信息代理庫,主要可以管理用戶個人資料及其個人目錄下的信息庫;信息自動通知,當信息用戶指定了特定的信息需求之后,智能代理能夠自動探測到信息的變化和更新,進而將其下載到數(shù)據(jù)存儲地存放起來,同時智能代理能將該信息自動地提示給用戶;瀏覽導(dǎo)航,信息用戶如果愿意在網(wǎng)上去沖浪,智能代理能分析到該用戶所感興趣頁面所屬領(lǐng)域,并能向該信息用戶建議與該領(lǐng)域更密切的頁面或鏈接;智能搜索,信息用戶在網(wǎng)上搜索信息時,往往為搜索到的信息太少或可用度差。而智能搜索,能夠根據(jù)信息用戶的特定需求,進行信息過濾為用戶提供更精確的搜索信息;生成動態(tài)個性化頁面,智能代理能依據(jù)信息是所存放的信息動態(tài)地生成網(wǎng)絡(luò)頁面,給信息用戶提供一個適宜的而友好的瀏覽界面。此外,智能代理還具有監(jiān)督代理,協(xié)調(diào)與解決沖突等功能。信息環(huán)境,指的是一個社會中由個人或群體接觸到的信息及其傳播活動構(gòu)成的環(huán)境。從上面對智能代理和信息環(huán)境的含義中,我們可以看出智能代理必須與信息環(huán)境之間實現(xiàn)語義理解,而不是僅僅通過關(guān)鍵詞的匹配,才能夠?qū)崿F(xiàn)它的功能。這種語義理解實際上包括,計算機與人之間和計算機與計算機之間的相互語義理解。而知識本體在URI、XML、RDF、RDFS和元數(shù)據(jù)的基礎(chǔ)上,提供領(lǐng)域知識的概念體系的確定,為智能代理和信息環(huán)境之間提供基于語義的理解機制。跨平臺、跨系統(tǒng)之間的通信中介正如本文概念界定中指出,數(shù)字圖書館是提供異構(gòu)信息系統(tǒng)的互操作的一種環(huán)境,在這個環(huán)境中,分布異構(gòu)的不同信息系統(tǒng)之間可以實現(xiàn)互操作。而實際情況是,由于這些信息系統(tǒng)是徹底異構(gòu)的,從數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng),到數(shù)據(jù)庫系統(tǒng),到應(yīng)用系統(tǒng);從命名方式,到數(shù)據(jù)格式,到結(jié)構(gòu)模型,到用戶界面,都有可能完全不同,目前沒有多少標準規(guī)范能夠?qū)@個各個層次的異構(gòu)進行適當?shù)募s束,數(shù)字圖書館在這個方面尚缺乏完整地解決方案,而且解決方案也不是唯一的。從體系結(jié)構(gòu)上來看,“語義萬維網(wǎng)”和“Web服務(wù)”技術(shù)正在形成一套異構(gòu)系統(tǒng)互操作問題完整的解決方案。知識本體作為語義萬維網(wǎng)中的重要技術(shù)和工具,可以通過為不同的領(lǐng)域構(gòu)建領(lǐng)域知識本體(domainontologies),然后再在這些領(lǐng)域知識本體之間建設(shè)上層知識本體(upper—ontology),結(jié)合其他技術(shù)來實現(xiàn)這些系統(tǒng)的互操作,實現(xiàn)這些系統(tǒng)跨平臺和系統(tǒng)的信息系統(tǒng)之間的通信。分布環(huán)境下查詢請求的語義理解現(xiàn)階段查詢請求主要是通過對查詢語句進行解析,解析成一個個的單詞然后進行關(guān)鍵詞的匹配,把匹配的結(jié)果按照一定的算法的進行過濾和排序提供給用戶。一般沒有對其語義進行解析。有的系統(tǒng)是通過抓取web頁面head區(qū)的元數(shù)據(jù)來提供一定的相關(guān)理解,或通過內(nèi)容敏感鏈接來查找相關(guān)的信息。對于查詢請求的語義理解特別是基于自然語言的理解,和查詢請求在分布環(huán)境下的分發(fā)依舊是一個難點。假設(shè)一個領(lǐng)域中都建設(shè)了相應(yīng)的知識本體,那么基于自然語言的查詢請求就可以翻譯成某一個領(lǐng)域知識本體中公認的概念組成的查詢請求,再通過知識本體的影射和互操作實現(xiàn)對不同領(lǐng)域中相關(guān)主題和不同語言的相關(guān)主題的檢索。這樣就實現(xiàn)了對查詢請求的語義理解。比如要查詢“熟悉XML的專家”,如果按照關(guān)鍵詞檢索的方式,檢索的命中結(jié)果中需要包含“熟悉”、“xml”、“專家”。如果某個專家出版了一本關(guān)于XSLT的書,在該專家的著錄中沒有包含xml,那么這個專家就被排除在檢索結(jié)果之外了。采用知識本體則能夠提高命中率??此坪唵蔚臋z索式涉及復(fù)雜的邏輯概念、語義和語法關(guān)系,如果一本書的主題是關(guān)于XSLT的,那么這本書的作者就符合檢索表達式。數(shù)字圖書館中的數(shù)據(jù)挖掘數(shù)據(jù)挖掘是一個人機交互、不斷重復(fù)的過程,專家的領(lǐng)域知識或背景知識的應(yīng)用對挖掘過程具有補充和促進作用,經(jīng)常用作引導(dǎo)發(fā)現(xiàn)過程以避免無意義的結(jié)果。另外,一般數(shù)據(jù)挖掘方法僅僅在數(shù)據(jù)庫內(nèi)容上產(chǎn)生規(guī)則,規(guī)則難以理解,領(lǐng)域知識或背景知識的應(yīng)用可產(chǎn)生易理解的規(guī)則。知識本體是知識表示的一種形式,它能將領(lǐng)域知識表示成挖掘算法能夠理解的形式。知識本體已經(jīng)被應(yīng)用到數(shù)據(jù)挖掘中,這些于知識本體的數(shù)據(jù)挖掘主要有基于知識本體的多媒體數(shù)據(jù)挖掘、基于知識本體的web數(shù)據(jù)挖掘、基于知識本體的數(shù)據(jù)挖掘智能助手、網(wǎng)格計算中數(shù)據(jù)挖掘知識本體等方面。在數(shù)據(jù)挖掘中我們可以采用基于知識本體的智能發(fā)現(xiàn)助手(IDA)來協(xié)助數(shù)據(jù)挖掘。通過知識本體來形式化處理前要用到各種預(yù)處理的概念和處理、形式化演繹的各種算法、形式化處理后的一些轉(zhuǎn)化和模型,從而可以根據(jù)不同的用戶提供的數(shù)據(jù)挖掘的各種參數(shù),滿足用戶的數(shù)據(jù)挖掘需求,有效改善數(shù)據(jù)挖掘的效果。也可以通過用知識本體來形式化明確說明多媒體和web數(shù)據(jù),來把知識本體應(yīng)用到數(shù)據(jù)挖掘中去。針對上一節(jié)提到的元數(shù)據(jù)標準規(guī)范的問題,知識本體正好從某種程度上彌補了元數(shù)據(jù)的

不足:元數(shù)據(jù)方案不具有普遍適用性。無法克服特殊性與一般性的矛盾,而形式化的知識本體可以提供一種在元數(shù)據(jù)方案之間自動映射的機制,通過語義Web服務(wù)的體系架構(gòu)進行實現(xiàn);元數(shù)據(jù)應(yīng)用難以實現(xiàn)元數(shù)據(jù)方案本身的進化,而知識本體可以提供信息系統(tǒng)的其它視圖,只需要通過自動或半自動的手段應(yīng)用新的元數(shù)據(jù)方案;元數(shù)據(jù)方案自身難以對不同知識體系、不同“粒度”的資源進行描述,而知識本體正是起到這個作用,從而實現(xiàn)異構(gòu)資源和系統(tǒng)之間的語義聯(lián)系;單純的元數(shù)據(jù)方案對于數(shù)字資源的整個生命周期的描述非常困難,而采用以諸如FRBR模型為基礎(chǔ)的知識本體,這個問題便迎刃而解,不同生命周期的知識產(chǎn)權(quán)屬性也非常易于描述;除此之外,知識本體同時也在一定程度上解決了諸如靈活性和可擴展性問題,以及在資源集合層面的整合的難題。知識本體如何實現(xiàn)功能知識本體作為數(shù)字圖書館語義模型的形式化,主要功能體現(xiàn)在信息資源的組織和信息檢信息組織信息檢索索查詢兩個方面,如圖1所示:信息組織信息檢索表現(xiàn)層本體層元數(shù)據(jù)層內(nèi)容層圖1:基于本體的信息系統(tǒng)模型數(shù)字圖書館的資源不論是虛擬的還是實在的,不論涉及單個還是多個信息系統(tǒng),其涉及的實體類型往往不可能是單一的,這些類型之間也往往具有復(fù)雜的關(guān)系,因此很難用一套平面的元數(shù)據(jù)方案進行數(shù)據(jù)組織。例如傅雷翻譯羅曼.羅蘭的作品《約翰.克利斯朵夫》,曾經(jīng)有譯林出版社2002年、哈爾濱出版社2000年、中國友誼出版公司2000年、河南人民出版社1998年、安徽文藝出版社1990年……平明出版社1952年等數(shù)十家出版社幾十個版本,并且還有翻譯手稿、有聲讀物、衍生電影、戲劇劇本和聲像資料、英文原版著作等相關(guān)資料以及傅雷和羅曼羅蘭生平資料等等,這些信息不論是否存在于分布的信息庫中,都應(yīng)該通過一定的方法進行有效的映射和描述,但顯然現(xiàn)有的平面的元數(shù)據(jù)方法是無法實現(xiàn)的,但是利

用本體模型(例如用ABC本體模型,見圖2所示3)卻能清晰準確地揭示這些資源對象的各類屬性及相互關(guān)系,這種描述方式對音像出版物等多媒體資源所涉及的復(fù)雜責(zé)任關(guān)系和版權(quán)關(guān)系特別有幫助。知識本體模型原本就是對領(lǐng)域知識的歸納和形式化,目的就在于共享和重用,因此特別適合作為信息模型對知識系統(tǒng)進行描述、表達和呈現(xiàn)。如果我們把圖書分類法看成一種基本的簡單的知識本體,一個書目數(shù)據(jù)庫就可以按照分類法的層次結(jié)構(gòu)組織成一個龐大的樹,每一片葉子就是一本書。這樣可以形成一個簡單的、一維的知識導(dǎo)航地圖。當我們同時采用分類主題詞表或其它分面分類方法對資源的內(nèi)容從不同的“本體”角度進行揭示,整個資源庫(數(shù)字圖書館)就有了多維的導(dǎo)航機制。更進一步,通過不同知識本體的映射可以動態(tài)建立從一個信息庫到另一個信息庫的語義連接,這種連接并非預(yù)先設(shè)立的,而是“后組”的。并且如果有本體注冊服務(wù)中間件或代理進行自動的翻譯、映射服務(wù),就能從很大程度上解決知識的跨庫提取、動態(tài)瀏覽展示以及異構(gòu)系統(tǒng)的動態(tài)勾連等問題,實現(xiàn)數(shù)字圖書館徹底解決異構(gòu)信息檢索的目標也就為期不遠了。1866ST4羅曼羅蘭BiographWK0inStirthasTranslation傅雷MN4“2小時”hasiograpWK1電影”hasR<hasRdlationtesFomatEV0手稿“精裝”ST1rdfType“平明版”“1952”asOutpEVIMN1“^平裝”MN2atTimetTimerdfType1866ST4羅曼羅蘭BiographWK0inStirthasTranslation傅雷MN4“2小時”hasiograpWK1電影”hasR<hasRdlationtesFomatEV0手稿“精裝”ST1rdfType“平明版”“1952”asOutpEVIMN1“^平裝”MN2atTimetTimerdfType“安徽文藝版“1990”sOutputJaslnputEV2ST2圖2:ABC本體模型描述傅雷翻譯作品《約翰克里斯朵夫》對于查詢請求來說,知識本體的應(yīng)用能夠?qū)崿F(xiàn)許多以前無法實現(xiàn)的查詢請求,例如基于多種關(guān)聯(lián)關(guān)系的查詢:“何時何地何人做了什么”。并且基于查詢處理中介或代理的幫助,查詢提問式可以智能地處理成復(fù)合不同資源集合的規(guī)范詞或者表達式形式,自動分發(fā)到不同的資源站點進行查詢,同時還可以對返回結(jié)果進行基于本體的排序處理,將最終結(jié)果返回給用戶。3本例的資源對象關(guān)系分析把傅雷的譯作當作對原作的再創(chuàng)作,作為具有翻譯關(guān)系的“作品”(WK1)。本體描述語言語義web語言源于歷史上開發(fā)的多種基于web標準的語義描述語言,其中不少就是以描述和構(gòu)建知識本體為目的而開發(fā)的。SHOE(SimpleHTMLOntologyExtensions)SHOE是一種基于HTML的知識表示語言,由美國馬里蘭大學(xué)(UniversityofMaryland)并行理解系統(tǒng)組(ParallelUnderstandingSystemsGroup)于1996年開發(fā)。SHOE對HTML進行擴展,使其能夠用HTML格式對知識進行表示。HTML并不是一種計算機能夠“理解”的語言,它的功能只限于將數(shù)據(jù)表示出來供人閱讀。HTML的“知識”一些是通過自然語言,另一些是通過陳列圖表等來表示,這都是人能理解的方式,計算機很難理解這些知識。SHOE試圖提供一種對信息進行標注的方法來表示知識。其提供一套必要的標簽(tag)將專用的語義數(shù)據(jù)加到Web資源當中,從而對知識進行表示。這些標簽分為兩類:一類是為構(gòu)建各種知識本體來使用的,另一類是用來標注web文件。對于第一類,SHOE的知識本體是規(guī)則的集合,其用來規(guī)定SHOE文檔可產(chǎn)生什么類型的聲明以及這些聲明是什么意思。對于第二類,標注web文檔的標簽用來描述一個或多個知識本體,聲明數(shù)據(jù)實體,并且再SHOE的知識本體預(yù)先描述的規(guī)則霞產(chǎn)生關(guān)于則會些實體的聲明。SHOE允許表示概念、概念分類、n元關(guān)系、常量以及推理規(guī)則,其推理引擎可以通過這些推理出新知識?!癒nowledgeAnnotator"工具可用于在HTML中嵌入知識本體信息。XOL(XML-basedOntology-exchangeLanguage)XOL(XMl—basedOontology—exchangeLanguage)是SRI人工智能中心于1999年開發(fā)的一個XML化的知識本體交換語言,其從OKBC(OKBC—Lite)協(xié)議繼承了一個小的源語子集。XOL起源于BioOntologyCoreGroup發(fā)起的生物信息學(xué)(bioinformatics)知識本體交換語言的研究,該研究需要一種能表示面向?qū)ο蟮恼Z義又基于XML語法的語言,XOL被設(shè)計來滿足該要求。后來XOL成為一種通用的語言,可被用于任何領(lǐng)域知識本體的描述和交換,因此被看作是一種在不同的數(shù)據(jù)庫、知識本體開發(fā)工具或應(yīng)用系統(tǒng)之間傳遞知識本體的中介語言?;赬ML的語法使得XOL可以在一個平面文件(flatfile)中描述知識本體,并容易通過web方式在不同應(yīng)用開發(fā)者中間傳遞oXOL為人可讀的,在適當復(fù)雜度的情況下可以被程序解析。XOL是一種受限比較嚴格的語言,僅能對概念、分類以及二元關(guān)系進行表述,并且XOL沒有提供推理機制°XOL沒有專門的編輯工具,但可用XML編輯器生成XOL文檔。OML與CKMLOML(OntologyMarkupLanguage)是1999年由美國華盛頓大學(xué)(WashingtonUniversity)開發(fā)的一種對知識本體進行說明的語言。OML建立在描述邏輯和概念圖(conceptualgraphs)的基礎(chǔ)上,允許用藝界邏輯語言來表示概念、分類、關(guān)系和公理oOML由四層組成,OMLCore:最基本,用該層來進行比較;SimpleOML,該層負責(zé)直接與RDF/RDFS映射;AbbreviatedOML,該層包括概念圖特征(features);StandardOML,該層是最完備的一級。OML沒有專門的編輯工具,可以XML編輯器代替CKML(ConceptualKnowledgeMarkupLanguage)5可以看作是建立在OML之上并對其進行擴展的知識本體描述語言。CKML和OML一樣同時具有描述邏輯和框架的特征,都采用XML來表示語法。CKML、OML和simpleOML的關(guān)系如圖表2所示。圖表1CKML、OML、SIMPLEOML的關(guān)系SimpleOML也成為核心OML。OML主要特征集中于一個基礎(chǔ)的“分類映射圖”(classificationprojectiondiagram)上,而simpleOML的主要目標是表達這個圖的語義,simpleOML還定義了其與RDF(S)和XMLSchema之間的交互性。除了作為CMKL和OML的核心以外,simpleOML能表示函數(shù)、具體化(reification)、基數(shù)約束、逆反關(guān)系及集合。OML用來表達知識本體和模式的結(jié)構(gòu)。知識本體的結(jié)構(gòu)包含類、關(guān)系、對象及約束。OML用圖表3的三層約束表達(參見圖表3),自上而下分別是序列(sequents)層、二元關(guān)系算子層和邏輯表達層。序列(sequents)層對信息流的理論約束(theoryconstraints)進行建模。二元關(guān)系算子層的設(shè)計主要考慮針對二元關(guān)系約束在實踐上的重要性以及處于核心地位的分類投射語義相一致。而邏輯表達層采用聲明的方式來表示概念圖的知識模型,從而使其與概念保持嚴格一致。Hierarchical:sequentsRelational:calculusofbinaryrelationsLogicalexpressions圖表2OML的三層約束表達5/gcaconfs/WEB/ts1313/tp1313.HTMCKML為分布的信息提供了一個概念化的知識表達框架。在OML的元素基礎(chǔ)上,CKML還包含了信息流(informationflow)的基本元素(分類、理論、解釋及局部邏輯)。因此CKML實在概念圖、正規(guī)概念解析及信息流的基礎(chǔ)上建立起來的非常接近于一種基于知識本體建模的描述邏輯語言。RDF簡介語義web的首要目的就是要讓計算機能夠?qū)π畔⒌恼Z義進行處理,W3C標資源描述框架(ResourceDescriptionFramework,RDF)為基于元數(shù)據(jù)的語義表示提供了基礎(chǔ)。RDF為在web上應(yīng)用系統(tǒng)間進行機器可理解信息的交換提供了互操作能力。為了描述機器可處理的數(shù)據(jù)的語義,RDF定義了一個基本他的數(shù)據(jù)模型,其包含三種對象類型:資源(resources):一個資源可以是一個完整或部分的網(wǎng)頁、網(wǎng)頁集合、不需通過web訪問的任意對象。通常資源用URI來命名。屬性(properties):屬性使用來描述資源的一個特定方面、特征、品質(zhì)及關(guān)系等。聲明(statements):—個RDF的聲明是一個特定資源和一個被命名的屬性加上這個屬性的取值形成的集合。一個聲明由三個部分組成:主語(subject)、謂語(predicate)、賓語(object)、從其核心來看,RDF定義了一個“對象一屬性一取值”三元組作為其基本的建模原語并在其之上引入了一套標準的語法。例如:<rdf:RDF><rdf:Descriptionabout=""><publisher>worldwidewebconsortium</publisher></rdf:description></rdf:RDF>表示(主語)的publisher是(謂語)W3C(賓語)。既然許多聲明的主語和賓語都可以是資源,那么許多聲明就可以連成鏈:<rdf:RDF><rdf:Descriptionabout="heep:///home/lassila"><Creatorrdf:resource="/staffId/857140></rdf:Description><rdf:Descriptionabout=”/staffId/85740"><Email>lassila@</v:Email></rdf:Description><rdf:RDF>說明“heep:///home/lassila”(主語)是由編號為85740的職員(賓語)所創(chuàng)建的,在接下來的聲明中,相同的資源(編號為85740的職員)扮演了主語的角色,并聲明了他的電子郵件為lassila@。最后,RDF聲明本身也是資源,所以聲明可以反復(fù)在被用于聲明,從而允許形成網(wǎng)絡(luò)。RDFSchema簡介RDF所提供的建模原語非?;A(chǔ),只是提供了一個模型,因此需要對其作進一步擴展。RDFSchema在RDF基礎(chǔ)上增加了許多語義原語,用來更進一步增加對資源語義上的描述能力,如類、屬性、類和屬性之間的隸屬關(guān)系等。常用的RDFSchema原語包括:rdf:Resource、rdfs:Class、rdfs:Liternal、rdf:Property、rdfs:range、rdfs:domain、rdf:type、rdfs:subClassOf、rdfs:subPrppertyOf等。這些描述機制是單純的RDF所不具備的。另外對于RDFSchema和XMLSchema,除了名字上的相似以外,并沒有角色上的相同之處。XMLSchema(包括DTD)描述的是一個XML文檔中所使用的標簽(tag)的順序和組合,定義了XML的語法,;而RDFSchema提供的是對RDF建模表示的聲明進行解釋說明的信息(語義),但并不對一個RDF描述的語法外觀進行約束。RDFS雖然能表示語義,在某一程度上也能用它來表示ontology,但是它沒有足夠的vocabulary(可以理解為標簽)來表示完整意義上的知識本體。RDF/RDFS的工具有:Amaya,ProtQgQ,Mozilla,SilRI等等。我們將在第二節(jié)介紹OWL語言時說明相關(guān)的RDF、RDFS原語的使用方法。OntologyInferenceLayer(OIL)作為一種語義web語言的OIL6(OntologyInterfaceLayer)時On-To-Knowledge計劃的產(chǎn)物。On-To-Knowledge計劃時歐洲的幾所大學(xué)、研究機構(gòu)和公司于1999年發(fā)起的,其目標是支持有效的基于知識的管理,注重于對網(wǎng)上弱結(jié)構(gòu)化(weakly-struetured)信息資源的知識獲取、表示及訪問。OIL的指導(dǎo)委員會則是由美國和歐洲的幾所大學(xué)和研究機構(gòu)共同組成。OIL的實現(xiàn)基礎(chǔ)來自于三個方面:描述邏輯,提供正規(guī)語義和推理支持;基于框架的系統(tǒng)(Frame-based),提供認識論上的建模原語;基于XML和RDF語法的web標準。OIL是在RDFS基礎(chǔ)上建立起來的,其對RDFS的語義表示能力又作了進一步的擴展,這樣使得OIL能夠?qū)DFS所不能表達的語義進行表達。另外,OIL被設(shè)計為完全兼容RDF(S)標準,OIL文檔本身也是一個合法的RDF(S)文檔。能很好的表示ontology,并且能最大限度的與RDFS兼容,即可以相互轉(zhuǎn)換。OIL的設(shè)計目標如下:提供描述基于框架和面向描述邏輯的知識本體所使用的大多數(shù)通用的建模原語。具有簡單、清晰和定義良好的一階邏輯語義提供自動的推理支持,又曼徹斯特大學(xué)開發(fā)的FaCT系統(tǒng)及DL(DescriptionLogic)推理器來完成。OIL分四個層次,CoreOIL層,該層實現(xiàn)直接與RDF/RDFS映射;StandardOIL層:InstanceOIL層,該層允許Concepts有實例;HeavyOIL層,該層是最完備的一級。OIL的編輯工具有:OILED,Protege2000,WebODE。DAML+OIL2000年8月,美國DARPA啟動了一個為期六年的計劃,目的是發(fā)展一系列技術(shù)使軟件Agent能夠?qū)π畔①Y源進行動態(tài)地確認和理解,并為Agent之間提供基于語義上的互操作能力。DAML(DARPAAgentMarkuplanguage)是這個計劃第一階段所創(chuàng)建的一種語義web語言,它允許用戶在其數(shù)據(jù)上標記語義信息,從而使計算機能對所標注的信息資源進行“理解”。2000年12月,美國和歐洲兩個組織成立聯(lián)合委員會將DAML和OIL合并,命名為DAML+0IL7,并提交給W3C討論,使其成為未來語義Web標準描述語言的基礎(chǔ)。DAML+OIL也是在W3C早期的標準如RDF和RDFSchema基礎(chǔ)上建立起來的,并且用豐富的建模原語對它們進行了擴展。DAML+OIL知識基礎(chǔ)是RDF三元組的集合°DAML+OIL使用自己的詞匯給RDF三元組以具體的意思表述。DAML+OIL將整個世界劃分為兩個不相交的部分。一部分是由屬于XMLSchema數(shù)據(jù)類型(datatype)的值所組成的,稱作數(shù)據(jù)類型域。另一部分則是由(單個)對象所組成的,這些對象應(yīng)被看作是DAML+OIL(或RDF)中所定義的類的成員,此部分稱作對象域。DAML+OIL的編輯工具有:OntoEdit.Protege2000,WebODE。OWL8DAML+OIL在提交給W3C后,發(fā)展成了OWL(WebOntologyLanguage)。OWL作為W3C的推薦標準9,是其所倡導(dǎo)的語義萬維網(wǎng)(SemanticWeb)的核心技術(shù)之一,意在提供一種語言,能夠用于描述Web文檔和應(yīng)用中固有的類和類之間的關(guān)系。它通過定義類和類的屬性來形式化一個領(lǐng)域,聲明和定義對象和對象的屬性,以及在OWL形式化語義允許程度上對類和對象進行推理。OWL建立在RDF和RDFSchema的基礎(chǔ)上,但增加了更多的詞匯,具有更強大的描述能力來描述類之間的關(guān)系(如:"剝離(disjointness)”),集的基數(shù)(cardinality)(如“恰好是1”),等同關(guān)系,更豐富的屬性類型和屬性特征(如"對稱(symmetry)")等等。OWL語言提供三種表達能力依次增強的子語言,設(shè)計子語言的目的是用于具體的實施團體和用戶團體。OWLLite支持的用戶是那些需要一個分類體系和簡單約束功能的人。例如當OWLLite支持集的約束時,它只允許集的的值為0或者1。為OWLLite提供敘詞表和分類法的快速移植支持功能,應(yīng)該比為其它的表達能力更強的子語言提供這樣的支持功能更為簡單。OWLDL支持的用戶是想獲得最大表達能力,完全計算能力(所有的推論都可計算)以及確定性(所有的計算都在限定時間之內(nèi)完成)。OWLDL包括所有OWL語言的約束如類型區(qū)分(typeseperation)。(一個類不能同時也是一個對象或者屬性,一個屬性不能同時也是一個對象或者類)。OWLDL之所以這樣命名是由于它和描述邏輯(DescriptionLogics,一個研究一階邏輯的某一部分的研究領(lǐng)域)1啲一致性(correspondence)。OWLDL的設(shè)計目的是支持現(xiàn)有的描述邏輯和為推理系統(tǒng)提供預(yù)期的計算屬性(computationalproperties)oOWLFull支持的用戶是想獲得最大的表達能力但不確定是否需要計算性,并的RDF句法上的自由的用戶。例如,在OWLFull中,一個類能能同時作為對象的集合,它本身也可以作為一個對象。與OWLDL的/TR/daml+oil-reference/TR/2004/REC-owl-guide-20040210//TR/2004/REC-owl-features-20040210//TR/2004/REC-owl-guide-20040210/#DescriptionLogics另一個很大的不同是:一個owl:DatatypeProperty能標記為:owl:InverseFunctionalProperty。OWLFull允許一個本體增加一個前控(RDForOWL)詞表的意義。需要注意的是,任何推理軟件都不可能支持OWLFull的每個功能。每個子語言都是比它簡單的前一個子語言的擴展,不僅擴展了能被合法地表達的事物,還擴展了能被有效地推理的事物。下面的關(guān)系是正確的,反之則不正確。每個合法的OWLLite本體是一個合法的OWLDL本體。每個合法的OWLDL本體是一個合法的OWLFull本體。每個有效的OWLLite推論是一個有效的OWLDL推論每個有效的OWLDL推論是一個有效的OWLFull推論。采用OWL的本體開發(fā)者應(yīng)該考慮到哪種子語言更適合他們的需要。選擇OWLLite還是OWLDL,要根據(jù)用戶對OWL所提供的表達能力的約束能力的需求程度。用于OWLLite的推理器(Reasoners)將有令人滿意的計算屬性,而用于OWLDL的推理器在遇到其它具有確定性的子語言時,將按最壞情況處理,服從復(fù)雜性更高的子語言。選擇OWLDL還是OWLFull主要根據(jù)用戶對RDFSchema建模工具的需求程度(例如:定義類的類)。OWLFull和OWLDL比較,對推理的支持比預(yù)期的相對較弱。各種知識本體語言及其與XML、RDF的關(guān)系OILDAMLOWLXOLSHOEOMLRDF/RDFSXML圖表3各種知識本體語言及其與XML、RDF的關(guān)系圖知識本體語言還有許多欠缺,離真正的系統(tǒng)實用還有一段距離要走;OWL有W3C支持,又吸取了其他知識本體語言的精華,有望成為最流行的知識本體描述語言,尤其在webservice與語義網(wǎng)絡(luò)方面。知識本體的創(chuàng)建知識本體有多種形式。元數(shù)據(jù)方案本身可以看成是知識本體的一種形式,或者一類簡單的本體。元數(shù)據(jù)方案的制定是對一個應(yīng)用系統(tǒng)相關(guān)的實體進行分析并提取屬性的過程,如果在此基礎(chǔ)上繼續(xù)對所涉及的各種實體類型的關(guān)聯(lián)關(guān)系進行詳細分析,最終就能導(dǎo)出本體模型。元數(shù)據(jù)方案的制定過程就是一種知識本體的建立過程。除此之外,許多敘詞表和分類表等本身就是領(lǐng)域知識的概念體系,包含豐富的關(guān)系,雖

然許多關(guān)系可能不是非常嚴密,但它們也都可以看成是一類知識本體。上述兩種知識本體的初級形式經(jīng)過規(guī)范化和形式化之后,都可能成為計算機可以操作的本體工具。目前支持本體開發(fā)的工具多達數(shù)十種,功能各不相同,對于本體語言的支持能力、表達能力、邏輯支持能力以及可擴展性、靈活性、易用性等都相差很大,其中較著名的有ProtQgQ-2000、OntoEdit、OilEd、Ontolingua等。Protege-2000是目前較活躍的本體工具,是可以免費獲得的開放軟件,目前的版本是2.0.1版,已經(jīng)有16500多注冊用戶使用。它用Java語言開發(fā),通過各類插件支持多種本體格式,甚至已經(jīng)能夠支持剛剛發(fā)布的,也是目前最有前途的W3C的OWL格式。本體創(chuàng)建階段知識工人(圖書館員)領(lǐng)域?qū)<易罱K用戶知識工人(圖書館員)領(lǐng)域?qū)<易罱K用戶下面分別介紹一些主要的本體創(chuàng)建的工具,并對這些工具進行簡要的比較。Apollo11Apollo是一種友好的知識本體開發(fā)應(yīng)用。圖表6是Apollo的界面,界面的左上部分是知識本體的列表,左下部分是類和實例的列表。當選擇了一個類或?qū)嵗?,該類或?qū)嵗脑敿毿畔@示屏幕的右半部分。類或?qū)嵗牟酆椭稻涂梢杂秒娮颖淼男问教砑印?/p>

fb-世電kma甘fccwn肆鼻fb-世電kma甘fccwn肆鼻HHnr^iiHi.ranri-rinfckchHiiLi^7宦ipnWM刖屜「?EWW<■fk審1?*也齊j?uLikoi-fa-%Ui||■Ftralitm-vInuIQiI<1-,md^/Kn^ir<i4*匱的iw魁:UlisiFlitfuii倍斶"?4I護'KU* gI切YT-s-ofinlTKi sinrgMsn*■"戶ironmnl-z>T3bm-e*?..冃加efl.EEW■諒iltH勵盼驗爭B呻艸wejyn“舟対回鹵叫*"'■livnniii.4inJSB"t■ait|ugj|||nd|3lfiuqji日曲it3||iiii-M?nl4hi&両slim.-理黔QI£u屮ISilmmn也野i.ihIIdnuHlKiik^vHmi3rnonul4LiMr?tti-利iChd4tkhniiAi■Ncyriivmrm詡nrqiw工彌帆更里匹gj?fAiiiiE .ImnferAIEftRAR.n竈穌|"1]hujiiiin¥r.Siihri 'ihi^iNlrii?Mihl心ici.Euwm專 L':^-ciniM^^ilwtiUrlllE -A1 iH1lysI-kk mrac^-xysOini呻F■=列I口單事IHfMI冊卿氣hrHF13|阿■GE^lLEUOIl'yysteii曲曲旳關(guān)*91?¥dLul,匕jn■啟ngjjiFi曲iid學(xué)勺|P曲i丨叭tfVMjI匸但:圖4:Apollo的界面Apollo支持知識模型中的所有原語:知識本體、類、實例、功能和關(guān)系。在編輯過程中完成一致性的檢測。Apollo有自己內(nèi)部的存儲知識本體的語言,也可以把知識本體輸出到其他描述語言中,這根據(jù)用戶的要求來定。Apollo采用Java語言。LinkFactory?12LinkFactory?是由Language&Computingnv開發(fā)的一個形式化知識本體管理系統(tǒng),用來建設(shè)和管理非常龐大和復(fù)雜的獨立于語言的形式化知識本體。LinkFactory?由兩個主要的組件構(gòu)成:LinKFactory?server和workbench(客戶端組件),兩個組件都由JAVA開發(fā)。在服務(wù)器端,LinkFactory?把數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫中。數(shù)據(jù)庫的訪問被抽象成處理知識本體的一個功能集:獲取兒子、發(fā)現(xiàn)路徑、合并概念、從概念中獲取術(shù)語等。軟件客戶端通過標準的API訪問這些功能,在對數(shù)據(jù)庫內(nèi)部結(jié)構(gòu)不了解的情況下,這些API實現(xiàn)在語義數(shù)據(jù)庫頂層的應(yīng)用。這個組件能夠處理多個并行用戶,獨立于平臺。應(yīng)用要求運行RMI注冊(一種RMI服務(wù)器的域名服務(wù)器),從而使客戶能夠連鏈接到RMI服務(wù)器。Workbench組件允許用戶對多個知識本體瀏覽和建模和結(jié)盟。workbench通過JAVAbeans實現(xiàn)的一個動態(tài)框架。每一個beans有特定的功能,有基本的形式知識本體的受限的試圖,把beans的一個集合和并可一位用戶提供瀏覽和管理數(shù)據(jù)的有效工具。Javabeans的例子有:概念樹、概念準則、概念的詳細定義、鏈接類型樹、規(guī)則列表、術(shù)語列表、搜索格(pane)、屬性格(pane)、反向關(guān)系等。用戶可以利用這些beans生成多個視圖,這些視圖稱為布局。每一個布局由多個框架構(gòu)成,這些框架是為了放beans用的。生成一個新的布局和在布局中添加一個框架非常簡單,可以利用菜單來完成。每一個框架可以分割成多個區(qū)域,每個區(qū)域放置一個beans。用戶可以通過選擇提供的beans并把它們拖放到欲放置的領(lǐng)域即可。當用戶把beans放置在布局中后,就可以在beans之間生成鏈接。Javabeans不僅可以在LinkFactoryWorkbench,中實現(xiàn)相互之間的連接而且可以用于工作空間之外,從而使軟件開發(fā)者可以把它們集成為一個組件,用于他們自己的程序中。建模知識本體,需要幾個質(zhì)量保證機制:版本、用戶跟蹤、用戶層次、正式約束否決的可能性、相似檢測、鏈接類型體系結(jié)構(gòu)等。從知識表示和蘊含的推理的角度,LinkFactory?有以下特點和可能性:包含ISA、DISJOINT和SAME-AS關(guān)系可限定的關(guān)系多層次結(jié)構(gòu)(多種層次)為單個概念的定義提供了必要的和充分的詳細說明多種約束檢驗方法自然語言術(shù)語和形式概念定義基礎(chǔ)上的新概念自動分類多個知識本體之間映射和合并的機制文本的自動分析和為知識本體設(shè)置鏈接的可能性-d|l ■-rlphiaiiiljLyiEp出! lr i■譏.?!籋pih/i-rr's'--!l?■a4.MHWU-d|l ■-rlphiaiiiljLyiEp出! lr i■譏.叮』Hpih/i-rr's'--!l?■a4.MHWU■ n■hrfaBiTi■!.-J-*昉4EPF"h-AHiL>VbKM ?三4隔*iUluLCOici^GE41■^:J:nlE^mi=RE<iJ二 fcii丄申“2勺■:?F=F*呼lf■碼出L;hsT鼻脾釀f■機nyi^U*lklUI1imTD:rt£呀?-EAiRil.'itft.7■!::-■-■■!?--■/?A:11>H=rriAnriFUSAh'-rr-*3r*缶rG區(qū)ftw冶壯5F-1WI?iPLAE-YXf^U-lM u'[*:ircii■aSOMEETi:JWU>liUM-JIUTE^^EU!StEMI|£._rLE£U11F;CT-5K JMI一^kk:LHJbmxLldM?■?—k?idavmLMM :ImJ■1A1.I1In.I1taILIIH.ir'iibll"fadtalV.IldHIL.IIk^LHCII^hl-lt<if.iiwili|LJii!iraji—ti.1pMHHrrtiri.ama*i-dl .■..,|^—1-nai4!il■■■■g』L-;UflAL-1LVI*'-ILUU_:rUjniAUlJ KC|=KJUAZ"ii"4H+EhJE^iburIIIIIHIlu.ISJCiT*ITil^.ruil-U.IZIjjjcr-vlmliLiLmif*lA^atunttvrE=n?nir7"Itinnnnrum?i*—KL|H1|I .ri.1-LdU*.UAUim=_Ji.:IU^iIL-KbV°BulThJl*11bl;l!iraUM1-1Ii?wi?7iVi±■:IHlillij^*11hixrrC-wi-irIfiamuf"eul^ec.9-ni~ramL>^^KnLiSlUcrll:1>U;'XU^UlUAULULEilL^Uy,.hII-hLUIuuujgrr^rirj-z^.s■時5s.?■i.xi>i-inrl^nriirPl:斜HiinrMIJIEL■UhdI''?ifdta-Ir.x-^i.hltl-aUi!STLidpBLAMiL| UtrtS .JUdCiXLQJLhLtJuA?-Lt?L"JUliid!LU丄…】::Ilf:iFTTri^.■mxiifSFEi.biiEw^i?T%-n,T-*sdHHJewjjiiiri-ninnfElyAJi-jiiu■mun. iii>i?ranl?i4uri->尹川卅I iW "Sb^L—.^V.F--JH*inMr ■■r-i■IPv hii|!?i^inrir?rEjrrva.hinrrnrn\ruht;nuicei.*gULLbE7t£&nui<|^吊purmufcung.tubii'.-yr.-l'Liiii.|Jiiism^t.EkiLLk-fa-'AHiiruItL'.Uvj'L°ivnniiini\tfMnnnndiHfinMMABH^--^aunK^rriimuna:■ :|EJI1J:丄==Ffe^'i_ -” ■[■i”ig” 」 “ ?■":-[ _j_j-ir^na>J pi.fr.3b"LaTZ.C■■uijnnmiihiiipm|?.\ hJ:■-冷!T--■■C!?■■?H「J■「?"「_!? -nn,■■?r■8i-IHFCKj!2lkaiFir^euLLuje.tilmmn(TI町用抽曲■■■n ■ :■riiincniir-. '■.p-n C|itorlw^B1P****!1"**rrfiiii■hb^M'lliUIIA^Vta1haMMLlUlUULIlMI^L■■MiWWI*r?=&sw札旺哄加Ii ■rroo.jTO■皿J「' ■4EI.ilk - 'IH^AUirF訂絹■ra.iH .?5Rr^HRf-R-- lir—*MQ-ThhUniwrrncmiTirnri■nnniirirmiiT■=*ran"ImiriiJ"匹:ii.~l&UXZELk4^:b-lEJUIhl-i:?□jU'f^L-aljrdUl'■££” IFJJ.F?"llll'EPims^rici>H-^¥-M■■>:■!--IH=:$l:.j?=:Li-riHR.!|FiFteiSl^ii-L:-^:!1ir-t■--■?IBJ&CCCPC^^IHJ4ULH&-*Ji=*0^TH4iii&CiCflEEfr-!■jur\ir:y^-b-s.t.:r?srE-i<tii^i「EnfE-*T II ":■和 EHUFriiL-,"!沁-亠 z*wr;0PHF-rfTn^fli-知方hiJOIJkA.rC|-irF-Lar.ni Fl^iiCKEI1l-i IIIISCiCr.lidlBnCll>工□JiEKEJn'Oln^ZE4□J1ll')i¥ai:ICkD:'rU!>t ]■frr?rrr j 七 ■' - 1-A-■圖5:LinkFactory?workspace構(gòu)建知識本體OILEd13OILEd是一個由曼徹斯特大學(xué)開發(fā)的一知識本體圖形編輯器,用來利用DAML+OIL來構(gòu)建知識本體。OILEd是基于DAML+OIL的,并采用類框架的建模描述表達方式進行了擴展,這樣OILEd在支持所需要的DAML+OIL豐富的可表達性的同時,提供了一個建模的熟悉的類框架范式。類是根據(jù)它們的超類和屬性限制和附加的抓取深層關(guān)系的公理來定義該表達能力強大的知識模型允許使用復(fù)雜綜合的描述作為功能填充。這可與現(xiàn)有的基于框架的編輯器(框架使用前必須先定義)相比。OILEd的主要任務(wù)是編輯知識本體或schemas。OILEd行為的關(guān)鍵方面是采用推理器對知識本體進行分類和通過把DAML+OIL翻譯成SHIQ描述邏輯來檢驗一致性。這實現(xiàn)了用戶描述知識本體類,用推理器來決定定義在概念體系中的恰當位置。圖表8表示的是概念定義被判斷為不合適的情形。DAML+OILRDFSchema用來裝載和存儲知識本體。除此之外該工具可以以純RDF文件形式讀寫概念結(jié)構(gòu),并可以把知識本體定義成用HTML瀏覽的知識本體,也可以把知識本體定義成SHIQ,為后期FaCT推理器進行分類。概念體系結(jié)構(gòu)可以生成AT&Tdotty工具可讀的格式。OILEd3.4版用JAVA語言開發(fā),可以從OILEd站點上免費獲取。OntoEditFreeandProfessionalversions14OntoEdit是一個知識本體工程環(huán)境,支持采用圖形方式構(gòu)建和維護知識本體。OntoEdit建于內(nèi)部知識本體模型的頂層。在本題工程生命周期的不同階段有不同的知識本體支持模型的圖形視圖。該工具允許用戶編輯概念和類的層次結(jié)構(gòu)。這些概念可以是抽象的也可以是具體的,這些概念指出是否可以直接包含實例。一個概念可以有多個名字,這為概念定義了同義詞,該工具提供簡單的復(fù)制、粘貼功能。該工具基于靈活性大的插入式框架,可以實現(xiàn)以組建化方式擴展工具的功能。插入式界面是公開的,用戶可以方便的為OntoEdit添加功能進行擴展。提供插件集為用戶提供了個性化的工具應(yīng)用,根據(jù)不同的用途場景個性化的調(diào)整工具。OntoEdit的所有版本都有免費和專業(yè)版兩種。專業(yè)版包括額外的插件集,比如合作環(huán)境和推理能力。OntoEdit的專業(yè)版相對于免費版而言,還擴展了其他的功能,如一致性檢驗、分類和規(guī)則執(zhí)行的推理插件;知識本體的合作工程;管理知識本體庫、知識本體的合作共享和長久存儲的知識本體服務(wù)器。OpenKnoME15KnoME是一套用GRAIL概念模型語言來合作開發(fā)知識本體的工具。Tigger是工具中的一個重要組成部分,用來從沒有經(jīng)過知識本體工程培訓(xùn)的領(lǐng)域?qū)<夷抢镅杆佾@取知識。這些工具是免費的可以在OpenKnoME的網(wǎng)站上免費獲取。GRAIL的特征有:求精(refinement),協(xié)調(diào)傳遞與包含的關(guān)系。約束(Sanctioning),描述范疇與屬性結(jié)合在一起來生成新的定義時的約束條件,并明確可感知的和有意義的條件。非本征(Extrinsics),未定義的知識與概念框架的連接,使默認推理中為特定信息的應(yīng)用提供索引成為可能。用分段語法來生成GRAIL的自然語言表示。KnoME不是一個獨立的系統(tǒng),它可以與GALEN術(shù)語服務(wù)器(TeS)通過良好定義的API進行通信。GRAIL資源北轉(zhuǎn)化到經(jīng)過編譯的概念模型。TeS利用不同的模塊提供不同的服務(wù)來存儲和維護概念模型。API使知識本體和使用知識本體的客戶之間有明顯的區(qū)別。知識本體被看作一個服務(wù)而不是數(shù)據(jù)結(jié)構(gòu)。通過服務(wù),KnoME可以對知識本體進行瀏覽、探索、觀察和質(zhì)量控制。因為知識本體是一個服務(wù),知識本體的傳遞不是把它輸出到一個靜態(tài)的表單中而是作為一個TeS被客戶請求和使用。Protege-200016http://www.ontoprise.de/com/start_downlo.htmProtege-2000由斯坦福大學(xué)為知識獲取而開發(fā)的一個工具。Protege-2000可以免費下載,它提供了一個圖形和交互式的知識本體設(shè)計和基于知識的開發(fā)環(huán)境。協(xié)助知識工程師和領(lǐng)域?qū)<彝瓿芍R管理任務(wù)。知識本體開發(fā)人員可以在需要時迅速訪問相關(guān)的信息,可以直接實施導(dǎo)航和管理知識本體的操作。樹型控制實現(xiàn)了在類層次結(jié)構(gòu)中進行迅速和簡單的導(dǎo)航。Protege采用表單作為輸入槽值的界面。Protege-2000的知識模型與OKBC兼容。包括支持類和類層次結(jié)構(gòu)的多繼承,模板和私有槽,槽的任意面和定義前的明確說明,明確說明包括值、基數(shù)約束、默認值、逆轉(zhuǎn)槽、元類和元類的層次結(jié)構(gòu)。除了高度方便使用的界面,Protege-2000有兩個重要的特征,使它從多數(shù)的知識本體編輯環(huán)境中脫穎而出,即可伸縮性和可擴展性。開發(fā)者可以用Protege-2000來構(gòu)建和使用包括150,000個框架的知識本體。對包括成千上萬個框架的知識庫的支持包括兩個組件,一個是后端的數(shù)據(jù)庫來對數(shù)據(jù)進行存儲和查詢,另一個是緩沖機制,解決的問題是一旦框架的個數(shù)超出了內(nèi)存的限制,如何加載一個框架。Protege-2000體系結(jié)構(gòu)的最主要的優(yōu)勢就是它的開放的模塊化的風(fēng)格?;诮M件的體系結(jié)構(gòu)使系統(tǒng)開發(fā)者可以通過生成恰當?shù)牟寮嗽黾有碌墓δ?。插件可以分為三類,一類是后端插件,使用戶可以以多種格式來存儲和輸入知識庫;一類是slotwidgets類插件,用來為特定的域或特定的任務(wù)合并槽或顯示和邊界槽值;第三類是tab插件,通常與Protege知識庫一切,提供基于知識的應(yīng)用。后端插件支持在RDFSchema、帶DTD的XML文件、XMLSchema文件中存儲和導(dǎo)入知識本體。slotwidgets插件包括顯示GIF圖片和音頻視頻的用戶界面組件。tab插件非常普及,提供高級可視化、知識本體合并、版本管理、推理等功能。例如tab插件中的OntoViz和Jambalaya提供知識庫的不同視圖,Jambalayatab允許交互式的導(dǎo)航、對結(jié)構(gòu)中的特定的元素縮放、用圖像中節(jié)點的不同層次來強調(diào)數(shù)據(jù)群集之間的連接。圖6:—個ProtQgQ-2000編輯類和槽并輸入實例信息的界面圖表8中左半部分是類的層次結(jié)構(gòu)和類之間的繼承關(guān)系。用戶可以拖拉類來重新組織類

的層次結(jié)構(gòu),右半部分顯示被選的類的詳細信息,包括類的實例的槽的描述。第二個窗口顯示的是編輯實例的表單。PALtab提供對Protege公里語言的支持,PAL是KIF的一個子集,當數(shù)據(jù)的框架形式化并不充分時,用戶可以對他們的數(shù)據(jù)進行限制。PAL推理引擎就對這些限制的數(shù)據(jù)進行分析,告訴用戶知識庫中的哪些限制沒有被遵守,情況如何。Floratab和Jesstab提供在其他地方訪問開發(fā)的推理引擎oPROMPTtab提供管理多個知識本體的環(huán)境,它的組件包括知識本體合并工具,幫助用戶發(fā)現(xiàn)原知識本體之間的相似之處,并對知識本體進行合并。UMLS和WordNettabs使用戶可以把大的在線知識資源的元素導(dǎo)入和集成到自己的知識本體中去。對上述知識本體工具進行比較的情況如下這些工具的一般描

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論