信息組織 第8章 語義網(wǎng)環(huán)境下的信息組織_第1頁
信息組織 第8章 語義網(wǎng)環(huán)境下的信息組織_第2頁
信息組織 第8章 語義網(wǎng)環(huán)境下的信息組織_第3頁
信息組織 第8章 語義網(wǎng)環(huán)境下的信息組織_第4頁
信息組織 第8章 語義網(wǎng)環(huán)境下的信息組織_第5頁
已閱讀5頁,還剩74頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

信息組織第8章

語義網(wǎng)環(huán)境下的信息組織語義網(wǎng)環(huán)境下的信息組織語義網(wǎng)的目標(biāo)是通過給萬維網(wǎng)上的文檔添加能夠被計(jì)算機(jī)所理解的語義信息,讓計(jì)算機(jī)能夠“理解”分布在網(wǎng)上的信息和知識(shí),并在“理解”的前提下更好地處理、利用這些信息和知識(shí)。語義網(wǎng)技術(shù)可以引導(dǎo)人們進(jìn)行語義層次上的信息分類、信息標(biāo)引、信息整合等方式的信息組織,實(shí)現(xiàn)一個(gè)有序的信息空間。資源描述框架(ResourceDescriptionFramework,RDF)是語義網(wǎng)信息描述與表示的基礎(chǔ);本體是語義網(wǎng)中信息組織的核心體系。本章首先介紹語義網(wǎng)中的信息描述與表示格式RDF、語義網(wǎng)中的信息建模方式OWL本體、語義網(wǎng)知識(shí)組織系統(tǒng)表示語言SKOS,然后舉例說明在語義網(wǎng)環(huán)境下如何采用OWL本體對領(lǐng)域知識(shí)進(jìn)行建模,如何采用RDF語言基于本體對信息進(jìn)行語義描述,如何將描述好的信息在網(wǎng)絡(luò)上發(fā)布為可訪問的關(guān)聯(lián)數(shù)據(jù),如何基于關(guān)聯(lián)數(shù)據(jù)對分散、異構(gòu)的信息進(jìn)行關(guān)聯(lián)和集成。Contents目錄01語義網(wǎng)概述02語義網(wǎng)信息描述和表示03語義網(wǎng)信息組織模式04基于語義網(wǎng)的知識(shí)組織系統(tǒng)05關(guān)聯(lián)數(shù)據(jù)06基于知識(shí)圖譜的信息組織方法1語義網(wǎng)概述1語義網(wǎng)概述Web非結(jié)構(gòu)化、非語義化的信息表示形式,只能供人類閱讀和理解,而計(jì)算機(jī)并不能“理解”Web的內(nèi)容,并在“理解”的前提下處理和利用這些信息。對于當(dāng)前Web在信息表達(dá)、組織、檢索中存在的嚴(yán)重缺陷與不足,語義網(wǎng)應(yīng)運(yùn)而生。011998年9月,Web的發(fā)明者TimBerners-Lee(蒂姆·伯納斯·李)在他的“Web設(shè)計(jì)筆記”中首次提出了語義網(wǎng)(SemanticWeb)的設(shè)想,即“一個(gè)在某種程度上類似全局?jǐn)?shù)據(jù)庫的數(shù)據(jù)之網(wǎng)(WebofData)022001年5月,Berners-Lee及其合作者在ScientificAmerican雜志上發(fā)表了題為TheSemanticWeb(語義網(wǎng))的論文,系統(tǒng)論述了下一代萬維網(wǎng)架構(gòu)語義網(wǎng)的藍(lán)圖,這篇論文同時(shí)被認(rèn)為是語義網(wǎng)誕生的標(biāo)志。03Berners-Lee在綜合了語義網(wǎng)研究領(lǐng)域最新成果的基礎(chǔ)上,于2000年在XML大會(huì)上首次提出了語義網(wǎng)體系結(jié)構(gòu)對語義網(wǎng)的主要支撐技術(shù)及其依賴關(guān)系分層進(jìn)行描述,為語義網(wǎng)的具體實(shí)現(xiàn)提供了理論和技術(shù)基石。042006年,Berners-Lee進(jìn)一步提出了“關(guān)聯(lián)數(shù)據(jù)”的概念,即在網(wǎng)絡(luò)上發(fā)布、共享、連接各類數(shù)據(jù)、信息和知識(shí)的一種方式,是推薦的語義網(wǎng)最佳實(shí)踐。051語義網(wǎng)概述語義網(wǎng)的整個(gè)體系結(jié)構(gòu)分為七層:底層的

URI為語義網(wǎng)的資源提供了統(tǒng)一標(biāo)識(shí),Unicode則解決了語義網(wǎng)的跨語言問題;擴(kuò)展標(biāo)識(shí)符語言(eXtendedMarkupLanguage,XML)為語法層,提供了語義網(wǎng)的句法基礎(chǔ)和編碼方式;資源描述框架(RDF)為數(shù)據(jù)層,是語義網(wǎng)的基石;本體層(Ontology)則為語義網(wǎng)的資源描述提供了語義,是語義網(wǎng)的核心;邏輯層(Logic)

提供了公理和推理規(guī)則;證據(jù)層(Proof)用于提供認(rèn)證機(jī)制;信任層(Trust)則是為了保證信息交換的安全而設(shè)計(jì)的,負(fù)責(zé)提供信任機(jī)制。其中,前四層已經(jīng)有了具體的實(shí)施標(biāo)準(zhǔn)與規(guī)范,RDF和OWL本體是構(gòu)建語義網(wǎng)的關(guān)鍵,后三層尚停留在概念層面,還沒有具體的實(shí)現(xiàn)技術(shù)。語義網(wǎng)體系架構(gòu)2語義網(wǎng)信息描述和表示2.1RDF

簡介語義網(wǎng)信息描述與表示的基礎(chǔ)是資源描述框架(RDF)。RDF是一種資源描述語言,用于

Web上的資源進(jìn)行語義化和形式化的描述,是語義網(wǎng)技術(shù)體系的基石。RDF定義了一個(gè)簡單的數(shù)據(jù)模型,通過主體(Subject)、謂詞(Predicate)、客體(Object)的三元組結(jié)構(gòu)來描述資源。RDF是與語法無關(guān)的,可以建立在不同語法基礎(chǔ)上,如可以通過圖、三元組、自然語言文本、XML、JSON等方法對RDF數(shù)據(jù)進(jìn)行序列化表示,其中最重要的是建立在XML語法上的RDF/XML表示格式。圖8-2是用RDF描述Web資源的一個(gè)實(shí)例,分別用圖、三元組、XML、自然語言來描述同一RDF數(shù)據(jù),這個(gè)RDF數(shù)據(jù)中包含兩個(gè)三元組。圖

8-2用

RDF描述

Web

資源的一個(gè)實(shí)例主體(Subject)謂詞(Predicate)客體(Object)資源(Resource)/Book/InformationOrganization屬性(Property)

dc:creator資源(Resource)/Person/YeJiyuan資源(Resource)/Book/InformationOrganization屬性(Property)

dc:title文本(Literal)"InformationOrganization"圖

8-2所示的

RDF

圖使用三元組表示2.1RDF簡介使用

RDF/XML語法表示為如下一段代碼。用自然語言表達(dá)是:

資源(圖書)“http:///Book/InformationOrganization

”的“dc:creator”屬性的值是“http:///Person/YeJiyuan”;資源“http://www./Book/InformationOrganization”的“dc:title”屬性的值是“InformationOrganization”。2.1RDF簡介資源泛指所有采用URI(UniformResourceIdentifier,統(tǒng)一資源標(biāo)識(shí)符)標(biāo)識(shí)的資源,URI具有兩個(gè)子集:URL(UniformResourceLocator,統(tǒng)一資源定位符)和URN(UniformResourceName,統(tǒng)一資源名稱)。屬性是一種特殊的資源,用來描述資源的某特定方面——通常是資源的元數(shù)據(jù),如作者、標(biāo)題等。屬性可以是自定義的,也可以是通過類似XML中的命名空間機(jī)制來引用在其他方案中已定義的屬性。陳述(Statement)是由一個(gè)特定資源、資源的一個(gè)特定屬性及該屬性的屬性值組成的三元組,即由RDF三元組的主體、謂詞、客體共同組成的一個(gè)語句。一個(gè)陳述可以通過復(fù)合形成高階語句,如“'資源<>'的'dc:title'屬性的值是'南京大學(xué)信息管理學(xué)院主頁'”。如果把上述句子看作一個(gè)資源,就會(huì)有下面的復(fù)合語句:“葉繼元說'資源<>'的'dc:title'屬性的值是'南京大學(xué)信息管理學(xué)院主頁'”。為了表示這種高階語句,RDF使用了具體化(Reification)機(jī)制。相應(yīng)的RDF/XML代碼如下。2.2RDF

序列化表示格式目前,RDF有多種序列化格式,大致可分成

4種。XML類型:包括RDF/XML、RDF/XML-ABBREV和Trix三種格式,均采用XML編碼,是面向機(jī)器閱讀和處理的格式。N3(Notation3)類型:包括N3、Turtle、N-Triples、N-Quads和TriG格式,均采用純文本表示,具有良好的可讀性,是面向人類用戶的格式。JSON(JavaScriptObjectNotation)類型:包括RDF/JSON和JSON-LD,均采用JSON兼容的格式表示。嵌入式類型:包括Microformats、eRDF和RDFa,均采用XML標(biāo)簽的形式將結(jié)構(gòu)化的RDF三元組數(shù)據(jù)嵌入XHTML網(wǎng)頁,目的是增強(qiáng)當(dāng)前Web網(wǎng)頁對RDF數(shù)據(jù)的支持,其中RDFa是W3C推薦標(biāo)準(zhǔn)。以自然語言陳述“ThereisaPersonidentifiedbyhttp:///People/EM/contact#em,whosefullnameisEricMiller,whoseemailaddressisem@,andwhosetitleisDr.”為例,不同的RDF序列化格式表示如下。RDF/XML的格式表示如下:Turtle格式表示如下:N3格式表示如下:2.2RDF序列化表示格式2.3RDF評(píng)價(jià)RDF和XML是互為補(bǔ)充的,而不只是對某個(gè)特定類型數(shù)據(jù)的規(guī)范表示,XML和RDF的結(jié)合,不僅可以實(shí)現(xiàn)數(shù)據(jù)基于語義的描述,也充分發(fā)揮了XML與RDF的各自優(yōu)點(diǎn),便于Web數(shù)據(jù)的檢索和相關(guān)知識(shí)的發(fā)現(xiàn)。3RDF是以一種建模的方式來描述數(shù)據(jù)語義的,這使得RDF可以不受具體語法表示的限制。但是RDF仍然需要一種合適的語法格式來實(shí)現(xiàn)RDF在Web上的應(yīng)用。2RDF希望以一種標(biāo)準(zhǔn)化、互操作的方式來規(guī)范XML的語義。XML文檔可以通過簡單的方式實(shí)現(xiàn)對RDF的引用。通過在XML中引用RDF,可以將XML的解析過程與解釋過程相結(jié)合。1RDF語義表達(dá)能力依然非常有限。RDF只提供了描述單個(gè)資源語義信息的能力,而沒有提供描述特點(diǎn)領(lǐng)域的語義能力。因?yàn)镽DF無法描述領(lǐng)域知識(shí),無法抽象領(lǐng)域模型,所以還需要RDFSchema或者OWL等進(jìn)一步定義機(jī)器可理解的語義。4XML

只是一種語法規(guī)則,本身無法表示機(jī)器可理解的語義,為此

W3C

推薦以

RDF

標(biāo)準(zhǔn)來解決

XML

的語義局限。2.4RDF數(shù)據(jù)的存儲(chǔ)隨著萬維網(wǎng)上越來越多的RDF數(shù)據(jù)出現(xiàn),如何存儲(chǔ)RDF數(shù)據(jù)變得至關(guān)重要。RDF主要有以下5種存儲(chǔ)方式。①基于內(nèi)存的存儲(chǔ):直接將RDF數(shù)據(jù)存儲(chǔ)在計(jì)算機(jī)內(nèi)存中,處理速度快,查詢效率高,但是存儲(chǔ)具有不可持久性,而且受內(nèi)存大小的限制。②基于文件的存儲(chǔ):直接以RDF/XML文檔的形式存儲(chǔ)RDF數(shù)據(jù),方式簡單,容易實(shí)現(xiàn),但是查詢不便,尤其當(dāng)文件比較大時(shí),查詢效率低。③基于關(guān)系型數(shù)據(jù)庫的存儲(chǔ):通過不同方式將RDF三元組中的實(shí)體資源和文字值映射到關(guān)系型數(shù)據(jù)表中,實(shí)現(xiàn)RDF數(shù)據(jù)的持久化存儲(chǔ)。利用成熟的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),不需重新開發(fā),易于實(shí)現(xiàn),但是關(guān)系型數(shù)據(jù)結(jié)構(gòu)與RDF三元組數(shù)據(jù)結(jié)構(gòu)差異頗大,查詢效率比較低,代表性系統(tǒng)有JenaSDB和Virtuoso。④原生RDF數(shù)據(jù)存儲(chǔ)系統(tǒng):專門針對RDF三元組結(jié)構(gòu)而開發(fā)的存儲(chǔ)器,查詢效率高,安裝靈活方便,可擴(kuò)展性好,是當(dāng)前的主流RDF存儲(chǔ)方式,代表性系統(tǒng)有4Store、AllegroGraph、JenaTDB等。⑤基于圖數(shù)據(jù)庫等各種NoSQL數(shù)據(jù)庫的存儲(chǔ):近年來,隨著大數(shù)據(jù)的熱潮,一些新型NoSQL數(shù)據(jù)庫技術(shù)逐漸發(fā)展,其中包括圖數(shù)據(jù)庫(如Neo4j),RDF數(shù)據(jù)本身就是一種圖數(shù)據(jù),采用NoSQL存儲(chǔ)具有天然優(yōu)勢,未來具有良好的發(fā)展前景。2.5RDF查詢語言SPARQLSPARQL

主要包含兩部分:SPARQL

查詢語言和SPARQL

協(xié)議,前者定義了面向

RDF數(shù)據(jù)模型的查詢語言句法和語義,后者采用Web服務(wù)描述語言(WebServicesDescriptionLanguage,WSDL)2.0定義了將SPARQL查詢傳輸?shù)絊PARQL查詢處理服務(wù)并向查詢實(shí)體返回查詢結(jié)果的方法。SPARQL查詢是基于圖模式(GraphPattern)的匹配。一個(gè)基本圖模式是一組三元組模式(TriplePattern)的集合。三元組模式可看作主體和(或)賓體未知的RDF三元組,未知的主體或賓體采用變量表示(如?Person、?homePage)。一個(gè)基本圖模式中的三元組模式通過共有變量連接起來,構(gòu)成一個(gè)連通的有向圖。在匹配時(shí),SPARQL查詢的基本圖模式匹配RDF圖中的一個(gè)子圖。圖為查詢“全名為EricMiller的人的主頁”的圖模式匹配。(a)待查詢的

RDF數(shù)據(jù)(b)

SPRARQL查詢的圖模式2.5RDF查詢語言SPARQLSPARQL查詢有如下4種形式。①SELECT:從RDF數(shù)據(jù)中查詢符合條件的特定信息,類似關(guān)系型數(shù)據(jù)庫的SQL查詢。②CONSTRUCT:為每個(gè)查詢結(jié)果輸出一個(gè)RDF圖,即將查詢結(jié)果直接構(gòu)建成RDF圖。③ASK:查詢RDF數(shù)據(jù)集中是否有與查詢模式相匹配的數(shù)據(jù),如果查詢的圖模式在數(shù)據(jù)集中有匹配,那么查詢將返回“yes”,否則返回“no”。④DESCRIBE:返回一個(gè)RDF圖,其中包含與查詢模式相匹配的節(jié)點(diǎn)的相關(guān)信息。在上述4種查詢中,SELECT查詢是最常用的查詢形式。SPARQL查詢在句法上與Turtle非常相似,唯一的區(qū)別是三元組模式中包含未知的變量。例如,查詢“全名為EricMiller的人的主頁”的SPARQLSELECT查詢語句如下。2.5RDF查詢語言SPARQL除了SPARQL查詢語言,SPARQL還包含一組協(xié)議。SPARQL協(xié)議定義了如何通過HTTP協(xié)議將一個(gè)SPARQL查詢及更新請求發(fā)送給一個(gè)SPARQL服務(wù),如何將這些請求映射為HTTPGET或POST操作,以及對應(yīng)這些請求的HTTP響應(yīng)。通過SPARQL協(xié)議,用戶可以在SPARQL查詢客戶端遠(yuǎn)程執(zhí)行查詢,將查詢推送到SPARQL服務(wù)器執(zhí)行查詢并將查詢結(jié)果返回給查詢客戶端,如圖8-4所示。圖8-4通過SPARQL協(xié)議遠(yuǎn)程執(zhí)行SPARQL查詢3語義網(wǎng)信息組織模式3.1本體簡介本體是語義網(wǎng)中信息組織的核心體系,但并不像哲學(xué)意義上那樣抽象和理論化,是實(shí)實(shí)在在的信息描述的語言工具。本體定義為“共享概念模型的明確的形式化規(guī)范說明”,這個(gè)定義的具體含義由4個(gè)概念組成。概念化(conceptualization):指將客觀世界中的一些現(xiàn)象抽象出來得到的模型,是客觀世界的抽象和簡化。明確(explicit):即明確定義所使用的概念及概念的約束。形式化(formal):即精確的邏輯表述,能夠被計(jì)算機(jī)讀取、理解和處理。共享(shared):指本體描述的概念應(yīng)該是某個(gè)領(lǐng)域公認(rèn)的概念。3.1本體簡介根據(jù)

Perez等人對本體建模的研究,

本體可由以下

5部分構(gòu)成。①類(Class):也稱為概念,

一般用于描述領(lǐng)域內(nèi)具有相同屬性或行為的一類對象的概

念,

如“人”是一個(gè)類,“教師”和“工程師”是“人”的子類,也是一個(gè)類。類的這種層級(jí)

關(guān)系將本體中的概念組織成一個(gè)系統(tǒng)結(jié)構(gòu)。②關(guān)系(Relation):是指領(lǐng)域中類與類、實(shí)例與實(shí)例之間的聯(lián)系,

表示領(lǐng)域中概念或?qū)?/p>

例之間的交互作用,如

is-Child-of、a-Kind-of、IsA等關(guān)系。③實(shí)例(Instance):是指領(lǐng)域內(nèi)某一特定的對象,根據(jù)本體顆粒度的不同,

對實(shí)例的界

定也不同。

“張三”是“教師”的實(shí)例,

“李四”是“工程師”的實(shí)例,

他們也都是“人”的

實(shí)例,所以繼承了“人”的各種屬性。④函數(shù)(Function):一種特殊的關(guān)系。如

mother-of關(guān)系就是一個(gè)函數(shù),其中,mother-

of

(x,y)表示

y是

x

的母親,顯然

x可以唯一確定其母親

y。⑤公理(Axiom):領(lǐng)域內(nèi)一些常識(shí)性知識(shí)的描述,是永真事實(shí)的描述。在應(yīng)用本體的語

義關(guān)系來進(jìn)行邏輯推理時(shí),這些規(guī)則能夠發(fā)揮一定的作用。例如,

“人是動(dòng)物”就是公理。3.2本體的類型根據(jù)不同的分類標(biāo)準(zhǔn),可以將本體分成多種。常用的本體主要有以下幾種。①領(lǐng)域本體(DomainOntology):包含特定領(lǐng)域概念、術(shù)語及關(guān)系的本體,主要用于特定領(lǐng)域的應(yīng)用,如經(jīng)濟(jì)類本體、建筑本體等。②通用本體(GenericOntology):覆蓋了若干領(lǐng)域或者具有通用性,也被稱為核心本體或頂級(jí)本體。它包括的是關(guān)于世界的一般性知識(shí)和概念,如時(shí)間、空間等。因此,通用本體可以跨學(xué)科領(lǐng)域使用,比較有代表性的通用本體當(dāng)數(shù)CYC。③應(yīng)用本體(ApplicationOntology):為某一特定的應(yīng)用而建立的本體。例如,在某個(gè)數(shù)字圖書館的建設(shè)過程中,可以建立該圖書館的數(shù)字資源的本體,應(yīng)用于該圖書館的信息表示與檢索中。④任務(wù)本體(TaskOntology):描述的是特定任務(wù)或行為中的概念及概念之間的關(guān)系。任務(wù)本體與解決問題的方法相關(guān),主要研究可共享的問題求解方法。這里的推理方法與領(lǐng)域無關(guān),任務(wù)本體主要涉及動(dòng)態(tài)知識(shí),而不是靜態(tài)知識(shí),定義通用任務(wù)和推理活動(dòng),如診斷等。3.3本體的功能本體對領(lǐng)域知識(shí)進(jìn)行了一種表述,統(tǒng)一了領(lǐng)域內(nèi)的術(shù)語和概念,便于人與機(jī)器、機(jī)器與機(jī)器之間的交流,從而增加知識(shí)共享、知識(shí)重用的程度。本體在信息組織方面的功能如下。①信息描述方面,本體是關(guān)于領(lǐng)域知識(shí)的共同理解和描述,這使得基于本體的信息資源組織建立在語義層面而非語法層面,是以信息或知識(shí)的內(nèi)容和本質(zhì)特征為依據(jù)進(jìn)行的組織。②信息檢索方面,本體具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持,因而在信息檢索特別是在基于知識(shí)的語義檢索中得到了廣泛應(yīng)用。本體通過概念之間的關(guān)系來表達(dá)概念語義,因此能實(shí)現(xiàn)基于本體的語義檢索,避免當(dāng)前信息檢索因?yàn)樽置鏅z索而造成的低效率問題。③語義網(wǎng)方面,本體面向計(jì)算機(jī)和網(wǎng)絡(luò)的特點(diǎn)及形式化的描述使其能夠更好地滿足網(wǎng)絡(luò)信息資源組織的需要,尤其是語義網(wǎng)信息組織的需要,所以它成為語義網(wǎng)體系框架中的一個(gè)主要層次。本體能夠準(zhǔn)確地描述概念及概念之間的內(nèi)在關(guān)聯(lián),并能通過邏輯推理獲取概念之間蘊(yùn)涵的關(guān)系,具有很強(qiáng)的表達(dá)概念語義和推理的能力,更適用于語義網(wǎng)環(huán)境中的信息組織和檢索。3.4本體與傳統(tǒng)受控詞表的比較本體與傳統(tǒng)受控詞表相比有許多相似之處,如繼承了分類表的等級(jí)關(guān)系、敘詞表的詞匯控制等。兩者之間的相似之處總結(jié)如下:①本體本質(zhì)上也是一種受控詞表。②都是概念及概念關(guān)系的集合。③都是人們?yōu)楸阌趯?shí)現(xiàn)人機(jī)或計(jì)算機(jī)之間的交流而制定的一致性標(biāo)準(zhǔn),都能達(dá)到信息描述和提高信息檢索效率的目的。④都可以看作知識(shí)體系和結(jié)構(gòu)的表現(xiàn),都對詞匯或概念實(shí)施了語義上的控制。⑤都適用于某一專業(yè)領(lǐng)域范圍。3.4本體與傳統(tǒng)受控詞表的比較但本體也有許多不同于傳統(tǒng)受控詞表的地方,具有面向計(jì)算機(jī)交流的特點(diǎn),主要區(qū)別如表所示。比較內(nèi)容本

體傳統(tǒng)受控詞表主題詞表分

表概念模型面向?qū)ο蟮恼J(rèn)識(shí)世界的方法面向概念的信息表示與檢索方法面向?qū)W科的信息表示與檢索方法組成元素通常由類、屬性、實(shí)例組成,有時(shí)包

括函數(shù)和公理語詞及詞間關(guān)系類目及類目關(guān)系標(biāo)識(shí)URI

唯一資源標(biāo)識(shí)語詞類號(hào)或類目概念關(guān)系表達(dá)幾十種、上百種關(guān)系等同、等級(jí)、相關(guān)三種關(guān)系包含、并列、交替、相關(guān)等關(guān)系形式化程度較高較低較低層級(jí)體系存在,較為混亂,沒有統(tǒng)一標(biāo)準(zhǔn)有的存在,基本采用學(xué)科分類存在,存在學(xué)科分類適用對象機(jī)器為主,人為輔人為主,機(jī)器為輔人為主,機(jī)器為輔應(yīng)用提供語義檢索和知識(shí)發(fā)現(xiàn)信息內(nèi)容的主題表示與檢索信息內(nèi)容的分類表示與檢索3.5本體描述語言01RDF通過類、屬性和屬性值來描述資源,但是RDF本身并不能定義這些描述詞匯,因此需要一種定義應(yīng)用程序?qū)S玫念惡蛯傩缘姆椒āDFS

(ResourceDescriptionFrameworkSchema,資源描述框架模式)就是在RDF基礎(chǔ)上制定的RDF詞匯描述語言。02OIL、DAML、DAML+OIL雖然沒能成為最終的推薦標(biāo)準(zhǔn),并最終不再使用,但需要看到它們對于網(wǎng)絡(luò)本體表示語言的重要貢獻(xiàn),這主要表現(xiàn)在:第一,它們是第一批建立在XML、RDF(S)標(biāo)準(zhǔn)上的網(wǎng)絡(luò)本體表示語言,這與先前的低級(jí)網(wǎng)絡(luò)本體表示語言(如SHOE、XOL等)有著本質(zhì)的不同,體現(xiàn)了現(xiàn)行網(wǎng)絡(luò)構(gòu)架向語義網(wǎng)構(gòu)架發(fā)展的努力;第二,它們第一次將描述邏輯引入本體表示,成為賦予本體語言正規(guī)語義和推理支持的一種有效手段;第三,它們的開發(fā)為后來OWL的開發(fā)積累了寶貴的經(jīng)驗(yàn)(許多OIL、DAML的開發(fā)人員進(jìn)一步參與了OWL的開發(fā)),提供了堅(jiān)實(shí)的基礎(chǔ),并且為后來OWL得到廣泛的認(rèn)同和應(yīng)用做出了貢獻(xiàn)。03OWL(WebOntologyLanguage,網(wǎng)絡(luò)本體語言)是W3C在2004年制定的一種本體表示語言標(biāo)準(zhǔn)[3]。OWL語言比RDFS語言提供了更多建模語言,擁有清晰的、形式化的語義,能夠?yàn)榭陀^世界的描述提供更加豐富的知識(shí)表示和推理能力。3.5本體描述語言4、OWL22009年10月,W3C推出OWL新版本。OWL2與原有的OWL兼容,即所有OWL1本體依舊是有效的OWL2本體。OWL2添加了一些新特征,具體表現(xiàn)在以下5方面。①增加了句法糖,也就是一些句法擴(kuò)展,使得OWL2在不擴(kuò)展語言表達(dá)能力的情況下對用戶更加友好且容易使用,例如,提供了DisjointUnion和DisjointClases這兩種更加簡潔的快捷方式來聲明類不相交。②增加了對屬性的建模元語,例如,對屬性的額外約束、屬性的不相交性、屬性鏈(PropertyChain)和鍵(Key)等,以及增強(qiáng)的屬性表達(dá)能力,如屬性的自反性(Re?exive)、非自反性(Irre?exive)和非對稱性(Asymmetric)等。③擴(kuò)展的數(shù)據(jù)類型,包括更多由OWL2提供的內(nèi)置數(shù)據(jù)類型,如rational(有理數(shù))、real(實(shí)數(shù))、boolean(布爾值)、dateTimeStamp(日期時(shí)間戳)等,也允許用戶在創(chuàng)建本體時(shí)自定義數(shù)據(jù)類型。④簡單的元建模能力,提供了雙關(guān)語(Punning)功能,即相同的名稱在某些限制下可用于不同類型的實(shí)體(如類、對象屬性、數(shù)據(jù)類型屬性、數(shù)據(jù)類型等)。⑤擴(kuò)展的注釋能力,用戶可以給公理添加注釋,給注釋屬性添加定義域和值域信息,給注釋自身添加注釋。3.5本體描述語言4、OWL2OWL2有兩種為本體賦予語義的方式:直接語義(directsemantics)和基于RDF的語義(RDF-basedsemantics)[1]。直接語義以描述邏輯的方式直接將語義賦予本體結(jié)構(gòu);基于RDF的語義是RDFS語義的擴(kuò)展,將OWL2本體看作RDF圖,直接給RDF圖賦予語義,從而間接地通過到RDF圖的映射給本體結(jié)構(gòu)賦予語義。采用直接語義的本體被稱為OWL2DL本體,采用基于RDF語義的本體被稱為OWL2Full本體。OWL2DL可看作OWL2Full的句法限制版,通過限制OWL2、RDF、RDFS建模元語的使用方式,獲得可計(jì)算性。出于不同用途和計(jì)算的復(fù)雜性,OWL2DL包含3種子語言。OWL2EL:具有較強(qiáng)的表達(dá)能力,主要用于需要超大規(guī)模本體的應(yīng)用或者為了保證性能可以犧牲表達(dá)力的應(yīng)用。OWL2QL:主要用于需要相對輕量級(jí)本體且具有大量實(shí)例數(shù)據(jù)的應(yīng)用,允許通過關(guān)系型查詢直接訪問數(shù)據(jù)。OWL2RL:在有限地犧牲表達(dá)能力的條件下極大地改善推理能力,主要用于需要大規(guī)模推理的應(yīng)用。3.5本體描述語言4、OWL2圖8-5OWL2各子語言之間的關(guān)系3.6本體的構(gòu)建1.本體構(gòu)建原則本體構(gòu)建的基本原則概括起來包括5項(xiàng)。①清晰(Clarity):本體必須有效地說明所定義術(shù)語的意思。定義應(yīng)該是客觀的、與背景獨(dú)立的。當(dāng)定義可以用邏輯公理表達(dá)時(shí),它應(yīng)該是形式化的。定義應(yīng)該盡可能完整。所有定義應(yīng)該用自然語言加以說明。②一致(Coherence):本體應(yīng)該是一致的,也就是說,它應(yīng)該支持與其定義相一致的推理,所定義的公理及用自然語言進(jìn)行說明的文檔都應(yīng)該具有一致性。③可擴(kuò)展性(Extendibility):本體應(yīng)該為可預(yù)料到的任務(wù)提供概念基礎(chǔ),應(yīng)該支持在已有的概念基礎(chǔ)上定義新的術(shù)語,以滿足特殊的需求,而不需修改已有的概念定義。④編碼偏好程度最?。∕inimalencodingbias):概念的描述不應(yīng)該依賴于某一種特殊的符號(hào)層的表示方法,因?yàn)閷?shí)際的系統(tǒng)可能采用不同的知識(shí)表示方法。⑤本體約定最?。∕inimalontologicalcommitment):本體約定應(yīng)該最小,只要能夠滿足特定的知識(shí)共享需求即可。這可以通過定義約束最弱的公理及只定義通信所需的詞匯來保證。3.6本體的構(gòu)建2.本體開發(fā)工具目前,最流行的本體編輯工具是由美國斯坦福大學(xué)生物醫(yī)學(xué)研究中心和醫(yī)學(xué)院聯(lián)合開發(fā)的開源軟件Protege編輯器。除了Protege,還有其他本體編輯工具,如斯坦福大學(xué)知識(shí)系統(tǒng)實(shí)驗(yàn)室的Ontolingua和OntopriseGmbh公司的商業(yè)軟件OntoStudio等。2011年12月,歐盟研究項(xiàng)目NeOn發(fā)布了免費(fèi)的本體工具包NeOnToolkit2.5,基于商業(yè)軟件OntoStudio,但進(jìn)行了擴(kuò)展。3.本體構(gòu)建方法本體構(gòu)建方法研究主要是從知識(shí)工程的角度探討本體的構(gòu)建方法,也稱為本體工程。本體工程的主要特點(diǎn)是強(qiáng)調(diào)構(gòu)建本體時(shí)要按照一定的規(guī)范和標(biāo)準(zhǔn)。本體工程中比較有名的包括TOVE法、METHONTOLOGY法、骨架法(SkeletalMethodology)、KACTUS法、SENSUS法、DEF5法和七步法等,其中以骨架法和七步法應(yīng)用最為廣泛。3.6本體的構(gòu)建3.本體構(gòu)建方法(1)骨架法骨架法由MikeUschold和MichealGruninger提出,又稱為Enterprise法,專門用來創(chuàng)建企業(yè)建模過程中的本體。骨架法流程如圖8-6所示。圖8-6骨架法流程①確定本體應(yīng)用的目的和范圍:根據(jù)研究的領(lǐng)域或任務(wù),建立相應(yīng)的領(lǐng)域本體或任務(wù)本體,領(lǐng)域越大,所建本體越大,因此需限制研究的范圍。②本體分析:定義本體所有術(shù)語的意義及其之間的關(guān)系,需要領(lǐng)域?qū)<业膮⑴c。對該領(lǐng)域越了解,所建本體就越完善。③本體表示:以本體表示語言對本體進(jìn)行描述。④本體評(píng)價(jià):按照對本體表示的清晰性、一致性、完整性、可擴(kuò)展性,對所建立的本體進(jìn)行評(píng)價(jià),如果符合要求就進(jìn)入本體建立,否則返回第二步重新進(jìn)行本體分析。⑤本體的建立:對所有本體按以上標(biāo)準(zhǔn)進(jìn)行檢驗(yàn),符合要求的以文件形式存放,生成OWL、RDF等格式的本體文件。3.6本體的構(gòu)建3.本體構(gòu)建方法(2)七步法七步法由斯坦福大學(xué)醫(yī)學(xué)院開發(fā),主要用于領(lǐng)域本體的構(gòu)建。①確定本體的專業(yè)領(lǐng)域和范疇。領(lǐng)域知識(shí)往往十分龐大,本體不可能包括所有的概念,因此,在建立本體之前,必須先確定本體將覆蓋的專業(yè)領(lǐng)域、范圍和應(yīng)用目標(biāo)等。②考查復(fù)用現(xiàn)有本體的可能性。共享和復(fù)用是本體的特點(diǎn),建立本體的目的也是為了解決知識(shí)的共享和復(fù)用問題,因此,在設(shè)計(jì)和建立本體之前,應(yīng)該考慮是否有已經(jīng)建立好的本體供復(fù)用。③列出本體中的重要術(shù)語。領(lǐng)域本體是描述概念及概念與概念之間關(guān)系的,應(yīng)列舉出該領(lǐng)域中的所有概念及對該概念的詳細(xì)解釋。④定義類和類的等級(jí)體系。通常采用自頂向下法(Top-down)、自底向上法(Bottom-up)和綜合法。通過等級(jí)體系將領(lǐng)域概念進(jìn)行分類組織,用于描述領(lǐng)域概念間的類屬關(guān)系,并將本體中的概念模塊化。⑤定義類的屬性。概念的分類層次結(jié)構(gòu)體現(xiàn)了分類概念之間的一種繼承關(guān)系,除了繼承關(guān)系,在我們構(gòu)建的領(lǐng)域本體中還可以根據(jù)需要定義其他的關(guān)系。針對每個(gè)概念,要列出它所有可能的屬性,每個(gè)屬性都有對應(yīng)的屬性值。⑥定義屬性的分面。屬性的分面可用來描述屬性值的類型、允許的取值、取值的個(gè)數(shù)(基數(shù)),以及屬性其他的一些特征。⑦創(chuàng)建實(shí)例。確定類的實(shí)例首先需要選取一個(gè)概念類,然后添加屬于該類的具體實(shí)例,最后為實(shí)例添加具體屬性值。3.7基于本體的信息組織實(shí)例1.本體構(gòu)建首先,參考斯坦福大學(xué)醫(yī)學(xué)院七步法本體構(gòu)建原則,基于DC元數(shù)據(jù)標(biāo)準(zhǔn)構(gòu)建一個(gè)書目元數(shù)據(jù)本體(命名空間前綴為co)。為了充分展示本體構(gòu)建的各方面,盡量給出類和屬性的各種設(shè)置,其中有些并不是完全必須的。①確定本體的專業(yè)領(lǐng)域和范疇該本體屬于圖書館領(lǐng)域,是描述文獻(xiàn)資源書目信息的一個(gè)基本模型,定義了文獻(xiàn)資源的核心屬性,文獻(xiàn)資源之間以及與其他資源(如知識(shí)組織資源、個(gè)人、組織機(jī)構(gòu)、地點(diǎn))之間的相互關(guān)系。②考查復(fù)用現(xiàn)有本體的可能性在圖書館領(lǐng)域,DC元數(shù)據(jù)標(biāo)準(zhǔn)和DCTERMS元數(shù)據(jù)術(shù)語是描述書目信息的主要標(biāo)準(zhǔn)規(guī)范。書目信息中會(huì)涉及人物、組織機(jī)構(gòu)、時(shí)間、地點(diǎn)、概念等信息,可復(fù)用相關(guān)本體中的定義。③列出本體中的重要術(shù)語在書目本體中,最重要的術(shù)語是“文檔”,是圖書館中各類文獻(xiàn)資源的統(tǒng)稱,具體有圖書、論文、學(xué)位論文、圖像等,還有描述文獻(xiàn)書目信息的術(shù)語。3.7基于本體的信息組織實(shí)例1.本體構(gòu)建④定義類和類的等級(jí)體系該本體的核心類是“文檔(Document)”,表示承載信息的內(nèi)容載體,可以是紙質(zhì)印刷型,也可以是數(shù)字型。該類可包含多個(gè)子類,分別代表不同類型的文檔,如圖書(Book)、論文(Article)、圖像(Image)、學(xué)位論文(Thesis)等。每個(gè)子類還可擁有更低層級(jí)的子類,如論文還可進(jìn)一步分為期刊論文(JournalArticle)和會(huì)議論文(ConferenceArticle)。除了文檔(Document),還有與之密切相關(guān)的其他類,包括代理(Agent)、時(shí)間(PeriodofTime)、地點(diǎn)(Place)、概念(Concept)。這些類直接復(fù)用自上面所說的相關(guān)本體。表8-2列出了書目元數(shù)據(jù)本體中的主要類及其子類。3.7基于本體的信息組織實(shí)例1.本體構(gòu)建⑤定義類的屬性文檔類(co:Document)的屬性全部復(fù)用自DC元數(shù)據(jù)標(biāo)準(zhǔn)中的15個(gè)核心元數(shù)據(jù)元素。其中,范圍(dc:coverage)元素被分解為兩個(gè)屬性:時(shí)間范圍(dcterms:temporal)和空間范圍(dcterms:spatial)。文檔類的所有屬性以及屬性的類型和值域如表8-3所示。代理類(foaf:Agent)的屬性則直接復(fù)用FOAF本體中定義的部分屬性,如表8-4所示。屬性分為數(shù)據(jù)類型屬性和對象屬性,后者就是類與類之間的關(guān)系。3.7基于本體的信息組織實(shí)例⑤定義類的屬性該本體中的主要類及相互間關(guān)系如圖8-7所示。1.本體構(gòu)建圖8-7書目元數(shù)據(jù)本體中的主要類及相互間關(guān)系3.7基于本體的信息組織實(shí)例1.本體構(gòu)建⑥定義屬性的分面首先,該本體中的一些屬性具有逆屬性。例如,文檔(co:Document)類中,其“關(guān)系(dc:relation)”屬性具有兩個(gè)子屬性:包含(dcterms:hasPart)和替代(dcterms:repalces),這兩個(gè)屬性均具有相應(yīng)的逆屬性“被包含(dcterms:isPartOf)”和“被替代(dcterms:isRepalcedOf)”。逆屬性的定義如下。3.7基于本體的信息組織實(shí)例1.本體構(gòu)建⑦為類和屬性添加注釋屬性(AnnotationProperties)除了數(shù)據(jù)屬性和對象屬性,該本體中還有另一種屬性,稱為注釋屬性。注釋屬性的作用是對本體中的類、屬性和個(gè)體(即實(shí)例)進(jìn)行注釋說明。OWL本體中有5個(gè)預(yù)定義的注釋屬性可以直接使用,對本體中的類、屬性、個(gè)體提供注釋信息。書目元數(shù)據(jù)本體中co:Document類的注釋屬性如表8-5所示。3.7基于本體的信息組織實(shí)例2.基于本體的信息集成本體構(gòu)建的最后一步是實(shí)例構(gòu)建?;跇?gòu)建的書目元數(shù)據(jù)本體可以將不同類型、不同格式的書目信息轉(zhuǎn)換為統(tǒng)一的RDF數(shù)據(jù),也就是本體的實(shí)例,由此可以實(shí)現(xiàn)異質(zhì)書目信息的集成。下面以《信息資源管理理論》一書為例,將來自圖書館書目數(shù)據(jù)庫的MACR元數(shù)據(jù)和來自萬方數(shù)據(jù)庫的NoteFirst[1]兩種元數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的RDF格式的元數(shù)據(jù),來實(shí)現(xiàn)不同類型元數(shù)據(jù)的集成。該書的MACR元數(shù)據(jù)顯示如下:3.7基于本體的信息組織實(shí)例2.基于本體的信息集成該書的NoteFirst的元數(shù)據(jù)顯示如下:3.7基于本體的信息組織實(shí)例2.基于本體的信息集成針對同一本書的兩種不同格式的元數(shù)據(jù),基于書目元數(shù)據(jù)本體,可將這種元數(shù)據(jù)都轉(zhuǎn)換成相同的RDF格式表示,顯示如下:4基于語義網(wǎng)的知識(shí)組織系統(tǒng)4.1SKOS語言簡介SKOS(SimpleKnowledgeOrganizationSystem,簡單知識(shí)組織系統(tǒng))是在語義網(wǎng)框架下對知識(shí)組織系統(tǒng)進(jìn)行語義化描述的一個(gè)模型,是W3C于2005年制定的一個(gè)推薦標(biāo)準(zhǔn),旨在采用機(jī)器可讀可理解的RDF語言表示知識(shí)組織系統(tǒng),使之適應(yīng)網(wǎng)絡(luò)環(huán)境下信息資源組織的需要。在圖書館及相關(guān)領(lǐng)域,知識(shí)組織系統(tǒng)(KnowledgeOrganizationSystem,KOS)是指采用不同類型的語義關(guān)系進(jìn)行組織和結(jié)構(gòu)化的概念體系,既包括在傳統(tǒng)紙質(zhì)和普通電子環(huán)境下產(chǎn)生和應(yīng)用的地名表、術(shù)語表、分類法、敘詞表、主題詞表等受控詞表,也包括在網(wǎng)絡(luò)環(huán)境下新出現(xiàn)的本體和語義網(wǎng)絡(luò)(SemanticNetwork),是對信息資源進(jìn)行組織和整理的重要工具。SKOS可以視為RDFS和OWL在知識(shí)組織系統(tǒng)表示這一特定領(lǐng)域的一個(gè)應(yīng)用,用于在網(wǎng)絡(luò)環(huán)境下描述分類法、敘詞表、主題詞表、術(shù)語表等概念體系,能夠以一種機(jī)器可理解的方式表達(dá)詞表的結(jié)構(gòu)與概念,以供共享和重用。需要說明的是,SKOS并不是一種正式的知識(shí)表示語言,而只是提供一種輕量級(jí)的、直觀的語言用于開發(fā)和共享知識(shí)組織系統(tǒng)。4.1SKOS語言簡介1.SKOS建模元語(1)概念概念(skos:Concept)是SKOS最基本的建模元語,被定義為一個(gè)OWL類,用來聲明或定義某個(gè)資源是一個(gè)概念性(Conceptual)資源,即知識(shí)組織系統(tǒng)中的一個(gè)“概念”。圖8-8為定義“Love”是一個(gè)SKOS概念。相應(yīng)的RDF/XML代碼表示如下。4.1SKOS語言簡介1.SKOS建模元語(2)概念體系通常情況下,知識(shí)組織系統(tǒng)中的概念并非孤立的,而是與其他概念相聯(lián)系的,共同形成一個(gè)集合或一個(gè)體系。一個(gè)概念體系就是指具有語義關(guān)系的一系列概念的集合。概念體系的定義采用建模元語<skos:ConceptSchema>來實(shí)現(xiàn),被定義為一個(gè)類。相應(yīng)的RDF/XML代碼如下。4.1SKOS語言簡介1.SKOS建模元語(3)詞匯標(biāo)簽詞匯標(biāo)簽是用來為概念添加某種詞匯標(biāo)簽,包括以下屬性:首選標(biāo)簽(skos:preLabel)、可選標(biāo)簽(skos:altLabel)和隱藏標(biāo)簽(skos:hiddenLabel)。首選標(biāo)簽是SKOS概念在給定語言下的首選詞匯標(biāo)簽??蛇x標(biāo)簽是SKOS概念在給定語言下可以選用的其他詞匯標(biāo)簽。隱藏標(biāo)簽是SKOS概念不可見的一種詞匯標(biāo)簽。相應(yīng)的RDF/XML代碼如下。4.1SKOS語言簡介1.SKOS建模元語(4)注釋屬性注釋屬性為概念提供某些相關(guān)注釋,包括如下建模元語:注釋(skos:note)、定義(skos:definition)、范圍注釋(skos:scopeNote)、范例(skos:example)、歷史注釋(skos:historyNote)、編輯注釋(skos:editorialNote)和變更注釋(skos:changeNote)等。其中,skos:note是其他6個(gè)屬性的父屬性。(5)語義關(guān)系語義關(guān)系是指SKOS概念間的相互關(guān)系,主要包括相關(guān)關(guān)系和上下位關(guān)系,有如下建模元語:語義關(guān)系(skos:semanticRelation)、相關(guān)關(guān)系(skos:related)、上位傳遞關(guān)系(skos:broaderTranstive)、上位關(guān)系(skos:broader)、下位傳遞關(guān)系(skos:narrowerTranstive)和下位關(guān)系(skos:narrower),它們均是OWL對象屬性。4.1SKOS語言簡介1.SKOS建模元語(5)語義關(guān)系圖8-11為“Birds”“Animals”和“Ornithology”三個(gè)概念的語義關(guān)系,即“Animals”是“Birds”的下位概念,“Ornithology”是“Birds”的相關(guān)概念。相應(yīng)的RDF/XML代碼如下。4.1SKOS語言簡介1.SKOS建模元語(6)概念集合當(dāng)知識(shí)組織系統(tǒng)中的一組概念在某些方面有相似性或相關(guān)性時(shí),可能需要將其集合起來使用,形成概念集合。相關(guān)建模元語包括概念集合(skos:Collection)、有序概念集合(skos:OrderedCollection)、集合成員(skos:member)、集合成員列表(skos:memberList)。其中,<skos:Collection>和<skos:OrderedCollection>是OWL類,前者用來聲明一個(gè)一般概念集合,后者則用于聲明一個(gè)有序的概念集合,因此后者是前者的子類。(7)概念映射關(guān)系不同概念框架中的概念之間可能存在著內(nèi)在的關(guān)系,為了互操作性,需要在不同概念體系中的概念間建立映射,SKOS提供了相應(yīng)的建模元語,包括映射關(guān)系(skos:mappingRelation)、準(zhǔn)確匹配(skos:exactMatch)、上位匹配(skos:broadMatch)、下位匹配(skos:narrowMatch)及相關(guān)匹配(skos:relatedMatch),其中后四者是前者的子屬性。4.1SKOS語言簡介2.SKOS評(píng)價(jià)SKOS是一套建立在RDFS語言基礎(chǔ)上的知識(shí)組織系統(tǒng)表示語言,簡練、實(shí)用且有良好的擴(kuò)展性,是當(dāng)前知識(shí)組織系統(tǒng)語義化表示的主流方式。SKOS的重要意義在于,為當(dāng)前受控詞表的語義化表示和網(wǎng)絡(luò)化應(yīng)用提供了一套解決方案,這將大大促進(jìn)受控詞表的編制與利用,有著廣闊的應(yīng)用前景。SKOS的主要問題在于,它能表示的語義關(guān)系還比較有限,遠(yuǎn)少于受控詞表標(biāo)準(zhǔn)Z39.19中定義的數(shù)量——當(dāng)然,這個(gè)問題可以通過新增詞匯來解決。另一個(gè)潛在問題是SKOS的推理機(jī)制還比較薄弱——雖然SKOS以表示受控詞表等輕量級(jí)知識(shí)組織系統(tǒng)為主要目標(biāo),但這種薄弱的推理能力可能在一定程度上影響SKOS的使用效果。4.2SKOS語言應(yīng)用實(shí)例1.AGROVOC詞表的SKOS表示AGROVOC是一個(gè)多語種農(nóng)業(yè)敘詞表,涵蓋了農(nóng)業(yè)、林業(yè)、漁業(yè)、食物安全及其他相關(guān)學(xué)科領(lǐng)域中的詞匯,可以說是目前農(nóng)業(yè)領(lǐng)域最有影響力的受控詞表。該詞表由聯(lián)合國糧食及農(nóng)業(yè)組織(Food&AgricultureOrganization,F(xiàn)AO)和歐洲共同體在20世紀(jì)80年代初開發(fā),主要作用是將信息標(biāo)引標(biāo)準(zhǔn)化,從而使得信息檢索更加簡單且準(zhǔn)確,從而為用戶提供最準(zhǔn)確的信息資源。2010年,W3C正式推出SKOS語言后,F(xiàn)AO改用SKOS和SKOS-XL語言對AGROVOC詞表重新進(jìn)行了語義化描述。圖8-12為AGROVOC詞表的SKOS模型。為了實(shí)現(xiàn)對傳統(tǒng)格式AGROVOC詞表的語義化轉(zhuǎn)換,F(xiàn)AO采用Java語言開發(fā)了一個(gè)基于Web的多語言本體概念構(gòu)建和維護(hù)工具,稱為AGROVOCConceptServerWorkbench,以幫助分布在全球各地的AGROVOC詞表的維護(hù)者們合作構(gòu)建農(nóng)業(yè)領(lǐng)域的多語言本體和詞匯系統(tǒng)。圖

8-12AGROVOC詞表的

SKOS模型4.2SKOS語言應(yīng)用實(shí)例2.LCSH詞表的SKOS表示LCSH(LibraryofCongressSubjectHeadings,美國國會(huì)主題標(biāo)題表)是美國國會(huì)圖書館編制的一部大型綜合性標(biāo)題表。LCSH是目前世界上規(guī)模最大、應(yīng)用最廣泛的標(biāo)題表,在檢索語言的發(fā)展史上和當(dāng)今圖書館主題編目工作中占有重要地位。早期的LCSH是以機(jī)器可處理的MARC形式存在的,后來轉(zhuǎn)為MARCXML編碼形式。表8-6為LCSH詞表中MARC字段與RDF屬性之間的映射關(guān)系。4.2SKOS語言應(yīng)用實(shí)例2.LCSH詞表的SKOS表示下面為采用SKOS語言描述的LCSH詞表中一個(gè)主題詞的RDF/XML代碼。4.2SKOS語言應(yīng)用實(shí)例3.《漢語主題詞表》的SKOS表示對于簡單的敘詞表,采用SKOS語言足以進(jìn)行描述。但是對于《漢語主題詞表》這類比較復(fù)雜的敘詞表,常包含比較復(fù)雜的成分,如組配概念、族項(xiàng)、組面等,則需要對SKOS語言進(jìn)行一定程度的擴(kuò)展,新增某些特定詞匯(類或?qū)傩裕┎拍軌驅(qū)崿F(xiàn)無損語義化轉(zhuǎn)換。表8-7列出了《漢語主題詞表》中的詞匯屬性與SKOS屬性之間的映射關(guān)系,其中SKOSEX前綴表示定制擴(kuò)展的詞匯。4.2SKOS語言應(yīng)用實(shí)例3.《漢語主題詞表》的SKOS表示基于表8-7中的映射關(guān)系,采用SKOS語言將該敘詞信息轉(zhuǎn)換為RDF數(shù)據(jù),其RDF/XML代碼如下。4.2SKOS語言應(yīng)用實(shí)例3.《漢語主題詞表》的SKOS表示圖8-13為《漢語主題詞表》中的一個(gè)敘詞實(shí)例“固定資產(chǎn)”。圖8-13《漢語主題詞表》中的一個(gè)敘詞實(shí)例5關(guān)聯(lián)數(shù)據(jù)5.1關(guān)聯(lián)數(shù)據(jù)簡介“關(guān)聯(lián)數(shù)據(jù)”是由萬維網(wǎng)的創(chuàng)始人TimBerners-Lee于1996年在他的“DesignIssuesfortheWorldWideWeb”筆記中首次提出的概念,是指通過可解引用的URI(DereferenceableURI)地址在Web上展示、共享、連接數(shù)據(jù)的一種方式。關(guān)聯(lián)數(shù)據(jù)的兩個(gè)基本宗旨是:采用RDF數(shù)據(jù)模型在Web上發(fā)布結(jié)構(gòu)化數(shù)據(jù),采用RDF鏈接連接來自不同數(shù)據(jù)源的數(shù)據(jù)。關(guān)聯(lián)數(shù)據(jù)必須遵循以下四個(gè)基本原則:使用URI標(biāo)識(shí)符命名任何事物。URI標(biāo)識(shí)符必須是HTTPURI地址,任何人都可以訪問這些名稱標(biāo)識(shí)。訪問某個(gè)標(biāo)識(shí)名稱時(shí),采用RDF、SPARQL等標(biāo)準(zhǔn)提供有用的信息。

包含指向其他URI地址的鏈接,使人們可以發(fā)現(xiàn)更多的相關(guān)事物。5.1關(guān)聯(lián)數(shù)據(jù)簡介關(guān)聯(lián)數(shù)據(jù)自提出以來受到了計(jì)算機(jī)和信息領(lǐng)域的極大關(guān)注,許多個(gè)人和組織機(jī)構(gòu)采用關(guān)聯(lián)數(shù)據(jù)作為發(fā)布結(jié)構(gòu)化數(shù)據(jù)的一種途徑,從而構(gòu)成了一個(gè)稱為“關(guān)聯(lián)開放數(shù)據(jù)(LinkedOpenData,LOD)云”的全球開放數(shù)據(jù)空間。截至2021年5月,構(gòu)成LOD云的數(shù)據(jù)集已經(jīng)達(dá)到1301個(gè),如圖8-14所示。整個(gè)關(guān)聯(lián)數(shù)據(jù)云以DBPedia(Wikipedia的RDF的版)為核心,囊括了地理、政府、媒體、生命科學(xué)、圖書館、用戶生成內(nèi)容等領(lǐng)域的數(shù)據(jù)以及部分跨領(lǐng)域數(shù)據(jù)。圖8-14關(guān)聯(lián)開放數(shù)據(jù)(LOD)云5.2關(guān)聯(lián)數(shù)據(jù)中資源的命名及訪問機(jī)制在關(guān)聯(lián)數(shù)據(jù)中,所有實(shí)體對象或抽象概念(如文獻(xiàn)資源、個(gè)人、組織機(jī)構(gòu)、地點(diǎn)、事件、術(shù)語等)都必須采用唯一的HTTPURI標(biāo)識(shí)符進(jìn)行命名,但是它們的URI地址不能被HTTP直接解引用。它們在Web架構(gòu)中被稱為非信息資源,以區(qū)別于傳統(tǒng)文檔Web中URI地址能夠被HTTP直接解引用的信息資源(如網(wǎng)頁、圖片或其他數(shù)字媒體格式等)。對于非信息資源,Web架構(gòu)提供了兩種方式來解決其在Web上的訪問問題:HashURI和303URI。對于一個(gè)非信息資源,303URI方式需要命名三個(gè)相關(guān)的URI地址:

①資源本身的URI地址;②資源元數(shù)據(jù)的RDF/XML表示;③資源元數(shù)據(jù)的HTML表示。但是,采用303重定向訪問的一個(gè)主要缺點(diǎn)是需要兩次HTTP請求才能獲取一個(gè)非信息資源的描述,因此會(huì)造成訪問延遲。5.3關(guān)聯(lián)數(shù)據(jù)發(fā)布方法目前,關(guān)聯(lián)數(shù)據(jù)的發(fā)布主要有以下5種方式。①以靜態(tài)RDF/XML文件發(fā)布關(guān)聯(lián)數(shù)據(jù):利用Web服務(wù)器(如ApacheHTTP服務(wù)器)的URL重寫功能和HTTP內(nèi)容協(xié)商機(jī)制將非信息資源(實(shí)體對象或抽象概念)的URL地址重定向到描述它的信息資源(如HTML或RDF/XML文檔)的URI地址,HTML或RDF/XML文檔采用離線的方式預(yù)先手工或自動(dòng)創(chuàng)建。這種方式通常用于發(fā)布小型的RDF詞表,但是對于大數(shù)據(jù)量并不適用,因?yàn)樾枰A(yù)先生成大量的HTML或RDF/XML文檔。②采用服務(wù)器端腳本發(fā)布關(guān)聯(lián)數(shù)據(jù):通過服務(wù)器端腳本(如PHP)基于后臺(tái)的關(guān)系型數(shù)據(jù)動(dòng)態(tài)地生成HTML或RDF/XML文檔(需通過ARC類庫),或者通過SPARQL終端直接從RDF存儲(chǔ)器中獲取RDF數(shù)據(jù),然后利用服務(wù)器端腳本或者腳本與Apache服務(wù)器的URL重寫功能相結(jié)合實(shí)現(xiàn)非信息資源URL地址到相應(yīng)的信息資源表示(HTML或RDF/XML文檔)的重定向。③以RDFa格式發(fā)布關(guān)聯(lián)數(shù)據(jù):采用RDFa格式將RDF三元組內(nèi)嵌在XHTML網(wǎng)頁中,然后利用Web服務(wù)器的重定向功能將非信息資源的URL地址重定向到描述它的XHTML網(wǎng)頁(針對HTML瀏覽器),或者重定向到從XHTML網(wǎng)頁中提取出的RDF/XML文檔(針對RDF瀏覽器)。5.3關(guān)聯(lián)數(shù)據(jù)發(fā)布方法④從RDF存儲(chǔ)器發(fā)布關(guān)聯(lián)數(shù)據(jù):用RDF三元組存儲(chǔ)器(如Jena、Sesame、AllegroGraph等)直接存儲(chǔ)RDF數(shù)據(jù),這些存儲(chǔ)器通常帶有一個(gè)SPARQL終端(如Jena的Fuseki),能夠支持基于Web的SPARQL查詢和結(jié)果顯示,但是無法在瀏覽器中訪問非信息資源的URI地址。此時(shí)可在RDF存儲(chǔ)器的SPARQL終端的前端放置一個(gè)關(guān)聯(lián)數(shù)據(jù)界面(如Pubby),將不可解引用的URI地址轉(zhuǎn)換為能夠被HTTP解引用的,實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)顯示。⑤從關(guān)系型數(shù)據(jù)庫發(fā)布關(guān)聯(lián)數(shù)據(jù):利用現(xiàn)成的工具將存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中的關(guān)系型數(shù)據(jù)直接發(fā)布為關(guān)聯(lián)數(shù)據(jù)。最廣泛使用的工具是D2R服務(wù)器(將關(guān)系型數(shù)據(jù)庫發(fā)布在語義網(wǎng)上的工具)能夠幫助用戶在關(guān)系型數(shù)據(jù)庫結(jié)構(gòu)和RDF術(shù)語間建立映射,對關(guān)系型數(shù)據(jù)生成一個(gè)關(guān)聯(lián)數(shù)據(jù)視圖,支持RDF瀏覽器對關(guān)系型數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化顯示和SPARQL終端對關(guān)系型數(shù)據(jù)的查詢。類似的工具包括小型的開源工具Triplify和商業(yè)軟件OpenLinkVirtuoso。⑥通過包裝已有的應(yīng)用或WebAPI發(fā)布關(guān)聯(lián)數(shù)據(jù):通過構(gòu)建關(guān)聯(lián)數(shù)據(jù)包裝器將目前已有的多個(gè)應(yīng)用或WebAPI包裝到一個(gè)語義網(wǎng)訪問界面中,使得原本需要用戶通過不同的應(yīng)用或API訪問的數(shù)據(jù)能夠通過這個(gè)統(tǒng)一的界面以關(guān)聯(lián)數(shù)據(jù)的形式進(jìn)行訪問。包裝器的作用是將用戶對URI地址的請求轉(zhuǎn)換成對各應(yīng)用或API的查詢,然后將各自返回的查詢結(jié)果進(jìn)行集成并轉(zhuǎn)換成RDF格式發(fā)送給用戶。5.4關(guān)聯(lián)數(shù)據(jù)的訪問對關(guān)聯(lián)數(shù)據(jù)的訪問有兩種途徑:一種是瀏覽方式,另一種是查詢方式。瀏覽方式是在Web瀏覽器中直接輸入某個(gè)實(shí)體或概念的URI標(biāo)識(shí)符瀏覽其RDF元數(shù)據(jù)信息,還可沿著其中的RDF鏈接繼續(xù)訪問其他相關(guān)資源,如同在傳統(tǒng)文檔Web中沿著超鏈接訪問其他網(wǎng)頁,但不同的是:在關(guān)聯(lián)數(shù)據(jù)中顯示的是結(jié)構(gòu)化的RDF數(shù)據(jù)而非HTML文檔。這種訪問方式適合對關(guān)聯(lián)數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)狀發(fā)散式瀏覽,實(shí)現(xiàn)在不同數(shù)據(jù)集間的無縫跳轉(zhuǎn),但不適于查詢特定的內(nèi)容。下面以圖書《數(shù)字圖書館的知識(shí)組織系統(tǒng):從理論到實(shí)踐》的RDF書目元數(shù)據(jù)為例,說明關(guān)聯(lián)數(shù)據(jù)的瀏覽過程。采用RDF/XML格式的該書的書目數(shù)據(jù)如下。5.4關(guān)聯(lián)數(shù)據(jù)的訪問①在Web瀏覽器中輸入該圖書的URI標(biāo)識(shí)符<http://hostname/webapp/book/004106310>,瀏覽器顯示RDF格式表示的圖書的書目元數(shù)據(jù),如圖8-15所示。圖8-15圖書的RDF元數(shù)據(jù)描述瀏覽方式5.4關(guān)聯(lián)數(shù)據(jù)的訪問②點(diǎn)擊該圖書的作者(dcterms:creator)標(biāo)識(shí)符<http://hostname/webapp/person/WangJun>,鏈接到作者的RDF元數(shù)據(jù),如圖8-16所示。圖8-16作者的RDF元數(shù)據(jù)描述瀏覽方式5.4關(guān)聯(lián)數(shù)據(jù)的訪問③點(diǎn)擊圖書主題(dcterms:subject)“數(shù)字圖書館”的URI標(biāo)識(shí)符<http://hostname/webapp/CT/concept/DigitalLibrary>,鏈接到《漢語主題詞表》對“數(shù)字圖書館”概念的RDF描述,如圖8-17所示。圖8-17《漢語主題詞表》對“數(shù)字圖書館”概念的RDF描述瀏覽方式5.4關(guān)聯(lián)數(shù)據(jù)的訪問④點(diǎn)擊“數(shù)字圖書館”的上位概念(skos:broader)“/vocab/CCT_CT_v2.0/Library”,鏈接到《漢語主題詞表》對“圖書館”概念的RDF描述,如圖8-18所示。圖8-18《漢語主題詞表》對“圖書館”概念的RDF描述瀏覽方式5.4關(guān)聯(lián)數(shù)據(jù)的訪問查詢方式是通過SPARQL查詢檢索關(guān)聯(lián)數(shù)據(jù)中的特定內(nèi)容。其檢索結(jié)果界面與通常的文獻(xiàn)書目數(shù)據(jù)庫(如中國知網(wǎng)、OPAC系統(tǒng))類似,不同的是:返回的檢索結(jié)果均是可以點(diǎn)擊訪問的,用戶可以沿著RDF鏈接繼續(xù)訪問其他相關(guān)資源,如文獻(xiàn)→出版地、文獻(xiàn)→主題→相關(guān)概念。這種訪問方式既適合對特定文獻(xiàn)資源進(jìn)行檢索,又能夠基于檢索結(jié)果進(jìn)行發(fā)散式瀏覽,是一種比較理想的圖書館關(guān)聯(lián)數(shù)據(jù)訪問方式。但普通用戶構(gòu)建SPARQL查詢的難度比較大,系統(tǒng)應(yīng)提供表單式查詢模板供用戶輸入查詢信息并自動(dòng)生成SPARQL查詢。下面以從關(guān)聯(lián)數(shù)據(jù)化的書目數(shù)據(jù)集中查詢主題為“信息檢索”的圖書為例,顯示關(guān)聯(lián)數(shù)據(jù)的查詢過程。5.4關(guān)聯(lián)數(shù)據(jù)的訪問①在查詢界面中輸入SPARQL查詢,查詢主題(dcterms:subject)為“信息檢索(InformationRetrieval)”的圖書。查詢方式5.4關(guān)聯(lián)數(shù)據(jù)的訪問②檢索結(jié)果顯示所有符合該查詢條件的圖書URI標(biāo)識(shí)符和題名(如圖8-19所示),這些標(biāo)識(shí)符已經(jīng)被自動(dòng)映射成HTTP可解引用的關(guān)聯(lián)數(shù)據(jù)的URI地址。查詢方式圖8-19書目關(guān)聯(lián)數(shù)據(jù)檢索結(jié)果顯示5.4關(guān)聯(lián)數(shù)據(jù)的訪問③點(diǎn)擊其中《網(wǎng)絡(luò)信息資源檢索與利用》圖書的鏈接,則以關(guān)聯(lián)數(shù)據(jù)形式顯示該圖書的RDF書目元數(shù)據(jù),如圖8-20所示。④點(diǎn)擊該書的出版地(core:placePublished)“南京”,跳轉(zhuǎn)到geoNames數(shù)據(jù)庫中的相應(yīng)頁面,該數(shù)據(jù)庫已經(jīng)全部發(fā)布為關(guān)聯(lián)數(shù)據(jù),點(diǎn)擊可顯示具體的RDF數(shù)據(jù),如圖8-21所示。查詢方式圖8-20一條檢索記錄的詳細(xì)RDF書目元數(shù)據(jù)圖8-21關(guān)聯(lián)的geoNames數(shù)據(jù)庫中有關(guān)“南京”的RDF描述5.5關(guān)聯(lián)數(shù)據(jù)應(yīng)用實(shí)例近年,語義網(wǎng)技術(shù)在圖書館學(xué)領(lǐng)域得到了全面而廣泛的應(yīng)用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論