第一講 語義網(wǎng)概述_第1頁
第一講 語義網(wǎng)概述_第2頁
第一講 語義網(wǎng)概述_第3頁
第一講 語義網(wǎng)概述_第4頁
第一講 語義網(wǎng)概述_第5頁
已閱讀5頁,還剩123頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

文獻(xiàn)分類

與信息組織1課程介紹課程編號:學(xué)時(shí):30學(xué)時(shí)課程類型:專業(yè)選修課課程名稱:文獻(xiàn)分類與信息組織首選教材:戴維民,語義網(wǎng)信息組織技術(shù)與方法,學(xué)林出版社,2008參考教材:GrigorisAntoniou等著,陳小平譯,語義網(wǎng)基礎(chǔ)教程,機(jī)械工業(yè)出版社,20082考核方式平時(shí)考勤:10%提前考作業(yè):20%期末:70%考核形式3為什么要學(xué)習(xí)這門課?這門課能干什么??4信息組織的歷史發(fā)展5

一.古代的信息組織二.近代信息組織三.現(xiàn)代信息組織6一.古代的信息組織(一)我國古代信息組織活動(二)古代國外的信息組織(三)古代信息組織的特點(diǎn)

7(一)古代信息組織活動(我國)1.分類組織――圖書分類目錄2.主題組織――類書3.索引――“通檢”、“備檢”、“串珠”

81.分類組織――圖書分類目錄孔子整理“六經(jīng)”對《詩經(jīng)》305篇的組織整理;對《尚書》按體裁分類排列漢代劉向、劉歆父子編制我國第一部大型分類目錄《七略》

劉向、劉歆將當(dāng)時(shí)收集到的所有藏書分門別類著錄、按學(xué)科內(nèi)容分為六藝略、諸子略、詩賦略、兵書略、數(shù)術(shù)略、方技略六大類,加上“輯略”部分共七類。清代《四庫全書總目》收錄了先秦至清初重要書籍,著錄書名、卷數(shù)、著者書籍來源并有內(nèi)容提要,組織成經(jīng)、史、子、集四部44類,代表了我國古代目錄的最高成就。

9我國古代文獻(xiàn)分類組織方法七分法漢代劉向、劉歆的《七略》;南朝王儉的《七志》四分法西晉時(shí),荀勗所編的國家書目《中經(jīng)新簿》最早提出四部分類方式,后經(jīng)逐步改易,至唐魏征所編的《隋書.經(jīng)籍志》確立了經(jīng)、史、子、集四部分類系統(tǒng)。自唐以後,各種官私書目大多采用了四部分類。清代著名的《四庫全書總目》采用的已比較完善。十二分法鄭樵在《通志?藝文略》十二大類三級類目102.主題組織――類書類書被視為我國主題法的濫觴。類書可以視為主題目錄的擴(kuò)大,如果刪其繁文,僅存書目,也就現(xiàn)代最進(jìn)步的主題目錄了。我國最大的類書《永樂大典》就是一部帶有主題法性質(zhì)的檢索工具。全書22877卷,采用了“用韻以統(tǒng)字,用字以統(tǒng)事”的組織編排方法,與主題法的字順系統(tǒng)原則完全吻合。113.索引――“通檢”、“備檢”、“串珠”中國古代索引是在字書、韻書、類書的基礎(chǔ)上發(fā)展起來的,曾被稱為“通檢”、“備檢”、“串珠”等,形象地說明了它的作用和特征。魏建安年間劉劭等編纂的類書《皇覽》就具索引功能,被認(rèn)為是中國古代索引的起源之一。12(二)古代國外的信息組織古希臘亞里士多德的知識分類體系--三大門類理論知識(邏輯學(xué)、物理學(xué)、數(shù)學(xué)、形而上學(xué));實(shí)踐哲學(xué)(倫理學(xué)、經(jīng)濟(jì)學(xué)、政治學(xué));創(chuàng)造哲學(xué)(史學(xué)、修辭學(xué)、藝術(shù))古希臘學(xué)者卡利馬科斯(Callimachus)為亞歷山大圖書館編制藏書目錄《皮納克斯》。公元前250年左右,古希臘學(xué)者卡利馬科斯(Callimachus)為當(dāng)時(shí)規(guī)模最大的亞歷山大圖書館編制了長達(dá)120卷的藏書目錄《皮納克斯》(Pinakes,意為“書的表冊”又名《各科著名學(xué)者及其著作目錄》),將藏書分為戲劇、詩歌、法律、哲學(xué)、歷史、修辭學(xué)、醫(yī)學(xué)、雜著等等大類,其下再按字母或年代順序排列,并附每部著作的評價(jià),成為古代最早的目錄之一。

“目錄學(xué)之父”的蓋斯那(C.Gesner)編制大型書目—《世界書目》全書四卷,包括著者字順目錄、分類目錄和主題字順?biāo)饕?,其中第二卷將知識分為21個(gè)大類,250個(gè)細(xì)目,較全面地反映了當(dāng)時(shí)的科學(xué)發(fā)展水平,成為西方第一部檢索系統(tǒng)較為完備、著錄詳盡的綜合性大型書目。

13、14世紀(jì)《圣經(jīng)》語詞索引直接以自然語言中的字、詞作標(biāo)目,按字順次序查檢,基本具備了主題法的要素。13(三)古代信息組織的特點(diǎn)古代信息組織活動處于初始階段,呈現(xiàn)出以下特征:以信息的揭示、存儲為基本目的;最早形式的目錄和藏書組織的著眼點(diǎn)不在于“用”而在于“管”。信息組織對象主要是文獻(xiàn);信息揭示、組織的方法主要是對信息的記錄和分類,著重信息外在特征的記錄和描述,體現(xiàn)為清冊職能;操作完全由個(gè)人以手工方式進(jìn)行,簡單且無一定標(biāo)準(zhǔn)和規(guī)范;信息組織的代表性成果是目錄。14二.近代信息組織(一)近代國外信息組織(二)近代信息組織的特點(diǎn)

15(一)近代國外信息組織1.科學(xué)知識分類體系2.主題法――標(biāo)題表3.文摘和索引161.科學(xué)知識分類體系培根將知識分為三類:歷史(記憶知識)、詩歌(想象知識)、哲學(xué)(理性知識),并在其下分出細(xì)綱。恩格斯(F.Engls)分類法的基本序列為:無機(jī)體科學(xué)類(按物質(zhì)運(yùn)動形式的復(fù)雜程度排列);有機(jī)體科學(xué)類(由低級的、一般的運(yùn)動形式向高級的、復(fù)雜的運(yùn)動形式轉(zhuǎn)變);社會科學(xué)類(由經(jīng)濟(jì)基礎(chǔ)開始、然后是政治、法律及不同思想范疇的上層建筑)。1876年,美國圖書館學(xué)家、教育家杜威(M.Dewey)編制了《杜威十進(jìn)分類法》(DDC)。這部分類法建立了結(jié)構(gòu)完備、等級分明的分類體系和主題索引,體現(xiàn)了當(dāng)時(shí)信息組織的最高水平。172.主題法――標(biāo)題表最早期的類型是傳統(tǒng)的標(biāo)題法。1876年,美國圖書館學(xué)家克特發(fā)表了《字典式目錄條例》,該條例在傳統(tǒng)主詞款目和字順分類目錄的基礎(chǔ)上,明確規(guī)定了標(biāo)題的意義和處理方式,制定了標(biāo)題選擇和使用的一系列原則和方法,從而完成了字順分類法向字順主題法的轉(zhuǎn)變,它標(biāo)志著現(xiàn)代主題法原則的確立。1895年出版的第一部標(biāo)題表--《美國圖書館協(xié)會標(biāo)題表》以及其后的〈美國國會圖書館標(biāo)題表〉等即是這一理論原則指導(dǎo)下出現(xiàn)的現(xiàn)代標(biāo)題法的代表。183.文摘和索引

更具信息報(bào)道和指引意義的文摘和索引在此時(shí)期也發(fā)展起來。1830年,世界上第一部科技文摘雜志《藥學(xué)總覽》在德國問世,并附有索引。英國于1856年成立了世界第一個(gè)索引學(xué)會。

19(二)近代信息組織的特點(diǎn)近代信息組織的活動除圍繞著文獻(xiàn)的保存開展外,開始重視對信息外在特征和內(nèi)容特征的全面描述、揭示體系分類法的確立。主題法的研究和應(yīng)用。確立了主題法原則,而且有了完整的主題詞表和達(dá)到一定水平的主題揭示活動。索引、文摘的發(fā)展說明信息組織從載體單元到內(nèi)涵單元的深化。信息組織技術(shù)方法的進(jìn)步。分類法與主題法的編制技術(shù)更趨科學(xué)、完善。如為類目體系配備標(biāo)記符號,設(shè)置復(fù)分表、編制分類法索引,使分類法脫離了書目形式,成為一種獨(dú)立的分類檢索工具。目錄種類除以往通行的分類目錄外,還增加了書名目錄、著者目錄以及直接面向用戶的推薦書目、??颇夸浀取?/p>

20三.現(xiàn)代信息組織(一)現(xiàn)代信息組織方法的發(fā)展(二)網(wǎng)絡(luò)信息資源組織的探討與實(shí)踐(三)現(xiàn)代信息組織的特點(diǎn)21(一)現(xiàn)代信息組織方法的發(fā)展1.分類法的改造2.主題法的發(fā)展3.分類主題一體化4.自然語言檢索系統(tǒng)的探索和應(yīng)用221.分類法的改造1906年,英國的布朗(J.D.Brown)在《主題分類法》中采用了主題分析法和組合原則,成為分面分類法的萌芽。1933年,印度圖書館學(xué)家阮岡納贊(S.R.Ranganathan)編制了世界上第一部分面組配式分類法--《冒號分類法》,并系統(tǒng)提出了分面分類理論。在其影響下,一系列專業(yè)分面類表問世。傳統(tǒng)分類法被不斷地增加分面組配成分,朝分面組配方向改造。如DDC的通用復(fù)分表從無到有,從1個(gè)增加到7個(gè),專類復(fù)分和仿分也在增加,在第20版則用分面分類的方法對音樂類進(jìn)行了全面的改造。1976年,英國分類法研究小組的成員米爾斯(J.Mills)對布利斯(H.E.Bliss)的《書目分類法》(BC1)進(jìn)行了全面的分面改造,使其由原來的等級列舉式分類法發(fā)展成一部大型的分面組配式分類法--《布利斯書目分類法》(BC2),成為列舉式分類法徹底分面改造的典范。23我國的《中國圖書館分類法》我國大型綜合性分類表《中圖法》,它廣泛吸取了國內(nèi)外各種分類法的優(yōu)長,以科學(xué)分類為基礎(chǔ);同時(shí)在四次修訂過程中不斷地?cái)U(kuò)大分面組配技術(shù)的使用范圍,逐漸增加復(fù)分、仿分方法,引入并擴(kuò)大冒號組配方法的應(yīng)用,成為目前我國文獻(xiàn)信息組織使用最廣泛的標(biāo)準(zhǔn)化分類體系。

242.主題法的發(fā)展20世紀(jì)50年代,美國的陶伯(M.Taube)以字面上不能再分的詞匯單元――元詞作標(biāo)識,以字面組配表達(dá)文獻(xiàn)主題,并結(jié)合比孔卡等設(shè)備的使用,開創(chuàng)了在檢索階段匹配檢索的后組式檢索方式。它標(biāo)志著繼標(biāo)題法之后,一種新的主題法――單元詞法問世。1947—1950年間,美國的穆爾斯(C.N.Mooers)在研究組配分類法的基礎(chǔ)上,提出了一種新型主題法—敘詞法,并創(chuàng)造了“敘詞”、“敘詞法”“情報(bào)檢索”“情報(bào)檢索系統(tǒng)”等專門術(shù)語。20世紀(jì)60年代,敘詞語言吸收了標(biāo)題法、單元詞法、關(guān)鍵詞法以及分類法等各種檢索語言之長,逐步取代了元詞法成為現(xiàn)代情報(bào)檢索語言的主流。它以概念組配取代字面組配,并廣泛揭示概念間關(guān)系,使文獻(xiàn)信息的揭示更加準(zhǔn)確。1959年美國杜邦公司編制了第一部敘詞表。20世紀(jì)70年代,我國開始大規(guī)模編制和使用主題法。1971年,航空部情報(bào)所編制使用的《航空科技資料主題表》第2版問世,成為我國的第一部敘詞表。1979年出版的《漢語主題詞表》,成為世界上最大規(guī)模的敘詞表。253.分類主題一體化1969年,英國學(xué)者艾奇遜(J.Aitchison)編制了世界上第一部分類主題一體化的《分面敘詞表》。它將一部分面分類表與一部字順敘詞表結(jié)合起來,通過嚴(yán)格規(guī)范,使每一個(gè)詞匯同時(shí)出現(xiàn)在分類表與敘詞表中,實(shí)現(xiàn)了兩種檢索語言的兼容。在其影響下,英美等國陸續(xù)出版了一批分類主題一體化詞表,如《倫敦教育分類法(第二版)》、《建筑工業(yè)敘詞表》、《基礎(chǔ)敘詞表》等。20世紀(jì)80年代,我國先后用手工和計(jì)算機(jī)編成一系列分類主題一體化詞表?!冻R?guī)武器分面敘詞表》和《教育分面敘詞表》。這是我國圖書情報(bào)界編制一體化詞表的最早嘗試。此后,我國又陸續(xù)編制、出版了十余部一體化詞表,包括三部大型詞表――《中國分類主題詞表》、《農(nóng)業(yè)科學(xué)敘詞表》、《社會科學(xué)敘詞表》和七部中型詞表。

264.自然語言檢索系統(tǒng)的探索和應(yīng)用20世紀(jì)50年代,盧恩(H.P.Luhn)在前人探索的基礎(chǔ)上,將計(jì)算機(jī)用于關(guān)鍵詞索引的編制。其后,各種直接以自然語言為標(biāo)識的檢索系統(tǒng)相繼出現(xiàn)。20世紀(jì)60年代初,美國匹茲堡大學(xué)健康法律中心率先建立起第一個(gè)全文檢索系統(tǒng)――LEXIS。1957年,盧恩在對自動標(biāo)引和自動編寫文摘研究的基礎(chǔ)上,提出了基于詞頻統(tǒng)計(jì)的抽詞標(biāo)引法,率先進(jìn)行了自動標(biāo)引的探索。從60年代后期到70年代末,自動標(biāo)引研究取得了很大進(jìn)展,提出了概率統(tǒng)計(jì)標(biāo)引法、句法分析標(biāo)引法及各種加權(quán)模型等,建立了一批應(yīng)用與實(shí)驗(yàn)系統(tǒng)。至今,自動標(biāo)引形成了抽詞標(biāo)引和賦詞標(biāo)引兩大主要類型。我國自1980年起開始從事獨(dú)具特色的漢語自動標(biāo)引和分詞實(shí)驗(yàn)研究,并逐步達(dá)到了科技文獻(xiàn)自動分詞的實(shí)用水平。

27(二)網(wǎng)絡(luò)信息資源組織的探討與實(shí)踐1.傳統(tǒng)圖書分類和主題法的網(wǎng)絡(luò)適用性研究2.元數(shù)據(jù)的開發(fā)應(yīng)用3.搜索引擎技術(shù)的發(fā)展281.傳統(tǒng)圖書分類和主題法的網(wǎng)絡(luò)適用性研究USMARC一體化編目格式中特設(shè)了856字段,即電子地址及檢索方式字段,通過它可實(shí)現(xiàn)書目記錄與網(wǎng)絡(luò)信息資源的鏈接。國際上幾部著名的分類法如UDC,DDC,LCC等都在謀求網(wǎng)絡(luò)上的應(yīng)用,并已取得相當(dāng)進(jìn)展。292.元數(shù)據(jù)的開發(fā)應(yīng)用元數(shù)據(jù)是一個(gè)簡單的、用來描述數(shù)據(jù)特征和屬性的工具,網(wǎng)絡(luò)資源通過元數(shù)據(jù)的規(guī)范描述和組織,能幫助用戶很快找到所需的有關(guān)資源類型、網(wǎng)頁標(biāo)題、責(zé)任者、主題或關(guān)鍵詞以及內(nèi)容摘要等信息。目前國際上已有多種類型的元數(shù)據(jù)體系,如:描述數(shù)字文獻(xiàn)的元數(shù)據(jù)(TEIHeader、MARC、ONIX);描述數(shù)字圖象的元數(shù)據(jù)(MOA2、CDL);描述博物館藏品的元數(shù)據(jù)(VRACore、CDWA);描述地理空間信息的元數(shù)據(jù)(FGDC/CSDGM)等。其中最受關(guān)注的是都柏林核心元數(shù)據(jù)集(DublinCore)。303.搜索引擎技術(shù)的發(fā)展搜索引擎(searchengines)指采用自動化技術(shù)對WWW站點(diǎn)資源和其它網(wǎng)絡(luò)資源進(jìn)行采集、標(biāo)引和檢索的一類檢索系統(tǒng)機(jī)制;是提供給用戶進(jìn)行關(guān)鍵詞、詞組或自然語言檢索的工具,是目前網(wǎng)絡(luò)信息資源的組織和檢索的主流工具。Eg.Google;Excite;AlltheWeb;AskJeeves

北大天網(wǎng);百度31搜索引擎發(fā)展、變遷獨(dú)立型搜索引擎混合式搜索引擎混合式搜索引擎:兼具檢索型和目錄型兩種檢索方式,既可直接輸入檢索詞查找特定資源,又可瀏覽目錄了解某個(gè)領(lǐng)域范圍的資源。元搜索引擎又稱為多線程式搜索引擎,是指利用統(tǒng)一的檢索界面,實(shí)現(xiàn)對多個(gè)獨(dú)立搜索引擎索引數(shù)據(jù)庫進(jìn)行檢索,并將檢索結(jié)果以統(tǒng)一格式顯示的網(wǎng)絡(luò)檢索工具。分布式搜索引擎分布式搜索引擎是根據(jù)地域、主題、IP地址及其它的劃分標(biāo)準(zhǔn)將全網(wǎng)分成若干個(gè)自治區(qū)域,在每個(gè)自治區(qū)域內(nèi)設(shè)立一個(gè)檢索服務(wù)器,而每個(gè)檢索服務(wù)器由信息搜索機(jī)器人、索引搜索軟件數(shù)據(jù)庫和代理三部分組成。各個(gè)代理之間可以進(jìn)行查詢的重定向。32Web搜索引擎標(biāo)準(zhǔn)結(jié)構(gòu)crawlthewebcreateaninvertedindexCheckforduplicates,storethedocumentsInvertedindexSearchengineserversuserqueryShowresultsTouserDocIds33(三)現(xiàn)代信息組織的特點(diǎn)信息組織的出發(fā)點(diǎn)充分考慮用戶的需要和檢索習(xí)慣。多元化的信息資源組織。信息組織對象由單純的印刷型文獻(xiàn)發(fā)展磁帶、光盤、數(shù)據(jù)庫、網(wǎng)絡(luò)等多媒體,信息組織內(nèi)容更加廣泛,從各種類型的數(shù)據(jù)發(fā)展到具有豐富內(nèi)容的知識,形成了信息組織方式的多樣性和多層次性。檢索語言的發(fā)展。分面分類理論的提出,突破了傳統(tǒng)列舉式分類法的束縛,為信息組織方法提供了新的思路。自動標(biāo)引技術(shù)和分類、主題法在網(wǎng)絡(luò)環(huán)境下的應(yīng)用受到廣泛關(guān)注。自然語言的研究和應(yīng)用興起?,F(xiàn)代信息技術(shù)的應(yīng)用。信息組織形式從數(shù)據(jù)結(jié)構(gòu)發(fā)展到知識表示;信息以文件方式、數(shù)據(jù)庫方式、主題樹方式和超媒體方式組織。網(wǎng)絡(luò)信息資源的組織成為信息組織實(shí)踐與理論研究的熱點(diǎn)。元數(shù)據(jù)技術(shù)、搜索引擎技術(shù)、數(shù)據(jù)庫技術(shù)、信息挖掘、推送技術(shù)等技術(shù)成為信息組織領(lǐng)域內(nèi)倍受關(guān)注的課題。34信息組織的瓶頸351.精確檢索需求與網(wǎng)絡(luò)信息組織語義表達(dá)模糊性之間的矛情報(bào)檢索語言是信息組織的語言工具,科學(xué)的信息組織方法著情報(bào)檢索語言的發(fā)展而發(fā)展起來的?,F(xiàn)在常用的網(wǎng)絡(luò)信織方法,包括分類法、主題法和集成法等就是在分類情報(bào)檢言、主題情報(bào)檢索語言和分類主題一體化檢索語言的基礎(chǔ)上而來的?;诟拍钸壿嫼椭R分類的情報(bào)檢索語言,其概念本身就體現(xiàn)了概念的內(nèi)涵與本質(zhì)特征,完全獨(dú)立于特定的語境。361.精確檢索需求與網(wǎng)絡(luò)信息組織語義表達(dá)模糊性之間的矛我們知道,同一概念在不同的語義環(huán)境下其含義(包括內(nèi)涵與外延)是不同的,這是造成一詞多義、多詞一義、詞義含糊和檢索效率低的主要原因之一。情報(bào)檢索語言在語義表達(dá)上的模糊性導(dǎo)致了以情報(bào)檢索語言作為語言工具的常用網(wǎng)絡(luò)信息組織方法在語義表達(dá)上的模糊性。面對信息爆炸和信息污染的惡劣的信息環(huán)境,用戶的精確檢索需求變得十分迫切。用戶的精確檢索需求客觀上要求網(wǎng)絡(luò)信息組織方法在語義表達(dá)上的清晰、準(zhǔn)確,而這恰恰是現(xiàn)在常用的網(wǎng)絡(luò)信息組織方法所欠缺的。37

(2)智能檢索需求與機(jī)器“不能理解”之間的矛盾在復(fù)雜、惡劣的信息環(huán)境下進(jìn)行智能檢索一直以來都是用戶的夢想。智能檢索是建立在對網(wǎng)絡(luò)信息資源及檢索提問進(jìn)行充分語義分析基礎(chǔ)上的一種檢索方式。智能檢索的基礎(chǔ)是對信息的有效組織與管理。但現(xiàn)有的網(wǎng)絡(luò)信息組織方法,不論是網(wǎng)絡(luò)信息的分類組織,還是網(wǎng)絡(luò)信息的主題組織,不論是采用文件方式、數(shù)據(jù)庫方式、主題樹方式還是搜索引擎方式,它們所表達(dá)的語義都是隱含的,只能被它們的建立者或開發(fā)人員所理解、掌握和使用,而不能表達(dá)直接為機(jī)器(計(jì)算機(jī))所理解的形式化的語義。網(wǎng)絡(luò)信息組織方法只有提供“機(jī)器可理解”的形式化的語義,才能實(shí)現(xiàn)真正意義上的智能檢索。38(3)共享需求與網(wǎng)絡(luò)信息組織獨(dú)立性之間的矛盾面對全新的信息環(huán)境,為了提高檢索效率和信息服務(wù)質(zhì)量,客觀上要求信息組織單元能夠共享一套領(lǐng)域內(nèi)公認(rèn)的概念集或詞匯集來表達(dá)領(lǐng)域知識,避免因概念或詞匯使用上的不一致而造成的誤檢、漏檢或信息分散。而萬維網(wǎng)松散、網(wǎng)狀的組織結(jié)構(gòu)使得信息的生產(chǎn)者、提供者、組織者相對獨(dú)立和封閉,在進(jìn)行網(wǎng)絡(luò)信息組織時(shí)也沒有統(tǒng)一的、互相認(rèn)同的、形式化的描述領(lǐng)域知識的概念集或詞匯集39

(4)檢索需求的多樣性與線性、一維的網(wǎng)絡(luò)信息組織方式之間的矛盾傳統(tǒng)的情報(bào)檢索語言對領(lǐng)域知識(或概念)的描述主要集中于概念及其含義,而不注重對概念之間關(guān)系的揭示。對概念之間關(guān)系揭示的不足導(dǎo)致在進(jìn)行信息組織時(shí)主要以概念為中心。以概念為中心的信息組織方式不僅是結(jié)構(gòu)松散的,而且也是線性的、一維的。隨著網(wǎng)絡(luò)信息環(huán)境的變化,用戶的檢索需求也發(fā)生了很大的變化。人們不僅關(guān)心被檢索的事物,而且更加注重事物之間的聯(lián)系。這就要求網(wǎng)絡(luò)信息組織方式從“以概念為中心“轉(zhuǎn)移40信息組織的新要求41信息組織的新要求

(1)準(zhǔn)確地表達(dá)概念含義,消除一詞多義、多詞一義或詞義含糊而造成的誤操作以及信息組織質(zhì)量的下降。(2)采用新的方法和技術(shù),揭示概念之間多層次的語義關(guān)系,從而方便計(jì)算機(jī)的描述、表達(dá)、存儲和處理。

(3)包含可以直接為計(jì)算機(jī)所“理解和處理”的形式化的語義,以更好地滿足網(wǎng)絡(luò)信息組織對信息、知識的收集、分析、描述、重組、存儲、檢索以及推理的需要。

(4)摒棄傳統(tǒng)情報(bào)檢索語言線性、一維的信息組織方式,采用體現(xiàn)事物或概念間原有的,多層次、網(wǎng)絡(luò)化的信息組織方式。(5)構(gòu)建一種基于網(wǎng)絡(luò)的情報(bào)檢索語言,并易于擴(kuò)展、管理與維護(hù)42信息組織的發(fā)展趨向43語義網(wǎng)信息組織技術(shù)與方法44萬維網(wǎng)走向語義數(shù)據(jù)時(shí)代人類知識資源集成的三個(gè)階段:圖書館:硬拷貝,不便復(fù)制與廣泛傳播互聯(lián)網(wǎng):數(shù)字化時(shí)代,不便機(jī)器理解和自動處理語義網(wǎng):語義數(shù)據(jù)時(shí)代45萬維網(wǎng)走向語義數(shù)據(jù)時(shí)代網(wǎng)絡(luò)1.0

Web1.046萬維網(wǎng)走向語義數(shù)據(jù)時(shí)代網(wǎng)絡(luò)2.0

Web2.047萬維網(wǎng)走向語義數(shù)據(jù)時(shí)代網(wǎng)絡(luò)2.0

Web2.0博客Blog站點(diǎn)摘要RSS社會網(wǎng)絡(luò)服務(wù)SNS維基Wiki混搭Mashup標(biāo)簽Tag48萬維網(wǎng)走向語義數(shù)據(jù)時(shí)代網(wǎng)絡(luò)3.0

Web3.049網(wǎng)絡(luò)1.0–網(wǎng)絡(luò)2.0–網(wǎng)絡(luò)3.0

Web1.0–Web2.0–Web3.0萬維網(wǎng)走向語義數(shù)據(jù)時(shí)代網(wǎng)絡(luò)1.0:文件網(wǎng)

Web1.0:Webofdocuments網(wǎng)絡(luò)2.0:人際/社會網(wǎng)

Web2.0:Webofpersons網(wǎng)絡(luò)3.0:數(shù)據(jù)網(wǎng)

Web3.0:Webofdata(semantics)50網(wǎng)絡(luò)發(fā)展整體觀51目錄語義網(wǎng)的由來Web上的知識表示XML(S)和RDF(S)XML和RDF進(jìn)行Web知識表示的比較Ontology一個(gè)語義網(wǎng)應(yīng)用的描述研究熱點(diǎn)和展望52一.語義網(wǎng)的由來當(dāng)前Web所存在的問題更好的通訊模式什么是語義網(wǎng)語義網(wǎng)同現(xiàn)有網(wǎng)絡(luò)的區(qū)別語義網(wǎng)所要解決的問題53當(dāng)前Web的特點(diǎn)WWW是最大的信息資源倉庫,包含幾乎任何領(lǐng)域內(nèi)的文檔和媒體資源,并且這些數(shù)據(jù)可以在瞬間被個(gè)人和組織訪問其成功很大程度來自于分布式設(shè)計(jì),即Web頁可以存放于任何一臺主機(jī),通過超鏈可以訪問本機(jī)或遠(yuǎn)程的頁面具有無限的潛力,然而尚未發(fā)揮出來,困難在于Web頁上的信息內(nèi)容很難抽取54當(dāng)前Web存在的問題Web的大小使得很難定位相關(guān)的信息資源目錄服務(wù)(Yahoo)和搜索引擎(Google)提供了一些幫助,但遠(yuǎn)不能滿足用戶的需求進(jìn)一步的,用戶更難以讓W(xué)eb作更多的、功能遠(yuǎn)遠(yuǎn)超過目錄和搜索的事情,比如讓W(xué)eb為用戶安排一個(gè)完美的度假其根本的障礙在于一個(gè)事實(shí):Web不是設(shè)計(jì)給機(jī)器處理的55人類之間的通訊人類的交流建立在語義的基礎(chǔ)上,通過指稱把客觀世界和意識世界聯(lián)系起來CommonKnowledge主體A主體B語言56當(dāng)前Web上的通訊主體A把信息放到網(wǎng)頁中,Web在主體B的瀏覽器端顯示出來,實(shí)際上仍然是人之間的通訊,Web并不理解網(wǎng)頁中的內(nèi)容CommonKnowledge主體A主體BWorldWideWebWeb頁面57語義網(wǎng)上的通訊Web攜帶語義信息,使機(jī)器能夠理解Web頁面,從而實(shí)現(xiàn)強(qiáng)大的功能。需要一個(gè)人和機(jī)器都能理解的Ontology

Ontology主體AMachine結(jié)構(gòu)化Web頁面58如何讓機(jī)器理解Web兩種途徑:1.自然語言理解技術(shù),然而仍然有很多關(guān)鍵問題沒有解決2.用知識表達(dá)語言來描述Web頁,即構(gòu)造一種新的Web--語義網(wǎng)59什么是語義網(wǎng)TimBerners-Lee的定義:TheSemanticWebisnotaseparateWebbutanextensionofthecurrentone,inwhichinformationisgivenwell-definedmeaning,betterenablingcomputersandpeopletoworkincooperation.60語義Web是一個(gè)網(wǎng),它包含了文檔或文檔的一部分,描述了事物間的明顯關(guān)系,且包含語義信息,以利于機(jī)器的自動處理”。61與語義網(wǎng)有關(guān)的標(biāo)準(zhǔn)和技術(shù)可擴(kuò)展置標(biāo)語言名域國際碼統(tǒng)一資源標(biāo)識可擴(kuò)展置標(biāo)語言結(jié)構(gòu)資源描述框架資源描述框架結(jié)構(gòu)實(shí)用分類系統(tǒng)詞表邏輯驗(yàn)證誠信數(shù)字化簽名能自描述的文獻(xiàn)數(shù)據(jù)數(shù)據(jù)規(guī)則62SemanticWeb-Layers最底層是URI和Unicode層,該層是整個(gè)語義網(wǎng)的基礎(chǔ),其中Unicode處理資源的編碼,URI負(fù)責(zé)標(biāo)識資源。第二層是XML+NS+XMLSchema層,用于表示數(shù)據(jù)的內(nèi)容和結(jié)構(gòu)。第三層為RDF+RDFSchema,用于描述資源及其類型。第四層為Ontology層,它用于描述各種資源之間的聯(lián)系。第五層到第七層是在下面四層的基礎(chǔ)上進(jìn)行的邏輯推理操作。其中核心層為XML,RDF,Ontology,這三層用于表示W(wǎng)eb信息的語義。63語義網(wǎng)的架構(gòu)UnicodeURIXML+NS+XMLSchema名稱空間RDF+RDFSchema數(shù)字簽名本體邏輯證明信任自描述文檔數(shù)據(jù)數(shù)據(jù)規(guī)則唯一標(biāo)識Web上的任一資源,其思想是在需要的時(shí)候通過鏈接引用資源,因此不需要對資源進(jìn)行拷貝或集中管理。一種新的+字符編碼標(biāo)準(zhǔn),它支持世界上所有的語言。無論在什么平臺上,無論在什么程序中,無論使用什么語言,每個(gè)字符都對應(yīng)于一個(gè)唯一的Unicode編碼值。XML提供文檔結(jié)構(gòu)化的語法,實(shí)現(xiàn)了文檔結(jié)構(gòu)與文檔表現(xiàn)形式的分離,根據(jù)不同的目的同一個(gè)文檔可以有不同的表現(xiàn)形式。XML名稱空間是名稱的一個(gè)集合,用于文檔元素和屬性名有效性的驗(yàn)證。XMLSchema是約束XML文檔結(jié)構(gòu)的語言。RDF數(shù)據(jù)模型提供簡單的語義,RDF屬性可以看作是資源的屬性,同時(shí)又表達(dá)了資源之間的關(guān)系;RDFSchema定義被描述資源的類,并提供約束違例的檢測機(jī)制。提供一個(gè)明確形式化語言,以準(zhǔn)確定義術(shù)語語義及術(shù)語間的關(guān)系。除了本體層定義的術(shù)語關(guān)系和推理規(guī)則外,還需要有一個(gè)功能強(qiáng)大的邏輯語言來實(shí)現(xiàn)推理。機(jī)器和軟件代理可以用它來唯一的驗(yàn)證某個(gè)信息是否由特定的可信任的來源提供。64AscenariobyBerners-Lee彼得的媽媽需要進(jìn)行理療,讓代理來安排這個(gè)預(yù)約。給語義網(wǎng)絡(luò)代理下指令后,代理立即從醫(yī)生的代理處查到了媽媽的治療處方,在診所清單中進(jìn)行查找,從中找出那些在母親家方圓20英里的范圍內(nèi),在信用評級服務(wù)中評級為出色或很好,在母親的保險(xiǎn)計(jì)劃范圍之內(nèi)的診所。然后,它將可能的預(yù)約時(shí)間(由各家診所通過其網(wǎng)頁提供)和彼得日程進(jìn)行匹配。幾分鐘之后,代理給他們提供了一個(gè)方案。彼得對此不太滿意。從母親家到這個(gè)醫(yī)院要橫穿整個(gè)城鎮(zhèn),而他從醫(yī)院返回的時(shí)間又恰好是交通高峰時(shí)間。他設(shè)置了更多的時(shí)間和地點(diǎn)方面的限制,讓自己的代理重新進(jìn)行搜索。幾乎一瞬間,新的方案又出來了:醫(yī)院離家近了,時(shí)間也提前了。但是,同時(shí)有兩點(diǎn)警告。首先,彼得要重新安排他的一些不太重要的預(yù)約。彼得查了一下,沒什么問題。另一點(diǎn)是,這家醫(yī)院不在保險(xiǎn)公司的理療醫(yī)院的清單上。代理為解除彼得的顧慮,說,“通過其他方式,可以保證予以確認(rèn)服務(wù)類型和保險(xiǎn)計(jì)劃,需要細(xì)節(jié)內(nèi)容嗎?”彼得表示同意,事情就這么定下來了。65語義網(wǎng)同當(dāng)前Web的區(qū)別大多數(shù)當(dāng)前的Web是設(shè)計(jì)給人瀏覽的,語義網(wǎng)是設(shè)計(jì)給機(jī)器處理的當(dāng)前的計(jì)算機(jī)可以解析Web的顯示,處理header,鏈接到其他頁面,但是他們無法處理語義:比如這個(gè)頁面是張先生的主頁,這個(gè)鏈接會指向?qū)O小姐的簡歷等等。661.面向的對象不同目前的萬維網(wǎng)主要使用HTML表達(dá)網(wǎng)頁內(nèi)容。使用HTML標(biāo)記的網(wǎng)頁的確可以表達(dá)一些控制網(wǎng)頁顯示格式之類的信息,從而使人們認(rèn)為計(jì)算機(jī)真的可以“理解”我們的意圖。但實(shí)際上HTML僅注重文本的表現(xiàn)形式,如字體顏色、大小、類型等,而不考慮文本的具體內(nèi)容與含義。雖然萬維網(wǎng)上有一些自動的腳本程序可以幫助人們實(shí)現(xiàn)一部分功能,但在開放式的網(wǎng)絡(luò)環(huán)境中,它們并不能很好地用于計(jì)算機(jī)之間的交互。因此目前我們所使用的萬維網(wǎng)主要是供“人”閱讀和使用的。而語義網(wǎng)則是要在萬維網(wǎng)之上加入一些可以被計(jì)算機(jī)“理解”的語義信息,它在方便人們閱讀和使用的同時(shí),也方便計(jì)算機(jī)之間的相互交流與合作。因此,萬維網(wǎng)面向的對象主要是“人”,而語義網(wǎng)面向的對象則主要是“機(jī)器”672信息組織方式不同信息組織方式不同由于兩者面向的對象不同,因此在信息組織方式上自然會存在很大的差異。萬維網(wǎng)在組織信息資源時(shí)主要以“人”為中心,按682信息組織方式不同信息組織方式不同

由于兩者面向的對象不同,因此在信息組織方式上自然會存在很大的差異。萬維網(wǎng)在組織信息資源時(shí)主要以“人”為中心,按照人們的思維習(xí)慣和方便性組織網(wǎng)絡(luò)信息資源。語義網(wǎng)在組織信息資源時(shí)則必須兼顧計(jì)算機(jī)對文本內(nèi)容的“理解”以及它們之間的相互交流和溝通。693.信息表現(xiàn)的側(cè)重點(diǎn)不同·信息表現(xiàn)的側(cè)重點(diǎn)不同萬維網(wǎng)側(cè)重于信息的顯示格式和樣式,而不關(guān)心所要顯示的內(nèi)容。例如對于比較重要的信息,萬維網(wǎng)可能會在其顯示上以大字體或顏色鮮明的字體表示;而語義網(wǎng)則更加側(cè)重于信息的語義內(nèi)容,對具有特定意義的文本必須進(jìn)行一定的標(biāo)注或解釋。704主要任務(wù)不同主要任務(wù)不同萬維網(wǎng)主要是供人閱讀、交流和使用的,其主要任務(wù)就是信息發(fā)布與獲取。通過在網(wǎng)絡(luò)上發(fā)布或獲取信息來達(dá)到共享和交流的目的。語義網(wǎng)的主要任務(wù)則是計(jì)算機(jī)之間的相互交流和共享,從而使計(jì)算機(jī)可以代替人們完成一部分工作,使網(wǎng)絡(luò)應(yīng)用更加智能化、自動化和人性化。715工作方式不同工作方式不同語義網(wǎng)與萬維網(wǎng)面向的對象不同,它們的工作方式自然也有所不同。萬維網(wǎng)主要面向“人”,因此其大部分工作都是由人來完成的,包括信息的收集、檢索、整理、排序和分析等等。而語義網(wǎng)通過加入一些可以被計(jì)算機(jī)“理解”的語義信息,則可以把人從上述各類繁瑣的工作中解脫出來,利用“智能代理”幫助完成上述的大部分工作。一個(gè)典型的例子就是信息檢索,利用智能搜索代理,語義網(wǎng)將提供給人們真正需要的信息內(nèi)容,而不像現(xiàn)在的搜72二.Web上的知識表示傳統(tǒng)的知識表示結(jié)構(gòu)Web上知識表示相對于傳統(tǒng)知識表示的特點(diǎn)73傳統(tǒng)的知識表示結(jié)構(gòu)語義網(wǎng)絡(luò)(network)在一個(gè)語義網(wǎng)絡(luò)中,每一個(gè)概念用一個(gè)節(jié)點(diǎn)來表示,互相關(guān)聯(lián)的概念由箭頭連接起來語義網(wǎng)絡(luò)使用特別的箭頭來表示抽象概念,一個(gè)is-a箭頭,表示一個(gè)概念是另一個(gè)概念的子類,而instance-of表示一個(gè)概念是另外一個(gè)概念的實(shí)例。這些箭頭同基本的集合理論相關(guān):is-a類似于子集關(guān)系,instance-of類似于元素關(guān)系。

is-a的集合定義了類序,這個(gè)類序通常稱為分類法或類繼承。分類法用來用一個(gè)概念來歸納很多的抽象類,或者為很多抽象概念定義一個(gè)類。Yahoo和OpenDirecotry的流行已經(jīng)證明,分類法在輔助用戶定位信息的時(shí)候非常有用74Web上知識表示的特點(diǎn)語義網(wǎng)依賴于將內(nèi)容同形式化的意義表示對應(yīng)起來。這一點(diǎn)上,知識表示領(lǐng)域?yàn)樵O(shè)計(jì)語義網(wǎng)的語言提供了一個(gè)很好的起點(diǎn),因?yàn)樗难芯恳恢痹谂Φ膶⒅R形式化。然而,Web的特性對傳統(tǒng)的知識表達(dá)工作是一個(gè)挑戰(zhàn),需要我們從一個(gè)新的角度來看這個(gè)問題。Web的一些重要特征所帶來的影響主要有:75Web上知識表示的特點(diǎn)Web是分布式的Web的發(fā)展的推動力量就是自由而非集中控制。然而,由于Web是許多個(gè)人的產(chǎn)物,缺少集中控制對信息的推理帶來了很大的挑戰(zhàn):不同的組織可能會使用不同的詞表,導(dǎo)致了同義和一詞多義現(xiàn)象缺少審查和質(zhì)量控制,可靠性是個(gè)問題,有相當(dāng)數(shù)量的Web欺騙,其發(fā)布信息的目的是為了誤導(dǎo)由于沒有一個(gè)全球統(tǒng)一的信息合成,Web上不同來源的信息可能會發(fā)生沖突。76Web上知識表示的特點(diǎn)Web是動態(tài)的Web以驚人的速度變化著,沒有任何一個(gè)用戶或是智能代理可以跟的上隨著新的頁面不斷增加,已有頁面的內(nèi)容也在不斷變化。一些頁面相對穩(wěn)定一些,另外一些則定期或不定期的更新,這些變化可能會完全改變內(nèi)容一個(gè)Web代理必須清楚它的數(shù)據(jù)會并且經(jīng)常會過期77Web上知識表示的特點(diǎn)Web的數(shù)量巨大雖然每個(gè)Web頁可能只有一點(diǎn)代理可以收集的知識,但是累計(jì)起來的數(shù)據(jù)庫將使推理很難進(jìn)行Web是開放的大多數(shù)情況下,代理應(yīng)該假設(shè)它只采集了相當(dāng)少的,并不完備的知識。然而,為了推斷更多的事實(shí),許多推理系統(tǒng)用來完整世界假設(shè),即那些沒有收到知識庫中的都認(rèn)為不真。78三.XML(S)和RDF(S)從HTML說起XML和DTD(XMLSchema)RDF和RDFSchema79從HTML說起B(yǎng)erners-Lee開發(fā)HTML的初衷是使用超文本作為組織分布式文檔系統(tǒng)的一種方式,Html的標(biāo)簽主要是面向顯示的,但其一直在努力增加一些標(biāo)簽來提供語義:HTML2.0引入了META元素和REL屬性。META元素以名稱、值的形式規(guī)定了元數(shù)據(jù)。META一個(gè)流行的用法是表示關(guān)鍵字,比如<METAname=“kewyords”content=“SemanticWeb”>,這樣會幫助搜索引擎標(biāo)引這個(gè)頁面。HTML3.0增加了Class屬性,可以被任何標(biāo)簽使用來建立該元素的子類,不過這個(gè)語義標(biāo)記很少被使用,不過即使被使用了,他們所提供的語義也是很有限的。為了解決HTML的語義局限性,DobsonandBurrill試著將其同ER關(guān)系模型結(jié)合。這就是超級HTML,它由一系列簡單的標(biāo)簽定義了文檔中的實(shí)體,文檔體的標(biāo)記部分作為這些實(shí)體的屬性,然后定義從實(shí)體的外部實(shí)體的關(guān)系。這是正式為Web頁面增加結(jié)構(gòu)數(shù)據(jù)的首次嘗試,從而為解決這個(gè)問題提供了一種方法,也是之后XML設(shè)計(jì)的動機(jī)。80從HTML說起盡管非常流行,HTML存在兩大問題:任何人只要發(fā)現(xiàn)HTML不足以滿足其需求的時(shí)候,他們就簡單的增加標(biāo)簽到他們的文檔里,結(jié)果導(dǎo)致大量的非標(biāo)準(zhǔn)的HTML的出現(xiàn)因?yàn)镠TML主要設(shè)計(jì)成顯示給人看的,它很難讓機(jī)器抽取內(nèi)容以及執(zhí)行自動的文檔處理。為了解決這兩個(gè)問題,W3C開發(fā)了XML。RDF和XML成為開發(fā)語義網(wǎng)需的兩個(gè)主要技術(shù)81XMLXML讓每個(gè)人都能創(chuàng)建自己的標(biāo)簽,例如<姓名>,從而支持應(yīng)用程序?qū)⑦@些標(biāo)簽運(yùn)用到復(fù)雜的應(yīng)用中。也即XML允許用戶在文檔中加入了任意的結(jié)構(gòu)由于結(jié)構(gòu)任意,XML交換的雙方需要一個(gè)使用上的一致性,這樣的一致性描述就是DTD(XMLSchema)然而,XML并不提供標(biāo)簽的意義。標(biāo)簽<p>可能意味著分段(paragraph),也可能意味著一部分(part)。這需要通訊雙方事先達(dá)成理解的一致82DTD&XMLSchemaDTD僅僅提供了一個(gè)簡單的結(jié)構(gòu)描述:他們定義了元素出現(xiàn)的結(jié)構(gòu),位置,可能的屬性等等。XMLSchema被設(shè)計(jì)來代替DTD。XMLSchema有幾個(gè)優(yōu)于DTD之處:XMLSchema提供了一個(gè)豐富的語法來描述元素的結(jié)構(gòu),比如你可以定義元素出現(xiàn)的次數(shù),默認(rèn)值;XMLSchema提供支持?jǐn)?shù)據(jù)類型。比如你可以定義電話號碼是一個(gè)五位數(shù)字;XMLSchema提供了包含和繼承機(jī)制,使你可以重用共同的元素定義,也可以將存在的定義運(yùn)用于新的應(yīng)用XMLSchema以XML作為其編碼的語法(因?yàn)閄ML是一個(gè)元語言),使得工具的開發(fā)變簡單了,因?yàn)槲臋n和文檔定義都使用了相同的語法。83DTD&XMLSchema盡管DTD為XML文檔提供了一個(gè)語法規(guī)范,DTD并不提供語義信息。也就是說,DTD中的一個(gè)元素的意義,或者是由人根據(jù)在DTD中的自然語言描述的名稱和注釋來理解,或者在DTD之外再編寫一個(gè)文檔中來專門描述意義。這樣,XML文檔的交換就必須要求交換的實(shí)體事先在DTD的使用和意義理解上都達(dá)成一致。如果只是固定的合作實(shí)體之間,可能不會有問題,但是如果是在Web上……84DTD&XMLSchemaWeb的一個(gè)很重要的目標(biāo)是建立互操作關(guān)系,從而我們無法預(yù)知信息的使用者,從而也不可能向每一個(gè)使用者解釋DTD的語義這就產(chǎn)生了一個(gè)信息合成的問題,由于軟件工具無法獲取語義,它們就不可能通過DTD來合成信息資源85DTD&XMLSchema當(dāng)然,如果我們在一個(gè)普遍的DTD上達(dá)成一致,DTD之間的映射問題就不存在了;但是即使在一個(gè)企業(yè),數(shù)據(jù)標(biāo)準(zhǔn)化也是很困難和很耗時(shí)的,而Web上的數(shù)據(jù)標(biāo)準(zhǔn)化就更不可能了。即使可能有一個(gè)理解普遍的DTD,它會大到?jīng)]法使用,也沒法維護(hù),修改它86RDFRDF定義了一個(gè)簡單的模型,用于描述資源,屬性和值之間的關(guān)系。資源是可以用URI標(biāo)識的所有事物,屬性是資源的一個(gè)特定的方面或特征,值可以是另一個(gè)資源,也可以是字符串。總的來說,一個(gè)RDF描述就是一個(gè)三角:一個(gè)對象,一個(gè)屬性,一個(gè)值。在RDF中,文檔中的聲明通常是某個(gè)事物——人、網(wǎng)頁或其他任何東西對于某些值——另一個(gè)人、另一網(wǎng)頁擁有某些屬性(例如……是……的父母,……是……的作者)。87RDFRDF是一個(gè)機(jī)制,用于描述數(shù)據(jù)。它不是一個(gè)語言,而是一個(gè)模型,用于表達(dá)Web上數(shù)據(jù)。RDF是忽略語法的,它僅僅提供一個(gè)模型用于表達(dá)元數(shù)據(jù)。這種可能的表達(dá)可以是有向圖,列表或其他,當(dāng)然XML也可以是一種可選的表達(dá)。以下是幾個(gè)RDF的簡單示例88RDF用XML表示的RDF示例:<rdf:Descriptionabout=“”><rdf:typerdf:resource=“”></rdf:Description>89RDF用列表表示的RDF示例:ObjectAttributeValue==========================created_by#anonymous#anonymousname"John"#anonymousphone"477738"90RDF雖然可以有很多種方式來表示RDF數(shù)據(jù),RDF數(shù)據(jù)的交換必須由一個(gè)固定有序的語法來支持。XML是一個(gè)選擇,而RDF規(guī)范使用的正是它。然而,RDF數(shù)據(jù)模型并沒有被綁定到一個(gè)特定的語法上,它可以用任何語法來表示,它也可以從非RDF的數(shù)據(jù)資源中抽取。用XML序列語法來表示的RDF很難理解,而RDF應(yīng)用程序接口使開發(fā)者可以不管序列語法的具體細(xì)節(jié),而把RDF數(shù)據(jù)當(dāng)作是圖表來進(jìn)行處理。91RDFRDF被設(shè)計(jì)用來為元數(shù)據(jù)提供一個(gè)基本的對象、屬性、值的數(shù)據(jù)模型。對于這些語義,RDF并沒有預(yù)先建模,同XML一樣,RDF數(shù)據(jù)模型沒有提供聲明屬性名的機(jī)制。RDFSchema同XMLSchame類似,提供了一個(gè)詞匯定義的方式,還可以定義哪些屬性可以應(yīng)用到哪些對象上。換句話說,RDFSchema為RDF模型提供了一個(gè)基本的類型系統(tǒng)。92RDFSchemaRDFSchema,使用了一些預(yù)先定義的詞匯集,比如class,subpropertyof,subclassof,來指定特定的schema。RDFSchema是一個(gè)有效的RDF表達(dá),就像xmlSchema是一個(gè)有效的xml表達(dá)。subclassof允許開發(fā)者去定義每一個(gè)類的繼承機(jī)制,subpropertyof對屬性是一樣的。屬性的限制可以用domain和range結(jié)構(gòu)來實(shí)現(xiàn),這個(gè)結(jié)構(gòu)可以用來擴(kuò)展詞匯表,下面是一些簡單的示例:93RDFSchema定義類及子類<rdfs:Classrdf:ID=“Wine”/>//定義類Wine<rdfsrdf:ID=“RedWine”><rdfs:subClassOfrdf:resource=“#Wine”/></rdfs:Class>//定義Wine的子類RedWine<rdfs:Classrdf:about=“#WhiteWine”><rdfs:comment>nowineisbotharedandawhitewine</rdfs:comment>//注釋<rdfs:disjointWithrdf:resource=“#RedWine”/></rdfs:Class>//定義子類WhiteWine及相斥關(guān)系94RDFSchema定義類的實(shí)例<RedWinerdf:ID=“MyFavoriteDrink”><rdfs:label>MyFavoriteDrink</rdfs:label><rdfs:comment>MyFavoriteDrinkisaRedWine.</rdfs:comment></RedWine>//RedWine的實(shí)例<RedWinerdf:ID=“MariettaZinfandel”><rdfs:label>MariettaZinfadel</rdfs:label></RedWine>95RDFSchema定義類的屬性<rdf:Propertyrdf:ID=“hasWineColor”>//定義屬性ID<rdfs:rangerdf:resource=“#WineColor”/>//屬性所屬的類<rdfs:domainrdf:resource=“#Wine”/>//屬性所賦予的類</rdf:Property>96四.XML和RDF進(jìn)行Web知識表示的比較Web知識表示對表示語言的要求使用XML進(jìn)行知識表示使用RDF進(jìn)行知識表示97知識表示對語言的要求普遍的表示能力。因?yàn)闊o法預(yù)測可能用途,一個(gè)基于Web的交換格式必須可以用來表達(dá)任何格式的數(shù)據(jù)。語法的互操作行。應(yīng)用程序必須能夠抽取數(shù)據(jù),并將其用于開發(fā)。軟件模塊(比如Parser和查詢API),應(yīng)該可以在不同的應(yīng)用程序之間盡可能的重用。當(dāng)用來操作數(shù)據(jù)的Parsers和APIs很容易獲得時(shí),語法的互操作行就是很高的。語義的互操作性。數(shù)據(jù)交換格式的一個(gè)最重要的需求時(shí)數(shù)據(jù)可以被理解。語法互操作性是關(guān)于解析數(shù)據(jù)的,語義互操作性是關(guān)于定義語言到內(nèi)容之間的映射,因而需要內(nèi)容分析。98使用XML進(jìn)行知識表示XML完全滿足普遍的表示能力需求,因?yàn)橐粋€(gè)語法所能定義的任何數(shù)據(jù),都可以用XML來編碼。它也滿足語法的互操作性,因?yàn)橐粋€(gè)XML的Parser可以解析任何XML文檔,它也可以作為一個(gè)重用的模塊。但是在語義的互操作性上,XML就有了弱點(diǎn)。XML的主要局限性在于它僅僅描述語法。我們沒有辦法從一個(gè)XML文檔中識別一個(gè)語義單元,因?yàn)閄ML的目標(biāo)是文檔的結(jié)構(gòu),而沒有對文檔中使用的數(shù)據(jù)附加任何的解釋。99使用XML進(jìn)行知識表示假設(shè)兩個(gè)組織之間要交換數(shù)據(jù),那么他們必須使用相同的DTD(或Schema)。因此,就必須首先分析他們相關(guān)的領(lǐng)域和對象模型,然后通過對象關(guān)系表述出來,再將其轉(zhuǎn)換為DTD而且,重要的一點(diǎn),他們必須都同意并且使用DTD所給出的文檔結(jié)構(gòu)的隱含意義,否則就無法利用XML數(shù)據(jù)。如下圖:100使用XML進(jìn)行知識表示101使用XML進(jìn)行知識表示但是,由于同樣的域模型可以構(gòu)造出很多不同的DTD,這樣就丟失了從域模型到DTD之間的直接對應(yīng)丟失這種直接對應(yīng),一是名稱使用習(xí)慣上的差別。比如,元素<PERSON>and<INDIVIDUAL>可能是同義詞;類似的,元素<SPIDER>可能是一詞多義的,這里可能是爬行軟件,那里可能指蜘蛛。而且名字問題在屬性名稱中同樣存在。另一個(gè)困難是結(jié)構(gòu)的差別。XML的靈活性使得DTD的作者可以有很多選擇。設(shè)計(jì)者對于同樣的概念可以有很多種方式來描述。102使用XML進(jìn)行知識表示也就是說,在域模型和DTD之間并沒有直接的聯(lián)系。因此就不可能從一個(gè)DTD來推斷概念以及概念之間的關(guān)系,即很難從DTD中重建域模型考慮到這一點(diǎn),使用XML的優(yōu)點(diǎn)就只有解析模塊的重用性了。這只在組織間固定通訊,并且事先有一致認(rèn)識時(shí)有用。而忽略了Web通訊的需求,即很多的合作者,而且他們不斷的更新。XML在應(yīng)用程序都知道數(shù)據(jù)是什么的時(shí)候,進(jìn)行數(shù)據(jù)交換非常有用,但是它并不適合新的通訊對象不斷變化的情況。而在Web上,新的信息資源不斷的涌現(xiàn),新的合作伙伴不斷的加入。因此減少這種通訊成本就非常重要。一個(gè)域模型不能被簡單的映射為另一個(gè)域模型,是因?yàn)樗麄兌家訢TD的形式編碼?;诓煌珼TD的直接映射是很困難的,因?yàn)檫@不是簡單的語法映射,而是一個(gè)領(lǐng)域到另一個(gè)的映射。103使用RDF進(jìn)行知識表示RDF的對象-屬性-值的結(jié)構(gòu)滿足我們普遍表示能力的需求。而獨(dú)立于應(yīng)用程序的RDFParser也可以得到,因此RDF滿足語法的互操作性。在語義的互操作性方面,明顯優(yōu)于XML。RDF的對象-屬性結(jié)構(gòu)自然的給出了語義單元,而所有的對象都是實(shí)體。定義了興趣領(lǐng)域中的對象和關(guān)系的域模型,可以用RDF自然表達(dá)。域模型到RDF有著直接的映射關(guān)系,因此兩個(gè)RDF就可以直接進(jìn)行語義的轉(zhuǎn)換104使用RDF進(jìn)行知識表示在某種程度上,RDF是Web應(yīng)用程序之間建立互操作的最小集。由于是面向?qū)ο蟮?,它比XML更是交換信息,而且它在定義新詞表上是完全靈活的。使用RDF作為數(shù)據(jù)交換模型,提高了復(fù)用的層次,遠(yuǎn)高于Parser的重用,Parser正是XML所能提供的層次。而且,RDF模型在當(dāng)前的XML語法發(fā)生變化或消失時(shí)仍然可以使用,因?yàn)镽DF描述了一個(gè)獨(dú)立于XML的層次。105五.為什么需要OntologyOntology為人類和應(yīng)用程序系統(tǒng)提供了一個(gè)對于主題的共同理解Ontology為了不同來源的信息的合成,提供了一個(gè)共同的相關(guān)領(lǐng)域的理解Ontology為了在不同的應(yīng)用程序之間共享信息和知識(用于互操作),描述應(yīng)用程序的領(lǐng)域,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論