版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
基于SemanticWeb的個性化網(wǎng)絡導航機制
1網(wǎng)絡信息資源導航的現(xiàn)狀遍布全世界的主機和服務器,錯綜相聯(lián)的超媒體資源,這是互聯(lián)網(wǎng)為我們所構(gòu)建的一個巨大而豐富的電子信息空間。它無疑是現(xiàn)代社會最重要的信息獲取手段,但是它的開放性、分布性、無序性以及驚人的發(fā)展速度也為人們對信息資源的利用帶來了困難。正如在大海中行駛的船只需要導航系統(tǒng)確定方位一樣,要想在茫茫的信息海洋中有效獲取有用信息,也必須擁有便捷有效的信息導航技術。一般來說,www網(wǎng)絡中常用的信息導航方式有三種:一是利用門戶網(wǎng)站的分類索引;二是利用網(wǎng)絡搜索引擎;三是利用網(wǎng)站的相關鏈接。但是目前這三種信息導航方式的效果都不盡如人意。分類索引所覆蓋的網(wǎng)絡站點范圍太小,更新較慢,難以適應網(wǎng)絡的快速增長,而且分類標準的不統(tǒng)一和不規(guī)范常常影響到用戶對站點所屬的判斷,造成導航失敗。搜索引擎雖然是目前主要的網(wǎng)絡信息檢索工具,但是通過簡單的邏輯運算檢索到的結(jié)果往往是數(shù)量龐大且魚目龍雜,充斥著大量的無用和重復信息。網(wǎng)站的相關鏈接是指符合當前網(wǎng)站內(nèi)容主題的內(nèi)部和外部信息資源的超鏈接,這種導航方式雖然簡單直接,但是信息量非常有限,而且對外部信息的鏈接常常出現(xiàn)錯鏈和假鏈,即使是內(nèi)部信息,也常常因為組織和描述方式的影響,造成用戶的“資源迷向”。
用戶在信息空間中的“迷航”會使他們感到厭倦而喪失獲取信息的信心,分析其原因,主要包括以下幾個方面[1,2]:
(1)網(wǎng)絡的巨大信息量使人們必須依賴于自動化的處理技術。但是目前因特網(wǎng)的各個網(wǎng)端的技術支持環(huán)境比較復雜,信息資源的內(nèi)容范圍、組織結(jié)構(gòu)和存儲方式各不相同,呈現(xiàn)出分散、無序、變幻多端的特點,這使自動信息處理技術的應用困難重重。因此要提高信息導航的效率和質(zhì)量,必須先解決資源異構(gòu)的問題。
(2)網(wǎng)絡信息空間中的數(shù)據(jù)大多以半結(jié)構(gòu)化和非結(jié)構(gòu)化的形式存在,對信息資源的內(nèi)容缺乏形式化的語義描述,而且大部分資源間的鏈接也沒有反映語義關系,這使得機器很難對網(wǎng)絡信息空間進行深層次的理解和處理,對信息的自動導航也無法像人工操作那樣準確有效。
(3)目前的網(wǎng)絡導航系統(tǒng)缺乏個性化的信息服務。由于知識背景的差異和一詞多義等方面的原因,不同的網(wǎng)絡用戶之間、用戶與系統(tǒng)設計者之間對于問題和信息內(nèi)容可能會具有不同的理解與認識,當用戶按照自己的思路查找信息時,他所選擇的導航路徑可能是錯誤的或者低效的。因此信息導航必須考慮具體用戶的特殊性,有針對性地提供導航服務。
(4)網(wǎng)絡導航系統(tǒng)的設計缺乏規(guī)范。門戶網(wǎng)站各自依據(jù)不同的標準建立自身的分類導航系統(tǒng),網(wǎng)站的劃分隨意性較大,常常引起用戶的困惑。一些著名的信息搜索引擎也各自采用不同的檢索規(guī)則,有些系統(tǒng)不能利用歷史信息或者不提供二次檢索,給用戶的使用帶來不便。另外,在網(wǎng)站內(nèi)部的導航系統(tǒng)設計上,也存在著導航結(jié)構(gòu)不合理,導航要素不完整,導航界面不統(tǒng)一等問題。這些都可能造成用戶的導航障礙。
由此可見,造成信息“迷航”問題的主要原因在于缺乏信息空間的合理組織和有效的導航機制,這也是第二代web網(wǎng)絡技術難以克服的困難。為此,人們正在研制第二代web網(wǎng)絡——SemanticWeb,它以結(jié)構(gòu)化信息表示為主,為網(wǎng)絡導航研究開辟了新天地。2SemanticWeb技術TimBernersLee在1998年提出了SemanticWeb的概念。2001年2月,W3C組織正式推出SemanticWebActivity,使網(wǎng)絡環(huán)境下的語義處理技術研究漸入佳境。SemanticWeb研究活動的目標是開發(fā)一系列可由計算機理解和處理的語義表示語言和技術,通過顯式的語義表示和領域本體將網(wǎng)絡信息空間編織成為一個巨大的機器可讀的知識網(wǎng)絡,以支持自動化的信息訪問和知識管理,實現(xiàn)高質(zhì)量的網(wǎng)絡信息服務。目前關于SemanticWeb的研究主要集中在網(wǎng)絡信息資源及其內(nèi)容的語義和語義關系表征,基于語義的數(shù)據(jù)自動分析、理解和處理,不同應用領域和系統(tǒng)間的數(shù)據(jù)自動交換、轉(zhuǎn)換和復用[3]。SemanticWeb雖然是現(xiàn)有web網(wǎng)絡的延續(xù),但在信息導航方面具有許多普通web沒有的優(yōu)勢。SemanticWeb中的節(jié)點既可以代表物理頁面,也可以代表知識實體;SemanticWeb中網(wǎng)頁的內(nèi)容不但可以被人理解,而且可以被機器理解;SemafiticWeb中的鏈接不再是任意的,而是遵循一定的語義關系。通過SemanticWeb技術,可以改變現(xiàn)有網(wǎng)絡松散的數(shù)據(jù)結(jié)構(gòu),將信息資源結(jié)構(gòu)化并賦予含義,使網(wǎng)絡信息的整合和自動處理都變得更加容易[4]。
2.1本體
所謂本體(Ontology),實質(zhì)上是描述特定應用領域知識的公認的術語集。關于奉體的定義,比較著名的觀點是“本體是概念模型的一個顯式的規(guī)格說明”和“本體是共享概念的一個形式化的規(guī)格說明”,其中,“概念模型(Conceptualization)”是指通過對某個客觀現(xiàn)象的相關概念進行辨析和提取而獲得的關于該現(xiàn)象的抽象摸型;“顯式(Explicit)”是指對所使用的概念的類型,以及這些概念在應用上的約束都給予明確的說明;“形式化(Formal)”表示本體以計算機可讀的形式存在;“共享(Share)”表示本體中反映的是共同認可的知識”[5]。
本體通常表達為一組對象(概念)、關系、函數(shù)、定理和實例。本體中的對象類按照等級關系組織成基本的結(jié)構(gòu)體系。等級關系包括例化(is-a)關系、類屬(kind-of)關系和整部關系(part-of)。上層的對象類為父類,下層的對象類為子類。對象類具有各自的屬性,并可依據(jù)父子關系繼承。對屬性的取值對象、取值范圍、取值基數(shù)等都可以加以限制,還可以對屬性的交換性、對稱性、傳遞性、唯一性等進行定義。除了等級關系,本體中的對象類間還可以具有其他語義關系,形成語義網(wǎng)絡形式的概念模型。本體是機器自動推理和智能化高級信息服務的基礎,對網(wǎng)絡而言,一個簡單的本體的典型例子就是網(wǎng)絡的分類索引(如Yahoo!的分類目錄)。本體的應用對于提高網(wǎng)絡導航的精度和效率具有重要的意義[1,4)。
2.2RDF和RDFS
RDF是由W3C開發(fā)的元數(shù)據(jù)描述機制,其目的主要是為元數(shù)據(jù)在網(wǎng)絡上的編碼、交換和重用提供一個基礎。它允許在XML的基礎上以一種標準化的、互操作的方式對數(shù)據(jù)語義進行定義[4],提供了一個描述web資源的數(shù)據(jù)模型。RDF包含描述資源的屬性和關系的聲明。資源是任何用URl(UniformResourceIdentifier)唯一標識的實體對象。資源具有屬性,屬性則具有一定的值,該值可能是簡單的字符串或數(shù)字,也可能是自身也具有屬性的其他資源。這樣,資源、資源屬性和屬性值構(gòu)成了RDF聲明中的三元關系模式,任何本體或描述性元數(shù)據(jù)都是這種三元關系模式的具體體現(xiàn)”[1,7]。
為了描述元數(shù)據(jù)元素間的復雜語義關系,W3C進一步定義了RDFS(RDFSchema)。它可以看成是一個本體定義語言,用來建立概念類體系結(jié)構(gòu)、屬性層次和類關系。3基于SemanticWeb的智能導航機制SemanticWeb的出現(xiàn)為網(wǎng)絡信息導航提供了新的研究思路,SemanticWeb技術是解決無序網(wǎng)絡空間中“迷航”問題的關鍵技術?;赟emanticWeb的智能導航是一種以結(jié)構(gòu)化、語義化的概念知識網(wǎng)絡為基礎,自動形成個性化導航結(jié)構(gòu)的方法。它分為兩個方面,一是基于SemanticWeb的信息組織,即利用參考本體對各信息源進行語義描述和整合;二是基于SemanticWeb的個性化導航結(jié)構(gòu)模型的構(gòu)建,即在有序語義組織的基礎上,構(gòu)造用戶語義模型,并據(jù)此建立導航結(jié)構(gòu)。圖1顯示了基于SemanticWeb的智能導航機制的概念結(jié)構(gòu)[8]。
3.1基于SemanticWeb的信息組織
基于SemanticWeb的信息組織的基本思想是,將來自于多個異構(gòu)信息源中的數(shù)據(jù)整合到一個語義統(tǒng)一的參考本體中。參考本體是通過分析領域中的各個信息資源集合,提取公共概念、屬性和關系而構(gòu)建的本體,它為所有信息資源提供統(tǒng)一的概念集合和通用語義。
信息整合的方法是先分別將各個信息源中的數(shù)據(jù)轉(zhuǎn)換為通用的數(shù)據(jù)模型,然后建立各個數(shù)據(jù)模型和參考本體之間的映射關系。網(wǎng)絡中的信息源具有各種各樣的數(shù)據(jù)格式,其中大部分是HTML頁面,有的包含表格和列表。另外還有XML文檔、RDF文檔以及關系數(shù)據(jù)庫文檔等。為了解決分布式異構(gòu)信息源的語法相異問題,需要將數(shù)據(jù)轉(zhuǎn)換為公用的數(shù)據(jù)模型格式,例如RDF。對于非RDF格式的信息數(shù)據(jù),可以利用外覆包(wrapper)技術將其自動地轉(zhuǎn)換為基于RDF的數(shù)據(jù)模型。外覆包對特定格式的數(shù)據(jù)文檔進行解析,并采用RDF聲明對其內(nèi)容進行標注。下面是三種常用的外覆包:
(1)HTML外覆包。由于HTML頁面屬于半結(jié)構(gòu)化的信息數(shù)據(jù),因此HTML外覆包采用的是半指導性的標注方法。即預先手工標注一組HTML頁面,然后對新的HTML頁面進行結(jié)構(gòu)分析,將新頁面與標注頁面進行比較,從中提取相關信息。HTML外覆包還可以處理異構(gòu)的XML文件[1]。
(2)XML外覆包。根據(jù)DTD和Schema所定義的XML文檔的內(nèi)容結(jié)構(gòu)和內(nèi)容元素,建立概念集與DTDSchema之間的映射關系,從而自動地將XML文獻中的DTD內(nèi)容元素標記轉(zhuǎn)換為對應的概念集元數(shù)據(jù)標記。
(3)關系數(shù)據(jù)庫外覆包。將關系數(shù)據(jù)庫中的數(shù)據(jù)元素和二維數(shù)據(jù)關系映射到概念集中,形成語義基礎,以便從關系數(shù)據(jù)庫中自動創(chuàng)建RDF聲明。
由于不同的信息提供者可能會使用不同的詞表來標注數(shù)據(jù),因此在建立通用數(shù)據(jù)模型后,還必須在信息數(shù)據(jù)源和參考本體之間建立概念和關系的映射,以消除語義差別。根據(jù)RDF聲明,在參考本體中注冊相關內(nèi)容的來源,使參考本體成為一個知識內(nèi)容的集成文件。另外,采用基于本體的元數(shù)據(jù)發(fā)現(xiàn)和漫游技術,探測相關的RDF聲明,可以自動地添加新的信息資源[8]。4結(jié)束語網(wǎng)絡信息的利用狀況不容樂觀,迫使人們努力探索更為先進更為成熟的導航理論、方法和技術
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工作管理課程設計
- 液壓系統(tǒng)課程設計接單
- 2024年版知識產(chǎn)權(quán)許可使用合同(專利)
- 班長競選演講稿
- 2025年山東淄博經(jīng)濟開發(fā)區(qū)事業(yè)單位綜合類崗位招聘工作人員3人歷年管理單位筆試遴選500模擬題附帶答案詳解
- 2025年山東濟寧高新區(qū)事業(yè)單位招聘工作人員(衛(wèi)生類)15人管理單位筆試遴選500模擬題附帶答案詳解
- 2025年山東濟寧市鄒城市事業(yè)單位招考管理單位筆試遴選500模擬題附帶答案詳解
- 2025年山東濟寧北湖省級旅游度假區(qū)教育事業(yè)單位招聘59人歷年管理單位筆試遴選500模擬題附帶答案詳解
- 2025年山東濟南商河縣事業(yè)單位招聘107人歷年管理單位筆試遴選500模擬題附帶答案詳解
- 2025年山東沂水經(jīng)濟開發(fā)區(qū)管理委員急需緊缺人才引進8人管理單位筆試遴選500模擬題附帶答案詳解
- 重慶市勞動人事爭議調(diào)解仲裁
- 高等學校建筑學專業(yè)本科(五年制)教育評估標準
- 鋁合金理論重量表
- 煉鐵廠3#燒結(jié)主抽風機拆除安全專項方案
- 四年級上冊英語期末復習課件綜合復習及檢測講義 牛津上海版一起
- 2020年污水處理廠設備操作維護必備
- LSS-250B 純水冷卻器說明書
- 《煤礦開采學》課程設計實例
- (完整版)todo,doingsth初中魔鬼訓練帶答案
- 防止返貧監(jiān)測工作開展情況總結(jié)范文
- 2015年度設備預防性維護計劃表
評論
0/150
提交評論