網(wǎng)絡(luò)信息資源保存的編目方法與系統(tǒng)研究_第1頁
網(wǎng)絡(luò)信息資源保存的編目方法與系統(tǒng)研究_第2頁
網(wǎng)絡(luò)信息資源保存的編目方法與系統(tǒng)研究_第3頁
網(wǎng)絡(luò)信息資源保存的編目方法與系統(tǒng)研究_第4頁
網(wǎng)絡(luò)信息資源保存的編目方法與系統(tǒng)研究_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、網(wǎng)絡(luò)信息資源保存的編目方法與系統(tǒng)研究孫敏杰 吳振新 孫志茹 / 中國科學院國家科學圖書館 北京 100190摘要:為了將網(wǎng)絡(luò)信息資源長期保存的資源提供給用戶服務(wù) ,保存機構(gòu)需對長期保存的網(wǎng)絡(luò) 資源進行一定的組織與質(zhì)量控制工作。 文章介紹了網(wǎng)絡(luò)資源保存編目研究的發(fā)展現(xiàn)狀, 介紹 了目前幾種常用的編目方法:延續(xù)傳統(tǒng)編目方法、 基于 web2.0 標簽技術(shù)的信息組織方法、 基于大規(guī)模 Webarchive 自動編目方法。 并對兩個新型的編目系統(tǒng)進行了深入的剖析:一個 是瑞士的電子資源長期保存工程 eHelvetica ,它將圖書館編目系統(tǒng)與長期保存系統(tǒng)的攝入 流程進行集成整合, 利用編目系統(tǒng)對長期保

2、存資源進行組織與控制; 另外一種是新加坡的網(wǎng) 頁標注系統(tǒng) WAWI ,借鑒 web2.0 標簽技術(shù)為長期保存系統(tǒng)中的網(wǎng)絡(luò)資源添加標簽,實現(xiàn)對 資源內(nèi)容語義層面上的控制。 希望本文能為國內(nèi)網(wǎng)絡(luò)信息資源保存的相關(guān)研究與實踐提供一 些參考。關(guān)鍵詞: 網(wǎng)絡(luò)信息資源,長期保存,編目,標簽1引言網(wǎng)絡(luò)信息資源保存( Web Archive ,WA )是對目標領(lǐng)域內(nèi)的網(wǎng)絡(luò)信息資源進行收集、保 存、提供訪問服務(wù)的活動。為用戶提供訪問服務(wù)是WA 的最終目標,因此除了資源的采集與保存工作之外, 為了便于對網(wǎng)絡(luò)存檔的管理和利用, 大多數(shù)的項目在網(wǎng)絡(luò)資源存檔后還要對 采集到的資源做進一步的加工和整理, 將其整合到原有的

3、資源體系中提供后續(xù)的服務(wù), 即通 常意義上的(元數(shù)據(jù))編目工作。如澳大利亞的 PANDORA 項目是由圖書館員對采集到的網(wǎng) 絡(luò)出版物進行編目,把編目數(shù)據(jù)加入到國家圖書館書目庫中,供讀者檢索使用。在資源采集階段通常會利用自動化的工具抽取簡單的元數(shù)據(jù), 如采集時間、 從采集對象 網(wǎng)頁頭標(header)字段中抽取的網(wǎng)頁標題、上次修改時間等相關(guān)元數(shù)據(jù),但如果要進行更 加詳細的描述, 就需要專門的工具和系統(tǒng)以及圖書館編目人員的參與。 然而網(wǎng)絡(luò)信息資源具 有數(shù)量巨大、 質(zhì)量參差不齊且無序化等特點, 對這類資源進行組織和控制要耗費大量的人力 物力。因此如何更好的利用圖書館已有信息組織經(jīng)驗和現(xiàn)代IT技術(shù)來組

4、織所采集和保存的網(wǎng)絡(luò)信息資源,成為保存領(lǐng)域一個非常有價值的研究課題。2網(wǎng)絡(luò)信息資源保存編目研究的發(fā)展現(xiàn)狀WA開展十幾年來,全球大大小小的保存項目上百個,其中有些項目對網(wǎng)絡(luò)信息資源的編目進行了有益的研究和實踐,不斷地探索新的技術(shù)和更為有效的方法。( 1)傳統(tǒng)編目方法的延續(xù)作為圖書館的傳統(tǒng)信息組織方法, 編目工作自圖書館存在以來就是其主要業(yè)務(wù)工作, 這方面已經(jīng)積累了相當成熟的經(jīng)驗。 這些已有的資料編目方法為網(wǎng)絡(luò)信息資源的保存和組織奠定了很好的工作基礎(chǔ)。其中的一些方法和系統(tǒng)也被用于現(xiàn)在的 WA 資源登記中。例如 PANDORA(參考文獻)為了很好地組織其所收集的 Web資料,使之便于用戶查找,將其存

5、檔 的資料加上標題(title)并用在線編目系統(tǒng)進行 DC元數(shù)據(jù)編目后,加入到國家圖書館書目庫 及其合作者的書目庫中,為用戶提供訪問服務(wù)。荷蘭國家圖書館的e-Dpot系統(tǒng)(參考文獻)也采用了類似的方法。然而,Web資源體量巨大,即使是基于主題的選擇性采集,每個主題可能包含的網(wǎng)站資源數(shù)目也會以千、萬計算,同時 Web資源類型復(fù)雜,這就很難或是不可能使用傳統(tǒng)的方法來 編目。美國國會圖書館的 Minerva 項目 (參考文獻 )收集了 2000年選舉、 911事件、 2002年冬奧 會的Web資料,每個主題集合都限定了資源采集范圍。如果為每個網(wǎng)站編目(MARC ),對于選舉和冬奧會是可能的,該主題網(wǎng)

6、站的數(shù)量大概是5,000個,約9千萬Web文檔;但是對于911事件和9-11 Remembranee,該主題網(wǎng)站的數(shù)量約有 32,000個,約3.3億個Web頁,對這些 集合,僅有 2,300個被挑選出進行編目。同時Web資源是易變的,通常變化還很不明顯,而傳統(tǒng)的編目方法不具備很好的可持續(xù)性,因此采用傳統(tǒng)的編目方法來組織Web資源有很大的局限性。 雖然一些折中的辦法建議通過采用一些元數(shù)據(jù)標準而繼續(xù)延用傳統(tǒng)編目方法, 但考慮到實際需求, 還是需要探索新方法 來管理Web資源。( 2)基于 web2.0 標簽技術(shù)的信息組織方法相對于WA所擁有的復(fù)雜資源,上面提到的編目方式能為用戶提供的WA內(nèi)容信息

7、就過于簡單,因此不利于用戶對 WA的查找和使用。而語義網(wǎng)的出現(xiàn)(web 2.0)雖然增加了 WA的難度,但也為 WA的資源管理提供了許多新的思路。標簽技術(shù)對WA編目工作就起到了很好的推動作用。如 Technorati(參考文獻)、Flickr(參考文獻)和del.icio.us(參考文獻)上的標簽, 實際上是集合眾人的力量為在線資料編目。Wayfinder(參考文獻)就是借鑒了這一方法的 WA訪問工具,用戶可以通過 Wayfi nder界面為訪問的對象加標簽或注釋,同時還可以瀏覽其他 用戶對這一對象的描述內(nèi)容。這種方式將編目過程的控制分散化, 一方面提高了編目速度, 另一方面也是對內(nèi)容的更 廣

8、泛、深入地挖掘。 但是這種編目過程的分散也會引起人們對這種任意標注的資料的準確性 的關(guān)注。( 3)基于大規(guī)模 Web archive 自動編目的探索為了更好地解決海量數(shù)據(jù)的編目問題, 有項目 1提出一種基于大規(guī)模擴充的自動編目方 式,即通過抽取技術(shù)從網(wǎng)頁中自動抽取元數(shù)據(jù), 并以結(jié)構(gòu)化形式存儲, 以此來實現(xiàn)對保存資 源的編目。HRML Web 文檔中的網(wǎng)頁中可供抽取的信息有兩種:一類是描述元數(shù)據(jù),如嵌入在META標簽里的描述元數(shù)據(jù);另一類是起源元數(shù)據(jù)(prove nance metadata),如在 Web文檔采集的過程中所收集的原始信息,它對于保障存檔和存檔認證以及存檔訪問都很有必要。其中,描

9、述元數(shù)據(jù)的抽取可以采用基于位置的信息抽取方法2,即依據(jù)網(wǎng)頁文檔的內(nèi)在結(jié)構(gòu)特征來完成數(shù)據(jù)抽取,采集的 html文檔被送入html剖析器中,依據(jù)制定的數(shù)據(jù)抽取規(guī)則,剖析 器建立一個反映html標簽等級的剖析樹。該方法有很高的抽取準確率,但當目標網(wǎng)頁的結(jié)構(gòu) 發(fā)生改變時,該方法將不可行。對于起源元數(shù)據(jù)來說,還可采用基于本體論的信息抽取方法 2,即通過一個適應(yīng)性網(wǎng)絡(luò)信息抽取系統(tǒng)獲取元數(shù)據(jù)信息,它使用領(lǐng)域知識來描述數(shù)據(jù),包 括關(guān)系、詞頻、上下文關(guān)鍵詞,但目前基于本體論的研究還待深入。相信隨著信息抽取技術(shù) 的不斷成熟,元數(shù)據(jù)抽取技術(shù)將在WA信息組織方面發(fā)揮重要作用。2網(wǎng)絡(luò)信息資源保存的編目系統(tǒng)研究2.1基于

10、攝入流程的 WA編目處理一e-Helvetica工程瑞士國家圖書館 (Swiss National Library : SNL)的e-Helvetica工程(參考文獻)主要承擔 瑞士電子出版物的收集、 組織、保存與傳播的任務(wù),以使這些數(shù)字資源在將來能夠被用戶所 訪問和利用。該工程由針對不同類型電子資源進行長期保存的幾個試驗項目組成,這些項目的資源收集與保存均由SNL與其他圖書館合作完成(以下統(tǒng)稱為合作館)。本文以其中用于保存網(wǎng)絡(luò)信息資源的Web Archive Switzerland試驗項目為主進行分析。(1) 系統(tǒng)功能架構(gòu)管理(data management)、存儲(archivale-He

11、lvetica功能架構(gòu)遵循 OAIS參考模型,包括六個功能模塊:攝入(ingest)、數(shù)據(jù) storage)、保存規(guī)戈U (preservation planning)、系統(tǒng)管理 (adm ini strati on)、存取訪問(access)。Commercial online pubkPOP Pilot Fnoject,klLfllHipi 11Preservation planningOnline thesesChs芻亡h Pilcrt卩口世已ManagememWeb resourcesW巳h Aj匚呂刃nEIngestRealisalia-n2006AccessRealiatonpla

12、nned 2007* : ArchivalStorageRealised 2005Realisation planned 2QQ£lAdministration圖1e-Helvetica功能架構(gòu)攝入模塊負責攝入和處理合作館的數(shù)字對象及其元數(shù)據(jù),直到該數(shù)字對象及其元數(shù)據(jù)被保存到存儲模塊中。數(shù)據(jù)管理模塊保存由攝入模塊獲取的所有元數(shù)據(jù)。存儲模塊保存數(shù)字對象及其元數(shù)據(jù)的長期保存信息包。保存規(guī)劃模塊負責制定 OAIS模型的保存策略。系統(tǒng)管理模塊負責監(jiān)控各個模塊的運行。存取訪問模塊。通過一個特殊的訪問接口連接OPAC和SNL,使得用戶通過圖書館 OPAC訪問包括長期保存資源在內(nèi)的所有館藏。(2)

13、 數(shù)據(jù)處理流程e-Helvetica對數(shù)字對象及其元數(shù)據(jù)的自動處理流程如下圖所示圖2e-Helvetica數(shù)據(jù)處理流程資源登記:在 Web Archive Switzerland試驗項目中,合作館使用 web表單對收錄的 web 站點資源進行聲明(announcing website),即創(chuàng)建資源描述的元數(shù)據(jù),該web表單是基于都柏林元素集(DC )和MARCxml的基礎(chǔ)上制定的。元數(shù)據(jù)提交:元數(shù)據(jù)由分布在各地的合作館創(chuàng)建,可采用兩種提交方式: 一種是電子郵件方式,合作館將元數(shù)據(jù)包做為附件郵寄到SNL,適合小型圖書館;一種 OAI-PMH方式,SNL直接從合作館的存儲系統(tǒng)里收割元數(shù)據(jù),適合大型

14、圖書館。這兩種方式的元數(shù)據(jù)均以 xml文件提交給e-helvetica的攝入模塊。權(quán)限檢查:檢查收割方是否擁有長期保存和存取訪問資源的權(quán)利。數(shù)字對象收割:權(quán)限檢查通過后,使用Heritrix收割數(shù)字對象。收割工具首先從之前提交的元數(shù)據(jù)中讀取數(shù)字對象鏈接,然后根據(jù)該鏈接收割合作館存儲系統(tǒng)中的數(shù)字對象。解壓ARC文件包(unpacking ARC-files):元數(shù)據(jù)和數(shù)字對象接收后,攝入系統(tǒng)會將其 打包為ARC文件,在進行后續(xù)的處理之前需要解包。包括數(shù)字對象病毒和完整性質(zhì)量檢測:攝入過程的幾個不同階段都需要進行質(zhì)量檢查。檢測、元數(shù)據(jù)格式檢測、重復(fù)提交控制機制。創(chuàng)建 AIP 包( creating

15、 AIPs ):創(chuàng)建保存過程中的存儲信息包。關(guān)系、版本管理( managing relations,versions etc. ):對存檔內(nèi)容之間的關(guān)系及不同時期 的存檔版本進行管理。生成URN :系統(tǒng)會為每個數(shù)字對象生成一個U RN,該U RN依據(jù)e-Helvetica長期保存 資源唯一標識符即國家書目記錄號( National Bibliography Numbers , URN:NBN )制定 ,并與 U RL 相對應(yīng)。元數(shù)據(jù)完整性檢測: 攝入流程的最后一步是檢測攝入階段所收集的信息是否均已記錄在 元數(shù)據(jù)中。數(shù)字對象及其元數(shù)據(jù)由攝入模塊輸出后, 進入數(shù)據(jù)管理模塊、 存儲模塊和圖書館編目系

16、 統(tǒng)中,開始對資源進行管理、存儲和組織。其中,完整的元數(shù)據(jù)包保存在數(shù)據(jù)管理模塊;包 含數(shù)字對象和元數(shù)據(jù)的長期保存信息包保存在存儲模塊; 書目元數(shù)據(jù)格式由 MARCxml 轉(zhuǎn)成 MARC21 后,被自動發(fā)送到圖書館編目系統(tǒng),生成一條新的編目記錄以供編目人員進行進 一步的處理。由以上的數(shù)據(jù)處理流程,我們可以看到 e-Helvetica 工程基于長期保存系統(tǒng)的攝入流程 集成了圖書館編目系統(tǒng), 用長期保存系統(tǒng)做前端的采集與后端存儲, 用圖書館編目系統(tǒng)對所 采集的資源進行組織和質(zhì)量控制。 兩者的結(jié)合, 一方面使長期保存資源的質(zhì)量得到保證, 另 一方面使圖書館編目系統(tǒng)突破傳統(tǒng)資源的界線,在網(wǎng)絡(luò)資源組織方面

17、得到了更好的傳承。2.2基于web2.0技術(shù)的網(wǎng)頁標注系統(tǒng) WAWIWAWI(Web Annotation for Web Intelligence) ( 參考文獻 )是由新加坡南洋技術(shù)大學設(shè)計開 發(fā)的網(wǎng)頁標注系統(tǒng), 采用web2.0的標簽方式實現(xiàn),該系統(tǒng)與長期保存系統(tǒng)集成后,可供編目人員對 WA 資源進行著錄或供用戶為其添加標簽。(1)系統(tǒng)功能架構(gòu)WAWI系統(tǒng)作為 web curation流程的環(huán)節(jié)集成到 WA長期保存平臺中,集成后的系統(tǒng)架 構(gòu)如下圖所示:圖3WAWI標注與編目系統(tǒng)與IIPC Web Archive平臺的集成 該平臺采用Heritrix采集web數(shù)據(jù),采集下來的數(shù)據(jù)以 ARC

18、格式進行保存,NutchWAX對 存檔文件建立全文索引,然后WERA檢索組件通過NutchWAX對存檔的純文本和 URL進行訪問。WAWI通過WERA組件讀取WA平臺中的ARC文件,為編目人員提供網(wǎng)頁標注服務(wù), 同時也為終端用戶提供訪問。(2)WAWI系統(tǒng)的網(wǎng)頁標注流程整個系統(tǒng)流程分為三個階段:第一階段是標注表單 (ann otation schema)準備階段。圖書館員使用標注表單管理器來創(chuàng) 建元數(shù)據(jù)表單,該表單在瀏覽器中以樹狀視圖的形式呈現(xiàn),創(chuàng)建后被轉(zhuǎn)換成xml文件保存到服務(wù)器端的數(shù)據(jù)庫中。元數(shù)據(jù)結(jié)構(gòu)模型依據(jù) W3C語義網(wǎng)協(xié)會提出的Annotea系統(tǒng),使用RDF框架。主要組成部 分為:標注

19、標題,預(yù)標注的目標文本,用戶標注的標簽或元數(shù)據(jù),允許或訪問的權(quán)限。 此外,還包括唯一標識符、日期、url等信息。第二階段是元數(shù)據(jù)標注。系統(tǒng)在客戶端瀏覽器中加載兩部分內(nèi)容:如圖,右側(cè)以樹狀視圖顯示標注表單(元數(shù)據(jù)模型),左側(cè)顯示從WA存儲系統(tǒng)(web archive repository )中讀取的web頁面。通過點擊和拖拽動作,預(yù)標注的目標文本部分被高亮顯示,同時被捕捉到標注 表單中。用戶完成標注后,表單將被保存在服務(wù)器端,以供以后的檢索和審核。圖4標注過程頁面第三階段是元數(shù)據(jù)檢索階段。標注階段所創(chuàng)建的元數(shù)據(jù)及捕捉的目標文本均可提供檢索。用戶的檢索指令被轉(zhuǎn)換成 XQuery查詢發(fā)送到服務(wù)器端的

20、 XML數(shù)據(jù)庫中,該數(shù)據(jù)庫將結(jié) 果返回到檢索結(jié)果頁面,該頁面在顯示標注元數(shù)據(jù)的同時,也提供到存檔的web頁面的鏈接。如果要同時檢索元數(shù)據(jù)和存檔的 web頁面,可以將 WERA檢索到的存檔頁面的純文本和 URL 整合進WAWI元數(shù)據(jù)搜索引擎中來。通過WAWI系統(tǒng)的標注流程,我們可以看到該系統(tǒng)的獨到之處為采用了Context-sensitive標注方式,即在標注過程中建立元數(shù)據(jù)與存檔的web頁面的關(guān)系,這樣編目人員就能夠參照原文內(nèi)容來著錄元數(shù)據(jù),該方式可以能夠確保機構(gòu)環(huán)境下WA編目過程的一致性和質(zhì)量。3結(jié)語可以看到,長期保存領(lǐng)域的編目研究與實踐已經(jīng)取得了一定的進展。在研究方面,學者們嘗試著從不同的

21、角度進行探討:繼承傳統(tǒng)編目方法, 盡可能的發(fā)揮圖書館在信息組織方面的長處;引入web2.0環(huán)境下“全民織網(wǎng)”思想,采用標簽來組織長期保存的資源,充分挖掘 用戶在資源組織方面的潛力;采用元數(shù)據(jù)自動抽取挖掘技術(shù),減少了人力的投入, 對長期保存領(lǐng)域的大規(guī)模采集具有重要的意義。在實踐方面,除了本文所介紹的e-Helvetica、WAWI這兩個典型系統(tǒng)外,還有諸多優(yōu)秀系統(tǒng),如澳大利亞國家圖書館的PANDORA系統(tǒng)、IBM公司的e-Depot系統(tǒng)等,這些系統(tǒng)對圖書館在長期保存領(lǐng)域的信息組織實踐起到了很好的推動 作用。技術(shù)等諸多因素的相關(guān)研究還有待于進但同時我們也注意到, 由于受到網(wǎng)絡(luò)信息資源自身的特點以及

22、人力、限制,目前長期保存領(lǐng)域的信息組織方法和實踐還處于不成熟的階段,步的深入。隨著網(wǎng)絡(luò)信息資源數(shù)量的不斷增大、信息類型日益復(fù)雜,網(wǎng)絡(luò)信息資源保存的組織與控制將面臨更大的挑戰(zhàn)。參考文獻1 MASANNES J. Web Archiving.M New York: Springer-Verlag New York, Inc. Secaucus, NJ, USA, 2006.2 龍麗,等屆外web信息抽取研究綜述J.圖書館學刊,2008(5).3 鄧君.基于OAIS與OAI-PMH的數(shù)字檔案館共享功能框架設(shè)計J,檔案學通訊,2008,(3).4 Barbara Signori.web archive

23、 Switzerland.5 Barbara Signori.e-Diss.ch : collecting and archiving online theses at the Swiss National Library. WU P.H.J., et al. Anno tat ing the Web Archives -n Explorati on of Web Archives Catalogi ng and Semantic WebJ. LECTURE NOTES IN COMPUTER SCIENCE, 2006,4312:12.7 WU, H-J Paul, TAMSIR P I,

24、HEOK K, ADRIAN Y . Applying Context-Sensitive Web Annotation in Evidence-based, Collaborative Web Archives Cataloging, submitted to International Workshop on Archiving Web, 2006.8 The PANDORA Digital Archiving System (PANDAS):Managing Web Archiving in Australia:A Case Study. EB/OL. 2009-05-08.http:/

25、.au/nla/staffpaper/2004/koerbin2.html.9 e-Depot and digital preservation.EB/OL. 2009-05-08. http:/www.kb.nl/dnp/e-depot/e-depot-en.html.作者簡介:孫敏杰 (1979),中國科學院國家科學圖書館2008 級碩士研究生、 信息檢索與技術(shù)方向、已發(fā)文 2篇。通訊地址:北京市北四環(huán)西路 3 3號中國科學院國家科學圖書館615 100190。Email:sunminjie吳振新,中國科學院國家科學圖書館副研究館員。 孫志茹,中國科學院國家科學圖書館 2006 級博士研究生。Reaseach on Catalogue Method and System of Web ArchiveSun Minjie,Wu Zhenxin,Sun Zhiru / National Science Library, Beijing ,100190 Abstract: In order to make the archived web resources available to users, catalogue and quality control sh

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論