【畢業(yè)學(xué)位論文】(Word原稿)基于數(shù)字資源庫藏系統(tǒng)(CDAL)的元數(shù)據(jù)存儲方案設(shè)計與實(shí)現(xiàn)-計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)基于數(shù)字資源庫藏系統(tǒng)(CDAL)的元數(shù)據(jù)存儲方案設(shè)計與實(shí)現(xiàn)-計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)基于數(shù)字資源庫藏系統(tǒng)(CDAL)的元數(shù)據(jù)存儲方案設(shè)計與實(shí)現(xiàn)-計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)基于數(shù)字資源庫藏系統(tǒng)(CDAL)的元數(shù)據(jù)存儲方案設(shè)計與實(shí)現(xiàn)-計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)基于數(shù)字資源庫藏系統(tǒng)(CDAL)的元數(shù)據(jù)存儲方案設(shè)計與實(shí)現(xiàn)-計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 1 - 基于數(shù)字資源庫藏系統(tǒng)( 元數(shù)據(jù)存儲方案設(shè)計與實(shí)現(xiàn) 北京大學(xué)計算機(jī) 系 網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 指導(dǎo)教師: 閆宏飛 摘要: 元數(shù)據(jù)在中文數(shù)字財富大全庫( 樣旨在對多種類型數(shù)字資源長期保存的系統(tǒng)而言有很大的應(yīng)用價值。 實(shí)際應(yīng)用中,各類數(shù)字資源的元數(shù)據(jù)標(biāo)準(zhǔn) 不斷的經(jīng)歷著完善和發(fā)展,主要表現(xiàn)為元數(shù)據(jù)屬性的增減以及屬性定義的改變 ;為了廣泛收集元數(shù)據(jù), 用了集成大眾智慧的 同編輯方式,這種方式 需要元數(shù)據(jù)系統(tǒng)保存所有元數(shù)據(jù)的歷史版本,還會引起 因 元數(shù)據(jù) 被 頻繁 的 修改 對通過網(wǎng)絡(luò) 訪問 元數(shù)據(jù) 的 效率帶來 的 負(fù)面影響。 針對以上 這些問題 , 本文 為 四類多媒體類型資源確定了一套基于 元數(shù)據(jù)模式標(biāo)準(zhǔn)供 用,并 提出了一個針對在協(xié)同編輯環(huán)境下的可變模式的結(jié)構(gòu)化數(shù)據(jù)的存儲方案 。該方案采用元組方式實(shí)現(xiàn)數(shù)據(jù)模式與實(shí)際數(shù)據(jù)的分離維護(hù),同時考慮到了協(xié)同編輯方式帶來的網(wǎng)絡(luò)訪問效率問題以及與原有 統(tǒng)的整合問題。 關(guān)鍵詞: 元數(shù)據(jù), 元數(shù)據(jù)存儲, 元數(shù)據(jù)標(biāo)準(zhǔn), 協(xié)同編輯,數(shù)字資源 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 2 - of in 京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 3 - 目次 第一章 引言 . - 4 - 第二章 元數(shù)據(jù)標(biāo)準(zhǔn)與協(xié)同編輯 . - 5 - 1 多媒體數(shù)字資源元數(shù)據(jù)的標(biāo)準(zhǔn) . - 5 - 2 元數(shù)據(jù)的來 源:協(xié)同編輯 . - 7 - 第三章 元數(shù)據(jù)系統(tǒng)的設(shè)計與實(shí)現(xiàn) . - 8 - 1針對 元數(shù)據(jù)模式 的 功能的實(shí)現(xiàn) . - 9 - 2 針對元數(shù)據(jù) 具體取值的功能實(shí)現(xiàn) 以及 塊對資源實(shí)體的封裝 . - 10 - 3 元數(shù)據(jù)管理 . - 14 - 4 與原系統(tǒng)的協(xié)同工作 . - 15 - 5 存取性能上的優(yōu)化 . - 16 - 第四章 實(shí)用效果與展望 . - 19 - 第五章 總結(jié) . - 22 - 致謝: . - 23 - 參考文獻(xiàn): . - 23 - 附表:四類數(shù)字資源的元數(shù)據(jù)模式 . - 23 - 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 4 - 第一章 引言 中文數(shù)字財富大全庫 (稱 昵稱燕儲 ) 是由北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室建立并維護(hù)的綜合數(shù)字資源倉儲系統(tǒng) 。 自建立以來 , 搜集存儲約 7頻 , 音頻 , 靜態(tài)圖片 , 軟件 , 電子書籍等多種數(shù)字資源, 按照 提供 務(wù) 。 現(xiàn)在的服務(wù)方式包括目錄導(dǎo)引查詢和文件名關(guān)鍵字查詢 。 為了便于更好地提供檢索服務(wù),需要解決的一個重要問題是元數(shù)據(jù)的收集、檢索與管理。 從資源實(shí)體的組成來看,任何一個資源實(shí)體都可以由以下三個方面的特征來描述: 內(nèi)容( : 指資源實(shí)體的 組成 , 是資源實(shí)體的內(nèi)在特征 。 上下文( 描述與資源實(shí)體的創(chuàng)建相關(guān)的人物、個體、原因、地點(diǎn)、方式等,是資源實(shí)體的外在特征。 結(jié)構(gòu) ( : 描述資源實(shí)體各個組成部分之間或者與其他資源實(shí)體之間的關(guān)聯(lián),該特征可能是內(nèi)在的,也可能是外在的 。 元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù), 針對 數(shù)字資源 而言 ,元數(shù)據(jù)指數(shù)字資源的描述信息。通常,一個元數(shù)據(jù)記錄由一組屬性構(gòu)成,這組屬性與其相應(yīng)的屬性值共同構(gòu)成對資源的描述。元數(shù)據(jù)的宗旨是對數(shù)字資源更好的進(jìn)行整理、追蹤,并提高資源的可訪問性和互操作性。 早在數(shù)字資源的概念出現(xiàn)之 前,圖書館將圖書的索引、摘要、分類記錄等結(jié)構(gòu)化的數(shù)據(jù)遵照一定的標(biāo)準(zhǔn),作為針對資源內(nèi)容的元數(shù)據(jù)保存起來,以方便讀者快速查找圖書;圖書館將圖書的出版年代、作者、借閱記錄等信息遵照一定的標(biāo)準(zhǔn) ,作為針對上下文的元數(shù)據(jù) 保存起來,這些信息既可以輔助管理人員識別不同的書目,亦可幫助讀者進(jìn)行復(fù)雜的查詢,北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 5 - 從中不難看出針對上下文信息的元數(shù)據(jù)在資源庫中的作用 。 對于以多媒體數(shù)字資源而言, “ 上下文 ” 信息很難隨著對資源本身的收集而獲得,而內(nèi)容相關(guān)的結(jié)構(gòu)關(guān)聯(lián)也因?yàn)樯婕岸嗝襟w內(nèi)容分析而難 以實(shí)現(xiàn) 。在這種情況下,對多媒體數(shù)字資源建立文本描述 的元數(shù)據(jù),不但可以說明上述內(nèi)容,而且能夠直接有助于提高對資源檢索的準(zhǔn)確率和滿意度。 因此,我們希望通過為各個資源增加元數(shù)據(jù)的方式達(dá)到更充分的利用以及更有效的維護(hù) 大量的數(shù)字資源的目的 。 為了達(dá)到這個目的, 需要: 1) 確定多媒體數(shù)字資源元數(shù)據(jù)的標(biāo)準(zhǔn) ; 2) 為 的各資源找到可靠的元數(shù)據(jù)來源 ; 3) 設(shè)計和實(shí)現(xiàn) 元數(shù)據(jù)系統(tǒng) ; 4) 元數(shù)據(jù)與 實(shí)際存儲的資源 需進(jìn)行匹配 。 以下第二、第三兩章 將 圍繞上述 1), 2), 3)三個方面 詳細(xì)論述筆者所進(jìn)行的工作。第二章主要論述 數(shù)據(jù)標(biāo)準(zhǔn)的形成過程以及采用協(xié)同編輯方式 搜集元數(shù)據(jù)的原因;第三章詳述了元數(shù)據(jù)系統(tǒng)的設(shè)計與實(shí)現(xiàn)思路。 第二章 元數(shù)據(jù)標(biāo)準(zhǔn)與協(xié)同編輯 1 多媒體數(shù)字資源元數(shù)據(jù)的標(biāo)準(zhǔn) 為一個 資源庫選擇一合適的元數(shù)據(jù)標(biāo)準(zhǔn)需要考慮以下兩個問題: 1) 該標(biāo)準(zhǔn)的元數(shù)據(jù)屬性集合必須能夠滿足資源庫的需要; 2) 該標(biāo)準(zhǔn)與其他的元數(shù)據(jù)標(biāo)準(zhǔn)之間要有一定的互操作性 。 樣才能夠?qū)ν馓峁└鼜?qiáng)大的檢索方式,并且為資源本身進(jìn)行更加有序的分類管理與資源個體識別 。 為了同時滿足資源庫本身的需要以及與其他標(biāo)準(zhǔn)之間的互操作性, 用在標(biāo)準(zhǔn)的 下簡稱 “)上添加擴(kuò)展的方式確定其自身采用的標(biāo)準(zhǔn) 。 基本元數(shù)據(jù),是指按照數(shù)字信息資源服務(wù)的共同需要建立起來的一種元數(shù)據(jù)格式,它可以支持對象的檢索、確認(rèn)北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 6 - 和調(diào)度,同時它可以作為核心元數(shù)據(jù)集,各個領(lǐng)域可以根據(jù)特殊需要或者按照各個應(yīng)用系統(tǒng)的特點(diǎn)依照標(biāo)準(zhǔn)方法進(jìn)行擴(kuò)展,形成各個領(lǐng)域的專門元數(shù)據(jù)格式或具體應(yīng)用系統(tǒng)的元數(shù)據(jù)應(yīng)用格式 。 數(shù)據(jù)于 2003 年 2 月成為國際標(biāo)準(zhǔn)該元數(shù)據(jù)標(biāo)準(zhǔn)可分為兩個層次:簡單 數(shù)據(jù)( 及有修飾詞的 數(shù)據(jù)( 。 簡單 數(shù)據(jù)由15 個屬性構(gòu)成,為了滿足對 多媒體資源的檢索、分類、資源個體識別以及與外部系統(tǒng)互操作的需求,我們采用的元數(shù)據(jù)模式是在簡單 數(shù)據(jù)的基礎(chǔ)上,針對不同類型的數(shù)字資源參照不同行業(yè)內(nèi)的權(quán)威元數(shù)據(jù)機(jī)構(gòu)提出的模式,并對其進(jìn)行擴(kuò)展之后得到的(具體模式可參見附表 1。 在為資源選擇元數(shù)據(jù)模式的時候 , 通常要考慮以下三個問題: 1) 該模式要在最大程度上適應(yīng)資源的使用者的需要; 2) 確定模式中相對重要的屬性以及描述粒度; 3) 保證系統(tǒng) 當(dāng)前應(yīng)用的是該模式的最新版本 。 元數(shù)據(jù)模式會隨著時間的推移和應(yīng)用需求的變化而演變 ,我們對 數(shù)據(jù)模式的研究發(fā)現(xiàn),盡管 員會竭力保持簡單元數(shù)據(jù)集的穩(wěn)定,幾乎每個最初的元數(shù)據(jù)項(xiàng)還是發(fā)生 了或大或小的變化, 這些變化主要 包括定義的明確、范疇的細(xì)化、數(shù)據(jù)類型的變更等 。 基本元數(shù)據(jù)屬性由最初的 13 個發(fā)展到現(xiàn)在的 15 個,有修飾詞的 2003 年的版本相比也增加了 2個屬性 1。 所 以 具有根據(jù)資源查找的需要及時調(diào)整其元數(shù)據(jù)模式的功能 。 由于 每一類數(shù)字資源采用的元數(shù)據(jù) 模式都是對 本元數(shù)據(jù)的一個延伸,當(dāng)基本元數(shù)據(jù)的版本發(fā)生變化時, 數(shù)據(jù)模式需要及時的適應(yīng)這一變化,以在最大程度上保證 數(shù)據(jù)的可用性及其與外系統(tǒng)的互操作性 。 鑒于以上原因, 要一個 模式 靈活 性好 的元數(shù)據(jù)系統(tǒng),以適應(yīng)底層元數(shù)據(jù)模式的發(fā)展和變化 。 1 完整的歷史變化過程可參閱 元數(shù)據(jù)的來源:協(xié)同編輯 為了獲取可靠的元數(shù)據(jù),以往的嘗試是鼓勵 注冊用戶為其感興趣的資源填寫 少的元數(shù)據(jù)。用戶從 網(wǎng)站上找到資源的元數(shù)據(jù)項(xiàng),根據(jù)自己的意愿將新的元數(shù)據(jù)在本地編輯完畢,然后上傳。 網(wǎng)絡(luò)服務(wù)器端 將新的元數(shù)據(jù)以文本文件的形式保存起來,以供使用。 該策略也是協(xié)同編輯的形式之一。不過,這種方式有以下兩個缺陷: 1) 注冊用戶人數(shù)有限,不能滿足資源量增長造成的元數(shù)據(jù)標(biāo)注負(fù)擔(dān) ; 2) 以每個人以“承包任務(wù) ”的方式標(biāo)注元數(shù)據(jù),其給出內(nèi)容是否準(zhǔn)確、完整、可信需要其他環(huán)節(jié)再行檢驗(yàn) ,這又要耗費(fèi)額外的人力 ; 3) 文本方式的存儲導(dǎo)致檢索等高級功能實(shí)現(xiàn)困難。 與上述協(xié)同編輯不同, 于 1994 年產(chǎn)生的 念是一種完全自由的協(xié)同編輯方式。與以往的嘗試相比, 式顯得更為簡明。 式在獲取信息資源方面所取得了顯著 的成果 。 其中,最具代表性的“維基百科全書 ”(從 2001 年 1 月創(chuàng)建起,一直到 2004 年 10 月,它所涵蓋的信息量已經(jīng)超越了歷史長達(dá) 200 多年的 以下為二者在信息量上的比較: 詞數(shù) 條目數(shù) 44,000,000 140,000 250,000,000 360,000 由于采用的是自由、開放的編輯方式,維基百科全書的信息質(zhì)量難免遭到職業(yè)百科全書編者的質(zhì)疑 。 事實(shí)上,它的信息質(zhì)量并未因此大打折扣 。 協(xié)同編輯的模式在信息獲取方面有如下兩個顯著的特點(diǎn):首先,由于任何人都可以隨意修改網(wǎng)頁上的信息,于是低質(zhì)量 或者 過于偏執(zhí) 的信息很容易被訪問者刪除,經(jīng)過長期的積累,能夠在網(wǎng)頁上留下來的信息便都是有價值的 。 2其次,幾個 用者可能因?yàn)樵谀硞€問題上持不同見解而在網(wǎng)頁上爭執(zhí)不休,2 。 可是在 供的這種協(xié)同編輯模式下,大多數(shù)使用者在對網(wǎng)頁內(nèi)容進(jìn)行編輯時會趨向使用客觀、中立的語言和表達(dá)方式使得自己的觀點(diǎn)更容易被他人所接受 。 協(xié)同編輯的這兩個特點(diǎn)是 點(diǎn) 能夠良好 運(yùn)作的重要保障 。 鑒于 取得的成功,我們將嘗試 采用 協(xié)同編輯的方式為 各類數(shù)字資源獲取針對資源內(nèi)容和資源上下文的元數(shù)據(jù)信息 。 成熟的 擎在數(shù)據(jù)存儲、檢索、緩存等方面都有值得借鑒之處,本文所詳述的元數(shù)據(jù)系統(tǒng)即借鑒了開源 擎 數(shù)據(jù)存儲方式和緩存策略。然而,成熟的 擎都是針對非結(jié)構(gòu)化數(shù)據(jù)的搜集而設(shè)計的,而元數(shù)據(jù)是結(jié)構(gòu)化的數(shù)據(jù) 。 因此在 擎實(shí)現(xiàn)上,還要充分考慮到元數(shù)據(jù)的特點(diǎn) 。 第三章 元數(shù)據(jù)系統(tǒng)的設(shè)計與實(shí)現(xiàn) 如上所述,該系統(tǒng)既是資源元數(shù)據(jù)的存儲 與維護(hù)系統(tǒng),又是在協(xié)同編輯環(huán)境下的 擎 。 因此,該系統(tǒng)的設(shè)計以及實(shí)現(xiàn)既要考慮到元數(shù)據(jù)本身的特點(diǎn),又要兼顧 擎在運(yùn)作中可能出現(xiàn)的各種問題 。 除此之外,元數(shù)據(jù)的管理,新系統(tǒng)與舊系統(tǒng)的整合,以及運(yùn)行的效率等問題都需要考慮 。 系統(tǒng)的 整體結(jié)構(gòu)如 圖 1 所 示 : 元 數(shù) 據(jù) 系 統(tǒng)原 C D A L 的 功 能 模 塊 ( 對 其修 改 , 使 之 與 元 數(shù) 據(jù) 系 統(tǒng) 相連 )訪 問W E B ( 對 資 源 實(shí) 體 進(jìn) 行 封裝 , 實(shí) 現(xiàn) w i k 控 制 、 元數(shù) 據(jù) 查 詢 等 功 能 )訪問圖 1. 整體結(jié)構(gòu) 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 9 - 塊實(shí)現(xiàn)對系統(tǒng)中資源實(shí)體的封裝, 程控制,檢索接口等功能;有的程序也需要適當(dāng)?shù)男薷?,使其能夠與元數(shù)據(jù)系統(tǒng)協(xié)同工作。 這兩部分功能的實(shí)現(xiàn)在很大程度上依賴于元 數(shù)據(jù)系統(tǒng)。 元數(shù)據(jù) 系統(tǒng) 在功能上 大致可分為針對元數(shù)據(jù)模式的功能與針對元數(shù)據(jù)取值的功能兩個方面。其中元數(shù)據(jù)模式上的功能是實(shí)現(xiàn)存儲元數(shù)據(jù)取值存儲的基礎(chǔ)。 1 針對 元數(shù)據(jù)模式 的 功能的實(shí)現(xiàn) 如前所述,該元數(shù)據(jù)系統(tǒng)的元數(shù)據(jù)模式依賴于 數(shù)據(jù) 標(biāo)準(zhǔn) , 而且, 系統(tǒng)還要允許元數(shù)據(jù)模式發(fā)生變化。首先,為了保持 元數(shù)據(jù)模式與 數(shù)據(jù)模式之間的對應(yīng)關(guān)系,系統(tǒng)需要記錄 類資源各自的元數(shù)據(jù)模式以及系統(tǒng)當(dāng)前采用的 數(shù)據(jù)模式,這樣在與外界進(jìn)行互操作的時候就可以將C 標(biāo)準(zhǔn)之后再進(jìn)行其他需要的 操作 。 其次,由于各類資源的元數(shù)據(jù)項(xiàng)之間在名稱和顯示方式上存在著差異,所以系統(tǒng)需要為每類資源的元數(shù)據(jù)定義保存相應(yīng)的元數(shù)據(jù)名稱和顯示方式 。 故系統(tǒng)需要這樣兩個基本的 數(shù)據(jù) 結(jié)構(gòu)維護(hù)元數(shù)據(jù)模式: 1) 此數(shù)據(jù)結(jié)構(gòu) 定義 了 用的 數(shù)據(jù)模式,每一個結(jié)構(gòu)描述一個數(shù)據(jù)項(xiàng),該項(xiàng)由元數(shù)據(jù)項(xiàng)的名稱( 定, C 元數(shù)據(jù)標(biāo)準(zhǔn)所定義的該項(xiàng)的顯示名稱,例如,名稱為“元 數(shù)據(jù)項(xiàng),顯示為 “題名 ”。 2) 此數(shù)據(jù)結(jié)構(gòu) 為每一類資源定義 應(yīng)用于 身的元數(shù)據(jù)模式 。 其中對每一類資源, ($被替換位這類資源的名稱 。 例如,電子書這類資源的元數(shù)據(jù)模式將定義在 構(gòu)中,而電影資源的元數(shù)據(jù)模式將由 構(gòu)確定 。 這個數(shù)據(jù)結(jié)構(gòu)中,屬性元數(shù)據(jù)項(xiàng)的名稱, 定該項(xiàng)的 顯示, C 元數(shù)據(jù)標(biāo)準(zhǔn)中與之對等的屬性,與前面一樣, 定北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 10 - 該項(xiàng)在 的顯示名稱 。 有了這兩個結(jié)構(gòu)之后,系統(tǒng)只要保存每個資源所擁有的各個元數(shù)據(jù)項(xiàng)上的值即可 。 在元數(shù)據(jù)模式本身發(fā)生變化的時候,只要相應(yīng)的修改上述兩個結(jié)構(gòu),即可完成元數(shù)據(jù)模式的更新 。 2 針對元數(shù)據(jù)具體取值的功能實(shí)現(xiàn) 以及 塊對資源實(shí)體的封裝 元數(shù)據(jù)取值上的主要功能 包括 :讀取與修改。 為了實(shí)現(xiàn)元數(shù)據(jù)取值的讀取,系統(tǒng)需要借助( 1)中描述的兩個結(jié)構(gòu)提供的元數(shù)據(jù)模式上的支持取得相應(yīng)的元數(shù)據(jù)屬性取值 。 為 了達(dá)到這一目的,系統(tǒng)還需要 這樣一個數(shù)據(jù)結(jié)構(gòu) 為每一個資源實(shí)體保存其資源類型以及其各個元數(shù)據(jù)項(xiàng)對應(yīng)的取值在系統(tǒng)中的位置: ) 每一個 象唯一的決定了系統(tǒng)中的一個資源實(shí)體,該唯一性由性決定 。 性 用來標(biāo)記資源實(shí)體的 所屬的資源類型 , 而 多個元組 共同記錄該實(shí)體在每個元數(shù)據(jù)項(xiàng)上的取值 。 加上這個結(jié)構(gòu),系統(tǒng)進(jìn)行資源實(shí)體的訪問時便可按照 如下流程進(jìn)行: 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 11 - 從 c d a l _ i n f o _ 構(gòu)中讀取 n a m e s p a c e , 通過n a m e s p a c e 的值定位到具體的 c d a l _ ( $ t y p e ) _ a d a t a 結(jié)構(gòu) , 并從 c d a l _ ( $ t y p e ) _ m e t a d a t a 結(jié)構(gòu)中獲取該資源實(shí)體的所有元數(shù)據(jù)項(xiàng) 。 從 c d a l _i n f o _ 構(gòu)中讀取 n a m e s p a c e , 通過 n a m e s p 值定位到具體的 c d a l _ ( $ t y p e ) _ m e t a d a t a 結(jié)構(gòu) , 并從 c d a l _ ( $ t y p e ) _ m e t a d a t a 結(jié)構(gòu)中獲取該資源實(shí)體的所有元數(shù)據(jù)項(xiàng) 。將該資源實(shí)體的唯一標(biāo)識符與各個元數(shù)項(xiàng)的名稱分別組合 ,到實(shí)際的數(shù)據(jù)存儲模塊中取得所有的元數(shù)據(jù)項(xiàng)取值 。圖 2. 給定 資源實(shí)體 元數(shù)據(jù)的 訪問流程 在 戶對元數(shù)據(jù)的取值進(jìn)行修改時,為了實(shí)現(xiàn)像編輯、歷史版本保存等基本的 性,系統(tǒng)在每次保存某個資源實(shí)體的某個或某些屬性的新的取值時,不能簡單的改掉原值,而是要將原值保存好,并將用戶輸入的新值在系統(tǒng)內(nèi)部標(biāo)記為這些屬性的最新版本,同時保存 。 這些 特性帶來的主要影響是:需要一個額外的數(shù)據(jù)結(jié)構(gòu)為每一個資源實(shí)體的每個屬性記錄該屬性的最新版本數(shù)據(jù)所存放的位置,稱之為 以 指存儲系統(tǒng)中保存所有元數(shù)據(jù)最新和歷史取值的模塊, 元數(shù)據(jù) 系統(tǒng)的核心部分可如下概括: 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 12 - c d a l _ i n f o _ o b jc d a l _ a t t r i b u t e _ v a l u ec d a l _ i n f o o b j _ l a t e s 屬 性 最 新 取 值 的 存 儲 位 置獲 取 屬 性 所 有 歷 史 版 本 的 取 值獲 取 取 值 的 最 新 版 本c d a l _ d c m e t a d a t ac d a l _ ( $ t y p e ) _ m e t a d a t 元 數(shù) 據(jù) 項(xiàng) 集 合圖 3. 元數(shù)據(jù)存儲模塊的核心結(jié)構(gòu) 在 此核心的基礎(chǔ)上, 對圖 2 中的流程進(jìn)行細(xì)化,得到新的資源實(shí)體元數(shù)據(jù)訪問流程圖,如圖 4 所示: 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 13 - 從 c d a l _ i n f o _ o b 出 與 i 的 資 源 實(shí) 體利 用 該 資 源 實(shí) 體 的o b j _ n a m e s p a c e 屬 性 找 到該 資 源 實(shí) 體 相 應(yīng) 的c d a l _ ( $ t y p e ) _ m e t a d a t a ,并 讀 出 其 所 有 元 數(shù) 據(jù) 項(xiàng)結(jié) 束從 e l e m e n t _ s e t 中 取 出 一 個 元 數(shù) 據(jù)項(xiàng) , 應(yīng) 用 該 項(xiàng) 結(jié) 合c d a l _ i n f o o b j _ l a t e s t 與c d a l _ a t t r i b u t e _ v a l u e 結(jié) 構(gòu) 讀 出 該項(xiàng) 的 最 新 取 值 , 并 將 該 項(xiàng) 從e l e m e n t _ s e t 中 刪 除將 讀 出 的 所 有 元 數(shù) 據(jù) 項(xiàng) 的最 新 取 值 形 成 返 回 結(jié) 果e l e m e n t _ s e t 為空 集 ?N oY e 出 的 所 有 元 數(shù) 據(jù) 項(xiàng) 構(gòu)成 集 合 e l e m e n t _ s e 圖 4. 細(xì)化后的資源實(shí)體訪問流程 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 14 - 塊 使用 對 資源實(shí)體 進(jìn)行封裝: 的每個屬性都作為 相應(yīng)的基本屬性出現(xiàn),此外,資源實(shí)體的每個元數(shù)據(jù)項(xiàng)都會作為該類的復(fù)合 屬性出現(xiàn),這個復(fù)合屬性記錄了該元數(shù)據(jù)項(xiàng)的名稱、標(biāo)簽、取值等信息。我們將這個屬性 抽象成 。 獲取這些信息的流程包含在 圖 4 的 示 意中 。 完成封裝之后, 塊即可使用 實(shí)現(xiàn)對資源實(shí)體的元數(shù)據(jù)的訪問: - n a m e s p a c e : in . . .I n f o r m a t i o n O b j e c t- e le m e n t _ n a m e : s t r in g- la b e l : s t r in g- e d it a b : b o o . . .A t t r i b u t n d 11- E n d 2*圖 5. 資源實(shí)體的面向?qū)ο蠓庋b 3 元數(shù)據(jù)管理 該元數(shù)據(jù)系統(tǒng)與普通 擎的不同點(diǎn)主要體現(xiàn)在如下幾個方面: 1)在粒度上,系統(tǒng)要維護(hù)到比資源實(shí)體更細(xì)致的層次,即資源實(shí)體的各個元數(shù)據(jù)屬性 。 不同的屬性在可編輯性上會有不同,有些屬性是可以開放給網(wǎng)絡(luò)用戶編輯的,例如電子書的作者、出版社、描述等 ; 有些屬性是不適合編輯的,例如,資源的收錄時間就應(yīng)是收錄的時候確定的,無需編輯; 2)對元數(shù)據(jù)系統(tǒng)來說,元數(shù)據(jù)項(xiàng)往往是有唯一的正確取值的,而普通的 擎不做該假設(shè) 。 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 15 - 這兩方面的區(qū)別決定了系統(tǒng)在對元數(shù)據(jù)的管理上需要在可編輯性以及編輯的粒度上做控制 。 為了實(shí)現(xiàn)該控制機(jī)制, 在資源實(shí)體的層次,系統(tǒng)為置一個 性,用來表示該實(shí)體是否可編輯;在元數(shù)據(jù)模式層次,系統(tǒng)在 有記錄的每個元數(shù)據(jù)項(xiàng)上設(shè)有性,用來表示該項(xiàng)是否可編輯 。 只有 性取值為假的資源實(shí)體的 性為真的元數(shù)據(jù)項(xiàng)才會對網(wǎng)絡(luò)用戶顯示為可編輯的 。 這樣管理者就可以通過設(shè)置這兩個值實(shí)現(xiàn)可編輯性的控制 。 4 與原系統(tǒng)的協(xié)同工作 為了使元數(shù)據(jù)系統(tǒng)與原系統(tǒng)能夠互相訪問,元數(shù)據(jù)系統(tǒng)需要一種 方法由到原系統(tǒng)的資源,同時原系統(tǒng)也需要一種方法從各個資源文件到元數(shù)據(jù)系統(tǒng)中取得資源的元數(shù)據(jù) 。 原系統(tǒng)的各種資源分布存儲在若干臺服務(wù)器上,每個資源實(shí)體由服務(wù)器的 資源的絕對路徑唯一確定,所以元數(shù)據(jù)系統(tǒng)可以利用該性質(zhì)實(shí)現(xiàn)二者之間的對應(yīng) 。 在 設(shè)置 置 性記錄絕對路徑,這樣元數(shù)據(jù)系統(tǒng)就可以通過每個資源實(shí)體的 到相應(yīng)的資源所在位置;反之,原系統(tǒng)亦可 通過 資源文件的絕對路徑找到資源實(shí)體在元數(shù)據(jù)系統(tǒng)中的 而獲得資源的元數(shù)據(jù) 。 元數(shù)據(jù)系統(tǒng)將以上設(shè)計在關(guān)系數(shù)據(jù)庫中實(shí)現(xiàn)構(gòu)成了 其 核心部分 。 圖 3 中除外,每個數(shù)據(jù)類型對應(yīng)數(shù)據(jù)庫中的一個表格,而分為 個表格來實(shí)現(xiàn),其中的每條記錄代表一個歷史版本,與資源實(shí)體的屬性相聯(lián)系,而只記錄取值,各個值與 應(yīng),以此 方式將歷史版 本和具體取值這兩個信息分離 。 綜合以上設(shè)計思路,得到數(shù)據(jù)庫模式如 圖 6 所示 : 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 16 - c d a l _ i n f o o b j _ l a t e s a t t r i b u t e _ n a m er e v _ l a t e s tc d a l _ r e v i s i o r e v _ e v _ e v _ a t t r i b u t e _ n a m er e v _ t i m e s t a m pr e v _ v a l u e _ d a l _ d c m e t a d a t e l e m e n t _ n a m l a b e l 10 n _ l a b e lc d a l _ ( $ t y p e ) _ m e t a d a t e l e m e n t _ n a m e q u i v a l e n c el a b e le d i t a b l ec d a l _ v a l u o l d _ l d _ t e x tc d a l _ i n f o o b n a m e s p a c r e a d _ o n l l o c a t i o n _ l o c a t i o n _ p a t . 元數(shù)據(jù)存儲模塊的數(shù)據(jù)庫模式 5 存取性能上的優(yōu)化 按照如上方式實(shí)現(xiàn),對某個給定 資源實(shí)體,為完成一次對其所有元數(shù)據(jù)項(xiàng)的最新版本的讀取,須向數(shù)據(jù)庫系統(tǒng)發(fā)出如下 詢: 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 17 - m e, e = e e= e ($;該查詢涉及到 5 個表格進(jìn)行聯(lián)表運(yùn)算 。 查詢的結(jié)果又要被轉(zhuǎn)換成可顯示的形式返回給提交請求的客戶 。 注意到 ,如果這個資源實(shí)體的任何元數(shù)據(jù)項(xiàng)在兩次查詢之間都沒有被改動過,那么由前一次查詢結(jié)果生成的可顯示的形式的返回值便可以直接作為返回值應(yīng)用到后一次的請求中,無需進(jìn)行上述聯(lián)表查詢 。 因此可以考慮將這個返回值緩存起來供后來使用。 一般情況下,在協(xié)作編輯環(huán)境中,隨著時間的推移,數(shù)據(jù)被修改的頻率會越來越低 。 因此,隨著時間的推移,如果不被頻繁修改的數(shù)據(jù)更多的從緩存中而不是從實(shí)際存儲中讀出,讀取效率無疑會有所提高 。 添加數(shù)據(jù)結(jié)構(gòu) 于緩存客戶端請求元數(shù)據(jù)查詢時由元數(shù) 據(jù) 系 統(tǒng) 生 成 的 可 顯 示 的 返 回 值 。 該 數(shù) 據(jù) 結(jié) 構(gòu) 包 含 三 個 屬 性 :1)時存在于系統(tǒng)中的該屬性的不同的值對應(yīng)不同的資源實(shí)體,標(biāo)識該數(shù)據(jù)結(jié)構(gòu)的實(shí)例用來緩存系統(tǒng)中的哪個資源實(shí)體; 2) 屬性為被 性標(biāo)識的資源實(shí)體的緩存取值, 中時將其作為最終結(jié)果返回; 3) 明該緩存記錄的有效期限 。 將緩存模塊加入到元數(shù)據(jù)系統(tǒng)之后,當(dāng)系統(tǒng)收到 “查看給定資源實(shí)體 元數(shù)據(jù) ”這一請求時, 元數(shù)據(jù)系統(tǒng)首先從 據(jù)結(jié)構(gòu)中讀出該資源實(shí)體。 然后,系統(tǒng)不會直接到 讀取元數(shù)據(jù)屬性,而是到尋找是否有與該資源實(shí)體相對應(yīng)的緩存項(xiàng),如果有,則讀出該項(xiàng)的值作為返回結(jié)果,否則,執(zhí)行圖 4 中 所示流程 讀取 所有元數(shù)據(jù)項(xiàng)的取值并構(gòu)建返回值,并將返回值存入 。這一 執(zhí)行 過程 如圖 7 所示 : 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 18 - 從 c d a l _ i n f o _ o b j 中 讀 出 與 i 的 資 源 實(shí) 體計 算 該 資 源 實(shí) 體 的c a c h e _ k e y n a m e 的 值 , 并用 該 值 查 詢c d a l _ i n f o o b j _ c a c h ec a c h e 命 中 ?讀 出 c d a l _ i n f o o b j _ c a c h e 中與 c a c h e _ k e y n a m e 相 應(yīng) 的記 錄 的 c a c h e _ v a l u 出 的 c a c h e _ v a l u e 作 為返 回 結(jié) 果結(jié) 束Y e 圖 4 所 示 流 程 獲 得 返 回值將 返 回 結(jié) 果 寫 入c d a l _ c a c h e , 并 設(shè) 置 c a c h 效 期 限c a c h e _ e x p t i m e , 返 回 結(jié) 果開 始清 除 過 期 的c a c h e 條 目c a c h e 條 目 數(shù) 超 出預(yù) 設(shè) 最 大 值 ?Y e sN oN . 元數(shù)據(jù)訪問的總體流程 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 19 - 至此,元數(shù)據(jù)系統(tǒng)的 主體部分設(shè)計完成 。 第四章 實(shí)用效果 與展望 在有 元數(shù)據(jù)系統(tǒng) 之前, 數(shù)字資源的訪問是只能基于文件名的,如圖8 所示: 圖 8. 舊的 源列表界面 這個界面上顯示的 電子圖書 資源對應(yīng)了某臺服務(wù)器上“ 中美百萬冊圖書 錄下的一系列文件 。我們可以從路徑上得到這些資源的一些分類信息,但是關(guān)于這些書籍更詳盡的描述信息我們就沒有辦法從路徑中獲取了。 同樣是這些書籍,如果 夠利用資源文件的路徑信息通過元數(shù)據(jù)系統(tǒng)獲取到資源的元數(shù)據(jù),界面上的顯示則變?yōu)閳D 9: 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 20 - 圖 9. 與元數(shù)據(jù)系統(tǒng)協(xié)同工作后的資 源列表界面 列表上可以顯示書籍的名稱,點(diǎn)擊書籍名稱右側(cè)的 ”接可以查看該書籍詳細(xì)的元數(shù)據(jù)信息。從此也就進(jìn)入了 擎,用戶可以隨意編輯該圖書的元數(shù)據(jù)。詳見圖 10 與圖 11: 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 21 - 圖 10. 元數(shù)據(jù)顯示頁面 圖 11. 元數(shù)據(jù)編輯界面 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 22 - 在為 加新的數(shù)字資源時, 如果數(shù)字資源 伴隨著 符合 準(zhǔn)或者 準(zhǔn)的 元數(shù)據(jù)一起加 入 ,那么 可以通過程序?qū)⒃獢?shù)據(jù)存入 樣就能出現(xiàn)圖 9 的顯示效果。以上示例效果即是通過此法取得的。 當(dāng)前實(shí)現(xiàn)的功能 尚未構(gòu)成一 個完整意義上的 擎,因?yàn)橄到y(tǒng)還不能實(shí)現(xiàn)為缺少元數(shù)據(jù)的資源實(shí)體添加元數(shù)據(jù)的功能,只能為有元數(shù)據(jù)的資源實(shí)體提供編輯功能。在存儲系統(tǒng)的基礎(chǔ)上,有效的 元數(shù)據(jù) 檢索系統(tǒng)的實(shí)現(xiàn)也是重要的課題之一。 第五 章 總結(jié) 本文由 元數(shù)據(jù)問題出發(fā),探討了針對具有以下兩個特點(diǎn)的對象的協(xié)同編輯系統(tǒng)的一種解決方案: 1)對象的數(shù)據(jù)是結(jié)構(gòu)化的; 2)結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)模式可能是不確定的 。 該系統(tǒng)只要在數(shù)據(jù)模式上稍加改動,即可應(yīng)用于其他類型資源庫的場合。 實(shí)現(xiàn)存儲和訪問的功能時,系統(tǒng)既兼顧到了元數(shù)據(jù)和協(xié)同編輯兩個方面的特點(diǎn),又注意 到訪問效率的提高 。 描述資源實(shí)體和與外系統(tǒng)之間的互操作都是元數(shù)據(jù)的主要作用,故系統(tǒng)采用國際上普遍接受的元數(shù)據(jù)模式 為類資源的元數(shù)據(jù)模式的基礎(chǔ);為了使得系統(tǒng)快速適應(yīng)元數(shù)據(jù)模式的變化,系統(tǒng)采用了將元數(shù)據(jù)模式與元數(shù)據(jù)項(xiàng)的取值分離的存儲方式 。 由于是協(xié)同編輯的環(huán)境,系統(tǒng)保存了所有元數(shù)據(jù)的歷史版本,以追蹤元數(shù)據(jù)的變化,也便于在必要的時候恢復(fù)原值 。 而設(shè)計 緩存 的目標(biāo)則是減輕后臺數(shù)據(jù)庫系統(tǒng)的壓力 。 從應(yīng)用效果上看,元數(shù)據(jù)系統(tǒng) 與原 系統(tǒng) 整合得比較順利,并達(dá)到了通過元數(shù)據(jù)豐富與完善資源庫的效果。 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 23 - 致 謝: 感謝北京大學(xué)網(wǎng)絡(luò)與分布式系統(tǒng)的博士 研究 生 陳翀 在 元數(shù)據(jù), 指導(dǎo)與啟發(fā)以及在實(shí)現(xiàn)程序功能和提高程序運(yùn)行效率上提出的寶貴建議。 參考文獻(xiàn): 1 姜愛蓉,牛金芳,鄭小惠 我國數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè):基本數(shù)字對象描述元數(shù)據(jù)規(guī)范 2003 年 2 of a 2002 3 2000 4 2005 5 . 6 方網(wǎng)站: 7 開源項(xiàng)目 檔及代碼 附表:四類數(shù)字資源的元數(shù)據(jù)模式 1 電子書籍: 元數(shù)據(jù)項(xiàng) 擴(kuò)展自 標(biāo)簽名 注釋 dc:識符 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 24 - dc:名 由創(chuàng)作者或出版者賦于資源的名稱 dc:者 可以是一個人,一個組織或一個服務(wù) 。 填創(chuàng)建者的名字 版次 dc:題及關(guān)鍵詞 描述資源內(nèi)容的關(guān)鍵詞,短語或?qū)I(yè)領(lǐng)域的分類號 。 推薦主題和關(guān)鍵詞最好是取自于一個受控詞表或是一個規(guī)范的分類體系 。 dc:述 文摘,目錄,簡介 dc:行者 可以是一個人,一個組織或一個服務(wù) 。 dc:種 資源內(nèi)容所用的語言, 采用 766中所定義的語種代碼規(guī)范 (可以將用戶填寫的文字轉(zhuǎn)換成這個規(guī)范中的編碼 ) dc:版日期 資源的出版日期 。 建議采用的日期格式應(yīng)符合 ) 規(guī)范,并使用 日)的格式,也可以用時間段表示 。 dc:錄日期 資源被 錄的時間 dc:權(quán) dc:型 資 源內(nèi)容的分類范疇,功能,特性或集合層次 北京大學(xué)計算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室 李庚 學(xué)士論文 - 25 - dc:式 資源的媒體格式 dc:蓋范圍 時空覆蓋面,例如 “講述建國前的歷史 ”, “東北地區(qū) ”) dc:合人群 適宜閱讀對象,可以是年齡段,學(xué)歷,知識領(lǐng)域 。 由作者、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論