基于數(shù)字檔案長(zhǎng)期保存的元數(shù)據(jù)需求及建設(shè)策略研究_第1頁(yè)
基于數(shù)字檔案長(zhǎng)期保存的元數(shù)據(jù)需求及建設(shè)策略研究_第2頁(yè)
基于數(shù)字檔案長(zhǎng)期保存的元數(shù)據(jù)需求及建設(shè)策略研究_第3頁(yè)
基于數(shù)字檔案長(zhǎng)期保存的元數(shù)據(jù)需求及建設(shè)策略研究_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于數(shù)字檔案長(zhǎng)期保存的元數(shù)據(jù)需求及建設(shè)策略研究基于數(shù)字檔案長(zhǎng)期保留的元數(shù)據(jù)需求及建設(shè)策略研究

Abstract:Meta-dataandlong-termpreservationofdigitalarchivesresourceshasacloserelationship.Itisconvenienttofindthegapbetweenmeta-dataresearchanddigitalresourceslong-termpreservationoftheconstructionprojectthroughintroducingthefunctionofmeta-datainthelong-termpreservationofdigitalarchivesresourcesandhowthoseprogramdemand.Thusweputforwardthevalueofmeta-datadescriptionfunction,sensitiveinformationandsoon.

Keywords:meta-datadigitalarchivesresourceslong-termpreservation

引言

數(shù)字檔案資源的長(zhǎng)期保留既要求確保數(shù)字檔案資源的長(zhǎng)期存儲(chǔ),也要求保證數(shù)字檔案資源的永久獲取。元數(shù)據(jù)作為描述數(shù)據(jù)的數(shù)據(jù),其本身以及與其相關(guān)的技術(shù)是數(shù)字檔案資源長(zhǎng)期保留的關(guān)鍵,因此基于數(shù)字檔案資源長(zhǎng)期保留的元數(shù)據(jù)研究就顯得尤為必要。為了更好地利用元數(shù)據(jù)滿足數(shù)字檔案資源的長(zhǎng)期保留需求,相關(guān)學(xué)者提出了保留元數(shù)據(jù)這一概念并發(fā)展了以保留元數(shù)據(jù)為核心的工程研究,比方PREMIS和METS等,這些工程的發(fā)展可以推動(dòng)元數(shù)據(jù)更好地解決數(shù)字資源長(zhǎng)期保留過(guò)程中波及的管理、技術(shù)問(wèn)題等,為本文探討數(shù)字資源長(zhǎng)期保留的元數(shù)據(jù)建設(shè)策略提供了借鑒。

1元數(shù)據(jù)在數(shù)字檔案資源長(zhǎng)期保留中的作用

1.1維護(hù)數(shù)字檔案資源的真實(shí)性。檔案是真實(shí)的歷史記錄,因此維護(hù)數(shù)字檔案資源的真實(shí)可靠是數(shù)字檔案資源長(zhǎng)期保留過(guò)程中的重中之重。元數(shù)據(jù)可以通過(guò)建立與數(shù)字檔案資源真實(shí)性相關(guān)的元數(shù)據(jù)結(jié)構(gòu)來(lái)保證數(shù)字檔案資源的真實(shí)性[1],即在數(shù)字資源形成和使用階段描述與記錄數(shù)字資源及與之相關(guān)的責(zé)任者、業(yè)務(wù)過(guò)程、法規(guī)、時(shí)間、人員使用行為等信息,并在描述與記錄這些相關(guān)信息的同時(shí)通過(guò)數(shù)字簽名將其與數(shù)字檔案資源固化為一體,進(jìn)行封裝保留,從而起到表明與保證數(shù)字檔案資源真實(shí)性的憑證作用。

1.2維護(hù)數(shù)字檔案資源的完整性。元數(shù)據(jù)對(duì)數(shù)字檔案資源的監(jiān)管貫通了數(shù)字檔案資源的整個(gè)生命周期。因此,為了保證數(shù)字檔案資源的內(nèi)容、結(jié)構(gòu)和背景信息均沒(méi)有缺損,它可以持續(xù)動(dòng)態(tài)地記錄和保留用戶對(duì)數(shù)字檔案資源的使用行為,包括對(duì)數(shù)字檔案資源的編輯、復(fù)制、刪除等[2]。形成的這些元數(shù)據(jù)記錄不可更改和刪除,與數(shù)字檔案資源綁定在一起,因此數(shù)字資源保管單位可以通過(guò)這些元數(shù)據(jù)記錄表明所收集、長(zhǎng)期保留的數(shù)字對(duì)象完整性及其變化情況,特別是在接受保留、提供利用前后的完整性變化。

1.3維護(hù)數(shù)字檔案資源的平安性。元數(shù)據(jù)可以通過(guò)對(duì)權(quán)限、版權(quán)、使用過(guò)程等方面信息的保留和描述來(lái)限制和監(jiān)管相關(guān)人員對(duì)數(shù)字檔案資源的傳輸和使用行為,從而實(shí)現(xiàn)維護(hù)數(shù)字檔案資源平安性的目的。比方,通過(guò)權(quán)限的控制可以防止數(shù)字檔案資源內(nèi)容的泄露和損壞、通過(guò)版權(quán)的控制可以促進(jìn)數(shù)字檔案資源標(biāo)準(zhǔn)化的運(yùn)轉(zhuǎn)、對(duì)與使用過(guò)程有關(guān)的信息的記錄和保留便于有效追責(zé),形成對(duì)相關(guān)人員的約束等。

1.4維護(hù)數(shù)字檔案資源的可獲取性。為了維護(hù)數(shù)字檔案資源的可獲取性,一方面,元數(shù)據(jù)可以通過(guò)不斷完善元數(shù)據(jù)元素盡可能到達(dá)對(duì)數(shù)字檔案資源的全方位描述,保證數(shù)字檔案資源的準(zhǔn)確性。比方,隨著社會(huì)維權(quán)意識(shí)的增強(qiáng),與權(quán)利信息、技術(shù)信息有關(guān)的元數(shù)據(jù)元素被不斷參加到元數(shù)據(jù)保留框架中[3]。另一方面,通過(guò)建立元數(shù)據(jù)框架抽取數(shù)字檔案資源中有關(guān)于數(shù)字檔案資源標(biāo)示符、創(chuàng)立日期、結(jié)構(gòu)類(lèi)型、復(fù)雜對(duì)象技術(shù)結(jié)構(gòu)、文件描述、已知系統(tǒng)要求、安裝要求、存儲(chǔ)信息、查找搜尋工具和提取辦法、存取類(lèi)型等方面的元數(shù)據(jù)單元并將其封裝在一個(gè)數(shù)據(jù)包中,示例,OAIS就將數(shù)字資源對(duì)象和與它們相關(guān)的元數(shù)據(jù)納入到AIP之中,這些元數(shù)據(jù)不是直接和數(shù)據(jù)束縛在一起,就是和系統(tǒng)有邏輯聯(lián)系。通過(guò)類(lèi)似于AIP這樣的封裝數(shù)據(jù)包,與數(shù)字資源有關(guān)的寄存在存儲(chǔ)介質(zhì)中的物理數(shù)字信息,數(shù)字資源的保留數(shù)字格式與處理信息,數(shù)字資源的生成處理、利用環(huán)境,數(shù)字資源的內(nèi)容校驗(yàn)、身份驗(yàn)證、版本演變、知識(shí)產(chǎn)權(quán)管理機(jī)制等都能得到完整的保留及再現(xiàn),從而實(shí)現(xiàn)數(shù)字檔案資源的長(zhǎng)期存取。

2數(shù)字檔案資源長(zhǎng)期保留對(duì)元數(shù)據(jù)的要求

2.1規(guī)范化。統(tǒng)一標(biāo)準(zhǔn)和統(tǒng)一規(guī)范主要是指在數(shù)字檔案資源長(zhǎng)期保留過(guò)程中,元數(shù)據(jù)元素的選取、元數(shù)據(jù)保留框架的建立等必須規(guī)范化、標(biāo)準(zhǔn)化。元數(shù)據(jù)規(guī)范化是數(shù)字檔案資源進(jìn)行長(zhǎng)期保留的必然要求,能夠保證數(shù)字檔案資源在環(huán)境頻繁變化的情況下保持其真實(shí)性、完整性、可用和平安。示例,檔案信息包唯一標(biāo)識(shí)符的構(gòu)成規(guī)那么假設(shè)是沒(méi)有標(biāo)準(zhǔn)的規(guī)范,則與唯一標(biāo)識(shí)符相關(guān)聯(lián)的檔號(hào)、題名、編碼、檔案信息包等要素就很難去定位、辨認(rèn)和解析,從而增加了數(shù)字檔案對(duì)象的長(zhǎng)期保留的難度。因此,數(shù)字檔案資源對(duì)元數(shù)據(jù)的規(guī)范化要求很有必要。

2.2易于捕獲。易于捕獲是指元數(shù)據(jù)要便于獲取,即數(shù)字檔案資源長(zhǎng)期保留所需要的元數(shù)據(jù)不依賴于人工添加,可以較大程度以自動(dòng)捕獲的方式從系統(tǒng)、數(shù)字資源本身、其他描述記錄等目《碩韻蠡袢U庵腫遠(yuǎn)《生成的元數(shù)據(jù)一方面可以有效保證數(shù)字檔案資源的真實(shí)可靠,另一方面也可以提高數(shù)字檔案資源長(zhǎng)期保留工程的效率水平。2.3較強(qiáng)的辨認(rèn)能力。較強(qiáng)的辨認(rèn)能力是指數(shù)字檔案對(duì)象能夠被元數(shù)據(jù)發(fā)現(xiàn)和辨認(rèn),這體現(xiàn)在兩個(gè)方面。一方面,元數(shù)據(jù)有能力對(duì)不同層次的數(shù)字檔案對(duì)象進(jìn)行綜合描述,保證從單個(gè)文件到全宗的時(shí)間、唯一標(biāo)識(shí)符、關(guān)鍵詞、存儲(chǔ)格式等都能被有效描述。另一方面,元數(shù)據(jù)需要有能力辨認(rèn)和檢索出用戶需要的數(shù)字檔案對(duì)象,這就要求考慮到用戶查詢所需要的最小的元數(shù)據(jù)需求,即用戶多使用描述元數(shù)據(jù)來(lái)進(jìn)行查詢,如標(biāo)題、檔號(hào)等。

2.4靈活性。筆者認(rèn)為,元數(shù)據(jù)的易操作性體現(xiàn)在三個(gè)方面。首先,元數(shù)據(jù)需要具有可擴(kuò)展性。元數(shù)據(jù)并不是一成不變的,需要依據(jù)隨著數(shù)字檔案資源長(zhǎng)期保留研究的不斷深入、實(shí)踐活動(dòng)的發(fā)展、不同機(jī)構(gòu)的需要等在元數(shù)據(jù)元素的數(shù)量、元數(shù)據(jù)語(yǔ)義化敘述等方面進(jìn)行擴(kuò)展,示例,保留元數(shù)據(jù)在權(quán)利元數(shù)據(jù)、重要屬性元數(shù)據(jù)、特殊類(lèi)型數(shù)字資源及學(xué)科化特色的保留元數(shù)據(jù)[4]等方面需要有所擴(kuò)展,因此元數(shù)據(jù)的可擴(kuò)展性就顯得尤為必要。其次,元數(shù)據(jù)需要具有可更改性。元數(shù)據(jù)的可更改性主要是指當(dāng)元數(shù)據(jù)對(duì)數(shù)字檔案對(duì)象的描述出現(xiàn)錯(cuò)誤或是不能滿足用戶的要求時(shí),再或者元數(shù)據(jù)的格式需要進(jìn)行調(diào)整和轉(zhuǎn)換時(shí),我們可通過(guò)人工修改使得元數(shù)據(jù)對(duì)數(shù)字檔案對(duì)象的描述更為完善,更能滿足數(shù)字檔案資源長(zhǎng)期保留的要求。最后,元數(shù)據(jù)應(yīng)該具有可封裝性。元數(shù)據(jù)的可封裝性是指數(shù)字檔案對(duì)象保管機(jī)構(gòu)可以通過(guò)一定的封裝方式將元數(shù)據(jù)與數(shù)字檔案原文進(jìn)行打包形成提交信息包進(jìn)行移交,在封裝的過(guò)程中,元數(shù)據(jù)不能損壞和遺失并且可再獲取。從而保證元數(shù)據(jù)與其描述的數(shù)字檔案對(duì)象進(jìn)行一對(duì)一綁定,實(shí)現(xiàn)數(shù)字檔案對(duì)象資源長(zhǎng)期保留的需要。

3基于數(shù)字檔案資源長(zhǎng)期保留的元數(shù)據(jù)建設(shè)策略

3.1元數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)化。數(shù)字檔案資源長(zhǎng)期保留會(huì)波及不同方面的元數(shù)據(jù)規(guī)范,不論是元數(shù)據(jù)封裝規(guī)范METS、VERS,還是數(shù)字技術(shù)保留規(guī)范PREMIS,文件管理描述元數(shù)據(jù)規(guī)范ISAD、EAD,等等,都需要數(shù)字檔案對(duì)象保管機(jī)構(gòu)依據(jù)自身的建設(shè)需要和國(guó)內(nèi)外大環(huán)境等因素選擇適宜的元數(shù)據(jù)規(guī)范,明確可接受的元數(shù)據(jù)的范圍以及必不可少的元數(shù)據(jù)類(lèi)型。以描述元數(shù)據(jù)規(guī)范、技術(shù)元數(shù)據(jù)規(guī)范、元數(shù)據(jù)封裝規(guī)范等為代表的各種元數(shù)據(jù)規(guī)范的標(biāo)準(zhǔn)化是數(shù)字檔案對(duì)象長(zhǎng)期保留的必然要求,沒(méi)有標(biāo)準(zhǔn)化的元數(shù)據(jù)規(guī)范,數(shù)字檔案資源的長(zhǎng)遠(yuǎn)保留和長(zhǎng)久存取將會(huì)遭遇困難,因此做好元數(shù)據(jù)規(guī)范的標(biāo)準(zhǔn)化是數(shù)字檔案資源長(zhǎng)期保留的根底。

3.2增強(qiáng)元數(shù)據(jù)對(duì)數(shù)字檔案對(duì)象的辨認(rèn)能力和捕獲能力

3.2.1重視元數(shù)據(jù)的《C合描述能力和分級(jí)描述能力。筆者認(rèn)為,元數(shù)據(jù)的描述功能是元數(shù)據(jù)幫忙數(shù)字檔案資源長(zhǎng)期保留中的關(guān)鍵。一方面,數(shù)字檔案對(duì)象保管機(jī)構(gòu)要具備足夠的元數(shù)據(jù)來(lái)對(duì)數(shù)字對(duì)象進(jìn)行綜合描述,應(yīng)涵蓋數(shù)字對(duì)象的主題、形成時(shí)間、流水順序號(hào)或唯一標(biāo)識(shí)符等根底管理和定位要素;存儲(chǔ)格式、存儲(chǔ)載體、保留技術(shù)條件等長(zhǎng)期保留要素;關(guān)鍵詞、讀取軟件等檢索利用要素等。只有綜合考慮到不同的描述角度,大量的元數(shù)據(jù)元素才能從各個(gè)方面保證數(shù)字檔案資源真實(shí)性不受質(zhì)疑以及長(zhǎng)期存取的可行性。另一方面,數(shù)字檔案對(duì)象保管機(jī)構(gòu)應(yīng)采用元數(shù)據(jù)對(duì)數(shù)字對(duì)象的不同級(jí)次進(jìn)行描述,示例全宗、類(lèi)別、案卷、文件組合、文件等。不同層級(jí)的數(shù)字檔案對(duì)象所要求的描述角度有所差別。示例,對(duì)單個(gè)文件的描述傾向于題名、關(guān)鍵詞、責(zé)任者、時(shí)間等比擬低層次類(lèi)型的元數(shù)據(jù),而元數(shù)據(jù)對(duì)于全宗的描述那么傾向于對(duì)全宗的歷史開(kāi)展過(guò)程和管理歷程等高層次的元數(shù)據(jù)。

3.2.2重視敏感信息的辨認(rèn)。數(shù)字檔案資源包含大量敏感信息,波及個(gè)人隱私、國(guó)家平安、版權(quán)信息,等等,因此數(shù)字檔案資源長(zhǎng)期保留中如何使用元數(shù)據(jù)辨認(rèn)敏感信息也應(yīng)該受到重視。筆者認(rèn)為,通過(guò)將語(yǔ)義技術(shù)與元數(shù)據(jù)相融合可以充沛提高元數(shù)據(jù)的交互性。目前,已有少數(shù)組織在保留元數(shù)據(jù)工程中融入語(yǔ)義技術(shù),其中在圖書(shū)館、檔案館、博物館領(lǐng)域,CIDOC概念參考模型成為廣為推崇的交互性的本體規(guī)范。在元數(shù)據(jù)保留框架中應(yīng)用CIDOC等語(yǔ)義技術(shù)模型,可以增強(qiáng)對(duì)本體和關(guān)聯(lián)數(shù)據(jù)的描述效果,拓展了保留元數(shù)據(jù)可描述資源類(lèi)型,從而實(shí)現(xiàn)對(duì)數(shù)字資源內(nèi)容的深入挖掘,發(fā)現(xiàn)數(shù)字檔案資源中的敏感信息。

3.3重視元數(shù)據(jù)的捕獲能力

3.3.1針對(duì)不同數(shù)字檔案對(duì)象有選擇地捕獲元數(shù)據(jù)元素。元數(shù)據(jù)元素并不是越多越好,我們要針對(duì)不同描述對(duì)象捕獲最適宜的元數(shù)據(jù)元素。以圖像資源和視頻資源為例,圖像資源需要捕獲與分辨率、顏色相關(guān)的元素[5],視頻資源需要捕獲與播放格式、字幕信息、音頻背景相關(guān)的元素,而這些元數(shù)據(jù)元素對(duì)單純的文本資源是不需要的。因此為了防止數(shù)據(jù)冗余,提高數(shù)字資源管理的效率,針對(duì)不同對(duì)象捕獲適合的元數(shù)據(jù)元素就顯得尤為必要。

3.3.2針對(duì)不同元數(shù)據(jù)元素選擇不同的捕獲方式。以題名、關(guān)鍵詞、責(zé)任者、時(shí)間等為代表的低層次類(lèi)型的元數(shù)據(jù),通??梢酝ㄟ^(guò)電子文件管理系統(tǒng)自動(dòng)捕獲。數(shù)字檔案資源保管單位只需要按照自己的需求在系統(tǒng)中設(shè)定好需要捕捉的元數(shù)據(jù)類(lèi)型和格式等就可以輕易實(shí)現(xiàn)元數(shù)據(jù)的自動(dòng)捕獲。而對(duì)于一些高層次類(lèi)型的元數(shù)據(jù),示例上文提到的對(duì)全宗的歷史開(kāi)展過(guò)程和管理歷程進(jìn)行描述的元數(shù)據(jù),經(jīng)常會(huì)需要自動(dòng)捕獲和人工創(chuàng)立相結(jié)合,因?yàn)橄到y(tǒng)很難捕捉到能概述數(shù)字檔案對(duì)象管理過(guò)程的元數(shù)據(jù),故而一些高層次類(lèi)型的元數(shù)據(jù)元素就需要人工進(jìn)行修改和補(bǔ)充。

3.4實(shí)現(xiàn)對(duì)元數(shù)據(jù)的靈活管理。目前業(yè)界廣泛施行的OAIS元數(shù)據(jù)參考模型可以很好地實(shí)現(xiàn)元數(shù)據(jù)的靈活管理。OAIS作為一種能夠?yàn)閿?shù)字檔案資源的長(zhǎng)期保留提供概念框架、功能框架、信息模型和一定擴(kuò)展根底的開(kāi)放檔案信息系統(tǒng)[6],對(duì)元數(shù)據(jù)的更改、封裝、擴(kuò)展等管理行為都可以通過(guò)AIP、SIP、DIP等不同類(lèi)型的信息包實(shí)現(xiàn)。即OAIS模型支持檔案保管機(jī)構(gòu)在數(shù)字檔案資源的接收、存取等過(guò)程中通過(guò)對(duì)信息包的處理來(lái)實(shí)現(xiàn)對(duì)元數(shù)據(jù)的靈活管理。

4結(jié)語(yǔ)

總體而言,元數(shù)據(jù)是數(shù)字檔案資源長(zhǎng)期保留的重要局部,有效維護(hù)數(shù)字檔案資源真實(shí)性、完整性、平安性和可獲取性。同時(shí),以保留元數(shù)據(jù)為

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論