數(shù)字資源長期保存中的保存格式分析_第1頁
數(shù)字資源長期保存中的保存格式分析_第2頁
數(shù)字資源長期保存中的保存格式分析_第3頁
數(shù)字資源長期保存中的保存格式分析_第4頁
數(shù)字資源長期保存中的保存格式分析_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

PAGEPAGE4數(shù)字資源長期保存中的圖像格式選擇分析葉新明(浙江科技學院圖書館,杭州310012)摘要本文先對數(shù)字資源長期保存的目標和圖像格式的選擇要求進行了探討,然后進一步分析了它的生產(chǎn)階段、保存階段和使用階段對格式的具體的要求,并認為生產(chǎn)階段圖像格式是基礎,保存階段圖像格式是關鍵,利用階段圖像根式是根本。關鍵詞數(shù)字資源長期保存圖像格式分類號G253AnalysesandStudiesofDigitalResourceImageFormatsinLong-termPreservationYeXinming(LibraryofZhejiangUniversityofScienceandTechnology,Hangzhou3100ABSTRACTThisarticlediscusseslong-termdigitalpreservation’sgoalsandthechosenimageformatrequires.Thelong-termdigitalpreservationisthefurthermaterialanalysesofitsthreestages,suchasproductionstage,preservationstageandutilizationstage.Theauthorthinksthattheproductionimageformatsareabasic,thepreservationimageformatsareakey,andtheutilizationimageformatsarearoot.KEYWORDSDigitalResources.Long-TermPreservation.ImageFormats.CLASSNUMBERG2531引言英國數(shù)字保存聯(lián)盟(DigitalPreservationCoalition,DPC)認為數(shù)字保存存在多方面的問題,比如:技術問題、生命周期管理、法律問題和組織問題,而技術上面臨的最大問題不是存儲介質的損壞,而是硬件和軟件的過時。例如:英國BBC的Domesday項目,在20世紀80年代計劃將十一世紀的Domesday圖書轉換成電子介質,但相隔12年后其錄像帶技術已經(jīng)完全失效,而存儲在傳統(tǒng)紙張上的原始文獻,雖經(jīng)歷了900年,但仍然可以使用[1]。澳大利亞學者JaneHunter和SharminChoudhury也認為:數(shù)字對象長期保存的最大威脅在于技術的過時(包括硬件與軟件)和介質的過時。硬件與軟件的過時會引發(fā)一系列的問題,例如:常見的新老版本不兼容、存儲格式遭淘汰等等,而用于數(shù)字存儲的磁性介質和光盤的性能近些年在提高,因此其威脅性已在降低[2-3]。正鑒于此,數(shù)字資源長期保存有必要從技術層面加以認真剖析,以免在實際工作中造成巨大的人、財和物的巨大浪費。本文將從技術角度,對數(shù)字資源長期保存的圖像格式的相關問題做些分析。2數(shù)字資源長期保存的目標和圖像格式的選擇要求2.1數(shù)字資源長期保存的目標要想準確地選擇圖像格式,必須先搞清楚數(shù)字資源長期保存的目標,才能有的放矢。筆者認為,數(shù)字資源長期保存的目標,具體體現(xiàn)在以下四個方面:1、真實性,指信息內容的真實。應盡最大可能保存原有信息,以期達到高質量地“虛擬現(xiàn)實”的效果。2、永久性,指信息保存的時間?!坝谰帽4妗保傅膬H僅是一個相對的時間概念,因為技術的發(fā)展和進步實在太快了,許多現(xiàn)有的技術誰也無法準確地預測其未來,哪怕20年?抑或10年?甚至僅僅5年?3、有效性,指信息使用的有效。能夠“永久讀取”是基本的目標,因為保存不是最終目的,保存的目的是便于使用。4、安全性,指信息內容、用戶使用和技術維護等多方面的一系列的安全,包括現(xiàn)在和未來較長時期內信息的有效性、準確性。上述四個要求,都將牽涉到一個實質性的問題,即數(shù)字資源的圖像存儲格式問題。2.2圖像格式的選擇要求針對數(shù)字資源長期保存的目標,在對保存格式的選擇上,圖像格式應需要滿足以下要求[4-6]:1、格式使用的標準化和廣泛性。數(shù)字資源長期保存的標準涉及多方面,保存格式的標準化是重中之重;保存格式被相關行業(yè)的認同程度和現(xiàn)有軟件的支持力度是必需考慮的,應該在商業(yè)使用者和開放資源使用者方面有廣泛的支持,而且至少這兩類使用者都能使用這種格式。2、格式應是公開的,而非私有的,而且應有已公開出版的技術資料。這種保存格式應該有公開可利用的詳細地技術說明書,而且有它公開的標準。3、格式應支持元數(shù)據(jù)。保存格式在它的字符流中應該有存儲元數(shù)據(jù)的能力,而且應該支持被選的技術有元數(shù)據(jù)標準。4、格式應支持無損壓縮或者不壓縮,最好是無損壓縮,而且數(shù)據(jù)不應加密。保存格式對原有信息應未予處理或者處理的要盡可能少,即盡可能保持原汁原味。5、格式應對存儲介質的無依賴性。例如:德國攝影師JuergenSpecht在OpenRAW網(wǎng)站上貼文說:“三年半前,當兩架客機撞入世貿中心雙塔時,一位名叫BillBiggart的攝影師雖被有如雪崩紛墜的破瓦殘礫砸死,但他用佳能D30拍到的照片卻保存下來了?!钡缃?,佳能公司卻對只出廠了五年的EOSD30數(shù)字相機宣布停產(chǎn),用其拍攝的照片卻無法用該公司新的照片編輯公用程序打開,短短幾年就變成老古董[7]。6、如有數(shù)字代理品,格式應支持原始的有意義的特征。3數(shù)字資源長期保存中的圖像格式分析3.1數(shù)字資源長期保存分為三個階段開放檔案信息系統(tǒng)(TheOpenArchivalInformationSystem,OAIS)[8-10]、加拿大遺產(chǎn)信息網(wǎng)絡(TheCanadianHeritageInformationNetwork,CHIN)[11-12]和奧地利國家通訊、信息技術和藝術部網(wǎng)站的數(shù)字資源長期保存[13]等對數(shù)字資源長期的三個階段劃分都有明確的闡述。通過對它們的分析,筆者將數(shù)字資源長期保存將它分為以下三個階段,即生產(chǎn)階段、保存階段和使用階段,其相應階段的格式稱之為生產(chǎn)階段圖像格式(CapturionImageFormats)、保存階段圖像格式(PreservationImageFormats)和使用階段圖像格式(UtilizationImageFormats),并認為生產(chǎn)階段圖像格式是基礎,保存階段圖像格式是關鍵,使用階段圖像格式是根本。下面將對這三個階段的三類格式進行詳細的分析。3.2生產(chǎn)階段圖像格式分析數(shù)字資源生產(chǎn)的來源主要分為以下幾種途徑:1、掃描儀掃描。對現(xiàn)有的印刷型的資源通過掃描儀掃描,進行數(shù)字化。其輸出格式有未經(jīng)壓縮和壓縮的TIFF、JPG、PDF、FPX、PCX、DCX、GIF和HTML等格式。2、數(shù)碼相機拍攝。對外部資源,包括立體對象或印刷型的平面對象,通過數(shù)碼相機拍攝,進行數(shù)字化。其輸出格式主要有RAW、TIFF、JPEG等格式。3、互聯(lián)網(wǎng)絡下載。通過互聯(lián)網(wǎng)絡下載,變成本地化的數(shù)字資源。其格式取決于原資源的格式,格式多樣化,當然也可以通過圖形處理軟件或文字處理系統(tǒng)等予以處理,并通過格式轉換工具進行格式轉換。4、光盤或其它存儲介質。與第3種情況類似。生產(chǎn)階段圖像格式是保存階段圖像格式和使用階段圖像格式的基礎。在選擇生產(chǎn)階段圖像格式時,應把握格式能盡可能多地獲取原資源的信息和對原資源信息盡可能少地處理的原則,因此生產(chǎn)階段圖像格式不宜采用有損壓縮方式,應該采用不壓縮方式或者無損壓縮方式。生產(chǎn)階段圖像格式在技術上應考慮以下三個關鍵問題:1、獨立的內容和結構;2、版本的有效控制;3、嵌于其中的元數(shù)據(jù)。這樣,作為以長期保存為目的的生產(chǎn)階段圖像格式,TIFF、RAW等是較為理想的,這里的TIFF為非壓縮或無損壓縮的情況,有損壓縮的TIFF不建議采用。理由分別是:1、TIFF格式是用戶熟悉的圖像格式,同時不僅現(xiàn)有的軟件均支持,而且適用于不同的平臺;2、RAW格式優(yōu)勢是:(1)最大限度地保存了原始圖像數(shù)據(jù);(2)靈活的設置,比如:拍攝后曝光度、白平衡等調整;(3)超越了固定在相機上處理的限制;(4)獲取最好的可能圖像質量;(5)隨著時間的變化,RAW處理能力提高而增進圖像質量;(6)擁有存檔圖像文件,比膠卷更具有效性和長久性等。雖然目前RAW格式還是私有的、數(shù)據(jù)經(jīng)過加密的和擁有自主版權的缺點[14-15],但通過OpenRAW工作小組、PhotoShop等圖像處理軟件公司和MicroSoft公司等的努力,一旦制造商的RAW格式的信息公開化和標準化,筆者認為其很有發(fā)展前景。3.3保存階段圖像格式分析保存階段圖像格式是數(shù)字資源長期保存的關鍵。以位圖圖像格式為例,要想將低分辨率的圖像格式變成高分辨率的圖像格式,雖然可以通過軟件插值來實現(xiàn),但結果往往會造成失真;而高分辨率的圖像轉換成低分辨率的圖像后,其結果也是不可逆的。一般來說,工作主文件用保存階段圖像格式存儲,而使用時產(chǎn)生新的所需的利用格式文件。保存階段圖像格式與生產(chǎn)階段圖像格式可以相同,例如:TIFF格式;也可以不同,例如:可以將RAW格式轉換成TIFF格式(注:這里與直接用捕獲圖像格式TIFF是不同的。)或者PDF/A格式等。在選擇保存圖像格式時以下幾個重要因素是應該認真加以考慮的:1、格式的生命周期。圖像格式會呈現(xiàn)技術過時和過一定時間后不能讀,因此圖像格式應盡可能開放,只有這樣保存階段圖像格式才能有持久的生命力。2、公開的標準。只有具有公開的標準,其長期的可訪問性才能得到有效保證;私有標準是不合適的,對數(shù)字資源也不安全,會造成數(shù)字資源不可訪問的后患。3、分辨率?,F(xiàn)在采用位圖圖像格式來保存是最常用的,因此保存格式應該用較高的分辨率來捕捉,換句話說,即使在用現(xiàn)行的利用階段圖像格式顯示時不被全部使用,也能盡可能多地保持其信息和結構。4、格式易轉換。這不僅是保存階段的基本要求,而且更是利用階段所必需具備的。通過對保存階段圖像格式的分析,目前采用TIFF圖像格式是較為適宜的,許多研究成果也認同這種格式[16-18]。因為其有很好的分辨率,其標準又是公開的,適用于WINDOWS、MACOS、LINUX等操作系統(tǒng)和市場上絕大多數(shù)圖形處理軟件都支持,因而有廣泛的用戶基礎,這是BMP、PCT、PCX、PXR、TGA等格式無法比擬的,但它有一個位圖圖像格式共有的缺點,就是因為采用不壓縮或無損壓縮,所以文件占用空間較大。PDF/A(PortableDocumentFormat/Archive)格式是2005年5月正式成為國際標準的,筆者認為PDF/A將會在文本數(shù)字化領域保存階段圖像格式方面發(fā)揮更大的作用,這是文獻生產(chǎn)者、文獻使用者、文化遺產(chǎn)保存機構等用于長期文獻保存三方面的共同需要[19-21],目前我國的清華同方期刊全文數(shù)據(jù)庫和重慶維普的期刊全文數(shù)據(jù)庫均采用此格式。3.4利用階段圖像格式分析數(shù)字資源的使用主要有以下幾種形式:1、瀏覽。就是通過網(wǎng)頁發(fā)送的方式將圖像傳輸?shù)娇蛻舳耍纾篐tml中的Jpeg、Gif、Pdf等圖像。2、下載。就是通過FTP服務器或者網(wǎng)頁指定的下載區(qū)域下載體Png、Tiff、Pdf等圖像。3、傳輸。就是通過QQ或MSN等聊天系統(tǒng)傳遞給對方,也可以通過Email方式傳給對方等。使用階段圖像格式是數(shù)字資源長期保存的根本,是生產(chǎn)和保存圖像的真正歸宿。在選擇使用階段圖像格式時應考慮以下因素:1、用戶易用。易用性主要包括:是否需額外增加插件?是否有廣泛的支持?是否有高可訪問性?等等。2、支持元數(shù)據(jù)。用于圖像方面,PNG格式勝過GIF格式,因為XML元數(shù)據(jù)能被自動地嵌入文件和通過應用軟件來讀。3、安全手段。能實現(xiàn)功能性關閉,例如能夠限制打印和修改;內容能加密,降低泄露率。4、個性化手段。通過服務器的自動工具能處理這種格式,以致個性化的版本能按要求生產(chǎn)和傳遞,包括可視化水印、混合和匹配內容、非常用的圖像大小和分辨率。目前一般用戶在網(wǎng)上使用的圖像標準有JPEG、GIF、PNG和SVG等。前三者均為位圖圖像標準,后者為矢量圖像標準。使用階段圖像格式比較靈活,一般沒有什么特殊的要求,只要使用方便、看起來美觀即可。目前,這幾種利用圖像格式,完全可以根據(jù)設計者的使用偏好、使用環(huán)境來確定,對用戶的使用不會造成太大影響,對最終用戶而言,也是較為熟悉的,尤其是前面三種位圖圖像格式。對于特殊用戶而言,也有可能用到生產(chǎn)階段圖像格式或保存階段圖像格式等??傊瑢σ话阌脩魜碚f,一種高分辨率的媒體文件通常是通過降低質量的情況下成為一種合適的利用圖像格式的,必要的時候也可以采用原來質量的圖像格式。使用階段圖像格式是終端用戶的訪問格式,其格式可以極其多樣化,可根據(jù)實際需要而定。參考文獻1Jones,M..PreservingDigitalResourcesintheUK,2004-12-13.[2005-07-26]..uk/publications/updatemagazine/archive/archive2004/december/jones.htm2Day,M.LongTermPreservation:anOverview(PPT).JointWorkshoponElectronicPublishing,Lund,Sweden,14-15April2005.[2005-08-023Hunter,J.,Choudhury,S.Asemi-automateddigitalpreservationsystembasedonsemanticwebservices.Proceedingsofthe4thACM/IEEE-CSjointconferenceonDigitallibraries,2004,269-278.[2005-08-02]./newmedia/Papers/JCDL2004_paper.pdf4DigitalPreservationforMuseums:Recommendations.[2005-08-02].http://www.chin.gc.ca/English/Digital_Content/Preservation_Reco-mmendations/formats.html5[2005-08-02]..au/recordkeeping/er/guidelines/10-preservation.html6AboutCHIN.2005-05-06.[2005-08-02].http://www.chin.gc.ca/English/About_Chin/index.html7CNET科技資訊網(wǎng).數(shù)碼相機壽命太短攝影師呼吁開放RAW格式,2005-04-26.[2005-07-26]./news/electron/story/0,3800060195,39371803,00.htm8宛玲,張曉林.數(shù)字資源長期保存過程中的知識產(chǎn)權問題分析.中國圖書館學報,2005(3):65-699ConsultativeCommitteeforSpaceDataSystems.ReferenceModelforanOpenArchivalInformationSystem(OAIS)CCSDS650.0-B-1.[2005-07-26]./publications/archive/650x0b1.pdf10Waibel,G.LikeRussianDolls:NestingStandardsforDigitalPreservation.RLGDigiNews,2003,7(3).[2005-07-26]./legacy/preserv/diginews/diginews7-3.html#feature211AboutCHIN.[2005-07-26].http://www.chin.gc.ca/English/About_Chin/index.html12BusinessModel.2005-05-06.[2005-07-26].http://www.chin.gc.ca/English/About_Chin/business_model.html13AGuidetoDigitalRightsManagement.[2005-08-02]..au/drm/2028.html14RAWImageFilesMayBetheBestDigitalArchivingFileFormatOnceManufacturersStartDocumentingIt:OpenRawComesTotheRescue,2005-04-26

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論