版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
信息與文獻(xiàn)網(wǎng)絡(luò)存檔的統(tǒng)計(jì)和質(zhì)量問題目 次目 次 I前 言 III引 言 IV范圍 1術(shù)語和定義 1WEB存檔的方法和目的 7采集方法 7訪問和描述的方法 9保存方法 10WEB存檔的法律基礎(chǔ) 12WEB存檔的其他原因 13統(tǒng)計(jì)數(shù)據(jù) 144.1概述 14資源集合建設(shè)的統(tǒng)計(jì)數(shù)據(jù) 14資源集合表征 19資源集合的使用 23WEB存檔的保存 26評估WEB存檔的成本 29質(zhì)量指標(biāo) 315.1概述 315.2限制 315.3描述 31用途和獲益 376.1概述 37目標(biāo)讀者和用途 37對用戶群體的好處 38按用戶群體使用提出的統(tǒng)計(jì)數(shù)據(jù) 38WEB存檔過程中相關(guān)的性能指標(biāo) 40參考文獻(xiàn) 42I圖1按用戶群體使用的統(tǒng)計(jì)數(shù)據(jù) 39圖2WEB存檔流程及對應(yīng)的性能指標(biāo) 41表1HTTP狀態(tài)碼列表 16表2資源集合建設(shè)的核心統(tǒng)計(jì)數(shù)據(jù) 19表3資源集合表征的核心統(tǒng)計(jì)數(shù)據(jù) 23表4評估存檔使用情況的基本統(tǒng)計(jì)數(shù)據(jù) 25表5存檔使用情況的高級表征匯總統(tǒng)計(jì)數(shù)據(jù) 26表6資源集合使用情況的核心統(tǒng)計(jì)數(shù)據(jù) 26表7與元數(shù)據(jù)保存相關(guān)的統(tǒng)計(jì)數(shù)據(jù) 28表8資源集合保存的核心統(tǒng)計(jì)數(shù)據(jù) 29表9資源集合成本的核心統(tǒng)計(jì)數(shù)據(jù) 31表10預(yù)期用途和讀者 38表11圖1中使用的術(shù)語 40II引 言本文件是為了指導(dǎo)我國Web存檔活動與產(chǎn)品的管理和評估而制定。Web存檔指隨著時間推移,對互聯(lián)網(wǎng)資源的快照進(jìn)行選擇、抓取、存儲、保存和訪問管理的活動。20世紀(jì)90年代末,人們預(yù)見到互聯(lián)網(wǎng)資源存檔將成為未來研究、商業(yè)和政府的重要記錄,開始實(shí)施Web存檔活動?;ヂ?lián)網(wǎng)資源被視為文化遺產(chǎn)的一部分,應(yīng)該像印本那樣得到保存。許多參與Web存檔的機(jī)構(gòu)將此視為保護(hù)國家文化遺產(chǎn)這一長期使命的延伸,且受到許多國家立法框架如法定呈繳制度的認(rèn)可和支持。Web(如游戲Web(通常是定期執(zhí)行WebWebWebWebWebWeb何人工比對,而該方式在選擇性采集中則是一種常用的質(zhì)量保證方法。于WebWebWebWebIV信息與文獻(xiàn)網(wǎng)絡(luò)存檔的統(tǒng)計(jì)和質(zhì)量問題范圍本文件為Web存檔定義了統(tǒng)計(jì)數(shù)據(jù)、術(shù)語和質(zhì)量標(biāo)準(zhǔn)。本文件考慮了圖書館、檔案館、博物館、本文件面向直接參與Web存檔的專家,通常是由圖書館和檔案館的館長、工程師和管理人員組成的團(tuán)隊(duì)。對Web存檔機(jī)構(gòu)的資助機(jī)構(gòu)和利益相關(guān)方也同樣有用。本文件使用的專業(yè)術(shù)語試圖能夠表達(dá)受眾所擁有的廣泛興趣和專業(yè)知識,并在計(jì)算機(jī)科學(xué)、管理和圖書館學(xué)之間達(dá)到平衡。Web存檔的特定內(nèi)Web最后,本文件專注于Web存檔的原理和方法,不包括其他采集互聯(lián)網(wǎng)資源的方式。事實(shí)上,一些Web(如以電子郵件形式傳播的通訊Web術(shù)語和定義以下術(shù)語與定義適用于本文件。2.1訪問access圖書館提供的在線服務(wù)的成功請求。注1:一次訪問是用戶活動的一個周期,通常從用戶連接到圖書館提供的在線服務(wù)時開始,并以顯式(通過注銷或退出離開數(shù)據(jù)庫)或隱式(由于用戶不活動而導(dǎo)致超時)的終止活動結(jié)束。[來源:ISO2789:2013,2.2.1]2.2訪問工具accesstool用于查找、檢索和回放存檔互聯(lián)網(wǎng)資源的專業(yè)軟件。注1:該工具可通過組合運(yùn)行多個獨(dú)立軟件包實(shí)現(xiàn)。2.3管理元數(shù)據(jù)administrativemetadata1妥善管理存儲庫中數(shù)字對象所必需的信息。注1:管理元數(shù)據(jù)可分為以下幾類:——上下文或溯源元數(shù)據(jù):描述資源截止到某一時間點(diǎn)的生命周期,包括相關(guān)的實(shí)體和過程,如配置和日志文件;——技術(shù)元數(shù)據(jù):描述數(shù)字對象的技術(shù)特征,例如其格式;——權(quán)限元數(shù)據(jù):定義對象的所有權(quán)和合法使用權(quán)限。2.4存檔archiveWeb存檔。隨著時間的推移,從Web上抓取到的全部資源,包括一個或多個集合。2.5比特流bitstream構(gòu)成數(shù)字文件的由0和1組成的序列。2.6預(yù)設(shè)(抓取)budget(crawl)與一次抓取或單個種子相關(guān)的限制,能用如文件數(shù)量、數(shù)據(jù)體量或爬蟲設(shè)置中定義的每次抓取所花費(fèi)的時間來表示。2.7批量抓取bulkcrawl批量采集。旨在采集單個或多個頂級域或子集的全部內(nèi)容的抓取行為。注1:與選擇性抓取相比,批量抓取的范圍更廣,通常執(zhí)行的頻率更低。注2:批量抓取通常會產(chǎn)生大規(guī)模的Web存檔,導(dǎo)致無法進(jìn)行細(xì)致的質(zhì)量檢驗(yàn),通常通過抽樣的方式進(jìn)行質(zhì)量檢驗(yàn)。2.8抓取實(shí)例capture實(shí)例。在某個時間點(diǎn)抓取的資源的副本。注1:如果同一資源在不同日期被抓取了三次,就會有三個抓取實(shí)例。2.9資源集合collectionWeb存檔資源集合。注1:一個資源集合可以在采集前專門選定(例如按照事件或主題),也可以從存檔的可用資源中回溯匯集。注2:Web存檔可由一個或多個資源集合組成。2.10抓取crawl采集。使用爬蟲瀏覽和復(fù)制資源的過程。注1:抓取可分為批量抓取或選擇性抓取。2.11抓取設(shè)置crawlsettings抓取參數(shù)。界定應(yīng)采集哪些資源以及每組種子所需的頻率和深度。注1:抓取設(shè)置還包括爬蟲禮儀(每秒或每分鐘發(fā)送到資源所在主機(jī)服務(wù)器的請求數(shù))、遵守robots.txt及用于排除爬蟲陷阱的過濾器。22.12爬蟲crawler采集器。已棄用:蜘蛛程序。一種可以連續(xù)請求URL并解析結(jié)果資源以獲取更多URL的軟件。注1:資源的存儲和URI的丟棄都需要遵循一套預(yù)定義的規(guī)則[參見抓取設(shè)置(2.11)和范圍(抓取)(2.40)]。2.13爬蟲陷阱crawlertrap可導(dǎo)致爬蟲崩潰或無休止跟蹤指向其他低價(jià)值或無價(jià)值資源的Web頁面(或其系列)。注1:爬蟲陷阱可能是為了防止爬蟲采集資源故意設(shè)置的。爬蟲陷阱也可能在不經(jīng)意間發(fā)生,例如,當(dāng)爬蟲無休止跟蹤日歷的日期時。2.14保存管理工具curatortool運(yùn)行在Web爬蟲上并支持采集過程的應(yīng)用程序。注1:核心功能是管理目標(biāo)對象以及相關(guān)的描述性元數(shù)據(jù)和管理元數(shù)據(jù),還可包括用于調(diào)度和質(zhì)量控制的組件。2.15數(shù)據(jù)挖掘datamining通過從不同的角度和維度分析定量數(shù)據(jù)、對其進(jìn)行分類以及總結(jié)潛在關(guān)系和影響來提取模式的計(jì)算過程。[來源:ISO16439:—,3.13]2.16深度萬維網(wǎng)deepWeb已棄用:隱蔽網(wǎng)。不能被搜索引擎抓取和索引的部分Web,特指由動態(tài)生成的資源或受密碼保護(hù)的資源組成的Web。2.17描述性元數(shù)據(jù)descriptivemetadata描述數(shù)字對象知識性內(nèi)容的信息。2.18域名domainname由域名系統(tǒng)(DNS)的規(guī)則和程序定義的標(biāo)識字符串,該標(biāo)識字符串規(guī)定了在互聯(lián)網(wǎng)上的管理自治、授權(quán)或控制領(lǐng)域。2.19域名系統(tǒng)domainnamesystem,DNS用于標(biāo)識連接到互聯(lián)網(wǎng)的實(shí)體的分層分布式全局命名系統(tǒng)。注1:頂級域(TLD)是層次結(jié)構(gòu)中最高的。2.20仿真emulation利用當(dāng)前計(jì)算機(jī)系統(tǒng)上的軟件(稱為仿真器)再現(xiàn)過時系統(tǒng)的功能和行為。注1:仿真是一種主要的數(shù)字保存策略。2.21主機(jī)host3URI中用來命名內(nèi)容的網(wǎng)絡(luò)來源部分。注1:主機(jī)通常是如\h的域名,或如的子域。2.22超文本標(biāo)記語言HypertextMarkupLanguage,HTMLWeb頁面的主要標(biāo)記語言,由用于向原始文本添加結(jié)構(gòu)和語義信息的元素組成。2.23超文本傳輸協(xié)議HypertextTransferProtocol,HTTP用于在Web上傳輸信息的客戶端/服務(wù)端通信協(xié)議。2.24超鏈接hyperlink鏈接。用于在互聯(lián)網(wǎng)上鏈接信息的關(guān)系結(jié)構(gòu)。2.25垃圾信息junk被視為無關(guān)的或無長期價(jià)值的未被要求保存的內(nèi)容。注1:有意的垃圾信息通常用于操縱搜索引擎索引。當(dāng)爬蟲掉入爬蟲陷阱時,也會無意地生成垃圾信息。注2:一般來說,采集機(jī)構(gòu)會盡量避免采集垃圾信息,以便資源能用于采集“好”資源。然而,有些機(jī)構(gòu)會保留一小部分樣本作為Web記錄的一部分。2.26鏈接挖掘linkmining側(cè)重于從超鏈接中提取模式和啟發(fā)式方法的處理和分析,如繪制網(wǎng)絡(luò)圖。2.27實(shí)時Web泄漏liveWebleakage呈現(xiàn)存檔資源時的常見問題,當(dāng)存檔資源中的鏈接解析為實(shí)時站點(diǎn)上的當(dāng)前資源而不是Web存檔中的存檔版本時,會出現(xiàn)此問題。注1:當(dāng)存檔Web頁面上的腳本繼續(xù)引用并成功請求存檔呈現(xiàn)中的實(shí)時Web資源時,也會發(fā)生實(shí)時Web泄漏。例如,這可能會導(dǎo)致實(shí)時Web社交媒體源或視頻流顯示在存檔的Web頁面中。2.28日志文件logfile由維護(hù)其活動記錄的服務(wù)器自動創(chuàng)建的文件。2.29元數(shù)據(jù)metadata描述數(shù)字對象的上下文、內(nèi)容和結(jié)構(gòu)及其隨時間推移的管理信息的數(shù)據(jù)。注1:元數(shù)據(jù)可以分為描述性元數(shù)據(jù)、結(jié)構(gòu)性元數(shù)據(jù)和管理元數(shù)據(jù)。[來源:ISO15489-1:2001,2.12]2.30遷移migration為了保持?jǐn)?shù)字對象的可訪問性,將舊的或過時的文件格式轉(zhuǎn)換為較新的或當(dāng)前的文件格式。注1:遷移是一種主要的保存策略。[來源:ISO15489-1:2001,3.13]2.31MIME類型MIMEtype互聯(lián)網(wǎng)媒體類型。內(nèi)容類型。4互聯(lián)網(wǎng)文件格式的兩部分標(biāo)識符。
注1:MIME(MultipurposeInternetMailExtensions,多用途互聯(lián)網(wǎng)郵件擴(kuò)展)使用由類型和子類型組成的內(nèi)容類型頭來指示資源的格式,如image/jpeg。2.32備選資源nomination被考慮包含在Web存檔中的候選資源。2.33pageWeb結(jié)構(gòu)化資源,除人類可讀的內(nèi)容之外,還包含與其他資源的零個或多個關(guān)系,通過URL來標(biāo)識。2.34許可permission授權(quán)抓取實(shí)時網(wǎng)站和/或在Web存檔上公開顯示其內(nèi)容。注1:許可可以通過權(quán)利持有者的正式許可證來表示,也可以通過法定呈繳制度獲得豁免。2.35注冊用戶registereduser為在圖書館內(nèi)或圖書館外使用其資源集合和/或服務(wù)而在圖書館注冊的個人或組織。注1:用戶注冊可基于用戶請求,或用戶在該機(jī)構(gòu)注冊時即自動注冊。注2:定期監(jiān)控注冊情況,至少每三年一次,以便將非活躍用戶從注冊中刪除。[來源:ISO2789:2013,2.2.28]2.36請求request由請求系統(tǒng)(如瀏覽器或爬蟲)發(fā)送到遠(yuǎn)程服務(wù)器的HTTP格式消息,以獲取由URL標(biāo)識的特定資源。2.37響應(yīng)response遠(yuǎn)程服務(wù)器對資源的HTTP請求的應(yīng)答,包含請求的資源、到另一個URL的重定向,或指示無法返回請求資源原因的拒絕(錯誤)響應(yīng)。2.38響應(yīng)碼responsecode狀態(tài)碼。向請求服務(wù)器說明請求資源狀態(tài)的三位數(shù)字。注1:例如,以4(4xx)開頭的代碼表示請求的資源不可用。2.39robots.txt機(jī)器人排除標(biāo)準(zhǔn)。用于防止Web爬蟲訪問全部或部分網(wǎng)站的協(xié)議。注1:robots.txt不具有法律約束力。注2:它還可用于要求連續(xù)請求之間的最小延遲,甚至提供指向站點(diǎn)地圖的鏈接,以便更好地抓取站點(diǎn)。2.40范圍(抓?。﹕cope(crawl)定義抓取范圍的參數(shù)集,如爬蟲應(yīng)遵循的最大躍點(diǎn)數(shù)或最大路徑深度。注1:抓取的范圍可以大到整個頂級域(如.cn),也可以小到單個文件。52.41范圍(Web)scope(Webarchive)Web存檔或資源集合的范圍,由機(jī)構(gòu)法律授權(quán)或資源集合政策決定。2.42二級域secondleveldomain特定類別的組織或感興趣領(lǐng)域的頂級域內(nèi)的細(xì)分(如政府網(wǎng)站、科研機(jī)構(gòu)網(wǎng)站)。2.43種子seed目標(biāo)URL。與要抓取的特定資源的位置對應(yīng)的URL,Web爬蟲將其作為(采集)起點(diǎn)。2.44遴選selection制定保存管理決策的過程,根據(jù)資源集合建設(shè)政策判斷一組有意義的資源是否在Web內(nèi)。2.45選擇性抓取selectivecrawl選擇性采集。根據(jù)特定遴選標(biāo)準(zhǔn)采集并抓取資源。注1:與批量抓取相比,選擇性抓取的范圍更窄,通常執(zhí)行的頻率更高。注2:選擇性連續(xù)抓取是根據(jù)特定遴選標(biāo)準(zhǔn)(如學(xué)術(shù)重要性、主題相關(guān)性或資源更新頻率)采集并抓取資源。注3:選擇性事件抓取是有時間限制的抓取,在特定日期結(jié)束,旨在采集與特定事件相關(guān)的資源,如選舉、體育賽事和災(zāi)難。2.46結(jié)構(gòu)性元數(shù)據(jù)structuralmetadata描述如何將復(fù)合對象組建在一起形成邏輯單元的信息。2.47目標(biāo)target要采集的有意義的資源集,由一個或多個種子以及相關(guān)的抓取設(shè)置所定義。2.48頂級域topleveldomain,TLD/(.cnISO3166國家/地區(qū)縮寫的雙字符區(qū)域代碼,以及通用頂級域(.com、.net、.org、.paris)。注1:除非特別說明,本術(shù)語在本文件中用于表示國家/地區(qū)代碼頂級域。2.49統(tǒng)一資源標(biāo)識符UniformResourceIdentifier,URI用于標(biāo)識或命名互聯(lián)網(wǎng)資源的可擴(kuò)展字符串。2.50統(tǒng)一資源定位符UniformResourceLocator,URL統(tǒng)一資源標(biāo)識符(URI)的子集,用于指定資源的位置和檢索資源的協(xié)議。2.51WARC格式WARCformat該文件格式定義了一種將多個數(shù)字資源及相關(guān)信息整合到一個集合性存檔文件的方法。注1:WARC(WebARChive)格式自2009年成為ISO標(biāo)準(zhǔn)(ISO28500:2009)。2.526網(wǎng)站website一組合法和/或編輯上相互關(guān)聯(lián)的Web頁面。注1:網(wǎng)站通常代表官方機(jī)構(gòu)、組織、私人公司和私人主頁。2.53Web互聯(lián)網(wǎng)的主要發(fā)布應(yīng)用程序,由三個重要標(biāo)準(zhǔn)支持:URI、HTTP和HTML。Web挑戰(zhàn),通常需要昂貴的定制化解決方案。采集方法技術(shù)基準(zhǔn)URL(即種子)WebWeb存檔資源集合的覆蓋范圍、深度和整體質(zhì)量由一套被稱為“采集規(guī)則”的技術(shù)設(shè)置決定。被采集的資源通過它們的位置(URL,即種子列表)和采集范圍來描述。采集范圍主要由采集的頻次和深度決定,這些設(shè)置會影響Web存檔的全面性。局限性大量的信息以驚人的速度發(fā)布到Web上。機(jī)構(gòu)通常會根據(jù)資源所需的人力、計(jì)算能力及存儲能力來決定Web存檔的范圍。此外,在資源遴選和采集階段所作的選擇使機(jī)構(gòu)能夠?qū)W⒂诓杉袃r(jià)值的“好”資源,而不是自動生成的無價(jià)值內(nèi)容,如垃圾信息。Web存檔需要規(guī)避大量的噪音資源,這就需要對抓取過程進(jìn)行積極有效的管理和優(yōu)化。的規(guī)模和性質(zhì)有關(guān),也有些限制與立法有關(guān)。當(dāng)前Web架構(gòu)和抓取技術(shù)導(dǎo)致的問題HTML如JavaScript、Flash或通過與用戶交互自動產(chǎn)生時,存檔爬蟲常常會無法抓取相關(guān)的內(nèi)容。提取和解析URLURL“&”IDWeb內(nèi)容類型。當(dāng)前基于有“深度萬維網(wǎng)或隱蔽網(wǎng)”、流媒體、通過非HTTP協(xié)議傳輸?shù)膬?nèi)容和社交媒體資源。然而,Web存檔社區(qū)面臨的最根本的挑戰(zhàn)是Web在新格式、協(xié)議和平臺方面的快速變化,存檔組織需7要對Web的持續(xù)發(fā)展作出響應(yīng),并提高對新出現(xiàn)的內(nèi)容類型的存檔能力。Web資源的頻繁更新導(dǎo)致的問題Web頁面共同存在于快照中。立法可能會對目前實(shí)施的Web存檔方式增加更多地限制。受立法影響的一個關(guān)鍵決策是是否尊重還是忽略robots.txt排除標(biāo)準(zhǔn),它對于是否抓取或放棄某些內(nèi)容會產(chǎn)生重大的影響。上述的局限性為使用可比較的方法來評估Web存檔活動帶來許多挑戰(zhàn)。本文件采用的通用方法是承認(rèn)局限性并關(guān)注已知和可比較的內(nèi)容。采集策略采集策略分為兩大類,它們涉及的自動化水平及所生成的Web存檔的范圍和規(guī)模各不相同。這會產(chǎn)生大規(guī)模的Web存檔資源集合。最知名的批量存檔是InternetArchive的WaybackMachine,其目標(biāo)是保存全球Web。批量采集是個高度自動化的過程,但也會受到執(zhí)行規(guī)模的的狀態(tài)碼來自動核查丟失的內(nèi)容。——選擇性存檔,以較小規(guī)模、有重點(diǎn)地開展,執(zhí)行也更為頻繁。會根據(jù)主題、事件、格式(如音頻或視頻文件)或與內(nèi)容所有者的協(xié)議等標(biāo)準(zhǔn),遴選和識別相關(guān)網(wǎng)站。質(zhì)量保證是選擇性檔往往具有更多的描述性元數(shù)據(jù),通常由保存管理員在遴選階段或在采集后添加,可用于在Web——許多機(jī)構(gòu)會將上述兩種策略混合使用。有些網(wǎng)站更新頻繁,僅依賴不頻繁的批量或域采集方式無法抓取網(wǎng)站的變化內(nèi)容。單一存檔組織制定混合策略的情況并不少見,即頻繁抓取高優(yōu)先級網(wǎng)站,而僅使用批量或域采集的方式抓取低優(yōu)先級網(wǎng)站。遴選標(biāo)準(zhǔn)遴選標(biāo)準(zhǔn)通常依據(jù)立法以及機(jī)構(gòu)的資源集合建設(shè)政策制定,且應(yīng)符合采集機(jī)構(gòu)的核心使命。人力、資源和專業(yè)知識等運(yùn)營考慮或限制通常會影響策略的實(shí)施。遴選標(biāo)準(zhǔn)定義了Web存檔的范圍,并可以用多種方式表示:——(.cn或保留給某些出版商的二級域(如用于政府出版物的.gov)。然而,域名無法嚴(yán)格地確定或定義國家內(nèi)容,因?yàn)榛ヂ?lián)網(wǎng)是個全球系統(tǒng),資源是跨物理或地理邊界分布的?!鶕?jù)資源的特征,例如,通過網(wǎng)站內(nèi)容的主題、標(biāo)題,通過受用戶歡迎程度或使用的語言,通過用于傳輸資源的通訊協(xié)議(如HTTP)或格式(如文本或視頻)?!鶕?jù)資源的訪問條件或版權(quán)狀態(tài),例如,資源是免費(fèi)提供,還是需要購買或訂閱?!鶕?jù)組織能夠負(fù)擔(dān)的存檔能力。組織財(cái)政可能只能支持有限采集頻率或負(fù)擔(dān)一個高選擇性的采樣方法。——根據(jù)與內(nèi)容相關(guān)的明確限制或例外規(guī)則,例如,遴選標(biāo)準(zhǔn)可以是排除含有個人、敏感數(shù)據(jù)或非法內(nèi)容的資源。8訪問和描述的方法技術(shù)基準(zhǔn):描述方法概述合使用。按URL進(jìn)行索引(強(qiáng)制)URL形式,但是關(guān)鍵在于資源采集機(jī)構(gòu)需要保證該標(biāo)識符能無限期地提供對資源的引用和訪問方法。其他種類的索引(可選)Web問機(jī)制,這也是本文件的重點(diǎn)。編目(可選)單個網(wǎng)站的層次。使用元數(shù)據(jù)的資源發(fā)現(xiàn)工具(可選)鍵詞)也可以整合到用戶界面中。技術(shù)基準(zhǔn):訪問方法概述可以通過使用專門的軟件來對存檔的Web資源進(jìn)行查找、檢索和回放??梢酝瑫r使用多個軟件包協(xié)同工作來實(shí)現(xiàn)這個過程。整個軟件系統(tǒng)通常稱為訪問工具。不論訪問工具如何設(shè)計(jì)和實(shí)施,它都有一組共同的屬性。這些屬性有些是強(qiáng)制性的,有些是可選的。9呈現(xiàn)(強(qiáng)制)訪問工具軟件應(yīng)能夠唯一標(biāo)識資源(即使同一資源已被多次采集),并能從存檔倉儲中檢索對象。URL重寫(強(qiáng)制)通過訪問軟件獲得的HTML頁面應(yīng)對其原始顯示進(jìn)行修改。嵌入的鏈接(絕對或相對)應(yīng)該指向數(shù)字存檔中的資源位置,而不是原始資源的位置,可以通過多種方式實(shí)現(xiàn):——在采集時進(jìn)行重寫(可以采取保存管理決策來立即重寫內(nèi)容中的URL,并將修改后的內(nèi)容攝入到存檔倉儲中);——可以在后期對存檔資源采取能達(dá)到上述相同目標(biāo)的保存活動。因此,資源應(yīng)該隱含地指向它們新位置的鏈接;——對URL進(jìn)行實(shí)時重寫可以基于資源請求通過在服務(wù)器上執(zhí)行代碼來實(shí)現(xiàn),也可以通過向客戶端提供一個原始資源的副本以及在客戶端上執(zhí)行的代碼來動態(tài)地重寫URL。局限性軟件的能力,而無法為終端用戶提供訪問。Web泄露”,指存檔資源中的鏈接能指向?qū)崟r站問工具檢測不到嵌入在JavaScript中鏈接的結(jié)果。訪問策略盡管許多互聯(lián)網(wǎng)資源能夠免費(fèi)獲取,但是通常會受到版權(quán)保護(hù)。基于相關(guān)立法(詳見4.4)以及法律允許采集的內(nèi)容,采集機(jī)構(gòu)會使用一系列的訪問策略:——暗存檔:任何人都無法訪問資源集合(除了工作人員偶爾出于保存管理的目的進(jìn)行訪問);——灰色存檔:只有得到許可的終端用戶(如研究人員)能查看資源集合,并且/或僅限于現(xiàn)場查閱(如圖書館閱覽室);——在線存檔:所有用戶都能訪問,通常通過采集機(jī)構(gòu)的網(wǎng)站訪問。保存方法技術(shù)基準(zhǔn)能得到永久地保存而不會出現(xiàn)丟失的情況。10用它,因?yàn)橛脩艨赡軙酝耆煌姆绞脚c它進(jìn)行交互。
數(shù)據(jù)庫和多種應(yīng)用。Web的一個關(guān)鍵特征是Web來了挑戰(zhàn)。局限性Web存檔中包含的仍然是近期的資源,而且缺乏令人信服的結(jié)果或有信心的行之有效的策略以證明社區(qū)對存檔互聯(lián)網(wǎng)資源的長期保存能力。本文件不會提供實(shí)踐解決方案,但是會重點(diǎn)說明當(dāng)前的實(shí)踐、標(biāo)準(zhǔn)和問題。保存策略特流保存時需要考慮Web存檔的規(guī)模。資源間的復(fù)雜性和依賴性同樣增加了挑戰(zhàn)性,并難以對遷移結(jié)果進(jìn)行驗(yàn)證。WebWeb頁面被采集時的通用瀏覽器和媒體播放器的功能。遷移和仿真應(yīng)被視為數(shù)字存檔系統(tǒng)保存規(guī)劃的一部分。保存元數(shù)據(jù)定義了適用于Web的五種不同類型的元數(shù)據(jù),如下所示:類來獲取此類元數(shù)據(jù)。些機(jī)構(gòu)決定不再額外或明確記錄這些關(guān)系,是因?yàn)檫@些關(guān)系實(shí)質(zhì)上已經(jīng)存在于資源內(nèi)部。11IP地址。Web存檔相關(guān)的技術(shù)元數(shù)據(jù)的例子,也是資源集合表征的核心統(tǒng)計(jì)數(shù)據(jù)之一(詳見)。間。此種信息需要與資源一起保存,以防止未授權(quán)的訪問行為。溯源元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和權(quán)限元數(shù)據(jù)統(tǒng)稱為管理性數(shù)據(jù)。Web概述構(gòu)提供一定的法律保護(hù)來有效應(yīng)對這些風(fēng)險(xiǎn)。Web可抓取互聯(lián)網(wǎng)資源并提供訪問帶來的某些風(fēng)險(xiǎn)。估和實(shí)施層面的試驗(yàn)。采集范圍和方法Web存檔的立法會明確地包括或排除一些特定的內(nèi)容,它們定義了國家域的采集邊界或范圍,也會指定允許采集的頻率和深度。商、覆蓋多種資源的“一攬子許可”是另一種降低管理多個出版商協(xié)議成本的方法。行處罰。成采集協(xié)議之前“自動”采集互聯(lián)網(wǎng)資源。立法可能會對未來的Web存檔采取進(jìn)一步的限制。受到立法影響的一個關(guān)鍵決定是應(yīng)該遵守還是忽略robots.txt排除標(biāo)準(zhǔn),它對于是否抓取或放棄某些內(nèi)容產(chǎn)生重大影響??椫g的共同責(zé)任,例如:12——國家或聯(lián)邦機(jī)構(gòu)與地方或地區(qū)機(jī)構(gòu)之間;——國家圖書館與國家檔案館之間;——專門機(jī)構(gòu)網(wǎng)絡(luò)或聯(lián)盟內(nèi)部。Web量采集,那么訪問就有可能受到限制。版權(quán)限制,如打印、抽取、數(shù)字拷貝或下載,可適用于Web存檔。述性元數(shù)據(jù)。WebWeb目標(biāo)是為短期或中期研究提供數(shù)據(jù)集,則不會要求它們無限期地保存這些資源。Web概述存檔Web資源的其他動機(jī)通常是由政策驅(qū)動的。它們體現(xiàn)了一個機(jī)構(gòu)的戰(zhàn)略愿景以及對于技術(shù)和文化創(chuàng)新的傳統(tǒng)和態(tài)度。(資源的機(jī)構(gòu)來說,保存Web資源是其自然且重要的職責(zé)。Web存檔保證了數(shù)字資源的延續(xù)性,是避免國家知識和記憶出現(xiàn)數(shù)字黑洞的必要措施,它還有助于保持對被引用資源的訪問。這種動機(jī)對于國家圖書館和檔案館尤為強(qiáng)烈。促進(jìn)學(xué)術(shù)研究互聯(lián)網(wǎng)是一個高度參與和創(chuàng)新的空間,人們在這里交流和合作。可以說,Web創(chuàng)造了與國家文化遺產(chǎn)相關(guān)的新的社會知識和新的具有研究價(jià)值的文化資源。人們已經(jīng)觀察到出現(xiàn)了新的研究實(shí)踐和社區(qū),這些新的研究實(shí)踐和社區(qū)致力于研究實(shí)時Web及其可能的存檔。在許多學(xué)科中都非常有用。含且具有研究價(jià)值,這是吸引許多Web存檔機(jī)構(gòu)的原因。支持公眾的多種使用方式13憶和交互。問,是將Web存檔作為公共服務(wù)提供的有力論據(jù)。準(zhǔn)是表示負(fù)面評價(jià)。在本文件中,統(tǒng)計(jì)數(shù)據(jù)以絕對數(shù)量評估,質(zhì)量指標(biāo)以相對數(shù)量和百分比評估。Web存檔的當(dāng)前技術(shù)水平意味著某些統(tǒng)計(jì)數(shù)據(jù)的生成必須依賴于所使用的采集、索引或?yàn)g覽軟件,并且Web存檔的可靠描述,并允許對它們進(jìn)行比較。本文件提出了通用的統(tǒng)計(jì)數(shù)據(jù)和質(zhì)量指標(biāo),并非所有的指標(biāo)和數(shù)據(jù)都適用于不同類型的Web存檔。此外,隨著技術(shù)的進(jìn)步和Web存檔實(shí)踐的發(fā)展,有些數(shù)據(jù)和指標(biāo)需要進(jìn)行更新。據(jù)。這些統(tǒng)計(jì)數(shù)據(jù)會在每節(jié)的末尾列出并附有示例。資源集合建設(shè)的統(tǒng)計(jì)數(shù)據(jù)概述下列統(tǒng)計(jì)數(shù)據(jù)通過追蹤Web存檔的定量輸出來評估它的增長狀況。這些數(shù)據(jù)有助于規(guī)劃和監(jiān)測資源集合建設(shè)并進(jìn)行詳細(xì)的成本分析。與模擬文檔不同,Web存檔包括了非線性、相互鏈接的資源,有些資源可以為用戶回放,另外一些資源是不可分割的文件和元數(shù)據(jù),它們是資源的一部分,但對用戶不可見。因此,評估Web存檔體量的統(tǒng)計(jì)數(shù)據(jù)不能和用于物理資源的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行比較。這些統(tǒng)計(jì)數(shù)據(jù)中的絕大多數(shù)僅適用于存檔的Web資源,而不適用于實(shí)時Web內(nèi)容。評估采集目標(biāo):統(tǒng)計(jì)目標(biāo)和抓取實(shí)例的數(shù)量目的存檔資源集合,展示采集過程的效率和取得的效果。Web存檔中應(yīng)包含哪些網(wǎng)站所花費(fèi)的時間。方法每個目標(biāo)包含一個或多個種子,且每個種子都有一系列的抓取設(shè)置來定義抓取的范圍。這是關(guān)于被14采集資源的一組重要設(shè)置,其范圍可以從托管在同一域中(表示為一個網(wǎng)站)相互鏈接的資源到由URL標(biāo)識的單個資源(如一個PDF、一個視頻)或者整個頂級域。一個目標(biāo)可以被多次抓取,每次抓取都形成一個抓取實(shí)例。以對《紐約時報(bào)》網(wǎng)站主頁的每日抓取為例:——種子是/和\h/;——范圍是抓取主頁以及所有通過主頁進(jìn)行一次點(diǎn)擊的資源;——頻率是每天;——目標(biāo)是以上所有;——被抓取和存檔的資源的獨(dú)立集合作為一個抓取實(shí)例。這種通用方法允許機(jī)構(gòu)設(shè)置運(yùn)營目標(biāo)并評估結(jié)果。在上述示例中,目標(biāo)可以是每年采集365個抓取實(shí)例。然后,機(jī)構(gòu)可以按年度比較實(shí)際的目標(biāo)抓取實(shí)例數(shù)量,以評估目標(biāo)是否已經(jīng)實(shí)現(xiàn)。局限性只有在機(jī)構(gòu)都采用相同的遴選政策和實(shí)踐時,比較機(jī)構(gòu)間的目標(biāo)數(shù)量和目標(biāo)抓取實(shí)例數(shù)量才有意義。WebURL目的有些只提供元數(shù)據(jù),有些響應(yīng)僅僅提供一個錯誤代碼。需要特別注意的是,不是所有的URL都能對應(yīng)到有意義的、人類可讀的資源,相當(dāng)于圖書館傳統(tǒng)印本資源集合中的物理“文檔”和“條目”。即使在Web服務(wù)器無法滿足請求時,它依然會發(fā)送響應(yīng),指示該請求的發(fā)送狀態(tài),如重定向和錯誤。這些信息提供了采集流程的審計(jì)跟蹤和Web存檔資源集合的溯源信息,并對訪問或保存目的非常有用。因此,本文件建議所有的響應(yīng)應(yīng)視為Web存檔的一部分均要進(jìn)行保留。在Web和HTTP消息系統(tǒng)中,URL被作為資源的標(biāo)識符。URL還代表Web存檔中自包含內(nèi)容的最小單位,通常用于web資源的存儲和訪問系統(tǒng)中。因此,我們建議將URL用于標(biāo)識資源以及Web服務(wù)器返回的相應(yīng)響應(yīng),然后使用不同類型的狀態(tài)碼對Web存檔資源進(jìn)行排序或分組。方法RFC2616(參見“參考文獻(xiàn)”)。151Http狀態(tài)碼原因短語1xxInformational(通知的)100Coninue(繼續(xù))101SwitchingProtocols(切換協(xié)議)2xxSuccessful(成功)200OK(OK)201Contentwascreated(已創(chuàng)建)202Acceptedbutnotacteduponnow(已接受但尚未響應(yīng))203Non-authoritativeinformation(非授權(quán)信息)204Nocontent(無內(nèi)容)205Resetcontentalreadysent(重置已發(fā)送內(nèi)容)206Partialcontent(部分內(nèi)容)3xxRedirection(重定向)300MultipleChoices(多種選擇)301MovedPermanently(永久移除)302Found(發(fā)現(xiàn))303Seeother(見其他)304Notmodified(沒有改變)305Useproxy(使用代理)307TemporaryRedirect(臨時重定向)4xxClienterror(客戶端錯誤)400BadRequest(壞請求)401Unauthorized(未授權(quán)的)402PaymentRequired(要求支付)403Forbidden(禁用)404NotFound(沒有找到)405MethodNotAllowed(方法不被允許)406NotAcceptable(不可接受的)407ProxyAuthenticationRequired(需要代理驗(yàn)證)408RequestTime-out(請求超時)409Conflict(沖突)410Gone(不存在)411LengthRequired(長度要求)412PreconditionFailed(先決條件失?。?13RequestEntityTooLarge(請求實(shí)體太大)414Request-URITooLarge(請求URI太長)415UnsupportedMediaType(不被支持的媒體類型)416Requestedrangenotsatisfiable(請求范圍不滿足)417ExpectationFailed(期望失?。?xxServererror(服務(wù)器錯誤)500InternalServerError(服務(wù)器內(nèi)部錯誤)501NotImplemented(不能實(shí)現(xiàn))502BadGateway(壞網(wǎng)關(guān))503ServiceUnavailable(服務(wù)不能提供)504GatewayTime-out(網(wǎng)關(guān)超時)505HTTPVersionnotsupported(HTTP版本不支持)16本文件建議:在計(jì)算Web存檔中采集資源的總數(shù)時應(yīng)包括所有的URL,不考慮響應(yīng)狀態(tài)碼。系列則特別有助于此,建議專門統(tǒng)計(jì)狀態(tài)碼為200、201、203、205的URL。如果有去重的過程,URL數(shù)量可以在去重前和去重后分別計(jì)算。在抓取過程中,當(dāng)機(jī)器人識別出將要抓取的URL已經(jīng)被采集并在存檔中可用時,就會進(jìn)行去重,所以機(jī)器人不會再次抓取該資源。機(jī)器人會生成信息來標(biāo)識這次去重處理,這在WARC中稱為“重訪”記錄。下面的兩個數(shù)字很有用:——去重后的URL數(shù)量代表了存檔資源的總量,它是用于存儲以及長期保存的參考數(shù)量。然可用時才有意義(如WARC文件中的“重訪”記錄),即使機(jī)器人實(shí)際上沒有對其進(jìn)行抓取,但是這些信息確實(shí)表明去重后的URL在某個日期仍然在線。應(yīng)始終標(biāo)明計(jì)算的方法(即去重前或去重后),特別是存檔資源間進(jìn)行比較時。局限性早期的Web主要由具有明確引用資源的靜態(tài)HTML的迅速發(fā)展使得Web物”的資源集合。Web存檔中URL的數(shù)量不等同于圖書館環(huán)境下傳統(tǒng)的“文檔”和“出版物”的數(shù)量。在計(jì)算據(jù)不僅應(yīng)包括為人類用戶使用的資源,還應(yīng)包括作為Web存檔組成部分的相關(guān)元數(shù)據(jù)和程序。同樣需要注意的是,并非所有Web服務(wù)器返回的狀態(tài)碼都是可靠或可信的,示例如下:404缺失404“200OK”的響應(yīng),“404沒發(fā)現(xiàn)許多Web服務(wù)器會自動產(chǎn)生URL,從而導(dǎo)致Web存檔中資源重復(fù)。當(dāng)向用戶代理返回資源時,Web服務(wù)器有時會給每個URL附加一個唯一標(biāo)識符以追蹤會話,例如:用戶代理1得到了一個URL:\h/id=12345/picture.jpg;用戶代理2得到了一個含有不同ID的URL:\h/id=67890/picture.jpg。這兩個URL提供相同的資源,在本例中為jpeg圖像,但是使用了不同的ID來識別用戶。存檔爬蟲可能會多次采集URL不同但內(nèi)容相同的資源,這些副本會被當(dāng)作唯一的資源。HTTP0.9。Web機(jī)構(gòu)尤其是個問題。Web目的統(tǒng)計(jì)域或主機(jī)的數(shù)量是另外一個評估Web存檔規(guī)模的指示性方法。在實(shí)踐中這種方法常被采集機(jī)構(gòu)17用作表示網(wǎng)站數(shù)量的替代品。相反,網(wǎng)站是一個概念性知識單元,由一組代表個人、社區(qū)、組織的相互關(guān)聯(lián)的Web頁面組成。然而,它不是可以從技術(shù)上定義的東西,也無法進(jìn)行實(shí)際或系統(tǒng)性的評估。位。這些統(tǒng)計(jì)數(shù)據(jù)可能有助于詳細(xì)的資源集合表征或技術(shù)分析,以確定Web存檔中資源類型(如.com或.org)或爬蟲是否已經(jīng)采集到目標(biāo)內(nèi)容范圍。方法域或主機(jī)的數(shù)量能通過抓取報(bào)告自動計(jì)算出來,或者通過其他分析存儲文件的自動化方法來計(jì)算。局限性統(tǒng)計(jì)域或主機(jī)的數(shù)量存在局限性。與統(tǒng)計(jì)URL的數(shù)量一樣,在Web存檔中統(tǒng)計(jì)域或主機(jī)的數(shù)量會比實(shí)際可見及人類可讀的資源的數(shù)量更多。不是所有域都是活躍的或是有意義的資源,同樣存在別名或副本。未使用域Web頁面提供域名出售信息。前者通過狀態(tài)碼204標(biāo)識;后者嚴(yán)格來說不是未使用的,在統(tǒng)在可能的情況下,建議通過抽樣跟蹤Web存檔中的未使用域,來幫助表征資源集合并評估質(zhì)量保證的有效性。別名別名是一種替代性域名。域別名允許使用者將多個域名指向同一網(wǎng)站?;ヂ?lián)網(wǎng)上有很多別名,可能是因?yàn)橛蛩姓呦M褂枚鄠€域名來增加用戶可見度。別名主要是通過重定向?qū)崿F(xiàn)的。包含在批量采集中,并且會導(dǎo)致Web存檔中的資源重復(fù)。在可能的情況下,建議跟蹤Web存檔中檢測到的別名,以幫助表征資源集合和資源去重。Web目的Web存檔規(guī)模也可以以字節(jié)為單位來評估。字節(jié)數(shù)是一個有用的統(tǒng)計(jì)數(shù)據(jù),能夠幫助制定存儲及其他資源的規(guī)劃。它相當(dāng)于圖書館書架管理使用的延米或里。方法以字節(jié)為單位的存檔規(guī)??梢酝ㄟ^將抓取報(bào)告中被抓取資源的規(guī)模相加或通過檢查存檔的磁盤占用情況等其他自動化方法自動生成。Tb28500WARC文件格式規(guī)范的附錄存檔的標(biāo)準(zhǔn)存檔格式解釋了如何使用GZIP壓縮WARC文檔。Web存檔規(guī)??梢酝ㄟ^測量未壓縮和壓縮后兩種方式來評估。但是在對存檔進(jìn)行基準(zhǔn)測評時,使用同樣的標(biāo)準(zhǔn)很重要,即不能將壓縮后的Web存檔規(guī)模與未經(jīng)壓縮的Web存檔規(guī)模進(jìn)行比較。18——壓縮后的規(guī)模代表著資源的磁盤占有情況,它是用于提供存儲及長期保存的參考規(guī)模?!磯嚎s的規(guī)模代表在實(shí)時Web上的資源體量,它的目標(biāo)是人類用戶,從知識或內(nèi)容角度來看這很重要。Web存檔規(guī)模還可以在去重前、后進(jìn)行評估,原因在中已列舉。應(yīng)再次明確表示計(jì)算方法。使用容器文件來存儲文件也是一種常用的方法,如ARC或WARC文件。容器化方法把文件集成起來,換的基本管理單元,有時還用于長期保存的目的。資源集合建設(shè)的核心統(tǒng)計(jì)數(shù)據(jù)表2資源集合建設(shè)的核心統(tǒng)計(jì)數(shù)據(jù)統(tǒng)計(jì)數(shù)據(jù)目的例子目標(biāo)數(shù)采集目標(biāo)/量化產(chǎn)出8000個目標(biāo)目標(biāo)抓取實(shí)例數(shù)采集目標(biāo)/量化產(chǎn)出14000個目標(biāo)抓取實(shí)例URL數(shù)(去重前后)量化產(chǎn)出采集了140億個URL,去重后為100億按狀態(tài)碼分布的URL數(shù)各類型資源數(shù)量成功抓取200萬個資源(狀態(tài)碼“200”)域或主機(jī)數(shù)量化產(chǎn)出300萬個域名按字節(jié)計(jì)算的規(guī)模(未壓縮及壓縮后,去重前后)量化產(chǎn)出去重之前有200TB未壓縮資源,去重之后有160TB壓縮資源WARC或任何其他容器文件數(shù)量化產(chǎn)出18000個WARC文件資源集合表征概述WebWebWebWeb存檔的規(guī)模通常避免由人工進(jìn)行統(tǒng)計(jì)。有些統(tǒng)計(jì)數(shù)據(jù)只能通過抽樣采集,特別是那些與批量采集有關(guān)的數(shù)據(jù)。選擇性采集可以通過人工采集統(tǒng)計(jì)數(shù)據(jù),但只應(yīng)在無需耗費(fèi)不必要資源的情況下進(jìn)行。通用統(tǒng)計(jì)數(shù)據(jù)按頂級域和二級域分布目的頂級域(TLDs)標(biāo)示W(wǎng)eb存檔資源的廣泛性質(zhì)。例如,方法的分布情況可以用絕對數(shù)量或者百分比來評估。列出Web存檔中出現(xiàn)頻率最高的前5個或前10域也很有用?!杉膰翼敿売虻臄?shù)量或百分比:法國國家圖書館最近抓取的域中,70%的URL為.fr域19名,3URL.de——采集的二級域的數(shù)量或百分比:法國國家圖書館最近抓取的域中,1.5%的URL為.gouv.fr域名,這些域名是由法國政府機(jī)構(gòu)發(fā)布的。如果一個Web存檔中國家頂級域的比例大于其他域,則可視其為國家范圍存檔。局限性\h).dk按每個域(和/或主機(jī))的資源體量分布目的分析和報(bào)告每個域和/或主機(jī)下托管的資源規(guī)模以及這些資源在Web存檔中的分布情況,不僅可以深入了解資源集合的特征,還有助于管理抓取進(jìn)程。采集各種規(guī)模資源的能力標(biāo)志,尤其是那些技術(shù)上難以抓取的大型網(wǎng)站。對不同規(guī)模的資源按照域和/或主機(jī)進(jìn)行分組也有助于配置和組織抓取進(jìn)程。常見的做法是將相似規(guī)模的域分組并作為獨(dú)立的進(jìn)程或“作業(yè)”進(jìn)行抓取,因?yàn)樗鼈冃枰嗨频脑O(shè)置以及相似的時間來完成。這種做法可以充分利用機(jī)器資源并簡化監(jiān)控和管理的任務(wù)。方法每個域和/或主機(jī)的資源體量可以用MB/GB/TB來評估:·<10MB;·<100MB;·101-999MB;1GB;>1GB?;蛘?,也可以計(jì)算每個域中URL的數(shù)量:·<10000URL;·50000-100000URL;·>100000URL。WebWeb局限性比較,在進(jìn)行長期評估時會更有用。目的分析和報(bào)告Web存檔中文件格式的分布是一項(xiàng)關(guān)鍵的數(shù)字保存活動,也是存檔表征的一個元素。為了管控與格式過時有關(guān)的保存風(fēng)險(xiǎn),了解存檔中存在的文件類型是非常必要的。息還可以揭示技術(shù)趨勢,幫助我們了解Web的演變。20方法
格式統(tǒng)計(jì)數(shù)據(jù)可以從抓取報(bào)告中自動計(jì)算出來,或者通過其他分析存儲文件的自動化方法來獲得。格式類型的分布可以用不同的方式來計(jì)算和組織,例如:——按資源類型:70%的文件是文本(如html),15%是圖片(如jpeg和gif),3%是音頻(如mpeg);——按最常見的文件格式(前50或前100):例如,html是最常見的文件格式;——通過跟蹤某些特定格式,從該格式在存檔中首次出現(xiàn)開始,跟蹤其隨時間推移增加或減少的情況;——按最少使用的格式類型:例如,如果給定Web存檔中的視頻格式?jīng)]有實(shí)時Web上的重要,這表明它們可能不是存檔中的典型格式。局限性分析Web存檔的格式總體情況通常會生成一長串多種文件格式的列表,包含數(shù)千個條目。如果不是對特定的非常用格式感興趣,建議重點(diǎn)關(guān)注50種或100種常見格式。Web服務(wù)器報(bào)告并記錄在抓取日志里的抓取資源(MIME類型)格式并不總是可靠的。Web服務(wù)器可能會返回錯誤的MIME類型。有些機(jī)構(gòu)會使用另外的格式識別工具來獲取更精確的信息。按語言表征目的分析存檔資源中使用的語言可以深入了解WebWebWeb方法HTMLHTTPWeb510局限性多種語言瀏覽Web頁面的自動翻譯程序可能會讓這個統(tǒng)計(jì)數(shù)據(jù)失真。按時間范圍目的Web存檔中的副本對應(yīng)的原始資源就越有可能在實(shí)時Web21檔覆蓋時間跨度越長就越容易出現(xiàn)過時的風(fēng)險(xiǎn)。方法Web選擇性存檔的統(tǒng)計(jì)數(shù)據(jù)以下統(tǒng)計(jì)數(shù)據(jù)僅適用于使用選擇性采集方法的存檔。許可目的功獲得許可的單位成本。許可的數(shù)量也反映了發(fā)布者的興趣以及他們對Web存檔的普遍認(rèn)識。方法統(tǒng)計(jì)授予許可的數(shù)量以及發(fā)送給權(quán)利持有者的許可請求的數(shù)量很有用。這項(xiàng)工作可以由人工完成,也可以使用許可管理系統(tǒng)或保存管理工具中提供的自動化功能來完成。備選資源是指建議包含在Web存檔中的候選資源。備選資源來源廣泛,包括WebWebWeb科館員、數(shù)字存檔管理員或保存管理員進(jìn)行遴選。統(tǒng)計(jì)備選資源的數(shù)量揭示了Web統(tǒng)計(jì)數(shù)據(jù)來檢查Web選的內(nèi)容比自動遴選的內(nèi)容更具有價(jià)值。方法備選資源的數(shù)量可以通過人工采集或使用保存管理工具的自動功能來計(jì)算。局限性擔(dān)采集所有選定資源的費(fèi)用。即使在成功采集資源的情況下,與訪問相關(guān)的問題也可能導(dǎo)致它不能在Web上述統(tǒng)計(jì)數(shù)據(jù)評估的是遴選工作,而不是結(jié)果。主題22目的
WebWeb究人員的需求。方法抽取主題信息的方法有很多種。有些Web存檔中的資源已經(jīng)由保存管理員人工分配了主題詞,可以對其進(jìn)行分組、過濾和分析。標(biāo)準(zhǔn)分類系統(tǒng),如杜威十進(jìn)制分類法(DDC)或美國國會圖書館主題詞表(LCSH)被普遍用于描述存檔資源。大多數(shù)Web存檔沒有人工添加主題詞。主題信息(如果可以)可通過抽取資源中嵌入的元數(shù)據(jù)來獲取,如HTTP頭中的“keyword(關(guān)鍵詞)”元標(biāo)簽、都柏林核心元數(shù)據(jù)的“subject(主題)”字段。也可使用自動聚類或分類對Web存檔中的資源進(jìn)行語義分析,并根據(jù)主題對他們進(jìn)行自動分類。目前在Web存檔社區(qū)中還沒有形成一致或通用的做法。可以列出每個主題資源的百分比以幫助了解Web據(jù)結(jié)合以理解主題領(lǐng)域和發(fā)布者類型之間的關(guān)系。局限性Web資源集合表征的核心統(tǒng)計(jì)數(shù)據(jù)表3資源集合表征的核心統(tǒng)計(jì)數(shù)據(jù)統(tǒng)計(jì)數(shù)據(jù)目的例子按頂級域或二級域分布地域分布在存檔中,頂級域.fr下有100億個URL。按每個域的資源體量分布域分析200萬個域名有不到10個URL,而15萬個域名有超過1萬個URL。按格式類型分布格式表征上一次批量抓取的5億個URL是HTML格式的。按時間范圍時間分析該存檔包含從1996年至今采集的資源。按被授權(quán)許可的數(shù)量生產(chǎn)率該發(fā)布者為2萬個許可請求發(fā)放了許可。按備選資源數(shù)量生產(chǎn)率一年增加了1000個新的備選資源。資源集合的使用概述如3.2“訪問和描述方法”一節(jié)所述,由于國家立法和機(jī)構(gòu)政策的不同,描述和查詢存檔的互聯(lián)網(wǎng)資源的條件也不同,“白色”、“灰色”和“黑色”存檔之間的區(qū)別最有助于選擇合適的評估使用方法。對于在線發(fā)布的存檔,Web存檔使用情況的統(tǒng)計(jì)數(shù)據(jù)將使用與評估實(shí)時WebWeb評估使用情況的定義與方法23實(shí)地訪客立法或機(jī)構(gòu)政策可能規(guī)定Web訪問數(shù)據(jù)。這個數(shù)據(jù)提供了最高質(zhì)量的使用信息,因?yàn)榭梢灾苯硬楂@用戶的意圖。虛擬訪客WebWeb分析協(xié)會的標(biāo)準(zhǔn)工具)來收集使用情況的統(tǒng)計(jì)數(shù)據(jù)。WebAnalytics是一個新興領(lǐng)域,它通過以下方法分析網(wǎng)站的使用模式。ISO2789標(biāo)準(zhǔn)中將虛擬訪問定義為由圖書館的IP地址以外(通常來自圖書館場所之外)的用戶在圖書館的網(wǎng)站上進(jìn)行的一個連續(xù)的用戶活動周期,與瀏覽的頁面或元素的數(shù)量無關(guān)。注WebIP注2:如果將兩個連續(xù)的請求記為同一個虛擬訪問,則他們之間的間隔通常不會多于一個超時周期或30分鐘。較長的時間間隔會啟動一個新的訪問。b機(jī)器人訪客IP(如識別人類訪客通常不會出現(xiàn)的重復(fù)使用模式(跟蹤每個鏈接))所收集到的Web分析統(tǒng)計(jì)數(shù)據(jù)中不包含機(jī)器人訪問。這個數(shù)據(jù)對分析機(jī)器人的行為很有用,特別是如果訪問工具已經(jīng)聲明了機(jī)器人排除協(xié)議(robots.txt)以阻止存檔材料被列入搜索引擎中(即可能與搜索列表里的實(shí)時站點(diǎn)存在潛在競爭)。無意訪客用戶的后續(xù)活動,從實(shí)時站點(diǎn)自動重定向到存檔可能也屬于此類。日志文件分析HTTPHTTPHTTPWeb//IP(甚至解析的域名1990“點(diǎn)擊”變得更復(fù)雜,“點(diǎn)擊”作為指標(biāo)的價(jià)值已經(jīng)降低,現(xiàn)在Web然而,日志分析工具可以從匯總統(tǒng)計(jì)數(shù)據(jù)角度深入解析日志文件中包含的數(shù)據(jù)。WebIP緩存提供服務(wù),而不是由運(yùn)行Web存檔訪問工具的Web服務(wù)器提供。WebWeb緩存將在實(shí)際訪問工具之前嘗試處理請求。頁面標(biāo)記241990CGIJavaScript和cookies來提供關(guān)于用戶和頁面的信息。由于頁面標(biāo)記回調(diào)可以到達(dá)任何位置(不僅是托管的Web服務(wù)器),Web應(yīng)用程序級日志記錄由于訪問工具本身就是一個Web應(yīng)用程序,因此可以直接在應(yīng)用程序上構(gòu)建使用情況的日志記錄隱私通過上述任何方法采集有關(guān)用戶活動的信息需要制定合理的隱私政策,并可供系統(tǒng)用戶訪問。頁面標(biāo)記的廣泛使用(見上文第f條)可能對公共可訪問的Web存檔帶來挑戰(zhàn),因?yàn)榇鏅n站點(diǎn)本身可能包含嵌入式標(biāo)記。因此查看存檔頁面可能會啟動客戶端瀏覽器上設(shè)置的cookies并回調(diào)到分析聚合器(實(shí)時Web泄露)。評估存檔使用情況的基本統(tǒng)計(jì)數(shù)據(jù)表4包含了主要由WebWeb存檔中,大多數(shù)分析程序會將其作為標(biāo)準(zhǔn)報(bào)告的一部分。表4評估存檔使用情況的基本統(tǒng)計(jì)數(shù)據(jù)名稱類型計(jì)算方法重要性頁面瀏覽數(shù)計(jì)數(shù)一個頁面被查看的次數(shù)高–該存檔原始使用情況的標(biāo)示訪問(會話)數(shù)計(jì)數(shù)一個訪問是一個個人與一個網(wǎng)站之間的一次或多次頁面請求的交互。如果個人在指定時間段內(nèi)沒有采取另一個措施(通常是其他的頁面瀏覽),訪問將因?yàn)槌瑫r而終止。高–該存檔的用戶的基本計(jì)數(shù)獨(dú)立訪客數(shù)計(jì)數(shù)報(bào)告期內(nèi),每個個體只在獨(dú)立訪客評估中計(jì)數(shù)一次。中事件維度和/或計(jì)數(shù)瀏覽器或服務(wù)器為其分配了特定日期和時間的任何一個被登記或記錄的操作。低25存檔使用情況的高級表征匯總統(tǒng)計(jì)數(shù)據(jù)表5存檔使用情況的高級表征匯總統(tǒng)計(jì)數(shù)據(jù)名稱類型計(jì)算方法重要性進(jìn)入頁維度訪問的第一個頁面。中登陸頁維度一種頁面視圖,用于標(biāo)識由營銷工作帶來的用戶初次體驗(yàn)。低退出頁維度訪問期間訪問的最后一個頁面,標(biāo)志著訪問/會話的結(jié)束。低訪問時長計(jì)數(shù)一個會話的時間長度。計(jì)算方法通常是會話中最后一個活動的時間戳減去第一個活動的時間戳。高訪問來源維度訪問來源是一個通用術(shù)語,用于描述頁面或訪問的流量來源。中訪問來源頁維度訪問來源頁面描述了頁面的流量來源。中新訪客數(shù)計(jì)數(shù)在報(bào)告期間,其活動包括首次訪問網(wǎng)站的獨(dú)立訪客數(shù)量。請注意,“首次”是指使用當(dāng)前工具開始正確采集數(shù)據(jù)的時間。中回訪者數(shù)計(jì)數(shù)在報(bào)告期間有一次網(wǎng)站訪問行為的獨(dú)立訪客數(shù)量,該訪客此前曾訪問過該網(wǎng)站。中重復(fù)訪客數(shù)計(jì)數(shù)在報(bào)告期間對網(wǎng)站進(jìn)行兩次或更多次訪問行為的獨(dú)立訪客數(shù)量。中維度或計(jì)數(shù)由一個頁面視圖組成的訪問。中按地理位置劃分的訪客數(shù)計(jì)數(shù)請求者IP地址的Geo-IP報(bào)告。低查找存檔的搜索詞數(shù)計(jì)數(shù)搜索引擎中查找訪問工具網(wǎng)站的搜索詞。中存檔內(nèi)使用的搜索詞數(shù)計(jì)數(shù)訪問工具中查找已存檔抓取實(shí)例所使用的搜索詞。高資源集合使用情況的核心統(tǒng)計(jì)數(shù)據(jù)表6資源集合使用情況的核心統(tǒng)計(jì)數(shù)據(jù)統(tǒng)計(jì)數(shù)據(jù)目的例子頁面瀏覽數(shù)使用范圍在2012年6月1日到30日之間,英國Web檔案館(UKWebArchive)中有48318個頁面被瀏覽。訪問數(shù)使用范圍在2012年6月1日到30日之間,英國Web檔案館被訪問11415次。獨(dú)立訪客數(shù)使用范圍在2012年6月1日到30日之間,英國Web檔案館有9434名獨(dú)立訪客。訪問時長用戶對存檔的興趣在2012年6月1日到30日之間,英國Web檔案館用戶平均訪問時長為3分25秒。存檔內(nèi)使用的搜索詞數(shù)用戶的行為在2012年6月1日到30日之間,用戶在英國Web檔案館中使用最多的搜索詞是“gojiberry”Web概述Web為它們的數(shù)字資源建立專門的數(shù)字保存系統(tǒng),這些系統(tǒng)遵循如ISO14721開放存檔信息系統(tǒng)(OpenArchivalInformationSystems)等標(biāo)準(zhǔn)。OAIS本文件不詳細(xì)討論OAIS模型,而是使用其基本概念和定義來描述與Web存檔相關(guān)的保存問題。26所建議的統(tǒng)計(jì)數(shù)據(jù),有些對于其他類型的數(shù)字資源是通用的,其他的則專門針對Web存檔。3.3“保存方法”“比特流或物理保存”,后者稱為“邏輯保存”。4.5.2中描述的統(tǒng)計(jì)數(shù)據(jù)旨在評估比特流保存活動的效率。4.5.3中提出了一個模版來幫助機(jī)構(gòu)報(bào)告預(yù)期將保存在Web存檔中的元數(shù)據(jù)。4.5.4計(jì)數(shù)據(jù)。比特流保存的統(tǒng)計(jì)數(shù)據(jù)丟失或損壞的資源體量目的源。有關(guān)數(shù)據(jù)丟失的信息并不常見,但監(jiān)控丟失或損壞的資源數(shù)量非常重要,因?yàn)檫@是衡量Web完整性的重要指標(biāo)。方法丟失和損壞的數(shù)據(jù)量可以用字節(jié)或URL的數(shù)量來評估,通過定期比較校驗(yàn)和的方法獲得。復(fù)制和分布式保存的資源體量未備份或復(fù)制的資源有永久丟失并且無法恢復(fù)的風(fēng)險(xiǎn)。通常的做法是在多個位置復(fù)制資源以避免產(chǎn)生單點(diǎn)故障。因此,復(fù)制資源的體量是資源集合安全性的一個指標(biāo)。數(shù)。此處的主要問題是多樣性與完整性。包括:——不同實(shí)例的各種軟硬件配置數(shù)量;——實(shí)例之間的物理距離;——數(shù)據(jù)實(shí)例之間數(shù)據(jù)完整性檢查的比率和方法;考慮了這些措施的復(fù)制和分布式保存才能確保資源的完整性。復(fù)制和分布式保存數(shù)據(jù)涉及到成本。應(yīng)該通過平衡風(fēng)險(xiǎn)的影響、成本以及管理復(fù)制資源的復(fù)雜性來決定Web存檔的復(fù)制程度。與元數(shù)據(jù)保存有關(guān)的統(tǒng)計(jì)數(shù)據(jù)3.3.4中解釋了將資源和其相關(guān)的元數(shù)據(jù)一起保存的重要性。建議采集機(jī)構(gòu)使用表7來定期報(bào)告Web存檔中元數(shù)據(jù)的性質(zhì)和體量。27表7與元數(shù)據(jù)保存相關(guān)的統(tǒng)計(jì)數(shù)據(jù)元數(shù)據(jù)類型描述包含元數(shù)據(jù)的資源的百分比說明3.4.4中描述的元數(shù)據(jù)類型之一,如描述性元數(shù)據(jù)元數(shù)據(jù)的描述信息包含元數(shù)據(jù)的資源的百分比任何有用或相關(guān)的說明例子描述性元數(shù)據(jù)DCMI元數(shù)據(jù)元素集,術(shù)語名稱:主題,資源主題。都柏林核心元數(shù)據(jù)倡議(DCMI);國會圖30%主題詞由保存管理員人工分配并存儲到Web保存管理工具中。起源元數(shù)據(jù)配置文件90%2004年抓取的配置文件已被丟棄。技術(shù)性元數(shù)據(jù)文件格式(MIME類型)100%所有采集的文件都有MIME類型信息,但可能是不可靠的。權(quán)限元數(shù)據(jù)存檔和提供在線訪問的許可多用途互聯(lián)網(wǎng)郵件擴(kuò)展(MIME)第二部分:媒體類型100%僅適用于開放訪問的目標(biāo)邏輯保存統(tǒng)計(jì)數(shù)據(jù)提出了邏輯保存活動的三種主要指標(biāo)。(已識別的)文件格式分布目的Web存檔資源的文件格式分布作為存檔表征的一個元素,是中詳細(xì)描述的統(tǒng)計(jì)數(shù)據(jù)。了WebWebMIME除了制定數(shù)字保存策略以外,格式信息也可以用來識別保存風(fēng)險(xiǎn)和確定保存操作的優(yōu)先級。方法參見中描述的“方法”。為了實(shí)現(xiàn)保存的目的,需要更準(zhǔn)確的格式信息,這可以通過格式識別工具來實(shí)現(xiàn)。然后可以按照與中建議的相同方式計(jì)算和組織結(jié)果。例如文件格式識別工具DROID和Jhove。局限性格式識別工具不是總能識別出所有格式。格式工具無法識別新格式就是一個很好的例子。已制定保存策略的文件格式數(shù)量目的文件格式識別是一個有用的起點(diǎn)。需要為Web28格式。例如,機(jī)構(gòu)可能認(rèn)為仿真是對ShockwaveFlash之類文件更合適的策略,以便重新創(chuàng)建交互式用Microsoftoffice什么都不做”也可能是一種有效策略。Web存檔中關(guān)鍵格式的保存策略表明了機(jī)構(gòu)對于長期保存的保障程度。方法列出已制定保存策略的文件格式。這可以與每種文件格式的資源分布統(tǒng)計(jì)數(shù)據(jù)相結(jié)合,以字節(jié)和URL數(shù)量來評估。具有激活保存策略的每種格式的資源體量目的執(zhí)行的決定都可以視為一次激活,以確保做出明智的決定。同一格式的新的策略。方法與每種文件格式的資源分布情況(URL)相結(jié)合。資源集合保存的核心統(tǒng)計(jì)數(shù)據(jù)表8資源集合保存的核心統(tǒng)計(jì)數(shù)據(jù)統(tǒng)計(jì)數(shù)據(jù)目的例子復(fù)制的資源體量安全性和恢復(fù)能力復(fù)制了150TB的Web存檔按(已識別的)文件格式分布保存能力60%的存檔文件是HTML格式的已制定保存策略的格式數(shù)量保存能力和保障程度以下5種格式都制定了保存策略:HTML、JPEG、GIF、PNG和PDFWebWeb(如數(shù)字化建設(shè)相類似的方法進(jìn)行評估。Web外包采集機(jī)構(gòu)可以將其全部的或部分Web存檔業(yè)務(wù)外包給供應(yīng)商或第三方。此類服務(wù)可能包括數(shù)據(jù)采集、索引、訪問或存儲。還可能包括回溯性或歷史性資源集合的獲取和特定的軟件開發(fā)活動。在外包的情況下,計(jì)算Web存檔的外包成本更簡單,因?yàn)檫@等同于服務(wù)提供商向機(jī)構(gòu)收取的總金額。在遴選內(nèi)容、合同管理等方面可能會有額外的費(fèi)用,通常由機(jī)構(gòu)內(nèi)部提供。在計(jì)算Web存檔的總成本時,這些應(yīng)添加到外包成本中。29Web評估內(nèi)部Web存檔活動的成本并不比我們評估比較熟悉的流程(如圖書館編目)更具有挑戰(zhàn)性。應(yīng)考慮四大類主要成本:硬件、計(jì)算、軟件和人工勞動力。硬件成本的基礎(chǔ)設(shè)施。計(jì)算成本計(jì)算成本包括與電力和網(wǎng)絡(luò)(帶寬)相關(guān)的費(fèi)用。軟件成本金會開發(fā)和維護(hù)的免費(fèi)開源軟件。許多機(jī)構(gòu)使用國際合作開發(fā)的解決方案,如國際互聯(lián)網(wǎng)保存聯(lián)盟(IIPC)。這減少了內(nèi)部開發(fā)的成本或向商業(yè)公司支付的許可費(fèi)。該計(jì)入勞動力成本中。勞動力成本全職人力工時或者人/WebWebWeb行計(jì)算。有幾種可能的方法:WebFTEWeb間添加到FTE職位的時長中。3.5個FTEWeb10Web存檔中。WebFTE總數(shù)是:3.5-0.35+1.6=4.75。(通常是一周或兩周在此期間WebWeb計(jì)報(bào)告期內(nèi)FTE總數(shù)。保存、技術(shù)工作和管理的成本有所不同。其他成本其他成本包括:——獲取元數(shù)據(jù),如從域注冊商購買域名列表;——法律事務(wù):法律建議、法院判決后的訴訟或賠償?shù)囊?guī)定,例如,發(fā)布者由于名譽(yù)或經(jīng)濟(jì)損失30而起訴采集機(jī)構(gòu);
——國際合作:Web存檔由全球社區(qū)執(zhí)行和支持。參與國際合作可能會產(chǎn)生會員費(fèi)以及差旅費(fèi)。表9資源集合成本的核心統(tǒng)計(jì)數(shù)據(jù)統(tǒng)計(jì)目的例子硬件成本獲取和維護(hù)硬件的成本更換存儲基礎(chǔ)設(shè)施的成本為50000歐元計(jì)算成本與電力和網(wǎng)絡(luò)相關(guān)的成本帶寬費(fèi)用為每年10000歐元軟件成本獲取、集成、開發(fā)或改進(jìn)軟件的成本新保存工具的開發(fā)已外包,費(fèi)用為80000歐元勞動力成本或金額表示W(wǎng)eb存檔團(tuán)隊(duì)包括三名全職工程師和四名全職保存管理員質(zhì)量被定義為“一組固有特性滿足要求的程度”(ISO9000:2005)。本條款所包括的指標(biāo)用于評估Web存檔程序的一組固有特征在多大程度上滿足其管理層和利益相關(guān)者提出的要求。本節(jié)提出的質(zhì)量指標(biāo)旨在幫助采集機(jī)構(gòu)回答以下基本問題,例如:——我們知道該采集什么嗎?——如果沒有,則需要一個明確的政策來界定存檔的范圍?!覀冊诓杉覀兿胍杉臇|西嗎?——如果沒有,則需要確保所采集的資源和目標(biāo)資源之間的一致性?!覀兪欠癯浞掷昧宋覀兊馁Y源?——如果沒有,則需要改進(jìn)程序和工作流,以提高效率。——該存檔的可訪問性和可搜索性如何?——不斷提高存檔的可用性是很重要的?!覀兡芊癖WCWeb存檔將隨時間的推移保持可訪問性?——如果沒有,則需要建立可靠的保存程序。程序方面的差異,在進(jìn)行此類比較時應(yīng)始終謹(jǐn)慎。限制情況重新訪問和更新它們。質(zhì)量指標(biāo)的應(yīng)用結(jié)果應(yīng)謹(jǐn)慎進(jìn)行解釋??赡艹霈F(xiàn)的采樣和評估誤差會導(dǎo)致結(jié)果不準(zhǔn)確。描述概述根據(jù)與Web存檔項(xiàng)目關(guān)鍵環(huán)節(jié)的相關(guān)程度,列出以下質(zhì)量指標(biāo):政策、采集、訪問和保存。當(dāng)可以通過URL或字節(jié)進(jìn)行統(tǒng)計(jì)時,建議使用URL的方式。事實(shí)上,這些指標(biāo)旨在計(jì)算資源總量,對于圖書館館藏來說,使用URL更加適合。31管理每個已采集URL的成本參與Web存檔工作人員的百分比采集過程的質(zhì)量在給定時間內(nèi)從實(shí)時Web中消失的資源百分比規(guī)定范圍內(nèi)已存檔資源的百分比已達(dá)成協(xié)議的請求的百分比或獲得權(quán)利持有者授予許可的百分比可訪問性和使用終端用戶可訪問資源的百分比全文索引資源的百分比圖書館訪問量(包括訪問Web存檔)的百分比每次訪問所瀏覽的頁面數(shù)保存至少有一個副本的資源的百分比丟失或損壞的資源的百分比已識別文件格式的資源的百分比已制定保存策略的格式的資源的百分比經(jīng)過病毒檢查的資源的百分比管理指標(biāo)編號1名稱每個已采集URL的成本目標(biāo)評估Web存檔過程的效率。前提條件——如4.6中所述的Web存檔的總成本;——抓取的URL總數(shù)。方法每個已采集URL的成本為:A/B其中:A說明可能意味著高水平的保管。這個指標(biāo)最好用于比較類似規(guī)模和目的的資源集合。指標(biāo)編號2名稱參與Web存檔工作人員的百分比目標(biāo)說明機(jī)構(gòu)對Web存檔的保障程度。前提條件——參與Web存檔工作人員的數(shù)量(FTE);——圖書館工作人員的總數(shù)(FTE)。方法參與Web存檔工作人員的百分比為:A/B*100其中:A是參與Web存檔的圖書館工作人員(FTE)的數(shù)量:遴選、采集、提供訪問、保存;B是圖書館工作人員總數(shù)(FTE),包括永久和臨時的工作人員,以及與項(xiàng)目相關(guān)的工作人員;四舍五入到最接近的整數(shù)。32存檔的全職工作人員,他們花在錄的時間來計(jì)算。說明采集過程的質(zhì)量指標(biāo)編號3名稱在給定時間內(nèi)從實(shí)時Web中消失的目標(biāo)百分比目標(biāo)評估Web存檔的價(jià)值。前提條件——存檔中的目標(biāo)數(shù)量;——存檔中已保存但是實(shí)時Web上已經(jīng)消失的目標(biāo)數(shù)量;第二個數(shù)字可以通過沒有DNS響應(yīng)或404響應(yīng)自動收集,也可以通過人工檢查實(shí)時Web來收集。方法在給定時間內(nèi)從實(shí)時Web中消失的資源百分比為:A/B*100其中:A是消失的目標(biāo)的數(shù)量;B說明最可靠的方法是人工檢查實(shí)時Web。指標(biāo)編號4名稱規(guī)定范圍內(nèi)已存檔目標(biāo)的百分比目標(biāo)評估Web存檔的結(jié)果是否符合任務(wù)要求。前提條件——該機(jī)構(gòu)每年采集的目標(biāo)數(shù)量;——根據(jù)規(guī)定范圍聲明或要求的可采集的目標(biāo)數(shù)量。方法規(guī)定范圍內(nèi)已存檔的百分比為:A/B*100其中:A是圖書館每年采集的目標(biāo)數(shù)量;B是根據(jù)規(guī)定(如法定呈繳)可采集的目標(biāo)數(shù)量;四舍五入到小數(shù)點(diǎn)后一位。說明AFNIC.fr那里獲取信息。指標(biāo)編號5名稱已達(dá)成協(xié)議的請求的百分比或獲得權(quán)利持有者授予許可的百分比目標(biāo)評估許可請求的有效性前提條件——發(fā)送給權(quán)利持有者的協(xié)議或許可請求的數(shù)量;——權(quán)利持有者授予的協(xié)議或許可的數(shù)量。方法協(xié)議或許可請求獲得權(quán)利持有者授予的百分比為:A/B*100其中:33A是指權(quán)利持有者授予的協(xié)議或許可的數(shù)量;B是發(fā)送給權(quán)利持有者的協(xié)議或許可請求的數(shù)量;四舍五入到小數(shù)點(diǎn)后一位。說明高比率表示許可請求活動的成功。同時建議記錄明確拒絕的次數(shù)和未響應(yīng)的次數(shù)。服建設(shè)者的關(guān)鍵論據(jù),并決定分發(fā)信息的最佳渠道。可訪問性和使用指標(biāo)編號6名稱終端用戶可訪問資源的百分比目標(biāo)評估Web存檔的可用性。前提條件——Web存檔中的資源總數(shù);——可在線訪問資源數(shù)量(在線存檔);——可現(xiàn)場訪問資源數(shù)量(灰色存檔);以上可以通過URL或字節(jié)來評估。方法終端用戶可訪問資源的百分比為:(A+A’)/B*100其中:AB說明高比率表示W(wǎng)eb存檔的高可見性或可訪問性。還可以單獨(dú)計(jì)算可在線訪問資源的指標(biāo),以評估終端用戶對資源的直接可用性。應(yīng)給出用于計(jì)算的評估單位,即URL或字節(jié)。指標(biāo)編號7名稱全文索引資源的百分比目標(biāo)評估Web存檔的可搜索性。前提條件——Web存檔中的資源總數(shù);方法全文索引資源的百分比為:A/B*100其中:A是已建立全文索引的資源的數(shù)量;B是Web存檔中的資源總數(shù);四舍五入到小數(shù)點(diǎn)后一位。說明全文搜索大大提高了Web存檔的可訪問性和可用性。應(yīng)給出用于計(jì)算的評估單位,即URL或字節(jié)。指標(biāo)編號8名稱已編目資源的百分比目標(biāo)評估Web存檔的可搜索性和管理水平。前提條件——Web存檔中的目標(biāo)數(shù)量;——有編目記錄的目標(biāo)數(shù)量。方法已編目資源的百分比為:A/B*100其中:34A是有編目記錄的目標(biāo)數(shù)量;B是Web存檔中的目標(biāo)總數(shù);四舍五入到小數(shù)點(diǎn)后一位。說明存檔資源與圖書館的計(jì)算這個指標(biāo)時,建議同時給出資源的采集策略。指標(biāo)編號9名稱年訪問資源的百分比目標(biāo)評估Web存檔實(shí)際使用的廣泛性。前提條件——Web存檔中的域名總數(shù);——在一年中至少有一個頁面被瀏覽的域名數(shù)量。方法年訪問資源的百分比為:A/B*100其中:A是在一年中至少有一個頁面被瀏覽的域名數(shù)量;B是Web存檔中的域名總數(shù);四舍五入到小數(shù)點(diǎn)后一位。說明5詳細(xì)說明并識別有價(jià)值資源的可信樣例,并決定分發(fā)信息的最佳渠道。指標(biāo)編號10名稱圖書館訪問量(包括訪問Web存檔)的百分比目標(biāo)評估圖書館的訪客(現(xiàn)場或在線)對Web存檔的使用情況。前提條件——圖書館訪問總數(shù)(實(shí)地訪問和虛擬訪問);——訪問Web存檔的次數(shù)。方法使用Web存檔的圖書館訪客的百分比為:A/B*10
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 遼寧建筑職業(yè)學(xué)院《有機(jī)化學(xué)Ⅰ》2023-2024學(xué)年第一學(xué)期期末試卷
- 科爾沁藝術(shù)職業(yè)學(xué)院《算法分析與設(shè)計(jì)實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 江蘇理工學(xué)院《視聽節(jié)目策劃》2023-2024學(xué)年第一學(xué)期期末試卷
- 吉林大學(xué)《汽車電工電子技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南農(nóng)業(yè)大學(xué)《烹調(diào)工藝學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖北體育職業(yè)學(xué)院《消費(fèi)者保護(hù)法》2023-2024學(xué)年第一學(xué)期期末試卷
- 【物理】《功》(教學(xué)設(shè)計(jì))-2024-2025學(xué)年人教版(2024)初中物理八年級下冊
- 高考物理總復(fù)習(xí)《帶電粒子在交變場中的運(yùn)動》專項(xiàng)測試卷含答案
- 重慶工程職業(yè)技術(shù)學(xué)院《分布式系統(tǒng)與云計(jì)算》2023-2024學(xué)年第一學(xué)期期末試卷
- 正德職業(yè)技術(shù)學(xué)院《學(xué)習(xí)科學(xué)基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 內(nèi)科護(hù)理學(xué)-第二章-呼吸系統(tǒng)疾病病人的護(hù)理試題
- 班組長培訓(xùn)之品質(zhì)意識培訓(xùn)
- 道德經(jīng)中德文對照版
- 公路工程隨機(jī)抽樣一覽表(路基路面現(xiàn)場測試隨機(jī)選點(diǎn)方法自動計(jì)算)
- 2021版中醫(yī)癥候醫(yī)保對應(yīng)中醫(yī)癥候醫(yī)保2
- 2023年山東省青島市中考化學(xué)試題(含答案解析)
- 安徽華塑股份有限公司年產(chǎn) 4萬噸氯化石蠟項(xiàng)目環(huán)境影響報(bào)告書
- 世界奧林匹克數(shù)學(xué)競賽6年級試題
- 藥用植物學(xué)-課件
- 文化差異與跨文化交際課件(完整版)
- 國貨彩瞳美妝化消費(fèi)趨勢洞察報(bào)告
評論
0/150
提交評論