• 現(xiàn)行
  • 正在執(zhí)行有效
  • 2017-07-12 頒布
  • 2018-02-01 實(shí)施
?正版授權(quán)
GB/T 33994-2017信息和文獻(xiàn)WARC文件格式_第1頁
GB/T 33994-2017信息和文獻(xiàn)WARC文件格式_第2頁
GB/T 33994-2017信息和文獻(xiàn)WARC文件格式_第3頁
GB/T 33994-2017信息和文獻(xiàn)WARC文件格式_第4頁
免費(fèi)預(yù)覽已結(jié)束,剩余28頁可下載查看

下載本文檔

文檔簡介

ICS3524030

A14..

中華人民共和國國家標(biāo)準(zhǔn)

GB/T33994—2017/ISO285002009

:

信息和文獻(xiàn)WARC文件格式

Informationanddocumentation—WARCfileformat

(ISO28500:2009,IDT)

2017-07-12發(fā)布2018-02-01實(shí)施

中華人民共和國國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局發(fā)布

中國國家標(biāo)準(zhǔn)化管理委員會

GB/T33994—2017/ISO285002009

:

前言

本標(biāo)準(zhǔn)按照給出的規(guī)則起草

GB/T1.1—2009。

本標(biāo)準(zhǔn)使用翻譯法等同采用信息和文獻(xiàn)文件格式

ISO28500:2009《WARC》。

與本標(biāo)準(zhǔn)中規(guī)范性引用的國際文件有一致性對應(yīng)關(guān)系的我國文件如下

:

數(shù)據(jù)元和交換格式信息交換日期和時間表示法

———GB/T7408—2005(ISO8601:2000,

IDT)。

本標(biāo)準(zhǔn)做了下列編輯性修改

:

增加了縮略語見

———:LWS、MIME、US-ASCII(3.2);

為了增強(qiáng)易讀性在保留國際標(biāo)準(zhǔn)中示例的基礎(chǔ)上將部分示例替換為國內(nèi)示例見附錄

———,,(B)。

本標(biāo)準(zhǔn)由全國信息與文獻(xiàn)標(biāo)準(zhǔn)化技術(shù)委員會提出并歸口

(SAC/TC4)。

本標(biāo)準(zhǔn)起草單位國家圖書館中國科學(xué)院文獻(xiàn)情報中心中國國防科技信息中心中國科技信息研

:、、、

究所北京萬方數(shù)據(jù)股份有限公司

、。

本標(biāo)準(zhǔn)主要起草人毛雅君李春明吳振新真溱曲云鵬張曉丹張?zhí)m楊賀敦文杰張彪

:、、、、、、、、、。

GB/T33994—2017/ISO285002009

:

引言

每天網(wǎng)站和網(wǎng)頁從互聯(lián)網(wǎng)上產(chǎn)生或消失十多年來記憶存儲組織嘗試用網(wǎng)絡(luò)規(guī)模工具如網(wǎng)絡(luò)

,。,(

爬蟲尋找最適宜采集并跟蹤記錄海量的重要信息的方法與此同時記憶存儲組織對保存非網(wǎng)絡(luò)抓取

)。,

的數(shù)字化資源的需求也與日俱增如整套電子期刊或環(huán)境感應(yīng)設(shè)備生成的數(shù)據(jù)出現(xiàn)了一種需求即

(,)。,

希望能有一種文件格式通過一個文件簡單并安全地承載大量組成文件的數(shù)據(jù)對象以便進(jìn)行存儲管

,,、

理和交換

。

網(wǎng)絡(luò)存檔文件格式提供了一個由多個資源記錄數(shù)據(jù)對象連接成一個長

WARC(WebARChive,)()

文件的協(xié)議其中每個資源記錄由一組簡單文本標(biāo)頭和任意數(shù)據(jù)內(nèi)容塊構(gòu)成格式是文

,。WARCARC

件格式的擴(kuò)展格式將作為組織管理和儲存采集來自網(wǎng)絡(luò)和其他數(shù)以億計的數(shù)字資源的一種

。WARC、

標(biāo)準(zhǔn)可用于構(gòu)建收割如網(wǎng)絡(luò)爬蟲一種開源軟件管理訪問和交換內(nèi)容等各種應(yīng)用

,(Heritrix,)、、。

除了用記錄的原始內(nèi)容外擴(kuò)展的格式還容納相關(guān)的二次級內(nèi)容如分配的元數(shù)據(jù)

ARC,WARC,、

縮減的重復(fù)檢測活動后期轉(zhuǎn)換及大型資源的切分等

、。

GB/T33994—2017/ISO285002009

:

信息和文獻(xiàn)WARC文件格式

1范圍

本標(biāo)準(zhǔn)規(guī)定了文件格式

WARC:

存儲來自于主流互聯(lián)網(wǎng)應(yīng)用層協(xié)議如和的有效載荷內(nèi)容和控制信息

———(HTTP、DNSFTP);

存儲與其他已存儲數(shù)據(jù)如主題分類語言編碼相關(guān)的任意元數(shù)據(jù)

———(、、);

支持?jǐn)?shù)據(jù)壓縮且保證數(shù)據(jù)記錄的完整性

———,;

存儲來自收割協(xié)議的全部控制信息如請求標(biāo)頭信息而不僅僅是響應(yīng)信息

———(),;

存儲與其他已存儲數(shù)據(jù)相關(guān)的數(shù)據(jù)轉(zhuǎn)換結(jié)果

———;

存儲與其他已存儲數(shù)據(jù)相關(guān)的重復(fù)監(jiān)測活動當(dāng)相同或者大體相似的資源出現(xiàn)時可以減少存

———(,

儲消耗

);

在不中斷當(dāng)前功能的情況下進(jìn)行擴(kuò)展

———;

支持對超長記錄在所需處進(jìn)行截斷或分段操作

———。

2規(guī)范性引用文件

下列文件對于本文件的應(yīng)用是必不可少的凡是注日期的引用文件僅注日期的版本適用于本文

。,

件凡是不注日期的引用文件其最新版本包括所有的修改單適用于本文件

。,()。

數(shù)據(jù)元和交換格式信息交換日期和時間表示法

ISO8601(Dataelementsandinterchange

formats—Informationinterchange—Representationofdatesandtimes)

域名實(shí)現(xiàn)及標(biāo)準(zhǔn)

RFC1035(Domainnames—Implementationandspecification)

地址架構(gòu)

RFC1884IPV6(IPVersion6AddressingArchitecture)

多用途互聯(lián)網(wǎng)郵件擴(kuò)展第部分互聯(lián)網(wǎng)消息正文的格式

RFC2045(MIME)1:[Multipurpose

InternetMailExtensions(MIME)PartOne:FormatofInternetMessageBodies]

分離域名解析系統(tǒng)信息

RFC2540(DNS)[DetachedDomainNameSystem(DNS)Information]

超文本傳輸協(xié)議

RFC2616—HTTP/1.1(HypertextTransferProtocol—HTTP/1.1)

互聯(lián)網(wǎng)消息格式

RFC2822(InternetMessageFormat)

的一種轉(zhuǎn)換格式

RFC3629UTF-8———ISO10646(UTF-8,atransformationformatofISO10646)

溫馨提示

  • 1. 本站所提供的標(biāo)準(zhǔn)文本僅供個人學(xué)習(xí)、研究之用,未經(jīng)授權(quán),嚴(yán)禁復(fù)制、發(fā)行、匯編、翻譯或網(wǎng)絡(luò)傳播等,侵權(quán)必究。
  • 2. 本站所提供的標(biāo)準(zhǔn)均為PDF格式電子版文本(可閱讀打?。驍?shù)字商品的特殊性,一經(jīng)售出,不提供退換貨服務(wù)。
  • 3. 標(biāo)準(zhǔn)文檔要求電子版與印刷版保持一致,所以下載的文檔中可能包含空白頁,非文檔質(zhì)量問題。

評論

0/150

提交評論