- 現(xiàn)行
- 正在執(zhí)行有效
- 2017-07-12 頒布
- 2018-02-01 實(shí)施
下載本文檔
文檔簡介
ICS3524030
A14..
中華人民共和國國家標(biāo)準(zhǔn)
GB/T33994—2017/ISO285002009
:
信息和文獻(xiàn)WARC文件格式
Informationanddocumentation—WARCfileformat
(ISO28500:2009,IDT)
2017-07-12發(fā)布2018-02-01實(shí)施
中華人民共和國國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局發(fā)布
中國國家標(biāo)準(zhǔn)化管理委員會
GB/T33994—2017/ISO285002009
:
前言
本標(biāo)準(zhǔn)按照給出的規(guī)則起草
GB/T1.1—2009。
本標(biāo)準(zhǔn)使用翻譯法等同采用信息和文獻(xiàn)文件格式
ISO28500:2009《WARC》。
與本標(biāo)準(zhǔn)中規(guī)范性引用的國際文件有一致性對應(yīng)關(guān)系的我國文件如下
:
數(shù)據(jù)元和交換格式信息交換日期和時間表示法
———GB/T7408—2005(ISO8601:2000,
IDT)。
本標(biāo)準(zhǔn)做了下列編輯性修改
:
增加了縮略語見
———:LWS、MIME、US-ASCII(3.2);
為了增強(qiáng)易讀性在保留國際標(biāo)準(zhǔn)中示例的基礎(chǔ)上將部分示例替換為國內(nèi)示例見附錄
———,,(B)。
本標(biāo)準(zhǔn)由全國信息與文獻(xiàn)標(biāo)準(zhǔn)化技術(shù)委員會提出并歸口
(SAC/TC4)。
本標(biāo)準(zhǔn)起草單位國家圖書館中國科學(xué)院文獻(xiàn)情報中心中國國防科技信息中心中國科技信息研
:、、、
究所北京萬方數(shù)據(jù)股份有限公司
、。
本標(biāo)準(zhǔn)主要起草人毛雅君李春明吳振新真溱曲云鵬張曉丹張?zhí)m楊賀敦文杰張彪
:、、、、、、、、、。
Ⅰ
GB/T33994—2017/ISO285002009
:
引言
每天網(wǎng)站和網(wǎng)頁從互聯(lián)網(wǎng)上產(chǎn)生或消失十多年來記憶存儲組織嘗試用網(wǎng)絡(luò)規(guī)模工具如網(wǎng)絡(luò)
,。,(
爬蟲尋找最適宜采集并跟蹤記錄海量的重要信息的方法與此同時記憶存儲組織對保存非網(wǎng)絡(luò)抓取
)。,
的數(shù)字化資源的需求也與日俱增如整套電子期刊或環(huán)境感應(yīng)設(shè)備生成的數(shù)據(jù)出現(xiàn)了一種需求即
(,)。,
希望能有一種文件格式通過一個文件簡單并安全地承載大量組成文件的數(shù)據(jù)對象以便進(jìn)行存儲管
,,、
理和交換
。
網(wǎng)絡(luò)存檔文件格式提供了一個由多個資源記錄數(shù)據(jù)對象連接成一個長
WARC(WebARChive,)()
文件的協(xié)議其中每個資源記錄由一組簡單文本標(biāo)頭和任意數(shù)據(jù)內(nèi)容塊構(gòu)成格式是文
,。WARCARC
件格式的擴(kuò)展格式將作為組織管理和儲存采集來自網(wǎng)絡(luò)和其他數(shù)以億計的數(shù)字資源的一種
。WARC、
標(biāo)準(zhǔn)可用于構(gòu)建收割如網(wǎng)絡(luò)爬蟲一種開源軟件管理訪問和交換內(nèi)容等各種應(yīng)用
,(Heritrix,)、、。
除了用記錄的原始內(nèi)容外擴(kuò)展的格式還容納相關(guān)的二次級內(nèi)容如分配的元數(shù)據(jù)
ARC,WARC,、
縮減的重復(fù)檢測活動后期轉(zhuǎn)換及大型資源的切分等
、。
Ⅱ
GB/T33994—2017/ISO285002009
:
信息和文獻(xiàn)WARC文件格式
1范圍
本標(biāo)準(zhǔn)規(guī)定了文件格式
WARC:
存儲來自于主流互聯(lián)網(wǎng)應(yīng)用層協(xié)議如和的有效載荷內(nèi)容和控制信息
———(HTTP、DNSFTP);
存儲與其他已存儲數(shù)據(jù)如主題分類語言編碼相關(guān)的任意元數(shù)據(jù)
———(、、);
支持?jǐn)?shù)據(jù)壓縮且保證數(shù)據(jù)記錄的完整性
———,;
存儲來自收割協(xié)議的全部控制信息如請求標(biāo)頭信息而不僅僅是響應(yīng)信息
———(),;
存儲與其他已存儲數(shù)據(jù)相關(guān)的數(shù)據(jù)轉(zhuǎn)換結(jié)果
———;
存儲與其他已存儲數(shù)據(jù)相關(guān)的重復(fù)監(jiān)測活動當(dāng)相同或者大體相似的資源出現(xiàn)時可以減少存
———(,
儲消耗
);
在不中斷當(dāng)前功能的情況下進(jìn)行擴(kuò)展
———;
支持對超長記錄在所需處進(jìn)行截斷或分段操作
———。
2規(guī)范性引用文件
下列文件對于本文件的應(yīng)用是必不可少的凡是注日期的引用文件僅注日期的版本適用于本文
。,
件凡是不注日期的引用文件其最新版本包括所有的修改單適用于本文件
。,()。
數(shù)據(jù)元和交換格式信息交換日期和時間表示法
ISO8601(Dataelementsandinterchange
formats—Informationinterchange—Representationofdatesandtimes)
域名實(shí)現(xiàn)及標(biāo)準(zhǔn)
RFC1035(Domainnames—Implementationandspecification)
地址架構(gòu)
RFC1884IPV6(IPVersion6AddressingArchitecture)
多用途互聯(lián)網(wǎng)郵件擴(kuò)展第部分互聯(lián)網(wǎng)消息正文的格式
RFC2045(MIME)1:[Multipurpose
InternetMailExtensions(MIME)PartOne:FormatofInternetMessageBodies]
分離域名解析系統(tǒng)信息
RFC2540(DNS)[DetachedDomainNameSystem(DNS)Information]
超文本傳輸協(xié)議
RFC2616—HTTP/1.1(HypertextTransferProtocol—HTTP/1.1)
互聯(lián)網(wǎng)消息格式
RFC2822(InternetMessageFormat)
的一種轉(zhuǎn)換格式
RFC3629UTF-8———ISO10646(UTF-8,atransformationformatofISO10646)
溫馨提示
- 1. 本站所提供的標(biāo)準(zhǔn)文本僅供個人學(xué)習(xí)、研究之用,未經(jīng)授權(quán),嚴(yán)禁復(fù)制、發(fā)行、匯編、翻譯或網(wǎng)絡(luò)傳播等,侵權(quán)必究。
- 2. 本站所提供的標(biāo)準(zhǔn)均為PDF格式電子版文本(可閱讀打?。驍?shù)字商品的特殊性,一經(jīng)售出,不提供退換貨服務(wù)。
- 3. 標(biāo)準(zhǔn)文檔要求電子版與印刷版保持一致,所以下載的文檔中可能包含空白頁,非文檔質(zhì)量問題。
最新文檔
- 智慧醫(yī)療行業(yè)三年發(fā)展洞察報告
- 工業(yè)廢棄物處理行業(yè)市場機(jī)遇分析
- 區(qū)塊鏈虛擬現(xiàn)實(shí)行業(yè)風(fēng)險投資態(tài)勢及投融資策略指引報告
- 微生物基因工程行業(yè)相關(guān)項(xiàng)目診斷報告
- 國際貨運(yùn)代理行業(yè)發(fā)展建議
- 文化創(chuàng)意產(chǎn)品品牌推廣行業(yè)營銷策略方案
- 物聯(lián)網(wǎng)智能化智慧礦山行業(yè)經(jīng)營分析報告
- 多功能面粉科技行業(yè)競爭格局及投資價值分析報告
- 無人零售 便利店行業(yè)市場調(diào)研分析報告
- 銀行電子銀行行業(yè)市場特點(diǎn)分析
- 項(xiàng)目監(jiān)理費(fèi)(管理費(fèi)) 結(jié)算單
- 防電纜溝坍塌保證措施
- 倒立擺課程設(shè)計
- 國潮仙鶴復(fù)古中國風(fēng)工作計劃匯報活動策劃PPT模板
- 造林工程監(jiān)理細(xì)則
- DB44∕T 1458-2014 云計算基礎(chǔ)設(shè)施系統(tǒng)安全規(guī)范
- DB44∕T 1342-2014 云計算數(shù)據(jù)安全規(guī)范
- 2022年一年級道德與法治上冊全冊教案北師大版
- 皮膚衰老過程
- 關(guān)于蹦極的受力分析及數(shù)學(xué)建模
- 幼兒園幼小銜接看圖說話課件ppt
評論
0/150
提交評論