本标准规定了WARC文件格式:
--存储来自于主流互联网应用层协议(如HTTP,DNS和FTP)的有效载荷内容和控制信息;
--存储与其他已存储数据(如主题分类、语言、编码)相关的任意元数据;
--支持数据压缩,且保证数据记录的完整性;
--存储来自收割协议的全部控制信息(如请求标头信息),而不仅仅是响应信息;
--存储与其他已存储数据相关的数据转换结果;
--存储与其他已存储数据相关的重复监测活动(当相同或者大体相似的资源出现时,可以减少存储消耗);
--在不中断当前功能的情况下进行扩展;
--支持对超长记录在所需处进行截断或分段操作。
信息和文献 WARC文件格式标准号为GB/T 33994-2017,发布日期:2017-07-12、实施日期:2018-02-01,所属行业分类信息技术、办公机械。
本文网址:https://www.171zz.com/document/270539.html