WARC 文件中的记录数

Posted

技术标签:

【中文标题】WARC 文件中的记录数【英文标题】:Number of records in WARC file 【发布时间】:2021-01-22 16:15:06 【问题描述】:

我目前正在解析 CommonCrawl 语料库中的 WARC 文件,我想预先知道有多少条记录,而无需遍历所有 WARC 记录。

WARC 1.1 标准是否定义了此类信息?

【问题讨论】:

关闭这个问题的原因是什么? 【参考方案1】:

WARC 标准没有定义一种标准方式来指示 WARC 文件本身中的 WARC 记录数。 Common Crawl WARC 文件中的响应记录数通常在 30,000 到 50,000 之间 - 请注意,还有请求和元数据记录。 WARC 标准推荐使用1 GB as target size of WARC files,它对记录数量进行了自然限制。

【讨论】:

以上是关于WARC 文件中的记录数的主要内容,如果未能解决你的问题,请参考以下文章

Python:如何拆分WARC文件?

用python打开warc文件

如何在python3中使用lzma(* .warc.xz)压缩warc记录?

如何解析 WARC 文件?

用python读取warc文件

在StormCrawler上获取拓扑以正确编写warc文件