1

我想解析从普通爬网下载的 warc.gz 文件。我有一个要求,我必须手动解析新闻 warc.gz 文件。两条记录之间的分隔符是什么?

4

2 回答 2

2

我认为您无法手动解析 gzip 压缩文件。您最好的选择是使用索引找出每条记录的偏移量和长度。有关更多信息,请参阅api 文档指南

如果您手动解析 WARC 文件,请先解压缩 .gz 文件。

WARC 记录由两个换行符分隔

WARC 格式文件是一个或多个 WARC 记录的简单串联。一条记录由一个记录头、一个记录内容块和两个换行符组成。(根据其他 Internet 标准,换行符是 CRLF。)

于 2017-08-29T12:27:00.980 回答
0

WARC 文件中没有明确的记录分隔符。记录始终以 '\r\n\r\n' 结尾,但这也用于将记录头与记录体分开,并且可能出现在 HTML 文档中的任何位置。WARC 记录的长度由Content-Length记录头中的 定义。

要使用 PySpark 处理 Common Crawl WARC 文件,请参阅cc-pyspark

于 2017-09-11T09:58:17.933 回答