我想解析从普通爬网下载的 warc.gz 文件。我有一个要求,我必须手动解析新闻 warc.gz 文件。两条记录之间的分隔符是什么?
2 回答
0
WARC 文件中没有明确的记录分隔符。记录始终以 '\r\n\r\n' 结尾,但这也用于将记录头与记录体分开,并且可能出现在 HTML 文档中的任何位置。WARC 记录的长度由Content-Length
记录头中的 定义。
要使用 PySpark 处理 Common Crawl WARC 文件,请参阅cc-pyspark。
于 2017-09-11T09:58:17.933 回答