0

在 Common Crawl 中,可以多次获取相同的 URL。

例如,Reddit 博客文章可以在创建时被抓取,然后在添加后续评论时被抓取。

有没有办法找到一个给定的 URL 何时被 Common Crawl 首次抓取?

4

1 回答 1

1

URL 索引(CDXcolumnar)包括带有捕获时间的字段/列。只需搜索 URL,记录所有捕获,然后查看有关添加评论的捕获页面内容。索引还包括允许使用 HTTP 范围请求获取 WARC 记录的 WARC 文件名、记录偏移量和长度。

于 2021-03-06T07:32:01.483 回答