2

下面项目中使用的常用爬取索引文件

https://github.com/trivio/common_crawl_index/blob/master/bin/remote_copy

mmap = BotoMap(s3_anon, src_bucket, '/common-crawl/projects/url-index/url-index.1356128792')

部分的。

我希望在我的项目中使用完整的索引文件(APRIL-2015 抓取数据),该项目使用上述项目作为基础。

我在哪里可以下载整个索引文件?

在这里,汤姆莫里斯指出

索引服务使用的索引文件也可供下载。

4

1 回答 1

4

常见的爬网索引文件可在以下位置公开获得s3://commoncrawl/cc-index/collections/

您可以通过aws 命令行查看所有可用的爬网索引:aws s3 ls s3://commoncrawl/cc-index/collections/

2015 年 4 月的索引文件位于s3://commoncrawl/cc-index/collections/CC-MAIN-2015-18/indexes/

如果你想*.gz通过 http 协议下载索引文件,你可以这样做:

https://commoncrawl.s3.amazonaws.com/cc-index/collections/CC-MAIN-2015-18/indexes/cdx-00000.gz

cdx 文件大多从cdx-00000.gzcdx-00299.gz,因此完整的索引包含在 300 个文件中。

于 2016-07-27T10:11:36.037 回答