下面项目中使用的常用爬取索引文件
https://github.com/trivio/common_crawl_index/blob/master/bin/remote_copy
mmap = BotoMap(s3_anon, src_bucket, '/common-crawl/projects/url-index/url-index.1356128792'
)
是部分的。
我希望在我的项目中使用完整的索引文件(APRIL-2015 抓取数据),该项目使用上述项目作为基础。
我在哪里可以下载整个索引文件?
在这里,汤姆莫里斯指出
索引服务使用的索引文件也可供下载。