amazon-web-services - 如何使用 HTTP 为 Common Crawl News Dataset 获取 WARC 文件列表？

Question

我可以通过以下方式获得 Common Crawl 的列表：

如何使用 Common Crawl News Dataset 做到这一点？

我尝试了不同的选项，但总是出错：

score 1 · Accepted Answer

由于每隔几个小时就会将一个新的 WARC 文件添加到新闻数据集中，因此静态文件列表没有意义。相反，您可以使用AWS CLI获取文件列表- 按年或月的任何子集，例如

aws --no-sign-request s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/2017/09/

1 回答 1