0

我可以通过以下方式获得 Common Crawl 的列表:

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-09/wet.paths.gz

如何使用 Common Crawl News Dataset 做到这一点?

我尝试了不同的选项,但总是出错:

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS-2017-09/warc.paths.gz

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS/2017/09/warc.paths.gz

4

1 回答 1

1

由于每隔几个小时就会将一个新的 WARC 文件添加到新闻数据集中,因此静态文件列表没有意义。相反,您可以使用AWS CLI获取文件列表- 按年或月的任何子集,例如

aws --no-sign-request s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/2017/09/

另见新闻数据发布公告

于 2021-03-21T15:34:12.137 回答