dataset - 通过 http 将 AWS Common Crawl 的小样本下载到本地机器

Question

我有兴趣下载 AWS Common Crawl 的一小部分的原始文本，即 10 的兆顶部，作为信息检索测试的语料库。

Common Crawl 页面建议我需要一个 S3 帐户和/或 Java 程序来访问它，然后我正在寻找筛选 100 Gb 的数据，而我只需要几十兆。

这里有一些代码，但它需要一个 S3 帐户和访问权限（尽管我确实喜欢 Python）。

有没有一种方法可以形成一个 http(s) URL，让我得到一个很小的横截面来满足我的目的？我相信我查看了一个页面，该页面建议了一种使用日、小时、分钟来构建目录的方法，但我似乎无法再次找到该页面。

谢谢！

score 8 · Accepted Answer

这很容易：只需从任何每月抓取中随机选择一个 WARC（WAT 或 WET）文件。抓取在这里宣布：https ://commoncrawl.org/connect/blog/

您失败了，因为每个 WARC/WAT/WET 文件本身就是一个随机样本。需要更多数据：随机选择更多文件。

1 回答 1