我有兴趣下载 AWS Common Crawl 的一小部分的原始文本,即 10 的兆顶部,作为信息检索测试的语料库。
Common Crawl 页面建议我需要一个 S3 帐户和/或 Java 程序来访问它,然后我正在寻找筛选 100 Gb 的数据,而我只需要几十兆。
这里有一些代码,但它需要一个 S3 帐户和访问权限(尽管我确实喜欢 Python)。
有没有一种方法可以形成一个 http(s) URL,让我得到一个很小的横截面来满足我的目的?我相信我查看了一个页面,该页面建议了一种使用日、小时、分钟来构建目录的方法,但我似乎无法再次找到该页面。
谢谢!