java - 如何使用 http 请求将 S3 中的多个 gzip 文件读入单个 RDD？

Question

我必须像这样下载许多存储在 S3 上的 gzip 文件：

crawl-data/CC-MAIN-2018-43/segments/1539583508988.18/robotstxt/CC-MAIN-20181015080248-20181015101748-00000.warc.gz
crawl-data/CC-MAIN-2018-43/segments/1539583508988.18/robotstxt/CC-MAIN-20181015080248-20181015101748-00001.warc.gz

要下载它们，您必须添加前缀https://commoncrawl.s3.amazonaws.com/

我必须下载并解压缩文件，然后将内容组装为单个 RDD。

与此类似的东西：

JavaRDD<String> text = 
    sc.textFile("https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2018-43/segments/1539583508988.18/robotstxt/CC-MAIN-20181015080248-20181015101748-00000.warc.gz");

我想用火花做这个代码：

    for (String key : keys) {
        object = s3.getObject(new GetObjectRequest(bucketName, key));

        gzipStream = new GZIPInputStream(object.getObjectContent());
        decoder = new InputStreamReader(gzipStream);
        buffered = new BufferedReader(decoder);

        sitemaps = new ArrayList<>();

        String line = buffered.readLine();

        while (line != null) {
            if (line.matches("Sitemap:.*")) {
                sitemaps.add(line);
            }
            line = buffered.readLine();
        }

score 0 · Accepted Answer

要从 S3 读取内容，您可以执行以下操作：

sc.textFiles("s3n://path/to/dir")

如果dir包含您的 gzip 文件，它们将被压缩并组合成一个 RDD。如果您的文件不直接位于目录的根目录，如下所示：

/root
  /a
    f1.gz
    f2.gz
  /b
    f3.gz

甚至这个：

/root
  f3.gz
  /a
    f1.gz
    f2.gz

那么你应该像这样使用通配符sc.textFiles("s3n://path/to/dir/*")，spark 将递归地查找文件dir及其子目录。

不过要小心这一点。通配符将起作用，但您可能会在生产中的 S3 上遇到延迟问题，并且可能希望使用您检索路径的 AmazonS3Client。

java - 如何使用 http 请求将 S3 中的多个 gzip 文件读入单个 RDD？

1 回答 1

Related

Reference