amazon-s3 - 如何将 Apache Crunch 的输出写入 Amazon S3 存储桶

Question

有没有一种方法可以将我们的 Apache Crunch 输出写入 S3 存储桶。在 crunch pipeline write 中有一个方法，它以 Target 作为参数。有没有办法将 S3 添加为目标来编写 crunch 方法。

score 1 · Accepted Answer

您不能只在 PCollection 上使用 write 方法并将其提供给您的 S3 位置吗？

PCollection<String> items = ...;
items.write(To.avroFile("s3://bucket/prefix");
pipeline.done();

这基本上就是我们的做法，但是我们在 EMR 中运行。为了从我们的本地集群迁移数据，我们使用 Hadoop dist-cp 命令。

1 回答 1