Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
有没有一种方法可以将我们的 Apache Crunch 输出写入 S3 存储桶。在 crunch pipeline write 中有一个方法,它以 Target 作为参数。有没有办法将 S3 添加为目标来编写 crunch 方法。
您不能只在 PCollection 上使用 write 方法并将其提供给您的 S3 位置吗?
PCollection<String> items = ...; items.write(To.avroFile("s3://bucket/prefix"); pipeline.done();
这基本上就是我们的做法,但是我们在 EMR 中运行。为了从我们的本地集群迁移数据,我们使用 Hadoop dist-cp 命令。