Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我试图弄清楚如何直接从 EMR 映射任务写入 s3 存储桶。我想运行一个 python 流作业,它会从 Internet 获取一些数据并将其保存到 s3 - 而不将其返回以减少作业。任何人都可以帮助我吗?
为什么不直接将 MR 作业的输出设置为 s3 目录并告诉它没有减速器:
./elastic-mapreduce ..... --output s3n://bucket/outputfiles --reducer NONE
那应该做你想做的事。
然后你的脚本可以做这样的事情(对不起,红宝石):
STDIN.each do |url| puts extract_data(url) end