在 EMR 5.1.0 上运行 PySpark 2 作业作为一个步骤。即使在脚本完成了_SUCCESS
写入 S3 的文件和 Spark UI 显示作业已完成后,EMR 仍将步骤显示为“正在运行”。我已经等了一个多小时,看看 Spark 是否只是试图清理自己,但该步骤从未显示为“已完成”。日志中写的最后一件事是:
INFO MultipartUploadOutputStream: close closed:false s3://mybucket/some/path/_SUCCESS
INFO DefaultWriterContainer: Job job_201611181653_0000 committed.
INFO ContextCleaner: Cleaned accumulator 0
Spark 1.6 没有这个问题。我尝试了一堆不同的hadoop-aws
罐子aws-java-sdk
无济于事。
我正在使用默认的 Spark 2.0 配置,因此我认为不会编写任何其他类似元数据的内容。此外,数据的大小似乎对这个问题没有影响。