我注意到当输入位置是 S3 中的文件时,在调用 EMR 作业和实际开始数据的 mapreduce 处理之间有很长的等待时间。我的问题是,EMR 是直接在本地 S3 文件系统中的数据上运行,还是将数据复制到已配置的 EC2 机器(在 EMR 集群中)的 HDFS 集群中,在这种情况下需要大量复制数据的时间?
我注意到当输入位置是 S3 中的文件时,在调用 EMR 作业和实际开始数据的 mapreduce 处理之间有很长的等待时间。我的问题是,EMR 是直接在本地 S3 文件系统中的数据上运行,还是将数据复制到已配置的 EC2 机器(在 EMR 集群中)的 HDFS 集群中,在这种情况下需要大量复制数据的时间?