apache-spark - 由于 Executor 丢失，Shuffle 阶段失败

Question

当我的 spark 作业失败时，我收到以下错误**"org.apache.spark.shuffle.FetchFailedException: The relative remote executor(Id: 21), which maintains the block data to fetch is dead."**

我的 Spark 工作概览

输入大小约为 35 GB

我已经广播将所有较小的表与母表连接成 a dataframe1，然后我将每个大表加盐，然后再dataframe1加入dataframe1（左表）。

使用的配置文件：

@configure(profile=[
     'EXECUTOR_MEMORY_LARGE',
     'NUM_EXECUTORS_32',
     'DRIVER_MEMORY_LARGE',
     'SHUFFLE_PARTITIONS_LARGE'
])

使用上述方法和配置文件，我能够将运行时间降低 50%，但由于 Executor Loss问题，我仍然遇到 Shuffle Stage Failing。

有什么办法可以解决这个问题吗？

score 1 · Accepted Answer

您可以尝试多种方法：

广播联接：如果您使用广播提示来联接多个较小的表，那么生成的表（许多较小的表）可能太大而无法容纳在每个执行程序内存中。因此，您需要查看 dataframe1 的总大小。
35GB真的不算大。还可以尝试配置文件“EXECUTOR_CORES_MEDIUM”，它确实增加了数据计算的并行性。使用动态分配（35GB 应该可以使用 16 个执行程序）而不是静态分配。如果一次没有 32 个执行器可用，则构建不会开始。“DRIVER_MEMORY_MEDIUM”应该足够了。
Spark 3.0 通过自适应查询执行自行处理倾斜连接。所以，你不需要使用盐渍技术。有一个名为“ADAPTIVE_ENABLED”的配置文件，您可以使用代工厂。自适应查询执行的其他设置，您必须使用 Foundry 随时可用的“ctx”火花上下文对象手动设置。

AQE 的一些参考资料： https://docs.microsoft.com/en-us/azure/databricks/spark/latest/spark-sql/aqe https://spark.apache.org/docs/latest/sql-performance- tune.html#adaptive-query-execution

apache-spark - 由于 Executor 丢失，Shuffle 阶段失败

1 回答 1

Related

Reference