如何提高纱线的故障容限?在繁忙的集群中,我的工作由于失败太多而失败。大多数失败是由于Executor lost
抢占式基地造成的。
2 回答
1
如果您启用了抢占,您确实应该使用外部随机播放服务来避免这些问题。否则真的没有什么可以做的。
https://issues.apache.org/jira/browse/SPARK-14209 - JIRA 谈论。
于 2019-02-15T15:21:58.977 回答
0
关闭纱线抢占?还是运行较小的作业以避免完全重新计算?
于 2019-02-15T13:02:59.897 回答