11

我已经看到下面的错误消息很长一段时间了,但无法弄清楚导致失败的原因。

错误:

concurrent.futures._base.CancelledError: ('sort_index-f23b0553686b95f2d91d4a3fda85f229', 7)

在重新启动 dask 集群时,它会成功运行。

4

1 回答 1

1

如果运行 adask-cloudprovider ECSCluster或可能FargateClusterconcurrent.futures._base.CancelledError由于计算中没有输出(记录或其他方式)到Client. 在这些情况下,由于缺少与客户端的交互,调度程序将自己视为“空闲”,并在配置的时间段后超时cloudprovider.ecs.scheduler_timeout,默认为 5 分钟。CancelledError 错误消息具有误导性,但如果您查看调度程序任务本身的日志,它将记录空闲超时。

解决方案是设置scheduler_timeout为更高的值,通过配置或直接传递给ECSCluster/FargateCluster构造函数。

于 2021-06-22T07:57:24.070 回答