我已经看到下面的错误消息很长一段时间了,但无法弄清楚导致失败的原因。
错误:
concurrent.futures._base.CancelledError: ('sort_index-f23b0553686b95f2d91d4a3fda85f229', 7)
在重新启动 dask 集群时,它会成功运行。
我已经看到下面的错误消息很长一段时间了,但无法弄清楚导致失败的原因。
错误:
concurrent.futures._base.CancelledError: ('sort_index-f23b0553686b95f2d91d4a3fda85f229', 7)
在重新启动 dask 集群时,它会成功运行。
如果运行 adask-cloudprovider
ECSCluster
或可能FargateCluster
是concurrent.futures._base.CancelledError
由于计算中没有输出(记录或其他方式)到Client
. 在这些情况下,由于缺少与客户端的交互,调度程序将自己视为“空闲”,并在配置的时间段后超时cloudprovider.ecs.scheduler_timeout
,默认为 5 分钟。CancelledError 错误消息具有误导性,但如果您查看调度程序任务本身的日志,它将记录空闲超时。
解决方案是设置scheduler_timeout
为更高的值,通过配置或直接传递给ECSCluster
/FargateCluster
构造函数。