我们正在使用气流 kubernetes 执行器,并且在大多数情况下它工作得很好。虽然通常 pod 在完成任务后会终止并消失,但有时会发生“某些事情”,这些已完成的 pod 最终会永远存在。或者直到我们手动杀死它们。
当我查看我们的日志时,对于这些卡住的 pod,我看到一个又一个条目,如下所示:
Failed to adopt pod ap127331workitemhistorystreamfilifilisit.5e10fd80bbda40df8e7af5c21da88fea. Reason: (422)
HTTP response body: {"kind":"Status","apiVersion":"v1","metadata":{},"status":"Failure","message":"Pod \"ap127331workitemhistorystreamfilifilisit.5e10fd80bbda40df8e7af5c21da88fea\" is invalid: spec: Forbidden: pod updates may not change fields other than `spec.containers[*].image`, `spec.initContainers[*].image`, `spec.activeDeadlineSeconds` or `spec.tolerations` (only additions to existing tolerations)
我似乎找不到某些 pod 工作正常而其他 pod 卡住的任何押韵或原因。所有 DAG 和任务都会随机发生这种情况。
非常感谢您的帮助。