fix: respect cleanPodPolicy when job exceeds backoffLimit by AviadHayumi · Pull Request #9 · run-ai/training-operator

AviadHayumi · 2026-04-13T08:28:41Z

Summary

When a job exceeds its backoffLimit, pods are deleted regardless of cleanPodPolicy: None
Root cause: DeletePodsAndServices() is called before JobFailed condition is set, so the cleanPodPolicy: None guard is bypassed
Fix: move UpdateJobConditions(JobFailed) before DeletePodsAndServices()
Added unit tests covering the fix

Upstream issue: kubeflow#3419
Upstream PR: kubeflow#3420

Test plan

Unit tests pass (go test ./pkg/controller.v1/common/)
Verified on live cluster: PyTorchJob with cleanPodPolicy: None + backoffLimit: 1 — pods preserved after failure

Move UpdateJobConditions(JobFailed) before DeletePodsAndServices in the jobExceedsLimit block so that IsFinished() returns true and the cleanPodPolicy: None guard is not bypassed. Fixes: kubeflow#3419 Signed-off-by: Aviad Hayumi <aviad.hayumi@run.ai>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix: respect cleanPodPolicy when job exceeds backoffLimit#9

fix: respect cleanPodPolicy when job exceeds backoffLimit#9
AviadHayumi wants to merge 1 commit intorelease-1.9from
fix/cleanpod-backoff-limit-runai

AviadHayumi commented Apr 13, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

AviadHayumi commented Apr 13, 2026

Summary

Test plan

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant