fix: disable pod cleanup for argo — was deleting pods mid-workflow

Nissan Pow · Nissan Pow · commit 550aa74371e3 · 2026-03-12T04:16:13.000-07:00
The background kubectl delete pods loop was racing with the argo
workflow controller: pods briefly show Succeeded before the controller
reads their task results. Deleting them causes "pod deleted" errors
and workflow failures. This was the root cause of all argo deployer
test failures across 3 consecutive runs.

Keep cleanup for airflow only (it manages pods differently) and
increase interval to 120s for safety.
diff --git a/.github/workflows/ux-tests.yml b/.github/workflows/ux-tests.yml
@@ -237,13 +237,14 @@ jobs:
         run: devtools/ci/wait-airflow-api.sh
 
       - name: Clean up completed pods and start background cleanup
-        if: matrix.backend == 'argo-kubernetes' || matrix.backend == 'airflow-kubernetes'
+        if: matrix.backend == 'airflow-kubernetes'
         run: |
           kubectl delete pods --field-selector=status.phase=Succeeded --all-namespaces 2>/dev/null || true
           kubectl delete pods --field-selector=status.phase=Failed --all-namespaces 2>/dev/null || true
           # Periodically clean up completed pods during test runs to free cluster resources
+          # NOTE: Only safe for airflow — argo controller needs Succeeded pods to read task results
           while true; do
-            sleep 60
+            sleep 120
             kubectl delete pods --field-selector=status.phase=Succeeded --all-namespaces 2>/dev/null || true
             kubectl delete pods --field-selector=status.phase=Failed --all-namespaces 2>/dev/null || true
           done &