docs: drop coordinator memory below 4GB validator threshold

yonromai · claude · yonromai · commit 96b76dfd11d8 · 2026-04-22T19:08:16.000-07:00
iris job run rejects --memory &gt;= 4 GB without --enable-extra-resources
(lib/iris/src/iris/cli/job.py:432). The mechanical rewrite produced
--memory=4G, which trips the validator; reduce to --memory=2G to match
the canonical ferries pattern (experiments/ferries/OPS.md:17). Also
correct the stale --memory 16g example in lib/iris/OPS.md:42.

Co-Authored-By: Claude Opus 4.7 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/.agents/projects/ferry_framework.md b/.agents/projects/ferry_framework.md
@@ -274,7 +274,7 @@ gh issue list \
 Launch shape (illustrative, to pin in recipe):
 
 ```bash
-uv run iris --cluster=marin job run --no-wait --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --no-wait --cpu=1 --memory=2G --extra=cpu \
   -- python -m experiments.ferries.daily --run_name "daily-125m-$(date +%F)"
 ```
 
diff --git a/.agents/skills/ferries/SKILL.md b/.agents/skills/ferries/SKILL.md
@@ -124,7 +124,7 @@ Then push the launch commit (no proposal PR by default).
 Before launch, confirm requester approval in-thread unless they already gave explicit "launch without asking" permission.
 
 ```bash
-uv run iris --cluster=marin job run --no-wait --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --no-wait --cpu=1 --memory=2G --extra=cpu \
   -- python -m experiments.ferries.daily
 ```
 
@@ -136,7 +136,7 @@ After launch, capture and post to the issue:
 
 Optional deterministic daily rerun name:
 ```bash
-uv run iris --cluster=marin job run --no-wait --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --no-wait --cpu=1 --memory=2G --extra=cpu \
   -e FERRY_DATE "$(date +%Y%m%d-%H%M%S)-daily-ferry" \
   -- python -m experiments.ferries.daily
 ```
diff --git a/docs/explanations/executor.md b/docs/explanations/executor.md
@@ -103,7 +103,7 @@ as the entrypoint of a CPU-only Iris job. The script then uses `executor_main`
 to spawn the accelerated sub-jobs via Fray:
 
 ```bash
-uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
   -- python -m experiments.tutorials.hello_world
 ```
 
diff --git a/docs/recipes/add_scaling_heuristic.md b/docs/recipes/add_scaling_heuristic.md
@@ -42,7 +42,7 @@ Nemotron mix. Then sweep the optimizer hyperparameter space with
 `experiments/references/reference_hyperparameter_sweep.py` or an equivalent setup.
 
 ```sh
-uv run iris --cluster=marin job run --no-wait --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --no-wait --cpu=1 --memory=2G --extra=cpu \
   -e WANDB_API_KEY "$WANDB_API_KEY" \
   -- python -m experiments.references.reference_hyperparameter_sweep
 ```
@@ -174,7 +174,7 @@ SCALING_SUITES = {
 Submit:
 
 ```sh
-uv run iris --cluster=marin job run --no-wait --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --no-wait --cpu=1 --memory=2G --extra=cpu \
   -e WANDB_API_KEY "$WANDB_API_KEY" \
   -- python -m experiments.isoflop_sweep
 ```
diff --git a/docs/tutorials/train-an-lm.md b/docs/tutorials/train-an-lm.md
@@ -151,7 +151,7 @@ Iris entrypoint job. `executor_main` inside the script spawns the TPU/GPU
 sub-tasks via Fray:
 
 ```bash
-uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
   -e WANDB_API_KEY "$WANDB_API_KEY" \
   -- python -m experiments.${YOUR_EXPERIMENT_SCRIPT}
 ```
diff --git a/docs/tutorials/train-dpo.md b/docs/tutorials/train-dpo.md
@@ -141,7 +141,7 @@ Submit the job to the shared Iris cluster (CPU-only entrypoint; the script's
 `executor_main` spawns the TPU sub-task via Fray):
 
 ```bash
-uv run iris --cluster=marin job run --no-wait --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --no-wait --cpu=1 --memory=2G --extra=cpu \
   -e WANDB_API_KEY "$WANDB_API_KEY" \
   -- python -m experiments.my_dpo_experiment
 ```
diff --git a/experiments/README_sft.md b/experiments/README_sft.md
@@ -11,7 +11,7 @@ The default doc reproduces OLMO SFT
 Run Olmo SFT with:
 
 ```bash
-uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
   -e HF_TOKEN "$HF_TOKEN" \
   -- python -m experiments.exp227_sft
 ```
@@ -45,12 +45,12 @@ In `train_step`, essential parameters:
 
 ```bash
 # Basic run
-uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
   -e HF_TOKEN "$HF_TOKEN" \
   -- python -m experiments.my_sft
 
 # Force specific steps
-uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
   -e HF_TOKEN "$HF_TOKEN" \
   -- python -m experiments.my_sft --force_run '["your_step_name"]'
 ```
diff --git a/experiments/grug/README.md b/experiments/grug/README.md
@@ -40,7 +40,7 @@ uv run python experiments/grug/base/launch.py
 Iris cluster run (from a dev box, on `marin` prod cluster):
 
 ```bash
-uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
   -e WANDB_API_KEY "$WANDB_API_KEY" \
   -- python -m experiments.grug.base.launch
 ```
diff --git a/experiments/rollout_data/coderforge.py b/experiments/rollout_data/coderforge.py
@@ -4,7 +4,7 @@
 """togethercomputer/CoderForge-Preview rollout dataset.
 
 Usage:
-    uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+    uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
       -- python -m experiments.rollout_data.coderforge
 """
 
diff --git a/experiments/rollout_data/gpt_oss_rollouts.py b/experiments/rollout_data/gpt_oss_rollouts.py
@@ -4,7 +4,7 @@
 """andyrdt/gpt-oss-20b-rollouts rollout dataset (non-benchmark subsets).
 
 Usage:
-    uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+    uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
       -- python -m experiments.rollout_data.gpt_oss_rollouts
 """
 
diff --git a/experiments/rollout_data/nemotron_terminal.py b/experiments/rollout_data/nemotron_terminal.py
@@ -4,7 +4,7 @@
 """nvidia/Nemotron-Terminal-Corpus rollout dataset.
 
 Usage:
-    uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+    uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
       -- python -m experiments.rollout_data.nemotron_terminal
 """
 
diff --git a/experiments/rollout_data/principia.py b/experiments/rollout_data/principia.py
@@ -4,7 +4,7 @@
 """facebook/principia-collection rollout dataset.
 
 Usage:
-    uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+    uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
       -- python -m experiments.rollout_data.principia
 """
 
diff --git a/experiments/rollout_data/superior_reasoning.py b/experiments/rollout_data/superior_reasoning.py
@@ -4,7 +4,7 @@
 """Alibaba-Apsara/Superior-Reasoning-SFT-gpt-oss-120b rollout dataset.
 
 Usage:
-    uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+    uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
       -- python -m experiments.rollout_data.superior_reasoning
 """
 
diff --git a/experiments/rollout_data/swe_rebench_openhands.py b/experiments/rollout_data/swe_rebench_openhands.py
@@ -4,7 +4,7 @@
 """nebius/SWE-rebench-openhands-trajectories rollout dataset.
 
 Usage:
-    uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+    uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
       -- python -m experiments.rollout_data.swe_rebench_openhands
 """
 
diff --git a/experiments/rollout_data/synthetic1.py b/experiments/rollout_data/synthetic1.py
@@ -4,7 +4,7 @@
 """PrimeIntellect/SYNTHETIC-1 pretraining dataset.
 
 Usage:
-    uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+    uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
       -- python -m experiments.rollout_data.synthetic1
 """
 
diff --git a/experiments/tootsie/BABYSITTING.md b/experiments/tootsie/BABYSITTING.md
@@ -17,7 +17,7 @@ Iris cluster.
 I use this command to launch it:
 
 ```
-uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
   -e WANDB_API_KEY "$WANDB_API_KEY" \
   -e HF_DATASETS_TRUST_REMOTE_CODE true \
   -- python -m experiments.exp600_tootsie --run_only "[adept]" --force_run_failed true
@@ -53,7 +53,7 @@ I have been using XXX v6e-128s, where XXX ranges from 2-8. The 70b needs at leas
 To cancel a stuck run:
 
 ```
-uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
   -e WANDB_API_KEY "$WANDB_API_KEY" \
   -e HF_DATASETS_TRUST_REMOTE_CODE true \
   -- python -m marin.execution.status_actor kill
@@ -62,7 +62,7 @@ uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
 ## 70b
 
 ```
-uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
   -e WANDB_API_KEY "$WANDB_API_KEY" \
   -e HF_DATASETS_TRUST_REMOTE_CODE true \
   -- python -m experiments.exp750_tootsie70b --force_run_failed true --run_only '[real]'
@@ -71,7 +71,7 @@ uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
 ## 22b
 
 ```
-uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
   -e WANDB_API_KEY "$WANDB_API_KEY" \
   -e HF_DATASETS_TRUST_REMOTE_CODE true \
   -- python -m experiments.exp750_tootsie70b --force_run_failed true --run_only '[22b]'
@@ -80,7 +80,7 @@ uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
 ## 13b
 
 ```
-uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
   -e WANDB_API_KEY "$WANDB_API_KEY" \
   -e HF_DATASETS_TRUST_REMOTE_CODE true \
   -- python -m experiments.exp750_tootsie70b --force_run_failed true --run_only '[13b]'
diff --git a/experiments/tutorials/exp1077_reproduce_dclm_1b1x.py b/experiments/tutorials/exp1077_reproduce_dclm_1b1x.py
@@ -11,7 +11,7 @@
 
 Example usage:
   # Run the training job with wandb logging enabled
-  uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+  uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
     -e WANDB_API_KEY "$WANDB_API_KEY" \
     -- python -m experiments.tutorials.exp1077_reproduce_dclm_1b1x
 """
diff --git a/experiments/tutorials/exp1078_reproduce_dclm_7b1x.py b/experiments/tutorials/exp1078_reproduce_dclm_7b1x.py
@@ -11,7 +11,7 @@
 
 Example usage:
   # Run the training job with wandb logging enabled
-  uv run iris --cluster=marin job run --cpu=1 --memory=4G --extra=cpu \
+  uv run iris --cluster=marin job run --cpu=1 --memory=2G --extra=cpu \
     -e WANDB_API_KEY "$WANDB_API_KEY" \
     -- python -m experiments.tutorials.exp1078_reproduce_dclm_7b1x
 """
diff --git a/lib/iris/OPS.md b/lib/iris/OPS.md
@@ -39,7 +39,7 @@ iris job bug-report /user/job-name      # structured diagnostic dump
 - **`-e KEY VALUE`** uses two positional args. If `$VALUE` is unset, the parser eats the next token. Always quote: `-e KEY "${VALUE}"`.
 - **`--extra gpu`** installs CUDA jaxlib but does NOT request GPU hardware. Need both `--gpu H100x8 --extra gpu`.
 - **`--reserve`** holds capacity for scheduling only — does not attach accelerator devices. Use `--tpu`/`--gpu` on the task that needs hardware.
-- **`executor_main` parent jobs** (e.g., canary ferries) submit GPU sub-tasks via Fray. The parent must be CPU-only (`--cpu 1 --memory 16g`), otherwise it hogs the GPU node and deadlocks.
+- **`executor_main` parent jobs** (e.g., canary ferries) submit GPU sub-tasks via Fray. The parent must be CPU-only (`--cpu 1 --memory 2g`), otherwise it hogs the GPU node and deadlocks. Memory at or above 4 GB requires `--enable-extra-resources` (see "Validator opt-in" below).
 
 ## Task Operations