OMNIML-4672 — training_support: step3_train.yaml for Qwen3-8B

ChenhanYu · ChenhanYu · commit 4300a1d80371 · 2026-05-13T10:49:26.000-07:00
Agent-authored via pensieve-intern's training_support stage on
Epic OMNIML-4666. Faithful extraction of task_2 (EAGLE3 draft-head
training) from hf_offline_eagle3.yaml's monolithic pipeline,
renamed task_0 for the standalone step convention.

Signed-off-by: Chenhan D. Yu &lt;chenhany@nvidia.com&gt;
diff --git a/tools/launcher/examples/Qwen/Qwen3-8B/step3_train.yaml b/tools/launcher/examples/Qwen/Qwen3-8B/step3_train.yaml
@@ -0,0 +1,26 @@
+job_name: Qwen3-8B_EAGLE3_train
+pipeline:
+  allow_to_fail: false
+  skip: false
+  note:
+
+  global_vars:
+    hf_model: /hf-local/Qwen/Qwen3-8B
+
+  # Step 3: Train EAGLE3 draft head (offline, single task)
+  task_0:
+    script: common/eagle3/train_eagle.sh
+    args:
+      - --config modules/Model-Optimizer/modelopt_recipes/general/speculative_decoding/eagle3.yaml
+      - model.model_name_or_path=<<global_vars.hf_model>>
+      - data.offline_data_path=/scratchspace/offline_hidden_states
+      - training.output_dir=/scratchspace/eagle3
+      - training.training_seq_len=4096
+      - training.disable_tqdm=true
+      - training.ar_validate_steps=500000
+    slurm_config:
+      _factory_: "slurm_factory"
+      nodes: 1
+      ntasks_per_node: 1
+      gpus_per_node: 8
+      container: nvcr.io/nvidia/tensorrt-llm/release:1.2.0