add ci

zhuzilin · zhuzilin · commit ead3923a323e · 2026-02-25T09:34:56.000Z
diff --git a/slime/ray/rollout.py b/slime/ray/rollout.py
@@ -106,9 +106,9 @@ class SglangConfig:
 
     Loaded from ``--sglang-config`` YAML file.
 
-    **Multi-model format**::
+    **Config format**::
 
-        models:
+        sglang:
           - name: actor
             model_path: /path/to/actor
             num_gpus_per_engine: 2
@@ -125,14 +125,6 @@ class SglangConfig:
               - worker_type: regular
                 num_gpus: 4
 
-    **Legacy single-model format** (still supported)::
-
-        engine_groups:
-          - worker_type: prefill
-            num_gpus: 4
-          - worker_type: decode
-            num_gpus: 10
-
     Each model gets its own router.  ``placeholder`` groups reserve GPU
     slots without creating engines.  ``overrides`` are ``ServerArgs``
     field names applied on top of the base ``--sglang-*`` CLI args.
@@ -145,26 +137,22 @@ def from_yaml(path: str) -> "SglangConfig":
         with open(path) as f:
             data = yaml.safe_load(f)
 
-        if "models" in data:
-            models = []
-            for m in data["models"]:
-                groups = [EngineGroupConfig(**g) for g in m.get("engine_groups", [])]
-                models.append(
-                    ModelConfig(
-                        name=m["name"],
-                        model_path=m.get("model_path"),
-                        num_gpus_per_engine=m.get("num_gpus_per_engine"),
-                        engine_groups=groups,
-                    )
+        assert "sglang" in data, (
+            f"sglang config must have a 'sglang' key, got {list(data.keys())}. "
+            f"Wrap your engine_groups inside a model entry under 'sglang'."
+        )
+        models = []
+        for m in data["sglang"]:
+            groups = [EngineGroupConfig(**g) for g in m.get("engine_groups", [])]
+            models.append(
+                ModelConfig(
+                    name=m["name"],
+                    model_path=m.get("model_path"),
+                    num_gpus_per_engine=m.get("num_gpus_per_engine"),
+                    engine_groups=groups,
                 )
-            return SglangConfig(models=models)
-
-        # Backward compat: top-level engine_groups → single "default" model.
-        assert (
-            "engine_groups" in data
-        ), f"sglang config must have 'models' or 'engine_groups' key, got {list(data.keys())}"
-        groups = [EngineGroupConfig(**g) for g in data["engine_groups"]]
-        return SglangConfig(models=[ModelConfig(name="default", engine_groups=groups)])
+            )
+        return SglangConfig(models=models)
 
     @staticmethod
     def from_prefill_num_servers(args) -> "SglangConfig":
@@ -193,12 +181,6 @@ def has_pd_disaggregation(self) -> bool:
     def total_num_gpus(self) -> int:
         return sum(m.total_num_gpus for m in self.models)
 
-    # Backward compat: single-model access.
-    @property
-    def engine_groups(self) -> list[EngineGroupConfig]:
-        assert len(self.models) == 1, "engine_groups property requires single-model config"
-        return self.models[0].engine_groups
-
 
 @dataclasses.dataclass
 class EngineGroup:
diff --git a/tests/test_qwen2.5_0.5B_sglang_config.py b/tests/test_qwen2.5_0.5B_sglang_config.py
@@ -0,0 +1,148 @@
+import os
+import tempfile
+
+import slime.utils.external_utils.command_utils as U
+
+TIGHT_DEVICE_MEMORY = U.get_bool_env_var("SLIME_TEST_TIGHT_DEVICE_MEMORY", "1")
+
+MODEL_NAME = "Qwen2.5-0.5B-Instruct"
+MODEL_TYPE = "qwen2.5-0.5B"
+NUM_GPUS = 4
+
+# Inline sglang config: same model, 3 engine groups with different parallelism.
+# Group 1: 2 GPUs, 2 GPUs/engine (tp=2) → 1 engine
+# Group 2: 1 GPU,  1 GPU/engine  (tp=1) → 1 engine
+# Group 3: 1 GPU,  placeholder   → reserves 1 GPU slot, no engine created
+SGLANG_CONFIG_YAML = """\
+sglang:
+  - name: default
+    engine_groups:
+      - worker_type: regular
+        num_gpus: 2
+        num_gpus_per_engine: 2
+      - worker_type: regular
+        num_gpus: 1
+        num_gpus_per_engine: 1
+      - worker_type: placeholder
+        num_gpus: 1
+"""
+
+
+def prepare():
+    U.exec_command("mkdir -p /root/models /root/datasets")
+    U.exec_command(f"huggingface-cli download Qwen/{MODEL_NAME} --local-dir /root/models/{MODEL_NAME}")
+    U.hf_download_dataset("zhuzilin/gsm8k")
+
+
+def execute():
+    # Write inline sglang config to a temp file
+    config_file = tempfile.NamedTemporaryFile(mode="w", suffix=".yaml", prefix="sglang_config_", delete=False)
+    config_file.write(SGLANG_CONFIG_YAML)
+    config_file.flush()
+    config_path = config_file.name
+
+    ckpt_args = f"--hf-checkpoint /root/models/{MODEL_NAME}/ " f"--ref-load /root/models/{MODEL_NAME}/ "
+
+    rollout_args = (
+        "--prompt-data /root/datasets/gsm8k/train.parquet "
+        "--input-key messages "
+        "--label-key label "
+        "--apply-chat-template "
+        "--rollout-shuffle "
+        "--rm-type math "
+        "--num-rollout 3 "
+        "--rollout-batch-size 8 "
+        "--n-samples-per-prompt 4 "
+        "--rollout-max-response-len 1024 "
+        "--rollout-temperature 0.8 "
+        "--over-sampling-batch-size 16 "
+        "--dynamic-sampling-filter-path slime.rollout.filter_hub.dynamic_sampling_filters.check_reward_nonzero_std "
+        "--global-batch-size 32 "
+    )
+
+    eval_args = (
+        "--eval-interval 20 "
+        "--eval-prompt-data gsm8k /root/datasets/gsm8k/test.parquet "
+        "--n-samples-per-eval-prompt 1 "
+        "--eval-max-response-len 1024 "
+        "--eval-top-k 1 "
+    )
+
+    perf_args = (
+        "--tensor-model-parallel-size 1 "
+        "--sequence-parallel "
+        "--pipeline-model-parallel-size 1 "
+        "--context-parallel-size 1 "
+        "--expert-model-parallel-size 1 "
+        "--expert-tensor-parallel-size 1 "
+        "--use-dynamic-batch-size "
+        "--max-tokens-per-gpu 9216 "
+    )
+
+    grpo_args = (
+        "--advantage-estimator grpo "
+        "--use-kl-loss "
+        "--kl-loss-coef 0.00 "
+        "--kl-loss-type low_var_kl "
+        "--entropy-coef 0.00 "
+        "--eps-clip 0.2 "
+        "--eps-clip-high 0.28 "
+    )
+
+    optimizer_args = (
+        "--optimizer adam "
+        "--lr 1e-6 "
+        "--lr-decay-style constant "
+        "--weight-decay 0.1 "
+        "--adam-beta1 0.9 "
+        "--adam-beta2 0.98 "
+    )
+
+    sglang_args = (
+        "--rollout-num-gpus-per-engine 1 "
+        f"--sglang-mem-fraction-static {0.6 if TIGHT_DEVICE_MEMORY else 0.7} "
+        "--sglang-enable-metrics "
+        f"--sglang-config {config_path} "
+    )
+
+    ci_args = "--ci-test "
+
+    misc_args = (
+        "--attention-dropout 0.0 "
+        "--hidden-dropout 0.0 "
+        "--accumulate-allreduce-grads-in-fp32 "
+        "--attention-softmax-in-fp32 "
+        "--attention-backend flash "
+        "--actor-num-nodes 1 "
+        "--actor-num-gpus-per-node 4 "
+        "--colocate "
+        "--megatron-to-hf-mode bridge "
+    )
+
+    train_args = (
+        f"{ckpt_args} "
+        f"{rollout_args} "
+        f"{optimizer_args} "
+        f"{grpo_args} "
+        f"{U.get_default_wandb_args(__file__)} "
+        f"{perf_args} "
+        f"{eval_args} "
+        f"{sglang_args} "
+        f"{ci_args} "
+        f"{misc_args} "
+    )
+
+    U.execute_train(
+        train_args=train_args,
+        num_gpus_per_node=NUM_GPUS,
+        megatron_model_type=MODEL_TYPE,
+    )
+
+
+if __name__ == "__main__":
+    prepare()
+    os.environ.pop("http_proxy", None)
+    os.environ.pop("https_proxy", None)
+    os.environ.pop("HTTP_PROXY", None)
+    os.environ.pop("HTTPS_PROXY", None)
+    execute()