[fix]: Qwen3.5-35B-A3B 8-GPU: set TP size to 2 for num_query_groups=2 (#1662)

none0663 · web-flow · commit 0104a9e922ec · 2026-03-04T11:48:41.000+08:00
diff --git a/scripts/run-qwen3.5-35B-A3B.sh b/scripts/run-qwen3.5-35B-A3B.sh
@@ -63,7 +63,7 @@ EVAL_ARGS=(
 )
 
 PERF_ARGS=(
-   --tensor-model-parallel-size 4
+   --tensor-model-parallel-size 2
    --sequence-parallel
    --pipeline-model-parallel-size 1
    --context-parallel-size 1
diff --git a/slime/utils/data.py b/slime/utils/data.py
@@ -89,15 +89,30 @@ def filter_long_prompt(origin_samples: list[Sample], tokenizer, processor, max_l
         return origin_samples
 
     if processor:
-        filtered_samples = []
+        # Use processor only for samples with actual multimodal content; use batched tokenizer for text-only.
+        text_only = []
+        multimodal = []
         for sample in origin_samples:
+            if sample.multimodal_inputs and any(v is not None for v in sample.multimodal_inputs.values()):
+                multimodal.append(sample)
+            else:
+                text_only.append(sample)
+        filtered_samples = []
+        if text_only:
+            prompts = [s.prompt for s in text_only]
+            input_ids_list = tokenizer(prompts, add_special_tokens=False)["input_ids"]
+            for sample, input_ids in zip(text_only, input_ids_list, strict=True):
+                if len(input_ids) <= max_length:
+                    filtered_samples.append(sample)
+        if multimodal:
             from slime.utils.processing_utils import process_vision_info
 
-            multimodal_inputs = process_vision_info(sample.prompt, processor)
-            processor_output = processor(text=sample.prompt, **multimodal_inputs)
-            input_ids = processor_output["input_ids"][0]
-            if len(input_ids) <= max_length:
-                filtered_samples.append(sample)
+            for sample in multimodal:
+                multimodal_inputs = process_vision_info(sample.prompt, processor)
+                processor_output = processor(text=sample.prompt, **multimodal_inputs)
+                input_ids = processor_output["input_ids"][0]
+                if len(input_ids) <= max_length:
+                    filtered_samples.append(sample)
     else:
         prompts = [sample.prompt for sample in origin_samples]
         input_ids_list = tokenizer(prompts, add_special_tokens=False)["input_ids"]

Original file line number	Diff line number	Diff line change
`@@ -63,7 +63,7 @@ EVAL_ARGS=(`
`63`	`63`	`)`
`64`	`64`
`65`	`65`	`PERF_ARGS=(`
`66`		`- --tensor-model-parallel-size 4`
	`66`	`+ --tensor-model-parallel-size 2`
`67`	`67`	`--sequence-parallel`
`68`	`68`	`--pipeline-model-parallel-size 1`
`69`	`69`	`--context-parallel-size 1`