[bugfix] fix process_weights_after_loading & non_thinking_prefix (#9519)

hjh0119 · web-flow · commit aa028001fae8 · 2026-06-09T22:29:02.000+08:00
diff --git a/swift/megatron/trainers/gkd_trainer.py b/swift/megatron/trainers/gkd_trainer.py
@@ -17,7 +17,8 @@
 from swift.megatron.model import get_mcore_model
 from swift.rlhf_trainers.gkd_loss import DataSource, TeacherOutput, build_opsd_teacher_data, gkd_loss
 from swift.rlhf_trainers.utils import (assemble_teacher_topk_logprobs, build_teacher_infer_request,
-                                       parse_prompt_logprobs, replace_assistant_response_with_ids)
+                                       get_non_thinking_prefix_ids, parse_prompt_logprobs,
+                                       replace_assistant_response_with_ids)
 from swift.rlhf_trainers.vllm_client import VLLMInferClient
 from swift.template import Template
 from swift.utils import get_cu_seqlens_from_position_ids, get_logger, is_last_rank, to_device
@@ -159,9 +160,11 @@ def _encode_batch(self, batch: List[Dict]) -> Dict[str, torch.Tensor]:
         template = self.template
         args = self.args
         max_length = template.max_length + self.max_completion_length
+        non_thinking_prefix_ids = get_non_thinking_prefix_ids(template)
         for data in batch:
             if 'response_token_ids' in data:
-                data['messages'] = replace_assistant_response_with_ids(data['messages'], data['response_token_ids'])
+                data['messages'] = replace_assistant_response_with_ids(
+                    data['messages'], data['response_token_ids'], non_thinking_prefix_ids=non_thinking_prefix_ids)
 
         with self._template_context(template, max_length=max_length):
             encoded_list = [template.encode(data, return_length=True) for data in batch]
diff --git a/swift/megatron/trainers/grpo_trainer.py b/swift/megatron/trainers/grpo_trainer.py
@@ -26,9 +26,9 @@
 from swift.megatron.arguments import MegatronArguments, MegatronRLHFArguments
 from swift.megatron.utils import RouterReplayHelper, get_padding_to, set_router_replay_data
 from swift.rlhf_trainers.grpo_trainer import DataType
-from swift.rlhf_trainers.utils import (aggressive_empty_cache, detect_async_reward_indices, make_reward_weights, nanstd,
-                                       pad_logps_back_to_batch, profiling_context, profiling_decorator,
-                                       replace_assistant_response_with_ids, resolve_reward_funcs,
+from swift.rlhf_trainers.utils import (aggressive_empty_cache, detect_async_reward_indices, get_non_thinking_prefix_ids,
+                                       make_reward_weights, nanstd, pad_logps_back_to_batch, profiling_context,
+                                       profiling_decorator, replace_assistant_response_with_ids, resolve_reward_funcs,
                                        set_expandable_segments)
 from swift.rollout import MultiTurnScheduler, multi_turns
 from swift.template import Template, TemplateInputs
@@ -1125,15 +1125,19 @@ def _disable_maxlength_template_context(self, template: Template):
 
     def _maybe_replace_response_token(self, batch):
         # maybe replace the response token with the response token ids to avoid repetitive tokenize
+        non_thinking_prefix_ids = get_non_thinking_prefix_ids(self.template)
 
         for data in batch:
             if 'response_token_ids' in data and data['response_token_ids']:
                 loss_mask = None
                 if 'response_loss_mask' in data and data['response_loss_mask']:
                     loss_mask = data['response_loss_mask']
                 # token in token out
-                data['messages'] = replace_assistant_response_with_ids(data['messages'], data['response_token_ids'],
-                                                                       loss_mask)
+                data['messages'] = replace_assistant_response_with_ids(
+                    data['messages'],
+                    data['response_token_ids'],
+                    loss_mask,
+                    non_thinking_prefix_ids=non_thinking_prefix_ids)
         return batch
 
     @property
diff --git a/swift/megatron/trainers/rollout_mixin.py b/swift/megatron/trainers/rollout_mixin.py
@@ -435,15 +435,12 @@ def _export_and_load_weights(self):
         if self.vllm_mode == 'colocate':
             llm_model = self.engine.inner_model
             patch_vllm_moe_model_weight_loader(llm_model)
-            # Re-run process_weights_after_loading on FusedMoE layers so
-            # the kernel-format layout is rebuilt after the in-place reload
-            # (workaround for vLLM issue #42821).
-            try:
-                llm_model.load_weights(weight_iterator)
-            finally:
-                finish_vllm_weight_reload(llm_model)
+            llm_model.load_weights(weight_iterator)
+            _model_config = self.engine.engine.model_config
+            finish_vllm_weight_reload(llm_model, model_config=_model_config, target_device=self.device)
         elif self.vllm_mode == 'server':
             self._load_weights_to_server_in_buckets(weight_iterator)
+            self.vllm_client.process_weights_after_loading()
 
     def _get_vllm_param_names_for_mapping(self):
         """Get vLLM runtime parameter names for base_layer mapping.
diff --git a/swift/pipelines/infer/rollout.py b/swift/pipelines/infer/rollout.py
@@ -284,13 +284,19 @@ def update_flattened_params(self, metadatas: list[Dict]) -> None:
         named_params = FlattenedTensorBucket(metadata=metadatas, flattened_tensor=flatten_tensor).reconstruct_tensors()
 
         patch_vllm_moe_model_weight_loader(self.model_runner.model)
-        # Re-run process_weights_after_loading on FusedMoE layers so the
-        # kernel-format layout is rebuilt after the in-place reload
-        # (workaround for vLLM issue #42821).
-        try:
-            self.model_runner.model.load_weights(weights=list(named_params.items()))
-        finally:
-            finish_vllm_weight_reload(self.model_runner.model)
+        self.model_runner.model.load_weights(weights=list(named_params.items()))
+
+    def process_weights_after_loading(self) -> None:
+        """Re-run process_weights_after_loading once after ALL weight
+        buckets have been loaded, so the kernel-format layout is rebuilt
+        on complete weights rather than partial ones.
+
+        Uses vLLM's built-in ``process_weights_after_loading`` when
+        *model_config* and *target_device* are available (same as verl);
+        falls back to FusedMoE-only path otherwise.
+        """
+        model_config = self.model_runner.model_config
+        finish_vllm_weight_reload(self.model_runner.model, model_config=model_config, target_device=self.device)
 
     def close_communicator(self) -> None:
         """
@@ -512,12 +518,13 @@ def _broadcast_obj(obj):
             if metadata.get('is_last'):
                 break
 
-        # Re-run process_weights_after_loading on FusedMoE layers so the
-        # kernel-format layout is rebuilt after the in-place reload
-        # (workaround for vLLM issue #42821).  Skipped for LoRA sync
-        # because the adapter path doesn't call ``load_weights``.
+        # Re-run process_weights_after_loading so the kernel-format
+        # layout is rebuilt after the in-place reload (vLLM issue
+        # #42821).  Skipped for LoRA sync because the adapter path
+        # doesn't call ``load_weights``.
         if not is_lora_sync:
-            finish_vllm_weight_reload(self.model_runner.model)
+            model_config = self.model_runner.model_config
+            finish_vllm_weight_reload(self.model_runner.model, model_config=model_config, target_device=self.device)
 
         if is_lora_sync and all_lora_weights:
             req_kw = dict(
@@ -698,6 +705,7 @@ def _register_rl_rollout_app(self):
         self.app.post('/update_adapter_flattened_param/')(self.update_adapter_flattened_param)
         self.app.post('/update_adapter_param/')(self.update_adapter_param)
         self.app.post('/update_flattened_params/')(self.update_flattened_params)
+        self.app.post('/process_weights_after_loading/')(self.process_weights_after_loading)
         self.app.post('/reset_prefix_cache/')(self.reset_prefix_cache)
         self.app.post('/reset_encoder_cache/')(self.reset_encoder_cache)
         self.app.post('/reset_mm_cache/')(self.reset_mm_cache)
@@ -926,6 +934,18 @@ async def update_flattened_params(self, request: UpdateFlattenedParamsRequest):
 
         return {'message': 'Request received, updating flattened parameters'}
 
+    async def process_weights_after_loading(self):
+        """
+        Triggers process_weights_after_loading on all workers.
+        """
+        kwargs = {'method': 'process_weights_after_loading', 'args': ()}
+        for connection in self.connections:
+            connection.send({'type': 'call', 'method': 'collective_rpc', 'kwargs': kwargs})
+        # Wait for all workers to complete before returning
+        loop = asyncio.get_running_loop()
+        await asyncio.gather(*(loop.run_in_executor(None, connection.recv) for connection in self.connections))
+        return {'message': 'Weights processed after loading'}
+
     async def reset_prefix_cache(self):
         """
         Resets the prefix cache for the model.
diff --git a/swift/ray/megatron/gkd_trainer.py b/swift/ray/megatron/gkd_trainer.py
@@ -11,7 +11,7 @@
 
 from swift.infer_engine.protocol import RequestConfig, RolloutOutput
 from swift.rlhf_trainers.gkd_loss import DataSource, TeacherOutput, build_opsd_teacher_data
-from swift.rlhf_trainers.utils import (build_teacher_infer_request, parse_prompt_logprobs,
+from swift.rlhf_trainers.utils import (build_teacher_infer_request, get_non_thinking_prefix_ids, parse_prompt_logprobs,
                                        replace_assistant_response_with_ids)
 from swift.utils import get_logger
 from .base_trainer import BaseRayTrainer
@@ -228,13 +228,16 @@ def _encode_rollout_batch(self, rollout_batch):
         """
         template = self.template
         samples = []
+        non_thinking_prefix_ids = get_non_thinking_prefix_ids(template)
         with self._extended_max_length():
             for orig_item in rollout_batch:
                 item = orig_item
                 if item.get('response_token_ids'):
                     item = dict(item)
                     item['messages'] = replace_assistant_response_with_ids(
-                        copy.deepcopy(item['messages']), item['response_token_ids'])
+                        copy.deepcopy(item['messages']),
+                        item['response_token_ids'],
+                        non_thinking_prefix_ids=non_thinking_prefix_ids)
                 encoded = template.encode(item, return_length=True)
                 sample = {'encoded': encoded}
                 # OPSD: if the dataset row carries a `teacher_prompt`, also encode the
@@ -259,7 +262,9 @@ def _encode_opsd_teacher(item, template):
         opsd_item = opsd_list[0]
         if opsd_item.get('response_token_ids'):
             opsd_item['messages'] = replace_assistant_response_with_ids(
-                copy.deepcopy(opsd_item['messages']), opsd_item['response_token_ids'])
+                copy.deepcopy(opsd_item['messages']),
+                opsd_item['response_token_ids'],
+                non_thinking_prefix_ids=get_non_thinking_prefix_ids(template))
         return template.encode(opsd_item, return_length=True)
 
     def _fetch_teacher_from_replicas(self, rollout_with_outputs, samples):
@@ -283,7 +288,9 @@ def _fetch_teacher_from_replicas(self, rollout_with_outputs, samples):
                 opsd_item = build_opsd_teacher_data([item])[0]
                 if opsd_item.get('response_token_ids'):
                     opsd_item['messages'] = replace_assistant_response_with_ids(
-                        copy.deepcopy(opsd_item['messages']), opsd_item['response_token_ids'])
+                        copy.deepcopy(opsd_item['messages']),
+                        opsd_item['response_token_ids'],
+                        non_thinking_prefix_ids=non_thinking_prefix_ids)
                 requests.append(build_teacher_infer_request(opsd_item))
                 teacher_encodeds.append(opsd_encoded)
             else:
diff --git a/swift/ray/megatron/grpo_trainer.py b/swift/ray/megatron/grpo_trainer.py
@@ -11,7 +11,8 @@
 
 from swift.dataset import RowPreprocessor
 from swift.infer_engine.protocol import RolloutInferRequest, RolloutOutput
-from swift.rlhf_trainers.utils import compute_grpo_advantages, make_reward_weights, resolve_reward_funcs
+from swift.rlhf_trainers.utils import (compute_grpo_advantages, get_non_thinking_prefix_ids, make_reward_weights,
+                                       replace_assistant_response_with_ids, resolve_reward_funcs)
 from swift.rollout import MultiTurnScheduler, invoke_async_hook, multi_turns, run_multi_turn
 from swift.utils import get_logger
 from .base_trainer import BaseRayTrainer
@@ -497,8 +498,7 @@ def encode_rollout_batch(
         rollout_batch: Sequence[Dict[str, Any]],
     ) -> List[Dict[str, Any]]:
         """Encode rollout samples and keep them as per-sample payloads."""
-        from swift.rlhf_trainers.utils import replace_assistant_response_with_ids
-
+        non_thinking_prefix_ids = get_non_thinking_prefix_ids(self.template)
         rollout_for_encode: List[Dict[str, Any]] = []
         for data in rollout_batch:
             item = dict(data)
@@ -508,8 +508,11 @@ def encode_rollout_batch(
                 loss_mask = None
                 if 'response_loss_mask' in item and item['response_loss_mask']:
                     loss_mask = item['response_loss_mask']
-                item['messages'] = replace_assistant_response_with_ids(item['messages'], item['response_token_ids'],
-                                                                       loss_mask)
+                item['messages'] = replace_assistant_response_with_ids(
+                    item['messages'],
+                    item['response_token_ids'],
+                    loss_mask,
+                    non_thinking_prefix_ids=non_thinking_prefix_ids)
             rollout_for_encode.append(item)
 
         encoded_list, error_list = self._batch_encode_parallel(rollout_for_encode, strict=True)
diff --git a/swift/ray/megatron/megatron_worker.py b/swift/ray/megatron/megatron_worker.py
@@ -644,7 +644,6 @@ def _build_routed_experts_batch(
                     raise AssertionError(
                         f'The seq_len of routed_experts({experts_seq_len}) does not match encoded length '
                         f'({expected_len}); expected same length or one less.')
-
             target_len = int(cur_seq_len.item()) if template.padding_free else max_seq_len
             routed = self._pad_or_trim_routed_experts(routed, target_len, padding_right=padding_right)
             routed_tensors.append(routed)
diff --git a/swift/rlhf_trainers/gkd_trainer.py b/swift/rlhf_trainers/gkd_trainer.py
@@ -19,7 +19,8 @@
 from swift.infer_engine.protocol import RequestConfig
 from swift.rlhf_trainers.gkd_loss import DataSource, TeacherOutput, build_opsd_teacher_data, gkd_loss
 from swift.rlhf_trainers.utils import (assemble_teacher_topk_logprobs, build_teacher_infer_request,
-                                       parse_prompt_logprobs, prepare_fsdp, replace_assistant_response_with_ids)
+                                       get_non_thinking_prefix_ids, parse_prompt_logprobs, prepare_fsdp,
+                                       replace_assistant_response_with_ids)
 from swift.rlhf_trainers.vllm_client import VLLMInferClient
 from swift.template import TemplateInputs
 from swift.trainers import SwiftMixin, disable_gradient_checkpointing
@@ -369,11 +370,13 @@ def _prepare_batch_inputs(self, inputs: list, encode_prompt_only: bool = False)
         mode = 'transformers' if encode_prompt_only else 'train'
         original_mode = template.mode
         template.set_mode(mode)
+        non_thinking_prefix_ids = get_non_thinking_prefix_ids(template)
         try:
             for data in inputs:
                 if 'response_token_ids' in data and data['response_token_ids']:
                     data = {**data}
-                    data['messages'] = replace_assistant_response_with_ids(data['messages'], data['response_token_ids'])
+                    data['messages'] = replace_assistant_response_with_ids(
+                        data['messages'], data['response_token_ids'], non_thinking_prefix_ids=non_thinking_prefix_ids)
 
                 if encode_prompt_only:
                     # Remove response content for prompt-only encoding
@@ -641,36 +644,6 @@ def _fetch_and_assemble_teacher_logprobs(self, chunks):
             c['_teacher_topk_logprobs'] = topk_lp
             c['_teacher_topk_indices'] = topk_ix
 
-    def _inline_fetch_teacher_logprobs(self, encoded_inputs: Dict[str, torch.Tensor], raw_data) -> None:
-        """Fetch teacher logprobs with gather+broadcast (used in eval/prediction_step).
-
-        Same synchronization pattern as _fetch_and_assemble_teacher_logprobs:
-        only main_process has teacher_client, so we gather raw → fetch on rank0 → broadcast.
-        """
-        all_raw = gather_object(list(raw_data))
-
-        if self.accelerator.is_main_process:
-            requests = [build_teacher_infer_request(d) for d in all_raw]
-            request_config = RequestConfig(prompt_logprobs=self.gkd_logits_topk, max_tokens=1, temperature=0.0)
-            responses = self.teacher_client.infer(requests, request_config=request_config, use_tqdm=False)
-            parsed_global = [parse_prompt_logprobs(r, topk=self.gkd_logits_topk) for r in responses]
-        else:
-            parsed_global = None
-
-        container = [parsed_global]
-        broadcast_object_list(container, from_process=0)
-        parsed_global = container[0]
-
-        # Slice this rank's portion (gather_object returns rank-ordered list)
-        n_local = len(raw_data)
-        rank = self.accelerator.process_index
-        parsed = parsed_global[rank * n_local:(rank + 1) * n_local]
-
-        target = encoded_inputs.get('_opsd_teacher_inputs') or encoded_inputs
-        topk_lp, topk_ix = self._assemble_topk_for_chunk(parsed, target)
-        encoded_inputs['_teacher_topk_logprobs'] = topk_lp
-        encoded_inputs['_teacher_topk_indices'] = topk_ix
-
     @profiling_decorator
     def training_step(self,
                       model: nn.Module,
diff --git a/swift/rlhf_trainers/grpo_trainer.py b/swift/rlhf_trainers/grpo_trainer.py
@@ -60,9 +60,10 @@
                          start_event_loop_in_daemon, to_device, unwrap_model_for_generation)
 from .arguments import GRPOConfig
 from .rollout_mixin import DataType, RolloutTrainerMixin, SyncRefModelCallback
-from .utils import (_ForwardRedirection, compute_chord_loss, get_even_process_data, identity_data_collator,
-                    load_pil_img, make_chord_sft_dataset, nanstd, pad_logps_back_to_batch, patch_save_last_checkpoint,
-                    profiling_context, profiling_decorator, replace_assistant_response_with_ids)
+from .utils import (_ForwardRedirection, compute_chord_loss, get_even_process_data, get_non_thinking_prefix_ids,
+                    identity_data_collator, load_pil_img, make_chord_sft_dataset, nanstd, pad_logps_back_to_batch,
+                    patch_save_last_checkpoint, profiling_context, profiling_decorator,
+                    replace_assistant_response_with_ids)
 
 try:
     from trl.trainer.utils import entropy_from_logits
@@ -804,6 +805,7 @@ def _prepare_batch_inputs(self, inputs: DataType) -> List[DataType]:
         template = self.template
         gas_chunks = self.split_by_mini_batches(inputs)
         ga_batch_encoded_inputs = []
+        non_thinking_prefix_ids = get_non_thinking_prefix_ids(template)
         for batch in gas_chunks:
             # Encode and process each batch (size=bs)
             with self._template_context(template):
@@ -812,8 +814,11 @@ def _prepare_batch_inputs(self, inputs: DataType) -> List[DataType]:
                         loss_mask = None
                         if 'response_loss_mask' in data and data['response_loss_mask']:
                             loss_mask = data['response_loss_mask']
-                        data['messages'] = replace_assistant_response_with_ids(data['messages'],
-                                                                               data['response_token_ids'], loss_mask)
+                        data['messages'] = replace_assistant_response_with_ids(
+                            data['messages'],
+                            data['response_token_ids'],
+                            loss_mask,
+                            non_thinking_prefix_ids=non_thinking_prefix_ids)
                 batch_encoded_inputs = [template.encode(data, return_length=True) for data in batch]
                 for encoded_inputs in batch_encoded_inputs:
                     extra_kwargs = encoded_inputs.get('_extra_kwargs') or {}
diff --git a/swift/rlhf_trainers/rollout_mixin.py b/swift/rlhf_trainers/rollout_mixin.py
diff --git a/swift/rlhf_trainers/utils.py b/swift/rlhf_trainers/utils.py
diff --git a/swift/rlhf_trainers/vllm_client.py b/swift/rlhf_trainers/vllm_client.py