Merge branch 'main' into release/3.12

Jintao-Huang · Jintao-Huang · commit f8421501e7b9 · 2026-01-08T10:22:09.000+08:00
diff --git a/docs/source/Instruction/Supported-models-and-datasets.md b/docs/source/Instruction/Supported-models-and-datasets.md
@@ -657,6 +657,8 @@
 |[IQuestLab/IQuest-Coder-V1-40B-Base-Stage1](https://modelscope.cn/models/IQuestLab/IQuest-Coder-V1-40B-Base-Stage1)|iquestcoder|iquestcoder|transformers==4.52.4|&#x2718;|-|[IQuestLab/IQuest-Coder-V1-40B-Base-Stage1](https://huggingface.co/IQuestLab/IQuest-Coder-V1-40B-Base-Stage1)|
 |[IQuestLab/IQuest-Coder-V1-40B-Base](https://modelscope.cn/models/IQuestLab/IQuest-Coder-V1-40B-Base)|iquestcoder|iquestcoder|transformers==4.52.4|&#x2718;|-|[IQuestLab/IQuest-Coder-V1-40B-Base](https://huggingface.co/IQuestLab/IQuest-Coder-V1-40B-Base)|
 |[IQuestLab/IQuest-Coder-V1-40B-Instruct](https://modelscope.cn/models/IQuestLab/IQuest-Coder-V1-40B-Instruct)|iquestcoder|iquestcoder|transformers==4.52.4|&#x2718;|-|[IQuestLab/IQuest-Coder-V1-40B-Instruct](https://huggingface.co/IQuestLab/IQuest-Coder-V1-40B-Instruct)|
+|[Tencent-YouTu-Research/Youtu-LLM-2B](https://modelscope.cn/models/Tencent-YouTu-Research/Youtu-LLM-2B)|youtu_llm|youtu_llm|transformers>=4.56|&#x2718;|-|[tencent/Youtu-LLM-2B](https://huggingface.co/tencent/Youtu-LLM-2B)|
+|[Tencent-YouTu-Research/Youtu-LLM-2B-Base](https://modelscope.cn/models/Tencent-YouTu-Research/Youtu-LLM-2B-Base)|youtu_llm|youtu_llm|transformers>=4.56|&#x2718;|-|[tencent/Youtu-LLM-2B-Base](https://huggingface.co/tencent/Youtu-LLM-2B-Base)|
 |[answerdotai/ModernBERT-base](https://modelscope.cn/models/answerdotai/ModernBERT-base)|modern_bert|dummy|transformers>=4.48|&#x2718;|bert|[answerdotai/ModernBERT-base](https://huggingface.co/answerdotai/ModernBERT-base)|
 |[answerdotai/ModernBERT-large](https://modelscope.cn/models/answerdotai/ModernBERT-large)|modern_bert|dummy|transformers>=4.48|&#x2718;|bert|[answerdotai/ModernBERT-large](https://huggingface.co/answerdotai/ModernBERT-large)|
 |[iic/gte-modernbert-base](https://modelscope.cn/models/iic/gte-modernbert-base)|modern_bert_gte|dummy|transformers>=4.48|&#x2718;|bert, embedding|[Alibaba-NLP/gte-modernbert-base](https://huggingface.co/Alibaba-NLP/gte-modernbert-base)|
diff --git a/docs/source_en/Instruction/Supported-models-and-datasets.md b/docs/source_en/Instruction/Supported-models-and-datasets.md
@@ -658,6 +658,8 @@ The table below introduces the models integrated with ms-swift:
 |[IQuestLab/IQuest-Coder-V1-40B-Base-Stage1](https://modelscope.cn/models/IQuestLab/IQuest-Coder-V1-40B-Base-Stage1)|iquestcoder|iquestcoder|transformers==4.52.4|&#x2718;|-|[IQuestLab/IQuest-Coder-V1-40B-Base-Stage1](https://huggingface.co/IQuestLab/IQuest-Coder-V1-40B-Base-Stage1)|
 |[IQuestLab/IQuest-Coder-V1-40B-Base](https://modelscope.cn/models/IQuestLab/IQuest-Coder-V1-40B-Base)|iquestcoder|iquestcoder|transformers==4.52.4|&#x2718;|-|[IQuestLab/IQuest-Coder-V1-40B-Base](https://huggingface.co/IQuestLab/IQuest-Coder-V1-40B-Base)|
 |[IQuestLab/IQuest-Coder-V1-40B-Instruct](https://modelscope.cn/models/IQuestLab/IQuest-Coder-V1-40B-Instruct)|iquestcoder|iquestcoder|transformers==4.52.4|&#x2718;|-|[IQuestLab/IQuest-Coder-V1-40B-Instruct](https://huggingface.co/IQuestLab/IQuest-Coder-V1-40B-Instruct)|
+|[Tencent-YouTu-Research/Youtu-LLM-2B](https://modelscope.cn/models/Tencent-YouTu-Research/Youtu-LLM-2B)|youtu_llm|youtu_llm|transformers>=4.56|&#x2718;|-|[tencent/Youtu-LLM-2B](https://huggingface.co/tencent/Youtu-LLM-2B)|
+|[Tencent-YouTu-Research/Youtu-LLM-2B-Base](https://modelscope.cn/models/Tencent-YouTu-Research/Youtu-LLM-2B-Base)|youtu_llm|youtu_llm|transformers>=4.56|&#x2718;|-|[tencent/Youtu-LLM-2B-Base](https://huggingface.co/tencent/Youtu-LLM-2B-Base)|
 |[answerdotai/ModernBERT-base](https://modelscope.cn/models/answerdotai/ModernBERT-base)|modern_bert|dummy|transformers>=4.48|&#x2718;|bert|[answerdotai/ModernBERT-base](https://huggingface.co/answerdotai/ModernBERT-base)|
 |[answerdotai/ModernBERT-large](https://modelscope.cn/models/answerdotai/ModernBERT-large)|modern_bert|dummy|transformers>=4.48|&#x2718;|bert|[answerdotai/ModernBERT-large](https://huggingface.co/answerdotai/ModernBERT-large)|
 |[iic/gte-modernbert-base](https://modelscope.cn/models/iic/gte-modernbert-base)|modern_bert_gte|dummy|transformers>=4.48|&#x2718;|bert, embedding|[Alibaba-NLP/gte-modernbert-base](https://huggingface.co/Alibaba-NLP/gte-modernbert-base)|
diff --git a/swift/llm/infer/rollout.py b/swift/llm/infer/rollout.py
@@ -394,9 +394,13 @@ def get_infer_engine(args: RolloutArguments, template=None, **kwargs):
         engine_kwargs = kwargs.get('engine_kwargs', {})
         # for RL rollout model weight sync
         engine_kwargs.update({'worker_extension_cls': 'swift.llm.infer.rollout.WeightSyncWorkerExtension'})
-        # Use load_format from engine_kwargs if provided, otherwise default to 'dummy'
-        if 'load_format' not in engine_kwargs:
-            engine_kwargs['load_format'] = 'dummy'
+
+        # For RL rollout, we use 'dummy' load_format to prevent vLLM from loading weights from disk,
+        # as they will be synced from the trainer process.
+        # This will accelerate the rollout speed.
+        load_format = engine_kwargs.pop('load_format', 'dummy')
+        kwargs['load_format'] = load_format
+
         if args.vllm_use_async_engine and args.vllm_data_parallel_size > 1:
             engine_kwargs['data_parallel_size'] = args.vllm_data_parallel_size
         kwargs['engine_kwargs'] = engine_kwargs
diff --git a/swift/llm/model/constant.py b/swift/llm/model/constant.py
@@ -144,6 +144,7 @@ class LLMModelType:
     longchat = 'longchat'
     minimind = 'minimind'
     iquestcoder = 'iquestcoder'
+    youtu_llm = 'youtu_llm'
 
 
 class BertModelType:
diff --git a/swift/llm/model/model/llm.py b/swift/llm/model/model/llm.py
@@ -413,3 +413,18 @@ def get_model_tokenizer_yuan(model_dir: str,
         requires=['transformers==4.52.4'],
         architectures=['IQuestCoderForCausalLM'],
     ))
+
+register_model(
+    ModelMeta(
+        LLMModelType.youtu_llm,
+        [
+            ModelGroup([
+                Model('Tencent-YouTu-Research/Youtu-LLM-2B', 'tencent/Youtu-LLM-2B'),
+                Model('Tencent-YouTu-Research/Youtu-LLM-2B-Base', 'tencent/Youtu-LLM-2B-Base'),
+            ])
+        ],
+        TemplateType.youtu_llm,
+        get_model_tokenizer_with_flash_attn,
+        architectures=['YoutuForCausalLM'],
+        requires=['transformers>=4.56'],
+    ))
diff --git a/swift/llm/template/constant.py b/swift/llm/template/constant.py
@@ -113,6 +113,7 @@ class LLMTemplateType:
     bert = 'bert'
     minimind = 'minimind'
     iquestcoder = 'iquestcoder'
+    youtu_llm = 'youtu_llm'
 
 
 class RMTemplateType:
diff --git a/swift/llm/template/template/llm.py b/swift/llm/template/template/llm.py
@@ -430,3 +430,56 @@ class GptOssTemplateMeta(TemplateMeta):
         LLMTemplateType.iquestcoder,
         default_system='You are LoopCoder, a helpful assistant developed by IQuest.',
     ))
+
+
+class YoutuLLMTemplate(Template):
+
+    def _remove_thinking_content(self, content: str) -> str:
+        if '</think>' in content:
+            content = content.rsplit('</think>', 1)[-1].lstrip('\n')
+        return self.template_meta.history_thinking_prefix + content.strip()
+
+    def _add_non_thinking_prefix(self, inputs) -> None:
+        messages = inputs.messages
+        non_thinking_prefix = self.template_meta.non_thinking_prefix
+        if non_thinking_prefix and messages:
+            # Find the last assistant message
+            for i in range(len(messages) - 1, -1, -1):
+                message = messages[i]
+                if message['role'] == 'assistant' and isinstance(message['content'], str):
+                    if '<think>' not in message['content'] and '</think>' not in message['content']:
+                        message['content'] = non_thinking_prefix + message['content']
+                    break
+
+    def _remove_history_thinking(self, inputs) -> None:
+        if self.is_training and self.loss_scale.base_strategy != 'last_round':
+            return
+        messages = inputs.messages
+        first_tool_index = len(messages)
+        for i, message in enumerate(messages):
+            if message['role'] == 'tool' or (message['role'] == 'user' and isinstance(message.get('content'), str)
+                                             and message['content'].startswith('<tool_response>')
+                                             and message['content'].endswith('</tool_response>')):
+                first_tool_index = i
+                break
+        # Only remove thinking content for assistant messages before first_tool_index - 1
+        for i, message in enumerate(messages):
+            if message['role'] == 'assistant' and isinstance(message['content'], str):
+                is_last = (i == len(messages) - 1)
+                if not is_last and i < first_tool_index - 1:
+                    message['content'] = self._remove_thinking_content(message['content'])
+
+
+register_template(
+    TemplateMeta(
+        LLMTemplateType.youtu_llm,
+        template_cls=YoutuLLMTemplate,
+        prefix=[['bos_token_id']],
+        system_prefix=[['bos_token_id'], '{{SYSTEM}}'],
+        prompt=['<|User|>{{QUERY}}<|Assistant|>'],
+        chat_sep=['<|end_of_text|>'],
+        suffix=['<|end_of_text|>'],
+        is_thinking=True,
+        non_thinking_prefix='<think>\n\n</think>\n\n',
+        agent_template='youtu',
+    ))
diff --git a/swift/megatron/model/gpt_bridge.py b/swift/megatron/model/gpt_bridge.py
@@ -282,6 +282,10 @@ def _set_module(self, mg_module, hf_state_dict, hf_prefix: str, to_mcore: bool):
                     hf_state_dict[k] = v
             elif hf_state_dict is None:
                 return {}
+            else:
+                if self._target_device is not None:
+                    for k, v in hf_state_dict.items():
+                        hf_state_dict[k] = v.to(self._target_device)
             return self._add_prefix(hf_state_dict, hf_prefix)
 
     def _all_gather_tp(self, tensor, tp_dim, is_expert):
@@ -1431,6 +1435,7 @@ def export_weights(self,
 
     def save_weights(self, mg_models, output_dir: str, is_peft_format: bool = False) -> None:
         """Save the mg_model checkpoint in HF format"""
+        torch.cuda.empty_cache()
         saver = StreamingSafetensorSaver(
             save_dir=output_dir, max_shard_size=self.args.max_shard_size, is_peft_format=is_peft_format)
         for k, v in self.export_weights(
diff --git a/swift/plugin/agent_template/__init__.py b/swift/plugin/agent_template/__init__.py
@@ -11,6 +11,7 @@
 from .react import ReactEnAgentTemplate, ReactZnAgentTemplate
 from .seed_oss import SeedAgentTemplate
 from .toolbench import ToolBenchAgentTemplate
+from .youtu import YoutuAgentTemplate
 
 agent_templates = {
     # ref: https://qwen.readthedocs.io/zh-cn/latest/framework/function_call.html#function-calling-templates
@@ -36,5 +37,6 @@
     'seed_oss': SeedAgentTemplate,
     # extra
     'react_grpo': ReactGRPOAgentTemplate,
-    'mistral': MistralAgentTemplate
+    'mistral': MistralAgentTemplate,
+    'youtu': YoutuAgentTemplate,
 }
diff --git a/swift/plugin/agent_template/youtu.py b/swift/plugin/agent_template/youtu.py
@@ -0,0 +1,67 @@
+# Copyright (c) Alibaba, Inc. and its affiliates.
+from typing import TYPE_CHECKING, List, Optional, Tuple, Union
+
+import json
+
+from .hermes import HermesAgentTemplate
+
+if TYPE_CHECKING:
+    from swift.llm.template import Prompt
+
+
+class YoutuAgentTemplate(HermesAgentTemplate):
+    """Agent template for Youtu-LLM models.
+
+    Tool calling format:
+    - Tool call: <tool_call>{"name": "function-name", "arguments": {...}}</tool_call>
+    - Tool response: <tool_response>...</tool_response>
+    """
+
+    def _get_tool_responses(self, tool_messages):
+        res_tool = []
+        for tool_message in tool_messages:
+            tool_content = tool_message['content']
+            res_tool.append(f'<tool_response>{tool_content}</tool_response>')
+        return '\n'.join(res_tool)
+
+    def _format_tool_responses(
+        self,
+        assistant_content: str,
+        tool_messages,
+    ) -> Tuple[str, 'Prompt']:
+        with_action = self.keyword.action in assistant_content and self.keyword.action_input in assistant_content
+        if with_action:
+            return super()._format_tool_responses(assistant_content, tool_messages)
+        # For Youtu-LLM, tool responses are placed in user message
+        if hasattr(self, 'template_meta'):
+            prompt = self.template_meta.prompt
+            chat_sep = self.template_meta.chat_sep
+        else:
+            prompt = ['<|User|>{{QUERY}}<|Assistant|>']
+            chat_sep = ['<|end_of_text|>']
+        res = chat_sep.copy()
+        total_tool = self._get_tool_responses(tool_messages)
+        for context in prompt:
+            if isinstance(context, str):
+                context = context.replace('{{QUERY}}', total_tool)
+            res.append(context)
+        return assistant_content, res
+
+    def _format_tools(self, tools: List[Union[str, dict]], system: Optional[str] = None, user_message=None) -> str:
+        tool_descs = [json.dumps(self.wrap_tool(tool), ensure_ascii=False) for tool in tools]
+        system = system or ''
+        if system:
+            system = f'{system}\n\n'
+        return f"""{system}<|begin_of_tool_description|>Tool calling capabilities.
+You may call one or more functions to assist with the user query. You have the following functions available:
+""" + '\n'.join([f'```json\n{desc}\n```' for desc in tool_descs]) + """
+For tool call returns, you MUST use the following format:
+<tool_call>{"name": "function-name", "arguments": {"param1": "value1", "param2": "value2"}}</tool_call>
+<|end_of_tool_description|>"""
+
+    def _format_tool_calls(self, tool_call_messages):
+        tool_calls = []
+        for message in tool_call_messages:
+            tool_call = self._parse_tool_call(message['content'])
+            tool_calls.append(f'<tool_call>{json.dumps(tool_call, ensure_ascii=False)}</tool_call>')
+        return ''.join(tool_calls)
diff --git a/swift/trainers/rlhf_trainer/rollout_mixin.py b/swift/trainers/rlhf_trainer/rollout_mixin.py
@@ -588,57 +588,40 @@ def _merge_lora_into_state_dict(self, state_dict: Dict[str, torch.Tensor]) -> Di
 
         return merged
 
-    def _get_merged_state_dict_for_vllm(self, parameter_group=None, parameter_group_no_lora=None):
-        """Get merged state dict ready for vLLM synchronization.
+    def _collect_state_dict_for_vllm(self, parameter_group=None, parameter_group_no_lora=None):
+        """Collect state dict for vLLM synchronization.
 
-        1. Gather parameters if needed (DeepSpeed Zero3)
-        2. Merge adapters in-place
-        3. Collect param.data (with full_tensor for FSDP2)
-        4. Unmerge adapters
+        This method only collects parameters without merge/unmerge.
+        Caller is responsible for merge/unmerge and gather context.
 
         Args:
             parameter_group: Optional parameter group to filter
             parameter_group_no_lora: Optional parameter group without LoRA names
 
         Returns:
-            State dict with LoRA merged, ready for vLLM
+            State dict ready for vLLM
         """
         is_peft = is_peft_model(self.model)
-        gather_if_zero3 = get_gather_if_zero3_context(self)
-
-        # Prepare parameters for gather (DeepSpeed Zero3 only)
-        parameters = [] if self._is_fsdp2 else list(self.model.parameters())
 
         raw_state_dict = {}
-        with gather_if_zero3(parameters):
-            # DeepSpeed: use merge_adapter() + param.data (works correctly)
-            # FSDP2: skip merge_adapter() (unmerge doesn't work correctly with DTensor)
-            if is_peft and not self._is_fsdp2:
-                with patch_lora_merge(self.model, parameter_group):
-                    self.model.merge_adapter()
-
-            try:
-                if self._is_fsdp2:
-                    # FSDP2: must use state_dict() (named_parameters returns sharded values)
-                    # Keep LoRA weights for tensor-level merge later
-                    for name, param in self.model.state_dict().items():
-                        if parameter_group and name not in parameter_group:
-                            continue
-                        if hasattr(param, 'full_tensor'):
-                            if param.is_cpu:
-                                param = param.to(torch.device('cuda'))
-                            param = param.full_tensor()
-                        raw_state_dict[name] = param.clone()
-                else:
-                    # DeepSpeed: use named_parameters + param.data
-                    for name, param in self.model.named_parameters():
-                        if parameter_group and name not in parameter_group:
-                            continue
-                        raw_state_dict[name] = param.data.clone()
-            finally:
-                if is_peft and not self._is_fsdp2:
-                    with patch_lora_unmerge(self.model):
-                        self.model.unmerge_adapter()
+        if self._is_fsdp2:
+            # FSDP2: must use state_dict() (named_parameters returns sharded values)
+            # Keep LoRA weights for tensor-level merge later
+            for name, param in self.model.state_dict().items():
+                if parameter_group and name not in parameter_group:
+                    continue
+                if hasattr(param, 'full_tensor'):
+                    if param.is_cpu:
+                        param = param.to(torch.device('cuda'))
+                    param = param.full_tensor()
+                raw_state_dict[name] = param
+        else:
+            # DeepSpeed: use named_parameters + param.data
+            # No clone needed: unmerge happens after _load_state_dict_to_vllm completes
+            for name, param in self.model.named_parameters():
+                if parameter_group and name not in parameter_group:
+                    continue
+                raw_state_dict[name] = param.data
 
         # Process: clean names, filter adapters (keep LoRA for FSDP2 to merge at tensor level)
         state_dict = self._process_state_dict_for_vllm(
@@ -660,13 +643,38 @@ def _get_merged_state_dict_for_vllm(self, parameter_group=None, parameter_group_
         return state_dict
 
     def _move_full_model_to_vllm(self):
-        """Transfer full model weights to vLLM engine."""
+        """Transfer full model weights to vLLM engine.
+
+        Manages the lifecycle of gather and merge/unmerge:
+        - gather_if_zero3: once for the entire sync (DeepSpeed Zero3)
+        - merge/unmerge: per parameter_group (must be within gather context)
+        - No clone needed: unmerge happens after load completes
+        """
         is_peft = is_peft_model(self.model)
+        # For DeepSpeed, merge within gather context; FSDP2 uses tensor-level merge
+        should_merge = is_peft and not self._is_fsdp2
 
-        for i, parameter_group in enumerate(self.parameter_groups):
-            parameter_group_no_lora = self.parameter_groups_no_lora[i]
-            state_dict = self._get_merged_state_dict_for_vllm(parameter_group, parameter_group_no_lora)
-            self._load_state_dict_to_vllm(state_dict)
+        gather_if_zero3 = get_gather_if_zero3_context(self)
+        parameters = [] if self._is_fsdp2 else list(self.model.parameters())
+
+        with gather_if_zero3(parameters):
+            for i, parameter_group in enumerate(self.parameter_groups):
+                parameter_group_no_lora = self.parameter_groups_no_lora[i]
+
+                # Merge must be within gather context (needs full parameters)
+                if should_merge:
+                    with patch_lora_merge(self.model, parameter_group):
+                        self.model.merge_adapter()
+
+                try:
+                    # Collect without clone - unmerge happens after load
+                    state_dict = self._collect_state_dict_for_vllm(parameter_group, parameter_group_no_lora)
+                    # Data is copied here (FlattenedTensorBucket.copy_ or vLLM load_weights)
+                    self._load_state_dict_to_vllm(state_dict)
+                finally:
+                    if should_merge:
+                        with patch_lora_unmerge(self.model):
+                            self.model.unmerge_adapter()
 
         if is_peft:
             self.base_sync_done = True
diff --git a/tests/test_align/test_template/test_agent.py b/tests/test_align/test_template/test_agent.py
diff --git a/tests/test_align/test_template/test_llm.py b/tests/test_align/test_template/test_llm.py