clean

hjh0119 · hjh0119 · commit fc1b673e1159 · 2026-03-02T14:02:30.000+08:00
diff --git a/swift/megatron/arguments/megatron_args.py b/swift/megatron/arguments/megatron_args.py
@@ -52,14 +52,7 @@ class RLHFMegatronArgumentsMixin:
             'URL of the teacher model server (e.g., http://localhost:8000). '
             'When set, teacher logprobs are fetched via API instead of loading a local model.'
         })
-    gkd_logits_topk: Optional[int] = field(
-        default=None,
-        metadata={
-            'help':
-            'Number of top-k logits for KL computation in GKD. '
-            'None = full vocabulary, positive integer = top-k only. '
-            'When using teacher_model_server, limited by server max_logprobs (vLLM default: 20).'
-        })
+    gkd_logits_topk: Optional[int] = None
     lmbda: float = 0.5  # On-policy probability: with prob lmbda, use student-generated responses
     seq_kd: bool = False  # Sequential KD: use teacher-generated responses when not on-policy
     offload_teacher_model: bool = False  # Offload teacher model to CPU to save GPU memory
diff --git a/swift/megatron/pipelines/train/rlhf.py b/swift/megatron/pipelines/train/rlhf.py
@@ -31,8 +31,6 @@ def prepare_trainer(self):
         kwargs = {}
         if args.rlhf_type in ('grpo', 'gkd'):
             kwargs['vllm_client'] = self._prepare_vllm_client()
-        if args.rlhf_type == 'gkd':
-            kwargs['teacher_api_client'] = self._prepare_teacher_api_client()
         return trainer_cls(args, self.template, **kwargs)
 
     def _prepare_template(self) -> None:
@@ -70,19 +68,6 @@ def _prepare_vllm_client(self):
             logger.info('Connected to vLLM server')
         return vllm_client
 
-    def _prepare_teacher_api_client(self):
-        """Prepare teacher API client for external teacher model service.
-
-        In Megatron with pure Data Parallel (TP=PP=CP=1), each rank processes different data
-        and needs its own API client. With model parallelism (TP/PP/CP > 1), one rank per
-        model parallel group calls the API and broadcasts results.
-        """
-        from swift.rlhf_trainers.utils import create_teacher_api_client
-        from swift.utils import is_last_rank
-        if is_last_rank():
-            return create_teacher_api_client(self.args, check_health=True, timeout=60)
-        return None
-
 
 def megatron_rlhf_main(args: Optional[Union[List[str], MegatronRLHFArguments]] = None):
     return MegatronRLHF(args).main()
diff --git a/swift/megatron/trainers/gkd_trainer.py b/swift/megatron/trainers/gkd_trainer.py
@@ -34,7 +34,6 @@ class MegatronGKDTrainer(MegatronRolloutMixin, MegatronRLHFTrainer):
 
     def __init__(self, args: MegatronArguments, template, **kwargs):
         self.vllm_client = kwargs.pop('vllm_client', None)
-        self.teacher_api_client = kwargs.pop('teacher_api_client', None)
 
         # GKD-specific parameters
         self.beta = args.beta  # JSD interpolation coefficient
@@ -50,7 +49,8 @@ def __init__(self, args: MegatronArguments, template, **kwargs):
         self.gkd_logits_topk = getattr(args, 'gkd_logits_topk', None)
         # Check use_teacher_api based on args, not client existence
         # (API client is only created on last rank, but all ranks need to know the mode)
-        self.use_teacher_api = getattr(args, 'teacher_model_server', None) is not None
+        self.teacher_model_server = getattr(args, 'teacher_model_server', None)
+        self.use_teacher_api = self.teacher_model_server is not None
 
         # Validate teacher configuration
         if not self.use_teacher_api:
@@ -295,11 +295,12 @@ def _compute_teacher_logits_local(self, encoded_batches: List[Dict], vp_stage: O
 
     def _compute_teacher_logits_from_api(self, encoded_batches: List[Dict]) -> None:
         """Fetch teacher logprobs from external API service."""
+        from swift.rlhf_trainers.teacher_api_client import fetch_teacher_logprobs
         topk = self.gkd_logits_topk
         for encoded_batch in encoded_batches:
             input_ids = encoded_batch['input_ids']
-            teacher_logprobs, teacher_indices = self.teacher_api_client.get_logprobs_sync(
-                input_ids=input_ids.tolist(), top_logprobs=topk)
+            teacher_logprobs, teacher_indices = fetch_teacher_logprobs(
+                self.teacher_model_server, input_ids.tolist(), topk=topk)
             encoded_batch['teacher_api_logprobs'] = teacher_logprobs.to(input_ids.device)
             encoded_batch['teacher_api_indices'] = teacher_indices.to(input_ids.device)
             encoded_batch['teacher_logits'] = None
diff --git a/swift/pipelines/train/rlhf.py b/swift/pipelines/train/rlhf.py
@@ -233,18 +233,9 @@ def _get_trainer_kwargs(self):
         if self.args.rlhf_type == 'gkd':
             if self.args.teacher_deepspeed:
                 trainer_kwargs['teacher_deepspeed_config'] = self.args.teacher_deepspeed
-            # Pass GKD-specific args to trainer
             trainer_kwargs['gkd_logits_topk'] = self.args.gkd_logits_topk
-            # Initialize teacher API client if using external teacher service
             if self.args.teacher_model_server:
-                # Pass teacher_model_server so trainer knows to use API mode on all ranks
                 trainer_kwargs['teacher_model_server'] = self.args.teacher_model_server
-                from swift.rlhf_trainers.utils import create_teacher_api_client
-
-                # In DP mode (DeepSpeed/FSDP), each rank has different data and needs its own client
-                # Use all_ranks=True so every rank can independently fetch teacher logprobs
-                trainer_kwargs['teacher_api_client'] = create_teacher_api_client(
-                    self.args, check_health=False, timeout=60)
         return trainer_kwargs
 
 
diff --git a/swift/rlhf_trainers/__init__.py b/swift/rlhf_trainers/__init__.py
@@ -15,7 +15,7 @@
     from .ppo_trainer import PPOTrainer
     from .reward_trainer import RewardTrainer
     from .rlhf_mixin import RLHFTrainerMixin
-    from .teacher_api_client import TeacherAPIClient
+    from .teacher_api_client import fetch_teacher_logprobs
     from .utils import _ForwardRedirection, patch_lora_merge, patch_lora_unmerge, round_robin
     from .vllm_client import VLLMClient
 else:
@@ -32,7 +32,7 @@
         'args_mixin': ['VllmArguments', 'GRPOArgumentsMixin'],
         'utils': ['patch_lora_merge', 'patch_lora_unmerge', 'round_robin', '_ForwardRedirection'],
         'vllm_client': ['VLLMClient'],
-        'teacher_api_client': ['TeacherAPIClient'],
+        'teacher_api_client': ['fetch_teacher_logprobs'],
         'arguments':
         ['DPOConfig', 'CPOConfig', 'KTOConfig', 'ORPOConfig', 'PPOConfig', 'RewardConfig', 'GRPOConfig', 'GKDConfig']
     }
diff --git a/swift/rlhf_trainers/gkd_trainer.py b/swift/rlhf_trainers/gkd_trainer.py
@@ -57,7 +57,6 @@ def __init__(self, model: Optional[Union[PreTrainedModel, nn.Module, str]] = Non
         teacher_model = kwargs.pop('teacher_model', None)
         teacher_deepspeed_config = kwargs.pop('teacher_deepspeed_config', None)
         self.vllm_client = kwargs.pop('vllm_client', None)
-        self.teacher_api_client = kwargs.pop('teacher_api_client', None)
         self.gkd_logits_topk = kwargs.pop('gkd_logits_topk', None)
         teacher_model_server = kwargs.pop('teacher_model_server', None)
         super().__init__(model, None, *_args, **kwargs)
@@ -69,6 +68,7 @@ def __init__(self, model: Optional[Union[PreTrainedModel, nn.Module, str]] = Non
         self._metrics = {'train': defaultdict(list), 'eval': defaultdict(list)}
         self._total_train_tokens = 0
 
+        self.teacher_model_server = teacher_model_server
         self.use_teacher_api = teacher_model_server is not None
 
         # Initialize logging components
@@ -469,12 +469,10 @@ def _fetch_teacher_logprobs_from_api(self, encoded_inputs: Dict[str, torch.Tenso
         Returns:
             Tuple of (teacher_logprobs, teacher_indices) tensors with shapes [batch, seq_len, topk]
         """
+        from .teacher_api_client import fetch_teacher_logprobs
         input_ids = encoded_inputs['input_ids']
-        topk = self.gkd_logits_topk
-        teacher_logprobs, teacher_indices = self.teacher_api_client.get_logprobs_sync(
-            input_ids=input_ids.tolist(),
-            top_logprobs=topk,
-        )
+        teacher_logprobs, teacher_indices = fetch_teacher_logprobs(
+            self.teacher_model_server, input_ids.tolist(), topk=self.gkd_logits_topk)
         return teacher_logprobs.to(input_ids.device), teacher_indices.to(input_ids.device)
 
     def prediction_step(self, model, inputs, *args, **kwargs):
diff --git a/swift/rlhf_trainers/teacher_api_client.py b/swift/rlhf_trainers/teacher_api_client.py
@@ -1,5 +1,5 @@
 # Copyright (c) ModelScope Contributors. All rights reserved.
-"""Client for fetching teacher model logprobs from OpenAI-compatible endpoints."""
+"""Fetch teacher model logprobs from OpenAI-compatible endpoints."""
 import logging
 import requests
 import torch
@@ -8,86 +8,72 @@
 
 logger = logging.getLogger(__name__)
 
+_model_name_cache: dict = {}
 
-class TeacherAPIClient:
-    """Fetch teacher top-k logprobs from an OpenAI-compatible completions API.
+
+def _get_model_name(base_url: str) -> str:
+    if base_url not in _model_name_cache:
+        try:
+            resp = requests.get(f'{base_url}/v1/models', timeout=10)
+            if resp.ok and resp.json().get('data'):
+                _model_name_cache[base_url] = resp.json()['data'][0]['id']
+        except Exception as e:
+            logger.warning(f'Failed to detect model name: {e}')
+        if base_url not in _model_name_cache:
+            _model_name_cache[base_url] = 'default'
+    return _model_name_cache[base_url]
+
+
+def fetch_teacher_logprobs(
+    base_url: str,
+    input_ids: List[List[int]],
+    topk: int = 20,
+    timeout: float = 300.0,
+) -> Tuple[torch.Tensor, torch.Tensor]:
+    """Fetch top-k logprobs from an OpenAI-compatible completions API.
 
     Args:
         base_url: Server URL (e.g., 'http://localhost:8000').
-        top_logprobs: Number of top log probabilities per token.
+        input_ids: List of token ID sequences.
+        topk: Number of top log probabilities per token.
         timeout: Request timeout in seconds.
-    """
 
-    def __init__(self, base_url: str, top_logprobs: int = 20, timeout: float = 300.0):
-        self.base_url = base_url.rstrip('/')
-        self.top_logprobs = top_logprobs
-        self.timeout = timeout
-        self._model_name = None
+    Returns:
+        (logprobs, indices) tensors of shape [batch, max_seq_len, topk].
+    """
+    base_url = base_url.rstrip('/')
+    batch_size = len(input_ids)
+    max_seq_len = max(len(ids) for ids in input_ids)
+    url = f'{base_url}/v1/completions'
+    model = _get_model_name(base_url)
 
-    @property
-    def model_name(self) -> str:
-        if self._model_name is None:
-            try:
-                resp = requests.get(f'{self.base_url}/v1/models', timeout=10)
-                if resp.ok and resp.json().get('data'):
-                    self._model_name = resp.json()['data'][0]['id']
-            except Exception as e:
-                logger.warning(f'Failed to detect model name: {e}')
-            if self._model_name is None:
-                self._model_name = 'default'
-        return self._model_name
+    logprobs_out = torch.full((batch_size, max_seq_len, topk), float('-inf'), dtype=torch.float32)
+    indices_out = torch.zeros((batch_size, max_seq_len, topk), dtype=torch.long)
 
-    def check_health(self, timeout: float = 5.0) -> bool:
-        """Check if the teacher model server is reachable."""
+    def _fetch_one(batch_idx: int):
+        payload = {
+            'model': model,
+            'prompt': input_ids[batch_idx],
+            'max_tokens': 0,
+            'temperature': 0,
+            'logprobs': topk,
+            'echo': True,
+        }
         try:
-            resp = requests.get(f'{self.base_url}/v1/models', timeout=timeout)
-            return resp.ok
-        except requests.RequestException:
-            return False
-
-    def get_logprobs_sync(
-        self,
-        input_ids: List[List[int]],
-        top_logprobs: Optional[int] = None,
-    ) -> Tuple[torch.Tensor, torch.Tensor]:
-        """Fetch top-k logprobs for a batch of token sequences.
-
-        Returns:
-            (logprobs, indices) tensors of shape [batch, max_seq_len, topk].
-        """
-        topk = top_logprobs or self.top_logprobs
-        batch_size = len(input_ids)
-        max_seq_len = max(len(ids) for ids in input_ids)
-        url = f'{self.base_url}/v1/completions'
-        model = self.model_name
-
-        logprobs_out = torch.full((batch_size, max_seq_len, topk), float('-inf'), dtype=torch.float32)
-        indices_out = torch.zeros((batch_size, max_seq_len, topk), dtype=torch.long)
-
-        def _fetch_one(batch_idx: int):
-            payload = {
-                'model': model,
-                'prompt': input_ids[batch_idx],
-                'max_tokens': 0,
-                'temperature': 0,
-                'logprobs': topk,
-                'echo': True,
-            }
-            try:
-                resp = requests.post(url, json=payload, timeout=self.timeout)
-                resp.raise_for_status()
-                top_logprobs_list = resp.json()['choices'][0].get('logprobs', {}).get('top_logprobs', [])
-                for pos, pos_lp in enumerate(top_logprobs_list):
-                    if pos_lp is None:
-                        continue
-                    sorted_items = sorted(pos_lp.items(), key=lambda x: -x[1])[:topk]
-                    for k, (tid_str, lp) in enumerate(sorted_items):
-                        indices_out[batch_idx, pos, k] = int(tid_str)
-                        logprobs_out[batch_idx, pos, k] = lp
-            except Exception as e:
-                logger.error(f'Failed to get logprobs for sequence {batch_idx}: {e}')
+            resp = requests.post(url, json=payload, timeout=timeout)
+            resp.raise_for_status()
+            top_logprobs_list = resp.json()['choices'][0].get('logprobs', {}).get('top_logprobs', [])
+            for pos, pos_lp in enumerate(top_logprobs_list):
+                if pos_lp is None:
+                    continue
+                sorted_items = sorted(pos_lp.items(), key=lambda x: -x[1])[:topk]
+                for k, (tid_str, lp) in enumerate(sorted_items):
+                    indices_out[batch_idx, pos, k] = int(tid_str)
+                    logprobs_out[batch_idx, pos, k] = lp
+        except Exception as e:
+            logger.error(f'Failed to get logprobs for sequence {batch_idx}: {e}')
 
-        with ThreadPoolExecutor(max_workers=min(batch_size, 8)) as pool:
-            list(pool.map(_fetch_one, range(batch_size)))
+    with ThreadPoolExecutor(max_workers=min(batch_size, 8)) as pool:
+        list(pool.map(_fetch_one, range(batch_size)))
 
-        return logprobs_out, indices_out
+    return logprobs_out, indices_out
diff --git a/swift/rlhf_trainers/utils.py b/swift/rlhf_trainers/utils.py
@@ -1472,32 +1472,6 @@ def check_vllm_version_ge(min_version: str) -> bool:
     return version.parse(vllm_version) >= version.parse(min_version)
 
 
-def create_teacher_api_client(args, check_health: bool = True, timeout: int = 60):
-    """Create TeacherAPIClient for external teacher model service.
-
-    Returns:
-        TeacherAPIClient instance or None if teacher_model_server is not set
-    """
-    teacher_model_server = getattr(args, 'teacher_model_server', None)
-    if not teacher_model_server:
-        return None
-
-    from swift.rlhf_trainers import TeacherAPIClient
-
-    logger = get_logger()
-    gkd_logits_topk = getattr(args, 'gkd_logits_topk', None) or 20
-
-    logger.info(f'Initializing teacher API client for {teacher_model_server}')
-    teacher_api_client = TeacherAPIClient(
-        base_url=teacher_model_server,
-        top_logprobs=gkd_logits_topk,
-    )
-    if check_health:
-        teacher_api_client.check_health(timeout=timeout)
-    logger.info(f'Teacher API client initialized with top_logprobs={gkd_logits_topk}')
-    return teacher_api_client
-
-
 # ============================================================================
 # Padding-free utilities
 # ============================================================================