[tts] Refactor inference and test-time scaling ownership

taivu1998 · taivu1998 · commit d1d4d2b592ed · 2026-04-15T11:12:16.000-07:00
diff --git a/experiments/evals/run_reasoning_tts.py b/experiments/evals/run_reasoning_tts.py
@@ -10,12 +10,12 @@
 
 from rigging.log_setup import configure_logging
 
-from marin.evaluation.evaluators.evaluator import ModelConfig
+from marin.inference.chat_completions import OpenAIChatCompletionProvider
+from marin.inference.model_config import ModelConfig
 from marin.inference.vllm_server import VllmEnvironment
 from marin.test_time_scaling import (
     DEFAULT_REASONING_SELECTORS,
     CandidateGenerationConfig,
-    OpenAIChatCompletionProvider,
     SelectorName,
     TestTimeScalingConfig,
     build_run_summary,
diff --git a/lib/marin/src/marin/evaluation/evaluators/evalchemy_evaluator.py b/lib/marin/src/marin/evaluation/evaluators/evalchemy_evaluator.py
@@ -36,8 +36,9 @@
 from rigging.filesystem import filesystem as marin_filesystem
 
 from marin.evaluation.evaluation_config import WANDB_PROJECT, EvalTaskConfig
-from marin.evaluation.evaluators.evaluator import Evaluator, ModelConfig, launch_evaluate_with_ray
+from marin.evaluation.evaluators.evaluator import Evaluator, launch_evaluate_with_ray
 from marin.evaluation.utils import is_remote_path, upload_to_gcs
+from marin.inference.model_config import ModelConfig
 from marin.inference.vllm_server import resolve_model_name_or_path
 
 logger = logging.getLogger(__name__)
diff --git a/lib/marin/src/marin/evaluation/evaluators/evaluator.py b/lib/marin/src/marin/evaluation/evaluators/evaluator.py
@@ -4,11 +4,11 @@
 from abc import ABC, abstractmethod
 from collections.abc import Sequence
 from dataclasses import dataclass
-from typing import Any
 
 from fray.v1.cluster import Entrypoint, EnvironmentConfig, JobRequest, ResourceConfig, current_cluster
 
 from marin.evaluation.evaluation_config import EvalTaskConfig
+from marin.inference.model_config import ModelConfig
 from marin.utils import remove_tpu_lockfile_on_exit
 from rigging.log_setup import configure_logging as _init_logging
 
@@ -27,35 +27,6 @@ def __str__(self):
         return f"{self.name}=={self.version}" if self.version else self.name
 
 
-@dataclass
-class ModelConfig:
-    name: str
-    """The name of the model e.g., allenai/olmo-7b"""
-
-    path: str | None
-    """
-    The path to the model checkpoint. Can be a local path or a path on GCS.
-    """
-
-    engine_kwargs: dict[str, Any]
-    """
-    Additional keyword arguments to pass to the vLLM engine.
-    """
-
-    generation_params: dict | None = None
-    """
-    Additional keyword arguments passed to the SamplingParams for the vLLM engine
-    """
-
-    apply_chat_template: bool = False
-    """
-    Whether or not this model was trained with a Chat Template in the tokenizer
-    """
-
-    base_eval_run_name: str | None = None
-    """Custom base name for wandb runs."""
-
-
 class Evaluator(ABC):
     @abstractmethod
     def launch_evaluate_with_ray(
diff --git a/lib/marin/src/marin/evaluation/evaluators/harbor_evaluator.py b/lib/marin/src/marin/evaluation/evaluators/harbor_evaluator.py
@@ -28,8 +28,9 @@
 from rigging.filesystem import open_url
 
 from marin.evaluation.evaluation_config import EvalTaskConfig
-from marin.evaluation.evaluators.evaluator import Evaluator, ModelConfig, launch_evaluate_with_ray
+from marin.evaluation.evaluators.evaluator import Evaluator, launch_evaluate_with_ray
 from marin.evaluation.utils import download_from_gcs, is_remote_path, upload_to_gcs
+from marin.inference.model_config import ModelConfig
 from marin.inference.vllm_server import VLLM_NATIVE_PIP_PACKAGES, VllmEnvironment, resolve_vllm_mode
 from marin.utils import fsspec_exists, fsspec_glob
 
diff --git a/lib/marin/src/marin/evaluation/evaluators/levanter_lm_eval_evaluator.py b/lib/marin/src/marin/evaluation/evaluators/levanter_lm_eval_evaluator.py
@@ -15,10 +15,10 @@
 from levanter.tracker.wandb import WandbConfig
 from levanter.trainer import TrainerConfig
 
+from fray.v1.cluster.ray.deps import build_runtime_env_for_packages
 from marin.evaluation.evaluation_config import EvalTaskConfig, convert_to_levanter_task_config
-from marin.evaluation.evaluators.evaluator import ModelConfig
 from marin.evaluation.evaluators.levanter_tpu_evaluator import LevanterTpuEvaluator
-from fray.v1.cluster.ray.deps import build_runtime_env_for_packages
+from marin.inference.model_config import ModelConfig
 
 logger = logging.getLogger(__name__)
 
diff --git a/lib/marin/src/marin/evaluation/evaluators/levanter_tpu_evaluator.py b/lib/marin/src/marin/evaluation/evaluators/levanter_tpu_evaluator.py
@@ -6,7 +6,8 @@
 from fray.v1.cluster import ResourceConfig
 
 from marin.evaluation.evaluation_config import EvalTaskConfig
-from marin.evaluation.evaluators.evaluator import Evaluator, ModelConfig, launch_evaluate_with_ray
+from marin.evaluation.evaluators.evaluator import Evaluator, launch_evaluate_with_ray
+from marin.inference.model_config import ModelConfig
 
 
 class LevanterTpuEvaluator(Evaluator, ABC):
diff --git a/lib/marin/src/marin/evaluation/evaluators/lm_evaluation_harness_evaluator.py b/lib/marin/src/marin/evaluation/evaluators/lm_evaluation_harness_evaluator.py
@@ -15,8 +15,9 @@
 from rigging.filesystem import open_url, url_to_fs
 
 from marin.evaluation.evaluation_config import EvalTaskConfig
-from marin.evaluation.evaluators.evaluator import Evaluator, ModelConfig, launch_evaluate_with_ray
+from marin.evaluation.evaluators.evaluator import Evaluator, launch_evaluate_with_ray
 from marin.evaluation.utils import is_remote_path, upload_to_gcs
+from marin.inference.model_config import ModelConfig
 from marin.inference.vllm_server import VLLM_NATIVE_PIP_PACKAGES, VllmEnvironment, resolve_vllm_mode
 
 logger = logging.getLogger(__name__)
diff --git a/lib/marin/src/marin/evaluation/evaluators/simple_evaluator.py b/lib/marin/src/marin/evaluation/evaluators/simple_evaluator.py
@@ -9,7 +9,8 @@
 from fray.v1.cluster import ResourceConfig
 
 from marin.evaluation.evaluation_config import EvalTaskConfig
-from marin.evaluation.evaluators.evaluator import Evaluator, ModelConfig, launch_evaluate_with_ray
+from marin.evaluation.evaluators.evaluator import Evaluator, launch_evaluate_with_ray
+from marin.inference.model_config import ModelConfig
 from marin.inference.vllm_server import VLLM_NATIVE_PIP_PACKAGES, resolve_model_name_or_path, resolve_vllm_mode
 
 
diff --git a/lib/marin/src/marin/evaluation/run.py b/lib/marin/src/marin/evaluation/run.py
@@ -21,13 +21,14 @@
 from fray.v1.cluster import TpuConfig as V1TpuConfig
 
 from marin.evaluation.evaluation_config import EvaluationConfig
-from marin.evaluation.evaluators.evaluator import Evaluator, ModelConfig
+from marin.evaluation.evaluators.evaluator import Evaluator
 from marin.evaluation.evaluators.evalchemy_evaluator import EvalchemyEvaluator
 from marin.evaluation.evaluators.harbor_evaluator import HarborEvaluator
 from marin.evaluation.evaluators.levanter_lm_eval_evaluator import LevanterLmEvalEvaluator
 from marin.evaluation.evaluators.lm_evaluation_harness_evaluator import LMEvaluationHarnessEvaluator
 from marin.evaluation.evaluators.simple_evaluator import SimpleEvaluator
 from marin.evaluation.utils import discover_hf_checkpoints
+from marin.inference.model_config import ModelConfig
 from marin.utils import fsspec_exists
 
 logger = logging.getLogger(__name__)
diff --git a/lib/marin/src/marin/inference/chat_completions.py b/lib/marin/src/marin/inference/chat_completions.py
@@ -0,0 +1,74 @@
+# Copyright The Marin Authors
+# SPDX-License-Identifier: Apache-2.0
+
+from __future__ import annotations
+
+from dataclasses import dataclass
+from typing import Any, Protocol
+
+from openai import OpenAI
+from openai.types.chat import ChatCompletion
+
+
+@dataclass(frozen=True)
+class ChatCompletionRequest:
+    """OpenAI-compatible chat completion request parameters."""
+
+    messages: tuple[dict[str, str], ...]
+    num_completions: int
+    temperature: float
+    top_p: float = 1.0
+    max_tokens: int | None = None
+    seed: int | None = None
+    logprobs: bool = False
+
+    def __post_init__(self) -> None:
+        if self.num_completions <= 0:
+            raise ValueError("num_completions must be positive")
+        if self.temperature < 0:
+            raise ValueError("temperature must be non-negative")
+        if not 0 < self.top_p <= 1.0:
+            raise ValueError("top_p must be in the interval (0, 1]")
+        if self.max_tokens is not None and self.max_tokens <= 0:
+            raise ValueError("max_tokens must be positive when set")
+
+
+class CompletionProvider(Protocol):
+    """Protocol for chat completion backends used by inference clients."""
+
+    def complete_messages(self, request: ChatCompletionRequest) -> ChatCompletion:
+        """Return an OpenAI-compatible chat completion response."""
+
+
+class OpenAIChatCompletionProvider:
+    """Minimal synchronous OpenAI-compatible completion provider."""
+
+    def __init__(
+        self,
+        *,
+        server_url: str,
+        model: str,
+        api_key: str = "marin-tts",
+        timeout: float | None = None,
+        extra_request_kwargs: dict[str, Any] | None = None,
+    ) -> None:
+        self._client = OpenAI(base_url=server_url, api_key=api_key, timeout=timeout)
+        self._model = model
+        self._extra_request_kwargs = dict(extra_request_kwargs or {})
+
+    def complete_messages(self, request: ChatCompletionRequest) -> ChatCompletion:
+        request_kwargs: dict[str, Any] = {
+            "model": self._model,
+            "messages": list(request.messages),
+            "n": request.num_completions,
+            "temperature": request.temperature,
+            "top_p": request.top_p,
+            "logprobs": request.logprobs,
+            **self._extra_request_kwargs,
+        }
+        if request.max_tokens is not None:
+            request_kwargs["max_tokens"] = request.max_tokens
+        if request.seed is not None:
+            request_kwargs["seed"] = request.seed
+
+        return self._client.chat.completions.create(**request_kwargs)
diff --git a/lib/marin/src/marin/inference/model_config.py b/lib/marin/src/marin/inference/model_config.py
@@ -0,0 +1,19 @@
+# Copyright The Marin Authors
+# SPDX-License-Identifier: Apache-2.0
+
+from __future__ import annotations
+
+from dataclasses import dataclass
+from typing import Any
+
+
+@dataclass
+class ModelConfig:
+    """Configuration for launching or querying an inference model."""
+
+    name: str
+    path: str | None
+    engine_kwargs: dict[str, Any]
+    generation_params: dict | None = None
+    apply_chat_template: bool = False
+    base_eval_run_name: str | None = None
diff --git a/lib/marin/src/marin/inference/vllm_server.py b/lib/marin/src/marin/inference/vllm_server.py
@@ -21,7 +21,7 @@
 import requests
 from rigging.filesystem import marin_prefix
 
-from marin.evaluation.evaluators.evaluator import ModelConfig
+from marin.inference.model_config import ModelConfig
 
 logger = logging.getLogger(__name__)
 DEFAULT_VLLM_TPU_DOCKER_IMAGE: str = "vllm/vllm-tpu:nightly-20260104-4a1e25b-0d4044e"
diff --git a/lib/marin/src/marin/inference/vllm_smoke_test.py b/lib/marin/src/marin/inference/vllm_smoke_test.py
@@ -12,7 +12,7 @@
 import requests
 from fray.v1.cluster import Entrypoint, EnvironmentConfig, JobRequest, ResourceConfig, current_cluster
 
-from marin.evaluation.evaluators.evaluator import ModelConfig
+from marin.inference.model_config import ModelConfig
 from marin.inference.vllm_server import VLLM_NATIVE_PIP_PACKAGES, VllmEnvironment, resolve_vllm_mode
 from marin.utils import remove_tpu_lockfile_on_exit
 
diff --git a/lib/marin/src/marin/test_time_scaling/__init__.py b/lib/marin/src/marin/test_time_scaling/__init__.py
@@ -9,7 +9,7 @@
     SelectorName,
     TestTimeScalingConfig,
 )
-from marin.test_time_scaling.generate import CompletionProvider, OpenAIChatCompletionProvider, generate_candidates
+from marin.test_time_scaling.generate import generate_candidates
 from marin.test_time_scaling.manifests import (
     MANIFEST_FILENAME,
     PROMPTS_FILENAME,
diff --git a/lib/marin/src/marin/test_time_scaling/generate.py b/lib/marin/src/marin/test_time_scaling/generate.py
@@ -4,72 +4,16 @@
 from __future__ import annotations
 
 import time
-from collections.abc import Sequence
-from typing import Any, Protocol
 
-from openai import OpenAI
-from openai.types.chat import ChatCompletion
 from openai.types.chat.chat_completion import Choice
 
+from marin.inference.chat_completions import ChatCompletionRequest, CompletionProvider
 from marin.test_time_scaling.config import CandidateGenerationConfig
 from marin.test_time_scaling.manifests import PromptManifest, PromptManifestRecord
 from marin.test_time_scaling.results import CandidateRecord
 from marin.test_time_scaling.scorers import score_candidate_text
 
 
-class CompletionProvider(Protocol):
-    """Protocol for an OpenAI-compatible chat completion backend."""
-
-    def complete_messages(
-        self,
-        messages: Sequence[dict[str, str]],
-        generation_config: CandidateGenerationConfig,
-        request_index: int,
-    ) -> ChatCompletion:
-        """Return an OpenAI-compatible chat completion response."""
-
-
-class OpenAIChatCompletionProvider:
-    """Minimal synchronous OpenAI-compatible completion provider."""
-
-    def __init__(
-        self,
-        *,
-        server_url: str,
-        model: str,
-        api_key: str = "marin-tts",
-        timeout: float | None = None,
-        extra_request_kwargs: dict[str, Any] | None = None,
-    ) -> None:
-        self._client = OpenAI(base_url=server_url, api_key=api_key, timeout=timeout)
-        self._model = model
-        self._extra_request_kwargs = dict(extra_request_kwargs or {})
-
-    def complete_messages(
-        self,
-        messages: Sequence[dict[str, str]],
-        generation_config: CandidateGenerationConfig,
-        request_index: int,
-    ) -> ChatCompletion:
-        request_kwargs: dict[str, Any] = {
-            "model": self._model,
-            "messages": list(messages),
-            "n": generation_config.num_candidates,
-            "temperature": generation_config.temperature,
-            "top_p": generation_config.top_p,
-            "logprobs": True,
-            **self._extra_request_kwargs,
-        }
-        if generation_config.max_gen_toks is not None:
-            request_kwargs["max_tokens"] = generation_config.max_gen_toks
-        if generation_config.seed is not None:
-            request_kwargs["seed"] = generation_config.seed + request_index
-
-        return self._client.chat.completions.create(
-            **request_kwargs,
-        )
-
-
 def _choice_logprob_stats(choice: Choice) -> tuple[float | None, float | None, int | None]:
     if not choice.logprobs or not choice.logprobs.content:
         return None, None, None
@@ -126,9 +70,15 @@ def generate_candidates(
         request_seed = generation_config.seed + prompt_index if generation_config.seed is not None else None
         started_at = time.perf_counter()
         completion = provider.complete_messages(
-            [message.to_openai_dict() for message in prompt.messages],
-            generation_config,
-            prompt_index,
+            ChatCompletionRequest(
+                messages=tuple(message.to_openai_dict() for message in prompt.messages),
+                num_completions=generation_config.num_candidates,
+                temperature=generation_config.temperature,
+                top_p=generation_config.top_p,
+                max_tokens=generation_config.max_gen_toks,
+                seed=request_seed,
+                logprobs=True,
+            )
         )
         request_latency_seconds = time.perf_counter() - started_at
         prompt_tokens = completion.usage.prompt_tokens if completion.usage is not None else None
diff --git a/tests/evals/test_lm_eval.py b/tests/evals/test_lm_eval.py
@@ -6,8 +6,8 @@
 import pytest
 from fray.cluster import ResourceConfig
 from marin.evaluation.evaluation_config import EvaluationConfig
-from marin.evaluation.evaluators.evaluator import ModelConfig
 from marin.evaluation.run import evaluate
+from marin.inference.model_config import ModelConfig
 
 from experiments.evals.task_configs import EvalTaskConfig
 
diff --git a/tests/test_time_scaling/test_reasoning_tts.py b/tests/test_time_scaling/test_reasoning_tts.py
@@ -8,6 +8,7 @@
 from openai.types.chat.chat_completion_token_logprob import ChatCompletionTokenLogprob
 from openai.types.completion_usage import CompletionUsage
 
+from marin.inference.chat_completions import ChatCompletionRequest
 from marin.test_time_scaling import (
     CandidateGenerationConfig,
     PromptManifest,
@@ -82,11 +83,14 @@ def _create_completion(tokenizer, responses: list[tuple[str, list[float]]]) -> C
 class FakeCompletionProvider:
     def __init__(self, completions: list[ChatCompletion]):
         self._completions = completions
-
-    def complete_messages(self, messages, generation_config, request_index):
-        assert generation_config.num_candidates == 3
-        assert messages[0]["role"] == "user"
-        return self._completions[request_index]
+        self._request_index = 0
+
+    def complete_messages(self, request: ChatCompletionRequest):
+        assert request.num_completions == 3
+        assert request.messages[0]["role"] == "user"
+        completion = self._completions[self._request_index]
+        self._request_index += 1
+        return completion
 
 
 def test_end_to_end_reasoning_tts_math_vertical_slice(tmp_path, gpt2_tokenizer):
diff --git a/tests/vllm/test_llm_inference.py b/tests/vllm/test_llm_inference.py