refactor(eval): rename register decorator to register_eval decorator for clarity

Lawhy · Lawhy · commit bfd929e0b25b · 2026-02-08T22:17:04.000-08:00
diff --git a/CLAUDE.md b/CLAUDE.md
@@ -71,7 +71,7 @@ The package lives in `src/strands_env/` with these modules:
 
 **evaluator.py** — `Evaluator` class orchestrates concurrent rollouts with checkpointing and pass@k metrics. Takes an async `env_factory` for flexible environment creation. Uses tqdm with `logging_redirect_tqdm` for clean progress output. Subclasses implement `load_dataset()` for different benchmarks.
 
-**registry.py** — Benchmark registry with `@register(name)` decorator. `get_benchmark(name)` and `list_benchmarks()` for discovery.
+**registry.py** — Benchmark registry with `@register_eval(name)` decorator. `get_benchmark(name)` and `list_benchmarks()` for discovery.
 
 **metrics.py** — `compute_pass_at_k` implements the unbiased pass@k estimator. `MetricFn` type alias for pluggable metrics.
 
diff --git a/docs/evaluation.md b/docs/evaluation.md
@@ -150,7 +150,7 @@ def create_env_factory(model_factory: ModelFactory, env_config: EnvConfig):
 
 ## Custom Evaluators
 
-For custom benchmarks, subclass `Evaluator`. You can either register it with `@register` or use an evaluator hook file.
+For custom benchmarks, subclass `Evaluator`. You can either register it with `@register_eval` or use an evaluator hook file.
 
 ### Evaluator Hook File
 
@@ -186,15 +186,15 @@ strands-env eval --evaluator my_evaluator.py --env my_env.py --backend sglang
 
 ### Registered Evaluator
 
-Alternatively, use `@register` to make it available by name:
+Alternatively, use `@register_eval` to make it available by name:
 
 ```python
 from collections.abc import Iterable
 
 from strands_env.core import Action, TaskContext
-from strands_env.eval import Evaluator, register
+from strands_env.eval import Evaluator, register_eval
 
-@register("my-benchmark")
+@register_eval("my-benchmark")
 class MyEvaluator(Evaluator):
     benchmark_name = "my-benchmark"
 
diff --git a/src/strands_env/eval/__init__.py b/src/strands_env/eval/__init__.py
@@ -15,7 +15,7 @@
 from .aime import AIME2024Evaluator, AIME2025Evaluator, AIMEEvaluator
 from .evaluator import AsyncEnvFactory, EvalSample, Evaluator
 from .metrics import MetricFn, compute_pass_at_k
-from .registry import get_benchmark, list_benchmarks, register
+from .registry import get_benchmark, list_benchmarks, register_eval
 
 __all__ = [
     "AIME2024Evaluator",
@@ -28,5 +28,5 @@
     "get_benchmark",
     "list_benchmarks",
     "compute_pass_at_k",
-    "register",
+    "register_eval",
 ]
diff --git a/src/strands_env/eval/aime.py b/src/strands_env/eval/aime.py
@@ -25,7 +25,7 @@
 from strands_env.core import Action, TaskContext
 
 from .evaluator import Evaluator
-from .registry import register
+from .registry import register_eval
 
 logger = logging.getLogger(__name__)
 
@@ -59,15 +59,15 @@ def load_dataset(self) -> Iterable[Action]:
             )
 
 
-@register("aime-2024")
+@register_eval("aime-2024")
 class AIME2024Evaluator(AIMEEvaluator):
     """AIME 2024 benchmark."""
 
     benchmark_name = "aime-2024"
     dataset_path = "HuggingFaceH4/aime_2024"
 
 
-@register("aime-2025")
+@register_eval("aime-2025")
 class AIME2025Evaluator(AIMEEvaluator):
     """AIME 2025 benchmark."""
 
diff --git a/src/strands_env/eval/registry.py b/src/strands_env/eval/registry.py
@@ -25,11 +25,11 @@
 _BENCHMARKS: dict[str, type[Evaluator]] = {}
 
 
-def register(name: str):
+def register_eval(name: str):
     """Decorator to register a benchmark evaluator.
 
     Example:
-        @register("aime")
+        @register_eval("aime")
         class AIMEEvaluator(Evaluator):
             ...
     """
diff --git a/tests/unit/test_registry.py b/tests/unit/test_registry.py
@@ -6,7 +6,7 @@
 from strands_env.cli import cli
 from strands_env.eval import Evaluator, get_benchmark, list_benchmarks
 from strands_env.eval.registry import _BENCHMARKS
-from strands_env.eval.registry import register as register_benchmark
+from strands_env.eval.registry import register_eval as register_benchmark
 
 
 class TestBenchmarkRegistry: