refactor: remove Custom deterministic evaluator

afarntrog · afarntrog · commit deaf52c9c283 · 2026-03-10T15:05:17.000-04:00
Remove the Custom evaluator class and all associated exports and tests.
The Custom evaluator allowed users to pass arbitrary callback functions,
but this functionality can be achieved by subclassing the base Evaluator
directly, making the Custom wrapper unnecessary.
diff --git a/src/strands_evals/evaluators/__init__.py b/src/strands_evals/evaluators/__init__.py
@@ -1,6 +1,6 @@
 from .coherence_evaluator import CoherenceEvaluator
 from .conciseness_evaluator import ConcisenessEvaluator
-from .deterministic import Contains, Custom, Equals, StartsWith, ToolCalled
+from .deterministic import Contains, Equals, StartsWith, ToolCalled
 from .evaluator import Evaluator
 from .faithfulness_evaluator import FaithfulnessEvaluator
 from .goal_success_rate_evaluator import GoalSuccessRateEvaluator
@@ -28,7 +28,6 @@
     "ConcisenessEvaluator",
     "CoherenceEvaluator",
     "Contains",
-    "Custom",
     "Equals",
     "StartsWith",
     "ToolCalled",
diff --git a/src/strands_evals/evaluators/deterministic/__init__.py b/src/strands_evals/evaluators/deterministic/__init__.py
@@ -1,9 +1,8 @@
-from .output import Contains, Custom, Equals, StartsWith
+from .output import Contains, Equals, StartsWith
 from .trajectory import ToolCalled
 
 __all__ = [
     "Contains",
-    "Custom",
     "Equals",
     "StartsWith",
     "ToolCalled",
diff --git a/src/strands_evals/evaluators/deterministic/output.py b/src/strands_evals/evaluators/deterministic/output.py
@@ -1,5 +1,3 @@
-from collections.abc import Callable
-
 from typing_extensions import Any
 
 from ...types.evaluation import EvaluationData, EvaluationOutput, InputT, OutputT
@@ -82,15 +80,3 @@ async def evaluate_async(self, evaluation_case: EvaluationData[InputT, OutputT])
         return self.evaluate(evaluation_case)
 
 
-class Custom(Evaluator[InputT, OutputT]):
-    """Evaluates using a user-provided callback function."""
-
-    def __init__(self, fn: Callable[[EvaluationData[InputT, OutputT]], list[EvaluationOutput]]):
-        super().__init__()
-        self._fn = fn
-
-    def evaluate(self, evaluation_case: EvaluationData[InputT, OutputT]) -> list[EvaluationOutput]:
-        return self._fn(evaluation_case)
-
-    async def evaluate_async(self, evaluation_case: EvaluationData[InputT, OutputT]) -> list[EvaluationOutput]:
-        return self.evaluate(evaluation_case)
diff --git a/tests/strands_evals/evaluators/deterministic/test_output.py b/tests/strands_evals/evaluators/deterministic/test_output.py
@@ -1,7 +1,7 @@
 import pytest
 
-from strands_evals.evaluators.deterministic.output import Contains, Custom, Equals, StartsWith
-from strands_evals.types import EvaluationData, EvaluationOutput
+from strands_evals.evaluators.deterministic.output import Contains, Equals, StartsWith
+from strands_evals.types import EvaluationData
 
 
 class TestEquals:
@@ -225,65 +225,3 @@ def test_to_dict(self):
         assert d["case_sensitive"] is False
 
 
-class TestCustom:
-    def test_callback_pass(self):
-        def check(case):
-            return [EvaluationOutput(score=1.0, test_pass=True, reason="ok")]
-
-        evaluator = Custom(fn=check)
-        data = EvaluationData(input="q", actual_output="anything")
-        results = evaluator.evaluate(data)
-        assert len(results) == 1
-        assert results[0].test_pass is True
-        assert results[0].score == 1.0
-
-    def test_callback_fail(self):
-        def check(case):
-            return [EvaluationOutput(score=0.0, test_pass=False, reason="bad")]
-
-        evaluator = Custom(fn=check)
-        data = EvaluationData(input="q", actual_output="anything")
-        results = evaluator.evaluate(data)
-        assert results[0].test_pass is False
-
-    def test_callback_multiple_outputs(self):
-        def check(case):
-            return [
-                EvaluationOutput(score=1.0, test_pass=True, reason="check 1"),
-                EvaluationOutput(score=0.0, test_pass=False, reason="check 2"),
-            ]
-
-        evaluator = Custom(fn=check)
-        data = EvaluationData(input="q", actual_output="anything")
-        results = evaluator.evaluate(data)
-        assert len(results) == 2
-        assert results[0].test_pass is True
-        assert results[1].test_pass is False
-
-    def test_callback_receives_full_evaluation_data(self):
-        def check(case):
-            has_metadata = case.metadata is not None and case.metadata.get("key") == "val"
-            return [
-                EvaluationOutput(score=1.0 if has_metadata else 0.0, test_pass=has_metadata, reason="metadata check")
-            ]
-
-        evaluator = Custom(fn=check)
-        data = EvaluationData(input="q", actual_output="x", metadata={"key": "val"})
-        results = evaluator.evaluate(data)
-        assert results[0].test_pass is True
-
-    @pytest.mark.asyncio
-    async def test_evaluate_async_delegates_to_evaluate(self):
-        def check(case):
-            return [EvaluationOutput(score=1.0, test_pass=True, reason="ok")]
-
-        evaluator = Custom(fn=check)
-        data = EvaluationData(input="q", actual_output="anything")
-        results = await evaluator.evaluate_async(data)
-        assert results[0].test_pass is True
-
-    def test_to_dict_excludes_fn(self):
-        evaluator = Custom(fn=lambda case: [])
-        d = evaluator.to_dict()
-        assert d["evaluator_type"] == "Custom"
-        assert "fn" not in d