pydantic · DouweM · Mar 30, 2026 · Mar 26, 2026 · Mar 27, 2026 · Mar 27, 2026
diff --git a/docs/evals/core-concepts.md b/docs/evals/core-concepts.md
@@ -48,7 +48,7 @@ from pydantic_evals import Case, Dataset
 from pydantic_evals.evaluators import IsInstance
 
 dataset = Dataset(
-    name='my_eval_suite',  # Optional name
+    name='my_eval_suite',
     cases=[
         Case(inputs='test input', expected_output='test output'),
     ],
@@ -76,6 +76,7 @@ from pydantic_evals import Case, Dataset
 from pydantic_evals.evaluators import EqualsExpected, IsInstance
 
 dataset = Dataset(
+    name='case_level_evaluators',
     cases=[
         Case(
             name='special_case',
@@ -107,6 +108,7 @@ from pydantic_evals import Case, Dataset
 
 # Define your dataset (static definition)
 dataset = Dataset(
+    name='uppercase_experiment',
     cases=[
         Case(inputs='hello', expected_output='HELLO'),
         Case(inputs='world', expected_output='WORLD'),
@@ -146,6 +148,7 @@ from pydantic_evals import Case, Dataset
 from pydantic_evals.evaluators import EqualsExpected
 
 dataset = Dataset(
+    name='comparison_test',
     cases=[
         Case(inputs='hello', expected_output='HELLO'),
     ],
@@ -376,6 +379,7 @@ from pydantic_evals import Case, Dataset
 from pydantic_evals.evaluators import EqualsExpected
 
 dataset = Dataset(
+    name='report_example',
     cases=[Case(inputs='hello', expected_output='HELLO')],
     evaluators=[EqualsExpected()],
 )

diff --git a/docs/evals/evaluators/overview.md b/docs/evals/evaluators/overview.md
@@ -40,6 +40,7 @@ from pydantic_evals import Case, Dataset
 from pydantic_evals.evaluators import LLMJudge
 
 dataset = Dataset(
+    name='llm_judge_example',
     cases=[Case(inputs='What is 2+2?', expected_output='4')],
     evaluators=[
         LLMJudge(
@@ -213,6 +214,7 @@ from pydantic_evals.evaluators import (
 )
 
 dataset = Dataset(
+    name='layered_evaluation',
     cases=[Case(inputs='test', expected_output='result')],
     evaluators=[
         # Fast deterministic checks first
@@ -237,6 +239,7 @@ from pydantic_evals import Case, Dataset
 from pydantic_evals.evaluators import IsInstance, LLMJudge
 
 dataset = Dataset(
+    name='case_specific_evaluators',
     cases=[
         Case(
             name='greeting_response',
@@ -287,6 +290,7 @@ from pydantic_evals import Case, Dataset
 from pydantic_evals.evaluators import LLMJudge
 
 dataset = Dataset(
+    name='golden_dataset',
     cases=[
         Case(
             name='handle_refund_request',
@@ -447,6 +451,7 @@ from pydantic_evals import Case, Dataset
 from pydantic_evals.evaluators import ConfusionMatrixEvaluator
 
 dataset = Dataset(
+    name='report_evaluator_example',
     cases=[
         Case(inputs='meow', expected_output='cat'),
         Case(inputs='woof', expected_output='dog'),

diff --git a/docs/evals/evaluators/report-evaluators.md b/docs/evals/evaluators/report-evaluators.md
@@ -36,6 +36,7 @@ def my_classifier(text: str) -> str:
 
 
 dataset = Dataset(
+    name='animal_classifier',
     cases=[
         Case(name='cat', inputs='The cat goes meow', expected_output='cat'),
         Case(name='dog', inputs='The dog barks', expected_output='dog'),
@@ -95,6 +96,7 @@ from pydantic_evals import Case, Dataset
 from pydantic_evals.evaluators import ConfusionMatrixEvaluator
 
 dataset = Dataset(
+    name='animal_sounds',
     cases=[
         Case(inputs='meow', expected_output='cat'),
         Case(inputs='woof', expected_output='dog'),
@@ -136,6 +138,7 @@ def categorize(output: str) -> str:
 
 
 dataset = Dataset(
+    name='labels_example',
     cases=[Case(inputs='test', expected_output='positive')],
     evaluators=[ClassifyOutput()],
     report_evaluators=[
@@ -223,6 +226,7 @@ def calculate_confidence(output: str) -> float:
 
 
 dataset = Dataset(
+    name='precision_recall_example',
     cases=[
         Case(inputs='test 1', expected_output='cat'),
         Case(inputs='test 2', expected_output='dog'),
@@ -694,6 +698,7 @@ class AccuracyEvaluator(ReportEvaluator):
 
 
 dataset = Dataset(
+    name='full_example',
     cases=[
         Case(inputs='The cat meows', expected_output='cat'),
         Case(inputs='The dog barks', expected_output='dog'),

diff --git a/docs/evals/quick-start.md b/docs/evals/quick-start.md
@@ -37,6 +37,7 @@ from pydantic_evals.evaluators import Contains, EqualsExpected
 
 # Create a dataset with test cases
 dataset = Dataset(
+    name='uppercase_tests',
     cases=[
         Case(
             name='uppercase_basic',
@@ -117,6 +118,7 @@ from pydantic_evals import Case, Dataset
 from pydantic_evals.evaluators import Contains, IsInstance
 
 dataset = Dataset(
+    name='dict_validation',
     cases=[
         Case(inputs={'data': 'required_key present'}, expected_output={'result': 'success'}),
     ],
@@ -136,6 +138,7 @@ from pydantic_evals import Case, Dataset
 from pydantic_evals.evaluators import LLMJudge
 
 dataset = Dataset(
+    name='llm_judge_test',
     cases=[
         Case(inputs='What is the capital of France?', expected_output='Paris'),
     ],
@@ -158,6 +161,7 @@ from pydantic_evals import Case, Dataset
 from pydantic_evals.evaluators import MaxDuration
 
 dataset = Dataset(
+    name='performance_test',
     cases=[
         Case(inputs='test input', expected_output='test output'),
     ],

diff --git a/pydantic_evals/pydantic_evals/__init__.py b/pydantic_evals/pydantic_evals/__init__.py
@@ -6,13 +6,15 @@
 - Generating reports for evaluation results
 """
 
+from ._warnings import PydanticEvalsDeprecationWarning
 from .dataset import Case, Dataset, increment_eval_metric, set_eval_attribute
 from .lifecycle import CaseLifecycle
 
 __all__ = (
     'Case',
     'CaseLifecycle',
     'Dataset',
+    'PydanticEvalsDeprecationWarning',
     'increment_eval_metric',
     'set_eval_attribute',
 )
diff --git a/pydantic_evals/pydantic_evals/_warnings.py b/pydantic_evals/pydantic_evals/_warnings.py
@@ -0,0 +1,10 @@
+from __future__ import annotations
+
+
+class PydanticEvalsDeprecationWarning(UserWarning):
+    """Warning emitted when a deprecated Pydantic Evals API is used.
+
+    Inherits from `UserWarning` instead of `DeprecationWarning` so that
+    deprecations are visible by default at runtime, following the approach
+    described in https://sethmlarson.dev/deprecations-via-warnings-dont-work-for-python-libraries.
+    """
diff --git a/pydantic_evals/pydantic_evals/dataset.py b/pydantic_evals/pydantic_evals/dataset.py
@@ -36,6 +36,7 @@
 from pydantic_evals._utils import get_event_loop
 
 from ._utils import get_unwrapped_function_name, logfire_span, task_group_gather
+from ._warnings import PydanticEvalsDeprecationWarning
 from .evaluators import EvaluationResult, Evaluator
 from .evaluators._base import BaseEvaluator
 from .evaluators._run_evaluator import run_evaluator
@@ -196,6 +197,7 @@ def evaluate(self, ctx: EvaluatorContext) -> bool:
             return ctx.output == ctx.expected_output
 
     dataset = Dataset(
+        name='uppercase_tests',
         cases=[
             Case(name='test1', inputs={'text': 'Hello'}, expected_output='HELLO'),
             Case(name='test2', inputs={'text': 'World'}, expected_output='WORLD'),
@@ -226,7 +228,7 @@ async def main():
     """
 
     name: str | None = None
-    """Optional name of the dataset."""
+    """Name of the dataset. Required in future versions."""
     cases: list[Case[InputsT, OutputT, MetadataT]]
     """List of test cases in the dataset."""
     evaluators: list[Evaluator[InputsT, OutputT, MetadataT]] = []
@@ -245,11 +247,18 @@ def __init__(
         """Initialize a new dataset with test cases and optional evaluators.
 
         Args:
-            name: Optional name for the dataset.
+            name: Name for the dataset. Omitting this is deprecated and will raise an error in a future version.
             cases: Sequence of test cases to include in the dataset.
             evaluators: Optional sequence of evaluators to apply to all cases in the dataset.
             report_evaluators: Optional sequence of report evaluators that run on the full evaluation report.
         """
+        if name is None:
+            warnings.warn(
+                'Omitting the `name` parameter is deprecated. Please provide a name for your `Dataset`.',
+                PydanticEvalsDeprecationWarning,
+                stacklevel=2,
+            )
+
         case_names = set[str]()
         for case in cases:
             if case.name is None:
@@ -727,9 +736,9 @@ def _from_dataset_model(
             cases.append(row)
         if errors:
             raise ExceptionGroup(f'{len(errors)} error(s) loading evaluators from registry', errors[:3])
-        result = cls(name=dataset_model.name, cases=cases, report_evaluators=report_evaluators)
-        if result.name is None:
-            result.name = default_name
+        # Use default_name if no name was provided in the serialized data
+        name = dataset_model.name if dataset_model.name is not None else default_name
+        result = cls(name=name, cases=cases, report_evaluators=report_evaluators)
         result.evaluators = dataset_evaluators
         return result