fix(output): respect ToolOutput.max_retries parameter

JasonCZMeng · JasonCZMeng · commit 7465806ea6ad · 2026-03-27T09:41:45.000-07:00
When is specified, the per-tool retry limit is now used for output tool validation and execution retries, instead of always falling back to the agent-level `max_result_retries`. Fixes #4678
diff --git a/pydantic_ai_slim/pydantic_ai/_agent_graph.py b/pydantic_ai_slim/pydantic_ai/_agent_graph.py
@@ -48,6 +48,7 @@
     from datetime import datetime
 
     from .models.instrumented import InstrumentationSettings
+    from .toolsets.abstract import ToolsetTool
 
 __all__ = (
     'GraphAgentState',
@@ -1242,6 +1243,14 @@ def _emit_skipped_output_tool(
     yield _messages.FunctionToolResultEvent(part)
 
 
+def _get_output_tool_max_retries(
+    tool: ToolsetTool[DepsT] | None,
+    ctx: GraphRunContext[GraphAgentState, GraphAgentDeps[DepsT, Any]],
+) -> int:
+    """Get the max_retries for an output tool, falling back to the agent-level max_result_retries."""
+    return tool.max_retries if tool else ctx.deps.max_result_retries
+
+
 async def process_tool_calls(  # noqa: C901
     tool_manager: ToolManager[DepsT],
     tool_calls: list[_messages.ToolCallPart],
@@ -1301,7 +1310,8 @@ async def process_tool_calls(  # noqa: C901
                     ):
                         yield event
                     continue
-                ctx.state.increment_retries(ctx.deps.max_result_retries, error=e)
+                tool = tool_manager.tools.get(call.tool_name) if tool_manager.tools else None
+                ctx.state.increment_retries(_get_output_tool_max_retries(tool, ctx), error=e)
                 raise  # pragma: lax no cover
 
             if not validated.args_valid:
@@ -1313,7 +1323,9 @@ async def process_tool_calls(  # noqa: C901
                         yield event
                     continue
 
-                ctx.state.increment_retries(ctx.deps.max_result_retries, error=validated.validation_error)
+                ctx.state.increment_retries(
+                    _get_output_tool_max_retries(validated.tool, ctx), error=validated.validation_error
+                )
                 yield _messages.FunctionToolCallEvent(call, args_valid=False)
                 output_parts.append(validated.validation_error.tool_retry)
                 yield _messages.FunctionToolResultEvent(validated.validation_error.tool_retry)
@@ -1329,13 +1341,13 @@ async def process_tool_calls(  # noqa: C901
                     ):
                         yield event
                     continue
-                ctx.state.increment_retries(ctx.deps.max_result_retries, error=e)
+                ctx.state.increment_retries(_get_output_tool_max_retries(validated.tool, ctx), error=e)
                 raise  # pragma: lax no cover
             except ToolRetryError as e:
                 # If we already have a valid final result, don't increment retries for invalid output tools
                 # This allows the run to succeed if at least one output tool returned a valid result
                 if not final_result:
-                    ctx.state.increment_retries(ctx.deps.max_result_retries, error=e)
+                    ctx.state.increment_retries(_get_output_tool_max_retries(validated.tool, ctx), error=e)
                 yield _messages.FunctionToolCallEvent(call, args_valid=True)
                 output_parts.append(e.tool_retry)
                 yield _messages.FunctionToolResultEvent(e.tool_retry)
diff --git a/pydantic_ai_slim/pydantic_ai/_output.py b/pydantic_ai_slim/pydantic_ai/_output.py
@@ -863,7 +863,10 @@ class OutputToolset(AbstractToolset[AgentDepsT]):
     """The tool definitions for the output tools in this toolset."""
     processors: dict[str, ObjectOutputProcessor[Any]]
     """The processors for the output tools in this toolset."""
-    max_retries: int
+    max_retries: int | None
+    """Default max retries for output tools, set by the Agent. Per-tool overrides from `ToolOutput.max_retries` take priority."""
+    _max_retries_overrides: dict[str, int]
+    """Per-tool max_retries overrides from `ToolOutput(max_retries=N)`."""
     output_validators: list[OutputValidator[AgentDepsT, Any]]
 
     @classmethod
@@ -884,6 +887,9 @@ def build(
         default_description = description
         default_strict = strict
 
+        max_retries_overrides: dict[str, int] = {}
+        tool_output_max_retries: int | None = None
+
         multiple = len(outputs) > 1
         for output in outputs:
             name = None
@@ -894,6 +900,7 @@ def build(
                 name = output.name
                 description = output.description
                 strict = output.strict
+                tool_output_max_retries = output.max_retries
 
                 output = output.output  # pyright: ignore[reportUnknownVariableType,reportUnknownMemberType]
 
@@ -933,19 +940,24 @@ def build(
             )
             processors[name] = processor
             tool_defs.append(tool_def)
+            if tool_output_max_retries is not None:
+                max_retries_overrides[name] = tool_output_max_retries
+            tool_output_max_retries = None
 
-        return cls(processors=processors, tool_defs=tool_defs)
+        return cls(processors=processors, tool_defs=tool_defs, max_retries_overrides=max_retries_overrides)
 
     def __init__(
         self,
         tool_defs: list[ToolDefinition],
         processors: dict[str, ObjectOutputProcessor[Any]],
-        max_retries: int = 1,
+        max_retries: int | None = None,
+        max_retries_overrides: dict[str, int] | None = None,
         output_validators: list[OutputValidator[AgentDepsT, Any]] | None = None,
     ):
         self.processors = processors
         self._tool_defs = tool_defs
         self.max_retries = max_retries
+        self._max_retries_overrides = max_retries_overrides or {}
         self.output_validators = output_validators or []
 
     @property
@@ -957,11 +969,13 @@ def label(self) -> str:
         return "the agent's output tools"
 
     async def get_tools(self, ctx: RunContext[AgentDepsT]) -> dict[str, ToolsetTool[AgentDepsT]]:
+        # max_retries should always be set by the Agent before get_tools() is called
+        assert self.max_retries is not None, 'OutputToolset.max_retries must be set before get_tools() is called'
         return {
             tool_def.name: ToolsetTool(
                 toolset=self,
                 tool_def=tool_def,
-                max_retries=self.max_retries,
+                max_retries=self._max_retries_overrides.get(tool_def.name, self.max_retries),
                 args_validator=self.processors[tool_def.name].validator,
             )
             for tool_def in self._tool_defs
diff --git a/pydantic_ai_slim/pydantic_ai/agent/__init__.py b/pydantic_ai_slim/pydantic_ai/agent/__init__.py
@@ -441,7 +441,7 @@ def __init__(
         self._prepare_output_tools = prepare_output_tools
 
         self._output_toolset = self._output_schema.toolset
-        if self._output_toolset:
+        if self._output_toolset and self._output_toolset.max_retries is None:
             self._output_toolset.max_retries = self._max_result_retries
 
         self._function_toolset = _AgentFunctionToolset(
@@ -1101,7 +1101,8 @@ def _merged_meta(ctx: RunContext[AgentDepsT]) -> dict[str, Any]:
         if output_schema != self._output_schema or output_validators:
             output_toolset = output_schema.toolset
             if output_toolset:
-                output_toolset.max_retries = self._max_result_retries
+                if output_toolset.max_retries is None:
+                    output_toolset.max_retries = self._max_result_retries
                 output_toolset.output_validators = output_validators
 
         # Build the graph
diff --git a/tests/test_agent.py b/tests/test_agent.py
@@ -455,6 +455,197 @@ def return_model(messages: list[ModelMessage], info: AgentInfo) -> ModelResponse
     assert max_retries_log == [target_retries] * (target_retries + 1)
 
 
+def test_tool_output_max_retries_overrides_agent_retries():
+    """ToolOutput.max_retries takes priority over Agent retries. Regression test for #4678."""
+    retries_log: list[int] = []
+    max_retries_log: list[int] = []
+    target_retries = 5
+
+    def get_weather(ctx: RunContext[None], city: str) -> str:
+        retries_log.append(ctx.retry)
+        max_retries_log.append(ctx.max_retries)
+        if ctx.retry < target_retries:
+            raise ModelRetry(f'Retry {ctx.retry}')
+        return f'Weather in {city}'
+
+    def return_model(messages: list[ModelMessage], info: AgentInfo) -> ModelResponse:
+        assert info.output_tools is not None
+        args_json = '{"city": "Mexico City"}'
+        return ModelResponse(parts=[ToolCallPart(info.output_tools[0].name, args_json)])
+
+    # Agent retries=2 (lower than ToolOutput), ToolOutput max_retries=5
+    # The ToolOutput value should take priority, allowing 5 retries
+    agent = Agent(
+        FunctionModel(return_model),
+        output_type=ToolOutput(get_weather, max_retries=target_retries),
+        retries=2,
+    )
+
+    result = agent.run_sync('Hello')
+    assert result.output == 'Weather in Mexico City'
+    assert retries_log == [0, 1, 2, 3, 4, 5]
+    assert max_retries_log == [target_retries] * (target_retries + 1)
+    assert result.all_messages() == snapshot(
+        [
+            ModelRequest(
+                parts=[UserPromptPart(content='Hello', timestamp=IsDatetime())],
+                timestamp=IsDatetime(),
+                run_id=IsStr(),
+            ),
+            ModelResponse(
+                parts=[
+                    ToolCallPart(
+                        tool_name='final_result',
+                        args='{"city": "Mexico City"}',
+                        tool_call_id=IsStr(),
+                    )
+                ],
+                usage=RequestUsage(input_tokens=51, output_tokens=6),
+                model_name='function:return_model:',
+                timestamp=IsDatetime(),
+                run_id=IsStr(),
+            ),
+            ModelRequest(
+                parts=[
+                    RetryPromptPart(
+                        content='Retry 0',
+                        tool_name='final_result',
+                        tool_call_id=IsStr(),
+                        timestamp=IsDatetime(),
+                    )
+                ],
+                timestamp=IsDatetime(),
+                run_id=IsStr(),
+            ),
+            ModelResponse(
+                parts=[
+                    ToolCallPart(
+                        tool_name='final_result',
+                        args='{"city": "Mexico City"}',
+                        tool_call_id=IsStr(),
+                    )
+                ],
+                usage=RequestUsage(input_tokens=60, output_tokens=12),
+                model_name='function:return_model:',
+                timestamp=IsDatetime(),
+                run_id=IsStr(),
+            ),
+            ModelRequest(
+                parts=[
+                    RetryPromptPart(
+                        content='Retry 1',
+                        tool_name='final_result',
+                        tool_call_id=IsStr(),
+                        timestamp=IsDatetime(),
+                    )
+                ],
+                timestamp=IsDatetime(),
+                run_id=IsStr(),
+            ),
+            ModelResponse(
+                parts=[
+                    ToolCallPart(
+                        tool_name='final_result',
+                        args='{"city": "Mexico City"}',
+                        tool_call_id=IsStr(),
+                    )
+                ],
+                usage=RequestUsage(input_tokens=69, output_tokens=18),
+                model_name='function:return_model:',
+                timestamp=IsDatetime(),
+                run_id=IsStr(),
+            ),
+            ModelRequest(
+                parts=[
+                    RetryPromptPart(
+                        content='Retry 2',
+                        tool_name='final_result',
+                        tool_call_id=IsStr(),
+                        timestamp=IsDatetime(),
+                    )
+                ],
+                timestamp=IsDatetime(),
+                run_id=IsStr(),
+            ),
+            ModelResponse(
+                parts=[
+                    ToolCallPart(
+                        tool_name='final_result',
+                        args='{"city": "Mexico City"}',
+                        tool_call_id=IsStr(),
+                    )
+                ],
+                usage=RequestUsage(input_tokens=78, output_tokens=24),
+                model_name='function:return_model:',
+                timestamp=IsDatetime(),
+                run_id=IsStr(),
+            ),
+            ModelRequest(
+                parts=[
+                    RetryPromptPart(
+                        content='Retry 3',
+                        tool_name='final_result',
+                        tool_call_id=IsStr(),
+                        timestamp=IsDatetime(),
+                    )
+                ],
+                timestamp=IsDatetime(),
+                run_id=IsStr(),
+            ),
+            ModelResponse(
+                parts=[
+                    ToolCallPart(
+                        tool_name='final_result',
+                        args='{"city": "Mexico City"}',
+                        tool_call_id=IsStr(),
+                    )
+                ],
+                usage=RequestUsage(input_tokens=87, output_tokens=30),
+                model_name='function:return_model:',
+                timestamp=IsDatetime(),
+                run_id=IsStr(),
+            ),
+            ModelRequest(
+                parts=[
+                    RetryPromptPart(
+                        content='Retry 4',
+                        tool_name='final_result',
+                        tool_call_id=IsStr(),
+                        timestamp=IsDatetime(),
+                    )
+                ],
+                timestamp=IsDatetime(),
+                run_id=IsStr(),
+            ),
+            ModelResponse(
+                parts=[
+                    ToolCallPart(
+                        tool_name='final_result',
+                        args='{"city": "Mexico City"}',
+                        tool_call_id=IsStr(),
+                    )
+                ],
+                usage=RequestUsage(input_tokens=96, output_tokens=36),
+                model_name='function:return_model:',
+                timestamp=IsDatetime(),
+                run_id=IsStr(),
+            ),
+            ModelRequest(
+                parts=[
+                    ToolReturnPart(
+                        tool_name='final_result',
+                        content='Final result processed.',
+                        tool_call_id=IsStr(),
+                        timestamp=IsDatetime(),
+                    )
+                ],
+                timestamp=IsDatetime(),
+                run_id=IsStr(),
+            ),
+        ]
+    )
+
+
 class TestPartialOutput:
     """Tests for `ctx.partial_output` flag in output validators and output functions."""