temporal-spring-ai: preserve Usage and RateLimit in ChatResponse metadata (#2854)

donald-pinckney · claude · web-flow · commit f109c0cc933f · 2026-04-24T13:28:18.000-04:00
* temporal-spring-ai: plan — preserve ChatResponse metadata (Usage + RateLimit)

Co-Authored-By: Claude Opus 4.7 (1M context) &lt;noreply@anthropic.com&gt;

* temporal-spring-ai: add ResponseMetadataTest (fails pre-impl)

Asserts that Usage (prompt/completion/total tokens) and RateLimit
(requests/tokens limit/remaining/reset) round-trip from a stub
ChatModel's ChatResponseMetadata through the chat activity and back
to workflow code. The workflow flattens to primitives because Usage
and RateLimit are interfaces and can't Jackson-round-trip across
the workflow result without concrete-type hints.

Currently fails with token counts of 0 (Spring AI's EmptyUsage
sentinel) because ActivityChatModel.toResponse only rehydrates
md.getModel() — Usage and RateLimit are dropped. The implementation
follows in a subsequent commit.

Co-Authored-By: Claude Opus 4.7 (1M context) &lt;noreply@anthropic.com&gt;

* temporal-spring-ai: preserve Usage and RateLimit in ChatResponse metadata

ActivityChatModel.toResponse now rehydrates Usage and RateLimit onto the
ChatResponseMetadata it returns to workflow code, not just the model
name. The activity side (ChatModelActivityImpl) already serialized
these into the output record; they were being silently discarded when
the workflow side rebuilt the ChatResponse.

Usage is rehydrated as a Spring AI DefaultUsage(promptTokens,
completionTokens, totalTokens). RateLimit is an interface with no
public default impl in spring-ai-model, so we return an anonymous
implementation backed by the fields from the activity output record.

Co-Authored-By: Claude Opus 4.7 (1M context) &lt;noreply@anthropic.com&gt;

* temporal-spring-ai: drop PLAN.md

Planning scratchpad — not part of the shipped artifact. Removed before merge.

Co-Authored-By: Claude Opus 4.7 (1M context) &lt;noreply@anthropic.com&gt;

---------

Co-authored-by: Claude Opus 4.7 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/temporal-spring-ai/src/main/java/io/temporal/springai/model/ActivityChatModel.java b/temporal-spring-ai/src/main/java/io/temporal/springai/model/ActivityChatModel.java
@@ -13,6 +13,9 @@
 import javax.annotation.Nullable;
 import org.springframework.ai.chat.messages.*;
 import org.springframework.ai.chat.metadata.ChatResponseMetadata;
+import org.springframework.ai.chat.metadata.DefaultUsage;
+import org.springframework.ai.chat.metadata.RateLimit;
+import org.springframework.ai.chat.metadata.Usage;
 import org.springframework.ai.chat.model.ChatModel;
 import org.springframework.ai.chat.model.ChatResponse;
 import org.springframework.ai.chat.model.Generation;
@@ -387,11 +390,70 @@ private ChatResponse toResponse(ChatModelTypes.ChatModelActivityOutput output) {
 
     var builder = ChatResponse.builder().generations(generations);
     if (output.metadata() != null) {
-      builder.metadata(ChatResponseMetadata.builder().model(output.metadata().model()).build());
+      builder.metadata(toResponseMetadata(output.metadata()));
     }
     return builder.build();
   }
 
+  private ChatResponseMetadata toResponseMetadata(
+      ChatModelTypes.ChatModelActivityOutput.ChatResponseMetadata md) {
+    ChatResponseMetadata.Builder b = ChatResponseMetadata.builder().model(md.model());
+    Usage usage = toUsage(md.usage());
+    if (usage != null) {
+      b.usage(usage);
+    }
+    RateLimit rateLimit = toRateLimit(md.rateLimit());
+    if (rateLimit != null) {
+      b.rateLimit(rateLimit);
+    }
+    return b.build();
+  }
+
+  private Usage toUsage(ChatModelTypes.ChatModelActivityOutput.ChatResponseMetadata.Usage u) {
+    if (u == null) {
+      return null;
+    }
+    return new DefaultUsage(u.promptTokens(), u.completionTokens(), u.totalTokens());
+  }
+
+  private RateLimit toRateLimit(
+      ChatModelTypes.ChatModelActivityOutput.ChatResponseMetadata.RateLimit r) {
+    if (r == null) {
+      return null;
+    }
+    return new RateLimit() {
+      @Override
+      public Long getRequestsLimit() {
+        return r.requestLimit();
+      }
+
+      @Override
+      public Long getRequestsRemaining() {
+        return r.requestRemaining();
+      }
+
+      @Override
+      public java.time.Duration getRequestsReset() {
+        return r.requestReset();
+      }
+
+      @Override
+      public Long getTokensLimit() {
+        return r.tokenLimit();
+      }
+
+      @Override
+      public Long getTokensRemaining() {
+        return r.tokenRemaining();
+      }
+
+      @Override
+      public java.time.Duration getTokensReset() {
+        return r.tokenReset();
+      }
+    };
+  }
+
   private AssistantMessage toAssistantMessage(ChatModelTypes.Message message) {
     List<AssistantMessage.ToolCall> toolCalls = List.of();
     if (!CollectionUtils.isEmpty(message.toolCalls())) {
diff --git a/temporal-spring-ai/src/test/java/io/temporal/springai/ResponseMetadataTest.java b/temporal-spring-ai/src/test/java/io/temporal/springai/ResponseMetadataTest.java
@@ -0,0 +1,193 @@
+package io.temporal.springai;
+
+import static org.junit.jupiter.api.Assertions.assertEquals;
+
+import io.temporal.client.WorkflowClient;
+import io.temporal.client.WorkflowOptions;
+import io.temporal.springai.activity.ChatModelActivityImpl;
+import io.temporal.springai.model.ActivityChatModel;
+import io.temporal.testing.TestWorkflowEnvironment;
+import io.temporal.worker.Worker;
+import io.temporal.workflow.WorkflowInterface;
+import io.temporal.workflow.WorkflowMethod;
+import java.time.Duration;
+import java.util.List;
+import org.junit.jupiter.api.AfterEach;
+import org.junit.jupiter.api.BeforeEach;
+import org.junit.jupiter.api.Test;
+import org.springframework.ai.chat.messages.AssistantMessage;
+import org.springframework.ai.chat.metadata.ChatResponseMetadata;
+import org.springframework.ai.chat.metadata.DefaultUsage;
+import org.springframework.ai.chat.metadata.RateLimit;
+import org.springframework.ai.chat.metadata.Usage;
+import org.springframework.ai.chat.model.ChatModel;
+import org.springframework.ai.chat.model.ChatResponse;
+import org.springframework.ai.chat.model.Generation;
+import org.springframework.ai.chat.prompt.Prompt;
+
+/**
+ * Verifies that {@link Usage} and {@link RateLimit} metadata produced by the underlying chat model
+ * survive the round-trip through the Temporal activity boundary.
+ */
+class ResponseMetadataTest {
+
+  private static final String TASK_QUEUE = "test-spring-ai-response-metadata";
+
+  private TestWorkflowEnvironment testEnv;
+  private WorkflowClient client;
+
+  @BeforeEach
+  void setUp() {
+    testEnv = TestWorkflowEnvironment.newInstance();
+    client = testEnv.getWorkflowClient();
+  }
+
+  @AfterEach
+  void tearDown() {
+    testEnv.close();
+  }
+
+  @Test
+  void usageAndRateLimit_survivesActivityRoundTrip() {
+    Worker worker = testEnv.newWorker(TASK_QUEUE);
+    worker.registerWorkflowImplementationTypes(MetadataWorkflowImpl.class);
+    worker.registerActivitiesImplementations(new ChatModelActivityImpl(new MetadataChatModel()));
+    testEnv.start();
+
+    MetadataWorkflow workflow =
+        client.newWorkflowStub(
+            MetadataWorkflow.class, WorkflowOptions.newBuilder().setTaskQueue(TASK_QUEUE).build());
+
+    MetadataSnapshot snapshot = workflow.collect();
+
+    // Model name: was already round-tripping, keep asserting so we don't regress.
+    assertEquals("stub-model-v1", snapshot.model());
+
+    // Usage: the prior code dropped this on the workflow side.
+    assertEquals(
+        Boolean.TRUE, snapshot.usagePresent(), "Usage should be rehydrated on the workflow side");
+    assertEquals(10, snapshot.promptTokens());
+    assertEquals(20, snapshot.completionTokens());
+    assertEquals(30, snapshot.totalTokens());
+
+    // RateLimit: ditto.
+    assertEquals(
+        Boolean.TRUE,
+        snapshot.rateLimitPresent(),
+        "RateLimit should be rehydrated on the workflow side");
+    assertEquals(1000L, snapshot.requestsLimit());
+    assertEquals(987L, snapshot.requestsRemaining());
+    assertEquals(Duration.ofSeconds(60), snapshot.requestsReset());
+    assertEquals(500_000L, snapshot.tokensLimit());
+    assertEquals(493_210L, snapshot.tokensRemaining());
+    assertEquals(Duration.ofSeconds(30), snapshot.tokensReset());
+  }
+
+  /**
+   * Snapshot flattened to primitives/Strings — {@link Usage} and {@link RateLimit} are interfaces
+   * and can't round-trip through the workflow-result serialization without extra type info, so the
+   * workflow extracts the fields itself.
+   */
+  public record MetadataSnapshot(
+      String model,
+      Boolean usagePresent,
+      Integer promptTokens,
+      Integer completionTokens,
+      Integer totalTokens,
+      Boolean rateLimitPresent,
+      Long requestsLimit,
+      Long requestsRemaining,
+      Duration requestsReset,
+      Long tokensLimit,
+      Long tokensRemaining,
+      Duration tokensReset) {}
+
+  @WorkflowInterface
+  public interface MetadataWorkflow {
+    @WorkflowMethod
+    MetadataSnapshot collect();
+  }
+
+  public static class MetadataWorkflowImpl implements MetadataWorkflow {
+    @Override
+    public MetadataSnapshot collect() {
+      ActivityChatModel chatModel = ActivityChatModel.forDefault();
+      ChatResponse response = chatModel.call(new Prompt("ping"));
+      ChatResponseMetadata md = response.getMetadata();
+      if (md == null) {
+        return new MetadataSnapshot(
+            null, false, null, null, null, false, null, null, null, null, null, null);
+      }
+      Usage u = md.getUsage();
+      RateLimit r = md.getRateLimit();
+      return new MetadataSnapshot(
+          md.getModel(),
+          u != null,
+          u == null ? null : u.getPromptTokens(),
+          u == null ? null : u.getCompletionTokens(),
+          u == null ? null : u.getTotalTokens(),
+          r != null,
+          r == null ? null : r.getRequestsLimit(),
+          r == null ? null : r.getRequestsRemaining(),
+          r == null ? null : r.getRequestsReset(),
+          r == null ? null : r.getTokensLimit(),
+          r == null ? null : r.getTokensRemaining(),
+          r == null ? null : r.getTokensReset());
+    }
+  }
+
+  /**
+   * Returns a ChatResponse with a known model, Usage, and RateLimit so the test can assert them.
+   */
+  private static class MetadataChatModel implements ChatModel {
+    @Override
+    public ChatResponse call(Prompt prompt) {
+      ChatResponseMetadata md =
+          ChatResponseMetadata.builder()
+              .model("stub-model-v1")
+              .usage(new DefaultUsage(10, 20, 30))
+              .rateLimit(
+                  new RateLimit() {
+                    @Override
+                    public Long getRequestsLimit() {
+                      return 1000L;
+                    }
+
+                    @Override
+                    public Long getRequestsRemaining() {
+                      return 987L;
+                    }
+
+                    @Override
+                    public Duration getRequestsReset() {
+                      return Duration.ofSeconds(60);
+                    }
+
+                    @Override
+                    public Long getTokensLimit() {
+                      return 500_000L;
+                    }
+
+                    @Override
+                    public Long getTokensRemaining() {
+                      return 493_210L;
+                    }
+
+                    @Override
+                    public Duration getTokensReset() {
+                      return Duration.ofSeconds(30);
+                    }
+                  })
+              .build();
+      return ChatResponse.builder()
+          .generations(List.of(new Generation(new AssistantMessage("pong"))))
+          .metadata(md)
+          .build();
+    }
+
+    @Override
+    public reactor.core.publisher.Flux<ChatResponse> stream(Prompt prompt) {
+      throw new UnsupportedOperationException();
+    }
+  }
+}