fix: extract OpenAI/Copilot cached_tokens from prompt_tokens_details

lpcox · Copilot · lpcox · commit bf5fe49510e5 · 2026-04-02T08:34:32.000-07:00
The token tracker only extracted Anthropic-style cache fields
(cache_read_input_tokens, cache_creation_input_tokens) but missed
the OpenAI/Copilot format where cache info is nested under
usage.prompt_tokens_details.cached_tokens.

This caused token-usage.jsonl to report cache_read_tokens: 0 for
all Copilot API requests, even when the API was returning significant
cache hits (e.g., 43,894 of 43,977 prompt tokens cached).

Fix both extractUsageFromJson() and extractUsageFromSseLine() to
read prompt_tokens_details.cached_tokens and map it to the normalized
cache_read_input_tokens field.

Co-authored-by: Copilot &lt;223556219+Copilot@users.noreply.github.com&gt;
diff --git a/containers/api-proxy/token-tracker.js b/containers/api-proxy/token-tracker.js
@@ -133,7 +133,7 @@ function createDecompressor(headers) {
  * Extract token usage from a non-streaming JSON response body.
  *
  * Supports:
- *   - OpenAI/Copilot: { usage: { prompt_tokens, completion_tokens, total_tokens } }
+ *   - OpenAI/Copilot: { usage: { prompt_tokens, completion_tokens, total_tokens, prompt_tokens_details: { cached_tokens } } }
  *   - Anthropic: { usage: { input_tokens, output_tokens, cache_creation_input_tokens, cache_read_input_tokens } }
  *
  * Also extracts the model field if present.
@@ -180,6 +180,11 @@ function extractUsageFromJson(body) {
         usage.total_tokens = json.usage.total_tokens;
         hasField = true;
       }
+      // OpenAI/Copilot nested cache fields (prompt_tokens_details.cached_tokens)
+      if (json.usage.prompt_tokens_details && typeof json.usage.prompt_tokens_details.cached_tokens === 'number') {
+        usage.cache_read_input_tokens = json.usage.prompt_tokens_details.cached_tokens;
+        hasField = true;
+      }
       if (hasField) {
         result.usage = usage;
       }
@@ -201,7 +206,7 @@ function extractUsageFromJson(body) {
  *   - message_delta: { type: "message_delta", usage: { output_tokens } }
  *
  * OpenAI/Copilot streaming events with usage:
- *   - Final chunk: { usage: { prompt_tokens, completion_tokens, total_tokens } }
+ *   - Final chunk: { usage: { prompt_tokens, completion_tokens, total_tokens, prompt_tokens_details: { cached_tokens } } }
  *
  * @param {string} line - A single SSE data line (without "data: " prefix)
  * @returns {{ usage: object|null, model: string|null }}
@@ -237,6 +242,10 @@ function extractUsageFromSseLine(line) {
       if (typeof json.usage.prompt_tokens === 'number') result.usage.prompt_tokens = json.usage.prompt_tokens;
       if (typeof json.usage.completion_tokens === 'number') result.usage.completion_tokens = json.usage.completion_tokens;
       if (typeof json.usage.total_tokens === 'number') result.usage.total_tokens = json.usage.total_tokens;
+      // OpenAI/Copilot nested cache fields (prompt_tokens_details.cached_tokens)
+      if (json.usage.prompt_tokens_details && typeof json.usage.prompt_tokens_details.cached_tokens === 'number') {
+        result.usage.cache_read_input_tokens = json.usage.prompt_tokens_details.cached_tokens;
+      }
       return result;
     }
 
diff --git a/containers/api-proxy/token-tracker.test.js b/containers/api-proxy/token-tracker.test.js
@@ -110,6 +110,50 @@ describe('extractUsageFromJson', () => {
     const result = extractUsageFromJson(body);
     expect(result.usage).toEqual({ completion_tokens: 50 });
   });
+
+  test('extracts OpenAI prompt_tokens_details.cached_tokens', () => {
+    const body = Buffer.from(JSON.stringify({
+      id: 'chatcmpl-456',
+      model: 'claude-sonnet-4.6',
+      usage: {
+        prompt_tokens: 41344,
+        completion_tokens: 256,
+        total_tokens: 41600,
+        prompt_tokens_details: {
+          cached_tokens: 36500,
+        },
+      },
+    }));
+
+    const result = extractUsageFromJson(body);
+    expect(result.model).toBe('claude-sonnet-4.6');
+    expect(result.usage).toEqual({
+      prompt_tokens: 41344,
+      completion_tokens: 256,
+      total_tokens: 41600,
+      cache_read_input_tokens: 36500,
+    });
+  });
+
+  test('handles OpenAI usage without prompt_tokens_details', () => {
+    const body = Buffer.from(JSON.stringify({
+      model: 'gpt-4o',
+      usage: {
+        prompt_tokens: 100,
+        completion_tokens: 50,
+        total_tokens: 150,
+      },
+    }));
+
+    const result = extractUsageFromJson(body);
+    expect(result.usage).toEqual({
+      prompt_tokens: 100,
+      completion_tokens: 50,
+      total_tokens: 150,
+    });
+    // Should NOT have cache_read_input_tokens
+    expect(result.usage.cache_read_input_tokens).toBeUndefined();
+  });
 });
 
 // ── extractUsageFromSseLine ───────────────────────────────────────────
@@ -187,6 +231,30 @@ describe('extractUsageFromSseLine', () => {
     const result = extractUsageFromSseLine('invalid json');
     expect(result.usage).toBeNull();
   });
+
+  test('extracts OpenAI prompt_tokens_details.cached_tokens from streaming final chunk', () => {
+    const line = JSON.stringify({
+      model: 'claude-sonnet-4.6',
+      choices: [{ finish_reason: 'stop' }],
+      usage: {
+        prompt_tokens: 43977,
+        completion_tokens: 24,
+        total_tokens: 44001,
+        prompt_tokens_details: {
+          cached_tokens: 43894,
+        },
+      },
+    });
+
+    const result = extractUsageFromSseLine(line);
+    expect(result.model).toBe('claude-sonnet-4.6');
+    expect(result.usage).toEqual({
+      prompt_tokens: 43977,
+      completion_tokens: 24,
+      total_tokens: 44001,
+      cache_read_input_tokens: 43894,
+    });
+  });
 });
 
 // ── parseSseDataLines ─────────────────────────────────────────────────
@@ -283,6 +351,21 @@ describe('normalizeUsage', () => {
     expect(result.input_tokens).toBe(200);
     expect(result.output_tokens).toBe(80);
   });
+
+  test('normalizes OpenAI cache tokens via cache_read_input_tokens mapping', () => {
+    const result = normalizeUsage({
+      prompt_tokens: 43977,
+      completion_tokens: 24,
+      total_tokens: 44001,
+      cache_read_input_tokens: 43894,
+    });
+    expect(result).toEqual({
+      input_tokens: 43977,
+      output_tokens: 24,
+      cache_read_tokens: 43894,
+      cache_write_tokens: 0,
+    });
+  });
 });
 
 // ── isStreamingResponse ───────────────────────────────────────────────

Original file line number	Diff line number	Diff line change
`@@ -133,7 +133,7 @@ function createDecompressor(headers) {`
`133`	`133`	`* Extract token usage from a non-streaming JSON response body.`
`134`	`134`	`*`
`135`	`135`	`* Supports:`
`136`		`- * - OpenAI/Copilot: { usage: { prompt_tokens, completion_tokens, total_tokens } }`
	`136`	`+ * - OpenAI/Copilot: { usage: { prompt_tokens, completion_tokens, total_tokens, prompt_tokens_details: { cached_tokens } } }`
`137`	`137`	`* - Anthropic: { usage: { input_tokens, output_tokens, cache_creation_input_tokens, cache_read_input_tokens } }`
`138`	`138`	`*`
`139`	`139`	`* Also extracts the model field if present.`
`@@ -180,6 +180,11 @@ function extractUsageFromJson(body) {`
`180`	`180`	`usage.total_tokens = json.usage.total_tokens;`
`181`	`181`	`hasField = true;`
`182`	`182`	`}`
	`183`	`+ // OpenAI/Copilot nested cache fields (prompt_tokens_details.cached_tokens)`
	`184`	`+ if (json.usage.prompt_tokens_details && typeof json.usage.prompt_tokens_details.cached_tokens === 'number') {`
	`185`	`+ usage.cache_read_input_tokens = json.usage.prompt_tokens_details.cached_tokens;`
	`186`	`+ hasField = true;`
	`187`	`+ }`
`183`	`188`	`if (hasField) {`
`184`	`189`	`result.usage = usage;`
`185`	`190`	`}`
`@@ -201,7 +206,7 @@ function extractUsageFromJson(body) {`
`201`	`206`	`* - message_delta: { type: "message_delta", usage: { output_tokens } }`
`202`	`207`	`*`
`203`	`208`	`* OpenAI/Copilot streaming events with usage:`
`204`		`- * - Final chunk: { usage: { prompt_tokens, completion_tokens, total_tokens } }`
	`209`	`+ * - Final chunk: { usage: { prompt_tokens, completion_tokens, total_tokens, prompt_tokens_details: { cached_tokens } } }`
`205`	`210`	`*`
`206`	`211`	`* @param {string} line - A single SSE data line (without "data: " prefix)`
`207`	`212`	`* @returns {{ usage: object\|null, model: string\|null }}`
`@@ -237,6 +242,10 @@ function extractUsageFromSseLine(line) {`
`237`	`242`	`if (typeof json.usage.prompt_tokens === 'number') result.usage.prompt_tokens = json.usage.prompt_tokens;`
`238`	`243`	`if (typeof json.usage.completion_tokens === 'number') result.usage.completion_tokens = json.usage.completion_tokens;`
`239`	`244`	`if (typeof json.usage.total_tokens === 'number') result.usage.total_tokens = json.usage.total_tokens;`
	`245`	`+ // OpenAI/Copilot nested cache fields (prompt_tokens_details.cached_tokens)`
	`246`	`+ if (json.usage.prompt_tokens_details && typeof json.usage.prompt_tokens_details.cached_tokens === 'number') {`
	`247`	`+ result.usage.cache_read_input_tokens = json.usage.prompt_tokens_details.cached_tokens;`
	`248`	`+ }`
`240`	`249`	`return result;`
`241`	`250`	`}`
`242`	`251`