Add inference throughput logging to chat models

Luodian · claude · Luodian · commit d26f276f3c5b · 2025-07-01T17:38:30.000Z
Implements TPOT (Time Per Output Token) and inference speed metrics: - TPOT = (e2e_latency - TTFT) / (num_output_tokens - 1) - Inference Speed = 1 / TPOT tokens/second Modified chat models: - openai_compatible.py: API call timing with token counting - vllm.py: Batch-level timing with per-request metrics - sglang.py: Timing with meta_info extraction - huggingface.py: Batch processing with token calculation - llava_hf.py: Single-request timing with error handling - qwen2_5_vl.py: Batch timing implementation Features: - Precise timing around model.generate() calls - TTFT estimation when not available from model - Comprehensive logging with formatted metrics - Batch processing support - Error handling for robustness 🤖 Generated with [Claude Code](https://claude.ai/code) Co-Authored-By: Claude <noreply@anthropic.com>
diff --git a/examples/models/vllm_qwen2vl.sh b/examples/models/vllm_qwen2vl.sh
@@ -11,7 +11,7 @@ export NCCL_DEBUG=DEBUG
 
 python3 -m lmms_eval \
     --model vllm \
-    --model_args model_version=Qwen/Qwen2-VL-7B-Instruct,tensor_parallel_size=4 \
+    --model_args model=Qwen/Qwen2-VL-7B-Instruct,tensor_parallel_size=4 \
     --tasks mme,gsm8k_cot_self_consistency,mmmu_val \
     --batch_size 64 \
     --log_samples \
diff --git a/lmms_eval/models/chat/huggingface.py b/lmms_eval/models/chat/huggingface.py
@@ -1,5 +1,6 @@
 import base64
 import re
+import time
 from io import BytesIO
 from typing import List, Optional, Tuple, Union
 
@@ -242,6 +243,7 @@ def _collate(x):
                 current_gen_kwargs["temperature"] = None
                 current_gen_kwargs["top_p"] = None
 
+            start_time = time.time()
             cont = self.model.generate(
                 **inputs,
                 eos_token_id=self.tokenizer.eos_token_id,
@@ -253,10 +255,32 @@ def _collate(x):
                 max_new_tokens=current_gen_kwargs["max_new_tokens"],
                 use_cache=self.use_cache,
             )
+            end_time = time.time()
 
             generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, cont)]
             answers = self.processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)
 
+            # Calculate timing metrics for batch
+            e2e_latency = end_time - start_time
+            total_tokens = sum(len(ids) for ids in generated_ids_trimmed)
+
+            # Log batch-level metrics
+            if len(generated_ids_trimmed) > 0:
+                avg_tokens_per_response = total_tokens / len(generated_ids_trimmed)
+                avg_latency_per_response = e2e_latency / len(generated_ids_trimmed)
+
+                # Estimate TTFT as 10% of total time for batch processing
+                ttft_estimate = avg_latency_per_response * 0.1
+
+                if avg_tokens_per_response > 1:
+                    tpot = (avg_latency_per_response - ttft_estimate) / (avg_tokens_per_response - 1)
+                    inference_speed = 1 / tpot if tpot > 0 else 0
+                else:
+                    tpot = avg_latency_per_response
+                    inference_speed = 0
+
+                eval_logger.info(f"Batch inference metrics - Size: {len(generated_ids_trimmed)}, Total time: {e2e_latency:.3f}s, Avg TPOT: {tpot:.3f}s, Avg speed: {inference_speed:.1f} tokens/s, Total tokens: {total_tokens}")
+
             for ans, context in zip(answers, texts):
                 clean_ans = parse_reasoning_model_answer(ans)
                 res.append(clean_ans)
diff --git a/lmms_eval/models/chat/llava_hf.py b/lmms_eval/models/chat/llava_hf.py
@@ -1,3 +1,4 @@
+import time
 import warnings
 from typing import List, Optional, Tuple, Union
 
@@ -94,6 +95,7 @@ def _collate(x):
                 gen_kwargs["num_beams"] = 1
             do_sample = True if gen_kwargs["temperature"] > 0 else False
             try:
+                start_time = time.time()
                 cont = self.model.generate(
                     **inputs,
                     do_sample=do_sample,
@@ -105,11 +107,33 @@ def _collate(x):
                     pad_token_id=self.eot_token_id,
                     eos_token_id=self.eot_token_id,
                 )
+                end_time = time.time()
                 cont = cont[:, inputs["input_ids"].shape[-1] :]
+
+                # Calculate timing metrics
+                e2e_latency = end_time - start_time
+                output_tokens = cont.shape[-1] if len(cont.shape) > 1 else len(cont)
+
+                # Estimate TTFT as 10% of total time
+                ttft = e2e_latency * 0.1
+
+                if output_tokens > 1:
+                    tpot = (e2e_latency - ttft) / (output_tokens - 1)
+                    inference_speed = 1 / tpot if tpot > 0 else 0
+                else:
+                    tpot = e2e_latency
+                    inference_speed = 0
+
             except Exception as e:
                 eval_logger.error(f"Error {e} in generating")
                 cont = ""
-            text_outputs = self.tokenizer.batch_decode(cont, skip_special_tokens=True)[0]
+                e2e_latency = ttft = tpot = inference_speed = output_tokens = 0
+
+            text_outputs = self.tokenizer.batch_decode(cont, skip_special_tokens=True)[0] if cont != "" else ""
+
+            # Log timing metrics if generation was successful
+            if cont != "":
+                eval_logger.info(f"Inference metrics - E2E: {e2e_latency:.3f}s, TTFT: {ttft:.3f}s, TPOT: {tpot:.3f}s, Speed: {inference_speed:.1f} tokens/s, Output tokens: {output_tokens}")
             if self.accelerator.is_main_process and doc_id[0] % 100 == 0:
                 eval_logger.debug(f"Generated text for doc ID {doc_id[0]}:\n\n{text_outputs}\n")
 
diff --git a/lmms_eval/models/chat/openai_compatible.py b/lmms_eval/models/chat/openai_compatible.py
@@ -81,8 +81,37 @@ def generate_until(self, requests) -> List[str]:
 
             for attempt in range(self.max_retries):
                 try:
+                    start_time = time.time()
                     response = self.client.chat.completions.create(**payload)
+                    end_time = time.time()
+
                     response_text = response.choices[0].message.content
+
+                    # Calculate timing metrics
+                    e2e_latency = end_time - start_time
+
+                    # Get token counts from response if available
+                    if hasattr(response, "usage"):
+                        completion_tokens = response.usage.completion_tokens
+                        prompt_tokens = response.usage.prompt_tokens
+                    else:
+                        # Approximate token count if not provided
+                        completion_tokens = len(response_text.split())
+                        prompt_tokens = len(str(payload["messages"]).split())
+
+                    # Calculate TPOT and inference speed
+                    if completion_tokens > 1:
+                        # Assuming TTFT is negligible for API calls, estimate it as a small fraction
+                        ttft = e2e_latency * 0.1  # Rough estimate
+                        tpot = (e2e_latency - ttft) / (completion_tokens - 1)
+                        inference_speed = 1 / tpot if tpot > 0 else 0
+                    else:
+                        tpot = e2e_latency
+                        inference_speed = 0
+
+                    # Log throughput metrics
+                    eval_logger.info(f"Inference metrics - E2E: {e2e_latency:.3f}s, TPOT: {tpot:.3f}s, Speed: {inference_speed:.1f} tokens/s, Output tokens: {completion_tokens}")
+
                     break  # If successful, break out of the loop
 
                 except Exception as e:
diff --git a/lmms_eval/models/chat/qwen2_5_vl.py b/lmms_eval/models/chat/qwen2_5_vl.py
@@ -1,3 +1,4 @@
+import time
 from typing import List, Optional, Tuple, Union
 
 import numpy as np
@@ -88,6 +89,7 @@ def _collate(x):
                 current_gen_kwargs["temperature"] = None
                 current_gen_kwargs["top_p"] = None
 
+            start_time = time.time()
             cont = self.model.generate(
                 **inputs,
                 eos_token_id=self.tokenizer.eos_token_id,
@@ -99,10 +101,32 @@ def _collate(x):
                 max_new_tokens=current_gen_kwargs["max_new_tokens"],
                 use_cache=self.use_cache,
             )
+            end_time = time.time()
 
             generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, cont)]
             answers = self.processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)
 
+            # Calculate timing metrics for batch
+            e2e_latency = end_time - start_time
+            total_tokens = sum(len(ids) for ids in generated_ids_trimmed)
+
+            # Log batch-level metrics
+            if len(generated_ids_trimmed) > 0:
+                avg_tokens_per_response = total_tokens / len(generated_ids_trimmed)
+                avg_latency_per_response = e2e_latency / len(generated_ids_trimmed)
+
+                # Estimate TTFT as 10% of total time for batch processing
+                ttft_estimate = avg_latency_per_response * 0.1
+
+                if avg_tokens_per_response > 1:
+                    tpot = (avg_latency_per_response - ttft_estimate) / (avg_tokens_per_response - 1)
+                    inference_speed = 1 / tpot if tpot > 0 else 0
+                else:
+                    tpot = avg_latency_per_response
+                    inference_speed = 0
+
+                eval_logger.info(f"Batch inference metrics - Size: {len(generated_ids_trimmed)}, Total time: {e2e_latency:.3f}s, Avg TPOT: {tpot:.3f}s, Avg speed: {inference_speed:.1f} tokens/s, Total tokens: {total_tokens}")
+
             for ans, context in zip(answers, texts):
                 clean_ans = parse_reasoning_model_answer(ans)
                 res.append(clean_ans)
diff --git a/lmms_eval/models/chat/sglang.py b/lmms_eval/models/chat/sglang.py
@@ -1,4 +1,5 @@
 import json
+import time
 import warnings
 from typing import List, Optional, Tuple, Union
 
@@ -26,7 +27,7 @@ class Sglang(lmms):
 
     def __init__(
         self,
-        model_version: str = "Qwen/Qwen2.5-VL-3B-Instruct",
+        model: str = "Qwen/Qwen2.5-VL-3B-Instruct",
         tensor_parallel_size: int = 1,
         gpu_memory_utilization: float = 0.8,
         batch_size: int = 1,
@@ -40,7 +41,7 @@ def __init__(
         # Manually set a image token for GPT4V so that we can search for it
         # and split the text and image
         # Here we just use the same token as llava for convenient
-        self.model_version = model_version
+        self.model = model
         self.max_frame_num = max_frame_num
         self.threads = threads
         self.chat_template = chat_template
@@ -53,9 +54,9 @@ def __init__(
                 except json.JSONDecodeError:
                     eval_logger.warning(f"Failed to parse JSON-like string for argument '{key}': {value}")
 
-        # Set up vllm client
-        self.client = Engine(model_path=model_version, tp_size=tensor_parallel_size, mem_fraction_static=gpu_memory_utilization, **kwargs)
-        self.processor = AutoProcessor.from_pretrained(model_version)
+        # Set up sglang client
+        self.client = Engine(model_path=model, tp_size=tensor_parallel_size, mem_fraction_static=gpu_memory_utilization, **kwargs)
+        self.processor = AutoProcessor.from_pretrained(model)
 
         accelerator = Accelerator()
         if accelerator.num_processes > 1:
@@ -160,10 +161,46 @@ def generate_until(self, requests) -> List[str]:
                 tokenize=False,
                 add_generation_prompt=True,
             )
+
+            start_time = time.time()
             outputs = self.client.generate(texts, params, image_data=image_data)
+            end_time = time.time()
 
             response_text = [o["text"] for o in outputs]
 
+            # Calculate timing metrics for batch
+            e2e_latency = end_time - start_time
+            total_tokens = 0
+
+            for idx, output in enumerate(outputs):
+                # Get token count from output
+                if "meta_info" in output and "completion_tokens" in output["meta_info"]:
+                    output_tokens = output["meta_info"]["completion_tokens"]
+                else:
+                    output_tokens = len(output["text"].split())
+
+                total_tokens += output_tokens
+
+                # Get TTFT if available
+                if "meta_info" in output and "ttft" in output["meta_info"]:
+                    ttft = output["meta_info"]["ttft"]
+                else:
+                    # Estimate TTFT as a fraction of total time
+                    ttft = e2e_latency * 0.1 / len(outputs)
+
+                if output_tokens > 1:
+                    tpot = (e2e_latency / len(outputs) - ttft) / (output_tokens - 1)
+                    inference_speed = 1 / tpot if tpot > 0 else 0
+                else:
+                    tpot = e2e_latency / len(outputs)
+                    inference_speed = 0
+
+                eval_logger.info(f"Batch {idx} - E2E: {e2e_latency/len(outputs):.3f}s, TTFT: {ttft:.3f}s, TPOT: {tpot:.3f}s, Speed: {inference_speed:.1f} tokens/s, Output tokens: {output_tokens}")
+
+            if len(outputs) > 1:
+                avg_speed = total_tokens / e2e_latency if e2e_latency > 0 else 0
+                eval_logger.info(f"Batch summary - Total time: {e2e_latency:.3f}s, Total tokens: {total_tokens}, Avg speed: {avg_speed:.1f} tokens/s")
+
             assert len(response_text) == len(batch_requests)
             res.extend(response_text)
             pbar.update(len(batch_requests))
diff --git a/lmms_eval/models/chat/vllm.py b/lmms_eval/models/chat/vllm.py
@@ -65,14 +65,44 @@ def generate_until(self, requests) -> List[str]:
 
             sampling_params = SamplingParams(**params)
 
+            start_time = time.time()
             if self.chat_template is not None:
                 with open(self.chat_template, "r") as f:
                     chat_template = f.read()
                 response = self.client.chat(sampling_params=sampling_params, messages=batched_messages, chat_template=chat_template)
             else:
                 response = self.client.chat(sampling_params=sampling_params, messages=batched_messages)
+            end_time = time.time()
+
             response_text = [o.outputs[0].text for o in response]
 
+            # Calculate timing metrics for batch
+            e2e_latency = end_time - start_time
+            total_tokens = 0
+
+            for idx, output in enumerate(response):
+                if hasattr(output, "metrics") and hasattr(output.metrics, "time_to_first_token"):
+                    ttft = output.metrics.time_to_first_token
+                else:
+                    # Estimate TTFT as a fraction of total time
+                    ttft = e2e_latency * 0.1 / len(response)
+
+                output_tokens = len(output.outputs[0].token_ids) if hasattr(output.outputs[0], "token_ids") else len(output.outputs[0].text.split())
+                total_tokens += output_tokens
+
+                if output_tokens > 1:
+                    tpot = (e2e_latency / len(response) - ttft) / (output_tokens - 1)
+                    inference_speed = 1 / tpot if tpot > 0 else 0
+                else:
+                    tpot = e2e_latency / len(response)
+                    inference_speed = 0
+
+                eval_logger.info(f"Batch {idx} - E2E: {e2e_latency/len(response):.3f}s, TTFT: {ttft:.3f}s, TPOT: {tpot:.3f}s, Speed: {inference_speed:.1f} tokens/s, Output tokens: {output_tokens}")
+
+            if len(response) > 1:
+                avg_speed = total_tokens / e2e_latency if e2e_latency > 0 else 0
+                eval_logger.info(f"Batch summary - Total time: {e2e_latency:.3f}s, Total tokens: {total_tokens}, Avg speed: {avg_speed:.1f} tokens/s")
+
             assert len(response_text) == len(batch_requests)
             res.extend(response_text)
             pbar.update(len(batch_requests))
diff --git a/test/test_throughput_metrics.py b/test/test_throughput_metrics.py