chore: add inter_token_latency in ModelServerMetrics for sglang metrics (#242)

jlcoo · web-flow · commit 587deb2197e5 · 2025-10-03T12:09:20.000-07:00
diff --git a/inference_perf/client/metricsclient/base.py b/inference_perf/client/metricsclient/base.py
@@ -57,6 +57,10 @@ class ModelServerMetrics(BaseModel):
     median_time_per_output_token: float = 0.0
     p90_time_per_output_token: float = 0.0
     p99_time_per_output_token: float = 0.0
+    avg_inter_token_latency: float = 0.0
+    median_inter_token_latency: float = 0.0
+    p90_inter_token_latency: float = 0.0
+    p99_inter_token_latency: float = 0.0
 
     # Request
     total_requests: int = 0
@@ -77,6 +81,7 @@ class ModelServerMetrics(BaseModel):
     prefix_cache_queries: float = 0.0
 
 
+
 class MetricsClient(ABC):
     @abstractmethod
     def __init__(self) -> None: