Share aiohttp.ClientSessions per worker

diamondburned · diamondburned · commit a5fa52127ae3 · 2025-11-10T16:17:43.000-08:00
Slightly refactor `openAIModelServerClient` to accept a custom `aiohttp.ClientSession` per request, which allows us to use exactly 1 client session per worker. Prior to this commit, a new `aiohttp.ClientSession` is created for each request. Not only is this inefficient and lowers throughput, on certain environments, it also leads to inotify watch issues: aiodns - WARNING - Failed to create DNS resolver channel with automatic monitoring of resolver configuration changes. This usually means the system ran out of inotify watches. Falling back to socket state callback. Consider increasing the system inotify watch limit: Failed to initialize c-ares channel Indeed, because each DNS resolver is created for a new `ClientSession`, creating tons of new `ClientSession`s causes eventual inotify watch exhaustion. Sharing `ClientSession`s solves this issue. Relevant links: - https://docs.aiohttp.org/en/stable/http_request_lifecycle.html - https://stackoverflow.com/questions/62707369/one-aiohttp-clientsession-per-thread - home-assistant/core#144457 (comment) Relevant PR: kubernetes-sigs#247 (doesn't address the issue of worker sharing).
diff --git a/inference_perf/client/modelserver/openai_client.py b/inference_perf/client/modelserver/openai_client.py
@@ -21,6 +21,7 @@
 from typing import List, Optional
 import aiohttp
 import asyncio
+import copy
 import json
 import time
 import logging
@@ -29,7 +30,17 @@
 logger = logging.getLogger(__name__)
 
 
+class openAIHTTPClientSession(aiohttp.ClientSession):
+    def __init__(self, timeout: float | None, max_tcp_connections: int) -> None:
+        super().__init__(
+            timeout=aiohttp.ClientTimeout(total=timeout) if timeout else aiohttp.helpers.sentinel,
+            connector=aiohttp.TCPConnector(limit=max_tcp_connections),
+        )
+
+
 class openAIModelServerClient(ModelServerClient):
+    _session: aiohttp.ClientSession | None = None
+
     def __init__(
         self,
         metrics_collector: RequestDataCollector,
@@ -70,7 +81,19 @@ def __init__(
             tokenizer_config = CustomTokenizerConfig(pretrained_model_name_or_path=self.model_name)
         self.tokenizer = CustomTokenizer(tokenizer_config)
 
-    async def process_request(self, data: InferenceAPIData, stage_id: int, scheduled_time: float) -> None:
+    def new_session(self) -> openAIHTTPClientSession:
+        return openAIHTTPClientSession(timeout=self.timeout, max_tcp_connections=self.max_tcp_connections)
+
+    async def process_request(
+        self,
+        data: InferenceAPIData,
+        stage_id: int,
+        scheduled_time: float,
+        session: openAIHTTPClientSession | None = None,
+    ) -> None:
+        custom_session = session is not None
+        session = session or self.new_session()
+
         payload = data.to_payload(
             model_name=self.model_name,
             max_tokens=self.max_completion_tokens,
@@ -86,57 +109,56 @@ async def process_request(self, data: InferenceAPIData, stage_id: int, scheduled
             headers.update(self.api_config.headers)
 
         request_data = json.dumps(payload)
+        start = time.perf_counter()
 
-        timeout = aiohttp.ClientTimeout(total=self.timeout) if self.timeout else aiohttp.helpers.sentinel
+        try:
+            async with session.post(self.uri + data.get_route(), headers=headers, data=request_data) as response:
+                response_info = await data.process_response(
+                    response=response, config=self.api_config, tokenizer=self.tokenizer
+                )
+                response_content = await response.text()
+
+                end_time = time.perf_counter()
+                error = None
+                if response.status != 200:
+                    error = ErrorResponseInfo(error_msg=response_content, error_type="Error response")
 
-        async with aiohttp.ClientSession(
-            connector=aiohttp.TCPConnector(limit=self.max_tcp_connections), timeout=timeout
-        ) as session:
-            start = time.perf_counter()
-            try:
-                async with session.post(self.uri + data.get_route(), headers=headers, data=request_data) as response:
-                    response_info = await data.process_response(
-                        response=response, config=self.api_config, tokenizer=self.tokenizer
-                    )
-                    response_content = await response.text()
-
-                    end_time = time.perf_counter()
-                    error = None
-                    if response.status != 200:
-                        error = ErrorResponseInfo(error_msg=response_content, error_type="Error response")
-
-                    self.metrics_collector.record_metric(
-                        RequestLifecycleMetric(
-                            stage_id=stage_id,
-                            request_data=request_data,
-                            response_data=response_content,
-                            info=response_info,
-                            error=error,
-                            start_time=start,
-                            end_time=end_time,
-                            scheduled_time=scheduled_time,
-                        )
-                    )
-            except Exception as e:
-                if isinstance(e, asyncio.exceptions.TimeoutError):
-                    logger.error("request timed out:", exc_info=True)
-                else:
-                    logger.error("error occured during request processing:", exc_info=True)
                 self.metrics_collector.record_metric(
                     RequestLifecycleMetric(
                         stage_id=stage_id,
                         request_data=request_data,
-                        response_data=response_content if "response_content" in locals() else "",
-                        info=response_info if "response_info" in locals() else InferenceInfo(),
-                        error=ErrorResponseInfo(
-                            error_msg=str(e),
-                            error_type=type(e).__name__,
-                        ),
+                        response_data=response_content,
+                        info=response_info,
+                        error=error,
                         start_time=start,
-                        end_time=time.perf_counter(),
+                        end_time=end_time,
                         scheduled_time=scheduled_time,
                     )
                 )
+        except Exception as e:
+            if isinstance(e, asyncio.exceptions.TimeoutError):
+                logger.error("request timed out:", exc_info=True)
+            else:
+                logger.error("error occured during request processing:", exc_info=True)
+            self.metrics_collector.record_metric(
+                RequestLifecycleMetric(
+                    stage_id=stage_id,
+                    request_data=request_data,
+                    response_data=response_content if "response_content" in locals() else "",
+                    info=response_info if "response_info" in locals() else InferenceInfo(),
+                    error=ErrorResponseInfo(
+                        error_msg=str(e),
+                        error_type=type(e).__name__,
+                    ),
+                    start_time=start,
+                    end_time=time.perf_counter(),
+                    scheduled_time=scheduled_time,
+                )
+            )
+        finally:
+            # close our session if it wasn't a shared one.
+            if not custom_session:
+                await session.close()
 
     def get_supported_apis(self) -> List[APIType]:
         return []
diff --git a/inference_perf/loadgen/load_generator.py b/inference_perf/loadgen/load_generator.py
@@ -77,6 +77,7 @@ def __init__(
     async def loop(self) -> None:
         semaphore = Semaphore(self.max_concurrency)
         tasks = []
+        session = self.client.new_session()
         event_loop = get_event_loop()
         item = None
         timeout = 0.5
@@ -118,7 +119,7 @@ async def schedule_client(
                         with self.active_requests_counter.get_lock():
                             self.active_requests_counter.value += 1
                             inflight = True
-                        await self.client.process_request(request_data, stage_id, request_time)
+                        await self.client.process_request(request_data, stage_id, request_time, session=session)
                     except CancelledError:
                         pass
                     finally:
@@ -149,6 +150,7 @@ async def schedule_client(
                 logger.debug(f"[Worker {self.id}] waiting for next phase")
                 self.request_phase.wait()
 
+        await session.close()
         logger.debug(f"[Worker {self.id}] stopped")
 
     def run(self) -> None: