PaddlePaddle · Copilot · Apr 20, 2026 · Apr 20, 2026 · PaddlePaddle-bot · Apr 20, 2026
diff --git a/fastdeploy/entrypoints/openai/api_server.py b/fastdeploy/entrypoints/openai/api_server.py
@@ -64,6 +64,7 @@
 from fastdeploy.entrypoints.openai.utils import (
     UVICORN_CONFIG,
     make_arg_parser,
+    resolve_workers_and_concurrency,
     with_cancellation,
 )
 from fastdeploy.entrypoints.openai.v1.serving_chat import (
@@ -95,8 +96,10 @@
 
 parser = make_arg_parser(FlexibleArgumentParser())
 args = parser.parse_args()
+resolve_workers_and_concurrency(args)
 
 console_logger.info(f"Number of api-server workers: {args.workers}.")
+console_logger.info(f"Max concurrency: {args.max_concurrency}.")
 
 args.model = retrive_model_from_server(args.model, args.revision)
 chat_template = load_chat_template(args.chat_template, args.model)

diff --git a/fastdeploy/entrypoints/openai/utils.py b/fastdeploy/entrypoints/openai/utils.py
@@ -17,6 +17,7 @@
 import asyncio
 import functools
 import heapq
+import math
 import os
 import random
 import time
@@ -343,7 +344,7 @@ async def close(self):
 def make_arg_parser(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
     parser.add_argument("--port", default=8000, type=int, help="port to the http server")
     parser.add_argument("--host", default="0.0.0.0", type=str, help="host to the http server")
-    parser.add_argument("--workers", default=1, type=int, help="number of workers")
+    parser.add_argument("--workers", default=None, type=int, help="number of workers")
     parser.add_argument("--metrics-port", default=None, type=int, help="port for metrics server")
     parser.add_argument("--controller-port", default=-1, type=int, help="port for controller server")
     parser.add_argument(
@@ -352,7 +353,7 @@ def make_arg_parser(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
         type=int,
         help="max waiting time for connection, if set value -1 means no waiting time limit",
     )
-    parser.add_argument("--max-concurrency", default=512, type=int, help="max concurrency")
+    parser.add_argument("--max-concurrency", default=None, type=int, help="max concurrency")
 
     parser.add_argument(
         "--enable-mm-output", action="store_true", help="Enable 'multimodal_content' field in response output. "
@@ -377,6 +378,33 @@ def make_arg_parser(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
     return parser
 
 
+def resolve_workers_and_concurrency(args):
+    """
+    Resolve default values for workers and max_concurrency based on the platform.
+
+    For NVIDIA GPU (CUDA):
+        workers defaults to ceil(max_num_seqs / 64)
+        max_concurrency defaults to workers * 512
+    For other platforms:
+        workers defaults to 1
+        max_concurrency defaults to workers * 512
+    """
+    from fastdeploy.platforms import current_platform
+
+    max_num_seqs = getattr(args, "max_num_seqs", None) or 8
+
+    if current_platform.is_cuda():
+        if args.workers is None:
+            args.workers = math.ceil(max_num_seqs / 64)
+        if args.max_concurrency is None:
+            args.max_concurrency = args.workers * 512
+    else:
+        if args.workers is None:
+            args.workers = 1
+        if args.max_concurrency is None:
+            args.max_concurrency = args.workers * 512
+
+
 async def listen_for_disconnect(request: Request) -> None:
     """Returns if a disconnect message is received"""
     while True: