updated vllm toolparser imports that changed in 0.14.0 + fixed LMCache integration tests (deepjavalibrary#2989)

smouaa · web-flow · commit a29a146993ea · 2026-01-22T08:47:03.000-08:00
diff --git a/engines/python/setup/djl_python/chat_completions/vllm_chat_utils.py b/engines/python/setup/djl_python/chat_completions/vllm_chat_utils.py
@@ -15,7 +15,7 @@
 from pydantic import Field
 from vllm import TokensPrompt
 from vllm.entrypoints.openai.serving_engine import RequestPrompt, TextTokensPrompt
-from vllm.entrypoints.openai.tool_parsers import ToolParser
+from vllm.tool_parsers import ToolParser
 from vllm.tokenizers.mistral import maybe_serialize_tool_calls
 from vllm.transformers_utils.tokenizer import AnyTokenizer
 from vllm.entrypoints.openai.protocol import ChatCompletionRequest
diff --git a/engines/python/setup/djl_python/properties_manager/vllm_rb_properties.py b/engines/python/setup/djl_python/properties_manager/vllm_rb_properties.py
@@ -121,7 +121,7 @@ def validate_pipeline_parallel(self):
     @model_validator(mode='after')
     def validate_tool_call_parser(self):
         if self.enable_auto_tool_choice:
-            from vllm.entrypoints.openai.tool_parsers import ToolParserManager
+            from vllm.tool_parsers import ToolParserManager
             valid_tool_parses = ToolParserManager.list_registered()
             if self.tool_call_parser not in valid_tool_parses:
                 raise ValueError(
diff --git a/engines/python/setup/djl_python/rolling_batch/vllm_rolling_batch.py b/engines/python/setup/djl_python/rolling_batch/vllm_rolling_batch.py
@@ -55,7 +55,7 @@ def __init__(self, model_id_or_path: str, properties: dict,
         self.tool_parser = None
         self.reasoning_parser = None
         if self.vllm_configs.enable_auto_tool_choice:
-            from vllm.entrypoints.openai.tool_parsers import ToolParserManager
+            from vllm.tool_parsers import ToolParserManager
             try:
                 self.tool_parser = ToolParserManager.get_tool_parser(
                     self.vllm_configs.tool_call_parser)
diff --git a/tests/integration/llm/client.py b/tests/integration/llm/client.py
@@ -284,10 +284,10 @@ def get_model_name():
         "seq_length": [256],
         "tokenizer": "Qwen/Qwen3-8B"
     },
-    "qwen2.5-72b-lmcache-auto": {
+    "qwen2.5-32b-lmcache-auto": {
         "batch_size": [1, 4],
         "seq_length": [256],
-        "tokenizer": "Qwen/Qwen2.5-72B"
+        "tokenizer": "Qwen/Qwen2.5-32B"
     },
 }
 
diff --git a/tests/integration/llm/prepare.py b/tests/integration/llm/prepare.py
@@ -529,7 +529,7 @@
     },
     "qwen3-8b-no-cache": {
         "option.model_id": "Qwen/Qwen3-8B",
-        "option.tensor_parallel_degree": 1,
+        "option.tensor_parallel_degree": 2,
         "option.load_format": "dummy",
         "option.max_new_tokens": 100,
         "option.enable_prefix_caching": False,
@@ -672,6 +672,15 @@
         "option.kv_transfer_config":
         '{"kv_connector":"LMCacheConnectorV1", "kv_role":"kv_both"}',
     },
+    "qwen2.5-32b": {
+        "option.model_id": "Qwen/Qwen2.5-32B",
+        "option.tensor_parallel_degree": 4,
+        "option.load_format": "dummy",
+        "option.max_new_tokens": 100,
+        "option.max_model_len": 16384,
+        "option.enable_prefix_caching": False,
+        "load_on_devices": 0,
+    },
 }
 
 vllm_neo_model_list = {
diff --git a/tests/integration/tests.py b/tests/integration/tests.py
@@ -715,12 +715,12 @@ def test_lmcache_auto_config(self):
             client.run("vllm_lmcache qwen3-8b-lmcache-auto".split())
 
     def test_lmcache_auto_config_larger_model(self):
-        with Runner("lmi", "qwen2.5-72b-no-cache") as r:
-            prepare.build_vllm_async_model("qwen2.5-72b")
+        with Runner("lmi", "qwen2.5-32b") as r:
+            prepare.build_vllm_async_model("qwen2.5-32b")
             r.launch(env_vars=[
                 "PYTHONHASHSEED=0", "OPTION_LMCACHE_AUTO_CONFIG=True"
             ])
-            client.run("vllm_lmcache qwen2.5-72b-lmcache-auto".split())
+            client.run("vllm_lmcache qwen2.5-32b-lmcache-auto".split())
 
 
 @pytest.mark.vllm