[bugfix] fix model_type vllm_engine (modelscope#8117)

Jintao-Huang · web-flow · commit 0ea520912790 · 2026-02-26T19:29:29.000+08:00
diff --git a/swift/infer_engine/lmdeploy_engine.py b/swift/infer_engine/lmdeploy_engine.py
@@ -17,9 +17,9 @@
 from typing import Any, AsyncIterator, Dict, Iterator, List, Optional, Union
 
 from swift.metrics import Metric
-from swift.model import get_model_info_meta, get_processor
+from swift.model import get_processor
 from swift.template import Template
-from swift.utils import get_logger, get_seed
+from swift.utils import get_logger, get_seed, safe_snapshot_download
 from .infer_engine import InferEngine
 from .patch import patch_auto_config, patch_auto_tokenizer
 from .protocol import (ChatCompletionResponse, ChatCompletionResponseChoice, ChatCompletionResponseStreamChoice,
@@ -72,8 +72,13 @@ def __init__(
             processor = self._get_processor()
             template = self._get_template(processor)
         else:
-            get_model_info_meta(
-                model_id_or_path, hub_token=hub_token, use_hf=use_hf, revision=revision, download_model=True)
+            safe_snapshot_download(
+                model_id_or_path,
+                revision=revision,
+                download_model=True,
+                use_hf=use_hf,
+                ignore_patterns=getattr(template.model_meta, 'ignore_patterns', None),
+                hub_token=hub_token)
         super().__init__(template)
 
         if self.max_model_len is not None:
diff --git a/swift/infer_engine/sglang_engine.py b/swift/infer_engine/sglang_engine.py
@@ -12,9 +12,9 @@
 from typing import Any, AsyncIterator, Dict, Iterator, List, Optional, Union
 
 from swift.metrics import Metric
-from swift.model import get_model_info_meta, get_processor
+from swift.model import get_processor
 from swift.template import Template
-from swift.utils import get_logger
+from swift.utils import get_logger, safe_snapshot_download
 from .infer_engine import InferEngine
 from .protocol import (ChatCompletionResponse, ChatCompletionResponseChoice, ChatCompletionResponseStreamChoice,
                        ChatCompletionStreamResponse, ChatMessage, DeltaMessage, EmbeddingResponse,
@@ -85,8 +85,13 @@ def __init__(
             processor = self._get_processor()
             template = self._get_template(processor)
         else:
-            get_model_info_meta(
-                model_id_or_path, hub_token=hub_token, use_hf=use_hf, revision=revision, download_model=True)
+            safe_snapshot_download(
+                model_id_or_path,
+                revision=revision,
+                download_model=True,
+                use_hf=use_hf,
+                ignore_patterns=getattr(template.model_meta, 'ignore_patterns', None),
+                hub_token=hub_token)
         super().__init__(template)
         self._prepare_server_args(engine_kwargs)
         self.engine = sgl.Engine(server_args=self.server_args)
diff --git a/swift/infer_engine/vllm_engine.py b/swift/infer_engine/vllm_engine.py
@@ -13,9 +13,9 @@
 from typing import Any, AsyncIterator, Dict, Iterator, List, Optional, Union
 
 from swift.metrics import Metric
-from swift.model import get_model_info_meta, get_processor
+from swift.model import get_processor
 from swift.template import Template
-from swift.utils import get_device, get_dist_setting, get_logger, is_dist
+from swift.utils import get_device, get_dist_setting, get_logger, is_dist, safe_snapshot_download
 from .infer_engine import InferEngine
 from .patch import patch_auto_config, patch_auto_tokenizer
 from .protocol import (ChatCompletionResponse, ChatCompletionResponseChoice, ChatCompletionResponseStreamChoice,
@@ -141,8 +141,13 @@ def __init__(
             processor = self._get_processor()
             template = self._get_template(processor)
         else:
-            get_model_info_meta(
-                model_id_or_path, hub_token=hub_token, use_hf=use_hf, revision=revision, download_model=True)
+            safe_snapshot_download(
+                model_id_or_path,
+                revision=revision,
+                download_model=True,
+                use_hf=use_hf,
+                ignore_patterns=getattr(template.model_meta, 'ignore_patterns', None),
+                hub_token=hub_token)
         super().__init__(template)
         if max_model_len is not None:
             self.max_model_len = max_model_len