使用了example中的脚本对sft后的qwen2.5vl模型进行推理,同样的数据文件,使用vllm和pt推理的结果有较大差异(vllm推理性能下降)。
ms-swift版本为3.11.1。除了vllm推理脚本在ddp示例脚本的基础上增加了vllm_enable_prefix_caching为false(不增加该项会出现复读问题),别的参数均与example相同。
请问这是正常现象吗?是否有方法可以缓解这一问题?
vllm: 0.11.0
pytorch: 2.8.0
transformers: 4.57.3
flash_attn: 2.8.3
flash infer 0.5.2
formers 0.0.32.post1