SFT后模型vLLM推理及pt推理结果不一致

使用了example中的脚本对sft后的qwen2.5vl模型进行推理，同样的数据文件，使用vllm和pt推理的结果有较大差异（vllm推理性能下降）。

ms-swift版本为3.11.1。除了vllm推理脚本在ddp示例脚本的基础上增加了vllm_enable_prefix_caching为false（不增加该项会出现复读问题），别的参数均与example相同。

请问这是正常现象吗？是否有方法可以缓解这一问题？


vllm: 0.11.0
pytorch: 2.8.0
transformers: 4.57.3
flash_attn: 2.8.3
flash infer 0.5.2
formers 0.0.32.post1