Skip to content

SFT后模型vLLM推理及pt推理结果不一致 #7459

@cnyvfang

Description

@cnyvfang

使用了example中的脚本对sft后的qwen2.5vl模型进行推理,同样的数据文件,使用vllm和pt推理的结果有较大差异(vllm推理性能下降)。

ms-swift版本为3.11.1。除了vllm推理脚本在ddp示例脚本的基础上增加了vllm_enable_prefix_caching为false(不增加该项会出现复读问题),别的参数均与example相同。

请问这是正常现象吗?是否有方法可以缓解这一问题?

vllm: 0.11.0
pytorch: 2.8.0
transformers: 4.57.3
flash_attn: 2.8.3
flash infer 0.5.2
formers 0.0.32.post1

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions