Skip to content

Question about inference speed and VRAM used 推理速度及显存打印与实际不符问题 #73

@LeeKeyu

Description

@LeeKeyu

作者您好,非常感谢您分享这个工作!我尝试使用distilled模型推理,V2V模式,直接在40GB A800上跑报错OOM
然后加上了low vram参数
--enable_low_vram_mode
--group_offloading_type "leaf_level"
看到代码打印出来 Max memory: 5.709 GB,但实际查看nvitop显示的实时显存消耗是 22GB,请问这个差异是为什么呢?另外推理速度是1.8s/it,每段3步去噪则总共需要~6s/33帧,与论文中的19.5 FPS相去甚远。请问下,你们提到的19.5 FPS是指33帧除以3步总推理时间吗?(而不是latency的倒数)

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions