本地部署了deepseek-vl2-small模型,GPU是一台英伟达A100,显存为40G,输入的图片是10*24的多周期K线图,输出token最长为512,目前推理的时长是10秒左右,请问这个速度正常吗?比预期的要慢很多,有没有大佬知道这种情况一般需要耗时多久呢?除了更换显卡外有没有其他能提速的方法?