经多次测试,发现internvl 2.5 8b的videomme,longvideobench_val_v和mlvu的结果与官方结果差异巨大,其中mlvu64帧结果只有57.89,比官方的60低了2个点。 qwen2.5vl 的videomme 结果只有62.9%,与官方的65.1差异巨大 测试时直接使用lmms eval跑的,什么也没有修改 建议lmms eval团队可以重新测试一下这些模型,看看是不是什么setting设置的不对? 期待回复
经多次测试,发现internvl 2.5 8b的videomme,longvideobench_val_v和mlvu的结果与官方结果差异巨大,其中mlvu64帧结果只有57.89,比官方的60低了2个点。
qwen2.5vl 的videomme 结果只有62.9%,与官方的65.1差异巨大
测试时直接使用lmms eval跑的,什么也没有修改
建议lmms eval团队可以重新测试一下这些模型,看看是不是什么setting设置的不对?
期待回复