评测推理产生的文件为:Qwen3.5-27B_MMBench_DEV_CN_V11.xlsx
判别产生的文件为:Qwen3.5-27B_MMBench_DEV_CN_V11_GLM4.7_result.xlsx
eval命令:python run.py --data MMBench_DEV_CN_V11 --model Qwen3.5-27B --mode eval --reuse --judge GLM4.7 --verbose --judge-args '{"temperature":0, "chat_template_kwargs":{"enable_thinking":false}}'
评测推理产生的文件为:Qwen3.5-27B_MMBench_DEV_CN_V11.xlsx
判别产生的文件为:Qwen3.5-27B_MMBench_DEV_CN_V11_GLM4.7_result.xlsx
eval命令:python run.py --data MMBench_DEV_CN_V11 --model Qwen3.5-27B --mode eval --reuse --judge GLM4.7 --verbose --judge-args '{"temperature":0, "chat_template_kwargs":{"enable_thinking":false}}'