评测MMBench数据集发现部分问题判别错误

评测推理产生的文件为：[Qwen3.5-27B_MMBench_DEV_CN_V11.xlsx](https://github.com/user-attachments/files/25887482/Qwen3.5-27B_MMBench_DEV_CN_V11.xlsx)

判别产生的文件为：[Qwen3.5-27B_MMBench_DEV_CN_V11_GLM4.7_result.xlsx](https://github.com/user-attachments/files/25887484/Qwen3.5-27B_MMBench_DEV_CN_V11_GLM4.7_result.xlsx)

eval命令：python run.py --data MMBench_DEV_CN_V11 --model Qwen3.5-27B --mode eval --reuse --judge GLM4.7 --verbose --judge-args '{"temperature":0, "chat_template_kwargs":{"enable_thinking":false}}'

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

评测MMBench数据集发现部分问题判别错误 #1480

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

评测MMBench数据集发现部分问题判别错误 #1480

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions