部分数据集评测实际结果比官方低很多（在差值为30%的情况下，无法复现/接近官方数据）


## 问题描述
最近在使用evalscope评测的时候，有一些疑惑：实际测试出来结果比官方公布的低很多，不清楚是什么原因？

请简要描述您遇到的问题。
无法复现官方的测试数据

## EvalScope 版本（必填）
evalscope 0.0.0_dev
(git pull https://github.com/modelscope/evalscope.git)之后自行在本地编译的，2026_0416那天pull的代码


## 执行的代码或指令
evalscope eval \
    --model deepseek-ai/DeepSeek-V3.1-Terminus \
    --api-url ####### \
    --api-key ################ \
    --datasets hle \
    --judge-model-args '{"model_id": "gpt-4.1-mini", "api_url": "#########", "api_key": "############3"}' \
    --dataset-args '{"hle": {"extra_params": {"include_multi_modal": false}}}'

## 运行环境

- 操作系统：
- Python版本：py312



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

部分数据集评测实际结果比官方低很多（在差值为30%的情况下，无法复现/接近官方数据） #1302

问题描述

EvalScope 版本（必填）

执行的代码或指令

运行环境

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

部分数据集评测实际结果比官方低很多（在差值为30%的情况下，无法复现/接近官方数据） #1302

Description

问题描述

EvalScope 版本（必填）

执行的代码或指令

运行环境

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions