Skip to content

部分数据集评测实际结果比官方低很多(在差值为30%的情况下,无法复现/接近官方数据) #1302

@twilighgt

Description

@twilighgt

问题描述

最近在使用evalscope评测的时候,有一些疑惑:实际测试出来结果比官方公布的低很多,不清楚是什么原因?

请简要描述您遇到的问题。
无法复现官方的测试数据

EvalScope 版本(必填)

evalscope 0.0.0_dev
(git pull https://github.com/modelscope/evalscope.git)之后自行在本地编译的,2026_0416那天pull的代码

执行的代码或指令

evalscope eval
--model deepseek-ai/DeepSeek-V3.1-Terminus
--api-url #######
--api-key ################
--datasets hle
--judge-model-args '{"model_id": "gpt-4.1-mini", "api_url": "#########", "api_key": "############3"}'
--dataset-args '{"hle": {"extra_params": {"include_multi_modal": false}}}'

运行环境

  • 操作系统:
  • Python版本:py312

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions