问题描述
最近在使用evalscope评测的时候,有一些疑惑:实际测试出来结果比官方公布的低很多,不清楚是什么原因?
请简要描述您遇到的问题。
无法复现官方的测试数据
EvalScope 版本(必填)
evalscope 0.0.0_dev
(git pull https://github.com/modelscope/evalscope.git)之后自行在本地编译的,2026_0416那天pull的代码
执行的代码或指令
evalscope eval
--model deepseek-ai/DeepSeek-V3.1-Terminus
--api-url #######
--api-key ################
--datasets hle
--judge-model-args '{"model_id": "gpt-4.1-mini", "api_url": "#########", "api_key": "############3"}'
--dataset-args '{"hle": {"extra_params": {"include_multi_modal": false}}}'
运行环境
问题描述
最近在使用evalscope评测的时候,有一些疑惑:实际测试出来结果比官方公布的低很多,不清楚是什么原因?
请简要描述您遇到的问题。
无法复现官方的测试数据
EvalScope 版本(必填)
evalscope 0.0.0_dev
(git pull https://github.com/modelscope/evalscope.git)之后自行在本地编译的,2026_0416那天pull的代码
执行的代码或指令
evalscope eval
--model deepseek-ai/DeepSeek-V3.1-Terminus
--api-url #######
--api-key ################
--datasets hle
--judge-model-args '{"model_id": "gpt-4.1-mini", "api_url": "#########", "api_key": "############3"}'
--dataset-args '{"hle": {"extra_params": {"include_multi_modal": false}}}'
运行环境