Skip to content

最近很多新模型在toolcall / 代码生成等任务上表现优异,希望evalscope能集成更多相关数据集的支持 #1278

@fankexinxin

Description

@fankexinxin

功能描述 / Feature Description

最近很多新模型在toolcall / 代码生成等任务上表现优异,希望evalscope能集成更多toolcall相关数据集的支持

需求背景 / Background

GLM5 、Kimi-K2.5、Qwen3.5等模型火热,尤其是在工具调用、代码生成等任务上表现优异,但是很多数据集在evalscope还没有支持,希望通过evalscope来统一发起数据集测评
例如GLM5.1中提到的

Image

预期行为 / Expected Behavior

对齐模型卡片简介中写的分数

其他信息 / Additional Information

暂无

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions