功能描述 / Feature Description
最近很多新模型在toolcall / 代码生成等任务上表现优异,希望evalscope能集成更多toolcall相关数据集的支持
需求背景 / Background
GLM5 、Kimi-K2.5、Qwen3.5等模型火热,尤其是在工具调用、代码生成等任务上表现优异,但是很多数据集在evalscope还没有支持,希望通过evalscope来统一发起数据集测评
例如GLM5.1中提到的

预期行为 / Expected Behavior
对齐模型卡片简介中写的分数
其他信息 / Additional Information
暂无
功能描述 / Feature Description
最近很多新模型在toolcall / 代码生成等任务上表现优异,希望evalscope能集成更多toolcall相关数据集的支持
需求背景 / Background
GLM5 、Kimi-K2.5、Qwen3.5等模型火热,尤其是在工具调用、代码生成等任务上表现优异,但是很多数据集在evalscope还没有支持,希望通过evalscope来统一发起数据集测评
例如GLM5.1中提到的
预期行为 / Expected Behavior
对齐模型卡片简介中写的分数
其他信息 / Additional Information
暂无