Skip to content

关于数据集和Plan和Tool指标的问题 #43

@LiuJinzhe-Keepgoing

Description

@LiuJinzhe-Keepgoing

哈喽,感谢您们精彩的工作!我认为这是十分有意义的。但是我有几个困惑。
我理解针对于Kagent这个框架,数据集中"type": "plantooluse"是为了验证模型的plan多步骤能力。但是:

  1. golden_result_list中的json数据没有step的概念,看起来是没有先后执行顺序的。这个怎么作为多步骤推理的标签呢? 模型在执行多次plan的时候,怎样选择golden_result_list的结果作为标准的label
  2. 评价指标中的Planning和Tool-use是否评价的是一次plan的过程,这样能否体现多步骤推理的能力呢?

感谢! 并且期待您的回复!
谢谢!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions