Skip to content

One More Suggestion #3

@Tendoyo

Description

@Tendoyo

突然又有个小想法分享一下,虽然现在模型都有相应评分,可以方便知道谁更好,但是似乎现在没有一个类似60分(及格),85分(良好),90分(优秀)的档位感觉.

这样会导致,某一些场景下我只能使用一个或者限定的几个模型,也通过A.S.E知道了它们的分数,但是不知道这些分数意味着它们已经到了及格、还是良好、还是非常优秀(比如看到现在代码安全性得分最高的应该是claude3.7,应该是46.72分,但是如果按照百分制去理解,是不是表示仍然还是不及格~那如果大家都在不及格的分数下,也就是五十步笑百步,那我就不会纠结于具体评分得分是多少了,而是去看别的了)

相应的,如果针对代码安全性、代码质量、生成稳定性,给出一个分级的标准(比如一个不成熟的想法,所有主流被评测的,按照中位得分或者P30,P60,P90来划档),可能就更有参考意义了

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions