- 
                Notifications
    
You must be signed in to change notification settings  - Fork 53
 
Open
Description
突然又有个小想法分享一下,虽然现在模型都有相应评分,可以方便知道谁更好,但是似乎现在没有一个类似60分(及格),85分(良好),90分(优秀)的档位感觉.
这样会导致,某一些场景下我只能使用一个或者限定的几个模型,也通过A.S.E知道了它们的分数,但是不知道这些分数意味着它们已经到了及格、还是良好、还是非常优秀(比如看到现在代码安全性得分最高的应该是claude3.7,应该是46.72分,但是如果按照百分制去理解,是不是表示仍然还是不及格~那如果大家都在不及格的分数下,也就是五十步笑百步,那我就不会纠结于具体评分得分是多少了,而是去看别的了)
相应的,如果针对代码安全性、代码质量、生成稳定性,给出一个分级的标准(比如一个不成熟的想法,所有主流被评测的,按照中位得分或者P30,P60,P90来划档),可能就更有参考意义了
Metadata
Metadata
Assignees
Labels
No labels