One More Suggestion

突然又有个小想法分享一下，虽然现在模型都有相应评分，可以方便知道谁更好，但是似乎现在没有一个类似60分（及格），85分（良好），90分（优秀）的档位感觉.

这样会导致，某一些场景下我只能使用一个或者限定的几个模型，也通过A.S.E知道了它们的分数，但是不知道这些分数意味着它们已经到了及格、还是良好、还是非常优秀（比如看到现在代码安全性得分最高的应该是claude3.7，应该是46.72分，但是如果按照百分制去理解，是不是表示仍然还是不及格~那如果大家都在不及格的分数下，也就是五十步笑百步，那我就不会纠结于具体评分得分是多少了，而是去看别的了）

相应的，如果针对代码安全性、代码质量、生成稳定性，给出一个分级的标准（比如一个不成熟的想法，所有主流被评测的，按照中位得分或者P30,P60,P90来划档），可能就更有参考意义了