I think softmax_scale does not affect the selected tokens. 在indexer中能不能把它去掉呢,这个乘softmax_scale似乎没什么收益,反而在有些场景影响性能/精度
I think softmax_scale does not affect the selected tokens. 在indexer中能不能把它去掉呢,这个乘softmax_scale似乎没什么收益,反而在有些场景影响性能/精度