Question about outlier tokens of MoE, like DeepSeek-v2?

Thank you for your great job!
I found the experiments are all conducted on Llama series. I'm particularly interested in whether you've extended your analysis of outlier tokens to Mixture-of-Experts (MoE) architectures. Could you please shed some light on it?