PaddlePaddle · zhanghonggeng · Apr 17, 2026 · From00 · Apr 20, 2026
diff --git a/paddleformers/transformers/glm4_moe/modeling.py b/paddleformers/transformers/glm4_moe/modeling.py
@@ -88,6 +88,9 @@ class GLMMoEModelProvider(GPTModelProvider):
     router_aux_loss_coef: float = 0.001
     moe_grouped_gemm: bool = False
 
+    attention_softmax_in_fp32: bool = True
+    bf16: bool = True
+
 
 def eager_attention_forward(
     module: nn.Layer,