[XPU] improve performance of layernorm (PaddlePaddle#72478)

cqulilujia · web-flow · commit 40be182770f2 · 2025-05-06T10:51:44.000+08:00
diff --git a/paddle/phi/kernels/xpu/layer_norm_grad_kernel.cc b/paddle/phi/kernels/xpu/layer_norm_grad_kernel.cc
@@ -19,6 +19,67 @@
 
 namespace phi {
 
+template <typename T, typename TW, typename Context>  // TW for scale and bias
+void LayerNormGradImpl(const Context& ctx,
+                       const DenseTensor& x,
+                       const paddle::optional<DenseTensor>& scale,
+                       const paddle::optional<DenseTensor>& bias,
+                       const DenseTensor& mean,
+                       const DenseTensor& variance,
+                       const DenseTensor& out_grad,
+                       float epsilon,
+                       int begin_norm_axis,
+                       DenseTensor* x_grad,
+                       DenseTensor* scale_grad,
+                       DenseTensor* bias_grad) {
+  const auto* scale_ptr = scale.get_ptr();
+  using XPUType = typename XPUTypeTrait<T>::Type;
+  using XPUTypeTW = typename XPUTypeTrait<TW>::Type;
+  const auto& x_dims = x.dims();
+  auto matrix_dim = common::flatten_to_2d(x_dims, begin_norm_axis);
+  int64_t left = matrix_dim[0];
+  int64_t right = matrix_dim[1];
+  const auto* x_data = x.data<T>();
+  const auto* out_grad_data = out_grad.data<T>();
+  const auto* mean_data = mean.data<float>();
+  const auto* variance_data = variance.data<float>();
+
+  xpu::ctx_guard RAII_GUARD(ctx.x_context());
+
+  T* x_grad_data = nullptr;
+  const TW* scale_data = nullptr;
+  TW* scale_grad_data = nullptr;
+  TW* bias_grad_data = nullptr;
+  if (x_grad != nullptr) {
+    ctx.template Alloc<T>(x_grad);
+    x_grad_data = x_grad->data<T>();
+  }
+  if (scale_ptr != nullptr) {
+    scale_data = scale_ptr->data<TW>();
+    if (scale_grad != nullptr) {
+      ctx.template Alloc<TW>(scale_grad);
+      scale_grad_data = scale_grad->data<TW>();
+    }
+  }
+  if (bias_grad != nullptr) {
+    ctx.template Alloc<TW>(bias_grad);
+    bias_grad_data = bias_grad->data<TW>();
+  }
+  int r = xpu::layer_norm_grad(ctx.x_context(),
+                               reinterpret_cast<const XPUType*>(x_data),
+                               reinterpret_cast<const XPUType*>(out_grad_data),
+                               reinterpret_cast<XPUType*>(x_grad_data),
+                               left,
+                               right,
+                               epsilon,
+                               reinterpret_cast<const XPUTypeTW*>(scale_data),
+                               mean_data,
+                               variance_data,
+                               reinterpret_cast<XPUTypeTW*>(scale_grad_data),
+                               reinterpret_cast<XPUTypeTW*>(bias_grad_data));
+  PADDLE_ENFORCE_XDNN_SUCCESS(r, "layer_norm_grad");
+}
+
 template <typename T, typename Context>
 void LayerNormGradKernel(const Context& ctx,
                          const DenseTensor& x,
@@ -46,137 +107,40 @@ void LayerNormGradKernel(const Context& ctx,
     }
   }
 
-  bool is_scale_bias_same_dtype_with_x = x_dtype == scale_bias_dtype;
+  bool is_scale_bias_same_dtype_with_x = (x_dtype == scale_bias_dtype);
   if (!is_scale_bias_same_dtype_with_x) {
     PADDLE_ENFORCE_EQ(scale_bias_dtype,
                       phi::CppTypeToDataType<float>::Type(),
                       common::errors::InvalidArgument(
                           "Unsupported data type of Scale and Bias"));
   }
-  using XPUType = typename XPUTypeTrait<T>::Type;
-  const auto& x_dims = x.dims();
-  auto matrix_dim = common::flatten_to_2d(x_dims, begin_norm_axis);
-  int left = static_cast<int>(matrix_dim[0]);
-  int right = static_cast<int>(matrix_dim[1]);
-  const auto* x_data = x.data<T>();
-  const auto* out_grad_data = out_grad.data<T>();
-  const auto* mean_data = mean.data<float>();
-  const auto* variance_data = variance.data<float>();
-
-  xpu::ctx_guard RAII_GUARD(ctx.x_context());
-
-  // scale
-  const float* scale_data_fp32 = nullptr;
-  float* scale_grad_data_fp32 = nullptr;
-  const T* scale_data_T = nullptr;
-  T* scale_grad_data_T = nullptr;
-  bool need_cast_scale = false;
-  if (scale_ptr == nullptr) {
-    // no scale, do nothing
-  } else if (scale_ptr->dtype() ==
-             phi::CppTypeToDataType<phi::dtype::float16>::Type()) {
-    float* scale_data_temp =
-        RAII_GUARD.alloc_l3_or_gm<float>(scale_ptr->numel());
-    int r = xpu::cast<XPUType, float>(
-        ctx.x_context(),
-        reinterpret_cast<const XPUType*>(scale_ptr->data<T>()),
-        scale_data_temp,
-        scale_ptr->numel());
-    PADDLE_ENFORCE_XDNN_SUCCESS(r, "cast");
-    scale_data_fp32 = scale_data_temp;
-    need_cast_scale = true;
-    scale_grad_data_fp32 =
-        scale_grad == nullptr
-            ? nullptr
-            : RAII_GUARD.alloc_l3_or_gm<float>(scale_ptr->numel());
-  } else {
-    // no need to cast
-    if (is_scale_bias_same_dtype_with_x) {
-      scale_data_T = scale_ptr->data<T>();
-      scale_grad_data_T =
-          scale_grad == nullptr ? nullptr : ctx.template Alloc<T>(scale_grad);
-    } else {
-      scale_data_fp32 = scale_ptr->data<float>();
-      scale_grad_data_fp32 = scale_grad == nullptr
-                                 ? nullptr
-                                 : ctx.template Alloc<float>(scale_grad);
-    }
-  }
 
-  // bias
-  float* bias_grad_data_fp32 = nullptr;
-  T* bias_grad_data_T = nullptr;
-  bool need_cast_bias = false;
-  if (bias_ptr == nullptr) {
-    // no bias, do nothing
-  } else if (bias_ptr->dtype() ==
-             phi::CppTypeToDataType<phi::dtype::float16>::Type()) {
-    need_cast_bias = true;
-    bias_grad_data_fp32 =
-        bias_grad == nullptr
-            ? nullptr
-            : RAII_GUARD.alloc_l3_or_gm<float>(bias_ptr->numel());
+  if (is_scale_bias_same_dtype_with_x) {
+    LayerNormGradImpl<T, T, Context>(ctx,
+                                     x,
+                                     scale,
+                                     bias,
+                                     mean,
+                                     variance,
+                                     out_grad,
+                                     epsilon,
+                                     begin_norm_axis,
+                                     x_grad,
+                                     scale_grad,
+                                     bias_grad);
   } else {
-    // no need to cast
-    if (is_scale_bias_same_dtype_with_x) {
-      bias_grad_data_T =
-          bias_grad == nullptr ? nullptr : ctx.template Alloc<T>(bias_grad);
-    } else {
-      bias_grad_data_fp32 =
-          bias_grad == nullptr ? nullptr : ctx.template Alloc<float>(bias_grad);
-    }
-  }
-
-  auto* x_grad_data =
-      (x_grad == nullptr ? nullptr : ctx.template Alloc<T>(x_grad));
-
-  if (!is_scale_bias_same_dtype_with_x) {
-    int r =
-        xpu::layer_norm_grad(ctx.x_context(),
-                             reinterpret_cast<const XPUType*>(x_data),
-                             reinterpret_cast<const XPUType*>(out_grad_data),
-                             reinterpret_cast<XPUType*>(x_grad_data),
-                             left,
-                             right,
-                             epsilon,
-                             scale_data_fp32,
-                             mean_data,
-                             variance_data,
-                             scale_grad_data_fp32,
-                             bias_grad_data_fp32);
-    PADDLE_ENFORCE_XDNN_SUCCESS(r, "layer_norm_grad");
-  } else {
-    int r =
-        xpu::layer_norm_grad(ctx.x_context(),
-                             reinterpret_cast<const XPUType*>(x_data),
-                             reinterpret_cast<const XPUType*>(out_grad_data),
-                             reinterpret_cast<XPUType*>(x_grad_data),
-                             left,
-                             right,
-                             epsilon,
-                             reinterpret_cast<const XPUType*>(scale_data_T),
-                             mean_data,
-                             variance_data,
-                             reinterpret_cast<XPUType*>(scale_grad_data_T),
-                             reinterpret_cast<XPUType*>(bias_grad_data_T));
-    PADDLE_ENFORCE_XDNN_SUCCESS(r, "layer_norm_grad");
-  }
-
-  if (need_cast_scale) {
-    int r = xpu::cast<float, XPUType>(
-        ctx.x_context(),
-        scale_grad_data_fp32,
-        reinterpret_cast<XPUType*>(ctx.template Alloc<T>(scale_grad)),
-        scale.get_ptr()->numel());
-    PADDLE_ENFORCE_XDNN_SUCCESS(r, "cast");
-  }
-  if (need_cast_bias) {
-    int r = xpu::cast<float, XPUType>(
-        ctx.x_context(),
-        bias_grad_data_fp32,
-        reinterpret_cast<XPUType*>(ctx.template Alloc<T>(bias_grad)),
-        bias.get_ptr()->numel());
-    PADDLE_ENFORCE_XDNN_SUCCESS(r, "cast");
+    LayerNormGradImpl<T, float, Context>(ctx,
+                                         x,
+                                         scale,
+                                         bias,
+                                         mean,
+                                         variance,
+                                         out_grad,
+                                         epsilon,
+                                         begin_norm_axis,
+                                         x_grad,
+                                         scale_grad,
+                                         bias_grad);
   }
 }
 }  // namespace phi
diff --git a/paddle/phi/kernels/xpu/layer_norm_kernel.cc b/paddle/phi/kernels/xpu/layer_norm_kernel.cc
@@ -19,6 +19,44 @@
 
 namespace phi {
 
+template <typename T, typename TW, typename Context>
+void LayerNormKernelImpl(const Context& ctx,
+                         const DenseTensor& x,
+                         const paddle::optional<DenseTensor>& scale,
+                         const paddle::optional<DenseTensor>& bias,
+                         float epsilon,
+                         int begin_norm_axis,
+                         DenseTensor* out,
+                         DenseTensor* mean,
+                         DenseTensor* variance) {
+  using XPUType = typename XPUTypeTrait<T>::Type;
+  using XPUTypeTW = typename XPUTypeTrait<TW>::Type;
+  const auto& x_dims = x.dims();
+  auto matrix_dim = common::flatten_to_2d(x_dims, begin_norm_axis);
+  int64_t left = matrix_dim[0];
+  int64_t right = matrix_dim[1];
+
+  const auto* x_data = x.data<T>();
+  const auto* scale_data = scale.get_ptr() ? scale->data<TW>() : nullptr;
+  const auto* bias_data = bias.get_ptr() ? bias->data<TW>() : nullptr;
+  xpu::ctx_guard RAII_GUARD(ctx.x_context());
+  auto* out_data = ctx.template Alloc<T>(out);
+  auto* mean_data = ctx.template Alloc<float>(mean);
+  auto* variance_data = ctx.template Alloc<float>(variance);
+
+  int r = xpu::layer_norm(ctx.x_context(),
+                          reinterpret_cast<const XPUType*>(x_data),
+                          reinterpret_cast<XPUType*>(out_data),
+                          left,
+                          right,
+                          epsilon,
+                          reinterpret_cast<const XPUTypeTW*>(scale_data),
+                          reinterpret_cast<const XPUTypeTW*>(bias_data),
+                          mean_data,
+                          variance_data);
+  PADDLE_ENFORCE_XDNN_SUCCESS(r, "layer_norm");
+}
+
 template <typename T, typename Context>
 void LayerNormKernel(const Context& ctx,
                      const DenseTensor& x,
@@ -31,8 +69,6 @@ void LayerNormKernel(const Context& ctx,
                      DenseTensor* variance) {
   bool valid_scale = (scale.get_ptr() != nullptr);
   bool valid_bias = (bias.get_ptr() != nullptr);
-  auto* void_scale_data = valid_scale ? scale->data() : nullptr;
-  auto* void_bias_data = valid_bias ? bias->data() : nullptr;
 
   auto x_dtype = x.dtype();
   phi::DataType scale_bias_dtype;
@@ -49,96 +85,20 @@ void LayerNormKernel(const Context& ctx,
     scale_bias_dtype = valid_bias ? bias->dtype() : x_dtype;
   }
 
-  bool is_scale_bias_same_dtype_with_x = x_dtype == scale_bias_dtype;
+  bool is_scale_bias_same_dtype_with_x = (x_dtype == scale_bias_dtype);
   if (!is_scale_bias_same_dtype_with_x) {
     PADDLE_ENFORCE_EQ(scale_bias_dtype,
-                      phi::CppTypeToDataType<float>::Type(),
+                      phi::DataType::FLOAT32,
                       common::errors::InvalidArgument(
                           "Unsupported data type of Scale and Bias"));
   }
 
-  using XPUType = typename XPUTypeTrait<T>::Type;
-  const auto& x_dims = x.dims();
-  auto matrix_dim = common::flatten_to_2d(x_dims, begin_norm_axis);
-  int left = static_cast<int>(matrix_dim[0]);
-  int right = static_cast<int>(matrix_dim[1]);
-  const auto* x_data = x.data<T>();
-
-  xpu::ctx_guard RAII_GUARD(ctx.x_context());
-
-  // scale
-  const float* scale_data_fp32 = nullptr;
-  const auto* scale_ptr = scale.get_ptr();
-  if (scale_ptr == nullptr) {
-    // no scale, do nothing
-  } else if (scale_ptr->dtype() ==
-             phi::CppTypeToDataType<phi::dtype::float16>::Type()) {
-    float* scale_data_temp =
-        RAII_GUARD.alloc_l3_or_gm<float>(scale_ptr->numel());
-    int r = xpu::cast<XPUType, float>(
-        ctx.x_context(),
-        reinterpret_cast<const XPUType*>(scale_ptr->data<T>()),
-        scale_data_temp,
-        scale_ptr->numel());
-    PADDLE_ENFORCE_XDNN_SUCCESS(r, "cast");
-    scale_data_fp32 = scale_data_temp;
-  } else {
-    // no need to cast
-    if (!is_scale_bias_same_dtype_with_x) {
-      scale_data_fp32 = scale_ptr->data<float>();
-    }
-  }
-
-  // bias
-  const float* bias_data_fp32 = nullptr;
-  const auto* bias_ptr = bias.get_ptr();
-  if (bias_ptr == nullptr) {
-    // no bias, do nothing
-  } else if (bias_ptr->dtype() ==
-             phi::CppTypeToDataType<phi::dtype::float16>::Type()) {
-    float* bias_data_temp = RAII_GUARD.alloc_l3_or_gm<float>(bias_ptr->numel());
-    int r = xpu::cast<XPUType, float>(
-        ctx.x_context(),
-        reinterpret_cast<const XPUType*>(bias_ptr->data<T>()),
-        bias_data_temp,
-        bias_ptr->numel());
-    PADDLE_ENFORCE_XDNN_SUCCESS(r, "cast");
-    bias_data_fp32 = bias_data_temp;
-  } else {
-    // no need to cast
-    if (!is_scale_bias_same_dtype_with_x) {
-      bias_data_fp32 = bias_ptr->data<float>();
-    }
-  }
-
-  auto* out_data = ctx.template Alloc<T>(out);
-  auto* mean_data = ctx.template Alloc<float>(mean);
-  auto* variance_data = ctx.template Alloc<float>(variance);
-
-  if (!is_scale_bias_same_dtype_with_x) {
-    int r = xpu::layer_norm(ctx.x_context(),
-                            reinterpret_cast<const XPUType*>(x_data),
-                            reinterpret_cast<XPUType*>(out_data),
-                            left,
-                            right,
-                            epsilon,
-                            scale_data_fp32,
-                            bias_data_fp32,
-                            mean_data,
-                            variance_data);
-    PADDLE_ENFORCE_XDNN_SUCCESS(r, "layer_norm");
+  if (is_scale_bias_same_dtype_with_x) {
+    LayerNormKernelImpl<T, T, Context>(
+        ctx, x, scale, bias, epsilon, begin_norm_axis, out, mean, variance);
   } else {
-    int r = xpu::layer_norm(ctx.x_context(),
-                            reinterpret_cast<const XPUType*>(x_data),
-                            reinterpret_cast<XPUType*>(out_data),
-                            left,
-                            right,
-                            epsilon,
-                            reinterpret_cast<const XPUType*>(void_scale_data),
-                            reinterpret_cast<const XPUType*>(void_bias_data),
-                            mean_data,
-                            variance_data);
-    PADDLE_ENFORCE_XDNN_SUCCESS(r, "layer_norm");
+    LayerNormKernelImpl<T, float, Context>(
+        ctx, x, scale, bias, epsilon, begin_norm_axis, out, mean, variance);
   }
 }
 }  // namespace phi