use functor for rms_norm kernels (#18)

jikunshang · web-flow · commit 21de2831fafd · 2025-08-25T16:00:10.000+08:00
* use functor instead of lambda for rms norm kernels

Signed-off-by: Kunshang Ji &lt;kunshang.ji@intel.com&gt;

* update

Signed-off-by: Kunshang Ji &lt;kunshang.ji@intel.com&gt;

---------

Signed-off-by: Kunshang Ji &lt;kunshang.ji@intel.com&gt;
diff --git a/csrc/layernorm.cpp b/csrc/layernorm.cpp
@@ -7,37 +7,60 @@
 namespace vllm {
 
 template <typename scalar_t>
-void rms_norm_kernel(scalar_t* __restrict__ out,          // [..., hidden_size]
-                     const scalar_t* __restrict__ input,  // [..., hidden_size]
-                     const int64_t input_stride,
-                     const scalar_t* __restrict__ weight,  // [hidden_size]
-                     const float epsilon, const int num_tokens,
-                     const int hidden_size, const sycl::nd_item<3>& item_ct1,
-                     float* s_variance) {
-  float variance = 0.0f;
-
-  for (int idx = item_ct1.get_local_id(2); idx < hidden_size;
-       idx += item_ct1.get_local_range(2)) {
-    const float x = (float)input[item_ct1.get_group(2) * input_stride + idx];
-    variance += x * x;
+class rms_norm_kernel {
+ public:
+  rms_norm_kernel(scalar_t* out_, const scalar_t* input_,
+                  const int64_t input_stride_, const scalar_t* weight_,
+                  const float epsilon_, const int num_tokens_,
+                  const int hidden_size_,
+                  sycl::local_accessor<float, 1> s_variance_)
+      : out(out_),
+        input(input_),
+        input_stride(input_stride_),
+        weight(weight_),
+        epsilon(epsilon_),
+        num_tokens(num_tokens_),
+        hidden_size(hidden_size_),
+        s_variance(s_variance_) {}
+
+  void operator() [[intel::reqd_sub_group_size(32)]] (
+      const sycl::nd_item<3>& item_ct1) const {
+    float* s_variance_ptr = s_variance.get_pointer();
+    float variance = 0.0f;
+
+    for (int idx = item_ct1.get_local_id(2); idx < hidden_size;
+         idx += item_ct1.get_local_range(2)) {
+      const float x = (float)input[item_ct1.get_group(2) * input_stride + idx];
+      variance += x * x;
+    }
+
+    variance = sycl::reduce_over_group(
+        sycl::ext::oneapi::this_work_item::get_work_group<3>(), variance,
+        sycl::plus<>());
+    if (item_ct1.get_local_id(2) == 0) {
+      *s_variance_ptr = sycl::rsqrt(variance / hidden_size + epsilon);
+    }
+
+    item_ct1.barrier(sycl::access::fence_space::local_space);
+
+    for (int idx = item_ct1.get_local_id(2); idx < hidden_size;
+         idx += item_ct1.get_local_range(2)) {
+      float x = (float)input[item_ct1.get_group(2) * hidden_size + idx];
+      out[item_ct1.get_group(2) * input_stride + idx] =
+          ((scalar_t)(x * (*s_variance_ptr))) * weight[idx];
+    }
   }
 
-  variance = sycl::reduce_over_group(
-      sycl::ext::oneapi::this_work_item::get_work_group<3>(), variance,
-      sycl::plus<>());
-  if (item_ct1.get_local_id(2) == 0) {
-    *s_variance = sycl::rsqrt(variance / hidden_size + epsilon);
-  }
-
-  item_ct1.barrier(sycl::access::fence_space::local_space);
-
-  for (int idx = item_ct1.get_local_id(2); idx < hidden_size;
-       idx += item_ct1.get_local_range(2)) {
-    float x = (float)input[item_ct1.get_group(2) * hidden_size + idx];
-    out[item_ct1.get_group(2) * input_stride + idx] =
-        ((scalar_t)(x * (*s_variance))) * weight[idx];
-  }
-}
+ private:
+  scalar_t* __restrict__ out;          // [..., hidden_size]
+  const scalar_t* __restrict__ input;  // [..., hidden_size]
+  const int64_t input_stride;
+  const scalar_t* __restrict__ weight;  // [hidden_size]
+  const float epsilon;
+  const int num_tokens;
+  const int hidden_size;
+  sycl::local_accessor<float, 1> s_variance;
+};
 
 template <typename scalar_t>
 void call_rms_norm_kernel(torch::Tensor& out, torch::Tensor& input,
@@ -54,52 +77,74 @@ void call_rms_norm_kernel(torch::Tensor& out, torch::Tensor& input,
   auto& queue = vllm::xpu::vllmGetQueue();
   queue.submit([&](sycl::handler& cgh) {
     sycl::local_accessor<float, 1> s_variance(sycl::range<1>(1), cgh);
-    cgh.parallel_for(
-        sycl::nd_range<3>(grid * block, block),
-        [=](sycl::nd_item<3> item_ct1) [[intel::reqd_sub_group_size(32)]] {
-          rms_norm_kernel<sycl_t>((sycl_t*)out_ptr, (const sycl_t*)input_ptr,
-                                  input_stride, (const sycl_t*)weight_ptr,
-                                  epsilon, num_tokens, hidden_size, item_ct1,
-                                  s_variance.get_pointer());
-        });
+    cgh.parallel_for(sycl::nd_range<3>(grid * block, block),
+                     vllm::rms_norm_kernel<sycl_t>(
+                         (sycl_t*)out_ptr, (const sycl_t*)input_ptr,
+                         input_stride, (const sycl_t*)weight_ptr, epsilon,
+                         num_tokens, hidden_size, s_variance));
   });
 }
 
 template <typename scalar_t>
-void fused_add_rms_norm_kernel(
-    scalar_t* __restrict__ input,     // [..., hidden_size]
-    scalar_t* __restrict__ residual,  // [..., hidden_size]
-    const int64_t input_stride,
-    const scalar_t* __restrict__ weight,  // [hidden_size]
-    const float epsilon, const int num_tokens, const int hidden_size,
-    const sycl::nd_item<3>& item_ct1, float* s_variance) {
-  float variance = 0.0f;
-
-  for (int idx = item_ct1.get_local_id(2); idx < hidden_size;
-       idx += item_ct1.get_local_range(2)) {
-    scalar_t z = (scalar_t)input[item_ct1.get_group(2) * input_stride + idx];
-    z += residual[item_ct1.get_group(2) * hidden_size + idx];
-    float x = (float)z;
-    variance += x * x;
-    residual[item_ct1.get_group(2) * hidden_size + idx] = z;
+class fused_add_rms_norm_kernel {
+ public:
+  fused_add_rms_norm_kernel(
+      scalar_t* __restrict__ input_,     // [..., hidden_size]
+      scalar_t* __restrict__ residual_,  // [..., hidden_size]
+      const int64_t input_stride_,
+      const scalar_t* __restrict__ weight_,  // [hidden_size]
+      const float epsilon_, const int num_tokens_, const int hidden_size_,
+      sycl::local_accessor<float, 1> s_variance_)
+      : input(input_),
+        residual(residual_),
+        input_stride(input_stride_),
+        weight(weight_),
+        epsilon(epsilon_),
+        num_tokens(num_tokens_),
+        hidden_size(hidden_size_),
+        s_variance(s_variance_) {}
+
+  void operator() [[intel::reqd_sub_group_size(32)]] (
+      const sycl::nd_item<3>& item_ct1) const {
+    float* s_variance_ptr = s_variance.get_pointer();
+    float variance = 0.0f;
+
+    for (int idx = item_ct1.get_local_id(2); idx < hidden_size;
+         idx += item_ct1.get_local_range(2)) {
+      scalar_t z = (scalar_t)input[item_ct1.get_group(2) * input_stride + idx];
+      z += residual[item_ct1.get_group(2) * hidden_size + idx];
+      float x = (float)z;
+      variance += x * x;
+      residual[item_ct1.get_group(2) * hidden_size + idx] = z;
+    }
+
+    variance = sycl::reduce_over_group(
+        sycl::ext::oneapi::this_work_item::get_work_group<3>(), variance,
+        sycl::plus<>());
+    if (item_ct1.get_local_id(2) == 0) {
+      *s_variance_ptr = sycl::rsqrt(variance / hidden_size + epsilon);
+    }
+
+    item_ct1.barrier(sycl::access::fence_space::local_space);
+
+    for (int idx = item_ct1.get_local_id(2); idx < hidden_size;
+         idx += item_ct1.get_local_range(2)) {
+      float x = (float)residual[item_ct1.get_group(2) * hidden_size + idx];
+      input[item_ct1.get_group(2) * input_stride + idx] =
+          ((scalar_t)(x * (*s_variance_ptr))) * weight[idx];
+    }
   }
 
-  variance = sycl::reduce_over_group(
-      sycl::ext::oneapi::this_work_item::get_work_group<3>(), variance,
-      sycl::plus<>());
-  if (item_ct1.get_local_id(2) == 0) {
-    *s_variance = sycl::rsqrt(variance / hidden_size + epsilon);
-  }
-
-  item_ct1.barrier(sycl::access::fence_space::local_space);
-
-  for (int idx = item_ct1.get_local_id(2); idx < hidden_size;
-       idx += item_ct1.get_local_range(2)) {
-    float x = (float)residual[item_ct1.get_group(2) * hidden_size + idx];
-    input[item_ct1.get_group(2) * input_stride + idx] =
-        ((scalar_t)(x * (*s_variance))) * weight[idx];
-  }
-}
+ private:
+  scalar_t* __restrict__ input;     // [..., hidden_size]
+  scalar_t* __restrict__ residual;  // [..., hidden_size]
+  const int64_t input_stride;
+  const scalar_t* __restrict__ weight;  // [hidden_size]
+  const float epsilon;
+  const int num_tokens;
+  const int hidden_size;
+  sycl::local_accessor<float, 1> s_variance;  // local memory for variance
+};
 
 template <typename scalar_t>
 void call_fused_add_rms_norm_kernel(torch::Tensor& input,
@@ -116,16 +161,12 @@ void call_fused_add_rms_norm_kernel(torch::Tensor& input,
   sycl::range<3> block(1, 1, std::min(hidden_size, 1024));
   auto& queue = vllm::xpu::vllmGetQueue();
   queue.submit([&](sycl::handler& cgh) {
-    sycl::local_accessor<float, 1> shared_vals(sycl::range<1>(32), cgh);
     sycl::local_accessor<float, 1> s_variance(sycl::range<1>(1), cgh);
-    cgh.parallel_for(
-        sycl::nd_range<3>(grid * block, block),
-        [=](sycl::nd_item<3> item_ct1) [[intel::reqd_sub_group_size(32)]] {
-          fused_add_rms_norm_kernel<sycl_t>(
-              (sycl_t*)input_ptr, (sycl_t*)residual_ptr, input_stride,
-              (const sycl_t*)weight_ptr, epsilon, num_tokens, hidden_size,
-              item_ct1, s_variance.get_pointer());
-        });
+    cgh.parallel_for(sycl::nd_range<3>(grid * block, block),
+                     fused_add_rms_norm_kernel<sycl_t>(
+                         (sycl_t*)input_ptr, (sycl_t*)residual_ptr,
+                         input_stride, (const sycl_t*)weight_ptr, epsilon,
+                         num_tokens, hidden_size, s_variance));
   });
 }