No need for atomicAdd for float2, conflicts with CUDA 12.1

nshmyrev · nshmyrev · commit a25f216f5ce4 · 2023-04-17T08:06:32.000+02:00
diff --git a/src/cudafeat/feature-online-batched-cmvn-cuda-kernels.cu b/src/cudafeat/feature-online-batched-cmvn-cuda-kernels.cu
@@ -24,18 +24,14 @@ __host__ __device__ inline float2 operator-(const float2 &a, const float2 &b) {
   retval.y = a.y - b.y;
   return retval;
 }
+
 __host__ __device__ inline float2 operator+(const float2 &a, const float2 &b) {
   float2 retval;
   retval.x = a.x + b.x;
   retval.y = a.y + b.y;
   return retval;
 }
 
-__device__ inline void atomicAdd(float2 *addr, float2 val) {
-  atomicAdd(reinterpret_cast<float *>(addr), val.x);
-  atomicAdd(reinterpret_cast<float *>(addr) + 1, val.y);
-}
-
 __device__ inline void operator+=(float2 &a, float2 &b) {
   // overloading +=
   a.x += b.x;