Remove unnecessary code & formatting changes

Rohanjames1997 · Rohanjames1997 · commit 382e61bd616b · 2025-07-15T18:09:34.000Z
diff --git a/onnxruntime/core/mlas/lib/sconv.h b/onnxruntime/core/mlas/lib/sconv.h
@@ -35,105 +35,7 @@ Module Name:
 // Define the convolution kernel flags.
 //
 
-#define MLAS_CONV_KERNEL_FLAG_ACCUMULATE_OUTPUT     0x00000001
-#define MLAS_CONV_KERNEL_FLAG_BIAS_ADDITION         0x00000002
-#define MLAS_CONV_KERNEL_FLAG_RELU_ACTIVATION       0x00000004
-#define MLAS_CONV_KERNEL_FLAG_OTHER_ACTIVATION      0x00000008
-
-//
-// Define the prototypes of the NEON convolution kernels.
-//
-
-#if defined(__aarch64__) || defined(_M_ARM64)
-
-extern "C" {
-
-void
-MLASCALL
-MlasConvNchwFloatKernelNeon(
-    const float* Input,
-    const float* Filter,
-    float* Output,
-    size_t StrideWidth,
-    size_t DilationWidth,
-    size_t FilterCount,
-    size_t InputStride,
-    size_t FilterStride,
-    size_t OutputStride,
-    size_t KernelHeight,
-    size_t KernelWidth,
-    const float* InputBase,
-    size_t InputWidth,
-    size_t DilatedInputWidth,
-    size_t OutputCountLeftPad,
-    size_t OutputCount,
-    size_t OutputCountRightPad,
-    const float* Bias,
-    unsigned KernelFlags
-    );
-
-void
-MLASCALL
-MlasConvNchwcFloatKernelNeon(
-    const float* Input,
-    const float* Filter,
-    float* Output,
-    size_t StrideWidth,
-    size_t DilationWidth,
-    size_t FilterCount,
-    size_t InputStride,
-    size_t FilterStride,
-    size_t OutputStride,
-    size_t KernelHeight,
-    size_t KernelWidth,
-    const float* InputBase,
-    size_t InputWidth,
-    size_t DilatedInputWidth,
-    size_t OutputCountLeftPad,
-    size_t OutputCount,
-    size_t OutputCountRightPad,
-    const float* Bias,
-    unsigned KernelFlags
-    );
-
-void
-MLASCALL
-MlasConvDepthwiseFloatKernelNeon(
-    const float* Input,
-    const float* Filter,
-    float* Output,
-    size_t StrideWidth,
-    size_t DilationWidth,
-    size_t InputStride,
-    size_t KernelHeight,
-    size_t KernelWidth,
-    const float* InputBase,
-    size_t InputWidth,
-    size_t DilatedInputWidth,
-    size_t OutputCountLeftPad,
-    size_t OutputCount,
-    size_t OutputCountRightPad,
-    const float* Bias,
-    unsigned KernelFlags
-    );
-
-void
-MLASCALL
-MlasConvPointwiseFloatKernelNeon(
-    const float* Input,
-    const float* Filter,
-    float* Output,
-    size_t StrideWidth,
-    size_t InputChannels,
-    size_t FilterCount,
-    size_t InputStride,
-    size_t FilterStride,
-    size_t OutputStride,
-    size_t OutputCount,
-    const float* Bias,
-    unsigned KernelFlags
-    );
-
-}
-
-#endif
+#define MLAS_CONV_KERNEL_FLAG_ACCUMULATE_OUTPUT 0x00000001
+#define MLAS_CONV_KERNEL_FLAG_BIAS_ADDITION 0x00000002
+#define MLAS_CONV_KERNEL_FLAG_RELU_ACTIVATION 0x00000004
+#define MLAS_CONV_KERNEL_FLAG_OTHER_ACTIVATION 0x00000008
diff --git a/onnxruntime/core/mlas/lib/sconv_kernel_neon.cpp b/onnxruntime/core/mlas/lib/sconv_kernel_neon.cpp
@@ -21,7 +21,6 @@ Module Name:
 #include <algorithm>
 #include <cstddef>
 
-#include "arm_neon.h"
 #include "mlasi.h"
 
 void
@@ -53,7 +52,7 @@ void
     const bool ReluActivation = (KernelFlags & MLAS_CONV_KERNEL_FLAG_RELU_ACTIVATION) != 0;
 
     const size_t BlockSize = MlasNchwcGetBlockSize();
-    const float32x4_t ZeroVector = vdupq_n_f32(0.0f);
+    const float32x4_t ZeroVector = MlasBroadcastFloat32x4(0.0f);
 
     const size_t StrideWidthElements = StrideWidth / sizeof(float);
     const size_t DilationWidthElements = DilationWidth / sizeof(float);
@@ -78,12 +77,12 @@ void
             if (AccumulateOutput) {
                 Accumulator = MlasLoadFloat32x4(&output[output_idx * BlockSize]);
             } else {
-                Accumulator = vdupq_n_f32(0.0f);
+                Accumulator = MlasBroadcastFloat32x4(0.0f);
             }
 
             if (BiasAddition) {
                 const float32x4_t BiasVector = MlasLoadFloat32x4(&Bias[filterSetBlock * BlockSize]);
-                Accumulator = vaddq_f32(Accumulator, BiasVector);
+                Accumulator = MlasAddFloat32x4(Accumulator, BiasVector);
             }
 
             for (size_t kh = 0; kh < KernelHeight; kh++) {
@@ -101,7 +100,7 @@ void
                         input_value = 0.0f;
                     }
 
-                    const float32x4_t InputVector = vdupq_n_f32(input_value);
+                    const float32x4_t InputVector = MlasBroadcastFloat32x4(input_value);
 
                     size_t kernel_base_pos = kh * KernelWidth + kw;
 
@@ -153,7 +152,7 @@ void
     const bool ReluActivation = (KernelFlags & MLAS_CONV_KERNEL_FLAG_RELU_ACTIVATION) != 0;
 
     const size_t BlockSize = MlasNchwcGetBlockSize();
-    const float32x4_t ZeroVector = vdupq_n_f32(0.0f);
+    const float32x4_t ZeroVector = MlasBroadcastFloat32x4(0.0f);
 
     const size_t StrideWidthElements = StrideWidth / sizeof(float);
     const size_t DilationWidthElements = DilationWidth / sizeof(float);
@@ -178,12 +177,12 @@ void
             if (AccumulateOutput) {
                 Accumulator = MlasLoadFloat32x4(&output[output_idx * BlockSize]);
             } else {
-                Accumulator = vdupq_n_f32(0.0f);
+                Accumulator = MlasBroadcastFloat32x4(0.0f);
             }
 
             if (BiasAddition) {
                 const float32x4_t BiasVector = MlasLoadFloat32x4(&Bias[filterSetBlock * BlockSize]);
-                Accumulator = vaddq_f32(Accumulator, BiasVector);
+                Accumulator = MlasAddFloat32x4(Accumulator, BiasVector);
             }
 
             for (size_t kh = 0; kh < KernelHeight; kh++) {
@@ -203,7 +202,7 @@ void
                             input_value = 0.0f;
                         }
 
-                        const float32x4_t InputVector = vdupq_n_f32(input_value);
+                        const float32x4_t InputVector = MlasBroadcastFloat32x4(input_value);
 
                         size_t kernel_base_pos = kh * (KernelWidth * BlockSize * BlockSize) +
                                                  kw * (BlockSize * BlockSize) +
@@ -259,7 +258,7 @@ void
     const bool ReluActivation = (KernelFlags & MLAS_CONV_KERNEL_FLAG_RELU_ACTIVATION) != 0;
 
     const size_t BlockSize = MlasNchwcGetBlockSize();
-    const float32x4_t ZeroVector = vdupq_n_f32(0.0f);
+    const float32x4_t ZeroVector = MlasBroadcastFloat32x4(0.0f);
 
     const size_t StrideWidthElements = StrideWidth / sizeof(float);
     const size_t DilationWidthElements = DilationWidth / sizeof(float);
@@ -279,10 +278,11 @@ void
 
         if (AccumulateOutput) {
             Accumulator = MlasLoadFloat32x4(&Output[output_idx * BlockSize]);
-        } else if (BiasAddition) {
-            Accumulator = MlasLoadFloat32x4(Bias);
         } else {
-            Accumulator = vdupq_n_f32(0.0f);
+            Accumulator = MlasBroadcastFloat32x4(0.0f);
+        }
+        if (BiasAddition) {
+            Accumulator = MlasAddFloat32x4(Accumulator, MlasLoadFloat32x4(Bias));
         }
 
         for (size_t kh = 0; kh < KernelHeight; kh++) {
@@ -361,25 +361,27 @@ void
     const size_t OutputStrideElements = OutputStride / sizeof(float);
 
     const size_t BlockSize = MlasNchwcGetBlockSize();
-    const float32x4_t ZeroVector = vdupq_n_f32(0.0f);
+    const float32x4_t ZeroVector = MlasBroadcastFloat32x4(0.0f);
 
-    for (size_t i = 0; i < OutputCount; i++) {
+    for (size_t output_idx = 0; output_idx < OutputCount; output_idx++) {
         for (size_t f = 0; f < FilterCount; f++) {
             const float* filter = Filter + f * FilterStrideElements;
             float* output = Output + f * OutputStrideElements;
             float32x4_t Accumulator;
             if (AccumulateOutput) {
-                Accumulator = MlasLoadFloat32x4(&output[i * BlockSize]);
-            } else if (BiasAddition) {
-                Accumulator = MlasLoadFloat32x4(&Bias[f * BlockSize]);
+                Accumulator = MlasLoadFloat32x4(&output[output_idx * BlockSize]);
             } else {
-                Accumulator = vdupq_n_f32(0.0f);
+                Accumulator = MlasBroadcastFloat32x4(0.0f);
+            }
+            if (BiasAddition) {
+                const float32x4_t BiasVector = MlasLoadFloat32x4(&Bias[f * BlockSize]);
+                Accumulator = MlasAddFloat32x4(Accumulator, BiasVector);
             }
             for (size_t c = 0; c < InputChannels; c++) {
-                const float* input_ptr = Input + c * InputStrideElements + i * StrideWidthElements;
+                const float* input_ptr = Input + c * InputStrideElements + output_idx * StrideWidthElements;
                 for (size_t input_b = 0; input_b < BlockSize; input_b++) {
                     const float input_value = input_ptr[input_b];
-                    const float32x4_t InputVector = vdupq_n_f32(input_value);
+                    const float32x4_t InputVector = MlasBroadcastFloat32x4(input_value);
                     const float* filter_ptr = filter + (c * BlockSize + input_b) * BlockSize;
                     const float32x4_t FilterVector = MlasLoadFloat32x4(filter_ptr);
                     Accumulator = MlasMultiplyAddFloat32x4(InputVector, FilterVector, Accumulator);
@@ -388,7 +390,7 @@ void
             if (ReluActivation) {
                 Accumulator = MlasMaximumFloat32x4(Accumulator, ZeroVector);
             }
-            MlasStoreFloat32x4(&output[i * BlockSize], Accumulator);
+            MlasStoreFloat32x4(&output[output_idx * BlockSize], Accumulator);
         }
     }
 }