Support arthimetic operator for fp32 simd

LHT129 · LHT129 · commit b586f2fdf251 · 2025-05-26T09:47:59.000Z
Signed-off-by: LHT129 &lt;tianlan.lht@antgroup.com&gt;
diff --git a/.circleci/fresh_ci_cache.commit b/.circleci/fresh_ci_cache.commit
@@ -1 +1 @@
-d2491912b3b18b2d8745cd7468001a91eab89692
+29c0959541dec4e5fae74fa7653fc2b1831cfb31
diff --git a/src/simd/avx.cpp b/src/simd/avx.cpp
@@ -292,6 +292,69 @@ FP32Sub(const float* x, const float* y, float* z, uint64_t dim) {
 #endif
 }
 
+void
+FP32Add(const float* x, const float* y, float* z, uint64_t dim) {
+#if defined(ENABLE_AVX)
+    if (dim < 8) {
+        return sse::FP32Add(x, y, z, dim);
+    }
+    int i = 0;
+    for (; i + 7 < dim; i += 8) {
+        __m256 a = _mm256_loadu_ps(x + i);
+        __m256 b = _mm256_loadu_ps(y + i);
+        __m256 c = _mm256_add_ps(a, b);
+        _mm256_storeu_ps(z + i, c);
+    }
+    if (i < dim) {
+        sse::FP32Add(x + i, y + i, z + i, dim - i);
+    }
+#else
+    sse::FP32Add(x, y, z, dim);
+#endif
+}
+
+void
+FP32Mul(const float* x, const float* y, float* z, uint64_t dim) {
+#if defined(ENABLE_AVX)
+    if (dim < 8) {
+        return sse::FP32Mul(x, y, z, dim);
+    }
+    int i = 0;
+    for (; i + 7 < dim; i += 8) {
+        __m256 a = _mm256_loadu_ps(x + i);
+        __m256 b = _mm256_loadu_ps(y + i);
+        __m256 c = _mm256_mul_ps(a, b);
+        _mm256_storeu_ps(z + i, c);
+    }
+    if (i < dim) {
+        sse::FP32Mul(x + i, y + i, z + i, dim - i);
+    }
+#else
+    sse::FP32Mul(x, y, z, dim);
+#endif
+}
+
+void
+FP32Div(const float* x, const float* y, float* z, uint64_t dim) {
+#if defined(ENABLE_AVX)
+    if (dim < 8) {
+        return sse::FP32Div(x, y, z, dim);
+    }
+    int i = 0;
+    for (; i + 7 < dim; i += 8) {
+        __m256 a = _mm256_loadu_ps(x + i);
+        __m256 b = _mm256_loadu_ps(y + i);
+        __m256 c = _mm256_div_ps(a, b);
+        _mm256_storeu_ps(z + i, c);
+    }
+    if (i < dim) {
+        sse::FP32Div(x + i, y + i, z + i, dim - i);
+    }
+#else
+    sse::FP32Div(x, y, z, dim);
+#endif
+}
+
 #if defined(ENABLE_AVX)
 __inline __m256i __attribute__((__always_inline__)) load_8_short(const uint16_t* data) {
     return _mm256_set_epi16(data[7],
diff --git a/src/simd/avx2.cpp b/src/simd/avx2.cpp
@@ -286,6 +286,69 @@ FP32Sub(const float* x, const float* y, float* z, uint64_t dim) {
 #endif
 }
 
+void
+FP32Add(const float* x, const float* y, float* z, uint64_t dim) {
+#if defined(ENABLE_AVX2)
+    if (dim < 8) {
+        return sse::FP32Add(x, y, z, dim);
+    }
+    int i = 0;
+    for (; i + 7 < dim; i += 8) {
+        __m256 a = _mm256_loadu_ps(x + i);
+        __m256 b = _mm256_loadu_ps(y + i);
+        __m256 c = _mm256_add_ps(a, b);
+        _mm256_storeu_ps(z + i, c);
+    }
+    if (i < dim) {
+        sse::FP32Add(x + i, y + i, z + i, dim - i);
+    }
+#else
+    return sse::FP32Add(x, y, z, dim);
+#endif
+}
+
+void
+FP32Mul(const float* x, const float* y, float* z, uint64_t dim) {
+#if defined(ENABLE_AVX2)
+    if (dim < 8) {
+        return sse::FP32Mul(x, y, z, dim);
+    }
+    int i = 0;
+    for (; i + 7 < dim; i += 8) {
+        __m256 a = _mm256_loadu_ps(x + i);
+        __m256 b = _mm256_loadu_ps(y + i);
+        __m256 c = _mm256_mul_ps(a, b);
+        _mm256_storeu_ps(z + i, c);
+    }
+    if (i < dim) {
+        sse::FP32Mul(x + i, y + i, z + i, dim - i);
+    }
+#else
+    return sse::FP32Mul(x, y, z, dim);
+#endif
+}
+
+void
+FP32Div(const float* x, const float* y, float* z, uint64_t dim) {
+#if defined(ENABLE_AVX2)
+    if (dim < 8) {
+        return sse::FP32Div(x, y, z, dim);
+    }
+    int i = 0;
+    for (; i + 7 < dim; i += 8) {
+        __m256 a = _mm256_loadu_ps(x + i);
+        __m256 b = _mm256_loadu_ps(y + i);
+        __m256 c = _mm256_div_ps(a, b);
+        _mm256_storeu_ps(z + i, c);
+    }
+    if (i < dim) {
+        sse::FP32Div(x + i, y + i, z + i, dim - i);
+    }
+#else
+    return sse::FP32Div(x, y, z, dim);
+#endif
+}
+
 #if defined(ENABLE_AVX2)
 __inline __m256i __attribute__((__always_inline__)) load_8_short(const uint16_t* data) {
     __m128i bf16 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(data));
diff --git a/src/simd/avx512.cpp b/src/simd/avx512.cpp
@@ -329,6 +329,69 @@ FP32Sub(const float* x, const float* y, float* z, uint64_t dim) {
 #endif
 }
 
+void
+FP32Add(const float* x, const float* y, float* z, uint64_t dim) {
+#if defined(ENABLE_AVX512)
+    if (dim < 16) {
+        return avx2::FP32Add(x, y, z, dim);
+    }
+    uint64_t i = 0;
+    for (; i + 15 < dim; i += 16) {
+        __m512 x_vec = _mm512_loadu_ps(x + i);
+        __m512 y_vec = _mm512_loadu_ps(y + i);
+        __m512 sum_vec = _mm512_add_ps(x_vec, y_vec);
+        _mm512_storeu_ps(z + i, sum_vec);
+    }
+    if (dim > i) {
+        avx2::FP32Add(x + i, y + i, z + i, dim - i);
+    }
+#else
+    return avx2::FP32Add(x, y, z, dim);
+#endif
+}
+
+void
+FP32Mul(const float* x, const float* y, float* z, uint64_t dim) {
+#if defined(ENABLE_AVX512)
+    if (dim < 16) {
+        return avx2::FP32Mul(x, y, z, dim);
+    }
+    uint64_t i = 0;
+    for (; i + 15 < dim; i += 16) {
+        __m512 x_vec = _mm512_loadu_ps(x + i);
+        __m512 y_vec = _mm512_loadu_ps(y + i);
+        __m512 mul_vec = _mm512_mul_ps(x_vec, y_vec);
+        _mm512_storeu_ps(z + i, mul_vec);
+    }
+    if (dim > i) {
+        avx2::FP32Mul(x + i, y + i, z + i, dim - i);
+    }
+#else
+    return avx2::FP32Mul(x, y, z, dim);
+#endif
+}
+
+void
+FP32Div(const float* x, const float* y, float* z, uint64_t dim) {
+#if defined(ENABLE_AVX512)
+    if (dim < 16) {
+        return avx2::FP32Div(x, y, z, dim);
+    }
+    uint64_t i = 0;
+    for (; i + 15 < dim; i += 16) {
+        __m512 x_vec = _mm512_loadu_ps(x + i);
+        __m512 y_vec = _mm512_loadu_ps(y + i);
+        __m512 div_vec = _mm512_div_ps(x_vec, y_vec);
+        _mm512_storeu_ps(z + i, div_vec);
+    }
+    if (dim > i) {
+        avx2::FP32Div(x + i, y + i, z + i, dim - i);
+    }
+#else
+    return avx2::FP32Div(x, y, z, dim);
+#endif
+}
+
 #if defined(ENABLE_AVX512)
 __inline __m512i __attribute__((__always_inline__)) load_16_short(const uint16_t* data) {
     __m256i bf16 = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(data));
diff --git a/src/simd/fp32_simd.cpp b/src/simd/fp32_simd.cpp
@@ -111,7 +111,7 @@ GetFP32ComputeL2SqrBatch4() {
 }
 FP32ComputeBatch4Type FP32ComputeL2SqrBatch4 = GetFP32ComputeL2SqrBatch4();
 
-static FP32SubType
+static FP32ArithmeticType
 GetFP32Sub() {
     if (SimdStatus::SupportAVX512()) {
 #if defined(ENABLE_AVX512)
@@ -132,5 +132,74 @@ GetFP32Sub() {
     }
     return generic::FP32Sub;
 }
-FP32SubType FP32Sub = GetFP32Sub();
+FP32ArithmeticType FP32Sub = GetFP32Sub();
+
+static FP32ArithmeticType
+GetFP32Add() {
+    if (SimdStatus::SupportAVX512()) {
+#if defined(ENABLE_AVX512)
+        return avx512::FP32Add;
+#endif
+    } else if (SimdStatus::SupportAVX2()) {
+#if defined(ENABLE_AVX2)
+        return avx2::FP32Add;
+#endif
+    } else if (SimdStatus::SupportAVX()) {
+#if defined(ENABLE_AVX)
+        return avx::FP32Add;
+#endif
+    } else if (SimdStatus::SupportSSE()) {
+#if defined(ENABLE_SSE)
+        return sse::FP32Add;
+#endif
+    }
+    return generic::FP32Add;
+}
+FP32ArithmeticType FP32Add = GetFP32Add();
+
+static FP32ArithmeticType
+GetFP32Mul() {
+    if (SimdStatus::SupportAVX512()) {
+#if defined(ENABLE_AVX512)
+        return avx512::FP32Mul;
+#endif
+    } else if (SimdStatus::SupportAVX2()) {
+#if defined(ENABLE_AVX2)
+        return avx2::FP32Mul;
+#endif
+    } else if (SimdStatus::SupportAVX()) {
+#if defined(ENABLE_AVX)
+        return avx::FP32Mul;
+#endif
+    } else if (SimdStatus::SupportSSE()) {
+#if defined(ENABLE_SSE)
+        return sse::FP32Mul;
+#endif
+    }
+    return generic::FP32Mul;
+}
+FP32ArithmeticType FP32Mul = GetFP32Mul();
+
+static FP32ArithmeticType
+GetFP32Div() {
+    if (SimdStatus::SupportAVX512()) {
+#if defined(ENABLE_AVX512)
+        return avx512::FP32Div;
+#endif
+    } else if (SimdStatus::SupportAVX2()) {
+#if defined(ENABLE_AVX2)
+        return avx2::FP32Div;
+#endif
+    } else if (SimdStatus::SupportAVX()) {
+#if defined(ENABLE_AVX)
+        return avx::FP32Div;
+#endif
+    } else if (SimdStatus::SupportSSE()) {
+#if defined(ENABLE_SSE)
+        return sse::FP32Div;
+#endif
+    }
+    return generic::FP32Div;
+}
+FP32ArithmeticType FP32Div = GetFP32Div();
 }  // namespace vsag
diff --git a/src/simd/fp32_simd.h b/src/simd/fp32_simd.h
@@ -49,6 +49,12 @@ FP32ComputeL2SqrBatch4(const float* query,
                        float& result4);
 void
 FP32Sub(const float* x, const float* y, float* z, uint64_t dim);
+void
+FP32Add(const float* x, const float* y, float* z, uint64_t dim);
+void
+FP32Mul(const float* x, const float* y, float* z, uint64_t dim);
+void
+FP32Div(const float* x, const float* y, float* z, uint64_t dim);
 }  // namespace generic
 
 namespace sse {
@@ -80,6 +86,12 @@ FP32ComputeL2SqrBatch4(const float* query,
                        float& result4);
 void
 FP32Sub(const float* x, const float* y, float* z, uint64_t dim);
+void
+FP32Add(const float* x, const float* y, float* z, uint64_t dim);
+void
+FP32Mul(const float* x, const float* y, float* z, uint64_t dim);
+void
+FP32Div(const float* x, const float* y, float* z, uint64_t dim);
 }  // namespace sse
 
 namespace avx {
@@ -111,6 +123,12 @@ FP32ComputeL2SqrBatch4(const float* query,
                        float& result4);
 void
 FP32Sub(const float* x, const float* y, float* z, uint64_t dim);
+void
+FP32Add(const float* x, const float* y, float* z, uint64_t dim);
+void
+FP32Mul(const float* x, const float* y, float* z, uint64_t dim);
+void
+FP32Div(const float* x, const float* y, float* z, uint64_t dim);
 }  // namespace avx
 
 namespace avx2 {
@@ -142,6 +160,12 @@ FP32ComputeL2SqrBatch4(const float* query,
                        float& result4);
 void
 FP32Sub(const float* x, const float* y, float* z, uint64_t dim);
+void
+FP32Add(const float* x, const float* y, float* z, uint64_t dim);
+void
+FP32Mul(const float* x, const float* y, float* z, uint64_t dim);
+void
+FP32Div(const float* x, const float* y, float* z, uint64_t dim);
 }  // namespace avx2
 
 namespace avx512 {
@@ -173,6 +197,12 @@ FP32ComputeL2SqrBatch4(const float* query,
                        float& result4);
 void
 FP32Sub(const float* x, const float* y, float* z, uint64_t dim);
+void
+FP32Add(const float* x, const float* y, float* z, uint64_t dim);
+void
+FP32Mul(const float* x, const float* y, float* z, uint64_t dim);
+void
+FP32Div(const float* x, const float* y, float* z, uint64_t dim);
 }  // namespace avx512
 
 using FP32ComputeType = float (*)(const float* query, const float* codes, uint64_t dim);
@@ -192,6 +222,9 @@ using FP32ComputeBatch4Type = void (*)(const float* query,
 extern FP32ComputeBatch4Type FP32ComputeIPBatch4;
 extern FP32ComputeBatch4Type FP32ComputeL2SqrBatch4;
 
-using FP32SubType = void (*)(const float* x, const float* y, float* z, uint64_t dim);
-extern FP32SubType FP32Sub;
+using FP32ArithmeticType = void (*)(const float* x, const float* y, float* z, uint64_t dim);
+extern FP32ArithmeticType FP32Sub;
+extern FP32ArithmeticType FP32Add;
+extern FP32ArithmeticType FP32Mul;
+extern FP32ArithmeticType FP32Div;
 }  // namespace vsag
diff --git a/src/simd/fp32_simd_test.cpp b/src/simd/fp32_simd_test.cpp
@@ -45,7 +45,7 @@ using namespace vsag;
         }                                                                             \
     };
 
-#define TEST_FP32_SUB_ACCURACY(Func)                                                           \
+#define TEST_FP32_ARTHIMETIC_ACCURACY(Func)                                                    \
     {                                                                                          \
         std::vector<float> gt(dim, 0.0F);                                                      \
         generic::Func(vec1.data() + i * dim, vec2.data() + i * dim, gt.data(), dim);           \
@@ -176,7 +176,10 @@ TEST_CASE("FP32 SIMD Compute", "[ut][simd]") {
         for (uint64_t i = 0; i < count; ++i) {
             TEST_FP32_COMPUTE_ACCURACY(FP32ComputeIP);
             TEST_FP32_COMPUTE_ACCURACY(FP32ComputeL2Sqr);
-            TEST_FP32_SUB_ACCURACY(FP32Sub);
+            TEST_FP32_ARTHIMETIC_ACCURACY(FP32Sub);
+            TEST_FP32_ARTHIMETIC_ACCURACY(FP32Add);
+            TEST_FP32_ARTHIMETIC_ACCURACY(FP32Mul);
+            TEST_FP32_ARTHIMETIC_ACCURACY(FP32Div);
         }
         for (uint64_t i = 0; i < count; i += 4) {
             TEST_FP32_COMPUTE_ACCURACY_BATCH4(FP32ComputeIP, FP32ComputeIPBatch4);
diff --git a/src/simd/generic.cpp b/src/simd/generic.cpp
diff --git a/src/simd/sse.cpp b/src/simd/sse.cpp

Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-d2491912b3b18b2d8745cd7468001a91eab89692`
	`1`	`+29c0959541dec4e5fae74fa7653fc2b1831cfb31`