Experimental (#115)

JPietrzykTUD · web-flow · commit a4b40fa3ab7a · 2025-03-01T15:55:01.000+01:00
* Fixed some minor issues with NEON

* added masked_add for NEON
diff --git a/primitive_data/primitives/calc.yaml b/primitive_data/primitives/calc.yaml
@@ -413,6 +413,19 @@ definitions:
     ctype: ["float", "double"]
     lscpu_flags: ["avx512f", "avx512vl"]
     implementation: "return _mm_mask_add_{{ intrin_tp_full[ctype] }}(vec_a, tsl::to_integral<Vec>(mask), vec_a, vec_b);"
+#ARM NEON
+  - target_extension: "neon"
+    ctype: ["uint8_t", "uint16_t", "uint32_t", "uint64_t"]
+    lscpu_flags: ['neon']
+    implementation: |
+      return vaddq_{{ intrin_tp_full[ctype] }}(vec_a, tsl::binary_and<Vec>(mask, vec_b));
+  - target_extension: "neon"
+    ctype: ["int8_t", "int16_t", "int32_t", "int64_t", "float", "double"]
+    lscpu_flags: ['neon']
+    implementation: |
+      using T = typename Vec::offset_base_type;
+      using OffsetExt = typename Vec::template transform_extension<T>;
+      return vaddq_{{ intrin_tp_full[ctype] }}(vec_a, tsl::reinterpret<OffsetExt, Vec>(tsl::binary_and<OffsetExt>(mask, tsl::reinterpret<Vec, OffsetExt>(vec_b))));
 #SCALAR
   - target_extension: "scalar"
     ctype: ["uint8_t", "int8_t", "uint16_t", "int16_t", "uint32_t", "int32_t", "uint64_t", "int64_t", "float", "double"]
@@ -554,6 +567,19 @@ definitions:
     ctype: ["float", "double"]
     lscpu_flags: ["avx512f", "avx512vl"]
     implementation: "return _mm_mask_add_{{ intrin_tp_full[ctype] }}(vec_a, mask, vec_a, vec_b);"
+#ARM NEON
+  - target_extension: "neon"
+    ctype: ["uint8_t", "uint16_t", "uint32_t", "uint64_t"]
+    lscpu_flags: ['neon']
+    implementation: |
+      return vaddq_{{ intrin_tp_full[ctype] }}(vec_a, tsl::binary_and<Vec>(tsl::to_mask<Vec>(mask), vec_b));
+  - target_extension: "neon"
+    ctype: ["int8_t", "int16_t", "int32_t", "int64_t", "float", "double"]
+    lscpu_flags: ['neon']
+    implementation: |
+      using T = typename Vec::offset_base_type;
+      using OffsetExt = typename Vec::template transform_extension<T>;
+      return vaddq_{{ intrin_tp_full[ctype] }}(vec_a, tsl::reinterpret<OffsetExt, Vec>(tsl::binary_and<OffsetExt>(tsl::to_mask<Vec>(mask), tsl::reinterpret<Vec, OffsetExt>(vec_b))));
 #SCALAR
   - target_extension: "scalar"
     ctype: ["uint8_t", "int8_t", "uint16_t", "int16_t", "uint32_t", "int32_t", "uint64_t", "int64_t", "float", "double"]
diff --git a/primitive_data/primitives/convert.yaml b/primitive_data/primitives/convert.yaml
@@ -163,6 +163,16 @@ definitions:
     additional_simd_template_base_type: ["int8_t", "uint8_t", "int16_t", "uint16_t", "int32_t", "uint32_t", "int64_t", "uint64_t"]
     lscpu_flags: ["neon"]
     implementation: "return vreinterpretq_{{ intrin_tp_full[additional_simd_template_base_type] }}_{{ intrin_tp_full[ctype] }}(data);"
+  - target_extension: "neon"
+    ctype: ["int8_t", "int16_t", "int32_t", "int64_t"]
+    additional_simd_template_base_type: ["uint8_t", "uint16_t", "uint32_t", "uint64_t"]
+    lscpu_flags: ["neon"]
+    implementation: "return vreinterpretq_{{ intrin_tp_full[additional_simd_template_base_type] }}_{{ intrin_tp_full[ctype] }}(data);"
+  - target_extension: "neon"
+    ctype: ["uint8_t", "uint16_t", "uint32_t", "uint64_t"]
+    additional_simd_template_base_type: ["int8_t", "int16_t", "int32_t", "int64_t"]
+    lscpu_flags: ["neon"]
+    implementation: "return vreinterpretq_{{ intrin_tp_full[additional_simd_template_base_type] }}_{{ intrin_tp_full[ctype] }}(data);"
 #INTEL - FPGA
   - target_extension: ["oneAPIfpga", "oneAPIfpgaRTL"]
     ctype: ["float", "double"]
diff --git a/primitive_data/primitives/ls.yaml b/primitive_data/primitives/ls.yaml
@@ -569,6 +569,10 @@ definitions:
     ctype: ["float", "double"]
     lscpu_flags: ["sse2"]
     implementation: "return _mm_setzero_{{ intrin_tp_full[ctype] }}();"
+  - target_extension: "neon"
+    ctype: ["uint8_t", "int8_t", "uint16_t", "int16_t", "uint32_t", "int32_t", "uint64_t", "int64_t", "float", "double"]
+    lscpu_flags: ["neon"]
+    implementation: "return vdupq_n_{{ intrin_tp_full[ctype] }}(0);"
 #FPGA
   - target_extension: ["oneAPIfpga", "oneAPIfpgaRTL"]
     ctype: ["uint8_t", "int8_t", "uint16_t", "int16_t", "uint32_t", "int32_t", "float", "uint64_t", "int64_t", "double"]
diff --git a/primitive_data/primitives/mask.yaml b/primitive_data/primitives/mask.yaml
@@ -206,7 +206,7 @@ definitions:
       for(int i = 0; i < Vec::vector_element_count(); i++){
         ((mask >> i) & 0b1) ? result[i] = static_cast<T>(-1) : result[i] = 0;
       }
-      return reinterpret_cast<Vec::mask_type>(tsl::loadu<OffsetExt>(result));
+      return tsl::loadu<OffsetExt>(result);
 ...
 ---
 primitive_name: "mask_binary_not"

Original file line number	Diff line number	Diff line change
`@@ -206,7 +206,7 @@ definitions:`
`206`	`206`	`for(int i = 0; i < Vec::vector_element_count(); i++){`
`207`	`207`	`((mask >> i) & 0b1) ? result[i] = static_cast<T>(-1) : result[i] = 0;`
`208`	`208`	`}`
`209`		`- return reinterpret_cast<Vec::mask_type>(tsl::loadu<OffsetExt>(result));`
	`209`	`+ return tsl::loadu<OffsetExt>(result);`
`210`	`210`	`...`
`211`	`211`	`---`
`212`	`212`	`primitive_name: "mask_binary_not"`