google
diff --git a/‎CMakeLists.txt
+22-807 b/‎CMakeLists.txt
+22-807
diff --git a/‎bench/CMakeLists.txt
+142 b/‎bench/CMakeLists.txt
+142
diff --git a/‎bench/bf16-gemm.cc
+1-2 b/‎bench/bf16-gemm.cc
+1-2
diff --git a/‎bench/f16-conv-hwc2chw.cc
+3-4 b/‎bench/f16-conv-hwc2chw.cc
+3-4
diff --git a/‎bench/f16-dwconv.cc
+3-4 b/‎bench/f16-dwconv.cc
+3-4
diff --git a/‎bench/f16-f32acc-gemm.cc
+1-2 b/‎bench/f16-f32acc-gemm.cc
+1-2
diff --git a/‎bench/f16-f32acc-igemm.cc
+3-5 b/‎bench/f16-f32acc-igemm.cc
+3-5
diff --git a/‎bench/f16-gemm.cc
+1-2 b/‎bench/f16-gemm.cc
+1-2
diff --git a/‎bench/f16-igemm.cc
+3-5 b/‎bench/f16-igemm.cc
+3-5
diff --git a/‎bench/f16-vcmul.cc
+2-2 b/‎bench/f16-vcmul.cc
+2-2
diff --git a/‎bench/f32-bgemm.cc
+3-6 b/‎bench/f32-bgemm.cc
+3-6
diff --git a/‎bench/f32-conv-hwc.cc
+3-3 b/‎bench/f32-conv-hwc.cc
+3-3
diff --git a/‎bench/f32-conv-hwc2chw.cc
+3-3 b/‎bench/f32-conv-hwc2chw.cc
+3-3
diff --git a/‎bench/f32-dwconv.cc
+3-3 b/‎bench/f32-dwconv.cc
+3-3
@@ -0,0 +1,142 @@
+# Copyright (c) Facebook, Inc. and its affiliates.
+# All rights reserved.
+#
+# Copyright 2019 Google LLC
+#
+# This source code is licensed under the BSD-style license found in the
+# LICENSE file in the root directory of this source tree.
+
+# ---[ Build google benchmark
+IF(NOT TARGET benchmark)
+  IF(XNNPACK_USE_SYSTEM_LIBS)
+    FIND_PACKAGE(benchmark REQUIRED)
+  ELSE()
+    SET(BENCHMARK_ENABLE_TESTING OFF CACHE BOOL "")
+    ADD_SUBDIRECTORY(
+      "${GOOGLEBENCHMARK_SOURCE_DIR}"
+      "${CONFU_DEPENDENCIES_BINARY_DIR}/googlebenchmark")
+  ENDIF()
+ENDIF()
+
+ADD_LIBRARY(bench-utils STATIC utils.cc)
+TARGET_LINK_LIBRARIES(bench-utils PRIVATE benchmark::benchmark cpuinfo pthreadpool)
+TARGET_LINK_LIBRARIES(bench-utils PRIVATE xnnpack-base hardware-config)
+IF(XNNPACK_BUILD_LIBRARY)
+  TARGET_LINK_LIBRARIES(bench-utils PRIVATE logging memory)
+ENDIF()
+
+# Helper libraries
+ADD_LIBRARY(packq-benchmark STATIC packq-benchmark.cc)
+TARGET_LINK_LIBRARIES(packq-benchmark PRIVATE XNNPACK benchmark::benchmark bench-utils)
+IF(XNNPACK_ENABLE_KLEIDIAI)
+  TARGET_LINK_LIBRARIES(packq-benchmark PRIVATE kleidiai)
+ENDIF()
+
+ADD_LIBRARY(gemm-benchmark STATIC gemm-benchmark.cc)
+TARGET_LINK_LIBRARIES(gemm-benchmark PRIVATE XNNPACK benchmark::benchmark bench-utils)
+IF(XNNPACK_ENABLE_KLEIDIAI)
+  TARGET_LINK_LIBRARIES(gemm-benchmark PUBLIC kleidiai)
+ENDIF()
+
+ADD_SUBDIRECTORY(subgraph)
+ADD_SUBDIRECTORY(operators)
+
+# ---[ Build microkernel-level microbenchmarks
+SET(MICROKERNEL_BENCHMARKS
+    bf16-gemm
+    f16-conv-hwc2chw
+    f16-dwconv
+    f16-dwconv2d-chw
+    f16-f32acc-gemm
+    f16-f32acc-igemm
+    f16-f32acc-rdsum
+    f16-f32acc-rsum
+    f16-gemm
+    f16-gemm-minmax
+    f16-igemm
+    f16-raddstoreexpminusmax
+    f16-rmax
+    f16-rmin
+    f16-rminmax
+    f16-rsum
+    f16-spmm
+    f32-bgemm
+    f32-conv-hwc
+    f32-conv-hwc2chw
+    f32-dwconv
+    f32-dwconv2d-chw
+    f32-gemm
+    f32-gemm-goi-minmax
+    f32-gemm-minmax
+    f32-igemm
+    f32-qc4w-gemm
+    f32-qc8w-gemm
+    f32-raddexpminusmax
+    f32-raddextexp
+    f32-raddstoreexpminusmax
+    f32-rdsum
+    f32-rmax
+    f32-rmin
+    f32-rminmax
+    f32-rsum
+    f32-softmax
+    f32-spmm
+    f16-vcmul
+    f32-vcmul
+    f32-vscaleexpminusmax
+    f32-vscaleextexp
+    pf32-gemm-minmax
+    qd8-f16-qb4w-gemm
+    qd8-f16-qc4w-gemm
+    qd8-f16-qc8w-gemm
+    qd8-f32-qb4w-gemm
+    qd8-f32-qc4w-gemm
+    qd8-f32-qc8w-gemm
+    qp8-f32-qc4w-gemm
+    qp8-f32-qc8w-gemm
+    qp8-f32-qb4w-gemm
+    qs8-dwconv
+    qs8-gemm
+    qs8-qc8w-gemm-fp32
+    qs8-rdsum
+    qu8-rdsum
+    qs8-rsum
+    qu8-rsum
+    qu8-gemm
+    qu8-gemm-fp32
+    qu8-gemm-rndnu
+    x16-packw
+    x32-packw
+    x8-lut
+    x8-packq
+    x8-packw
+    vunary
+    vbinary
+    xN-transposec
+    xx-transposev)
+FOREACH(BENCH ${MICROKERNEL_BENCHMARKS})
+  ADD_EXECUTABLE(${BENCH}-bench ${BENCH}.cc)
+  IF(CMAKE_C_COMPILER_ID STREQUAL "GNU" AND NOT XNNPACK_TARGET_PROCESSOR MATCHES "^riscv")
+    # Attempt to work around slow compilation/linking of benchmarks with a lot of functions
+    TARGET_COMPILE_OPTIONS(${BENCH}-bench PRIVATE "-fno-function-sections")
+    TARGET_COMPILE_OPTIONS(${BENCH}-bench PRIVATE "-Os")
+  ENDIF()
+  TARGET_LINK_LIBRARIES(${BENCH}-bench PRIVATE
+    bench-utils
+    benchmark::benchmark
+    gemm-benchmark
+    hardware-config
+    indirection
+    logging
+    microkernels-all
+    microparams-init
+    packing
+    packq-benchmark
+    pthreadpool)
+  SET_TARGET_PROPERTIES(${BENCH}-bench PROPERTIES CXX_EXTENSIONS YES)
+ENDFOREACH()
+
+# Special-case
+IF(XNNPACK_ENABLE_KLEIDIAI)
+  TARGET_LINK_LIBRARIES(x8-packq-bench PRIVATE kleidiai)
+ENDIF()
@@ -44,8 +44,7 @@ static void bf16_gemm(benchmark::State& state,
   auto f32rng =
       std::bind(std::uniform_real_distribution<float>(), std::ref(rng));
 
-  xnnpack::Buffer<xnn_bfloat16> a(mc * kc +
-                                  XNN_EXTRA_BYTES / sizeof(xnn_bfloat16));
+  xnnpack::Buffer<xnn_bfloat16> a(mc * kc, xnnpack::XnnExtraBytes);
   std::generate(a.begin(), a.end(),
                 [&] { return xnn_bfloat16_from_float(f32rng(rng)); });
   xnnpack::Buffer<xnn_bfloat16> k(nc * kc);
 
@@ -48,9 +48,8 @@ static void f16_conv_hwc2chw(
   const size_t output_width =
       (input_width + 2 * padding - kernel_size) / subsampling + 1;
 
-  xnnpack::Buffer<xnn_float16> input(input_height * input_width *
-                                         input_channels +
-                                     XNN_EXTRA_BYTES / sizeof(xnn_float16));
+  xnnpack::Buffer<xnn_float16> input(
+      input_height * input_width * input_channels, xnnpack::XnnExtraBytes);
   std::generate(input.begin(), input.end(), f32rng);
   xnnpack::Buffer<xnn_float16> kernel(output_channels * kernel_size *
                                       kernel_size * input_channels);
@@ -59,7 +58,7 @@ static void f16_conv_hwc2chw(
   std::generate(bias.begin(), bias.end(), f32rng);
 
   xnnpack::Buffer<xnn_float16, XNN_ALLOCATION_ALIGNMENT> zero(
-      input_channels * input_width + XNN_EXTRA_BYTES / sizeof(xnn_float16));
+      input_channels * input_width, xnnpack::XnnExtraBytes);
 
   const size_t weights_elements =
       (kernel_size * kernel_size * input_channels + 1) *
 
@@ -73,16 +73,15 @@ static void bench_impl(uint64_t arch_flags, benchmark::State& state,
   const size_t c_stride =
       benchmark::utils::RoundUp<size_t>(channels, channel_tile);
 
-  xnnpack::Buffer<xnn_float16> a(channels * input_height * input_width +
-                                 XNN_EXTRA_BYTES / sizeof(xnn_float16));
+  xnnpack::Buffer<xnn_float16> a(channels * input_height * input_width,
+                                 xnnpack::XnnExtraBytes);
   std::generate(a.begin(), a.end(), f32rng);
   xnnpack::Buffer<xnn_float16> k(channels * kernel_height * kernel_width);
   std::generate(k.begin(), k.end(), f32rng);
   xnnpack::Buffer<xnn_float16> b(channels);
   std::generate(b.begin(), b.end(), f32rng);
 
-  xnnpack::Buffer<xnn_float16> z(channels +
-                                 XNN_EXTRA_BYTES / sizeof(xnn_float16));
+  xnnpack::Buffer<xnn_float16> z(channels, xnnpack::XnnExtraBytes);
 
   const size_t w_elements = (kernel_size + 1) * c_stride;
   // Can read (primary_tile - kernel_size) elements after end of indirection
 
@@ -47,8 +47,7 @@ static void f16_gemm(benchmark::State& state,
   auto f32rng =
       std::bind(std::uniform_real_distribution<float>(), std::ref(rng));
 
-  xnnpack::Buffer<xnn_float16> a(mc * kc +
-                                 XNN_EXTRA_BYTES / sizeof(xnn_float16));
+  xnnpack::Buffer<xnn_float16> a(mc * kc, xnnpack::XnnExtraBytes);
   std::generate(a.begin(), a.end(), f32rng);
   xnnpack::Buffer<xnn_float16> k(nc * kc);
   std::generate(k.begin(), k.end(), f32rng);
 
@@ -68,18 +68,16 @@ static void f16_igemm(benchmark::State& state,
   const size_t kc_stride =
       benchmark::utils::RoundUp<size_t>(group_input_channels, kr * sr);
 
-  xnnpack::Buffer<xnn_float16> a(input_height * input_width *
-                                     input_pixel_stride +
-                                 XNN_EXTRA_BYTES / sizeof(xnn_float16));
+  xnnpack::Buffer<xnn_float16> a(
+      input_height * input_width * input_pixel_stride, xnnpack::XnnExtraBytes);
   std::generate(a.begin(), a.end(), f32rng);
   xnnpack::Buffer<xnn_float16> k(group_output_channels * kernel_height *
                                  kernel_width * group_input_channels);
   std::generate(k.begin(), k.end(), f32rng);
   xnnpack::Buffer<xnn_float16> b(group_output_channels);
   std::generate(b.begin(), b.end(), f32rng);
 
-  xnnpack::Buffer<xnn_float16> z(group_input_channels +
-                                 XNN_EXTRA_BYTES / sizeof(xnn_float16));
+  xnnpack::Buffer<xnn_float16> z(group_input_channels, xnnpack::XnnExtraBytes);
 
   const size_t w_elements = (kernel_size * kc_stride + 1) * nc_stride;
   const size_t i_elements = mc_stride * kernel_size;
 
@@ -46,8 +46,7 @@ static void f16_gemm(benchmark::State& state,
   auto f32rng =
       std::bind(std::uniform_real_distribution<float>(), std::ref(rng));
 
-  xnnpack::Buffer<xnn_float16> a(mc * kc +
-                                 XNN_EXTRA_BYTES / sizeof(xnn_float16));
+  xnnpack::Buffer<xnn_float16> a(mc * kc, xnnpack::XnnExtraBytes);
   std::generate(a.begin(), a.end(), f32rng);
   xnnpack::Buffer<xnn_float16> k(nc * kc);
   std::generate(k.begin(), k.end(), f32rng);
 
@@ -69,18 +69,16 @@ static void f16_igemm(benchmark::State& state,
   const size_t kc_stride =
       benchmark::utils::RoundUp<size_t>(group_input_channels, kr * sr);
 
-  xnnpack::Buffer<xnn_float16> a(input_height * input_width *
-                                     input_pixel_stride +
-                                 XNN_EXTRA_BYTES / sizeof(xnn_float16));
+  xnnpack::Buffer<xnn_float16> a(
+      input_height * input_width * input_pixel_stride, xnnpack::XnnExtraBytes);
   std::generate(a.begin(), a.end(), f32rng);
   xnnpack::Buffer<xnn_float16> k(group_output_channels * kernel_height *
                                  kernel_width * group_input_channels);
   std::generate(k.begin(), k.end(), f32rng);
   xnnpack::Buffer<xnn_float16> b(group_output_channels);
   std::generate(b.begin(), b.end(), f32rng);
 
-  xnnpack::Buffer<xnn_float16> z(group_input_channels +
-                                 XNN_EXTRA_BYTES / sizeof(xnn_float16));
+  xnnpack::Buffer<xnn_float16> z(group_input_channels, xnnpack::XnnExtraBytes);
 
   const size_t w_elements = (kernel_size * kc_stride + 1) * nc_stride;
   const size_t i_elements = mc_stride * kernel_size;
 
@@ -38,9 +38,9 @@ static void f16_vcmul(benchmark::State& state, uint64_t arch_flags,
   auto f16rng = std::bind(xnn_float16_from_float, f32rng);
 
   xnnpack::Buffer<xnn_float16, XNN_ALLOCATION_ALIGNMENT> a(
-      num_elements * 2 + XNN_EXTRA_BYTES / sizeof(xnn_float16));
+      num_elements * 2, xnnpack::XnnExtraBytes);
   xnnpack::Buffer<xnn_float16, XNN_ALLOCATION_ALIGNMENT> b(
-      num_elements * 2 + XNN_EXTRA_BYTES / sizeof(xnn_float16));
+      num_elements * 2, xnnpack::XnnExtraBytes);
   xnnpack::Buffer<xnn_float16, XNN_ALLOCATION_ALIGNMENT> product(num_elements *
                                                                  2);
   std::generate(a.begin(), a.end(), std::ref(f16rng));
 
@@ -54,8 +54,7 @@ static void f32_gemm(benchmark::State& state,
   auto f32rng =
       std::bind(std::uniform_real_distribution<float>(), std::ref(rng));
 
-  xnnpack::Buffer<float> a(batch * dim_m * dim_k +
-                           XNN_EXTRA_BYTES / sizeof(float));
+  xnnpack::Buffer<float> a(batch * dim_m * dim_k, xnnpack::XnnExtraBytes);
   std::generate(a.begin(), a.end(), std::ref(f32rng));
   xnnpack::Buffer<float> b(batch * dim_n * dim_k);
   std::generate(b.begin(), b.end(), std::ref(f32rng));
@@ -121,8 +120,7 @@ static void f32_ppmm1p(benchmark::State& state,
   auto f32rng =
       std::bind(std::uniform_real_distribution<float>(), std::ref(rng));
 
-  xnnpack::Buffer<float> a(batch * dim_m * dim_k +
-                           XNN_EXTRA_BYTES / sizeof(float));
+  xnnpack::Buffer<float> a(batch * dim_m * dim_k, xnnpack::XnnExtraBytes);
   std::generate(a.begin(), a.end(), std::ref(f32rng));
   xnnpack::Buffer<float> b(batch * dim_n * dim_k);
   std::generate(b.begin(), b.end(), std::ref(f32rng));
@@ -195,8 +193,7 @@ static void f32_ppmm2p(benchmark::State& state,
   auto f32rng =
       std::bind(std::uniform_real_distribution<float>(), std::ref(rng));
 
-  xnnpack::Buffer<float> a(batch * dim_m * dim_k +
-                           XNN_EXTRA_BYTES / sizeof(float));
+  xnnpack::Buffer<float> a(batch * dim_m * dim_k, xnnpack::XnnExtraBytes);
   std::generate(a.begin(), a.end(), std::ref(f32rng));
   xnnpack::Buffer<float> b(batch * dim_n * dim_k);
   std::generate(b.begin(), b.end(), std::ref(f32rng));
 
@@ -49,8 +49,8 @@ static void f32_conv_hwc(
   const size_t output_width =
       (input_width + 2 * padding - kernel_size) / subsampling + 1;
 
-  xnnpack::Buffer<float> input(input_height * input_width * input_channels +
-                               XNN_EXTRA_BYTES / sizeof(float));
+  xnnpack::Buffer<float> input(input_height * input_width * input_channels,
+                               xnnpack::XnnExtraBytes);
   std::generate(input.begin(), input.end(), std::ref(f32rng));
   xnnpack::Buffer<float> kernel(output_channels * kernel_size * kernel_size *
                                 input_channels);
@@ -59,7 +59,7 @@ static void f32_conv_hwc(
   std::generate(bias.begin(), bias.end(), std::ref(f32rng));
 
   xnnpack::Buffer<float, XNN_ALLOCATION_ALIGNMENT> zero(
-      input_channels * input_width + XNN_EXTRA_BYTES / sizeof(float));
+      input_channels * input_width, xnnpack::XnnExtraBytes);
 
   const size_t weights_elements =
       (kernel_size * kernel_size * input_channels + 1) *
 
@@ -49,8 +49,8 @@ static void f32_conv_hwc2chw(
   const size_t output_width =
       (input_width + 2 * padding - kernel_size) / subsampling + 1;
 
-  xnnpack::Buffer<float> input(input_height * input_width * input_channels +
-                               XNN_EXTRA_BYTES / sizeof(float));
+  xnnpack::Buffer<float> input(input_height * input_width * input_channels,
+                               xnnpack::XnnExtraBytes);
   std::generate(input.begin(), input.end(), std::ref(f32rng));
   xnnpack::Buffer<float> kernel(output_channels * kernel_size * kernel_size *
                                 input_channels);
@@ -59,7 +59,7 @@ static void f32_conv_hwc2chw(
   std::generate(bias.begin(), bias.end(), std::ref(f32rng));
 
   xnnpack::Buffer<float, XNN_ALLOCATION_ALIGNMENT> zero(
-      input_channels * input_width + XNN_EXTRA_BYTES / sizeof(float));
+      input_channels * input_width, xnnpack::XnnExtraBytes);
 
   const size_t weights_elements =
       (kernel_size * kernel_size * input_channels + 1) *
 
@@ -72,15 +72,15 @@ static void bench_impl(uint64_t arch_flags, benchmark::State& state,
   const size_t c_stride =
       benchmark::utils::RoundUp<size_t>(channels, channel_tile);
 
-  xnnpack::Buffer<float> a(channels * input_height * input_width +
-                           XNN_EXTRA_BYTES / sizeof(float));
+  xnnpack::Buffer<float> a(channels * input_height * input_width,
+                           xnnpack::XnnExtraBytes);
   std::generate(a.begin(), a.end(), std::ref(f32rng));
   xnnpack::Buffer<float> k(channels * kernel_height * kernel_width);
   std::generate(k.begin(), k.end(), std::ref(f32rng));
   xnnpack::Buffer<float> b(channels);
   std::generate(b.begin(), b.end(), std::ref(f32rng));
 
-  xnnpack::Buffer<float> z(channels + XNN_EXTRA_BYTES / sizeof(float));
+  xnnpack::Buffer<float> z(channels, xnnpack::XnnExtraBytes);
 
   const size_t w_elements = (kernel_size + 1) * c_stride;
   // Can read (primary_tile - kernel_size) elements after end of indirection