openvinotoolkit
diff --git a/‎cmake/developer_package/compile_flags/functions.cmake‎
Lines changed: 2 additions & 2 deletions b/‎cmake/developer_package/compile_flags/functions.cmake‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎cmake/developer_package/features.cmake‎
Lines changed: 1 addition & 1 deletion b/‎cmake/developer_package/features.cmake‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/common/transformations/src/transformations/common_optimizations/convert_pagedattn_inputs.cpp‎
Lines changed: 6 additions & 0 deletions b/‎src/common/transformations/src/transformations/common_optimizations/convert_pagedattn_inputs.cpp‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎src/plugins/intel_cpu/src/nodes/kernels/aarch64/pa_kernels.hpp‎
Lines changed: 51 additions & 0 deletions b/‎src/plugins/intel_cpu/src/nodes/kernels/aarch64/pa_kernels.hpp‎
Lines changed: 51 additions & 0 deletions
diff --git a/‎src/plugins/intel_cpu/src/nodes/kernels/kai/kleidi_kernel.hpp‎
Lines changed: 97 additions & 0 deletions b/‎src/plugins/intel_cpu/src/nodes/kernels/kai/kleidi_kernel.hpp‎
Lines changed: 97 additions & 0 deletions
@@ -283,7 +283,7 @@ macro(ov_arm_sve_optimization_flags flags)
     endif()
 
     # Check for compiler SVE support
-    ov_check_compiler_supports_sve("-march=armv8-a+sve")
+    ov_check_compiler_supports_sve("-march=armv8-a+sve+fp16")
     if(OV_COMPILER_IS_INTEL_LLVM)
         message(WARNING "Unsupported CXX compiler ${CMAKE_CXX_COMPILER_ID}")
     elseif(CMAKE_CXX_COMPILER_ID STREQUAL "MSVC")
@@ -305,7 +305,7 @@ macro(ov_arm_sve_optimization_flags flags)
 
             # Add flag for SVE if supported
             if(CXX_SVE_FOUND)
-                list(APPEND ${flags} -march=armv8-a+sve)
+                list(APPEND ${flags} -march=armv8-a+sve+fp16)
             endif()
             if(NOT CMAKE_CL_64)
                 list(APPEND ${flags} -ftree-vectorize)
 
@@ -121,7 +121,7 @@ if(ENABLE_AVX512F)
 endif()
 
 if(ENABLE_SVE)
-    ov_check_compiler_supports_sve("-march=armv8-a+sve")
+    ov_check_compiler_supports_sve("-march=armv8-a+sve+fp16")
 
     if(NOT CXX_HAS_SVE)
         set(ENABLE_SVE OFF CACHE BOOL "Enables ARM64 SVE support" FORCE)
 
@@ -74,10 +74,16 @@ ov::pass::ConvertPagedAttnInputs::ConvertPagedAttnInputs(const KVCacheConfig& co
         const auto pa_op = m.get_match_root();
         auto key_cache = ov::as_type_ptr<ov::op::v0::Parameter>(pa_op->get_input_node_shared_ptr(3));
         auto value_cache = ov::as_type_ptr<ov::op::v0::Parameter>(pa_op->get_input_node_shared_ptr(4));
+#if defined(OPENVINO_ARCH_ARM64)
+        auto format_cache_precision = [](ov::element::Type cache_precision, ov::element::Type infer_precision) {
+            return ov::element::u8;
+        };
+#else
         auto format_cache_precision = [](ov::element::Type cache_precision, ov::element::Type infer_precision) {
             return cache_precision == ov::element::f16 && infer_precision == ov::element::bf16 ? infer_precision
                                                                                                : cache_precision;
         };
+#endif
         auto init_cache_shape = [&](const size_t head_nums,
                                     const size_t head_size,
                                     const size_t block_size,
 
@@ -0,0 +1,51 @@
+// Copyright (C) 2024 FUJITSU LIMITED
+// SPDX-License-Identifier: Apache-2.0
+//
+#include <arm_sve.h>
+
+#include "openvino/core/type/float16.hpp"
+
+#define SIZE_IN_BITS(t_var) sizeof(t_var) * 8
+#define __ce(expr, bits, ...)     \
+    if constexpr (expr == bits) { \
+        __VA_ARGS__               \
+    }
+
+#define SVE_PREDICATE(var, t_var)                                                                         \
+    svbool_t var;                                                                                         \
+                                                                                                          \
+    __ce(SIZE_IN_BITS(t_var), 8, var = svptrue_b8();) __ce(SIZE_IN_BITS(t_var), 16, var = svptrue_b16();) \
+        __ce(SIZE_IN_BITS(t_var), 32, var = svptrue_b32();) __ce(SIZE_IN_BITS(t_var), 64, var = svptrue_b64();)
+
+#define SVE_VLEN(var, t_var)                                                                     \
+    size_t var;                                                                                  \
+                                                                                                 \
+    __ce(SIZE_IN_BITS(t_var), 8, var = svcntb();) __ce(SIZE_IN_BITS(t_var), 16, var = svcnth();) \
+        __ce(SIZE_IN_BITS(t_var), 32, var = svcntw();) __ce(SIZE_IN_BITS(t_var), 64, var = svcntd();)
+
+#define SVE_PREDICATE_WHILELT(var, t_var, arg1, arg2)                       \
+    svbool_t var;                                                           \
+                                                                            \
+    __ce(SIZE_IN_BITS(t_var), 8, var = svwhilelt_b8(arg1, arg2);)           \
+        __ce(SIZE_IN_BITS(t_var), 16, var = svwhilelt_b16(arg1, arg2);)     \
+            __ce(SIZE_IN_BITS(t_var), 32, var = svwhilelt_b32(arg1, arg2);) \
+                __ce(SIZE_IN_BITS(t_var), 64, var = svwhilelt_b64(arg1, arg2);)
+
+namespace ov::Extensions::Cpu::XARCH {
+static void cvt_copy(float* dst, ov::float16* src, size_t n) {
+    auto src_ptr = reinterpret_cast<float16_t*>(src);
+    auto pg_vl2 = svwhilelt_b16(svcnth() / 2, svcnth());
+    auto vlen = svcnth() / 2;
+    auto pg_dst = svptrue_b32();
+    size_t i = 0;
+    for (; i + vlen <= n; i += vlen) {
+        auto load_src = svld1_f16(pg_vl2, src_ptr + i);
+        auto src_interleave = svzip1_f16(load_src, load_src);
+        auto cvt_dst = svcvt_f32_f16_z(pg_dst, src_interleave);
+        svst1(pg_dst, dst + i, cvt_dst);
+    }
+    for (; i < n; i++) {
+        dst[i] = src[i];
+    }
+}
+}  // namespace ov::Extensions::Cpu::XARCH
@@ -0,0 +1,97 @@
+#include <arm_neon.h>
+#include <kai/ukernels/matmul/matmul_clamp_f16_f16_f16p/kai_matmul_clamp_f16_f16_f16p16x1biasf16_6x16x8_neon_mla.h>
+#include <kai/ukernels/matmul/matmul_clamp_f16_f16_f16p/kai_matmul_clamp_f16_f16_f16p_interface.h>
+#include <kai/ukernels/matmul/pack/kai_rhs_pack_kxn_f16p16x1biasf16_f16_f16_neon.h>
+
+#include <cfloat>
+#include <openvino/core/type/element_type.hpp>
+
+namespace ov::intel_cpu {
+
+class KleidiKernel {
+public:
+    KleidiKernel(size_t M, size_t N, size_t K, size_t lda, size_t ldb, size_t ldc);
+    void executeGemm(void* a, void* b, void* c);
+    void packB(float16_t* inp, float16_t* packed_out, float16_t* bias);
+    const size_t get_packed_rhs_size() const;
+
+private:
+    static constexpr kai_matmul_clamp_f16_f16_f16p_ukernel ukernel{
+        kai_get_m_step_matmul_clamp_f16_f16_f16p16x1biasf16_6x16x8_neon_mla,
+        kai_get_n_step_matmul_clamp_f16_f16_f16p16x1biasf16_6x16x8_neon_mla,
+        kai_get_nr_matmul_clamp_f16_f16_f16p16x1biasf16_6x16x8_neon_mla,
+        kai_get_kr_matmul_clamp_f16_f16_f16p16x1biasf16_6x16x8_neon_mla,
+        kai_get_sr_matmul_clamp_f16_f16_f16p16x1biasf16_6x16x8_neon_mla,
+        kai_get_lhs_offset_matmul_clamp_f16_f16_f16p16x1biasf16_6x16x8_neon_mla,
+        kai_get_rhs_packed_offset_matmul_clamp_f16_f16_f16p16x1biasf16_6x16x8_neon_mla,
+        kai_get_dst_offset_matmul_clamp_f16_f16_f16p16x1biasf16_6x16x8_neon_mla,
+        kai_get_dst_size_matmul_clamp_f16_f16_f16p16x1biasf16_6x16x8_neon_mla,
+        kai_run_matmul_clamp_f16_f16_f16p16x1biasf16_6x16x8_neon_mla};
+    size_t M, N, K;
+    size_t lda, ldb, ldc;
+    size_t nr, kr, sr;
+    size_t packedRHSsize;
+};
+
+KleidiKernel::KleidiKernel(size_t _M, size_t _N, size_t _K, size_t _lda, size_t _ldb, size_t _ldc)
+    : M(_M),
+      N(_N),
+      K(_K),
+      lda(_lda),
+      ldb(_ldb),
+      ldc(_ldc),
+      nr(ukernel.get_nr()),
+      kr(ukernel.get_kr()),
+      sr(ukernel.get_sr()),
+      packedRHSsize(kai_get_rhs_packed_size_rhs_pack_kxn_f16p16x1biasf16_f16_f16_neon(_N, _K)){};
+
+const size_t KleidiKernel::get_packed_rhs_size() const {
+    return packedRHSsize;
+}
+
+void KleidiKernel::packB(float16_t* inp, float16_t* packed_out, float16_t* bias) {
+    // Packing only needs to be performed once if the contents of the bias and RHS matrices are expected to be constant.
+    kai_run_rhs_pack_kxn_f16p16x1biasf16_f16_f16_neon(1,
+                                                      N,
+                                                      K,
+                                                      nr,
+                                                      kr,
+                                                      sr,                       // Packing arguments
+                                                      ldb * sizeof(float16_t),  // RHS stride
+                                                      inp,                      // RHS
+                                                      bias,                     // Bias
+                                                      NULL,                     // Scale
+                                                      packed_out,               // RHS packed
+                                                      0,
+                                                      NULL);
+}
+
+void KleidiKernel::executeGemm(void* a, void* b, void* c) {
+    const size_t m_step = ukernel.get_m_step();
+    const size_t n_step = ukernel.get_n_step();
+    for (size_t i_m_step = 0; i_m_step < M; i_m_step += m_step) {
+        for (size_t i_n_step = 0; i_n_step < N; i_n_step += n_step) {
+            const uint8_t* lhs_ptr =
+                (const uint8_t*)a + (ukernel.get_lhs_packed_offset(i_m_step, lda * sizeof(uint16_t)));
+            const uint8_t* rhs_ptr = (const uint8_t*)b + (ukernel.get_rhs_packed_offset(i_n_step, K));
+            uint8_t* dst_ptr = (uint8_t*)c + (ukernel.get_dst_offset(i_m_step, i_n_step, ldc * sizeof(uint16_t)));
+            const size_t actual_m = std::min(M - i_m_step, m_step);
+            const size_t actual_n = std::min(N - i_n_step, n_step);
+
+            ukernel.run_matmul(actual_m,
+                               actual_n,
+                               K,                        // Dimensions
+                               lhs_ptr,                  // LHS
+                               lda * sizeof(float16_t),  // LHS stride
+                               rhs_ptr,                  // RHS packed
+                               dst_ptr,                  // DST
+                               ldc * sizeof(float16_t),  // DST stride (row)
+                               sizeof(float16_t),        // DST stride (col)
+                               -FLT_MAX,
+                               FLT_MAX  // Min and max for the clamp operation
+            );
+        }
+    }
+}
+
+}  // namespace ov::intel_cpu