openvinotoolkit
diff --git a/‎src/common/transformations/include/transformations/common_optimizations/convert_pagedattn_inputs.hpp‎
Lines changed: 5 additions & 1 deletion b/‎src/common/transformations/include/transformations/common_optimizations/convert_pagedattn_inputs.hpp‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎src/common/transformations/src/transformations/common_optimizations/convert_pagedattn_inputs.cpp‎
Lines changed: 14 additions & 2 deletions b/‎src/common/transformations/src/transformations/common_optimizations/convert_pagedattn_inputs.cpp‎
Lines changed: 14 additions & 2 deletions
diff --git a/‎src/common/transformations/tests/common_optimizations/convert_pagedattn_inputs.cpp‎
Lines changed: 1 addition & 0 deletions b/‎src/common/transformations/tests/common_optimizations/convert_pagedattn_inputs.cpp‎
Lines changed: 1 addition & 0 deletions
@@ -20,6 +20,7 @@ class TRANSFORMATIONS_API ConvertPagedAttnInputs;
 class ConvertPagedAttnInputs : public ov::pass::MatcherPass {
 public:
     using UpdateShapeFunc = std::function<void(const ov::element::Type, const bool, const size_t, int64_t&, int64_t&)>;
+    using UpdatePrecisionFunc = std::function<void(ov::element::Type&)>;
 
     struct KVCacheConfig {
         ov::element::Type keyCachePrecision;
@@ -36,7 +37,9 @@ class ConvertPagedAttnInputs : public ov::pass::MatcherPass {
     };
 
     OPENVINO_MATCHER_PASS_RTTI("ConvertPagedAttnInputs");
-    ConvertPagedAttnInputs(const KVCacheConfig& config, UpdateShapeFunc update_shape_func);
+    ConvertPagedAttnInputs(const KVCacheConfig& config,
+                           UpdateShapeFunc update_shape_func,
+                           UpdatePrecisionFunc update_precision_func = nullptr);
 
     void setKVCacheConfig(const KVCacheConfig& config);
 
@@ -45,6 +48,7 @@ class ConvertPagedAttnInputs : public ov::pass::MatcherPass {
 private:
     KVCacheConfig m_config;
     UpdateShapeFunc m_update_shape_func;
+    UpdatePrecisionFunc m_update_precision_func;
 };
 
 }  // namespace pass
 
@@ -22,9 +22,12 @@ namespace v0 = ov::op::v0;
 
 namespace ov::pass {
 
-ConvertPagedAttnInputs::ConvertPagedAttnInputs(const KVCacheConfig& config, UpdateShapeFunc func)
+ConvertPagedAttnInputs::ConvertPagedAttnInputs(const KVCacheConfig& config,
+                                               UpdateShapeFunc func,
+                                               UpdatePrecisionFunc update_precision_func)
     : m_config(config),
-      m_update_shape_func(std::move(func)) {
+      m_update_shape_func(std::move(func)),
+      m_update_precision_func(std::move(update_precision_func)) {
     MATCHER_SCOPE(ConvertPagedAttnInputs);
 
     auto Q = pattern::any_input(pattern::has_static_rank());
@@ -87,6 +90,7 @@ ConvertPagedAttnInputs::ConvertPagedAttnInputs(const KVCacheConfig& config, Upda
             return cache_precision == ov::element::f16 && infer_precision == ov::element::bf16 ? infer_precision
                                                                                                : cache_precision;
         };
+
         auto init_cache_shape = [&](const size_t head_nums,
                                     const size_t head_size,
                                     const size_t block_size,
@@ -105,6 +109,7 @@ ConvertPagedAttnInputs::ConvertPagedAttnInputs(const KVCacheConfig& config, Upda
                 }
             }
             size_t group_num = _head_size / _group_size;
+            // Update head_size and block_size by precision and quantizing channel mode
             m_update_shape_func(precision, bychannel, group_num, _head_size, _block_size);
 
             auto block_shape = ov::PartialShape::dynamic(4);
@@ -147,6 +152,13 @@ ConvertPagedAttnInputs::ConvertPagedAttnInputs(const KVCacheConfig& config, Upda
             status = false;
         }
 
+        if (m_update_precision_func) {
+            m_update_precision_func(key_cache_precision);
+            m_update_precision_func(value_cache_precision);
+            key_cache->set_element_type(key_cache_precision);
+            value_cache->set_element_type(value_cache_precision);
+        }
+
         key_cache->validate_and_infer_types();
         value_cache->validate_and_infer_types();
         return status;
 
@@ -351,6 +351,7 @@ std::vector<std::vector<ov::element::Type>> get_cache_prec() {
         {ov::element::f16, ov::element::f16},
         {ov::element::u8, ov::element::u8},
         {ov::element::u8, ov::element::u4},
+        {ov::element::u4, ov::element::u4},
     };
 }
Original file line number	Diff line number	Diff line change
`@@ -351,6 +351,7 @@ std::vector<std::vector<ov::element::Type>> get_cache_prec() {`
`351`	`351`	`{ov::element::f16, ov::element::f16},`
`352`	`352`	`{ov::element::u8, ov::element::u8},`
`353`	`353`	`{ov::element::u8, ov::element::u4},`
	`354`	`+ {ov::element::u4, ov::element::u4},`
`354`	`355`	`};`
`355`	`356`	`}`
`356`	`357`