openvinotoolkit
diff --git a/‎src/common/transformations/src/transformations/common_optimizations/convert_pagedattn_inputs.cpp‎
Lines changed: 28 additions & 27 deletions b/‎src/common/transformations/src/transformations/common_optimizations/convert_pagedattn_inputs.cpp‎
Lines changed: 28 additions & 27 deletions
diff --git a/‎src/common/transformations/src/transformations/sdpa_to_paged_attention/state_management_pattern.cpp‎
Lines changed: 34 additions & 8 deletions b/‎src/common/transformations/src/transformations/sdpa_to_paged_attention/state_management_pattern.cpp‎
Lines changed: 34 additions & 8 deletions
diff --git a/‎src/common/transformations/tests/common_optimizations/convert_pagedattn_inputs.cpp‎
Lines changed: 60 additions & 54 deletions b/‎src/common/transformations/tests/common_optimizations/convert_pagedattn_inputs.cpp‎
Lines changed: 60 additions & 54 deletions
@@ -55,33 +55,34 @@ ConvertPagedAttnInputs::ConvertPagedAttnInputs(const KVCacheConfig& config,
     auto adaptive_rkv_evictable_sizes = pattern::any_input(pattern::has_static_rank());
     auto adaptive_rkv_diversity_block_set_indices = pattern::any_input(pattern::has_static_rank());
     auto adaptive_rkv_diversity_block_set_indices_begins = pattern::any_input(pattern::has_static_rank());
-
-    auto result =
-        pattern::wrap_type<ov::op::PagedAttentionExtension>({Q,
-                                                             K,
-                                                             V,
-                                                             key_cache_0,
-                                                             value_cache_0,
-                                                             past_lens,
-                                                             subsequence_begins,
-                                                             block_indices,
-                                                             block_indices_begins,
-                                                             scale,
-                                                             sliding_window,
-                                                             alibi_slopes,
-                                                             max_context_len,
-                                                             score_aggregation_window,
-                                                             rotated_block_indices,
-                                                             rotation_deltas,
-                                                             rotation_trig_lut,
-                                                             xattention_threshold,
-                                                             xattention_block_size,
-                                                             xattention_stride,
-                                                             sinks,
-                                                             adaptive_rkv_start_size,
-                                                             adaptive_rkv_evictable_sizes,
-                                                             adaptive_rkv_diversity_block_set_indices,
-                                                             adaptive_rkv_diversity_block_set_indices_begins});
+    auto token_type_ids = pattern::any_input(pattern::has_static_rank());
+
+    auto result = pattern::wrap_type<ov::op::PagedAttentionExtension>({Q,
+                                                                       K,
+                                                                       V,
+                                                                       key_cache_0,
+                                                                       value_cache_0,
+                                                                       past_lens,
+                                                                       subsequence_begins,
+                                                                       block_indices,
+                                                                       block_indices_begins,
+                                                                       scale,
+                                                                       sliding_window,
+                                                                       alibi_slopes,
+                                                                       max_context_len,
+                                                                       score_aggregation_window,
+                                                                       rotated_block_indices,
+                                                                       rotation_deltas,
+                                                                       rotation_trig_lut,
+                                                                       xattention_threshold,
+                                                                       xattention_block_size,
+                                                                       xattention_stride,
+                                                                       sinks,
+                                                                       adaptive_rkv_start_size,
+                                                                       adaptive_rkv_evictable_sizes,
+                                                                       adaptive_rkv_diversity_block_set_indices,
+                                                                       adaptive_rkv_diversity_block_set_indices_begins,
+                                                                       token_type_ids});
     ov::matcher_pass_callback callback = [OV_CAPTURE_CPY_AND_THIS](pattern::Matcher& m) {
         const auto pa_op = m.get_match_root();
         auto key_cache = ov::as_type_ptr<v0::Parameter>(pa_op->get_input_node_shared_ptr(3));
 
@@ -13,6 +13,7 @@
 #include "openvino/op/bitwise_and.hpp"
 #include "openvino/op/broadcast.hpp"
 #include "openvino/op/concat.hpp"
+#include "openvino/op/convert.hpp"
 #include "openvino/op/divide.hpp"
 #include "openvino/op/gather.hpp"
 #include "openvino/op/greater.hpp"
@@ -197,6 +198,18 @@ static std::shared_ptr<ov::Node> handle_baichuan2_13b_alibi(
     return res_alibi_slopes;
 }
 
+static std::shared_ptr<ov::Node> handle_gemma3_token_type_ids(
+    const std::map<std::string, std::shared_ptr<v0::Parameter>>& optional_model_wide_params) {
+    if (optional_model_wide_params.find("token_type_ids") != optional_model_wide_params.end()) {
+        auto param = optional_model_wide_params.at("token_type_ids");
+        if (param->get_element_type() != ov::element::i32) {
+            return std::make_shared<v0::Convert>(param, ov::element::i32);
+        }
+        return param;
+    }
+    return v0::Constant::create(ov::element::i32, ov::Shape{0}, {});
+}
+
 static std::tuple<std::shared_ptr<ov::Node>, std::shared_ptr<ov::Node>> phi3_sliding_window_pattern() {
     auto offset = wrap_type<v0::Constant>();
     auto t196 = wrap_type<v1::Add>({any_input(), offset});
@@ -216,7 +229,7 @@ static std::tuple<std::shared_ptr<ov::Node>, std::shared_ptr<ov::Node>> phi3_sli
     return {mask, offset};
 }
 
-static std::tuple<std::shared_ptr<ov::Node>, std::shared_ptr<ov::Node>> gpt_oss_sliding_window_pattern() {
+static std::tuple<std::shared_ptr<ov::Node>, std::shared_ptr<ov::Node>> gptoss_gemma3_sliding_window_pattern() {
     auto q_idx = any_input();
     auto kv_idx = any_input();
 
@@ -393,9 +406,9 @@ ov::pass::StateManagementPattern::StateManagementPattern(
     std::shared_ptr<ov::Node> phi3_mask, phi3_offset;
     std::tie(phi3_mask, phi3_offset) = phi3_sliding_window_pattern();
 
-    // gpt-oss case
-    std::shared_ptr<ov::Node> gpt_oss_mask, gpt_oss_offset;
-    std::tie(gpt_oss_mask, gpt_oss_offset) = gpt_oss_sliding_window_pattern();
+    // gpt-oss and gemma3 cases
+    std::shared_ptr<ov::Node> gptoss_gemma3_mask, gptoss_gemma3_offset;
+    std::tie(gptoss_gemma3_mask, gptoss_gemma3_offset) = gptoss_gemma3_sliding_window_pattern();
 
     // Scale's shape limitations according to SDPA specification
     auto scale_predicate = [=](const Output<Node>& output) -> bool {
@@ -414,7 +427,7 @@ ov::pass::StateManagementPattern::StateManagementPattern(
                                                           general_alibi_mask,
                                                           jais_alibi_mask,
                                                           baichuan2_13b_alibi_mask,
-                                                          gpt_oss_mask,
+                                                          gptoss_gemma3_mask,
                                                           any_input()});
 
     auto sdpa_with_4_inputs = wrap_type<v13::ScaledDotProductAttention>({q, k_to_sdpa, v_to_sdpa, mask_to_sdpa});
@@ -425,6 +438,11 @@ ov::pass::StateManagementPattern::StateManagementPattern(
 
     auto sdpa_variants = std::make_shared<Or>(OutputVector{sdpa_with_4_inputs, sdpa_with_5_inputs, sdpa_with_6_inputs});
 
+    // Shared flag to track whether the model is Gemma3, set when any layer matches
+    // the gptoss_gemma3 sliding window pattern. Combined with the token_type_ids check,
+    // this uniquely identifies Gemma3 (gpt-oss shares the pattern but lacks token_type_ids).
+    auto is_gptoss_gemma3 = std::make_shared<bool>(false);
+
     ov::matcher_pass_callback callback = [=,
                                           &kv_parameters,
                                           &model_wide_params,
@@ -602,9 +620,10 @@ ov::pass::StateManagementPattern::StateManagementPattern(
                 offset = std::make_shared<v0::Convert>(offset, element::i32);
             }
             sliding_window = std::make_shared<v1::Subtract>(v0::Constant::create(element::i32, Shape{}, {2}), offset);
-        } else if (pattern_map.count(gpt_oss_offset)) {
-            auto offset = pattern_map.at(gpt_oss_offset).get_node_shared_ptr();
-            if (pattern_map.at(gpt_oss_offset).get_partial_shape().rank() != 0) {
+        } else if (pattern_map.count(gptoss_gemma3_offset)) {
+            *is_gptoss_gemma3 = true;
+            auto offset = pattern_map.at(gptoss_gemma3_offset).get_node_shared_ptr();
+            if (pattern_map.at(gptoss_gemma3_offset).get_partial_shape().rank() != 0) {
                 offset = std::make_shared<v15::Squeeze>(offset);
             }
             if (offset->get_element_type() != element::i32) {
@@ -737,6 +756,13 @@ ov::pass::StateManagementPattern::StateManagementPattern(
         }
         OPENVINO_ASSERT(pa_arguments.size() == 25);
 
+        if (*is_gptoss_gemma3) {
+            pa_arguments.insert(pa_arguments.begin() + 25, handle_gemma3_token_type_ids(optional_model_wide_params));
+        } else {
+            pa_arguments.insert(pa_arguments.begin() + 25, v0::Constant::create(element::i32, Shape{0}, {}));
+        }
+        OPENVINO_ASSERT(pa_arguments.size() == 26);
+
         auto paged_attention = std::make_shared<ov::op::PagedAttentionExtension>(pa_arguments);
         paged_attention->get_rt_info()[NUM_K_HEADS] = num_k_heads;
         paged_attention->get_rt_info()[K_HEAD_SIZE] = k_head_size;
 
@@ -121,33 +121,35 @@ TEST_P(ConvertPagedAttnInputsTest, checkPrecisionAndShape) {
             std::make_shared<v0::Parameter>(ov::element::i32, PartialShape{DYN});
         auto adaptive_rkv_diversity_block_set_indices_begins =
             std::make_shared<v0::Parameter>(ov::element::i32, PartialShape{DYN});
+        auto token_type_ids = std::make_shared<op::v0::Parameter>(ov::element::i32, ov::Shape{0});
 
-        auto pa = std::make_shared<op::PagedAttentionExtension>(
-            OutputVector{Q,
-                         K,
-                         V,
-                         key_cache_0,
-                         value_cache_0,
-                         past_lens,
-                         subsequence_begins,
-                         block_indices,
-                         block_indices_begins,
-                         scale,
-                         sliding_window,
-                         alibi_slopes,
-                         max_context_len,
-                         score_aggregation_window,
-                         rotated_block_indices,
-                         rotation_deltas,
-                         rotation_trig_lut,
-                         xattention_threshold,
-                         xattention_block_size,
-                         xattention_stride,
-                         sinks,
-                         adaptive_rkv_start_size,
-                         adaptive_rkv_evictable_sizes,
-                         adaptive_rkv_diversity_block_set_indices,
-                         adaptive_rkv_diversity_block_set_indices_begins});
+        auto pa =
+            std::make_shared<op::PagedAttentionExtension>(OutputVector{Q,
+                                                                       K,
+                                                                       V,
+                                                                       key_cache_0,
+                                                                       value_cache_0,
+                                                                       past_lens,
+                                                                       subsequence_begins,
+                                                                       block_indices,
+                                                                       block_indices_begins,
+                                                                       scale,
+                                                                       sliding_window,
+                                                                       alibi_slopes,
+                                                                       max_context_len,
+                                                                       score_aggregation_window,
+                                                                       rotated_block_indices,
+                                                                       rotation_deltas,
+                                                                       rotation_trig_lut,
+                                                                       xattention_threshold,
+                                                                       xattention_block_size,
+                                                                       xattention_stride,
+                                                                       sinks,
+                                                                       adaptive_rkv_start_size,
+                                                                       adaptive_rkv_evictable_sizes,
+                                                                       adaptive_rkv_diversity_block_set_indices,
+                                                                       adaptive_rkv_diversity_block_set_indices_begins,
+                                                                       token_type_ids});
         pa->get_rt_info()["num_k_heads"] = numKeyHeads;
         pa->get_rt_info()["k_head_size"] = keyHeadSize;
         pa->get_rt_info()["num_v_heads"] = numValueHeads;
@@ -174,7 +176,8 @@ TEST_P(ConvertPagedAttnInputsTest, checkPrecisionAndShape) {
                                                                 adaptive_rkv_start_size,
                                                                 adaptive_rkv_evictable_sizes,
                                                                 adaptive_rkv_diversity_block_set_indices,
-                                                                adaptive_rkv_diversity_block_set_indices_begins});
+                                                                adaptive_rkv_diversity_block_set_indices_begins,
+                                                                token_type_ids});
 
         if (isIRKVCacheF16) {
             model->set_rt_info("f16", "runtime_options", ov::hint::kv_cache_precision.name());
@@ -254,33 +257,35 @@ TEST_P(ConvertPagedAttnInputsTest, checkPrecisionAndShape) {
             std::make_shared<v0::Parameter>(ov::element::i32, PartialShape{DYN});
         auto adaptive_rkv_diversity_block_set_indices_begins =
             std::make_shared<v0::Parameter>(ov::element::i32, PartialShape{DYN});
+        auto token_type_ids = std::make_shared<v0::Parameter>(ov::element::i32, ov::Shape{0});
 
-        auto pa = std::make_shared<op::PagedAttentionExtension>(
-            OutputVector{Q,
-                         K,
-                         V,
-                         key_cache_0,
-                         value_cache_0,
-                         past_lens,
-                         subsequence_begins,
-                         block_indices,
-                         block_indices_begins,
-                         scale,
-                         sliding_window,
-                         alibi_slopes,
-                         max_context_len,
-                         score_aggregation_window,
-                         rotated_block_indices,
-                         rotation_deltas,
-                         rotation_trig_lut,
-                         xattention_threshold,
-                         xattention_block_size,
-                         xattention_stride,
-                         sinks,
-                         adaptive_rkv_start_size,
-                         adaptive_rkv_evictable_sizes,
-                         adaptive_rkv_diversity_block_set_indices,
-                         adaptive_rkv_diversity_block_set_indices_begins});
+        auto pa =
+            std::make_shared<op::PagedAttentionExtension>(OutputVector{Q,
+                                                                       K,
+                                                                       V,
+                                                                       key_cache_0,
+                                                                       value_cache_0,
+                                                                       past_lens,
+                                                                       subsequence_begins,
+                                                                       block_indices,
+                                                                       block_indices_begins,
+                                                                       scale,
+                                                                       sliding_window,
+                                                                       alibi_slopes,
+                                                                       max_context_len,
+                                                                       score_aggregation_window,
+                                                                       rotated_block_indices,
+                                                                       rotation_deltas,
+                                                                       rotation_trig_lut,
+                                                                       xattention_threshold,
+                                                                       xattention_block_size,
+                                                                       xattention_stride,
+                                                                       sinks,
+                                                                       adaptive_rkv_start_size,
+                                                                       adaptive_rkv_evictable_sizes,
+                                                                       adaptive_rkv_diversity_block_set_indices,
+                                                                       adaptive_rkv_diversity_block_set_indices_begins,
+                                                                       token_type_ids});
         pa->get_rt_info()["num_k_heads"] = numKeyHeads;
         pa->get_rt_info()["k_head_size"] = keyHeadSize;
         pa->get_rt_info()["num_v_heads"] = numValueHeads;
@@ -307,7 +312,8 @@ TEST_P(ConvertPagedAttnInputsTest, checkPrecisionAndShape) {
                                                                     adaptive_rkv_start_size,
                                                                     adaptive_rkv_evictable_sizes,
                                                                     adaptive_rkv_diversity_block_set_indices,
-                                                                    adaptive_rkv_diversity_block_set_indices_begins});
+                                                                    adaptive_rkv_diversity_block_set_indices_begins,
+                                                                    token_type_ids});
     }
     ov::pass::ConvertPagedAttnInputs::KVCacheConfig cacheConfig;
     cacheConfig.keyCacheBlockSize = blockSize[0];