huggingface · echarlaix · Apr 15, 2026 · Apr 15, 2026 · Apr 15, 2026 · Apr 16, 2026
diff --git a/.github/workflows/test_openvino.yml b/.github/workflows/test_openvino.yml
@@ -38,7 +38,7 @@ jobs:
             "*diffusion*",
             "*quantization*",
           ]
-        transformers-version: ["4.45.0", "4.57.6", "latest"]
+        transformers-version: ["4.57.6", "latest"]
 
     runs-on: ubuntu-22.04
 

diff --git a/.github/workflows/test_openvino_slow.yml b/.github/workflows/test_openvino_slow.yml
@@ -36,7 +36,7 @@ jobs:
       fail-fast: false
       matrix:
         os: ["ubuntu-22.04", "windows-2022"]
-        transformers-version: ["4.45.0", "latest"]
+        transformers-version: ["4.57.6", "latest"]
         include:
           - transformers-version: "main"
             os: "ubuntu-22.04"

diff --git a/optimum/exporters/openvino/model_patcher.py b/optimum/exporters/openvino/model_patcher.py
@@ -251,19 +251,33 @@ def patch_cos_sin_cached_fp32(model):
                 )
 
 
+def ov_sdpa_mask_without_vmap(batch_size, **kwargs) -> Optional[torch.Tensor]:
+    kwargs.pop("use_vmap", None)
+    if is_transformers_version(">=", "5.4"):
+        q_length = kwargs.pop("q_length", None)
+        if isinstance(q_length, torch.Tensor):
+            q_offset = kwargs.pop("q_offset", 0)
+            q_length = torch.arange(q_offset, q_offset + q_length, device=q_length.device)
+        return sdpa_mask(batch_size=batch_size, q_length=q_length, use_vmap=False, **kwargs)
+    else:
+        return sdpa_mask_without_vmap(batch_size=batch_size, **kwargs)
+
+
 # Adapted from https://github.com/huggingface/transformers/blob/v4.53.0/src/transformers/masking_utils.py#L433
 # Specifically for OpenVINO, we use torch.finfo(torch.float16).min instead of torch.finfo(dtype).min
-def eager_mask_without_vmap(*args, **kwargs) -> Optional[torch.Tensor]:
+def eager_mask_without_vmap(batch_size, **kwargs) -> Optional[torch.Tensor]:
     kwargs.pop("allow_is_causal_skip", None)
-    dtype = kwargs.get("dtype", torch.float32)
-    mask = sdpa_mask_without_vmap(*args, allow_is_causal_skip=False, **kwargs)
-    # we use torch.finfo(torch.float16).min instead torch.finfo(dtype).min to avoid an overflow but not
-    # sure this is the right way to handle this, we are basically pretending that -65,504 is -inf
-    mask = torch.where(
-        mask,
-        torch.tensor(0.0, device=mask.device, dtype=dtype),
-        torch.tensor(torch.finfo(torch.float16).min, device=mask.device, dtype=dtype),
-    )
+    kwargs.pop("allow_torch_fix", None)
+    dtype = kwargs.pop("dtype", torch.float32)
+    mask = ov_sdpa_mask_without_vmap(batch_size, allow_is_causal_skip=False, allow_torch_fix=False, **kwargs)
+    if mask is not None:
+        # we use torch.finfo(torch.float16).min instead torch.finfo(dtype).min to avoid an overflow but not
+        # sure this is the right way to handle this, we are basically pretending that -65,504 is -inf
+        mask = torch.where(
+            mask,
+            torch.tensor(0.0, device=mask.device, dtype=dtype),
+            torch.tensor(torch.finfo(torch.float16).min, device=mask.device, dtype=dtype),
+        )
     return mask
 
 

diff --git a/optimum/intel/openvino/modeling_decoder.py b/optimum/intel/openvino/modeling_decoder.py
@@ -668,7 +668,8 @@ def _update_model_kwargs_for_generation(
             outputs=outputs, model_kwargs=model_kwargs, is_encoder_decoder=is_encoder_decoder, **kwargs
         )
 
-        if "position_ids" in model_kwargs:
+        # _prepare_position_ids_for_generation will infer position ids since transformers v5.2
+        if "position_ids" in model_kwargs and not hasattr(self, "_prepare_position_ids_for_generation"):
             position_ids = model_kwargs["position_ids"]
             new_position_id = position_ids[..., -1:].clone()
             new_position_id += 1

diff --git a/optimum/intel/openvino/modeling_seq2seq.py b/optimum/intel/openvino/modeling_seq2seq.py
@@ -875,6 +875,8 @@ def forward(
 
         # Add the attention_mask inputs when needed
         if "attention_mask" in self.input_names:
+            if attention_mask is None:
+                attention_mask = torch.ones_like(inputs[self.main_input_name])
             inputs["attention_mask"] = attention_mask
 
         # Run inference

diff --git a/optimum/intel/openvino/modeling_visual_language.py b/optimum/intel/openvino/modeling_visual_language.py
diff --git a/setup.py b/setup.py
@@ -28,8 +28,8 @@
 
 INSTALL_REQUIRE = [
     "torch>=2.1",
-    "optimum-onnx@git+https://github.com/huggingface/optimum-onnx.git@transformers-v5",
-    "transformers>=4.45,<5.1",
+    "optimum-onnx@git+https://github.com/huggingface/optimum-onnx.git@xadupre/transformers5",
+    "transformers>=4.57,<5.5",
     "setuptools",
     "huggingface-hub>=0.23.2,<2.0",
     "nncf>=2.19.0",

diff --git a/tests/openvino/test_modeling.py b/tests/openvino/test_modeling.py
@@ -97,7 +97,7 @@
     TemporaryDirectory,
 )
 from optimum.intel.pipelines import pipeline as optimum_pipeline
-from optimum.intel.utils.import_utils import _langchain_hf_available, is_transformers_version
+from optimum.intel.utils.import_utils import _langchain_hf_available, is_datasets_version, is_transformers_version
 from optimum.intel.utils.modeling_utils import _find_files_matching_pattern
 from optimum.utils import (
     DIFFUSION_MODEL_TEXT_ENCODER_2_SUBFOLDER,
@@ -931,8 +931,8 @@ def test_pipeline(self, model_arch):
     @pytest.mark.run_slow
     @slow
     @pytest.mark.skipif(
-        is_transformers_version(">=", "5.3"),
-        reason="requires transformers < v5.3 since question-answering pipeline is deprecated in v5.3",
+        is_transformers_version(">=", "5.3") or is_datasets_version("<", "4"),
+        reason="requires datasets >= 4 or transformers < v5.3 since question-answering pipeline is deprecated in v5.3",
     )
     def test_metric(self):
         model_id = "distilbert-base-cased-distilled-squad"
@@ -1113,7 +1113,6 @@ class OVModelForMaskedLMIntegrationTest(unittest.TestCase):
         "albert",
         "bert",
         "camembert",
-        "convbert",
         "deberta",
         "deberta-v2",
         "distilbert",
@@ -1131,13 +1130,16 @@ class OVModelForMaskedLMIntegrationTest(unittest.TestCase):
     )
 
     # accuracy issue, need additional investigation
-    if is_transformers_version("<", "4.51.0"):
+    if is_transformers_version("<", "4.51"):
         SUPPORTED_ARCHITECTURES += ("nystromformer",)
 
     # TODO: add fix for v5 and update MAX_TRANSFORMERS_VERSION accordingly
     if is_transformers_version("<", "5"):
         SUPPORTED_ARCHITECTURES += ("data2vec-text", "flaubert", "xlm")
 
+    if is_transformers_version("!=", "5.2"):
+        SUPPORTED_ARCHITECTURES += ("convbert",)
+
     @parameterized.expand(SUPPORTED_ARCHITECTURES)
     def test_compare_to_transformers(self, model_arch):
         model_id = MODEL_NAMES[model_arch]