fix gemma3

echarlaix · echarlaix · commit 8fd0cdbac5ee · 2026-02-26T18:37:15.000+01:00
diff --git a/optimum/exporters/openvino/model_configs.py b/optimum/exporters/openvino/model_configs.py
@@ -4136,8 +4136,6 @@ def __init__(
 @register_in_tasks_manager("gemma3", *["image-text-to-text"], library_name="transformers")
 class Gemma3OpenVINOConfig(BaseVLMOpenVINOConfig):
     MIN_TRANSFORMERS_VERSION = "4.50.0"
-    # TODO (@echarlaix): add v5 support
-    MAX_TRANSFORMERS_VERSION = "4.57.6"
 
     def __init__(
         self,
diff --git a/optimum/exporters/openvino/model_patcher.py b/optimum/exporters/openvino/model_patcher.py
@@ -4657,22 +4657,29 @@ def __init__(
         model: "PreTrainedModel",
         model_kwargs: Dict[str, Any],
     ):
-        model.__orig_forward = model.forward
-        # Adopted from https://github.com/huggingface/transformers/blob/v4.49.0/src/transformers/models/got_ocr2/modeling_got_ocr2.py#L835
-        # Adopted from https://github.com/huggingface/transformers/blob/v4.49.0-Gemma-3/src/transformers/models/gemma3/modeling_gemma3.py#L1321
-        if (
-            hasattr(model, "model")
-            and hasattr(model.model, "get_image_features")
-            and is_transformers_version("<", "5")
-        ):
-            model.forward = model.model.get_image_features
-        else:
-            model.forward = model.get_image_features
         super().__init__(config, model, model_kwargs)
 
-    def __exit__(self, exc_type, exc_value, traceback):
-        super().__exit__(exc_type, exc_value, traceback)
-        self._model.forward = self._model.__orig_forward
+        @functools.wraps(self.orig_forward)
+        def patched_forward(*args, **kwargs):
+            # Adapted from https://github.com/huggingface/transformers/blob/v4.49.0/src/transformers/models/got_ocr2/modeling_got_ocr2.py#L835
+            # Adapted from https://github.com/huggingface/transformers/blob/v4.49.0-Gemma-3/src/transformers/models/gemma3/modeling_gemma3.py#L1321
+            if (
+                hasattr(self._model, "model")
+                and hasattr(self._model.model, "get_image_features")
+                and is_transformers_version("<", "5")
+            ):
+                get_image_features = self._model.model.get_image_features
+            else:
+                get_image_features = self._model.get_image_features
+
+            outputs = get_image_features(*args, **kwargs)
+
+            if is_transformers_version(">=", "5"):
+                outputs = BaseModelOutputWithPooling(pooler_output=outputs.pooler_output)
+
+            return outputs
+
+        self.patched_forward = patched_forward
 
 
 # Adopted from https://github.com/huggingface/transformers/blob/v4.49.0-Gemma-3/src/transformers/models/gemma3/modeling_gemma3.py#L1147
diff --git a/tests/openvino/test_decoder.py b/tests/openvino/test_decoder.py
@@ -115,7 +115,7 @@ class OVModelForCausalLMIntegrationTest(unittest.TestCase):
     if is_transformers_version(">", "4.47"):
         SUPPORTED_ARCHITECTURES += ("olmo2",)
 
-    if is_transformers_version(">", "4.49"):
+    if is_transformers_version(">=", "4.50"):
         SUPPORTED_ARCHITECTURES += ("gemma3_text",)
 
     if is_transformers_version(">=", "4.51.0"):
diff --git a/tests/openvino/test_genai.py b/tests/openvino/test_genai.py
@@ -76,7 +76,7 @@ class LLMPipelineTestCase(unittest.TestCase):
             SUPPORTED_ARCHITECTURES += ("qwen",)
         if is_transformers_version("<", "5"):
             SUPPORTED_ARCHITECTURES += ("phimoe",)
-    if is_transformers_version(">=", "4.49") and is_transformers_version("<", "5"):
+    if is_transformers_version(">=", "4.50"):
         SUPPORTED_ARCHITECTURES += ("gemma3_text",)
     if is_transformers_version(">=", "4.51.0"):
         SUPPORTED_ARCHITECTURES += ("qwen3", "qwen3_moe")
@@ -224,8 +224,7 @@ class VLMPipelineTestCase(unittest.TestCase):
         SUPPORTED_ARCHITECTURES += ("qwen2_5_vl",)
         if is_transformers_version("<", "4.54.0"):
             SUPPORTED_ARCHITECTURES += ("phi4mm",)
-    # TODO: add fix for v5 and update MAX_TRANSFORMERS_VERSION accordingly
-    if is_transformers_version(">=", "4.49") and is_transformers_version("<", "5"):
+    if is_transformers_version(">=", "4.50"):
         SUPPORTED_ARCHITECTURES += ("gemma3",)
     if is_transformers_version("<", "5"):
         SUPPORTED_ARCHITECTURES += ("llava", "llava_next_video")
diff --git a/tests/openvino/test_seq2seq.py b/tests/openvino/test_seq2seq.py
@@ -581,9 +581,11 @@ class OVModelForVisualCausalLMIntegrationTest(OVSeq2SeqTestMixin):
             SUPPORTED_ARCHITECTURES += ["phi4mm"]
             SUPPORT_AUDIO.append("phi4mm")
 
-    # TODO: add fix for v5 and update MAX_TRANSFORMERS_VERSION accordingly
-    if is_transformers_version(">", "4.49") and is_transformers_version("<", "5"):
-        SUPPORTED_ARCHITECTURES += ["gemma3", "smolvlm"]
+    if is_transformers_version(">=", "4.50"):
+        SUPPORTED_ARCHITECTURES += ["gemma3"]
+        # TODO: add fix for v5 and update MAX_TRANSFORMERS_VERSION accordingly
+        if is_transformers_version("<", "5"):
+            SUPPORTED_ARCHITECTURES += ["smolvlm"]
 
     # TODO: add fix for v5 and update MAX_TRANSFORMERS_VERSION accordingly
     if is_transformers_version(">=", "4.51") and is_transformers_version("<", "5"):
@@ -614,7 +616,6 @@ class OVModelForVisualCausalLMIntegrationTest(OVSeq2SeqTestMixin):
             "llama4",
             "llava_next_video",
             "phi4_multimodal",
-            "gemma3",
             "smolvlm",
         }
     REMOTE_CODE_MODELS = ["internvl_chat", "minicpmv", "minicpmo", "llava-qwen2", "phi3_v", "maira2", "phi4mm"]
@@ -783,9 +784,9 @@ def test_compare_to_transformers(self, model_arch):
         set_seed(SEED)
 
         additional_inputs = {}
-        # gemma3 does not support dynamic cache, it is unfair to compare dynamic cache result vs hybrid cache,
+        # gemma3 does not support dynamic cache until v4.53, we cannot compare dynamic cache result vs hybrid cache,
         # align cache representation in torch model
-        if model_arch == "gemma3":
+        if model_arch == "gemma3" and is_transformers_version("<", "4.53.0"):
             patch_update_causal_mask(
                 transformers_model if is_transformers_version("<", "4.52.0") else transformers_model.language_model,
                 "4.43.0",