add bf 16 test

eljandoubi · eljandoubi · commit 092e42553a1c · 2025-03-21T19:35:46.000+01:00
diff --git a/test/convergence/bf16/test_mini_models.py b/test/convergence/bf16/test_mini_models.py
@@ -20,6 +20,7 @@
 
 from liger_kernel.transformers import apply_liger_kernel_to_gemma
 from liger_kernel.transformers import apply_liger_kernel_to_gemma2
+from liger_kernel.transformers import apply_liger_kernel_to_gemma3
 from liger_kernel.transformers import apply_liger_kernel_to_granite
 from liger_kernel.transformers import apply_liger_kernel_to_llama
 from liger_kernel.transformers import apply_liger_kernel_to_mistral
@@ -35,6 +36,7 @@
 from test.utils import assert_verbose_allclose
 from test.utils import revert_liger_kernel_to_gemma
 from test.utils import revert_liger_kernel_to_gemma2
+from test.utils import revert_liger_kernel_to_gemma3
 from test.utils import revert_liger_kernel_to_granite
 from test.utils import revert_liger_kernel_to_llama
 from test.utils import revert_liger_kernel_to_mistral
@@ -93,6 +95,14 @@
 except ImportError:
     OLMO2_AVAILABLE = False
 
+try:
+    from transformers.models.gemma3.configuration_gemma3 import Gemma3TextConfig
+    from transformers.models.gemma3.modeling_gemma3 import Gemma3ForCausalLM
+
+    GEMMA3_AVAILABLE = True
+except ImportError:
+    GEMMA3_AVAILABLE = False
+
 from liger_kernel.utils import infer_device
 
 device = infer_device()
@@ -326,6 +336,36 @@
     ),
 }
 
+if GEMMA3_AVAILABLE:
+    MINI_MODEL_SETUPS["mini_gemma3"] = MiniModelConfig(
+        liger_kernel_patch_func=apply_liger_kernel_to_gemma3,
+        liger_kernel_patch_revert_func=revert_liger_kernel_to_gemma3,
+        model_class=Gemma3ForCausalLM,
+        mini_model_config=Gemma3TextConfig(
+            vocab_size=32000,  # 262144
+            hidden_size=1024,  # 1152
+            intermediate_size=2048,  # 6912
+            num_hidden_layers=4,  # 26
+            num_attention_heads=4,
+            num_key_value_heads=1,
+            head_dim=256,
+            hidden_activation="gelu_pytorch_tanh",
+            max_position_embeddings=8192,  # 32768
+            initializer_range=0.02,
+            rms_norm_eps=1e-06,
+            use_cache=True,
+            pad_token_id=0,
+            bos_token_id=2,
+            eos_token_id=1,
+            tie_word_embeddings=True,
+            rope_theta=10000.0,  # 1000000
+            attention_bias=False,
+            attention_dropout=0.0,
+            attn_implementation="eager",
+        ),
+    )
+
+
 if MLLAMA_AVAILABLE:
     MINI_MODEL_SETUPS["mini_mllama"] = MiniModelConfig(
         liger_kernel_patch_func=apply_liger_kernel_to_mllama,
@@ -816,6 +856,25 @@ def run_mini_model(
         #         not supports_bfloat16(), reason="bfloat16 not supported on this GPU"
         #     ),
         # ),
+        pytest.param(
+            "mini_gemma3",
+            32,
+            1e-4,
+            torch.bfloat16,
+            1e-3,
+            1e-2,
+            1e-1,
+            1e-2,
+            1e-2,
+            1e-2,
+            marks=[
+                pytest.mark.skipif(not supports_bfloat16(), reason="bfloat16 not supported on this GPU"),
+                pytest.mark.skipif(
+                    not GEMMA3_AVAILABLE,
+                    reason="Gemma3 not available in this version of transformers",
+                ),
+            ],
+        ),
     ],
 )
 def test_mini_model(
diff --git a/test/convergence/bf16/test_mini_models_multimodal.py b/test/convergence/bf16/test_mini_models_multimodal.py
@@ -7,7 +7,10 @@
 from datasets import load_dataset
 from torch.utils.data import DataLoader
 from transformers import PreTrainedTokenizerFast
+from transformers.models.gemma.tokenization_gemma_fast import GemmaTokenizerFast
+from transformers.models.siglip.configuration_siglip import SiglipVisionConfig
 
+from liger_kernel.transformers import apply_liger_kernel_to_gemma3
 from liger_kernel.transformers import apply_liger_kernel_to_mllama
 from liger_kernel.transformers import apply_liger_kernel_to_paligemma
 from liger_kernel.transformers import apply_liger_kernel_to_qwen2_5_vl
@@ -18,6 +21,7 @@
 from test.utils import assert_verbose_allclose
 from test.utils import load_tokenizer_config
 from test.utils import multimodal_collate_fn
+from test.utils import revert_liger_kernel_to_gemma3
 from test.utils import revert_liger_kernel_to_mllama
 from test.utils import revert_liger_kernel_to_Paligemma
 from test.utils import revert_liger_kernel_to_qwen2_5_vl
@@ -80,6 +84,18 @@
 except ImportError:
     PALIGEMMA_AVAILABLE = False
 
+try:
+    # Gemma3 is only available in transformers>=4.50.0
+    from transformers.models.gemma3.configuration_gemma3 import Gemma3Config
+    from transformers.models.gemma3.configuration_gemma3 import Gemma3TextConfig
+    from transformers.models.gemma3.image_processing_gemma3 import Gemma3ImageProcessor
+    from transformers.models.gemma3.modeling_gemma3 import Gemma3ForConditionalGeneration
+    from transformers.models.gemma3.processing_gemma3 import Gemma3Processor
+
+    GEMMA3_AVAILABLE = True
+except ImportError:
+    GEMMA3_AVAILABLE = False
+
 from liger_kernel.utils import infer_device
 
 device = infer_device()
@@ -254,6 +270,54 @@
         ),
     )
 
+if GEMMA3_AVAILABLE:
+    MINI_MODEL_SETUPS["mini_gemma3"] = MiniModelConfig(
+        liger_kernel_patch_func=functools.partial(apply_liger_kernel_to_gemma3, fused_linear_cross_entropy=False),
+        liger_kernel_patch_revert_func=revert_liger_kernel_to_gemma3,
+        model_class=Gemma3ForConditionalGeneration,
+        mini_model_config=Gemma3Config(
+            vision_config=SiglipVisionConfig(
+                attention_dropout=0.0,
+                hidden_act="gelu_pytorch_tanh",
+                hidden_size=1152,
+                image_size=224,
+                intermediate_size=2048,  # 4304
+                layer_norm_eps=1e-06,
+                num_attention_heads=4,  # 16
+                num_channels=3,
+                num_hidden_layers=4,  # 27
+                num_image_tokens=256,
+                num_positions=256,
+                patch_size=14,
+                projection_dim=1024,  # 2304
+            ).to_dict(),
+            text_config=Gemma3TextConfig(
+                vocab_size=32000,  # 256000
+                hidden_size=1024,  # 3072
+                intermediate_size=2048,  # 24576
+                num_hidden_layers=4,  # 28
+                num_attention_heads=4,  # 16
+                num_key_value_heads=4,  # 16
+                head_dim=256,
+                hidden_activation="gelu_pytorch_tanh",
+                max_position_embeddings=8192,
+                initializer_range=0.02,
+                rms_norm_eps=1e-06,
+                use_cache=True,
+                tie_word_embeddings=True,
+                rope_theta=10000.0,
+                attention_bias=False,
+                attention_dropout=0.0,
+            ).to_dict(),
+            image_token_index=5,  # NOTE: outside the vocab size
+            boi_token_index=4,
+            eoi_token_index=6,
+            attn_implementation="eager",
+            vocab_size=32000,
+            projection_dim=1024,
+        ),
+    )
+
 
 if QWEN2_VL_AVAILABLE:
     MINI_MODEL_SETUPS["mini_qwen2_vl"] = MiniModelConfig(
@@ -425,6 +489,26 @@ def create_processor(model_name: str):
         image_processor = SiglipImageProcessor(size={"height": 224, "width": 224}, image_seq_length=256)
         return PaliGemmaProcessor(image_processor=image_processor, tokenizer=fast_tokenizer)
 
+    elif model_name.startswith("mini_gemma3"):
+        tokenizer_config = load_tokenizer_config(
+            os.path.join(
+                FAKE_CONFIGS_PATH,
+                "Google/Gemma3/gemma-3-4b-it/tokenizer_config.json",
+            )
+        )
+        tokenizer_base = train_bpe_tokenizer(
+            [
+                token.content
+                for key, token in sorted(
+                    tokenizer_config["added_tokens_decoder"].items(),
+                    key=lambda x: int(x[0]),
+                )
+            ]
+        )
+        fast_tokenizer = GemmaTokenizerFast(tokenizer_object=tokenizer_base, **tokenizer_config)
+        image_processor = Gemma3ImageProcessor()
+        return Gemma3Processor(image_processor=image_processor, tokenizer=fast_tokenizer)
+
     else:
         raise ValueError(f"Processor not available for model {model_name}")
 
@@ -652,6 +736,25 @@ def run_mini_model_multimodal(
                 ),
             ],
         ),
+        pytest.param(
+            "mini_gemma3",
+            32,
+            1e-4,
+            torch.bfloat16,
+            1e-3,
+            1e-2,
+            1e-1,
+            1e-2,
+            1e-2,
+            1e-2,
+            marks=[
+                pytest.mark.skipif(not supports_bfloat16(), reason="bfloat16 not supported on this GPU"),
+                pytest.mark.skipif(
+                    not GEMMA3_AVAILABLE,
+                    reason="Gemma3 not available in this version of transformers",
+                ),
+            ],
+        ),
     ],
 )
 def test_mini_model_multimodal(
diff --git a/test/convergence/bf16/test_mini_models_with_logits.py b/test/convergence/bf16/test_mini_models_with_logits.py
@@ -20,6 +20,7 @@
 
 from liger_kernel.transformers import apply_liger_kernel_to_gemma
 from liger_kernel.transformers import apply_liger_kernel_to_gemma2
+from liger_kernel.transformers import apply_liger_kernel_to_gemma3
 from liger_kernel.transformers import apply_liger_kernel_to_granite
 from liger_kernel.transformers import apply_liger_kernel_to_llama
 from liger_kernel.transformers import apply_liger_kernel_to_mistral
@@ -35,6 +36,7 @@
 from test.utils import assert_verbose_allclose
 from test.utils import revert_liger_kernel_to_gemma
 from test.utils import revert_liger_kernel_to_gemma2
+from test.utils import revert_liger_kernel_to_gemma3
 from test.utils import revert_liger_kernel_to_granite
 from test.utils import revert_liger_kernel_to_llama
 from test.utils import revert_liger_kernel_to_mistral
@@ -93,6 +95,14 @@
 except ImportError:
     OLMO2_AVAILABLE = False
 
+try:
+    from transformers.models.gemma3.configuration_gemma3 import Gemma3TextConfig
+    from transformers.models.gemma3.modeling_gemma3 import Gemma3ForCausalLM
+
+    GEMMA3_AVAILABLE = True
+except ImportError:
+    GEMMA3_AVAILABLE = False
+
 from liger_kernel.utils import infer_device
 
 device = infer_device()
@@ -326,6 +336,36 @@
     ),
 }
 
+if GEMMA3_AVAILABLE:
+    MINI_MODEL_SETUPS["mini_gemma3"] = MiniModelConfig(
+        liger_kernel_patch_func=apply_liger_kernel_to_gemma3,
+        liger_kernel_patch_revert_func=revert_liger_kernel_to_gemma3,
+        model_class=Gemma3ForCausalLM,
+        mini_model_config=Gemma3TextConfig(
+            vocab_size=32000,  # 262144
+            hidden_size=1024,  # 1152
+            intermediate_size=2048,  # 6912
+            num_hidden_layers=4,  # 26
+            num_attention_heads=4,
+            num_key_value_heads=1,
+            head_dim=256,
+            hidden_activation="gelu_pytorch_tanh",
+            max_position_embeddings=8192,  # 32768
+            initializer_range=0.02,
+            rms_norm_eps=1e-06,
+            use_cache=True,
+            pad_token_id=0,
+            bos_token_id=2,
+            eos_token_id=1,
+            tie_word_embeddings=True,
+            rope_theta=10000.0,  # 1000000
+            attention_bias=False,
+            attention_dropout=0.0,
+            attn_implementation="eager",
+        ),
+    )
+
+
 if MLLAMA_AVAILABLE:
     MINI_MODEL_SETUPS["mini_mllama"] = MiniModelConfig(
         liger_kernel_patch_func=apply_liger_kernel_to_mllama,
@@ -815,6 +855,25 @@ def run_mini_model(
         #         not supports_bfloat16(), reason="bfloat16 not supported on this GPU"
         #     ),
         # ),
+        pytest.param(
+            "mini_gemma3",
+            32,
+            1e-4,
+            torch.bfloat16,
+            1e-3,
+            1e-2,
+            1e-1,
+            1e-2,
+            1e-2,
+            1e-2,
+            marks=[
+                pytest.mark.skipif(not supports_bfloat16(), reason="bfloat16 not supported on this GPU"),
+                pytest.mark.skipif(
+                    not GEMMA3_AVAILABLE,
+                    reason="Gemma3 not available in this version of transformers",
+                ),
+            ],
+        ),
     ],
 )
 def test_mini_model(
diff --git a/test/convergence/fp32/test_mini_models_multimodal.py b/test/convergence/fp32/test_mini_models_multimodal.py