NVIDIA
diff --git a/‎bionemo-recipes/models/esm2/README.md‎
Lines changed: 2 additions & 2 deletions b/‎bionemo-recipes/models/esm2/README.md‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎bionemo-recipes/models/esm2/modeling_esm_te.py‎
Lines changed: 20 additions & 10 deletions b/‎bionemo-recipes/models/esm2/modeling_esm_te.py‎
Lines changed: 20 additions & 10 deletions
diff --git a/‎bionemo-recipes/models/llama3/modeling_llama_te.py‎
Lines changed: 18 additions & 10 deletions b/‎bionemo-recipes/models/llama3/modeling_llama_te.py‎
Lines changed: 18 additions & 10 deletions
diff --git a/‎bionemo-recipes/models/mixtral/modeling_mixtral_te.py‎
Lines changed: 6 additions & 5 deletions b/‎bionemo-recipes/models/mixtral/modeling_mixtral_te.py‎
Lines changed: 6 additions & 5 deletions
diff --git a/‎bionemo-recipes/models/qwen/modeling_qwen2_te.py‎
Lines changed: 19 additions & 9 deletions b/‎bionemo-recipes/models/qwen/modeling_qwen2_te.py‎
Lines changed: 19 additions & 9 deletions
diff --git a/‎bionemo-recipes/models/qwen/modeling_qwen3_te.py‎
Lines changed: 19 additions & 9 deletions b/‎bionemo-recipes/models/qwen/modeling_qwen3_te.py‎
Lines changed: 19 additions & 9 deletions
diff --git a/‎bionemo-recipes/recipes/esm2_accelerate_te/example_8m_checkpoint/esm_nv.py‎
Lines changed: 20 additions & 10 deletions b/‎bionemo-recipes/recipes/esm2_accelerate_te/example_8m_checkpoint/esm_nv.py‎
Lines changed: 20 additions & 10 deletions
@@ -127,7 +127,7 @@ For FP4 (NVFP4) quantization, pass an `fp4_recipe` instead and set the correspon
 `"fp4"` in `layer_precision`:
 
 ```python
-fp4_recipe = te_recipe.NVFP4()
+fp4_recipe = te_recipe.NVFP4BlockScaling()
 
 config = NVEsmConfig.from_pretrained(
     "nvidia/esm2_t6_8M_UR50D",
@@ -151,7 +151,7 @@ config = NVEsmConfig.from_pretrained(
     layer_precision=["fp4"] * 6,
     use_quantized_model_init=True,
 )
-model = NVEsmForMaskedLM(config, fp4_recipe=te_recipe.NVFP4())
+model = NVEsmForMaskedLM(config, fp4_recipe=te_recipe.NVFP4BlockScaling())
 ```
 
 ### Notes
 
@@ -132,11 +132,11 @@ def __init__(
             )
 
         if layer_precision is not None:
-            assert len(layer_precision) == self.num_hidden_layers, (
-                f"layer_precision must be a list of length {self.num_hidden_layers}"
-            )
+            if len(layer_precision) != self.num_hidden_layers:
+                raise ValueError(f"layer_precision must be a list of length {self.num_hidden_layers}")
             for precision in layer_precision:
-                assert precision in {"fp8", "fp4", None}, 'layer_precision element must be "fp8", "fp4", or None'
+                if precision not in {"fp8", "fp4", None}:
+                    raise ValueError(f'layer_precision element must be "fp8", "fp4", or None, got {precision!r}')
 
 
 class NVEsmEncoder(nn.Module):
@@ -160,12 +160,20 @@ def __init__(
         self._fp8_recipe: transformer_engine.common.recipe.Recipe | None = fp8_recipe
         self._fp4_recipe: transformer_engine.common.recipe.Recipe | None = fp4_recipe
 
-        if fp8_recipe is not None and self.config.layer_precision is None:
-            if fp4_recipe is not None:
+        if self.config.layer_precision is None:
+            if fp8_recipe is not None and fp4_recipe is not None:
                 raise RuntimeError("Both FP8 and FP4 recipes provided, but no layer precision provided.")
-
-            warnings.warn("No layer precision provided, using FP8 recipe for all layers.", UserWarning)
-            self.config.layer_precision = ["fp8"] * self.config.num_hidden_layers
+            if fp8_recipe is not None:
+                warnings.warn("No layer precision provided, using FP8 recipe for all layers.", UserWarning)
+                self.config.layer_precision = ["fp8"] * self.config.num_hidden_layers
+            elif fp4_recipe is not None:
+                raise RuntimeError(
+                    "FP4 recipe provided but no layer_precision configured. "
+                    "Set layer_precision explicitly when using FP4."
+                )
+
+        if self.config.layer_precision is not None and "fp4" in self.config.layer_precision and fp4_recipe is None:
+            raise RuntimeError("layer_precision contains 'fp4' entries but no fp4_recipe was provided.")
 
         def _init_method(x):
             torch.nn.init.normal_(x, mean=0.0, std=config.initializer_range)
@@ -234,7 +242,7 @@ def forward(
         with torch.autocast(device_type="cuda", enabled=False):
             te_rope_emb = self.rotary_embeddings(max_seq_len=self.config.max_position_embeddings)
             te_rope_emb = te_rope_emb.to(hidden_states.device, non_blocking=True)
-            if te_rope_emb.dtype == torch.float32:
+            if te_rope_emb.dtype != torch.float32:
                 warnings.warn("Rotary embeddings should be in float32 for optimal performance.", UserWarning)
 
         with self.get_autocast_context(None, outer=True):
@@ -295,6 +303,8 @@ def get_autocast_context(
         recipe = {"fp8": self._fp8_recipe, "fp4": self._fp4_recipe}.get(precision)
 
         if init and self.config.use_quantized_model_init:
+            if precision == "fp4" and recipe is None:
+                raise RuntimeError("No FP4 recipe provided, but layer precision is set to FP4.")
             if precision in ("fp8", "fp4"):
                 return transformer_engine.pytorch.quantized_model_init(recipe=recipe)
             return nullcontext()
 
@@ -73,11 +73,11 @@ def __init__(
         self.use_quantized_model_init = use_quantized_model_init
 
         if layer_precision is not None:
-            assert len(layer_precision) == self.num_hidden_layers, (
-                f"layer_precision must be a list of length {self.num_hidden_layers}"
-            )
+            if len(layer_precision) != self.num_hidden_layers:
+                raise ValueError(f"layer_precision must be a list of length {self.num_hidden_layers}")
             for precision in layer_precision:
-                assert precision in {"fp8", "fp4", None}, 'layer_precision element must be "fp8", "fp4", or None'
+                if precision not in {"fp8", "fp4", None}:
+                    raise ValueError(f'layer_precision element must be "fp8", "fp4", or None, got {precision!r}')
 
 
 class NVLlamaPreTrainedModel(PreTrainedModel):
@@ -157,12 +157,20 @@ def __init__(
         self._fp8_recipe: transformer_engine.common.recipe.Recipe | None = fp8_recipe
         self._fp4_recipe: transformer_engine.common.recipe.Recipe | None = fp4_recipe
 
-        if fp8_recipe is not None and self.config.layer_precision is None:
-            if fp4_recipe is not None:
+        if self.config.layer_precision is None:
+            if fp8_recipe is not None and fp4_recipe is not None:
                 raise RuntimeError("Both FP8 and FP4 recipes provided, but no layer precision provided.")
-
-            warnings.warn("No layer precision provided, using FP8 recipe for all layers.", UserWarning)
-            self.config.layer_precision = ["fp8"] * self.config.num_hidden_layers
+            if fp8_recipe is not None:
+                warnings.warn("No layer precision provided, using FP8 recipe for all layers.", UserWarning)
+                self.config.layer_precision = ["fp8"] * self.config.num_hidden_layers
+            elif fp4_recipe is not None:
+                raise RuntimeError(
+                    "FP4 recipe provided but no layer_precision configured. "
+                    "Set layer_precision explicitly when using FP4."
+                )
+
+        if self.config.layer_precision is not None and "fp4" in self.config.layer_precision and fp4_recipe is None:
+            raise RuntimeError("layer_precision contains 'fp4' entries but no fp4_recipe was provided.")
 
         self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size, self.padding_idx, dtype=config.dtype)
 
@@ -287,7 +295,7 @@ def forward(
         # Ensure that rotary embeddings are computed with at a higher precision
         with torch.autocast(device_type="cuda", enabled=False):
             te_rope_emb = self.rotary_emb(max_seq_len=self.config.max_position_embeddings)
-            if te_rope_emb.dtype == torch.float32:
+            if te_rope_emb.dtype != torch.float32:
                 warnings.warn("Rotary embeddings should be in float32 for optimal performance.", UserWarning)
 
         with self.get_autocast_context(None, outer=True):
 
@@ -24,6 +24,7 @@
 import torch.nn as nn
 import transformer_engine.common.recipe
 import transformer_engine.pytorch
+import transformers
 from transformer_engine.pytorch.attention import InferenceParams
 from transformer_engine.pytorch.attention.inference import PagedKVCacheManager
 from transformer_engine.pytorch.attention.rope import RotaryPositionEmbedding
@@ -69,11 +70,11 @@ def __init__(
         self.use_quantized_model_init = use_quantized_model_init
 
         if layer_precision is not None:
-            assert len(layer_precision) == self.num_hidden_layers, (
-                f"layer_precision must be a list of length {self.num_hidden_layers}"
-            )
+            if len(layer_precision) != self.num_hidden_layers:
+                raise ValueError(f"layer_precision must be a list of length {self.num_hidden_layers}")
             for precision in layer_precision:
-                assert precision in {"fp8", "fp4", None}, 'layer_precision element must be "fp8", "fp4", or None'
+                if precision not in {"fp8", "fp4", None}:
+                    raise ValueError(f'layer_precision element must be "fp8", "fp4", or None, got {precision!r}')
 
 
 class NVMixtralPreTrainedModel(PreTrainedModel):
@@ -486,7 +487,7 @@ def get_autocast_context(
         return transformer_engine.pytorch.autocast(enabled=False)
 
 
-class NVMixtralForCausalLM(NVMixtralPreTrainedModel, __import__("transformers").GenerationMixin):
+class NVMixtralForCausalLM(NVMixtralPreTrainedModel, transformers.GenerationMixin):
     """Mixtral model with causal language head."""
 
     _tied_weights_keys: ClassVar[list[str]] = []
 
@@ -70,11 +70,11 @@ def __init__(
         self.use_quantized_model_init = use_quantized_model_init
 
         if layer_precision is not None:
-            assert len(layer_precision) == self.num_hidden_layers, (
-                f"layer_precision must be a list of length {self.num_hidden_layers}"
-            )
+            if len(layer_precision) != self.num_hidden_layers:
+                raise ValueError(f"layer_precision must be a list of length {self.num_hidden_layers}")
             for precision in layer_precision:
-                assert precision in {"fp8", "fp4", None}, 'layer_precision element must be "fp8", "fp4", or None'
+                if precision not in {"fp8", "fp4", None}:
+                    raise ValueError(f'layer_precision element must be "fp8", "fp4", or None, got {precision!r}')
 
 
 class NVQwen2PreTrainedModel(PreTrainedModel):
@@ -154,12 +154,20 @@ def __init__(
         self._fp8_recipe: transformer_engine.common.recipe.Recipe | None = fp8_recipe
         self._fp4_recipe: transformer_engine.common.recipe.Recipe | None = fp4_recipe
 
-        if fp8_recipe is not None and self.config.layer_precision is None:
-            if fp4_recipe is not None:
+        if self.config.layer_precision is None:
+            if fp8_recipe is not None and fp4_recipe is not None:
                 raise RuntimeError("Both FP8 and FP4 recipes provided, but no layer precision provided.")
-
-            warnings.warn("No layer precision provided, using FP8 recipe for all layers.", UserWarning)
-            self.config.layer_precision = ["fp8"] * self.config.num_hidden_layers
+            if fp8_recipe is not None:
+                warnings.warn("No layer precision provided, using FP8 recipe for all layers.", UserWarning)
+                self.config.layer_precision = ["fp8"] * self.config.num_hidden_layers
+            elif fp4_recipe is not None:
+                raise RuntimeError(
+                    "FP4 recipe provided but no layer_precision configured. "
+                    "Set layer_precision explicitly when using FP4."
+                )
+
+        if self.config.layer_precision is not None and "fp4" in self.config.layer_precision and fp4_recipe is None:
+            raise RuntimeError("layer_precision contains 'fp4' entries but no fp4_recipe was provided.")
 
         head_dim = config.hidden_size // config.num_attention_heads
 
@@ -290,6 +298,8 @@ def forward(
         # Ensure that rotary embeddings are computed with at a higher precision
         with torch.autocast(device_type="cuda", enabled=False):
             te_rope_emb = self.rotary_emb(max_seq_len=self.config.max_position_embeddings)
+            if te_rope_emb.dtype != torch.float32:
+                warnings.warn("Rotary embeddings should be in float32 for optimal performance.", UserWarning)
 
         with self.get_autocast_context(None, outer=True):
             for layer_idx, decoder_layer in enumerate(self.layers[: self.config.num_hidden_layers]):
 
@@ -70,11 +70,11 @@ def __init__(
         self.use_quantized_model_init = use_quantized_model_init
 
         if layer_precision is not None:
-            assert len(layer_precision) == self.num_hidden_layers, (
-                f"layer_precision must be a list of length {self.num_hidden_layers}"
-            )
+            if len(layer_precision) != self.num_hidden_layers:
+                raise ValueError(f"layer_precision must be a list of length {self.num_hidden_layers}")
             for precision in layer_precision:
-                assert precision in {"fp8", "fp4", None}, 'layer_precision element must be "fp8", "fp4", or None'
+                if precision not in {"fp8", "fp4", None}:
+                    raise ValueError(f'layer_precision element must be "fp8", "fp4", or None, got {precision!r}')
 
 
 class NVQwen3PreTrainedModel(PreTrainedModel):
@@ -154,12 +154,20 @@ def __init__(
         self._fp8_recipe: transformer_engine.common.recipe.Recipe | None = fp8_recipe
         self._fp4_recipe: transformer_engine.common.recipe.Recipe | None = fp4_recipe
 
-        if fp8_recipe is not None and self.config.layer_precision is None:
-            if fp4_recipe is not None:
+        if self.config.layer_precision is None:
+            if fp8_recipe is not None and fp4_recipe is not None:
                 raise RuntimeError("Both FP8 and FP4 recipes provided, but no layer precision provided.")
-
-            warnings.warn("No layer precision provided, using FP8 recipe for all layers.", UserWarning)
-            self.config.layer_precision = ["fp8"] * self.config.num_hidden_layers
+            if fp8_recipe is not None:
+                warnings.warn("No layer precision provided, using FP8 recipe for all layers.", UserWarning)
+                self.config.layer_precision = ["fp8"] * self.config.num_hidden_layers
+            elif fp4_recipe is not None:
+                raise RuntimeError(
+                    "FP4 recipe provided but no layer_precision configured. "
+                    "Set layer_precision explicitly when using FP4."
+                )
+
+        if self.config.layer_precision is not None and "fp4" in self.config.layer_precision and fp4_recipe is None:
+            raise RuntimeError("layer_precision contains 'fp4' entries but no fp4_recipe was provided.")
 
         self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size, self.padding_idx, dtype=config.dtype)
 
@@ -300,6 +308,8 @@ def forward(
         # Ensure that rotary embeddings are computed with at a higher precision
         with torch.autocast(device_type="cuda", enabled=False):
             te_rope_emb = self.rotary_emb(max_seq_len=self.config.max_position_embeddings)
+            if te_rope_emb.dtype != torch.float32:
+                warnings.warn("Rotary embeddings should be in float32 for optimal performance.", UserWarning)
 
         with self.get_autocast_context(None, outer=True):
             for layer_idx, decoder_layer in enumerate(self.layers[: self.config.num_hidden_layers]):
 
@@ -132,11 +132,11 @@ def __init__(
             )
 
         if layer_precision is not None:
-            assert len(layer_precision) == self.num_hidden_layers, (
-                f"layer_precision must be a list of length {self.num_hidden_layers}"
-            )
+            if len(layer_precision) != self.num_hidden_layers:
+                raise ValueError(f"layer_precision must be a list of length {self.num_hidden_layers}")
             for precision in layer_precision:
-                assert precision in {"fp8", "fp4", None}, 'layer_precision element must be "fp8", "fp4", or None'
+                if precision not in {"fp8", "fp4", None}:
+                    raise ValueError(f'layer_precision element must be "fp8", "fp4", or None, got {precision!r}')
 
 
 class NVEsmEncoder(nn.Module):
@@ -160,12 +160,20 @@ def __init__(
         self._fp8_recipe: transformer_engine.common.recipe.Recipe | None = fp8_recipe
         self._fp4_recipe: transformer_engine.common.recipe.Recipe | None = fp4_recipe
 
-        if fp8_recipe is not None and self.config.layer_precision is None:
-            if fp4_recipe is not None:
+        if self.config.layer_precision is None:
+            if fp8_recipe is not None and fp4_recipe is not None:
                 raise RuntimeError("Both FP8 and FP4 recipes provided, but no layer precision provided.")
-
-            warnings.warn("No layer precision provided, using FP8 recipe for all layers.", UserWarning)
-            self.config.layer_precision = ["fp8"] * self.config.num_hidden_layers
+            if fp8_recipe is not None:
+                warnings.warn("No layer precision provided, using FP8 recipe for all layers.", UserWarning)
+                self.config.layer_precision = ["fp8"] * self.config.num_hidden_layers
+            elif fp4_recipe is not None:
+                raise RuntimeError(
+                    "FP4 recipe provided but no layer_precision configured. "
+                    "Set layer_precision explicitly when using FP4."
+                )
+
+        if self.config.layer_precision is not None and "fp4" in self.config.layer_precision and fp4_recipe is None:
+            raise RuntimeError("layer_precision contains 'fp4' entries but no fp4_recipe was provided.")
 
         def _init_method(x):
             torch.nn.init.normal_(x, mean=0.0, std=config.initializer_range)
@@ -234,7 +242,7 @@ def forward(
         with torch.autocast(device_type="cuda", enabled=False):
             te_rope_emb = self.rotary_embeddings(max_seq_len=self.config.max_position_embeddings)
             te_rope_emb = te_rope_emb.to(hidden_states.device, non_blocking=True)
-            if te_rope_emb.dtype == torch.float32:
+            if te_rope_emb.dtype != torch.float32:
                 warnings.warn("Rotary embeddings should be in float32 for optimal performance.", UserWarning)
 
         with self.get_autocast_context(None, outer=True):
@@ -295,6 +303,8 @@ def get_autocast_context(
         recipe = {"fp8": self._fp8_recipe, "fp4": self._fp4_recipe}.get(precision)
 
         if init and self.config.use_quantized_model_init:
+            if precision == "fp4" and recipe is None:
+                raise RuntimeError("No FP4 recipe provided, but layer precision is set to FP4.")
             if precision in ("fp8", "fp4"):
                 return transformer_engine.pytorch.quantized_model_init(recipe=recipe)
             return nullcontext()