Revert llama4 changes

achartier · achartier · commit 21b3d8b89fe0 · 2026-03-09T18:47:22.000Z
Signed-off-by: Aurelien Chartier &lt;2567591+achartier@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/_torch/models/modeling_llama.py b/tensorrt_llm/_torch/models/modeling_llama.py
@@ -203,18 +203,15 @@ def forward(
         attention_mask: PredefinedAttentionMask = PredefinedAttentionMask.
         CAUSAL,
         all_reduce_params: Optional[AllReduceParams] = None,
-        lora_params: Optional[dict] = None,
         **kwargs,
     ) -> torch.Tensor:
-        assert lora_params is None, "LORA is not supported for Llama4Attention"
         if self.use_rope:
             return super().forward(
                 position_ids=position_ids,
                 hidden_states=hidden_states,
                 attn_metadata=attn_metadata,
                 attention_mask=attention_mask,
                 all_reduce_params=all_reduce_params,
-                lora_params=lora_params,
                 **kwargs,
             )
         else:
@@ -481,7 +478,6 @@ def forward(
         attn_metadata: AttentionMetadata,
         residual: Optional[torch.Tensor],
         spec_metadata: Optional[SpecMetadata] = None,
-        lora_params: Optional[dict] = None,
         **kwargs,
     ) -> torch.Tensor:
         # Only enable min-latency mode on Blackwell
@@ -506,7 +502,6 @@ def forward(
             attn_metadata=attn_metadata,
             all_reduce_params=AllReduceParams(
                 enable_allreduce=not self.disable_attn_allreduce),
-            lora_params=lora_params,
             **kwargs,
         )
 
@@ -547,7 +542,6 @@ def forward(
             final_all_reduce_params=AllReduceParams(
                 enable_allreduce=not self.disable_feed_forward_allreduce),
             cutlass_min_latency_mode=cutlass_min_latency_mode,
-            lora_params=lora_params,
         )
 
         if spec_metadata is not None: