PrimeIntellect-ai · samsja · Apr 30, 2025
diff --git a/src/zeroband/models/llama/model.py b/src/zeroband/models/llama/model.py
@@ -11,7 +11,7 @@
 # Copyright (c) Meta Platforms, Inc. All Rights Reserved.


 import contextlib
 from dataclasses import dataclass
 from typing import Optional, Tuple

@@ -21,7 +21,7 @@
 from zeroband.config import AttnFnType

 from torch.nn.attention.flex_attention import create_block_mask, flex_attention, BlockMask, _DEFAULT_SPARSE_BLOCK_SIZE
 from torch.nn.attention import SDPBackend, sdpa_kernel

 from zeroband.utils.mfu_tracker import FlopCounter

@@ -143,8 +143,8 @@
 
     xq_out = torch.view_as_real(xq_ * freqs_cis).flatten(3)
     xk_out = torch.view_as_real(xk_ * freqs_cis).flatten(3)
-    flop_counter.track_binary(xq_, freqs_cis)
-    flop_counter.track_binary(xk_, freqs_cis)
+    # flop_counter.track_binary(xq_, freqs_cis)
+    # flop_counter.track_binary(xk_, freqs_cis)
 
     return xq_out.type_as(xq), xk_out.type_as(xk)