Open-Athena
diff --git a/‎configs/data/default.yaml‎
Lines changed: 1 addition & 2 deletions b/‎configs/data/default.yaml‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎configs/experiment/clm_transformer_small.yaml‎
Lines changed: 5 additions & 4 deletions b/‎configs/experiment/clm_transformer_small.yaml‎
Lines changed: 5 additions & 4 deletions
diff --git a/‎configs/model/bert_bytenet_small.yaml‎
Lines changed: 2 additions & 0 deletions b/‎configs/model/bert_bytenet_small.yaml‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎configs/model/clm_transformer_base.yaml‎
Lines changed: 2 additions & 0 deletions b/‎configs/model/clm_transformer_base.yaml‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎configs/model/clm_transformer_small.yaml‎
Lines changed: 2 additions & 0 deletions b/‎configs/model/clm_transformer_small.yaml‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎configs/model/gpn_animal_promoter.yaml‎
Lines changed: 2 additions & 0 deletions b/‎configs/model/gpn_animal_promoter.yaml‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎configs/model/mlm_transformer_base.yaml‎
Lines changed: 2 additions & 0 deletions b/‎configs/model/mlm_transformer_base.yaml‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎configs/model/mlm_transformer_small.yaml‎
Lines changed: 2 additions & 0 deletions b/‎configs/model/mlm_transformer_small.yaml‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎glm_experiments/data/lm_datamodule.py‎
Lines changed: 8 additions & 13 deletions b/‎glm_experiments/data/lm_datamodule.py‎
Lines changed: 8 additions & 13 deletions
diff --git a/‎glm_experiments/models/components/lm.py‎
Lines changed: 56 additions & 31 deletions b/‎glm_experiments/models/components/lm.py‎
Lines changed: 56 additions & 31 deletions
@@ -11,8 +11,7 @@ num_workers: 4
 pin_memory: true
 
 # Soft masking for genomic soft-masked regions (lowercase nucleotides)
-soft_masked_loss_weight_train: 0.01 # Low weight for soft-masked regions during training
-soft_masked_loss_weight_eval: 0.0 # No weight for soft-masked regions during eval
+soft_masked_weight: 0.01 # Loss weight for soft-masked regions in main training loss
 
 # Data augmentation
 data_augmentation: true # Reverse complement augmentation (training only)
 
@@ -11,10 +11,10 @@ logger:
     tags: ["debug", "clm", "transformer", "small"]
 
 trainer:
-  max_steps: 100
-  log_every_n_steps: 10
-  val_check_interval: 10
-  limit_val_batches: 2
+  max_steps: 300
+  log_every_n_steps: 100
+  val_check_interval: 100
+  limit_val_batches: 10
   check_val_every_n_epoch: null
 
 model:
@@ -33,5 +33,6 @@ data:
   _target_: glm_experiments.data.lm_datamodule.CLMDataModule
   batch_size: 8
   per_device_batch_size: 8
+  soft_masked_weight: 0.5
 
 compile: false
@@ -1,5 +1,7 @@
 _target_: glm_experiments.models.lm_lit_module.MLMLitModule
 
+soft_masked_weight: ${data.soft_masked_weight}
+
 net:
   _target_: glm_experiments.models.components.lm.MLM
   embedder:
 
@@ -1,5 +1,7 @@
 _target_: glm_experiments.models.lm_lit_module.CLMLitModule
 
+soft_masked_weight: ${data.soft_masked_weight}
+
 net:
   _target_: glm_experiments.models.components.lm.CLM
   embedder:
 
@@ -1,5 +1,7 @@
 _target_: glm_experiments.models.lm_lit_module.CLMLitModule
 
+soft_masked_weight: ${data.soft_masked_weight}
+
 net:
   _target_: glm_experiments.models.components.lm.CLM
   embedder:
 
@@ -1,5 +1,7 @@
 _target_: glm_experiments.models.lm_lit_module.MLMLitModule
 
+soft_masked_weight: ${data.soft_masked_weight}
+
 net:
   _target_: glm_experiments.models.components.lm.MLM
   embedder:
 
@@ -1,5 +1,7 @@
 _target_: glm_experiments.models.lm_lit_module.MLMLitModule
 
+soft_masked_weight: ${data.soft_masked_weight}
+
 net:
   _target_: glm_experiments.models.components.lm.MLM
   embedder:
 
@@ -1,5 +1,7 @@
 _target_: glm_experiments.models.lm_lit_module.MLMLitModule
 
+soft_masked_weight: ${data.soft_masked_weight}
+
 net:
   _target_: glm_experiments.models.components.lm.MLM
   embedder:
 
@@ -125,8 +125,7 @@ class LMDataModule(LightningDataModule):
         per_device_batch_size: Batch size per device (what fits in GPU memory)
         num_workers: Number of workers for data loading
         pin_memory: Whether to pin memory for faster GPU transfer
-        soft_masked_loss_weight_train: Loss weight for soft-masked regions during training
-        soft_masked_loss_weight_eval: Loss weight for soft-masked regions during evaluation
+        soft_masked_weight: Loss weight for soft-masked regions (not used in data module)
         data_augmentation: Whether to apply reverse complement augmentation (training only)
         max_val_lm_samples: Maximum number of samples for LM validation (None = unlimited)
         seed: Random seed for reproducibility
@@ -140,8 +139,7 @@ def __init__(
         per_device_batch_size: int = 256,  # Batch size that fits in GPU memory
         num_workers: int = 8,
         pin_memory: bool = True,
-        soft_masked_loss_weight_train: float = 0.01,
-        soft_masked_loss_weight_eval: float = 0.0,
+        soft_masked_weight: float = 0.01,
         data_augmentation: bool = True,
         max_val_lm_samples: int | None = None,
         seed: int = 42,
@@ -256,16 +254,15 @@ def tokenize(seq: list[str]) -> list[list[int]]:
                 return_special_tokens_mask=False,
             )["input_ids"]
 
-        def transform_batch(examples: dict, soft_masked_weight: float, data_aug: bool) -> dict:
+        def transform_batch(examples: dict, data_aug: bool) -> dict:
             """Transform a batch of examples.
 
             Args:
                 examples: Batch of examples with 'seq' field
-                soft_masked_weight: Loss weight for lowercase nucleotides
                 data_aug: Whether to apply reverse complement augmentation
 
             Returns:
-                Dictionary with input_ids, labels, and loss_weight (all tensors)
+                Dictionary with input_ids, labels, and soft_masked (all tensors)
             """
             seq = examples["seq"]
 
@@ -276,19 +273,19 @@ def transform_batch(examples: dict, soft_masked_weight: float, data_aug: bool) -
             # Tokenize
             input_ids = torch.tensor(tokenize(seq), dtype=torch.int8)
 
-            # Create loss weights (lower weight for soft-masked lowercase regions)
-            loss_weight = torch.ones(input_ids.shape, dtype=torch.float16)
+            # Create soft_masked boolean tensor (True for lowercase nucleotides)
+            soft_masked = torch.zeros(input_ids.shape, dtype=torch.bool)
             for i, s in enumerate(seq):
                 lowercase_mask = np.array([c.islower() for c in s])
-                loss_weight[i][lowercase_mask] = soft_masked_weight
+                soft_masked[i][lowercase_mask] = True
 
             # Apply objective-specific label creation (MLM vs CLM)
             input_ids, labels = self.apply_labels(input_ids)
 
             return {
                 "input_ids": input_ids,
                 "labels": labels,
-                "loss_weight": loss_weight,
+                "soft_masked": soft_masked,
             }
 
         # Load raw dataset with streaming
@@ -301,7 +298,6 @@ def transform_batch(examples: dict, soft_masked_weight: float, data_aug: bool) -
             train_dataset = train_dataset.map(
                 lambda ex: transform_batch(
                     ex,
-                    soft_masked_weight=self.hparams.soft_masked_loss_weight_train,
                     data_aug=self.hparams.data_augmentation,
                 ),
                 batched=True,
@@ -322,7 +318,6 @@ def transform_batch(examples: dict, soft_masked_weight: float, data_aug: bool) -
             val_dataset = val_dataset.map(
                 lambda ex: transform_batch(
                     ex,
-                    soft_masked_weight=self.hparams.soft_masked_loss_weight_eval,
                     data_aug=False,
                 ),
                 batched=True,
 
@@ -60,64 +60,89 @@ def prepare_for_loss(
         self,
         logits: torch.Tensor,
         labels: torch.Tensor,
-        loss_weight: torch.Tensor,
+        soft_masked: torch.Tensor,
     ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
-        """Prepare logits, labels, and weights for loss computation.
+        """Prepare logits, labels, and soft_masked for loss computation.
 
         Override in subclasses to implement MLM vs CLM-specific slicing/filtering.
 
         Args:
             logits: Logits of shape (batch, seq_len, vocab_size)
             labels: Target labels of shape (batch, seq_len)
-            loss_weight: Loss weights of shape (batch, seq_len)
+            soft_masked: Boolean mask of shape (batch, seq_len)
 
         Returns:
-            Tuple of (logits, labels, loss_weight) ready for loss computation
+            Tuple of (logits, labels, soft_masked) ready for loss computation
         """
         raise NotImplementedError("Subclasses must implement prepare_for_loss")
 
     def compute_loss(
         self,
         logits: torch.Tensor,
         labels: torch.Tensor,
-        loss_weight: torch.Tensor,
-    ) -> torch.Tensor:
-        """Compute weighted cross-entropy loss.
+        soft_masked: torch.Tensor,
+        soft_masked_weight: float,
+    ) -> dict[str, torch.Tensor]:
+        """Compute weighted cross-entropy loss with three variants.
 
-        Shared loss computation logic for MLM and CLM.
+        Computes three loss values:
+        1. loss_full: All tokens weighted equally (baseline)
+        2. loss_non_soft_masked: Only non-soft-masked tokens
+        3. loss: Training loss with soft_masked_weight applied
 
         Args:
             logits: Logits (1D or 2D)
             labels: Target labels (1D)
-            loss_weight: Loss weights (1D)
+            soft_masked: Boolean mask (1D), True for soft-masked positions
+            soft_masked_weight: Weight for soft-masked positions in training loss
 
         Returns:
-            Scalar loss value
+            Dictionary with keys: loss, loss_full, loss_non_soft_masked
         """
-        loss = F.cross_entropy(logits, labels, reduction="none")
-        loss = (loss * loss_weight / loss_weight.sum()).sum()
-        return loss
+        # Single cross-entropy computation (efficient)
+        loss_per_token = F.cross_entropy(logits, labels, reduction="none")
+
+        # Create three weight masks
+        weight_full = torch.ones_like(loss_per_token)
+        weight_non_soft_masked = (~soft_masked).float()
+        weight_training = torch.where(soft_masked, soft_masked_weight, 1.0)
+
+        # Compute normalized losses
+        def normalize_and_sum(loss: torch.Tensor, weight: torch.Tensor) -> torch.Tensor:
+            weight_sum = weight.sum()
+            if weight_sum > 0:
+                return (loss * weight / weight_sum).sum()
+            else:
+                # Handle edge case: no tokens with weight
+                return torch.tensor(0.0, device=loss.device, dtype=loss.dtype)
+
+        return {
+            "loss": normalize_and_sum(loss_per_token, weight_training),
+            "loss_full": normalize_and_sum(loss_per_token, weight_full),
+            "loss_non_soft_masked": normalize_and_sum(loss_per_token, weight_non_soft_masked),
+        }
 
     def forward(
         self,
         input_ids: torch.Tensor,
         labels: torch.Tensor,
-        loss_weight: torch.Tensor,
-    ) -> torch.Tensor:
+        soft_masked: torch.Tensor,
+        soft_masked_weight: float,
+    ) -> dict[str, torch.Tensor]:
         """Forward pass with loss calculation.
 
         Args:
             input_ids: Input token IDs of shape (batch, seq_len), int8 or long
             labels: True token IDs of shape (batch, seq_len)
-            loss_weight: Per-token loss weights of shape (batch, seq_len)
+            soft_masked: Boolean mask of shape (batch, seq_len), True for soft-masked positions
+            soft_masked_weight: Weight for soft-masked positions in training loss
 
         Returns:
-            Weighted cross-entropy loss (scalar)
+            Dictionary with loss components (loss, loss_full, loss_non_soft_masked)
         """
         logits = self.get_logits(input_ids)
-        logits, labels, loss_weight = self.prepare_for_loss(logits, labels, loss_weight)
-        loss = self.compute_loss(logits, labels, loss_weight)
-        return loss
+        logits, labels, soft_masked = self.prepare_for_loss(logits, labels, soft_masked)
+        return self.compute_loss(logits, labels, soft_masked, soft_masked_weight)
 
 
 class MLM(LM):
@@ -130,30 +155,30 @@ def prepare_for_loss(
         self,
         logits: torch.Tensor,
         labels: torch.Tensor,
-        loss_weight: torch.Tensor,
+        soft_masked: torch.Tensor,
     ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
         """Filter to masked positions only.
 
         Args:
             logits: Logits of shape (batch, seq_len, vocab_size)
             labels: Target labels of shape (batch, seq_len), -100 for ignored positions
-            loss_weight: Loss weights of shape (batch, seq_len)
+            soft_masked: Boolean mask of shape (batch, seq_len)
 
         Returns:
-            Filtered (logits, labels, loss_weight) for masked positions only
+            Filtered (logits, labels, soft_masked) for masked positions only
         """
         # Reshape to 1D
         logits = logits.view(-1, logits.size(-1))
         labels = labels.view(-1).long()
-        loss_weight = loss_weight.view(-1)
+        soft_masked = soft_masked.view(-1)
 
         # Filter to masked positions (labels != -100)
         mask = labels != -100
         logits = logits[mask]
         labels = labels[mask]
-        loss_weight = loss_weight[mask]
+        soft_masked = soft_masked[mask]
 
-        return logits, labels, loss_weight
+        return logits, labels, soft_masked
 
 
 class CLM(LM):
@@ -182,21 +207,21 @@ def prepare_for_loss(
         self,
         logits: torch.Tensor,
         labels: torch.Tensor,
-        loss_weight: torch.Tensor,
+        soft_masked: torch.Tensor,
     ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
         """Slice for next-token prediction.
 
         Args:
             logits: Logits of shape (batch, seq_len, vocab_size)
             labels: Target labels of shape (batch, seq_len) (same as input_ids)
-            loss_weight: Loss weights of shape (batch, seq_len)
+            soft_masked: Boolean mask of shape (batch, seq_len)
 
         Returns:
-            Sliced (logits, labels, loss_weight) for next-token prediction
+            Sliced (logits, labels, soft_masked) for next-token prediction
         """
         # Slice: logits[:, :-1] predicts labels[:, 1:]
         logits = logits[:, :-1].reshape(-1, logits.size(-1))
         labels = labels[:, 1:].reshape(-1).long()
-        loss_weight = loss_weight[:, 1:].reshape(-1)
+        soft_masked = soft_masked[:, 1:].reshape(-1)
 
-        return logits, labels, loss_weight
+        return logits, labels, soft_masked