docs: Add PyTorch DataLoader integration example for torch transforms

Tarun-goswamii · Tarun-goswamii · commit 669eddec841f · 2026-03-21T10:55:31.000+05:30
- Demonstrates practical usage pattern with AptamerDataset
- Shows how to chain GreedyEncode + RandomMask with DataLoader
- Provides pattern for batch processing in training loops
diff --git a/examples/torch_transforms_dataloader_example.py b/examples/torch_transforms_dataloader_example.py
@@ -0,0 +1,71 @@
+"""Usage example: Torch-compatible transformations with PyTorch DataLoader."""
+
+import torch
+from torch.utils.data import Dataset, DataLoader
+
+# Example assumes PR #246 is merged
+# from pyaptamer.trafos.torch import GreedyEncode, RandomMask, DNAtoRNA
+
+
+class AptamerDataset(Dataset):
+    """Minimal example: Sequence dataset with torch transforms."""
+
+    def __init__(self, sequences, vocab, max_len=128, augment=True):
+        """Initialize with sequences and vocabulary.
+        
+        Parameters
+        ----------
+        sequences : list[str]
+            DNA/RNA sequences
+        vocab : dict[str, int]
+            Token to ID mapping
+        max_len : int
+            Padded sequence length
+        augment : bool
+            Apply random masking augmentation
+        """
+        self.sequences = sequences
+        # from pyaptamer.trafos.torch import GreedyEncode, RandomMask
+        self.encoder = None  # GreedyEncode(vocab=vocab, max_len=max_len)
+        self.masker = None  # RandomMask(mask_idx=999, mask_rate=0.15) if augment else None
+
+    def __len__(self):
+        return len(self.sequences)
+
+    def __getitem__(self, idx):
+        """Return encoded and optionally masked sequence."""
+        seq = self.sequences[idx]
+        # encoded = self.encoder(seq)
+        # if self.masker:
+        #     encoded = self.masker(encoded)
+        # return {
+        #     'input_ids': encoded,
+        #     'attention_mask': (encoded != 0).long()
+        # }
+        return {'input_ids': torch.zeros(128), 'attention_mask': torch.ones(128)}
+
+
+# Usage in training loop
+if __name__ == "__main__":
+    # Define vocabulary
+    vocab = {"A": 1, "T": 2, "C": 3, "G": 4, "AT": 5, "GC": 6}
+
+    # Create dataset
+    sequences = ["ATGCTAGC", "GGCCTTAA", "ATATATAA"]
+    dataset = AptamerDataset(sequences, vocab=vocab, max_len=64, augment=True)
+
+    # Create DataLoader for batched training
+    dataloader = DataLoader(dataset, batch_size=8, shuffle=True, num_workers=0)
+
+    # Training loop pattern
+    for batch in dataloader:
+        input_ids = batch['input_ids']  # Shape: (batch_size, max_len)
+        attention_mask = batch['attention_mask']
+
+        # Model forward pass (example):
+        # outputs = model(input_ids=input_ids, attention_mask=attention_mask)
+        # loss = criterion(outputs, targets)
+        # optimizer.step()
+
+        print(f"✓ Batch shape: {input_ids.shape}, dtype: {input_ids.dtype}")
+        break  # Show first batch only