Implement CLAP style pretraining (WIP)

palonso · palonso · commit b0c00141fe24 · 2025-04-17T16:24:00.000+02:00
diff --git a/cfg/config_text_audio_dev.gin b/cfg/config_text_audio_dev.gin
@@ -0,0 +1,93 @@
+# general training parameters
+train.wandb_params = {
+    "project": "mtg-text_audio",
+    "name": "dev.mtg_text_audio",
+    "offline": False,
+    "entity": "mtg-upf",
+}
+
+new_freq = 24000
+
+# modules to use
+__main__.build_module.module = @modules.clap.CLAP
+
+# Choose the devalopment dataloader
+build_dev_datamodule.datamodule = @discotube_test_audio
+
+
+# Lighting trainer parameters
+train.params = {
+    "accelerator": "gpu",
+    "devices": 1,
+    "max_steps": 400,
+    "log_every_n_steps": 50,
+    "precision": "bf16-mixed",
+    "strategy": "ddp_find_unused_parameters_true"
+}
+
+modules.clap.CLAP.audio_encoder_name = "/Users/palonso/data/text_audio/ssl-mtg-weights/bm23z5le/checkpoints/config_masking_conformer_multiview_enc_to_encmelcqt_small.gin"
+modules.clap.CLAP.text_encoder_name = "sentence-transformers/all-mpnet-base-v2"
+modules.clap.CLAP.proj_size = 512
+modules.clap.CLAP.temp = 0.1
+modules.clap.CLAP.lr = 1e-4
+modules.clap.CLAP.weight_decay = 1e-2
+modules.clap.CLAP.seed = 0
+
+# CosineAnnealing scheduler
+CosineAnnealingCallback.warmup_steps = 30000
+CosineAnnealingCallback.eta_min = 1e-7
+
+# MelSpectrogram parameters
+nets.melspectrogram.MelSpectrogram.sr = 16000
+nets.melspectrogram.MelSpectrogram.win_len = 512
+nets.melspectrogram.MelSpectrogram.hop_len = 256
+nets.melspectrogram.MelSpectrogram.power = 2
+nets.melspectrogram.MelSpectrogram.n_mel = 96
+nets.melspectrogram.MelSpectrogram.norm = "slaney"
+nets.melspectrogram.MelSpectrogram.mel_scale = "slaney"
+nets.melspectrogram.MelSpectrogram.norm_std = 1.268292820667291
+nets.melspectrogram.MelSpectrogram.norm_mean = 2.06755686098554
+
+# data augmentation
+nets.melspectrogram.MelSpectrogram.stretch_factor = 1
+nets.melspectrogram.MelSpectrogram.freq_mask_param = 0
+nets.melspectrogram.MelSpectrogram.time_mask_param = 0
+nets.melspectrogram.MelSpectrogram.patch_size = (96, 4)
+
+
+# Transformer parameters
+nets.conformer.Conformer.patch_size = (96, 4)
+nets.conformer.Conformer.embed_dim = 512
+nets.conformer.Conformer.depth = 2
+nets.conformer.Conformer.conv_kernel_size = 5
+nets.conformer.Conformer.num_heads = 8
+nets.conformer.Conformer.mlp_ratio = 4.0
+nets.conformer.Conformer.mlp_residual_factor = 4.0
+nets.conformer.Conformer.dropout = 0.0
+nets.conformer.Conformer.input_dropout = 0.0
+nets.conformer.Conformer.use_deepnorm = True
+nets.conformer.Conformer.alpha_deepnorm = 2.21 # we can tune this number
+nets.conformer.Conformer.beta_deepnorm = 0.0026 # we can tune this number
+nets.conformer.Conformer.use_rope = True
+nets.conformer.Conformer.num_patches = None
+
+# Dataloader
+AudioDataset.num_frames = 16000
+AudioDataset.orig_freq = 16000
+AudioDataset.new_freq = 16000
+AudioDataset.mono = True
+AudioDataset.half_precision = True
+AudioDataModule.num_workers = 0
+
+# Discogs datamodule parameters
+DiscotubeTextAudioDataModule.batch_size = 1
+DiscotubeTextAudioDataModule.num_workers = 8
+DiscotubeTextAudioDataModule.data_dir = "/Users/palonso/data/text_audio/discotube_sample/audio/"
+DiscotubeTextAudioDataModule.filelist_train = "/Users/palonso/data/text_audio/discotube_sample/ids"
+DiscotubeTextAudioDataModule.filelist_val = "/Users/palonso/data/text_audio/discotube_sample/ids"
+DiscotubeTextAudioDataModule.metadata_youtube_file = "/Users/palonso/data/text_audio/discotube_sample/yotube_metadata.jsonl"
+DiscotubeTextAudioDataModule.metadata_discogs_file = "/Users/palonso/data/text_audio/discotube_sample/discogs_metadata.jsonl"
+DiscotubeTextAudioDataModule.metadata_id_map_file = "/Users/palonso/data/text_audio/discotube_sample/youtube_to_discgos_map.jsonl"
+
+
+
diff --git a/src/data/__init__.py b/src/data/__init__.py
@@ -1,8 +1,10 @@
 from .mnist import MNISTDataModule
 from .discotube import DiscotubeAudioDataModule, DiscotubeMultiViewAudioDataModule
+from .discotube_text_audio import DiscotubeTextAudioDataModule
 
 DATASETS = {
     "mnist": MNISTDataModule,
     "discotube": DiscotubeAudioDataModule,
     "discotube_multiview": DiscotubeMultiViewAudioDataModule,
+    "discotube_text_audio": DiscotubeTextAudioDataModule,
 }
diff --git a/src/data/data_utils.py b/src/data/data_utils.py
@@ -45,24 +45,6 @@ def __getitem__(self, idx):
         # load audio
         audio = self.load_audio(file_path, frame_offset=self.frame_offset)
 
-        # downmix to mono if necessary
-        if audio.shape[0] > 1 and self.mono:
-            audio = torch.mean(audio, dim=0, keepdim=False)
-
-        # resample if necessary
-        if self.orig_freq != self.new_freq:
-            # only works with float tensors
-            audio = audio.float()
-            audio = self.resample(audio)
-
-        audio = audio.squeeze(0)
-
-        # work with 16-bit precission
-        if self.half_precision:
-            audio = audio.half()
-        else:
-            audio = audio.float()
-
         return [audio]
 
     def load_audio(
@@ -109,7 +91,27 @@ def load_audio(
         else:
             raise ValueError(f"Invalid frame_offset: {frame_offset}")
 
-        return torch.from_numpy(audio)
+        # downmix to mono if necessary
+        if audio.shape[0] > 1 and self.mono:
+            audio = torch.mean(audio, dim=0, keepdim=False)
+
+        audio = torch.from_numpy(audio)
+
+        # resample if necessary
+        if self.orig_freq != self.new_freq:
+            # only works with float tensors
+            audio = audio.float()
+            audio = self.resample(audio)
+
+        audio = audio.squeeze(0)
+
+        # work with 16-bit precission
+        if self.half_precision:
+            audio = audio.half()
+        else:
+            audio = audio.float()
+
+        return audio
 
     @staticmethod
     def get_audio_duration(filepath: Path):
diff --git a/src/data/discotube_text_audio.py b/src/data/discotube_text_audio.py
@@ -0,0 +1,195 @@
+import gin
+import json
+import random
+import traceback
+from pathlib import Path
+from typing import Union
+
+import torch
+import pytorch_lightning as L
+import yaml
+from tqdm import tqdm
+from torch.utils.data import DataLoader
+
+
+from .data_utils import AudioDataset
+
+
+@gin.configurable
+class DiscotubeTextAudioDataset(AudioDataset):
+    """Generic audio dataset."""
+
+    def __init__(
+        self,
+        data_dir: Path,
+        filelist: Path,
+        metadata_youtube: dict,
+        metadata_discogs: dict,
+        metadata_id_map: dict,
+        frame_offset: Union[int, str] = "random",
+    ):
+        super().__init__(
+            data_dir=data_dir,
+            filelist=filelist,
+            frame_offset=frame_offset,
+        )
+
+        self.metadata_youtube = metadata_youtube
+        self.metadata_discogs = metadata_discogs
+        self.metadata_id_map = metadata_id_map
+
+    def __len__(self):
+        return len(self.filelist)
+
+    @staticmethod
+    def get_audio_path(youtube_id: str) -> Path:
+        return Path(youtube_id[:2], youtube_id).with_suffix(".mmap")
+
+    def __getitem__(self, idx):
+        try:
+            id_yt = self.filelist[idx]
+
+            file_path = self.data_dir / self.get_audio_path(id_yt)
+
+            # load audio
+            # audio = self.load_audio(file_path, frame_offset=self.frame_offset)
+            audio = torch.rand(1, 16000 * 30)
+
+            # load YouTube metadata
+            meta_youtube = self.metadata_youtube[id_yt]
+
+            # load discogs metadata
+            ids_discogs = self.metadata_id_map[id_yt]
+
+            # sample randonly among available releases
+            id_discogs = random.choice(ids_discogs)
+            meta_discogs = self.metadata_discogs[id_discogs]
+
+            # process metadata
+            text = self.preprocess_text(
+                {"youtube_metadata": meta_youtube, "discogs_metadata": meta_discogs}
+            )
+        except Exception:
+            print(f"Error loading {self.filelist[idx]}")
+            print(traceback.format_exc())
+            return [None, None]
+
+        return [audio, text]
+
+    def preprocess_text(self, metadata: dict) -> str:
+        """Text preprocessing"""
+
+        # Process YouTube metadata
+        fields_to_keep = ["description", "categories", "tags", "view_count"]
+        youtube_metadata = metadata["youtube_metadata"]
+        new_youtube_metadata = {
+            field: youtube_metadata[field]
+            for field in fields_to_keep
+            if field in youtube_metadata
+        }
+
+        # Process Discogs metadata
+
+        fields_to_keep = ["labels", "genres", "styles", "country", "released"]
+        dicogs_metadata = metadata["discogs_metadata"]
+        new_discogs_metadata = {
+            field: dicogs_metadata[field]
+            for field in fields_to_keep
+            if field in dicogs_metadata
+        }
+
+        # Fetch artist description
+        # TODO: Get this too
+
+        metadata = {
+            "youtube_metadata": new_youtube_metadata,
+            "discogs_metadata": new_discogs_metadata,
+        }
+
+        # format as YAML
+        yaml_text = yaml.dump(metadata, sort_keys=False)
+        return yaml_text
+
+
+@gin.configurable
+class DiscotubeTextAudioDataModule(L.LightningDataModule):
+    """AudioDataModule for the Discogs dataset."""
+
+    def __init__(
+        self,
+        batch_size: int,
+        data_dir: Path,
+        filelist_train: Path,
+        filelist_val: Path,
+        metadata_youtube_file: Path,
+        metadata_discogs_file: Path,
+        metadata_id_map_file: Path,
+        num_workers: int,
+    ):
+        super().__init__()
+
+        self.batch_size = batch_size
+
+        self.data_dir = Path(data_dir)
+        self.filelist_train = Path(filelist_train)
+        self.filelist_val = Path(filelist_val)
+
+        self.num_workers = num_workers
+
+        self.metadata_youtube_file = metadata_youtube_file
+        self.metadata_discogs_file = metadata_discogs_file
+        self.metadata_id_map_file = metadata_id_map_file
+
+    def setup(self, stage: str):
+        # load YouTube metadata from jsonl (one json object per line)
+        self.metadata_youtube = dict()
+        with open(self.metadata_youtube_file, "r") as f:
+            for line in tqdm(f.readlines(), desc="Loading YouTube metadata"):
+                line = json.loads(line)
+                self.metadata_youtube[line["id"]] = line
+
+        # load Discogs metadata from jsonl (one json object per line)
+        self.metadata_discogs = dict()
+        with open(self.metadata_discogs_file, "r") as f:
+            for line in tqdm(f.readlines(), desc="Loading Discogs metadata"):
+                line = json.loads(line)
+                self.metadata_discogs[line["id"]] = line
+
+        # load the id map from jsonl (one json object per line)
+        self.metadata_id_map = dict()
+        with open(self.metadata_id_map_file, "r") as f:
+            for line in tqdm(f.readlines(), desc="Loading ID map"):
+                line = json.loads(line)
+                for k, v in line.items():
+                    self.metadata_id_map[k] = v
+
+        self.dataset_train = DiscotubeTextAudioDataset(
+            self.data_dir,
+            filelist=self.filelist_train,
+            metadata_youtube=self.metadata_youtube,
+            metadata_discogs=self.metadata_discogs,
+            metadata_id_map=self.metadata_id_map,
+        )
+        self.dataset_val = DiscotubeTextAudioDataset(
+            self.data_dir,
+            filelist=self.filelist_val,
+            metadata_youtube=self.metadata_youtube,
+            metadata_discogs=self.metadata_discogs,
+            metadata_id_map=self.metadata_id_map,
+        )
+
+    def train_dataloader(self):
+        return DataLoader(
+            self.dataset_train,
+            batch_size=self.batch_size,
+            num_workers=self.num_workers,
+            pin_memory=True,
+        )
+
+    def val_dataloader(self):
+        return DataLoader(
+            self.dataset_val,
+            batch_size=self.batch_size,
+            num_workers=self.num_workers,
+            pin_memory=True,
+        )
diff --git a/src/modules/clap.py b/src/modules/clap.py
diff --git a/src/train_clap.py b/src/train_clap.py