Add two variants of the SSL multi-view model

palonso · palonso · commit 0ecbd6e203ad · 2025-05-13T13:58:22.000+02:00
- with higher time resolution (25Hz)
- using shufled input insteaad of random noise
diff --git a/cfg/config_masking_conformer_multiview_au_to_all_large_25hz.gin b/cfg/config_masking_conformer_multiview_au_to_all_large_25hz.gin
@@ -0,0 +1,123 @@
+# general training parameters
+train.wandb_params = {
+    "project": "mtg-ssl",
+    "name": "mask_conformer_large_mv_au_to_all_25hz",
+    "offline": True,
+    # NOTE: path to logs in the BSC cluster. Change it for local experiments
+    "save_dir": "/gpfs/projects/upf97/logs/",
+    "entity": "mtg-upf",
+    "group": "masking_conformer",
+}
+
+# modules to use
+build_module.representation = [@nets.cqt.CQT, @nets.encodec.EnCodec, @nets.melspectrogram.MelSpectrogram, @nets.waveform.Waveform]
+build_module.module = @modules.maskingmodel.MaskingModel
+build_module.net = @nets.conformer.Conformer
+
+# Choose the devalopment dataloader
+build_dev_datamodule.datamodule = @discotube
+
+# Lighting trainer parameters
+train.params = {
+    "accelerator": "gpu",
+    "devices": 4,
+    "num_nodes": 2,
+    "max_steps": 400000,
+    "log_every_n_steps": 50,
+    "precision": "bf16-mixed",
+    "strategy": "ddp_find_unused_parameters_true",
+    "num_sanity_val_steps": 0
+}
+
+new_freq = 24000
+
+# Dataloader
+AudioDataset.num_frames = 480000 # 30s
+AudioDataset.orig_freq = 16000
+AudioDataset.new_freq = %new_freq
+AudioDataset.mono = True
+AudioDataset.half_precision = True
+AudioDataModule.num_workers = 20
+
+# Discogs datamodule parameters
+DiscotubeAudioDataModule.batch_size = 20
+DiscotubeAudioDataModule.data_dir = "/gpfs/scratch/upf97/mmap/"
+DiscotubeAudioDataModule.filelist_train = "/gpfs/projects/upf97/data/train_mmap.txt"
+DiscotubeAudioDataModule.filelist_val = "/gpfs/projects/upf97/data/test_mmap.txt"
+
+# CosineAnnealing scheduler
+CosineAnnealingCallback.warmup_steps = 30000
+CosineAnnealingCallback.eta_min = 1e-7
+
+# MelSpectrogram parameters
+nets.melspectrogram.MelSpectrogram.sr = %new_freq
+nets.melspectrogram.MelSpectrogram.win_len = 512
+nets.melspectrogram.MelSpectrogram.hop_len = 320
+nets.melspectrogram.MelSpectrogram.power = 2
+nets.melspectrogram.MelSpectrogram.n_mel = 96
+nets.melspectrogram.MelSpectrogram.norm = "slaney"
+nets.melspectrogram.MelSpectrogram.mel_scale = "slaney"
+nets.melspectrogram.MelSpectrogram.norm_std = 1.268292820667291
+nets.melspectrogram.MelSpectrogram.norm_mean = 2.06755686098554
+nets.melspectrogram.MelSpectrogram.patch_size = (96, 3)
+
+# CQT parameters
+nets.cqt.CQT.sr = %new_freq
+nets.cqt.CQT.hop_len = 320
+nets.cqt.CQT.power = 2
+nets.cqt.CQT.bins_per_octave = 24
+nets.cqt.CQT.n_bins = 188  # 6 octaves * 24 bins
+nets.cqt.CQT.f_min = 32.703  # C0
+nets.cqt.CQT.magnitude = True
+nets.cqt.CQT.logC = True
+nets.cqt.CQT.norm_std = 1.9055732535255916
+nets.cqt.CQT.norm_mean = 4.754879065310596
+nets.cqt.CQT.patch_size = (188, 3)
+
+# Waveform parameters
+nets.waveform.Waveform.sr = %new_freq
+nets.waveform.Waveform.norm_std = None
+nets.waveform.Waveform.norm_mean = None
+nets.waveform.Waveform.patch_size = (1, 960) # 16ms
+
+# data augmentation
+nets.melspectrogram.MelSpectrogram.stretch_factor = 1
+nets.melspectrogram.MelSpectrogram.freq_mask_param = 0
+nets.melspectrogram.MelSpectrogram.time_mask_param = 0
+
+# Encodec parameters
+nets.encodec.EnCodec.weights_path = "/gpfs/scratch/upf97/model_weights/encodec_24khz/"
+nets.encodec.EnCodec.norm_type = "global"
+nets.encodec.EnCodec.stats_path = "/gpfs/scratch/upf97/dataset_stats/discotube23/input_stats_1K_steps.json"
+nets.encodec.EnCodec.orig_sr = %new_freq
+nets.encodec.EnCodec.patch_size = (128, 3)
+
+# MaskingModel parameters
+modules.maskingmodel.MaskingModel.num_codebooks = 1
+modules.maskingmodel.MaskingModel.lr = 1e-4
+modules.maskingmodel.MaskingModel.weight_decay = 1e-2
+modules.maskingmodel.MaskingModel.codebook_size = 8196
+modules.maskingmodel.MaskingModel.codebook_dim = 16
+modules.maskingmodel.MaskingModel.mask_seconds = 0.4
+modules.maskingmodel.MaskingModel.mask_prob = 0.6
+modules.maskingmodel.MaskingModel.seed = 0
+modules.maskingmodel.MaskingModel.plot_tokens = False
+modules.maskingmodel.MaskingModel.diff_input = False
+modules.maskingmodel.MaskingModel.input_representation = @nets.waveform.Waveform
+
+# Transformer parameters
+nets.conformer.Conformer.embed_dim = 1024
+nets.conformer.Conformer.depth = 24
+nets.conformer.Conformer.conv_kernel_size = 5
+nets.conformer.Conformer.num_heads = 8
+nets.conformer.Conformer.mlp_ratio = 4.0
+nets.conformer.Conformer.mlp_residual_factor = 4.0
+nets.conformer.Conformer.dropout = 0.2
+nets.conformer.Conformer.input_dropout = 0.0
+nets.conformer.Conformer.use_deepnorm = True
+nets.conformer.Conformer.alpha_deepnorm =  2.6321480259049848 # we can tune this number
+nets.conformer.Conformer.beta_deepnorm = 0.022386873579657126 # we can tune this number
+nets.conformer.Conformer.use_rope = True
+nets.conformer.Conformer.num_patches = None
+
+
diff --git a/cfg/config_masking_conformer_multiview_au_to_all_large_shuffle_mask.gin b/cfg/config_masking_conformer_multiview_au_to_all_large_shuffle_mask.gin
@@ -0,0 +1,122 @@
+# general training parameters
+train.wandb_params = {
+    "project": "mtg-ssl",
+    "name": "mask_conformer_large_mv_au_to_all_shuffle_mask",
+    "offline": True,
+    # NOTE: path to logs in the BSC cluster. Change it for local experiments
+    "save_dir": "/gpfs/projects/upf97/logs/",
+    "entity": "mtg-upf",
+    "group": "masking_conformer",
+}
+
+# modules to use
+build_module.representation = [@nets.cqt.CQT, @nets.encodec.EnCodec, @nets.melspectrogram.MelSpectrogram, @nets.waveform.Waveform]
+build_module.module = @modules.maskingmodel.MaskingModel
+build_module.net = @nets.conformer.Conformer
+
+# Choose the devalopment dataloader
+build_dev_datamodule.datamodule = @discotube
+
+# Lighting trainer parameters
+train.params = {
+    "accelerator": "gpu",
+    "devices": 4,
+    "num_nodes": 2,
+    "max_steps": 400000,
+    "log_every_n_steps": 50,
+    "precision": "bf16-mixed",
+    "strategy": "ddp_find_unused_parameters_true",
+    "num_sanity_val_steps": 0
+}
+
+new_freq = 24000
+
+# Dataloader
+AudioDataset.num_frames = 480000 # 30s
+AudioDataset.orig_freq = 16000
+AudioDataset.new_freq = %new_freq
+AudioDataset.mono = True
+AudioDataset.half_precision = True
+AudioDataModule.num_workers = 20
+
+# Discogs datamodule parameters
+DiscotubeAudioDataModule.batch_size = 32
+DiscotubeAudioDataModule.data_dir = "/gpfs/scratch/upf97/mmap/"
+DiscotubeAudioDataModule.filelist_train = "/gpfs/projects/upf97/data/train_mmap.txt"
+DiscotubeAudioDataModule.filelist_val = "/gpfs/projects/upf97/data/test_mmap.txt"
+
+# CosineAnnealing scheduler
+CosineAnnealingCallback.warmup_steps = 30000
+CosineAnnealingCallback.eta_min = 1e-7
+
+# MelSpectrogram parameters
+nets.melspectrogram.MelSpectrogram.sr = %new_freq
+nets.melspectrogram.MelSpectrogram.win_len = 512
+nets.melspectrogram.MelSpectrogram.hop_len = 320
+nets.melspectrogram.MelSpectrogram.power = 2
+nets.melspectrogram.MelSpectrogram.n_mel = 96
+nets.melspectrogram.MelSpectrogram.norm = "slaney"
+nets.melspectrogram.MelSpectrogram.mel_scale = "slaney"
+nets.melspectrogram.MelSpectrogram.norm_std = 1.268292820667291
+nets.melspectrogram.MelSpectrogram.norm_mean = 2.06755686098554
+nets.melspectrogram.MelSpectrogram.patch_size = (96, 4)
+
+# CQT parameters
+nets.cqt.CQT.sr = %new_freq
+nets.cqt.CQT.hop_len = 320
+nets.cqt.CQT.power = 2
+nets.cqt.CQT.bins_per_octave = 24
+nets.cqt.CQT.n_bins = 188  # 6 octaves * 24 bins
+nets.cqt.CQT.f_min = 32.703  # C0
+nets.cqt.CQT.magnitude = True
+nets.cqt.CQT.logC = True
+nets.cqt.CQT.norm_std = 1.9055732535255916
+nets.cqt.CQT.norm_mean = 4.754879065310596
+nets.cqt.CQT.patch_size = (188, 4)
+
+# Waveform parameters
+nets.waveform.Waveform.sr = %new_freq
+nets.waveform.Waveform.norm_std = None
+nets.waveform.Waveform.norm_mean = None
+nets.waveform.Waveform.patch_size = (1, 1280) # 16ms
+
+# data augmentation
+nets.melspectrogram.MelSpectrogram.stretch_factor = 1
+nets.melspectrogram.MelSpectrogram.freq_mask_param = 0
+nets.melspectrogram.MelSpectrogram.time_mask_param = 0
+
+# Encodec parameters
+nets.encodec.EnCodec.weights_path = "/gpfs/scratch/upf97/model_weights/encodec_24khz/"
+nets.encodec.EnCodec.norm_type = "global"
+nets.encodec.EnCodec.stats_path = "/gpfs/scratch/upf97/dataset_stats/discotube23/input_stats_1K_steps.json"
+nets.encodec.EnCodec.orig_sr = %new_freq
+nets.encodec.EnCodec.patch_size = (128, 4)
+
+# MaskingModel parameters
+modules.maskingmodel.MaskingModel.num_codebooks = 1
+modules.maskingmodel.MaskingModel.lr = 1e-4
+modules.maskingmodel.MaskingModel.weight_decay = 1e-2
+modules.maskingmodel.MaskingModel.codebook_size = 8196
+modules.maskingmodel.MaskingModel.codebook_dim = 16
+modules.maskingmodel.MaskingModel.mask_seconds = 0.4
+modules.maskingmodel.MaskingModel.mask_prob = 0.6
+modules.maskingmodel.MaskingModel.seed = 0
+modules.maskingmodel.MaskingModel.plot_tokens = False
+modules.maskingmodel.MaskingModel.diff_input = False
+modules.maskingmodel.MaskingModel.input_representation = @nets.waveform.Waveform
+modules.maskingmodel.MaskingModel.masking_noise_type = "shuffled_input"
+
+# Transformer parameters
+nets.conformer.Conformer.embed_dim = 1024
+nets.conformer.Conformer.depth = 24
+nets.conformer.Conformer.conv_kernel_size = 5
+nets.conformer.Conformer.num_heads = 8
+nets.conformer.Conformer.mlp_ratio = 4.0
+nets.conformer.Conformer.mlp_residual_factor = 4.0
+nets.conformer.Conformer.dropout = 0.2
+nets.conformer.Conformer.input_dropout = 0.0
+nets.conformer.Conformer.use_deepnorm = True
+nets.conformer.Conformer.alpha_deepnorm =  2.6321480259049848 # we can tune this number
+nets.conformer.Conformer.beta_deepnorm = 0.022386873579657126 # we can tune this number
+nets.conformer.Conformer.use_rope = True
+nets.conformer.Conformer.num_patches = None
diff --git a/slurm/masking_conformer_multiview_au_to_all_large_25hz.sh b/slurm/masking_conformer_multiview_au_to_all_large_25hz.sh
@@ -0,0 +1,23 @@
+#!/bin/bash
+
+#SBATCH --job-name a2a_large_25hz
+#SBATCH --account=upf97
+#SBATCH --partition=acc
+#SBATCH --qos=acc_resa
+#SBATCH --nodes=2 # This needs to match Trainer(num_nodes=...)
+#SBATCH --cpus-per-task=20
+#SBATCH --gres=gpu:4
+#SBATCH --ntasks-per-node=4
+#SBATCH --time=72:00:00
+#SBATCH --output=debug_%j_output.txt
+#SBATCH --mail-type=all
+#SBATCH --mail-user=pablo.alonso@upf.edu
+# interrrupt and resubmit 90 seconds before training ends (experimental)
+# https://pytorch-lightning.readthedocs.io/en/1.2.10/clouds/slurm.html#wall-time-auto-resubmit
+# SBATCH --signal=SIGUSR1@90
+
+export SRUN_CPUS_PER_TASK=$SLURM_CPUS_PER_TASK
+
+source /gpfs/projects/upf97/envs/mtg-bsc/bin/activate
+
+srun python3 src/train.py cfg/config_masking_conformer_multiview_au_to_all_large_25hz.gin
diff --git a/slurm/masking_conformer_multiview_au_to_all_large_shuffle_mask.sh b/slurm/masking_conformer_multiview_au_to_all_large_shuffle_mask.sh
@@ -0,0 +1,23 @@
+#!/bin/bash
+
+#SBATCH --job-name a2a
+#SBATCH --account=upf97
+#SBATCH --partition=acc
+#SBATCH --qos=acc_resa
+#SBATCH --nodes=2 # This needs to match Trainer(num_nodes=...)
+#SBATCH --cpus-per-task=20
+#SBATCH --gres=gpu:4
+#SBATCH --ntasks-per-node=4
+#SBATCH --time=72:00:00
+#SBATCH --output=debug_%j_output.txt
+#SBATCH --mail-type=all
+#SBATCH --mail-user=pablo.alonso@upf.edu
+# interrrupt and resubmit 90 seconds before training ends (experimental)
+# https://pytorch-lightning.readthedocs.io/en/1.2.10/clouds/slurm.html#wall-time-auto-resubmit
+# SBATCH --signal=SIGUSR1@90
+
+export SRUN_CPUS_PER_TASK=$SLURM_CPUS_PER_TASK
+
+source /gpfs/projects/upf97/envs/mtg-bsc/bin/activate
+
+srun python3 src/train.py cfg/config_masking_conformer_multiview_au_to_all_large_shuffle_mask.gin
diff --git a/src/modules/maskingmodel.py b/src/modules/maskingmodel.py
@@ -44,6 +44,7 @@ def __init__(
         diff_input: bool,
         plot_tokens: bool = False,
         input_representation: nn.Module | None = None,
+        masking_noise_type: str = "random_normal",
     ):
         super(MaskingModel, self).__init__()
 
@@ -62,6 +63,7 @@ def __init__(
         self.first_coverage = True
         self.diff_input = diff_input
         self.input_representation = input_representation
+        self.masking_noise_type = masking_noise_type
 
         # downstream evaluation params
         self.downstream_embedding_layer = set([-1])
@@ -263,7 +265,7 @@ def random_masking_simple(self, patches):
         return masked_spec, mask.to(patches.device)
 
     def random_masking(self, patches):
-        B, num_patches, patch_size = patches.shape
+        B, num_patches, _ = patches.shape
         mx = patches.clone()
 
         len_masking_spec_frames = math.ceil(
@@ -285,10 +287,19 @@ def random_masking(self, patches):
         if mask.size(1) > num_patches:
             mask = mask[:, :num_patches]
 
-        # Mask with random values
-        masking_noise = (torch.randn(mx.shape, dtype=patches.dtype) * 0.1).to(
-            patches.device
-        )  # 0 mean 0.1 std
+        if self.masking_noise_type == "random_normal":
+            # Mask with random values
+            masking_noise = (torch.randn(mx.shape, dtype=patches.dtype) * 0.1).to(
+                patches.device
+            )  # 0 mean 0.1 std
+        elif self.masking_noise_type == "shuffled_input":
+            # make a copy of patches shuffled on the time axis
+            masking_noise = patches[:, torch.randperm(num_patches), :]
+        else:
+            raise NotImplementedError(
+                f"Masking noise type {self.masking_noise_type} not implemented."
+            )
+
         # Apply masking in parallel
         mx[mask] = masking_noise[mask]
         # tensor 1 x N repeat to 16 x N