MTG
diff --git a/‎.gitignore‎
Lines changed: 2 additions & 0 deletions b/‎.gitignore‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎cfg/config_text_audio_dev.gin‎
Lines changed: 0 additions & 59 deletions b/‎cfg/config_text_audio_dev.gin‎
Lines changed: 0 additions & 59 deletions
diff --git a/‎cfg/downstream/chords.gin‎
Lines changed: 86 additions & 0 deletions b/‎cfg/downstream/chords.gin‎
Lines changed: 86 additions & 0 deletions
diff --git a/‎cfg/downstream/gtzan_zsl.gin‎
Lines changed: 41 additions & 0 deletions b/‎cfg/downstream/gtzan_zsl.gin‎
Lines changed: 41 additions & 0 deletions
diff --git a/‎cfg/downstream/nsynth_pitch.gin‎
Lines changed: 16 additions & 14 deletions b/‎cfg/downstream/nsynth_pitch.gin‎
Lines changed: 16 additions & 14 deletions
diff --git a/‎cfg/downstream/nsynth_pitch_l11.gin‎
Lines changed: 84 additions & 0 deletions b/‎cfg/downstream/nsynth_pitch_l11.gin‎
Lines changed: 84 additions & 0 deletions
@@ -10,3 +10,5 @@ checkpoints/
 /figs/
 
 /venv/
+
+build/
@@ -0,0 +1,86 @@
+dataset_name = "chords_data"
+embeddings_dir = "/gpfs/projects/upf97/embeddings_ssl/"
+
+# Lighting Trainer parameters, overwrites the training config
+predict.device_dict = {
+	"accelerator": "gpu",
+	"devices": 1,
+  "num_nodes": 1,
+}
+
+# Embedding taking location from the neural network
+predict.embedding_layer = [6, 11]
+predict.overlap_ratio = 0.5
+
+predict.embeddings_dir = %embeddings_dir
+predict.dataset_name = %dataset_name
+
+# Audio Loader for embedding extraction
+AudioEmbeddingDataModule.data_dir = "/gpfs/projects/upf97/downstream_datasets/chords_data/"
+AudioEmbeddingDataModule.file_format = "mp3"
+AudioEmbeddingDataModule.num_workers = 20
+AudioEmbeddingDataModule.batch_size = 32
+AudioEmbeddingDataModule.overlap_ratio = 0.5
+AudioEmbeddingDataModule.n_seconds = 30
+AudioEmbeddingDataModule.last_chunk_ratio = 0.1
+
+
+build_module_and_datamodule.dataset_name = %dataset_name
+build_module_and_datamodule.embeddings_dir = %embeddings_dir
+
+MTTEmbeddingLoadingDataModule.gt_path = "/data0/palonso/ssl-mtg/downstream_datasets/magnatagatune/metadata/mtat/binary.npy"
+MTTEmbeddingLoadingDataModule.train_filelist = "/data0/palonso/ssl-mtg/downstream_datasets/magnatagatune/metadata/mtat/train.npy"
+MTTEmbeddingLoadingDataModule.val_filelist = "/data0/palonso/ssl-mtg/downstream_datasets/magnatagatune/metadata/mtat/valid.npy"
+MTTEmbeddingLoadingDataModule.test_filelist = "/data0/palonso/ssl-mtg/downstream_datasets/magnatagatune/metadata/mtat/test.npy"
+MTTEmbeddingLoadingDataModule.batch_size = 64
+MTTEmbeddingLoadingDataModule.num_workers = 10
+MTTEmbeddingLoadingDataModule.layer_aggregation = "none"
+MTTEmbeddingLoadingDataModule.granularity = "chunk"
+MTTEmbeddingLoadingDataModule.time_aggregation = "mean"
+
+train_probe.wandb_params = {
+    "project": "magnatagatune",
+    "offline": False,
+    "entity": "mtg-upf",
+    "save_dir": "/data0/palonso/ssl-mtg/logs/",
+}
+
+train_probe.train_params = {
+    "accelerator": "gpu",
+    "devices": 1,
+    "log_every_n_steps": 50,
+    "max_steps": 20000,
+    "num_sanity_val_steps": 0,
+    "check_val_every_n_epoch": 1,
+}
+train_probe.monitor = "val-MAP-macro"
+train_probe.monitor_mode = "max"
+
+optimize_probe.bound_conditions = {
+    "hidden_size": (64, 1024),
+    "dropout": (0.0, 0.5),
+    "lr": (1e-5, 1e-3),
+}
+# Other parameters to optimize:
+# "max_epochs": (10, 100)
+# "batch_size": (32, 128)
+
+optimize_probe.optim_process = False
+optimize_probe.init_points = 5
+optimize_probe.n_iter = 50
+optimize_probe.seed = 1
+
+# Warning: these parameters are ignored when the the Bayesian optimization is enabled
+SequenceMultiLabelClassificationProbe.num_layers = 2
+SequenceMultiLabelClassificationProbe.hidden_size = 512
+SequenceMultiLabelClassificationProbe.dropout = 0.2
+SequenceMultiLabelClassificationProbe.lr = 0.0001
+
+SequenceMultiLabelClassificationProbe.activation = "relu"
+SequenceMultiLabelClassificationProbe.bias = True
+SequenceMultiLabelClassificationProbe.num_labels = 50
+SequenceMultiLabelClassificationProbe.labels = "/data0/palonso/ssl-mtg/downstream_datasets/magnatagatune/metadata/mtat/tags.npy"
+
+# CosineAnnealing scheduler
+CosineAnnealingCallback.warmup_steps = 2000
+CosineAnnealingCallback.eta_min = 1e-7
@@ -0,0 +1,41 @@
+dataset_name = "gtzan_zsl"
+embeddings_dir = "/home/upf/upf825634/embeddings/"
+
+# Lighting Trainer parameters, overwrites the training config
+predict.device_dict = {
+	"accelerator": "gpu",
+	"devices": 1,
+}
+
+predict.overlap_ratio = 1
+
+predict.embeddings_dir = %embeddings_dir
+predict.dataset_name = %dataset_name
+
+# Audio Loader for embedding extraction
+AudioEmbeddingDataModule.data_dir = "/gpfs/home/upf/upf825634/datasets/gtzan/22kmono"
+AudioEmbeddingDataModule.file_format = "wav"
+AudioEmbeddingDataModule.orig_freq = 22050
+AudioEmbeddingDataModule.num_workers = 6
+AudioEmbeddingDataModule.batch_size = 64
+AudioEmbeddingDataModule.overlap_ratio = 0
+AudioEmbeddingDataModule.num_frames = 66150
+
+
+build_module_and_datamodule.dataset_name = %dataset_name
+build_module_and_datamodule.embeddings_dir = %embeddings_dir
+GTZANEmbeddingLoadingDataModule.filelist = "/gpfs/home/upf/upf825634/data/gtzan/metadata/gtzan_filelist.txt"
+GTZANEmbeddingLoadingDataModule.batch_size = 64
+GTZANEmbeddingLoadingDataModule.num_workers = 0
+GTZANEmbeddingLoadingDataModule.layer_aggregation = "none"
+GTZANEmbeddingLoadingDataModule.granularity = "chunk"
+GTZANEmbeddingLoadingDataModule.time_aggregation = "mean"
+
+train_probe.train_params = {
+    "accelerator": "gpu",
+    "devices": 1,
+    "log_every_n_steps": 50,
+    "max_steps": 50000,
+    "num_sanity_val_steps": 0,
+    "check_val_every_n_epoch": 1,
+}
@@ -1,10 +1,11 @@
 dataset_name = "nsynth"
-embeddings_dir = "/data0/palonso/ssl-mtg/embeddings/"
+embeddings_dir = "/gpfs/scratch/upf97/embeddings/"
 
 # Lighting Trainer parameters, overwrites the training config
 predict.device_dict = {
 	"accelerator": "gpu",
 	"devices": 1,
+  "num_nodes": 1,
 }
 
 # Embedding taking location from the neural network
@@ -15,39 +16,39 @@ predict.embeddings_dir = %embeddings_dir
 predict.dataset_name = %dataset_name
 
 # Audio Loader for embedding extraction
-AudioEmbeddingDataModule.data_dir = "/data0/palonso/ssl-mtg/downstream_datasets/nsynth/"
+AudioEmbeddingDataModule.data_dir = "/gpfs/projects/upf97/downstream_datasets/nsynth/"
 AudioEmbeddingDataModule.file_format = "wav"
-AudioEmbeddingDataModule.orig_freq = 16000
 AudioEmbeddingDataModule.num_workers = 20
 AudioEmbeddingDataModule.batch_size = 128
 AudioEmbeddingDataModule.overlap_ratio = 0.5
-AudioEmbeddingDataModule.num_frames = 480000
+AudioEmbeddingDataModule.n_seconds = 4
+AudioEmbeddingDataModule.last_chunk_ratio = 0.1
 
 
 build_module_and_datamodule.dataset_name = %dataset_name
 build_module_and_datamodule.embeddings_dir = %embeddings_dir
 
-NSynthPitchEmbeddingLoadingDataModule.train_filelist = "/data0/palonso/ssl-mtg/downstream_datasets/nsynth/metadata/nsynth_filelist_train.txt"
-NSynthPitchEmbeddingLoadingDataModule.val_filelist = "/data0/palonso/ssl-mtg/downstream_datasets/nsynth/metadata/nsynth_filelist_valid.txt"
-NSynthPitchEmbeddingLoadingDataModule.test_filelist = "/data0/palonso/ssl-mtg/downstream_datasets/nsynth/metadata/nsynth_filelist_test.txt"
-NSynthPitchEmbeddingLoadingDataModule.batch_size = 64
-NSynthPitchEmbeddingLoadingDataModule.num_workers = 0
+NSynthPitchEmbeddingLoadingDataModule.train_filelist = "/gpfs/projects/upf97/downstream_datasets/nsynth/metadata/nsynth_filelist_train.txt"
+NSynthPitchEmbeddingLoadingDataModule.val_filelist = "/gpfs/projects/upf97/downstream_datasets/nsynth/metadata/nsynth_filelist_valid.txt"
+NSynthPitchEmbeddingLoadingDataModule.test_filelist = "/gpfs/projects/upf97/downstream_datasets/nsynth/metadata/nsynth_filelist_test.txt"
+NSynthPitchEmbeddingLoadingDataModule.batch_size = 32
+NSynthPitchEmbeddingLoadingDataModule.num_workers = 10
 NSynthPitchEmbeddingLoadingDataModule.layer_aggregation = "none"
 NSynthPitchEmbeddingLoadingDataModule.granularity = "chunk"
 NSynthPitchEmbeddingLoadingDataModule.time_aggregation = "mean"
 
 train_probe.wandb_params = {
     "project": "nsynth",
-    "offline": False,
+    "offline": True,
     "entity": "mtg-upf",
-    "save_dir": "/data0/palonso/ssl-mtg/logs/",
+    "save_dir": "/gpfs/projects/upf97/logs/",
 }
 
 train_probe.train_params = {
     "accelerator": "gpu",
     "devices": 1,
     "log_every_n_steps": 50,
-    "max_steps": 50000,
+    "max_steps": 100000,
     "num_sanity_val_steps": 0,
     "check_val_every_n_epoch": 1,
 }
@@ -71,8 +72,9 @@ optimize_probe.seed = 1
 # Warning: these parameters are ignored when the the Bayesian optimization is enabled
 SequenceClassificationProbe.num_layers = 2
 SequenceClassificationProbe.hidden_size = 512
-SequenceClassificationProbe.dropout = 0.2
-SequenceClassificationProbe.lr = 0.0001
+SequenceClassificationProbe.dropout = 0.0
+SequenceClassificationProbe.lr = 0.001
+
 SequenceClassificationProbe.activation = "relu"
 SequenceClassificationProbe.bias = True
 SequenceClassificationProbe.num_labels = 128
 
@@ -0,0 +1,84 @@
+dataset_name = "nsynth"
+embeddings_dir = "/gpfs/scratch/upf97/embeddings/"
+
+# Lighting Trainer parameters, overwrites the training config
+predict.device_dict = {
+	"accelerator": "gpu",
+	"devices": 1,
+  "num_nodes": 1,
+}
+
+# Embedding taking location from the neural network
+predict.embedding_layer = [11]
+predict.overlap_ratio = 0.5
+
+predict.embeddings_dir = %embeddings_dir
+predict.dataset_name = %dataset_name
+
+# Audio Loader for embedding extraction
+AudioEmbeddingDataModule.data_dir = "/gpfs/projects/upf97/downstream_datasets/nsynth/"
+AudioEmbeddingDataModule.file_format = "wav"
+AudioEmbeddingDataModule.num_workers = 20
+AudioEmbeddingDataModule.batch_size = 128
+AudioEmbeddingDataModule.overlap_ratio = 0.5
+AudioEmbeddingDataModule.n_seconds = 4
+AudioEmbeddingDataModule.last_chunk_ratio = 0.1
+
+
+build_module_and_datamodule.dataset_name = %dataset_name
+build_module_and_datamodule.embeddings_dir = %embeddings_dir
+
+NSynthPitchEmbeddingLoadingDataModule.train_filelist = "/gpfs/projects/upf97/downstream_datasets/nsynth/metadata/nsynth_filelist_train.txt"
+NSynthPitchEmbeddingLoadingDataModule.val_filelist = "/gpfs/projects/upf97/downstream_datasets/nsynth/metadata/nsynth_filelist_valid.txt"
+NSynthPitchEmbeddingLoadingDataModule.test_filelist = "/gpfs/projects/upf97/downstream_datasets/nsynth/metadata/nsynth_filelist_test.txt"
+NSynthPitchEmbeddingLoadingDataModule.batch_size = 64
+NSynthPitchEmbeddingLoadingDataModule.num_workers = 10
+NSynthPitchEmbeddingLoadingDataModule.layer_aggregation = "none"
+NSynthPitchEmbeddingLoadingDataModule.granularity = "chunk"
+NSynthPitchEmbeddingLoadingDataModule.time_aggregation = "mean"
+
+train_probe.wandb_params = {
+    "project": "nsynth",
+    "offline": True,
+    "entity": "mtg-upf",
+    "save_dir": "/gpfs/projects/upf97/logs/",
+}
+
+train_probe.train_params = {
+    "accelerator": "gpu",
+    "devices": 1,
+    "log_every_n_steps": 50,
+    "max_steps": 20000,
+    "num_sanity_val_steps": 0,
+    "check_val_every_n_epoch": 1,
+}
+train_probe.monitor = "val-acc"
+train_probe.monitor_mode = "max"
+
+optimize_probe.bound_conditions = {
+    "hidden_size": (64, 1024),
+    "dropout": (0.0, 0.5),
+    "lr": (1e-5, 1e-3),
+}
+# Other parameters to optimize:
+# "max_epochs": (10, 100)
+# "batch_size": (32, 128)
+
+optimize_probe.optim_process = False
+optimize_probe.init_points = 5
+optimize_probe.n_iter = 50
+optimize_probe.seed = 1
+
+# Warning: these parameters are ignored when the the Bayesian optimization is enabled
+SequenceClassificationProbe.num_layers = 2
+SequenceClassificationProbe.hidden_size = 512
+SequenceClassificationProbe.dropout = 0.2
+SequenceClassificationProbe.lr = 0.0001
+
+SequenceClassificationProbe.activation = "relu"
+SequenceClassificationProbe.bias = True
+SequenceClassificationProbe.num_labels = 128
+
+# CosineAnnealing scheduler
+CosineAnnealingCallback.warmup_steps = 2000
+CosineAnnealingCallback.eta_min = 1e-7
-Original file line number
+Diff line change
 /figs/
 /venv/
++
 +build/