MTG · PRamoneda · Aug 30, 2024 · Aug 30, 2024 · Aug 30, 2024 · Aug 30, 2024
diff --git a/.gitignore b/.gitignore
@@ -8,5 +8,7 @@ checkpoints/
 .idea/
 
 /figs/
+/src/probe/visualize_probe/embedding_structure/
+/src/probe/visualize_probe/embedding_structure/
 
 /venv/
diff --git a/cfg/downstream/structure.gin b/cfg/downstream/structure.gin
@@ -0,0 +1,72 @@
+dataset_name = "harmonix"
+overlap_ratio = 0.1
+embeddings_dir = "/gpfs/scratch/upf97/embeddings/"
+
+# Lighting Trainer parameters, overwrites the training config
+predict.device_dict = {
+	"accelerator": "gpu",
+	"devices": 1,
+}
+
+# Embedding taking location from the neural network
+predict.embedding_layer = [6]
+
+predict.embeddings_dir = %embeddings_dir
+predict.dataset_name = %dataset_name
+predict.overlap_ratio = %overlap_ratio
+
+
+# Audio Loader for embedding extraction
+AudioEmbeddingDataModule.data_dir = "/gpfs/projects/upf97/downstream_datasets/harmonix/tracks"
+AudioEmbeddingDataModule.file_format = "mp3"
+AudioEmbeddingDataModule.orig_freq = 44100
+AudioEmbeddingDataModule.new_freq = 16000 # TODO read from train cfg
+AudioEmbeddingDataModule.mono = True # TODO read from train cfg
+AudioEmbeddingDataModule.half_precision = True # TODO read from train cfg
+AudioEmbeddingDataModule.num_workers = 20
+AudioEmbeddingDataModule.overlap_ratio = %overlap_ratio
+AudioEmbeddingDataModule.patch_size_sec = 30
+
+
+build_module_and_datamodule.dataset_name = %dataset_name
+build_module_and_datamodule.embeddings_dir = %embeddings_dir
+
+HarmonixEmbeddingLoadingDataModule.gt_path =  "data/harmonix/segments_norm"
+HarmonixEmbeddingLoadingDataModule.train_filelist = "data/harmonix/train.txt"
+HarmonixEmbeddingLoadingDataModule.val_filelist = "data/harmonix/validation.txt"
+HarmonixEmbeddingLoadingDataModule.test_filelist = "data/harmonix/test.txt"
+HarmonixEmbeddingLoadingDataModule.batch_size = 128
+HarmonixEmbeddingLoadingDataModule.num_frames_aggregate = 3
+HarmonixEmbeddingLoadingDataModule.num_workers = 16
+HarmonixEmbeddingLoadingDataModule.overlap = 0.1
+HarmonixEmbeddingLoadingDataModule.precompute = True
+
+train_probe.wandb_params = {
+    "project": "structure",
+    "name": "structure_50k_d001",
+    "offline": True,
+    "entity": "mtg-upf",
+    "save_dir": "/gpfs/projects/upf97/logs/"
+}
+
+train_probe.train_params = {
+    "accelerator": "gpu",
+    "devices": 1,
+    "log_every_n_steps": 10,
+    "max_steps": 50000,
+    "num_sanity_val_steps": 0,
+    "val_check_interval": 500,
+    "check_val_every_n_epoch": None
+}
+
+
+probe.modules.structure_probe.StructureClassProbe.num_classes = 7 # TODO
+probe.modules.structure_probe.StructureClassProbe.hidden_size = 512
+probe.modules.structure_probe.StructureClassProbe.bias = True
+probe.modules.structure_probe.StructureClassProbe.dropout = 0.001
+probe.modules.structure_probe.StructureClassProbe.lr = 0.0001
+probe.modules.structure_probe.StructureClassProbe.num_aggregations = 3
+probe.modules.structure_probe.StructureClassProbe.save_prediction = True
+
+
+
diff --git a/cfg/downstream/structure_local.gin b/cfg/downstream/structure_local.gin
@@ -0,0 +1,66 @@
+dataset_name = "harmonix"
+embeddings_dir = "/home/pedro/Documents/experimentos_bsc/"
+
+# Lighting Trainer parameters, overwrites the training config
+predict.device_dict = {
+	"accelerator": "gpu",
+	"devices": 1,
+}
+
+# Embedding taking location from the neural network
+predict.embedding_layer = [-1]
+
+predict.embeddings_dir = %embeddings_dir
+predict.dataset_name = %dataset_name
+predict.overlap_ratio = 0.1
+
+
+# Audio Loader for embedding extraction
+AudioEmbeddingDataModule.data_dir = "/gpfs/projects/upf97/downstream_datasets/harmonix/tracks"
+AudioEmbeddingDataModule.file_format = "mp3"
+AudioEmbeddingDataModule.orig_freq = 44100
+AudioEmbeddingDataModule.new_freq = 16000 # TODO read from train cfg
+AudioEmbeddingDataModule.mono = True # TODO read from train cfg
+AudioEmbeddingDataModule.half_precision = True # TODO read from train cfg
+AudioEmbeddingDataModule.num_workers = 20
+
+
+build_module_and_datamodule.dataset_name = %dataset_name
+build_module_and_datamodule.embeddings_dir = %embeddings_dir
+
+HarmonixEmbeddingLoadingDataModule.gt_path =  "data/harmonix/segments_norm"
+HarmonixEmbeddingLoadingDataModule.train_filelist = "data/harmonix/train.txt"
+HarmonixEmbeddingLoadingDataModule.val_filelist = "data/harmonix/validation.txt"
+HarmonixEmbeddingLoadingDataModule.test_filelist = "data/harmonix/test.txt"
+HarmonixEmbeddingLoadingDataModule.batch_size = 16
+HarmonixEmbeddingLoadingDataModule.num_frames_aggregate = 3
+HarmonixEmbeddingLoadingDataModule.num_workers = 4
+HarmonixEmbeddingLoadingDataModule.overlap = 0.1
+HarmonixEmbeddingLoadingDataModule.precompute = False
+
+train_probe.wandb_params = {
+    "project": "structure",
+    "name": "my_first_structure_classifier",
+    "offline": False,
+    "entity": "mtg-upf",
+    "save_dir": "/home/pedro/ssl-mtg/data/logs/"
+}
+
+train_probe.train_params = {
+    "accelerator": "gpu",
+    "devices": 1,
+    "log_every_n_steps": 10,
+    "max_epochs": 20,
+    "num_sanity_val_steps": 0,
+}
+
+
+probe.modules.structure_probe.StructureClassProbe.num_classes = 7 # TODO
+probe.modules.structure_probe.StructureClassProbe.hidden_size = 512
+probe.modules.structure_probe.StructureClassProbe.bias = True
+probe.modules.structure_probe.StructureClassProbe.dropout = 0.1
+probe.modules.structure_probe.StructureClassProbe.lr = 0.0001
+probe.modules.structure_probe.StructureClassProbe.num_aggregations = 3
+probe.modules.structure_probe.StructureClassProbe.save_prediction = True
+
+
diff --git a/cfg/downstream/tagging.gin b/cfg/downstream/tagging.gin
@@ -8,7 +8,7 @@ predict.device_dict = {
 }
 
 # Embedding taking location from the neural network
-predict.embedding_layer = [-1]
+predict.embedding_layer = [6]
 predict.overlap_ratio = 0.5
 
 predict.embeddings_dir = %embeddings_dir
@@ -22,6 +22,7 @@ AudioEmbeddingDataModule.new_freq = 16000 # TODO read from train cfg
 AudioEmbeddingDataModule.mono = True # TODO read from train cfg
 AudioEmbeddingDataModule.half_precision = True # TODO read from train cfg
 AudioEmbeddingDataModule.num_workers = 20
+AudioEmbeddingDataModule.pad_to30sec = True
 
 
 build_module_and_datamodule.dataset_name = %dataset_name
@@ -31,7 +32,7 @@ MTTEmbeddingLoadingDataModule.gt_path = "/gpfs/projects/upf97/downstream_dataset
 MTTEmbeddingLoadingDataModule.train_filelist = "/gpfs/projects/upf97/downstream_datasets/magnatagatune/metadata/mtat/train.npy"
 MTTEmbeddingLoadingDataModule.val_filelist = "/gpfs/projects/upf97/downstream_datasets/magnatagatune/metadata/mtat/valid.npy"
 MTTEmbeddingLoadingDataModule.test_filelist = "/gpfs/projects/upf97/downstream_datasets/magnatagatune/metadata/mtat/test.npy"
-MTTEmbeddingLoadingDataModule.batch_size = 256
+MTTEmbeddingLoadingDataModule.batch_size = 64
 MTTEmbeddingLoadingDataModule.num_workers = 10
 MTTEmbeddingLoadingDataModule.layer_aggregation = "none"
 MTTEmbeddingLoadingDataModule.granularity = "chunk"
@@ -47,16 +48,35 @@ train_probe.wandb_params = {
 train_probe.train_params = {
     "accelerator": "gpu",
     "devices": 1,
-    "log_every_n_steps": 10,
-    "max_epochs": 20,
+    "log_every_n_steps": 50,
+    "max_steps": 30000,
     "num_sanity_val_steps": 0,
 }
 
+optimize_probe.bound_conditions = {
+    "num_layers": (1, 2),
+    "hidden_size": (128, 512),
+    "dropout": (0.1, 0.5),
+    "lr": (1e-5, 1e-3),
+}
+optimize_probe.init_points = 5
+optimize_probe.n_iter = 25
+optimize_probe.seed = 1
+
+# "max_epochs": (10, 100),
+# "batch_size": (32, 128),
+
+# Warning: these parameters are ignored when the the Bayesian optimization is enabled
 SequenceMultiLabelClassificationProbe.num_layers = 2
-SequenceMultiLabelClassificationProbe.num_labels = 50 # TODO
 SequenceMultiLabelClassificationProbe.hidden_size = 512
-SequenceMultiLabelClassificationProbe.activation = "relu"
-SequenceMultiLabelClassificationProbe.bias = True
 SequenceMultiLabelClassificationProbe.dropout = 0.2
 SequenceMultiLabelClassificationProbe.lr = 0.0001
-SequenceMultiLabelClassificationProbe.labels = "/gpfs/projects/upf97/downstream_datasets/magnatagatune/metadata/mtat/tags.npy"
+
+SequenceMultiLabelClassificationProbe.activation = "relu"
+SequenceMultiLabelClassificationProbe.bias = True
+SequenceMultiLabelClassificationProbe.num_labels = 50
+SequenceMultiLabelClassificationProbe.labels = "/gpfs/projects/upf97/downstream_datasets/magnatagatune/metadata/mtat/tags.npy"
+
+# CosineAnnealing scheduler
+CosineAnnealingCallback.warmup_steps = 3000
+CosineAnnealingCallback.eta_min = 1e-7
-Original file line number
+Diff line change
@@ Expand Up / @@ -8,5 +8,7 @@ checkpoints/ @@
     .idea/
     /figs/
+    /src/probe/visualize_probe/embedding_structure/
+    /src/probe/visualize_probe/embedding_structure/
     /venv/