Merge pull request #463 from datamol-io/logging

DomInvivo · web-flow · commit f4f47afdd005 · 2023-09-18T15:50:41.000-04:00
Improved logging
diff --git a/graphium/config/_loader.py b/graphium/config/_loader.py
@@ -13,7 +13,7 @@
 
 # Lightning
 from lightning import Trainer
-from lightning.pytorch.callbacks import EarlyStopping, ModelCheckpoint
+from lightning.pytorch.callbacks import EarlyStopping, ModelCheckpoint, LearningRateMonitor
 from lightning.pytorch.loggers import Logger, WandbLogger
 from loguru import logger
 
@@ -415,6 +415,11 @@ def load_trainer(
     if "model_checkpoint" in cfg_trainer.keys():
         callbacks.append(ModelCheckpoint(**cfg_trainer["model_checkpoint"]))
 
+    if "learning_rate_monitor" in cfg_trainer.keys():
+        callbacks.append(LearningRateMonitor(**cfg_trainer["learning_rate_monitor"]))
+    else:
+        callbacks.append(LearningRateMonitor())
+
     # Define the logger parameters
     wandb_cfg = config["constants"].get("wandb")
     if wandb_cfg is not None:
diff --git a/graphium/trainer/predictor.py b/graphium/trainer/predictor.py
@@ -618,11 +618,6 @@ def on_validation_epoch_end(self) -> None:
         concatenated_metrics_logs = self.task_epoch_summary.concatenate_metrics_logs(metrics_logs)
         concatenated_metrics_logs["val/mean_time"] = torch.tensor(self.mean_val_time_tracker.mean_value)
         concatenated_metrics_logs["val/mean_tput"] = self.mean_val_tput_tracker.mean_value
-
-        if hasattr(self.optimizers(), "param_groups"):
-            lr = self.optimizers().param_groups[0]["lr"]
-            concatenated_metrics_logs["lr"] = torch.tensor(lr)
-        concatenated_metrics_logs["n_epochs"] = torch.tensor(self.current_epoch, dtype=torch.float32)
         self.log_dict(concatenated_metrics_logs)
 
         # Save yaml file with the per-task metrics summaries
diff --git a/graphium/trainer/predictor_summaries.py b/graphium/trainer/predictor_summaries.py
@@ -248,8 +248,6 @@ def get_metrics_logs(self) -> Dict[str, Any]:
         metric_logs[self.metric_log_name(self.task_name, "median_target", self.step_name)] = nan_median(
             targets
         )
-        if torch.cuda.is_available():
-            metric_logs[f"gpu_allocated_GB"] = torch.tensor(torch.cuda.memory_allocated() / (2**30))
 
         # Specify which metrics to use
         metrics_to_use = self.metrics

Original file line number	Diff line number	Diff line change
`@@ -248,8 +248,6 @@ def get_metrics_logs(self) -> Dict[str, Any]:`
`248`	`248`	`metric_logs[self.metric_log_name(self.task_name, "median_target", self.step_name)] = nan_median(`
`249`	`249`	`targets`
`250`	`250`	`)`
`251`		`- if torch.cuda.is_available():`
`252`		`- metric_logs[f"gpu_allocated_GB"] = torch.tensor(torch.cuda.memory_allocated() / (2**30))`
`253`	`251`
`254`	`252`	`# Specify which metrics to use`
`255`	`253`	`metrics_to_use = self.metrics`