IBM · romeokienzler · Mar 7, 2025 · Feb 24, 2025 · Feb 24, 2025 · Feb 24, 2025
diff --git a/terratorch/cli_tools.py b/terratorch/cli_tools.py
@@ -96,6 +96,33 @@ def write_tiff(img_wrt, filename, metadata):
             dest.write(img_wrt[i, :, :], i + 1)
     return filename
 
+def add_default_checkpointing_config(config):
+
+    subcommand = config["subcommand"]
+    enable_checkpointing = config[subcommand + ".trainer.enable_checkpointing"]
+    callbacks = config[subcommand + ".trainer.callbacks"]
+    check_callbacks = [op for op in callbacks if "ModelCheckpoint" in op.class_path]
+
+    if len(check_callbacks) > 0:
+        there_is_checkpointing = True
+    else:
+        there_is_checkpointing = False
+
+    if enable_checkpointing:
+        if not there_is_checkpointing:
+            logger.info("Enabling ModelCheckpoint since the user defined enable_checkpointing=True.")
+
+            config["ModelCheckpoint"] = StateDictAwareModelCheckpoint
+            config["ModelCheckpoint.filename"] = "{epoch}"
+            config["ModelCheckpoint.monitor"] = "val/loss"
+            config["StateDictModelCheckpoint"] = StateDictAwareModelCheckpoint
+            config["StateDictModelCheckpoint.filename"] = "{epoch}_state_dict"
+            config["StateDictModelCheckpoint.save_weights_only"] = True
+            config["StateDictModelCheckpoint.monitor"] = "val/loss"
+        else:
+            logger.info("No extra checkpoint config will be added, since the user already defined it in the callbacks.")
+
+    return config 
 
 def save_prediction(prediction, input_file_name, out_dir, dtype:str="int16"):
     mask, metadata = open_tiff(input_file_name)
@@ -227,7 +254,6 @@ def clean_config_for_deployment_and_dump(config: dict[str, Any]):
             deploy_config["model"]["init_args"]["model_args"]["pretrained"] = False
         elif "backbone_pretrained" in deploy_config["model"]["init_args"]["model_args"]:
             deploy_config["model"]["init_args"]["model_args"]["backbone_pretrained"] = False
-
 
     return yaml.safe_dump(deploy_config)
 
@@ -375,24 +401,13 @@ def add_arguments_to_parser(self, parser: LightningArgumentParser) -> None:
         parser.add_argument("--deploy_config_file", type=bool, default=True)
         parser.add_argument("--custom_modules_path", type=str, default=None)
 
-        # parser.set_defaults({"trainer.enable_checkpointing": False})
-
-        parser.add_lightning_class_args(StateDictAwareModelCheckpoint, "ModelCheckpoint")
-        parser.set_defaults({"ModelCheckpoint.filename": "{epoch}", "ModelCheckpoint.monitor": "val/loss"})
-
-        parser.add_lightning_class_args(StateDictAwareModelCheckpoint, "StateDictModelCheckpoint")
-        parser.set_defaults(
-            {
-                "StateDictModelCheckpoint.filename": "{epoch}_state_dict",
-                "StateDictModelCheckpoint.save_weights_only": True,
-                "StateDictModelCheckpoint.monitor": "val/loss",
-            }
-        )
-
-        parser.link_arguments("ModelCheckpoint.dirpath", "StateDictModelCheckpoint.dirpath")
-
     def instantiate_classes(self) -> None:
 
+        # Adding default configuration for checkpoint saving when 
+        # enable_checkpointing is True and no checkpointing is included as
+        # callback. 
+        self.config = add_default_checkpointing_config(self.config)
+
         super().instantiate_classes()
         # get the predict_output_dir. Depending on the value of run, it may be in the subcommand
         try:

diff --git a/tests/resources/configs/manufactured-finetune_prithvi_eo_v2_300.yaml b/tests/resources/configs/manufactured-finetune_prithvi_eo_v2_300.yaml
@@ -20,7 +20,20 @@ trainer:
       init_args:
         monitor: val/loss
         patience: 100
-  max_epochs: 1
+    - class_path: StateDictAwareModelCheckpoint
+      init_args:
+        filename: "{epoch}"
+        monitor: "val/loss"
+        every_n_epochs: 2
+        verbose: true
+    - class_path: StateDictAwareModelCheckpoint
+      init_args:
+        filename: "{epoch}_state_dict"
+        save_weights_only: true
+        monitor: "val/loss"
+        every_n_epochs: 2
+        verbose: true
+  max_epochs: 4
   check_val_every_n_epoch: 1
   log_every_n_steps: 20
   enable_checkpointing: true