CLI improvement

mittagessen · mittagessen · commit a19db08ffef1 · 2025-11-08T14:41:24.000+01:00
diff --git a/kraken/configs/__init__.py b/kraken/configs/__init__.py
@@ -1,2 +1,3 @@
 from .base import *  # NOQA
 from .vgsl import *  # NOQA
+from .pretrain import *  # NOQA
diff --git a/kraken/configs/base.py b/kraken/configs/base.py
@@ -98,10 +98,6 @@ class SegmentationTrainingDataConfig(TrainingDataConfig):
 
         format_type (Literal['alto', 'page', 'xml'] defaults to 'xml'):
             Format of the training data.
-        suppress_regions (bool, defaults to False):
-            Suppresses all regions in the dataset.
-        suppress_baselines (bool, defaults to False)
-            Suppresses all baselines in the dataset.
         line_class_mapping (dict[str, int], defaults to defaultdict):
             Mapping between line class identifiers and integer labels.
         region_class_mapping (dict[str, int], defaults to None):
diff --git a/kraken/configs/pretrain.py b/kraken/configs/pretrain.py
@@ -1,5 +1,26 @@
-from kraken.models.vgsl import VGSLRecognitionTrainingConfig, VGSLRecognitionTrainingDataConfig
+#
+# Copyright 2025 Benjamin Kiessling
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express
+# or implied. See the License for the specific language governing
+# permissions and limitations under the License.
+"""
+kraken.configs.pretrain
+~~~~~~~~~~~~~~~~~~~~~~~
 
+Configurations for semi-supervised model pretraining.
+"""
+from kraken.configs.vgsl import VGSLRecognitionTrainingConfig
+
+__all__ = ['VGSLPreTrainingConfig']
 
 
 class VGSLPreTrainingConfig(VGSLRecognitionTrainingConfig):
diff --git a/kraken/ketos/__init__.py b/kraken/ketos/__init__.py
@@ -48,6 +48,7 @@
 
 from kraken.configs import (Config,
                             TrainingDataConfig,
+                            VGSLPreTrainingConfig,
                             VGSLRecognitionTrainingConfig,
                             VGSLRecognitionTrainingDataConfig,
                             BLLASegmentationTrainingConfig,
@@ -59,7 +60,8 @@
                                                 'train': {**VGSLRecognitionTrainingConfig().__dict__, **VGSLRecognitionTrainingDataConfig().__dict__},
                                                 'test': VGSLRecognitionTrainingDataConfig().__dict__,
                                                 'segtrain': {**BLLASegmentationTrainingConfig().__dict__, **BLLASegmentationTrainingDataConfig().__dict__},
-                                                'segtest': {**BLLASegmentationTrainingConfig().__dict__, **BLLASegmentationTrainingDataConfig().__dict__}}))
+                                                'segtest': {**BLLASegmentationTrainingConfig().__dict__, **BLLASegmentationTrainingDataConfig().__dict__},
+                                                'pretrain': {**VGSLRecognitionTrainingDataConfig().__dict__, **VGSLPreTrainingConfig().__dict__}}))
 
 @click.version_option()
 @click.pass_context
diff --git a/kraken/ketos/pretrain.py b/kraken/ketos/pretrain.py
@@ -36,11 +36,24 @@
 
 @click.command('pretrain')
 @click.pass_context
-@click.option('-B', '--batch-size', type=int, help='batch sample size')
-@click.option('--pad', 'padding', type=int, help='Left and right padding around lines')
-@click.option('-o', '--output', 'checkpoint_path', type=click.Path(), help='Output checkpoint path')
-@click.option('-s', '--spec', help='VGSL spec of the network to train.')
-@click.option('-i', '--load', type=click.Path(exists=True, readable=True),
+@click.option('-B',
+              '--batch-size',
+              type=int,
+              help='batch sample size')
+@click.option('--pad',
+              'padding',
+              type=int,
+              help='Left and right padding around lines')
+@click.option('-o',
+              '--output',
+              'checkpoint_path',
+              type=click.Path(), help='Output checkpoint path')
+@click.option('-s',
+              '--spec',
+              help='VGSL spec of the network to train.')
+@click.option('-i',
+              '--load',
+              type=click.Path(exists=True, readable=True),
               help='Load existing file to continue training')
 @click.option('-F',
               '--freq',
@@ -98,7 +111,7 @@
               type=int,
               help='Minimal number of validation runs between LR reduction for reduceonplateau LR schedule.')
 @click.option('--cos-max',
-              'cos_max_t',
+              'cos_t_max',
               type=int,
               help='Epoch of minimal learning rate for cosine LR scheduler.')
 @click.option('--cos-min-lr',
@@ -108,16 +121,12 @@
               '--partition',
               type=float,
               help='Ground truth data partition ratio between train/validation set')
-@click.option('--fixed-splits/--ignore-fixed-splits', default=False,
-              help='Whether to honor fixed splits in binary datasets.')
-@click.option('-t', '--training-files', default=None, multiple=True,
+@click.option('-t', '--training-files', 'training_data', multiple=True,
               callback=_validate_manifests, type=click.File(mode='r', lazy=True),
               help='File(s) with additional paths to training data')
-@click.option('-e', '--evaluation-files', default=None, multiple=True,
+@click.option('-e', '--evaluation-files', 'evaluation_data', multiple=True,
               callback=_validate_manifests, type=click.File(mode='r', lazy=True),
               help='File(s) with paths to evaluation data. Overrides the `-p` parameter')
-@click.option('--load-hyper-parameters/--no-load-hyper-parameters', default=False,
-              help='When loading an existing model, retrieve hyperparameters from the model')
 @click.option('-f', '--format-type', type=click.Choice(['path', 'xml', 'alto', 'page', 'binary']),
               help='Sets the training data format. In ALTO and PageXML mode all '
               'data is extracted from xml files containing both line definitions and a '
diff --git a/kraken/ketos/segmentation.py b/kraken/ketos/segmentation.py
@@ -38,7 +38,7 @@
 
 @click.command('segtrain')
 @click.pass_context
-@click.option('-o', '--output', 'checkpoint_path', type=click.Path(), default='model', help='Output model file')
+@click.option('-o', '--output', 'checkpoint_path', type=click.Path(), default='model', help='Output checkpoint path')
 @click.option('--weights-format', default='safetensors', help='Output weights format.')
 @click.option('-s', '--spec', help='VGSL spec of the baseline labeling network')
 @click.option('--line-width', type=int, help='The height of each baseline in the target after scaling')
@@ -256,10 +256,16 @@ def segtrain(ctx, **kwargs):
 @click.pass_context
 @click.option('-m', '--model', type=click.Path(exists=True, readable=True),
               multiple=False, help='Model(s) to evaluate')
-@click.option('-e', '--test-data', default=None, multiple=True,
-              callback=_validate_manifests, type=click.File(mode='r', lazy=True),
+@click.option('-e',
+              '--test-files',
+              'test_data',
+              multiple=True,
+              callback=_validate_manifests,
+              type=click.File(mode='r', lazy=True),
               help='File(s) with paths to evaluation data.')
-@click.option('-f', '--format-type', type=click.Choice(['xml', 'alto', 'page']), default='xml',
+@click.option('-f',
+              '--format-type',
+              type=click.Choice(['xml', 'alto', 'page']),
               help='Sets the training data format. In ALTO and PageXML mode all '
               'data is extracted from xml files containing both baselines and a '
               'link to source images.')

Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,3 @@`
`1`	`1`	`from .base import * # NOQA`
`2`	`2`	`from .vgsl import * # NOQA`
	`3`	`+from .pretrain import * # NOQA`