fix: abstracted catalog forecast repository from IO operations

pabloitu · pabloitu · commit 1ee572fb0a0f · 2025-05-13T17:17:46.000+02:00
diff --git a/floatcsep/infrastructure/registries.py b/floatcsep/infrastructure/registries.py
@@ -13,7 +13,6 @@
 
 log = logging.getLogger("floatLogger")
 
-
 class FilepathMixin:
     """
     Small mixin to provide filepath management functionality to Registries that uses files to
@@ -147,7 +146,6 @@ def factory(cls, registry_type: str = 'file', **kwargs) -> "ModelRegistry":
         elif registry_type == 'hdf5':
             return ModelHDF5Registry(**kwargs)
 
-
 class ModelFileRegistry(ModelRegistry, FilepathMixin):
     def __init__(
         self,
@@ -318,7 +316,6 @@ def as_dict(self) -> dict:
             "forecasts": self.forecasts,
         }
 
-
 class ModelHDF5Registry(ModelRegistry):
 
     def __init__(self, workdir: str, path: str):
diff --git a/floatcsep/infrastructure/repositories.py b/floatcsep/infrastructure/repositories.py
@@ -12,7 +12,7 @@
 from csep.models import EvaluationResult
 from csep.utils.time_utils import decimal_year
 
-from floatcsep.utils.readers import ForecastParsers
+from floatcsep.utils.readers import GriddedForecastParsers, CatalogForecastParsers
 from floatcsep.infrastructure.registries import ExperimentRegistry, ModelRegistry
 from floatcsep.utils.helpers import str2timewindow, parse_csep_func
 from floatcsep.utils.helpers import timewindow2str
@@ -102,28 +102,39 @@ def __init__(self, registry: ModelRegistry, **kwargs):
         self.forecasts = {}
 
     def load_forecast(
-        self, tstring: Union[str, list], region=None
+        self, tstring: Union[str, list], region=None, n_sims=None,
     ) -> Union[CatalogForecast, list[CatalogForecast]]:
         """
         Returns a forecast object or a sequence of them for a set of time window strings.
 
         Args:
             tstring (str, list): String representing the time-window
             region (optional): A region, in case the forecast requires to be filtered lazily.
+            n_sims (optional: The number of simulations/synthetic catalogs of the forecast
 
         Returns:
             The CSEP CatalogForecast object or a list of them.
         """
         if isinstance(tstring, str):
-            return self._load_single_forecast(tstring, region)
+            return self._load_single_forecast(tstring, region=region, n_sims=n_sims)
         else:
             return [self._load_single_forecast(t, region) for t in tstring]
 
-    def _load_single_forecast(self, t: str, region=None):
-        fc_path = self.registry.get_forecast_key(t)
-        return csep.load_catalog_forecast(
-            fc_path, region=region, apply_filters=True, filter_spatial=True
-        )
+    def _load_single_forecast(self, tstring: str, region=None, n_sims=None):
+        start_date, end_date = str2timewindow(tstring)
+
+        fc_path = self.registry.get_forecast_key(tstring)
+        f_parser = getattr(CatalogForecastParsers, self.registry.fmt)
+
+        forecast_ = f_parser(fc_path,
+                             start_time=start_date,
+                             end_time=end_date,
+                             n_cat=n_sims,
+                             region=region,
+                             apply_filters=True,
+                             filter_spatial=True,
+                             )
+        return forecast_
 
     def remove(self, tstring: Union[str, Sequence[str]]):
         pass
@@ -190,7 +201,7 @@ def _load_single_forecast(self, tstring: str, fc_unit: float = 1, name_=""):
         tstring_ = timewindow2str([start_date, end_date])
 
         f_path = self.registry.get_forecast_key(tstring_)
-        f_parser = getattr(ForecastParsers, self.registry.fmt)
+        f_parser = getattr(GriddedForecastParsers, self.registry.fmt)
 
         rates, region, mags = f_parser(f_path)
 
diff --git a/floatcsep/model.py b/floatcsep/model.py
@@ -11,7 +11,7 @@
 
 from floatcsep.utils.accessors import from_zenodo, from_git
 from floatcsep.infrastructure.environments import EnvironmentFactory
-from floatcsep.utils.readers import ForecastParsers, HDF5Serializer
+from floatcsep.utils.readers import GriddedForecastParsers, HDF5Serializer
 from floatcsep.infrastructure.registries import ModelRegistry
 from floatcsep.infrastructure.repositories import ForecastRepository
 from floatcsep.utils.helpers import timewindow2str, str2timewindow, parse_nested_dicts
@@ -247,7 +247,7 @@ def init_db(self, dbpath: str = "", force: bool = False) -> None:
              exists
         """
 
-        parser = getattr(ForecastParsers, self.registry.fmt)
+        parser = getattr(GriddedForecastParsers, self.registry.fmt)
         rates, region, mag = parser(self.registry.get_attr("path"))
         db_func = HDF5Serializer.grid2hdf5
 
diff --git a/floatcsep/utils/helpers.py b/floatcsep/utils/helpers.py
@@ -75,7 +75,9 @@ def _getattr(obj_, attr_):
             floatcsep.utils.helpers,
             floatcsep.utils.accessors,
             floatcsep.utils.readers.HDF5Serializer,
-            floatcsep.utils.readers.ForecastParsers,
+            floatcsep.utils.readers.GriddedForecastParsers,
+            floatcsep.utils.readers.CatalogForecastParsers,
+
         ]
         for module in _target_modules:
             try:
diff --git a/floatcsep/utils/readers.py b/floatcsep/utils/readers.py
@@ -1,19 +1,173 @@
 import argparse
+import csv
 import logging
 import os.path
 import time
 import xml.etree.ElementTree as eTree
 
+import csep
 import h5py
 import numpy
 import pandas
+import pandas as pd
+from csep.core.catalogs import CSEPCatalog
 from csep.core.regions import QuadtreeGrid2D, CartesianGrid2D
 from csep.models import Polygon
+from csep.utils.time_utils import strptime_to_utc_epoch
 
 log = logging.getLogger(__name__)
 
+class CatalogForecastParsers:
 
-class ForecastParsers:
+    @staticmethod
+    def csv(filename, **kwargs):
+        csep_headers = ['lon', 'lat', 'magnitude', 'time_string', 'depth', 'catalog_id',
+                        'event_id']
+        hermes_headers = ['realization_id', 'magnitude', 'depth', 'latitude', 'longitude',
+                          'time']
+        headers_df = pd.read_csv(filename, nrows=0).columns.str.strip().to_list()
+
+        # CSEP headers
+        if headers_df[:2] == csep_headers[:2]:
+
+            return csep.load_catalog_forecast(filename, **kwargs)
+
+        elif headers_df == hermes_headers:
+            return csep.load_catalog_forecast(filename,
+                                              catalog_loader=CatalogForecastParsers.load_hermes_catalog,
+                                              **kwargs
+                                              )
+        else:
+            raise Exception('Catalog Forecast could not be loaded')
+
+    @staticmethod
+    def load_hermes_catalog(filename, **kwargs):
+        """ Loads hermes synthetic catalogs in csep-ascii format.
+
+        This function can load multiple catalogs stored in a single file. This typically called to
+        load a catalog-based forecast, but could also load a collection of catalogs stored in the same file
+
+        Args:
+            filename (str): filepath or directory of catalog files
+            **kwargs (dict): passed to class constructor
+
+        Return:
+            yields CSEPCatalog class
+        """
+
+        def read_float(val):
+            """Returns val as float or None if unable"""
+            try:
+                val = float(val)
+            except:
+                val = None
+            return val
+
+        def is_header_line(line):
+            if line[0].lower() == 'realization_id':
+                return True
+            else:
+                return False
+
+        def read_catalog_line(line):
+            # convert to correct types
+
+            catalog_id = int(line[0])
+            magnitude = read_float(line[1])
+            depth = read_float(line[2])
+            lat = read_float(line[3])
+            lon = read_float(line[4])
+            # maybe fractional seconds are not included
+            origin_time = line[5]
+            if origin_time:
+                try:
+                    origin_time = strptime_to_utc_epoch(origin_time,
+                                                        format='%Y-%m-%d %H:%M:%S.%f')
+                except ValueError:
+                    origin_time = strptime_to_utc_epoch(origin_time,
+                                                        format='%Y-%m-%d %H:%M:%S')
+
+            event_id = 0
+            # temporary event
+            temp_event = (event_id, origin_time, lat, lon, depth, magnitude)
+            return temp_event, catalog_id
+
+        # handle all catalogs in single file
+        if os.path.isfile(filename):
+            with open(filename, 'r', newline='') as input_file:
+                catalog_reader = csv.reader(input_file, delimiter=',')
+                # csv treats everything as a string convert to correct types
+                events = []
+                # all catalogs should start at zero
+                prev_id = None
+                for line in catalog_reader:
+                    # skip header line on first read if included in file
+                    if prev_id is None:
+                        if is_header_line(line):
+                            continue
+                    # read line and return catalog id
+                    temp_event, catalog_id = read_catalog_line(line)
+                    empty = False
+                    # OK if event_id is empty
+                    if all([val in (None, '') for val in temp_event[1:]]):
+                        empty = True
+                    # first event is when prev_id is none, catalog_id should always start at zero
+                    if prev_id is None:
+                        prev_id = 0
+                        # if the first catalog doesn't start at zero
+                        if catalog_id != prev_id:
+                            if not empty:
+                                events = [temp_event]
+                            else:
+                                events = []
+                            for id in range(catalog_id):
+                                yield CSEPCatalog(data=[], catalog_id=id, **kwargs)
+                            prev_id = catalog_id
+                            continue
+                    # accumulate event if catalog_id is the same as previous event
+                    if catalog_id == prev_id:
+                        if not all([val in (None, '') for val in temp_event]):
+                            events.append(temp_event)
+                        prev_id = catalog_id
+                    # create and yield class if the events are from different catalogs
+                    elif catalog_id == prev_id + 1:
+                        yield CSEPCatalog(data=events, catalog_id=prev_id, **kwargs)
+                        # add event to new event list
+                        if not empty:
+                            events = [temp_event]
+                        else:
+                            events = []
+                        prev_id = catalog_id
+                    # this implies there are empty catalogs, because they are not listed in the ascii file
+                    elif catalog_id > prev_id + 1:
+                        yield CSEPCatalog(data=events, catalog_id=prev_id, **kwargs)
+                        # if prev_id = 0 and catalog_id = 2, then we skipped one catalog. thus, we skip catalog_id - prev_id - 1 catalogs
+                        num_empty_catalogs = catalog_id - prev_id - 1
+                        # first yield empty catalog classes
+                        for id in range(num_empty_catalogs):
+                            yield CSEPCatalog(data=[],
+                                              catalog_id=catalog_id - num_empty_catalogs + id,
+                                              **kwargs)
+                        prev_id = catalog_id
+                        # add event to new event list
+                        if not empty:
+                            events = [temp_event]
+                        else:
+                            events = []
+                    else:
+                        raise ValueError(
+                            "catalog_id should be monotonically increasing and events should be ordered by catalog_id")
+                # yield final catalog, note: since this is just loading catalogs, it has no idea how many should be there
+                cat = CSEPCatalog(data=events, catalog_id=prev_id, **kwargs)
+                yield cat
+
+        elif os.path.isdir(filename):
+            raise NotImplementedError(
+                "reading from directory or batched files not implemented yet!")
+
+
+
+class GriddedForecastParsers:
 
     @staticmethod
     def dat(filename):
@@ -151,7 +305,7 @@ def is_mag(num):
                 sep = " "
 
         if "tile" in line:
-            rates, region, magnitudes = ForecastParsers.quadtree(filename)
+            rates, region, magnitudes = GriddedForecastParsers.quadtree(filename)
             return rates, region, magnitudes
 
         data = pandas.read_csv(
@@ -308,13 +462,13 @@ def serialize():
     args = parser.parse_args()
 
     if args.format == "quadtree":
-        ForecastParsers.quadtree(args.filename)
+        GriddedForecastParsers.quadtree(args.filename)
     if args.format == "dat":
-        ForecastParsers.dat(args.filename)
+        GriddedForecastParsers.dat(args.filename)
     if args.format == "csep" or args.format == "csv":
-        ForecastParsers.csv(args.filename)
+        GriddedForecastParsers.csv(args.filename)
     if args.format == "xml":
-        ForecastParsers.xml(args.filename)
+        GriddedForecastParsers.xml(args.filename)
 
 
 if __name__ == "__main__":
diff --git a/tests/artifacts/models/td_model/forecasts/mock_2020-01-01_2020-01-02.csv b/tests/artifacts/models/td_model/forecasts/mock_2020-01-01_2020-01-02.csv
@@ -1,2 +1,2 @@
-lon, lat, M, time_string, depth, catalog_id, event_id
+lon,lat,M,time_string,depth,catalog_id,event_id
 1.0,1.0,5.0,2020-01-01T01:01:01.0,10.0,1,1
diff --git a/tests/artifacts/models/td_model/forecasts/mock_2020-01-02_2020-01-03.csv b/tests/artifacts/models/td_model/forecasts/mock_2020-01-02_2020-01-03.csv
@@ -1,2 +1,2 @@
-lon, lat, M, time_string, depth, catalog_id, event_id
+lon,lat,M,time_string,depth,catalog_id,event_id
 1.0,1.0,5.0,2020-01-02T01:01:01.0,10.0,1,1
diff --git a/tests/integration/test_model_infrastructure.py b/tests/integration/test_model_infrastructure.py
@@ -39,7 +39,6 @@ def test_time_independent_model_stage(self):
             [datetime(2023, 1, 1), datetime(2023, 1, 2)],
         ]
         self.time_independent_model.stage(time_windows=time_windows)
-        print("a", self.time_independent_model.registry.as_dict())
         self.assertIn("2023-01-01_2023-01-02", self.time_independent_model.registry.forecasts)
 
     def test_time_independent_model_get_forecast(self):
@@ -123,7 +122,7 @@ def forecast_(_):
         name = "mock"
         fname = os.path.join(self._dir, "model.csv")
 
-        with patch("floatcsep.readers.ForecastParsers.csv", forecast_):
+        with patch("floatcsep.readers.GriddedForecastParsers.csv", forecast_):
             model = self.init_model(name, fname)
             model.registry.build_tree([[start, end]])
             forecast = model.get_forecast(timestring)
diff --git a/tests/unit/test_readers.py b/tests/unit/test_readers.py
diff --git a/tests/unit/test_repositories.py b/tests/unit/test_repositories.py

Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,2 @@`
`1`		`-lon, lat, M, time_string, depth, catalog_id, event_id`
	`1`	`+lon,lat,M,time_string,depth,catalog_id,event_id`
`2`	`2`	`1.0,1.0,5.0,2020-01-01T01:01:01.0,10.0,1,1`