feat(skore-hub-project)!: Add CrossValidationReport metadata to summarize (#2020)

thomass-dev · web-flow · commit 4157779e0e66 · 2025-09-15T08:27:49.000Z
Following #2019. Part of #1923.
diff --git a/skore-hub-project/src/skore_hub_project/project/project.py b/skore-hub-project/src/skore_hub_project/project/project.py
@@ -2,6 +2,7 @@
 
 from __future__ import annotations
 
+import itertools
 import re
 from functools import cached_property, wraps
 from operator import itemgetter
@@ -23,13 +24,19 @@ class Metadata(TypedDict):  # noqa: D101
         key: str
         date: str
         learner: str
-        dataset: str
         ml_task: str
+        report_type: str
+        dataset: str
         rmse: float | None
         log_loss: float | None
         roc_auc: float | None
-        fit_time: float
-        predict_time: float
+        fit_time: float | None
+        predict_time: float | None
+        rmse_mean: float | None
+        log_loss_mean: float | None
+        roc_auc_mean: float | None
+        fit_time_mean: float | None
+        predict_time_mean: float | None
 
 
 def ensure_project_is_created(method):
@@ -215,6 +222,57 @@ def get(self, urn: str) -> EstimatorReport | CrossValidationReport:
 
             return joblib.load(tmpfile)
 
+    @ensure_project_is_created
+    def summarize(self) -> list[Metadata]:
+        """Obtain metadata/metrics for all persisted reports in insertion order."""
+
+        def dto(response):
+            report_type, summary = response
+            metrics = {
+                metric["name"]: metric["value"]
+                for metric in summary["metrics"]
+                if metric["data_source"] in (None, "test")
+            }
+
+            return {
+                "id": summary["urn"],
+                "run_id": summary["run_id"],
+                "key": summary["key"],
+                "date": summary["created_at"],
+                "learner": summary["estimator_class_name"],
+                "ml_task": summary["ml_task"],
+                "report_type": report_type,
+                "dataset": summary["dataset_fingerprint"],
+                "rmse": metrics.get("rmse"),
+                "log_loss": metrics.get("log_loss"),
+                "roc_auc": metrics.get("roc_auc"),
+                "fit_time": metrics.get("fit_time"),
+                "predict_time": metrics.get("predict_time"),
+                "rmse_mean": metrics.get("rmse_mean"),
+                "log_loss_mean": metrics.get("log_loss_mean"),
+                "roc_auc_mean": metrics.get("roc_auc_mean"),
+                "fit_time_mean": metrics.get("fit_time_mean"),
+                "predict_time_mean": metrics.get("predict_time_mean"),
+            }
+
+        with HUBClient() as client:
+            responses = itertools.chain(
+                zip(
+                    itertools.repeat("estimator"),
+                    client.get(
+                        f"projects/{self.tenant}/{self.name}/estimator-reports/"
+                    ).json(),
+                ),
+                zip(
+                    itertools.repeat("cross-validation"),
+                    client.get(
+                        f"projects/{self.tenant}/{self.name}/cross-validation-reports/"
+                    ).json(),
+                ),
+            )
+
+        return sorted(map(dto, responses), key=itemgetter("date"))
+
     @property
     @ensure_project_is_created
     def reports(self):
@@ -231,36 +289,14 @@ def get(urn: str) -> EstimatorReport | CrossValidationReport:
             return self.get(urn)
 
         def metadata() -> list[Metadata]:
-            """Obtain metadata for all persisted reports regardless of their run."""
-
-            def dto(summary):
-                metrics = {
-                    metric["name"]: metric["value"]
-                    for metric in summary["metrics"]
-                    if metric["data_source"] in (None, "test")
-                }
-
-                return {
-                    "id": summary["id"],
-                    "run_id": summary["run_id"],
-                    "key": summary["key"],
-                    "date": summary["created_at"],
-                    "learner": summary["estimator_class_name"],
-                    "dataset": summary["dataset_fingerprint"],
-                    "ml_task": summary["ml_task"],
-                    "rmse": metrics.get("rmse"),
-                    "log_loss": metrics.get("log_loss"),
-                    "roc_auc": metrics.get("roc_auc"),
-                    "fit_time": metrics.get("fit_time"),
-                    "predict_time": metrics.get("predict_time"),
-                }
-
-            with HUBClient() as client:
-                response = client.get(
-                    f"projects/{self.tenant}/{self.name}/experiments/estimator-reports"
-                )
-
-            return sorted(map(dto, response.json()), key=itemgetter("date"))
+            """
+            Obtain metadata/metrics for all persisted reports in insertion order.
+
+            .. deprecated
+              The ``Project.reports.metadata`` function will be removed in favor of
+              ``Project.summarize`` in a near future.
+            """
+            return self.summarize()
 
         return SimpleNamespace(get=get, metadata=metadata)
 
diff --git a/skore-hub-project/tests/unit/project/test_project.py b/skore-hub-project/tests/unit/project/test_project.py
@@ -234,12 +234,13 @@ def test_reports_metadata(self, nowstr, respx_mock):
         url = "projects/<tenant>/<name>/runs"
         respx_mock.post(url).mock(Response(200, json={"id": 2}))
 
-        url = "projects/<tenant>/<name>/experiments/estimator-reports"
+        url = "projects/<tenant>/<name>/estimator-reports/"
         respx_mock.get(url).mock(
             Response(
                 200,
                 json=[
                     {
+                        "urn": "skore:report:estimator:<report_id_0>",
                         "id": "<report_id_0>",
                         "run_id": 0,
                         "key": "<key>",
@@ -253,6 +254,7 @@ def test_reports_metadata(self, nowstr, respx_mock):
                         ],
                     },
                     {
+                        "urn": "skore:report:estimator:<report_id_1>",
                         "id": "<report_id_1>",
                         "run_id": 1,
                         "key": "<key>",
@@ -262,7 +264,30 @@ def test_reports_metadata(self, nowstr, respx_mock):
                         "created_at": nowstr,
                         "metrics": [
                             {"name": "log_loss", "value": 0, "data_source": "train"},
-                            {"name": "log_loss", "value": 1, "data_source": "test"},
+                            {"name": "log_loss", "value": 2, "data_source": "test"},
+                        ],
+                    },
+                ],
+            )
+        )
+
+        url = "projects/<tenant>/<name>/cross-validation-reports/"
+        respx_mock.get(url).mock(
+            Response(
+                200,
+                json=[
+                    {
+                        "urn": "skore:report:cross-validation:<report_id_2>",
+                        "id": "<report_id_2>",
+                        "run_id": 3,
+                        "key": "<key>",
+                        "ml_task": "<ml_task>",
+                        "estimator_class_name": "<estimator_class_name>",
+                        "dataset_fingerprint": "<dataset_fingerprint>",
+                        "created_at": nowstr,
+                        "metrics": [
+                            {"name": "rmse_mean", "value": 0, "data_source": "train"},
+                            {"name": "rmse_mean", "value": 3, "data_source": "test"},
                         ],
                     },
                 ],
@@ -274,32 +299,64 @@ def test_reports_metadata(self, nowstr, respx_mock):
 
         assert metadata == [
             {
-                "id": "<report_id_0>",
+                "id": "skore:report:estimator:<report_id_0>",
                 "run_id": 0,
                 "key": "<key>",
                 "date": nowstr,
                 "learner": "<estimator_class_name>",
-                "dataset": "<dataset_fingerprint>",
                 "ml_task": "<ml_task>",
+                "report_type": "estimator",
+                "dataset": "<dataset_fingerprint>",
                 "rmse": 1,
                 "log_loss": None,
                 "roc_auc": None,
                 "fit_time": None,
                 "predict_time": None,
+                "rmse_mean": None,
+                "log_loss_mean": None,
+                "roc_auc_mean": None,
+                "fit_time_mean": None,
+                "predict_time_mean": None,
             },
             {
-                "id": "<report_id_1>",
+                "id": "skore:report:estimator:<report_id_1>",
                 "run_id": 1,
                 "key": "<key>",
                 "date": nowstr,
                 "learner": "<estimator_class_name>",
+                "ml_task": "<ml_task>",
+                "report_type": "estimator",
                 "dataset": "<dataset_fingerprint>",
+                "rmse": None,
+                "log_loss": 2,
+                "roc_auc": None,
+                "fit_time": None,
+                "predict_time": None,
+                "rmse_mean": None,
+                "log_loss_mean": None,
+                "roc_auc_mean": None,
+                "fit_time_mean": None,
+                "predict_time_mean": None,
+            },
+            {
+                "id": "skore:report:cross-validation:<report_id_2>",
+                "run_id": 3,
+                "key": "<key>",
+                "date": nowstr,
+                "learner": "<estimator_class_name>",
                 "ml_task": "<ml_task>",
+                "report_type": "cross-validation",
+                "dataset": "<dataset_fingerprint>",
                 "rmse": None,
-                "log_loss": 1,
+                "log_loss": None,
                 "roc_auc": None,
                 "fit_time": None,
                 "predict_time": None,
+                "rmse_mean": 3,
+                "log_loss_mean": None,
+                "roc_auc_mean": None,
+                "fit_time_mean": None,
+                "predict_time_mean": None,
             },
         ]