fix!: match munsell

OlgaBasova · OlgaBasova · commit 1bb2ca7008a3 · 2026-01-27T16:32:55.000+03:00
diff --git a/vsl_ial/datasets/distance/__init__.py b/vsl_ial/datasets/distance/__init__.py
@@ -235,20 +235,22 @@ def split_rows(
         prev_row = next(it)
         first_key = prev_key = get_key(prev_row)
         first_group = cur_group = [prev_row]
-        yield cur_group
         for row in it:
             key = get_key(row)
             if next_key(prev_key) == key:
                 cur_group.append(row)
             else:
-                cur_group = [row]
                 yield cur_group
+                cur_group = [row]
             prev_row, prev_key = row, key
         if next_key(prev_key) == first_key:
             if first_group is cur_group:
                 first_group.append(rows[0])
+                yield cur_group
             else:
                 first_group[:0] = cur_group
+        else:
+            yield cur_group
 
     def __new__(
         cls,
@@ -278,29 +280,50 @@ def __new__(
                     groups_hc[f"h={row.H}_c={row.C}"].append(row)
 
         ret: list[DistanceDataset] = []
-        for groups, (key, key_next) in (
-            (groups_hv, (cls.key_c, cls.key_c_next)),
-            (groups_vc, (cls.key_h, cls.key_h_next)),
-            (groups_hc, (cls.key_v, cls.key_v_next)),
+        for groups, key, key_next in (
+            (groups_hv, cls.key_c, cls.key_c_next),
+            (groups_vc, cls.key_h, cls.key_h_next),
+            (groups_hc, cls.key_v, cls.key_v_next),
         ):
             for name, group in groups.items():
                 group.sort(key=key)
+                subsets: list[list[MunsellRow]] = []
                 for group in list(cls.split_rows(group, key, key_next)):
-                    if len(group) > min_subset_size:  # > and not >= !
+                    subsets.append(group)
+                if subsets:
+                    if (
+                        sum(len(subset) for subset in subsets)
+                        > min_subset_size
+                    ):  # filter bu number of pairs. > and not >= !
                         ret.append(
-                            cls.group_as_dataset(f"{version}-{name}", group)
+                            cls.subsets_as_dataset(
+                                f"{version}-{name}", subsets
+                            )
                         )
         return ret
 
     @staticmethod
-    def group_as_dataset(key: str, rows: list[MunsellRow]) -> DistanceDataset:
+    def subsets_as_dataset(
+        key: str, subsets: list[list[MunsellRow]]
+    ) -> DistanceDataset:
         from vsl_ial.cs import whitepoints_cie1931
         from vsl_ial.cs.ciexyy import CIExyY
 
-        n = len(rows) - 1
+        pairs: list[tuple[int, int]] = []
+        shift = 0
+        for rows in subsets:
+            n = len(rows)
+            pairs.extend(
+                zip(
+                    range(shift + 0, shift + n - 1),
+                    range(shift + 1, shift + n),
+                )
+            )
+            shift += len(rows)
 
         xyY = np.asarray(
-            [(row.x, row.y, row.Y * 0.01) for row in rows], dtype=np.float64
+            [(row.x, row.y, row.Y * 0.01) for rows in subsets for row in rows],
+            dtype=np.float64,
         )
         xyz = CIExyY(None).to_XYZ(None, xyY)
 
@@ -312,7 +335,8 @@ def group_as_dataset(key: str, rows: list[MunsellRow]) -> DistanceDataset:
             Nc=1.0,
             F=1.0,
             illuminant=whitepoints_cie1931.C,
-            dv=np.full(shape=(n,), fill_value=np.float64(1.0)),
-            pairs=list(zip(range(n), range(1, n + 1))),
+            # 1.0 is a perceptive step, we don't know its exact value
+            dv=np.full(shape=(len(pairs),), fill_value=np.float64(1.0)),
+            pairs=pairs,
             xyz=xyz,
         )