Merge pull request #2 from dataforgoodfr/species_distribution

cgoudet · web-flow · commit b0215518b177 · 2025-12-30T15:46:23.000+01:00
Crée la cartographie de distribution des espèces
diff --git a/.gitignore b/.gitignore
@@ -160,4 +160,8 @@ dmypy.json
 cython_debug/
 
 # Precommit hooks: ruff cache
-.ruff_cache
+.ruff_cache
+
+nohup.out
+data/
+notebooks/
diff --git a/biolit/__init__.py b/biolit/__init__.py
@@ -0,0 +1,10 @@
+from pathlib import Path
+
+import matplotlib as mpl
+
+ROOTDIR = Path(__file__).parent / ".."
+DATADIR = ROOTDIR / "data"
+
+
+mpl.rcParams["axes.spines.right"] = False
+mpl.rcParams["axes.spines.top"] = False
diff --git a/biolit/observations.py b/biolit/observations.py
@@ -0,0 +1,110 @@
+import polars as pl
+import structlog
+from polars import col
+
+from biolit import DATADIR
+from biolit.taxref import TAXREF_HIERARCHY
+
+LOGGER = structlog.get_logger()
+
+
+def format_observations():
+    fn = DATADIR / "export_biolit.csv"
+    taxref = pl.read_parquet(DATADIR / "taxref.parquet")
+    biolit = (
+        pl.read_csv(fn)
+        .rename(lambda c: c.replace(" - observation", "").lower().replace(" ", "_"))
+        .with_columns(
+            col("nom_scientifique").str.to_lowercase(),
+            col("espece_identifiable_?").fill_null("Identifiable"),
+        )
+        .filter(
+            col(
+                "validee"
+            )  # & ~col("espece_identifiable_?").is_in(["non-identifiable"])
+        )
+        .join(taxref, how="left", left_on="nom_scientifique", right_on="lb_nom")
+        .pipe(full_upper_hierarchy)
+        .pipe(_observation_quality)
+    )
+
+    LOGGER.info(
+        "valid_observations",
+        size=len(biolit),
+        species=biolit["nom_scientifique"].n_unique(),
+    )
+    biolit.write_parquet(DATADIR / "biolit_valid_observations.parquet")
+
+
+def full_upper_hierarchy(frame: pl.DataFrame) -> pl.DataFrame:
+    """
+    Fill all levels of hierachies with the complete name of the upper levels.
+
+    horse -> animal | vertebrate | horse
+    """
+    for i, name in enumerate(TAXREF_HIERARCHY):
+        prefix = (
+            pl.lit("")
+            if not i
+            else (col(TAXREF_HIERARCHY[i - 1]).fill_null("NA") + pl.lit(" | "))
+        )
+        frame = frame.with_columns((prefix + col(name).fill_null("NA")).alias(name))
+    return frame
+
+
+def _observation_quality(frame: pl.DataFrame) -> pl.DataFrame:
+    return (
+        frame.pipe(_check_missing_nom)
+        .pipe(_check_missing_taxref)
+        .pipe(_check_validated_non_identifiable)
+    )
+
+
+def _check_missing_taxref(frame: pl.DataFrame) -> pl.DataFrame:
+    missing_taxref_filter = (
+        col("cd_nom").is_null() & col("nom_scientifique").is_not_null()
+    )
+    missing_taxref = (
+        frame.filter()
+        .group_by("nom_scientifique")
+        .agg(col("id").count().alias("n_observations"))
+        .sort("n_observations", descending=True)
+    )
+    missing_taxref.write_csv(DATADIR / "observations_missing_taxref.csv")
+
+    LOGGER.warning(
+        "observation_quality_missing_taxref",
+        missing_taxref_species=len(missing_taxref),
+        missing_taxref_observations=missing_taxref["n_observations"].sum(),
+    )
+    with pl.Config(tbl_rows=100):
+        print(missing_taxref)
+    return frame.filter(~missing_taxref_filter)
+
+
+def _check_missing_nom(frame: pl.DataFrame) -> pl.DataFrame:
+    missing_filter = col("nom_scientifique").is_null()
+    missing_nom = frame.filter(missing_filter).select(
+        "validee", "espece_identifiable_?", "lien"
+    )
+
+    missing_nom.write_csv(DATADIR / "biolit_observation_missing_nom.csv")
+    LOGGER.warning(
+        "observation_quality_missing_nom",
+        missing_nom=len(missing_nom),
+    )
+    with pl.Config(fmt_str_lengths=500):
+        print(missing_nom)
+    return frame.filter(~missing_filter)
+
+
+def _check_validated_non_identifiable(frame: pl.DataFrame) -> pl.DataFrame:
+    filt = col("espece_identifiable_?") != "Identifiable"
+    errors = frame.filter(filt).select(
+        "lien", "espece_identifiable_?", "nom_scientifique"
+    )
+    errors.write_csv(DATADIR / "biolit_observation_validated_non_identifiable.csv")
+    LOGGER.warning("observation_quality_validated_non_identifiable", n_obs=len(errors))
+    with pl.Config(fmt_str_lengths=50):
+        print(errors)
+    return frame.filter(~filt)
diff --git a/biolit/taxref.py b/biolit/taxref.py
@@ -0,0 +1,45 @@
+import polars as pl
+import structlog
+from polars import col
+
+from biolit import DATADIR
+
+TAXREF_HIERARCHY = ["regne", "phylum", "classe", "ordre", "famille", "sous_famille"]
+LOGGER = structlog.get_logger()
+
+
+def format_taxref():
+    fn = DATADIR / "TAXREF_v18_2025" / "TAXREFv18.txt"
+    taxref = (
+        pl.read_csv(fn, separator="\t")
+        .rename(str.lower)
+        .with_columns(
+            col("lb_nom").str.to_lowercase(),
+            (
+                col("sous_famille").is_not_null()
+                + col("famille").is_not_null() * 10
+                + col("ordre").is_not_null() * 100
+                + col("classe").is_not_null() * 1000
+            ).alias("priority"),
+        )
+        .select(["cd_nom", "lb_nom", "priority"] + TAXREF_HIERARCHY)
+    )
+    _check_duplicates(taxref)
+    taxref = (
+        taxref.sort(["lb_nom", "priority"], descending=[False, True])
+        .unique("lb_nom")
+        .drop("priority")
+    )
+    taxref.write_parquet(DATADIR / "taxref.parquet")
+
+
+def _check_duplicates(frame: pl.DataFrame):
+    frame = frame.sort("lb_nom").filter(col("lb_nom").is_duplicated())
+    if frame.is_empty():
+        return
+    frame.write_csv(DATADIR / "taxref_duplicate_species.csv")
+    LOGGER.warning(
+        "taxref_duplicate_species",
+        n_species=len(frame),
+        n_names=frame["lb_nom"].n_unique(),
+    )
diff --git a/biolit/visualisation/species_distribution.py b/biolit/visualisation/species_distribution.py
@@ -0,0 +1,139 @@
+from pathlib import Path
+
+import matplotlib as mpl
+import plotly.graph_objects as go
+import polars as pl
+from polars import col
+
+from biolit import DATADIR
+from biolit.taxref import TAXREF_HIERARCHY
+
+COLOR_MATCHING = {
+    i: f"rgb({', '.join(str(int(x * 255)) for x in mpl.colormaps['tab10'](i)[:3])})"
+    for i in range(20)
+}
+
+
+def _species_colors(frame: pl.DataFrame) -> pl.DataFrame:
+    return (
+        frame["regne"]
+        .unique()
+        .sort()
+        .to_frame()
+        .with_row_index("color")
+        .with_columns(col("color").replace_strict(COLOR_MATCHING))
+    )
+
+
+def plot_species_distribution(frame: pl.DataFrame, fn: Path):
+    colors = _species_colors(frame)
+    species_counts = (
+        frame.filter(col("cd_nom").is_not_null())
+        .group_by(["nom_scientifique", "cd_nom"] + TAXREF_HIERARCHY)
+        .agg(col("id").count())
+        .join(colors, on="regne")
+    )
+
+    edges = _baseline_edges(species_counts)
+    nodes = nodes_from_edges(edges)
+    edges = enrich_edges(edges, nodes)
+    edges.write_parquet(DATADIR / "species_edges.parquet")
+    nodes.write_parquet(DATADIR / "species_node.parquet")
+    save_sankey_plot(edges, nodes, fn)
+
+
+def save_sankey_plot(edges: pl.DataFrame, nodes: pl.DataFrame, fn: Path) -> Path:
+    _data = go.Sankey(
+        link=edges.to_dict(as_series=False),
+        node=nodes.select("label", "color", "customdata").to_dict(as_series=False)
+        | {
+            "line": dict(color="lightgrey", width=0.1),
+            "hovertemplate": "<b>%{customdata.name}</b><br>"
+            "node_id: %{customdata.node_id}<br>"
+            "# images: %{value}<br>"
+            "# sub level: %{customdata.n_incoming}<br>"
+            "# species: %{customdata.n_species}<br>"
+            "<extra></extra>",
+        },
+    )
+
+    _fig = go.Figure(_data)
+    _fig.update_layout(
+        autosize=False,
+        width=1000,
+        height=1500,
+        title_text="Répartition des images Biolit en selon les différentes strates de la hierarchie",
+        font_size=10,
+    )
+    _fig.write_html(fn)
+
+
+def _baseline_edges(species_counts: pl.DataFrame) -> pl.DataFrame:
+    _edges = []
+
+    _steps = ["nom_scientifique"] + TAXREF_HIERARCHY[:-1][::-1]
+    for _source, _target in zip(_steps, _steps[1:]):
+        tmp = (
+            species_counts.group_by(_source, _target)
+            .agg(
+                col("id").sum(),
+                col("id").count().alias("n_species"),
+                col("color").first(),
+            )
+            .rename({_source: "source", _target: "target", "id": "value"})
+        )
+        _edges.append(tmp)
+    return pl.concat(_edges)
+
+
+def nodes_from_edges(edges: pl.DataFrame) -> pl.DataFrame:
+    has_labels = _node_has_labels(edges)
+    return (
+        pl.concat([edges["source"], edges["target"]])
+        .unique()
+        .sort()
+        .to_frame()
+        .with_row_index("id")
+        .with_columns(col("id") - 1)
+        .join(has_labels, left_on="source", right_on="target")
+        .with_columns(
+            pl.when(col("has_label")).then(col("source")).alias("label"),
+            pl.when(col("has_label"))
+            .then(pl.lit("blue"))
+            .otherwise(pl.lit("lightgrey"))
+            .alias("color"),
+            pl.struct(
+                name=col("source"),
+                n_incoming=col("n_incoming"),
+                n_species=col("n_species"),
+                node_id=col("id"),
+            ).alias("customdata"),
+        )
+    )
+
+
+def _node_has_labels(edges: pl.DataFrame) -> pl.DataFrame:
+    return (
+        edges.group_by("target")
+        .agg(
+            col("value").sum(),
+            col("source").count().alias("n_incoming"),
+            col("n_species").sum(),
+        )
+        .with_columns(
+            (col("value") > 300).alias("has_label"),
+            col("target").str.count_matches("|", literal=True).alias("n_levels"),
+        )
+    )
+
+
+def enrich_edges(edges: pl.DataFrame, nodes: pl.DataFrame) -> pl.DataFrame:
+    _sub_nodes = nodes.select("id", "source")
+    return (
+        edges.select("source", "target", "value", "color")
+        .join(_sub_nodes, left_on="source", right_on="source")
+        .join(_sub_nodes, left_on="target", right_on="source")
+        .drop("target", "source")
+        .rename({"id": "source", "id_right": "target"})
+        .sort("source", "target")
+    )
diff --git a/cmd/export_inpn.py b/cmd/export_inpn.py
@@ -0,0 +1,25 @@
+import sys
+from pathlib import Path
+
+import polars as pl
+
+_base_dir = str(Path(__file__).parent.parent)
+if _base_dir not in sys.path:
+    sys.path.insert(0, _base_dir)
+
+if True:
+    from biolit import DATADIR
+    from biolit.observations import format_observations
+    from biolit.taxref import format_taxref
+    from biolit.visualisation.species_distribution import plot_species_distribution
+
+
+def main():
+    format_taxref()
+    format_observations()
+    biolit_df = pl.read_parquet(DATADIR / "biolit_valid_observations.parquet")
+    plot_species_distribution(biolit_df, fn=DATADIR / "distribution_images.html")
+
+
+if __name__ == "__main__":
+    main()
diff --git a/data/.gitkeep b/data/.gitkeep