add typing overloads to dataset generation functions

stevebachmeier · stevebachmeier · commit f93923b2ed60 · 2025-03-18T13:43:21.000-07:00
diff --git a/src/pseudopeople/interface.py b/src/pseudopeople/interface.py
@@ -2,7 +2,7 @@
 
 from collections.abc import Sequence
 from pathlib import Path
-from typing import Any, Literal, cast
+from typing import TYPE_CHECKING, Any, Literal, cast, overload
 
 import pandas as pd
 from loguru import logger
@@ -25,6 +25,35 @@
     get_state_abbreviation,
 )
 
+if TYPE_CHECKING:
+    import dask.dataframe as dd
+
+
+@overload
+def _generate_dataset(
+    dataset_schema: DatasetSchema,
+    source: Path | str | None,
+    seed: int,
+    config: Path | str | dict[str, Any] | None,
+    filters: Sequence[DataFilter],
+    verbose: bool,
+    engine_name: Literal["pandas"],
+) -> pd.DataFrame:
+    ...
+
+
+@overload
+def _generate_dataset(
+    dataset_schema: DatasetSchema,
+    source: Path | str | None,
+    seed: int,
+    config: Path | str | dict[str, Any] | None,
+    filters: Sequence[DataFilter],
+    verbose: bool,
+    engine_name: Literal["dask"],
+) -> dd.DataFrame:
+    ...
+
 
 def _generate_dataset(
     dataset_schema: DatasetSchema,
@@ -34,7 +63,7 @@ def _generate_dataset(
     filters: Sequence[DataFilter],
     verbose: bool = False,
     engine_name: Literal["pandas", "dask"] = "pandas",
-) -> pd.DataFrame:
+) -> pd.DataFrame | dd.DataFrame:
     """
     Helper for generating noised datasets.
 
@@ -67,7 +96,6 @@ def _generate_dataset(
 
     engine = get_engine_from_string(engine_name)
 
-    noised_dataset: pd.DataFrame
     if engine == PANDAS_ENGINE:
         # We process shards serially
         data_file_paths = get_dataset_filepaths(source, dataset_schema.name)
@@ -205,15 +233,41 @@ def _get_data_changelog_version(changelog: Path) -> Version:
     return version
 
 
+@overload
 def generate_decennial_census(
     source: Path | str | None = None,
     seed: int = 0,
     config: Path | str | dict[str, Any] | None = None,
     year: int | None = 2020,
     state: str | None = None,
     verbose: bool = False,
-    engine: Literal["pandas", "dask"] = "pandas",
+    engine: Literal["pandas"] = "pandas",
 ) -> pd.DataFrame:
+    ...
+
+
+@overload
+def generate_decennial_census(
+    source: Path | str | None,
+    seed: int,
+    config: Path | str | dict[str, Any] | None,
+    year: int | None,
+    state: str | None,
+    verbose: bool,
+    engine: Literal["dask"],
+) -> dd.DataFrame:
+    ...
+
+
+def generate_decennial_census(
+    source: Path | str | None = None,
+    seed: int = 0,
+    config: Path | str | dict[str, Any] | None = None,
+    year: int | None = 2020,
+    state: str | None = None,
+    verbose: bool = False,
+    engine: Literal["pandas", "dask"] = "pandas",
+) -> pd.DataFrame | dd.DataFrame:
     """
     Generates a pseudopeople decennial census dataset which represents
     simulated responses to the US Census Bureau's Census of Population
@@ -303,15 +357,41 @@ def generate_decennial_census(
     )
 
 
+@overload
 def generate_american_community_survey(
     source: Path | str | None = None,
     seed: int = 0,
     config: Path | str | dict[str, Any] | None = None,
     year: int | None = 2020,
     state: str | None = None,
     verbose: bool = False,
-    engine: Literal["pandas", "dask"] = "pandas",
+    engine: Literal["pandas"] = "pandas",
 ) -> pd.DataFrame:
+    ...
+
+
+@overload
+def generate_american_community_survey(
+    source: Path | str | None,
+    seed: int,
+    config: Path | str | dict[str, Any] | None,
+    year: int | None,
+    state: str | None,
+    verbose: bool,
+    engine: Literal["dask"],
+) -> dd.DataFrame:
+    ...
+
+
+def generate_american_community_survey(
+    source: Path | str | None = None,
+    seed: int = 0,
+    config: Path | str | dict[str, Any] | None = None,
+    year: int | None = 2020,
+    state: str | None = None,
+    verbose: bool = False,
+    engine: Literal["pandas", "dask"] = "pandas",
+) -> pd.DataFrame | dd.DataFrame:
     """
     Generates a pseudopeople ACS dataset which represents simulated
     responses to the ACS survey.
@@ -416,15 +496,41 @@ def generate_american_community_survey(
     )
 
 
+@overload
 def generate_current_population_survey(
     source: Path | str | None = None,
     seed: int = 0,
     config: Path | str | dict[str, Any] | None = None,
     year: int | None = 2020,
     state: str | None = None,
     verbose: bool = False,
-    engine: Literal["pandas", "dask"] = "pandas",
+    engine: Literal["pandas"] = "pandas",
 ) -> pd.DataFrame:
+    ...
+
+
+@overload
+def generate_current_population_survey(
+    source: Path | str | None,
+    seed: int,
+    config: Path | str | dict[str, Any] | None,
+    year: int | None,
+    state: str | None,
+    verbose: bool,
+    engine: Literal["dask"],
+) -> dd.DataFrame:
+    ...
+
+
+def generate_current_population_survey(
+    source: Path | str | None = None,
+    seed: int = 0,
+    config: Path | str | dict[str, Any] | None = None,
+    year: int | None = 2020,
+    state: str | None = None,
+    verbose: bool = False,
+    engine: Literal["pandas", "dask"] = "pandas",
+) -> pd.DataFrame | dd.DataFrame:
     """
     Generates a pseudopeople CPS dataset which represents simulated
     responses to the CPS survey.
@@ -530,15 +636,41 @@ def generate_current_population_survey(
     )
 
 
+@overload
 def generate_taxes_w2_and_1099(
     source: Path | str | None = None,
     seed: int = 0,
     config: Path | str | dict[str, Any] | None = None,
     year: int | None = 2020,
     state: str | None = None,
     verbose: bool = False,
-    engine: Literal["pandas", "dask"] = "pandas",
+    engine: Literal["pandas"] = "pandas",
 ) -> pd.DataFrame:
+    ...
+
+
+@overload
+def generate_taxes_w2_and_1099(
+    source: Path | str | None,
+    seed: int,
+    config: Path | str | dict[str, Any] | None,
+    year: int | None,
+    state: str | None,
+    verbose: bool,
+    engine: Literal["dask"],
+) -> dd.DataFrame:
+    ...
+
+
+def generate_taxes_w2_and_1099(
+    source: Path | str | None = None,
+    seed: int = 0,
+    config: Path | str | dict[str, Any] | None = None,
+    year: int | None = 2020,
+    state: str | None = None,
+    verbose: bool = False,
+    engine: Literal["pandas", "dask"] = "pandas",
+) -> pd.DataFrame | dd.DataFrame:
     """
     Generates a pseudopeople W2 and 1099 tax dataset which represents
     simulated tax form data.
@@ -628,15 +760,41 @@ def generate_taxes_w2_and_1099(
     )
 
 
+@overload
 def generate_women_infants_and_children(
     source: Path | str | None = None,
     seed: int = 0,
     config: Path | str | dict[str, Any] | None = None,
     year: int | None = 2020,
     state: str | None = None,
     verbose: bool = False,
-    engine: Literal["pandas", "dask"] = "pandas",
+    engine: Literal["pandas"] = "pandas",
 ) -> pd.DataFrame:
+    ...
+
+
+@overload
+def generate_women_infants_and_children(
+    source: Path | str | None,
+    seed: int,
+    config: Path | str | dict[str, Any] | None,
+    year: int | None,
+    state: str | None,
+    verbose: bool,
+    engine: Literal["dask"],
+) -> dd.DataFrame:
+    ...
+
+
+def generate_women_infants_and_children(
+    source: Path | str | None = None,
+    seed: int = 0,
+    config: Path | str | dict[str, Any] | None = None,
+    year: int | None = 2020,
+    state: str | None = None,
+    verbose: bool = False,
+    engine: Literal["pandas", "dask"] = "pandas",
+) -> pd.DataFrame | dd.DataFrame:
     """
     Generates a pseudopeople WIC dataset which represents a simulated
     version of the administrative data that would be recorded by WIC.
@@ -731,14 +889,38 @@ def generate_women_infants_and_children(
     )
 
 
+@overload
 def generate_social_security(
     source: Path | str | None = None,
     seed: int = 0,
     config: Path | str | dict[str, Any] | None = None,
     year: int | None = 2020,
     verbose: bool = False,
-    engine: Literal["pandas", "dask"] = "pandas",
+    engine: Literal["pandas"] = "pandas",
 ) -> pd.DataFrame:
+    ...
+
+
+@overload
+def generate_social_security(
+    source: Path | str | None,
+    seed: int,
+    config: Path | str | dict[str, Any] | None,
+    year: int | None,
+    verbose: bool,
+    engine: Literal["dask"],
+) -> dd.DataFrame:
+    ...
+
+
+def generate_social_security(
+    source: Path | str | None = None,
+    seed: int = 0,
+    config: Path | str | dict[str, Any] | None = None,
+    year: int | None = 2020,
+    verbose: bool = False,
+    engine: Literal["pandas", "dask"] = "pandas",
+) -> pd.DataFrame | dd.DataFrame:
     """
     Generates a pseudopeople SSA dataset which represents simulated
     Social Security Administration (SSA) data.
@@ -819,15 +1001,41 @@ def generate_social_security(
     )
 
 
+@overload
 def generate_taxes_1040(
     source: Path | str | None = None,
     seed: int = 0,
     config: Path | str | dict[str, Any] | None = None,
     year: int | None = 2020,
     state: str | None = None,
     verbose: bool = False,
-    engine: Literal["pandas", "dask"] = "pandas",
+    engine: Literal["pandas"] = "pandas",
 ) -> pd.DataFrame:
+    ...
+
+
+@overload
+def generate_taxes_1040(
+    source: Path | str | None,
+    seed: int,
+    config: Path | str | dict[str, Any] | None,
+    year: int | None,
+    state: str | None,
+    verbose: bool,
+    engine: Literal["dask"],
+) -> dd.DataFrame:
+    ...
+
+
+def generate_taxes_1040(
+    source: Path | str | None = None,
+    seed: int = 0,
+    config: Path | str | dict[str, Any] | None = None,
+    year: int | None = 2020,
+    state: str | None = None,
+    verbose: bool = False,
+    engine: Literal["pandas", "dask"] = "pandas",
+) -> pd.DataFrame | dd.DataFrame:
     """
     Generates a pseudopeople 1040 tax dataset which represents simulated
     tax form data.