ihmeuw · hussain-jafari · Mar 31, 2025 · Mar 27, 2025 · Mar 27, 2025 · Mar 28, 2025
diff --git a/src/pseudopeople/interface.py b/src/pseudopeople/interface.py
@@ -236,26 +236,26 @@ def _get_data_changelog_version(changelog: Path) -> Version:
 
 @overload
 def generate_decennial_census(
-    source: Path | str | None = None,
-    seed: int = 0,
-    config: Path | str | dict[str, Any] | None = None,
-    year: int | None = 2020,
-    state: str | None = None,
-    verbose: bool = False,
-    engine: Literal["pandas"] = "pandas",
+    source: Path | str | None = ...,
+    seed: int = ...,
+    config: Path | str | dict[str, Any] | None = ...,
+    year: int | None = ...,
+    state: str | None = ...,
+    verbose: bool = ...,
+    engine: Literal["pandas"] = ...,
 ) -> pd.DataFrame:
     ...
 
 
 @overload
 def generate_decennial_census(
-    source: Path | str | None,
-    seed: int,
-    config: Path | str | dict[str, Any] | None,
-    year: int | None,
-    state: str | None,
-    verbose: bool,
-    engine: Literal["dask"],
+    source: Path | str | None = ...,
+    seed: int = ...,
+    config: Path | str | dict[str, Any] | None = ...,
+    year: int | None = ...,
+    state: str | None = ...,
+    verbose: bool = ...,
+    engine: Literal["dask"] = ...,
 ) -> dd.DataFrame:
     ...
 
@@ -360,26 +360,26 @@ def generate_decennial_census(
 
 @overload
 def generate_american_community_survey(
-    source: Path | str | None = None,
-    seed: int = 0,
-    config: Path | str | dict[str, Any] | None = None,
-    year: int | None = 2020,
-    state: str | None = None,
-    verbose: bool = False,
-    engine: Literal["pandas"] = "pandas",
+    source: Path | str | None = ...,
+    seed: int = ...,
+    config: Path | str | dict[str, Any] | None = ...,
+    year: int | None = ...,
+    state: str | None = ...,
+    verbose: bool = ...,
+    engine: Literal["pandas"] = ...,
 ) -> pd.DataFrame:
     ...
 
 
 @overload
 def generate_american_community_survey(
-    source: Path | str | None,
-    seed: int,
-    config: Path | str | dict[str, Any] | None,
-    year: int | None,
-    state: str | None,
-    verbose: bool,
-    engine: Literal["dask"],
+    source: Path | str | None = ...,
+    seed: int = ...,
+    config: Path | str | dict[str, Any] | None = ...,
+    year: int | None = ...,
+    state: str | None = ...,
+    verbose: bool = ...,
+    engine: Literal["dask"] = ...,
 ) -> dd.DataFrame:
     ...
 
@@ -499,26 +499,26 @@ def generate_american_community_survey(
 
 @overload
 def generate_current_population_survey(
-    source: Path | str | None = None,
-    seed: int = 0,
-    config: Path | str | dict[str, Any] | None = None,
-    year: int | None = 2020,
-    state: str | None = None,
-    verbose: bool = False,
-    engine: Literal["pandas"] = "pandas",
+    source: Path | str | None = ...,
+    seed: int = ...,
+    config: Path | str | dict[str, Any] | None = ...,
+    year: int | None = ...,
+    state: str | None = ...,
+    verbose: bool = ...,
+    engine: Literal["pandas"] = ...,
 ) -> pd.DataFrame:
     ...
 
 
 @overload
 def generate_current_population_survey(
-    source: Path | str | None,
-    seed: int,
-    config: Path | str | dict[str, Any] | None,
-    year: int | None,
-    state: str | None,
-    verbose: bool,
-    engine: Literal["dask"],
+    source: Path | str | None = ...,
+    seed: int = ...,
+    config: Path | str | dict[str, Any] | None = ...,
+    year: int | None = ...,
+    state: str | None = ...,
+    verbose: bool = ...,
+    engine: Literal["dask"] = ...,
 ) -> dd.DataFrame:
     ...
 
@@ -639,26 +639,26 @@ def generate_current_population_survey(
 
 @overload
 def generate_taxes_w2_and_1099(
-    source: Path | str | None = None,
-    seed: int = 0,
-    config: Path | str | dict[str, Any] | None = None,
-    year: int | None = 2020,
-    state: str | None = None,
-    verbose: bool = False,
-    engine: Literal["pandas"] = "pandas",
+    source: Path | str | None = ...,
+    seed: int = ...,
+    config: Path | str | dict[str, Any] | None = ...,
+    year: int | None = ...,
+    state: str | None = ...,
+    verbose: bool = ...,
+    engine: Literal["pandas"] = ...,
 ) -> pd.DataFrame:
     ...
 
 
 @overload
 def generate_taxes_w2_and_1099(
-    source: Path | str | None,
-    seed: int,
-    config: Path | str | dict[str, Any] | None,
-    year: int | None,
-    state: str | None,
-    verbose: bool,
-    engine: Literal["dask"],
+    source: Path | str | None = ...,
+    seed: int = ...,
+    config: Path | str | dict[str, Any] | None = ...,
+    year: int | None = ...,
+    state: str | None = ...,
+    verbose: bool = ...,
+    engine: Literal["dask"] = ...,
 ) -> dd.DataFrame:
     ...
 
@@ -763,26 +763,26 @@ def generate_taxes_w2_and_1099(
 
 @overload
 def generate_women_infants_and_children(
-    source: Path | str | None = None,
-    seed: int = 0,
-    config: Path | str | dict[str, Any] | None = None,
-    year: int | None = 2020,
-    state: str | None = None,
-    verbose: bool = False,
-    engine: Literal["pandas"] = "pandas",
+    source: Path | str | None = ...,
+    seed: int = ...,
+    config: Path | str | dict[str, Any] | None = ...,
+    year: int | None = ...,
+    state: str | None = ...,
+    verbose: bool = ...,
+    engine: Literal["pandas"] = ...,
 ) -> pd.DataFrame:
     ...
 
 
 @overload
 def generate_women_infants_and_children(
-    source: Path | str | None,
-    seed: int,
-    config: Path | str | dict[str, Any] | None,
-    year: int | None,
-    state: str | None,
-    verbose: bool,
-    engine: Literal["dask"],
+    source: Path | str | None = ...,
+    seed: int = ...,
+    config: Path | str | dict[str, Any] | None = ...,
+    year: int | None = ...,
+    state: str | None = ...,
+    verbose: bool = ...,
+    engine: Literal["dask"] = ...,
 ) -> dd.DataFrame:
     ...
 
@@ -892,24 +892,24 @@ def generate_women_infants_and_children(
 
 @overload
 def generate_social_security(
-    source: Path | str | None = None,
-    seed: int = 0,
-    config: Path | str | dict[str, Any] | None = None,
-    year: int | None = 2020,
-    verbose: bool = False,
-    engine: Literal["pandas"] = "pandas",
+    source: Path | str | None = ...,
+    seed: int = ...,
+    config: Path | str | dict[str, Any] | None = ...,
+    year: int | None = ...,
+    verbose: bool = ...,
+    engine: Literal["pandas"] = ...,
 ) -> pd.DataFrame:
     ...
 
 
 @overload
 def generate_social_security(
-    source: Path | str | None,
-    seed: int,
-    config: Path | str | dict[str, Any] | None,
-    year: int | None,
-    verbose: bool,
-    engine: Literal["dask"],
+    source: Path | str | None = ...,
+    seed: int = ...,
+    config: Path | str | dict[str, Any] | None = ...,
+    year: int | None = ...,
+    verbose: bool = ...,
+    engine: Literal["dask"] = ...,
 ) -> dd.DataFrame:
     ...
 
@@ -1004,26 +1004,26 @@ def generate_social_security(
 
 @overload
 def generate_taxes_1040(
-    source: Path | str | None = None,
-    seed: int = 0,
-    config: Path | str | dict[str, Any] | None = None,
-    year: int | None = 2020,
-    state: str | None = None,
-    verbose: bool = False,
-    engine: Literal["pandas"] = "pandas",
+    source: Path | str | None = ...,
+    seed: int = ...,
+    config: Path | str | dict[str, Any] | None = ...,
+    year: int | None = ...,
+    state: str | None = ...,
+    verbose: bool = ...,
+    engine: Literal["pandas"] = ...,
 ) -> pd.DataFrame:
     ...
 
 
 @overload
 def generate_taxes_1040(
-    source: Path | str | None,
-    seed: int,
-    config: Path | str | dict[str, Any] | None,
-    year: int | None,
-    state: str | None,
-    verbose: bool,
-    engine: Literal["dask"],
+    source: Path | str | None = ...,
+    seed: int = ...,
+    config: Path | str | dict[str, Any] | None = ...,
+    year: int | None = ...,
+    state: str | None = ...,
+    verbose: bool = ...,
+    engine: Literal["dask"] = ...,
 ) -> dd.DataFrame:
     ...
 

diff --git a/src/pseudopeople/noise_functions.py b/src/pseudopeople/noise_functions.py
@@ -145,12 +145,12 @@ def duplicate_with_guardian(
     formatted_group_data = {}
     # Get dataframe for each dependent group to merge with guardians
     in_households_under_18 = dataset.data.loc[
-        (dataset.data["age"] < 18)
+        (dataset.data["age"].astype(int) < 18)
         & (dataset.data["housing_type"] == "Household")
         & (dataset.data["guardian_1"].notna())
     ]
     in_college_under_24 = dataset.data.loc[
-        (dataset.data["age"] < 24)
+        (dataset.data["age"].astype(int) < 24)
         & (dataset.data["housing_type"] == "College")
         & (dataset.data["guardian_1"].notna())
     ]

diff --git a/src/pseudopeople/noise_level.py b/src/pseudopeople/noise_level.py
@@ -31,7 +31,7 @@ def _get_census_omission_noise_levels(
         .astype(str)
         .map(data_values.DO_NOT_RESPOND_ADDITIVE_PROBABILITY_BY_RACE)
     )
-    ages = pd.Series(np.arange(population["age"].max() + 1))
+    ages = pd.Series(np.arange(population["age"].astype(int).max() + 1))
     for sex in ["Female", "Male"]:
         effect_by_age_bin = data_values.DO_NOT_RESPOND_ADDITIVE_PROBABILITY_BY_SEX_AGE[sex]
         # NOTE: calling pd.cut on a large array with an IntervalIndex is slow,
@@ -44,7 +44,7 @@ def _get_census_omission_noise_levels(
         )
         sex_mask = population["sex"] == sex
         probabilities[sex_mask] += (
-            population[sex_mask]["age"].map(effect_by_age).astype(float)
+            population[sex_mask]["age"].astype(int).map(effect_by_age).astype(float)
         )
     probabilities[probabilities < 0.0] = 0.0
     probabilities[probabilities > 1.0] = 1.0

diff --git a/tests/integration/release/conftest.py b/tests/integration/release/conftest.py
@@ -5,7 +5,7 @@
 import time
 from collections.abc import Callable
 from pathlib import Path
-from typing import Any
+from typing import Any, Literal
 
 import pandas as pd
 import pytest
@@ -39,8 +39,8 @@
     "cps": "current_population_survey",
     "census": "decennial_census",
     "ssa": "social_security",
-    "taxes_1040": "taxes_1040",
-    "taxes_w2_and_1099": "taxes_w2_and_1099",
+    "tax_1040": "taxes_1040",
+    "tax_w2_1099": "taxes_w2_and_1099",
     "wic": "women_infants_and_children",
 }
 
@@ -112,7 +112,14 @@ def release_output_dir(request: pytest.FixtureRequest) -> Path:
 @pytest.fixture(scope="session")
 def dataset_params(
     request: pytest.FixtureRequest,
-) -> tuple[str | int | Callable[..., pd.DataFrame] | None, ...]:
+) -> tuple[
+    str,
+    Callable[..., pd.DataFrame],
+    str | None,
+    int | None,
+    str | None,
+    Literal["pandas", "dask"],
+]:
     dataset_name = request.config.getoption("--dataset")
     try:
         dataset_func = DATASET_GENERATION_FUNCS[dataset_name]