use range in fuzzy checker

Hussain Jafari · Hussain Jafari · commit 201dc36c161c · 2025-03-27T13:57:19.000-07:00
diff --git a/src/pseudopeople/noise_level.py b/src/pseudopeople/noise_level.py
@@ -31,7 +31,7 @@ def _get_census_omission_noise_levels(
         .astype(str)
         .map(data_values.DO_NOT_RESPOND_ADDITIVE_PROBABILITY_BY_RACE)
     )
-    ages = pd.Series(np.arange(population["age"].max() + 1))
+    ages = pd.Series(np.arange(population["age"].astype(int).max() + 1))
     for sex in ["Female", "Male"]:
         effect_by_age_bin = data_values.DO_NOT_RESPOND_ADDITIVE_PROBABILITY_BY_SEX_AGE[sex]
         # NOTE: calling pd.cut on a large array with an IntervalIndex is slow,
@@ -44,7 +44,7 @@ def _get_census_omission_noise_levels(
         )
         sex_mask = population["sex"] == sex
         probabilities[sex_mask] += (
-            population[sex_mask]["age"].map(effect_by_age).astype(float)
+            population[sex_mask]["age"].astype(int).map(effect_by_age).astype(float)
         )
     probabilities[probabilities < 0.0] = 0.0
     probabilities[probabilities > 1.0] = 1.0
diff --git a/tests/integration/release/test_release.py b/tests/integration/release/test_release.py
@@ -131,7 +131,8 @@ def test_do_not_respond(
         name="test_do_not_respond",
         observed_numerator=len(original_data) - len(noised_data),
         observed_denominator=len(original_data),
-        target_proportion=expected_noise,
+        # 3% uncertainty on either side
+        target_proportion=(expected_noise *.97, expected_noise*1.03),
         name_additional=f"noised_data",
     )
     assert set(noised_data.columns) == set(original_data.columns)

Original file line number	Diff line number	Diff line change
`@@ -31,7 +31,7 @@ def _get_census_omission_noise_levels(`
`31`	`31`	`.astype(str)`
`32`	`32`	`.map(data_values.DO_NOT_RESPOND_ADDITIVE_PROBABILITY_BY_RACE)`
`33`	`33`	`)`
`34`		`- ages = pd.Series(np.arange(population["age"].max() + 1))`
	`34`	`+ ages = pd.Series(np.arange(population["age"].astype(int).max() + 1))`
`35`	`35`	`for sex in ["Female", "Male"]:`
`36`	`36`	`effect_by_age_bin = data_values.DO_NOT_RESPOND_ADDITIVE_PROBABILITY_BY_SEX_AGE[sex]`
`37`	`37`	`# NOTE: calling pd.cut on a large array with an IntervalIndex is slow,`
`@@ -44,7 +44,7 @@ def _get_census_omission_noise_levels(`
`44`	`44`	`)`
`45`	`45`	`sex_mask = population["sex"] == sex`
`46`	`46`	`probabilities[sex_mask] += (`
`47`		`- population[sex_mask]["age"].map(effect_by_age).astype(float)`
	`47`	`+ population[sex_mask]["age"].astype(int).map(effect_by_age).astype(float)`
`48`	`48`	`)`
`49`	`49`	`probabilities[probabilities < 0.0] = 0.0`
`50`	`50`	`probabilities[probabilities > 1.0] = 1.0`