intermediate push

hussain-jafari · hussain-jafari · commit d8252d7a7e73 · 2024-12-19T16:17:29.000-08:00
diff --git a/tests/integration/release/conftest.py b/tests/integration/release/conftest.py
@@ -93,9 +93,10 @@ def pytest_addoption(parser: pytest.Parser) -> None:
 def release_output_dir() -> Path:
     # TODO: [MIC-5522] define correct output dir
     # output_dir = os.environ.get("PSP_TEST_OUTPUT_DIR")
-    output_dir_name = (
-        "/mnt/team/simulation_science/priv/engineering/pseudopeople_release_testing"
-    )
+    # output_dir_name = (
+    #     "/mnt/team/simulation_science/priv/engineering/pseudopeople_release_testing"
+    # )
+    output_dir_name = "/home/hjafari/ppl_testing"
     # if not output_dir_name:
     #     raise ValueError("PSP_TEST_OUTPUT_DIR environment variable not set")
     output_dir = Path(output_dir_name) / f"{time.strftime('%Y%m%d_%H%M%S')}"
@@ -132,14 +133,16 @@ def dataset_params(
 
 
 @pytest.fixture(scope="session")
-def data(
+def noised_data(
     dataset_params: tuple[str | int | Callable[..., pd.DataFrame] | None, ...],
     release_output_dir: Path,
+    request: pytest.FixtureRequest,
     config: dict[str, Any],
 ) -> pd.DataFrame:
     _, dataset_func, source, year, state, engine = dataset_params
 
-    if source is None:
+    run_slow = request.config.getoption("--runslow")
+    if run_slow: # get sample data
         return dataset_func(seed=SEED, year=None, config=config)  # type: ignore [misc, operator]
 
     kwargs = {
@@ -162,7 +165,8 @@ def unnoised_dataset(
     dataset_arg, dataset_func, source, year, state, engine = dataset_params
     dataset_name = DATASET_ARG_TO_FULL_NAME_MAPPER[dataset_arg]  # type: ignore [index]
 
-    if source is None:
+    run_slow = request.config.getoption("--runslow")
+    if run_slow:  # get sample data
         return initialize_dataset_with_sample(dataset_name)
 
     kwargs = {
diff --git a/tests/integration/release/test_release.py b/tests/integration/release/test_release.py
@@ -2,10 +2,15 @@
 
 from typing import Any
 
+import pandas as pd
+import pytest
+
 from _pytest.fixtures import FixtureRequest
 from vivarium_testing_utils import FuzzyChecker
 
+from pseudopeople.dataset import Dataset
 from pseudopeople.schema_entities import COLUMNS, DATASET_SCHEMAS
+from tests.constants import DATASET_GENERATION_FUNCS
 from tests.integration.conftest import IDX_COLS, _get_common_datasets, get_unnoised_data
 from tests.utilities import (
     initialize_dataset_with_sample,
@@ -15,30 +20,27 @@
 
 
 def test_column_noising(
+    unnoised_dataset: Dataset,
+    noised_data: pd.DataFrame,
     config: dict[str, Any],
     dataset_name: str,
-    request: FixtureRequest,
     fuzzy_checker: FuzzyChecker,
 ) -> None:
     """Tests that columns are noised as expected"""
-    original = request.getfixturevalue("unnoised_dataset")
-    noised_data = request.getfixturevalue("data")
-
-    check_noised, check_original, shared_idx = _get_common_datasets(original, noised_data)
+    check_noised, check_original, shared_idx = _get_common_datasets(unnoised_dataset, noised_data)
 
     run_column_noising_tests(
         dataset_name, config, fuzzy_checker, check_noised, check_original, shared_idx
     )
 
 
 def test_row_noising_omit_row_or_do_not_respond(
-    dataset_name: str, config: dict[str, Any], request: FixtureRequest
+    noised_data: pd.DataFrame, dataset_name: str, config: dict[str, Any], request: FixtureRequest
 ) -> None:
     """Tests that omit_row and do_not_respond row noising are being applied"""
     idx_cols = IDX_COLS.get(dataset_name)
     original = get_unnoised_data(dataset_name)
     original_data = original.data.set_index(idx_cols)
-    noised_data = request.getfixturevalue("data")
     noised_data = noised_data.set_index(idx_cols)
 
     run_omit_row_or_do_not_respond_tests(dataset_name, config, original_data, noised_data)
@@ -52,7 +54,7 @@ def test_unnoised_id_cols(dataset_name: str, request: FixtureRequest) -> None:
     if dataset_name != DATASET_SCHEMAS.ssa.name:
         unnoised_id_cols.append(COLUMNS.household_id.name)
     original = initialize_dataset_with_sample(dataset_name)
-    noised_data = request.getfixturevalue("data")
+    noised_data = request.getfixturevalue("noised_data")
     check_noised, check_original, _ = _get_common_datasets(original, noised_data)
     assert (
         (
diff --git a/tests/integration/release/test_runner.py b/tests/integration/release/test_runner.py
@@ -23,3 +23,13 @@ def test_runner(pytest_args: list[str]) -> None:
     cmd = base_cmd + pytest_args
     result = subprocess.run(cmd, capture_output=True, text=True)
     assert result.returncode == 0
+
+# mark this as slow
+@pytest.mark.parametrize("dataset", ["acs", "cps"])
+def test_slow_tests() -> None:
+    os.chdir(Path(__file__).parent)  # need this to access cli options from conftest.py
+    base_cmd = ["pytest", "--release", "test_release.py"]
+    cmd = base_cmd + pytest_args
+    result = subprocess.run(cmd, capture_output=True, text=True)
+    assert result.returncode == 0
+    pass
diff --git a/tests/integration/test_interface.py b/tests/integration/test_interface.py
@@ -225,96 +225,6 @@ def test_column_dtypes(
         assert noised_data[col.name].dtype == expected_dtype
 
 
-@pytest.mark.parametrize(
-    "dataset_name",
-    [
-        DATASET_SCHEMAS.census.name,
-        DATASET_SCHEMAS.acs.name,
-        DATASET_SCHEMAS.cps.name,
-        DATASET_SCHEMAS.ssa.name,
-        DATASET_SCHEMAS.tax_w2_1099.name,
-        DATASET_SCHEMAS.wic.name,
-        DATASET_SCHEMAS.tax_1040.name,
-    ],
-)
-@pytest.mark.parametrize(
-    "engine",
-    [
-        "pandas",
-        "dask",
-    ],
-)
-def test_column_noising(
-    dataset_name: str,
-    engine: str,
-    config: dict[str, Any],
-    request: FixtureRequest,
-    fuzzy_checker: FuzzyChecker,
-) -> None:
-    """Tests that columns are noised as expected"""
-    if "TODO" in dataset_name:
-        pytest.skip(reason=dataset_name)
-    original = initialize_dataset_with_sample(dataset_name)
-    if engine == "dask":
-        generation_function = DATASET_GENERATION_FUNCS[dataset_name]
-        noised_data = generation_function(
-            seed=SEED,
-            year=None,
-            config=config,
-            engine=engine,
-        ).compute()
-    else:
-        noised_data = request.getfixturevalue(f"noised_sample_data_{dataset_name}")
-    check_noised, check_original, shared_idx = _get_common_datasets(original, noised_data)
-
-    run_column_noising_tests(
-        dataset_name, config, fuzzy_checker, check_noised, check_original, shared_idx
-    )
-
-
-@pytest.mark.parametrize(
-    "dataset_name",
-    [
-        DATASET_SCHEMAS.census.name,
-        DATASET_SCHEMAS.acs.name,
-        DATASET_SCHEMAS.cps.name,
-        DATASET_SCHEMAS.ssa.name,
-        DATASET_SCHEMAS.tax_w2_1099.name,
-        DATASET_SCHEMAS.wic.name,
-        DATASET_SCHEMAS.tax_1040.name,
-    ],
-)
-@pytest.mark.parametrize(
-    "engine",
-    [
-        "pandas",
-        "dask",
-    ],
-)
-def test_row_noising_omit_row_or_do_not_respond(
-    dataset_name: str, engine: str, config: dict[str, Any], request: FixtureRequest
-) -> None:
-    """Tests that omit_row and do_not_respond row noising are being applied"""
-    if "TODO" in dataset_name:
-        pytest.skip(reason=dataset_name)
-    idx_cols = IDX_COLS.get(dataset_name)
-    original = get_unnoised_data(dataset_name)
-    original_data = original.data.set_index(idx_cols)
-    if engine == "dask":
-        generation_function = DATASET_GENERATION_FUNCS[dataset_name]
-        noised_data = generation_function(
-            seed=SEED,
-            year=None,
-            config=config,
-            engine=engine,
-        ).compute()
-    else:
-        noised_data = request.getfixturevalue(f"noised_sample_data_{dataset_name}")
-    noised_data = noised_data.set_index(idx_cols)
-
-    run_omit_row_or_do_not_respond_tests(dataset_name, config, original_data, noised_data)
-
-
 @pytest.mark.skip(reason="TODO: Implement duplication row noising")
 @pytest.mark.parametrize(
     "dataset_name",
@@ -336,42 +246,13 @@ def test_row_noising_duplication(dataset_name: str) -> None:
 @pytest.mark.parametrize(
     "dataset_name",
     [
-        DATASET_SCHEMAS.census.name,
+        # DATASET_SCHEMAS.census.name,
+        # DATASET_SCHEMAS.tax_w2_1099.name,
+        # DATASET_SCHEMAS.wic.name,
+        # DATASET_SCHEMAS.tax_1040.name,
         DATASET_SCHEMAS.acs.name,
         DATASET_SCHEMAS.cps.name,
         DATASET_SCHEMAS.ssa.name,
-        DATASET_SCHEMAS.tax_w2_1099.name,
-        DATASET_SCHEMAS.wic.name,
-        DATASET_SCHEMAS.tax_1040.name,
-    ],
-)
-@pytest.mark.parametrize(
-    "engine",
-    [
-        "pandas",
-        "dask",
-    ],
-)
-def test_generate_dataset_with_year(dataset_name: str, engine: str) -> None:
-    if "TODO" in dataset_name:
-        pytest.skip(reason=dataset_name)
-    year = 2030  # not default 2020
-    generation_function = DATASET_GENERATION_FUNCS[dataset_name]
-    original = get_unnoised_data(dataset_name)
-    # Generate a new (non-fixture) noised dataset for a single year
-    noised_data = generation_function(year=year, engine=engine)
-    if engine == "dask":
-        noised_data = noised_data.compute()
-    assert not original.data.equals(noised_data)
-
-
-@pytest.mark.parametrize(
-    "dataset_name",
-    [
-        DATASET_SCHEMAS.census.name,
-        DATASET_SCHEMAS.tax_w2_1099.name,
-        DATASET_SCHEMAS.wic.name,
-        DATASET_SCHEMAS.tax_1040.name,
     ],
 )
 @pytest.mark.parametrize(
@@ -391,16 +272,16 @@ def test_dataset_filter_by_year(
         pytest.skip(reason=dataset_name)
     year = 2030  # not default 2020
 
-    # Generate a new (non-fixture) noised dataset for a single year but mocked such
+    # Generate a new (non-fixture) dataset for a single year but mocked such
     # that no noise actually happens (otherwise the years would get noised and
     # we couldn't tell if the filter was working properly)
     mocker.patch("pseudopeople.dataset.Dataset._noise_dataset")
     generation_function = DATASET_GENERATION_FUNCS[dataset_name]
-    noised_data = generation_function(year=year, engine=engine)
+    data = generation_function(year=year, engine=engine)
     if engine == "dask":
-        noised_data = noised_data.compute()
+        data = data.compute()
     dataset = DATASET_SCHEMAS.get_dataset_schema(dataset_name)
-    assert (noised_data[dataset.date_column_name] == year).all()
+    assert (data[dataset.date_column_name] == year).all()
 
 
 @pytest.mark.parametrize(