ihmeuw
diff --git a/‎src/idd_forecast_mbp/02_data_prep/04_rake_as_A2_to_GBD.py‎
Lines changed: 19 additions & 0 deletions b/‎src/idd_forecast_mbp/02_data_prep/04_rake_as_A2_to_GBD.py‎
Lines changed: 19 additions & 0 deletions
diff --git a/‎src/idd_forecast_mbp/02_data_prep/88_alt_forecasted_malaria_dataframes_parallel.py‎
Lines changed: 111 additions & 0 deletions b/‎src/idd_forecast_mbp/02_data_prep/88_alt_forecasted_malaria_dataframes_parallel.py‎
Lines changed: 111 additions & 0 deletions
diff --git a/‎src/idd_forecast_mbp/02_data_prep/alt_forecasted_malaria_dataframes.py‎
Lines changed: 96 additions & 0 deletions b/‎src/idd_forecast_mbp/02_data_prep/alt_forecasted_malaria_dataframes.py‎
Lines changed: 96 additions & 0 deletions
diff --git a/‎src/idd_forecast_mbp/02_data_prep/forecasted_draw_specific_dengue_dataframes.py‎
Lines changed: 0 additions & 5 deletions b/‎src/idd_forecast_mbp/02_data_prep/forecasted_draw_specific_dengue_dataframes.py‎
Lines changed: 0 additions & 5 deletions
@@ -5,13 +5,15 @@
 from idd_forecast_mbp import constants as rfc
 from idd_forecast_mbp.helper_functions import level_filter
 from idd_forecast_mbp.parquet_functions import read_parquet_with_integer_ids, write_parquet
+from idd_forecast_mbp.xarray_functions import convert_to_xarray, write_netcdf
 
 PROCESSED_DATA_PATH = rfc.PROCESSED_DATA_PATH
 FORECASTING_DATA_PATH = rfc.FORECASTING_DATA_PATH
 GBD_DATA_PATH = rfc.GBD_DATA_PATH
 FHS_DATA_PATH = f"{PROCESSED_DATA_PATH}/age_specific_fhs"
 
 as_full_cause_df_path_template = '{PROCESSED_DATA_PATH}/as_full_{cause}_df.parquet'
+as_full_cause_ds_path_template = '{PROCESSED_DATA_PATH}/as_full_{cause}_ds.nc'
 ################################################################
 #### Paths, loading, and cleaning
 ################################################################
@@ -157,5 +159,22 @@
         as_full_cause_df.loc[as_full_cause_df['age_group_id'].isin(force_zero_age_ids), [f'{cause}_{measure_map[measure]["short"]}_{metric}' for measure in measure_map]] = 0
         as_full_cause_df.loc[as_full_cause_df['age_group_id'].isin(force_zero_age_ids), [f'aa_{cause}_{measure_map[measure]["short"]}_{metric}' for measure in measure_map]] = 0
     as_full_cause_df_path = as_full_cause_df_path_template.format(PROCESSED_DATA_PATH=PROCESSED_DATA_PATH, cause=cause)
+    as_full_cause_ds_path = as_full_cause_ds_path_template.format(PROCESSED_DATA_PATH=PROCESSED_DATA_PATH, cause=cause)
     write_parquet(as_full_cause_df, as_full_cause_df_path)
+
+
+    as_full_cause_ds = convert_to_xarray(
+        as_full_cause_df,
+        dimensions=['location_id', 'year_id', 'sex_id', 'age_group_id'],
+        dimension_dtypes={'location_id': 'int32', 'year_id': 'int16', 'sex_id': 'int16', 'age_group_id': 'int16'},
+        auto_optimize_dtypes=True
+    )
+    
+    write_netcdf(as_full_cause_ds, as_full_cause_ds_path,
+        compression=True,
+        compression_level=4,
+        chunking=True,
+        chunk_by_dim={'location_id': 1500, 'year_id': 79},
+        engine='netcdf4'
+    )
     print(f"Wrote {as_full_cause_df_path}")
@@ -0,0 +1,111 @@
+import getpass
+import uuid
+from jobmon.client.tool import Tool  # type: ignore
+from pathlib import Path
+import geopandas as gpd  # type: ignore
+from idd_forecast_mbp import constants as rfc
+
+repo_name = rfc.repo_name
+package_name = rfc.package_name
+
+# Script directory
+SCRIPT_ROOT = rfc.REPO_ROOT / repo_name / "src" / package_name / "02_data_prep"
+
+ssp_scenarios = rfc.ssp_scenarios
+draws = rfc.draws
+
+# Jobmon setup
+user = getpass.getuser()
+
+log_dir = Path(f"/mnt/share/homes/{user}/{package_name}/")
+log_dir.mkdir(parents=True, exist_ok=True)
+# Create directories for stdout and stderr
+stdout_dir = log_dir / "stdout"
+stderr_dir = log_dir / "stderr"
+stdout_dir.mkdir(parents=True, exist_ok=True)
+stderr_dir.mkdir(parents=True, exist_ok=True)
+
+# Project
+project = "proj_rapidresponse"  # Adjust this to your project name if needed
+
+
+wf_uuid = uuid.uuid4()
+tool_name = f"{package_name}_draw_level_dataframe_generation"
+tool = Tool(name=tool_name)
+
+# Create a workflow
+workflow = tool.create_workflow(
+    name=f"{tool_name}_workflow_{wf_uuid}",
+    max_concurrently_running=10000,  # Adjust based on system capacity
+)
+
+# Compute resources
+workflow.set_default_compute_resources_from_dict(
+    cluster_name="slurm",
+    dictionary={
+        "memory": "15G",
+        "cores": 1,
+        "runtime": "60m",
+        "queue": "all.q",
+        "project": project,
+        "stdout": str(stdout_dir),
+        "stderr": str(stderr_dir),
+    }
+)
+
+# Define the task template for processing each year batch
+task_template = tool.get_task_template(
+    template_name="alt_forecasted_malaria_dataframe_creation",
+    default_cluster_name="slurm",
+    default_compute_resources={
+        "memory": "50G",
+        "cores": 1,
+        "runtime": "1m",
+        "queue": "all.q",
+        "project": project,
+        "stdout": str(stdout_dir),
+        "stderr": str(stderr_dir),
+    },
+    command_template=(
+        "python {script_root}/alt_forecasted_malaria_dataframes.py "
+        "--ssp_scenario {{ssp_scenario}} "
+        "--draw {{draw}} "
+    ).format(script_root=SCRIPT_ROOT),
+    node_args=["ssp_scenario", "draw"],
+    task_args=[],
+    op_args=[],
+)
+
+# Add tasks
+tasks = []
+for ssp_scenario in ssp_scenarios:
+    for draw in draws:
+        # Create the primary task
+        task = task_template.create_task(
+            ssp_scenario=ssp_scenario,
+            draw=draw,
+        )
+        tasks.append(task)
+
+print(f"Number of tasks: {len(tasks)}")
+
+if tasks:
+    workflow.add_tasks(tasks)
+    print("✅ Tasks successfully added to workflow.")
+else:
+    print("⚠️ No tasks added to workflow. Check task generation.")
+
+try:
+    workflow.bind()
+    print("✅ Workflow successfully bound.")
+    print(f"Running workflow with ID {workflow.workflow_id}.")
+    print("For full information see the Jobmon GUI:")
+    print(f"https://jobmon-gui.ihme.washington.edu/#/workflow/{workflow.workflow_id}")
+except Exception as e:
+    print(f"❌ Workflow binding failed: {e}")
+
+try:
+    status = workflow.run()
+    print(f"Workflow {workflow.workflow_id} completed with status {status}.")
+except Exception as e:
+    print(f"❌ Workflow submission failed: {e}")
@@ -0,0 +1,96 @@
+import xarray as xr # type: ignore
+from pathlib import Path
+import numpy as np # type: ignore
+from typing import cast
+import numpy.typing as npt # type: ignore
+import pandas as pd # type: ignore
+from typing import Literal, NamedTuple
+import itertools
+from rra_tools.shell_tools import mkdir # type: ignore
+from idd_forecast_mbp import constants as rfc
+from idd_forecast_mbp.helper_functions import merge_dataframes, read_income_paths, read_urban_paths, level_filter
+from idd_forecast_mbp.parquet_functions import read_parquet_with_integer_ids, write_parquet
+
+
+import argparse
+parser = argparse.ArgumentParser(description="Add DAH Sceanrios and create draw level dataframes for forecating dengue")
+
+# Define arguments
+parser.add_argument("--ssp_scenario", type=str, required=True, help="ssp scenario number (ssp16, ssp245, ssp585")
+parser.add_argument("--draw", type=str, required=True, help="Draw number (e.g., '001', '002', etc.)")
+
+# Parse arguments
+args = parser.parse_args()
+
+
+ssp_scenario = args.ssp_scenario
+draw = args.draw
+
+# Hierarchy
+hierarchy = "lsae_1209"
+PROCESSED_DATA_PATH = rfc.MODEL_ROOT / "02-processed_data"
+FORECASTING_DATA_PATH = rfc.MODEL_ROOT / "04-forecasting_data"
+
+# New DAH data
+new_dah_scenarios = {
+    'reference': {
+        'name': 'reference',
+        'path': f'{PROCESSED_DATA_PATH}/dah_reference_df.parquet'
+    },
+    'better': {
+        'name': 'better',
+        'path': f'{PROCESSED_DATA_PATH}/dah_better_df.parquet'
+    },
+    'worse': {
+        'name': 'worse',
+        'path': f'{PROCESSED_DATA_PATH}/dah_worse_df.parquet'
+    }
+}
+
+
+base_dah_scenario_df_path_template = "{FORECASTING_DATA_PATH}/malaria_forecast_ssp_scenario_{ssp_scenario}_dah_scenario_Baseline_draw_{draw}.parquet"
+dah_scenario_df_path_template = "{FORECASTING_DATA_PATH}/malaria_forecast_ssp_scenario_{ssp_scenario}_dah_scenario_{dah_scenario_name}_draw_{draw}.parquet"
+
+columns_to_keep = ['location_id', 'year_id', 'people_flood_days_per_capita', 
+    'gdppc_mean', 'log_gdppc_mean', 
+    'logit_malaria_pfpr',
+    'aa_malaria_mort_rate', 'aa_malaria_inc_rate',
+    'base_malaria_mort_rate', 'base_malaria_inc_rate',
+    'log_aa_malaria_mort_rate', 'log_aa_malaria_inc_rate',
+    'log_base_malaria_mort_rate', 'log_base_malaria_inc_rate', 
+    'malaria_suitability', 'year_to_rake_to', 'A0_af']
+
+dah_columns_to_keep = ['location_id', 'year_id', 'mal_DAH_total_per_capita']
+
+
+base_dah_scenario_df_path = base_dah_scenario_df_path_template.format(
+    FORECASTING_DATA_PATH=FORECASTING_DATA_PATH,
+    ssp_scenario=ssp_scenario,
+    draw=draw
+)
+base_dah_scenario_df = read_parquet_with_integer_ids(base_dah_scenario_df_path,
+    columns=columns_to_keep
+)
+
+for dah_scenario_name, dah_scenario in new_dah_scenarios.items():
+    print(f"Processing DAH scenario: {dah_scenario_name}")
+    
+    # Read the new DAH scenario data
+    dah_df = read_parquet_with_integer_ids(dah_scenario['path'],
+        columns=dah_columns_to_keep)
+    
+    # Merge with the existing DAH scenario data
+    dah_scenario_df = base_dah_scenario_df.merge(dah_df, on=['location_id', 'year_id'], how='left')
+    
+    # Add the new DAH column
+    dah_scenario_df['mal_DAH_total_per_capita'] = dah_scenario_df['mal_DAH_total_per_capita'].fillna(0)
+    
+    # Write the output to a new parquet file
+    dah_scenario_df_path = dah_scenario_df_path_template.format(
+        FORECASTING_DATA_PATH=FORECASTING_DATA_PATH,
+        ssp_scenario=ssp_scenario,
+        dah_scenario_name=dah_scenario_name,
+        draw=draw
+    )
+
+    write_parquet(dah_scenario_df, dah_scenario_df_path)
@@ -49,11 +49,6 @@
 forecast_non_draw_df_path = f"{FORECASTING_DATA_PATH}/{cause}_forecast_scenario_{ssp_scenario}_non_draw_part.parquet"
 forecast_by_draw_df_path_template = "{FORECASTING_DATA_PATH}/{cause}_forecast_ssp_scenario_{ssp_scenario}_draw_{draw}.parquet"
 
-# Hierarchy path
-hierarchy_df_path = f'{PROCESSED_DATA_PATH}/full_hierarchy_lsae_1209.parquet'
-hierarchy_df = read_parquet_with_integer_ids(hierarchy_df_path)
-
-
 # Hierarchy path
 hierarchy_df_path = f'{PROCESSED_DATA_PATH}/full_hierarchy_lsae_1209.parquet'
 hierarchy_df = read_parquet_with_integer_ids(hierarchy_df_path)