ihmeuw
diff --git a/‎src/idd_forecast_mbp/02_data_prep/07_forecasted_dataframes_non_draw_part.py‎
Lines changed: 9 additions & 3 deletions b/‎src/idd_forecast_mbp/02_data_prep/07_forecasted_dataframes_non_draw_part.py‎
Lines changed: 9 additions & 3 deletions
diff --git a/‎src/idd_forecast_mbp/02_data_prep/make_dah_df.ipynb‎
Lines changed: 101 additions & 0 deletions b/‎src/idd_forecast_mbp/02_data_prep/make_dah_df.ipynb‎
Lines changed: 101 additions & 0 deletions
diff --git a/‎src/idd_forecast_mbp/03_modeling/malaria_models_2025_07_03.r‎
Lines changed: 76 additions & 0 deletions b/‎src/idd_forecast_mbp/03_modeling/malaria_models_2025_07_03.r‎
Lines changed: 76 additions & 0 deletions
diff --git a/‎src/idd_forecast_mbp/03_modeling/malaria_models_2025_07_08.r‎
Lines changed: 129 additions & 0 deletions b/‎src/idd_forecast_mbp/03_modeling/malaria_models_2025_07_08.r‎
Lines changed: 129 additions & 0 deletions
@@ -44,7 +44,8 @@
 }
 
 # DAH
-dah_df_path = f"{VARIABLE_DATA_PATH}/dah_df.parquet"
+# dah_df_path = f"{VARIABLE_DATA_PATH}/dah_df.parquet"
+dah_df_path = f"{PROCESSED_DATA_PATH}/dah_df_2025_07_08.parquet"
 
 urban_paths = {
     "urban_threshold_300":      "{VARIABLE_DATA_PATH}/urban_threshold_300.0_simple_mean.parquet",
@@ -112,8 +113,13 @@
 
     print("Reading DAH data...")
     dah_df = read_parquet_with_integer_ids(dah_df_path)
-    dah_df = dah_df.filter(regex="location_id|year_id|total")
-    forecast_df = forecast_df.merge(dah_df, on=["location_id", "year_id"], how = "left")
+    dah_df = dah_df.rename(columns={'location_id': 'A0_location_id'})
+    dah_df = dah_df.drop(columns=['population', 'location_name', 'iso3'], errors='ignore')
+    # dah_df = dah_df.filter(regex="location_id|year_id|total")
+    forecast_df = forecast_df.merge(dah_df, on=["A0_location_id", "year_id"], how = "left")
+    # Set any NaN values in the total column to 0
+    forecast_df['mal_DAH_total'] = forecast_df['mal_DAH_total'].fillna(0)
+    forecast_df['mal_DAH_total_per_capita'] = forecast_df['mal_DAH_total_per_capita'].fillna(0)
 
     print("Writing malaria forecast non-draw part...")
     cause = "malaria"
 
@@ -0,0 +1,101 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "1e6d9ab8",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import numpy as np # type: ignore\n",
+    "import pandas as pd # type: ignore\n",
+    "from idd_forecast_mbp import constants as rfc\n",
+    "from idd_forecast_mbp.helper_functions import merge_dataframes, read_income_paths, read_urban_paths, level_filter\n",
+    "from idd_forecast_mbp.parquet_functions import read_parquet_with_integer_ids, write_parquet\n",
+    "\n",
+    "FORECASTING_DATA_PATH = rfc.MODEL_ROOT / \"04-forecasting_data\"\n",
+    "PROCESSED_DATA_PATH = rfc.MODEL_ROOT / \"02-processed_data\"\n",
+    "aa_full_population_df_path = f\"{PROCESSED_DATA_PATH}/aa_2023_full_population_df.parquet\"\n",
+    "\n",
+    "hierarchy_df_path = f'{PROCESSED_DATA_PATH}/full_hierarchy_lsae_1209.parquet'\n",
+    "hierarchy_df = read_parquet_with_integer_ids(hierarchy_df_path)\n",
+    "\n",
+    "dah_df_path = f\"{PROCESSED_DATA_PATH}/dah_df_2025_07_08.parquet\""
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "0a2fd7ad",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "new_dah_path = '/mnt/share/resource_tracking/forecasting/dah_channel_HFA/FGH_2024_submission_5_reference/dah_by_channel_hfa_recip_1990_2100.csv'\n",
+    "new_dah_df = pd.read_csv(new_dah_path)\n",
+    "new_dah_df = new_dah_df[(new_dah_df['hfa'] == 'mal') & (new_dah_df['year'] >= 2000)]\n",
+    "new_dah_df = new_dah_df.groupby(['year', 'recip']).agg({'dah': 'sum'}).reset_index()\n",
+    "new_dah_df = new_dah_df.rename(columns={'recip': 'iso3', 'dah': 'mal_DAH_total', 'year': 'year_id'})\n",
+    "\n",
+    "A0_hierarchy_df = hierarchy_df[hierarchy_df['level'] == 3].copy()\n",
+    "A0_hierarchy_df = A0_hierarchy_df[['location_id', 'location_name', 'ihme_loc_id']].drop_duplicates().reset_index(drop=True)\n",
+    "A0_hierarchy_df = A0_hierarchy_df.rename(columns={'ihme_loc_id': 'iso3'})\n",
+    "\n",
+    "new_dah_df = new_dah_df.merge(A0_hierarchy_df, on='iso3', how='inner')\n",
+    "A0_location_filter = ('location_id', 'in', A0_hierarchy_df['location_id'].unique().tolist())\n",
+    "pop_df = read_parquet_with_integer_ids(aa_full_population_df_path, filters=[A0_location_filter])\n",
+    "new_dah_df = new_dah_df.merge(pop_df, on=['location_id', 'year_id'], how='left')\n",
+    "\n",
+    "new_dah_df['mal_DAH_total_per_capita'] = new_dah_df['mal_DAH_total'] / new_dah_df['population']"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "97c723d4",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "✅ Metadata validation passed for /mnt/team/idd/pub/forecast-mbp/02-processed_data/dah_df_2025_07_08.parquet\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "True"
+      ]
+     },
+     "execution_count": 3,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "write_parquet(new_dah_df,dah_df_path)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "forecast-mbp",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.12.9"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
@@ -0,0 +1,76 @@
+rm(list = ls())
+#
+
+require(glue)
+require(mgcv)
+require(scam)
+require(arrow)
+require(data.table)
+
+"%ni%" <- Negate("%in%")
+"%nlike%" <- Negate("%like%")
+
+###########################################
+dah_scenario_name = 'Baseline'
+draw = '077'
+
+REPO_DIR = "/mnt/team/idd/pub/forecast-mbp"
+last_year <- 2022
+data_path <- glue("{REPO_DIR}/03-modeling_data")
+FORECASTING_DATA_PATH = glue("{REPO_DIR}/04-forecasting_data")
+
+ssp585_df_path <- glue("{FORECASTING_DATA_PATH}/malaria_forecast_ssp_scenario_ssp585_dah_scenario_{dah_scenario_name}_draw_{draw}.parquet")
+ssp585_df <-as.data.frame(arrow::read_parquet(ssp585_df_path))
+ssp585_df$A0_af <- as.factor(ssp585_df$A0_af)
+
+past_data <- ssp585_df[-which(is.na(ssp585_df$malaria_pfpr)),]
+past_data <- past_data[-which(is.na(past_data$gdppc_mean)),]
+
+past_data$malaria_suit_fraction <- past_data$malaria_suitability / 365
+past_data$malaria_suit_fraction <- pmin(pmax(past_data$malaria_suit_fraction, 0.001), 0.999)
+past_data$logit_malaria_suitability <- log(past_data$malaria_suit_fraction / (1 - past_data$malaria_suit_fraction))
+
+malaria_pfpr_mod <- scam(logit_malaria_pfpr ~ logit_malaria_suitability + 
+                             s(gdppc_mean, k = 6, bs = 'mpd') + 
+                             s(mal_DAH_total_per_capita, k = 6, bs = 'mpd') + 
+                             people_flood_days_per_capita + 
+                             A0_af,
+                           data = past_data,
+                           optimizer = "efs",      # Faster optimizer
+                           control = list(maxit = 300))  # Limit iterations
+
+mod_df <- past_data[which(past_data$aa_malaria_mort_rate > 0),]
+mortality_scam_mod <- scam(log_aa_malaria_mort_rate ~ s(logit_malaria_pfpr, k = 10, bs = "mpi") + 
+                             log_gdppc_mean + 
+                             A0_af,
+                           data = mod_df,
+                           optimizer = "efs",      # Faster optimizer
+                           control = list(maxit = 300))  # Limit iterations
+
+mod_df <- past_data[which(past_data$aa_malaria_inc_rate > 0),]
+incidence_scam_mod <- scam(log_aa_malaria_inc_rate ~ s(logit_malaria_pfpr, k = 10, bs = "mpi") + 
+                             log_gdppc_mean + A0_af,
+                           data = mod_df,
+                           optimizer = "efs",      # Faster optimizer
+                           control = list(maxit = 300))  # Limit iterations
+
+mod_df <- past_data[which(past_data$base_malaria_mort_rate > 0),]
+mortality_base_scam_mod <- scam(log_base_malaria_mort_rate ~ s(logit_malaria_pfpr, k = 10, bs = "mpi") + 
+                             log_gdppc_mean + 
+                             A0_af,
+                           data = mod_df,
+                           optimizer = "efs",      # Faster optimizer
+                           control = list(maxit = 300))  # Limit iterations
+
+mod_df <- past_data[which(past_data$base_malaria_inc_rate  > 0),]
+incidence_base_scam_mod <- scam(log_base_malaria_inc_rate ~ s(logit_malaria_pfpr, k = 10, bs = "mpi") + 
+                             log_gdppc_mean + A0_af,
+                           data = mod_df,
+                           optimizer = "efs",      # Faster optimizer
+                           control = list(maxit = 300))  # Limit iterations
+
+
+model_names <- c("malaria_pfpr_mod", "mortality_scam_mod", "incidence_scam_mod", "mortality_base_scam_mod",
+                 "incidence_base_scam_mod")
+
+save(list = model_names, file = glue("{data_path}/2025_07_03_malaria_models.RData"))
@@ -0,0 +1,129 @@
+rm(list = ls())
+#
+
+require(glue)
+require(mgcv)
+require(scam)
+require(arrow)
+require(data.table)
+
+"%ni%" <- Negate("%in%")
+"%nlike%" <- Negate("%like%")
+
+###########################################
+
+REPO_DIR = "/mnt/team/idd/pub/forecast-mbp"
+last_year <- 2022
+data_path <- glue("{REPO_DIR}/03-modeling_data")
+FORECASTING_DATA_PATH = glue("{REPO_DIR}/04-forecasting_data")
+
+df_path <- glue("{FORECASTING_DATA_PATH}/malaria_forecast_ssp_scenario_ssp126_dah_scenario_Baseline_draw_000.parquet")
+df <-as.data.frame(arrow::read_parquet(df_path))
+df$A0_af <- as.factor(df$A0_af)
+
+past_data <- df[-which(is.na(df$malaria_pfpr)),]
+past_data <- past_data[-which(is.na(past_data$gdppc_mean)),]
+
+past_data$malaria_suit_fraction <- past_data$malaria_suitability / 365
+past_data$malaria_suit_fraction <- pmin(pmax(past_data$malaria_suit_fraction, 0.001), 0.999)
+past_data$logit_malaria_suitability <- log(past_data$malaria_suit_fraction / (1 - past_data$malaria_suit_fraction))
+
+
+
+malaria_pfpr_mod <- scam(logit_malaria_pfpr ~ logit_malaria_suitability + 
+                             s(gdppc_mean, k = 6, bs = 'mpd') + 
+                             s(mal_DAH_total_per_capita, k = 6, bs = 'mpd') + 
+                             people_flood_days_per_capita + 
+                             A0_af,
+                           data = past_data,
+                           optimizer = "efs",      # Faster optimizer
+                           control = list(maxit = 300))  # Limit iterations
+
+
+
+
+mod_df <- past_data[which(past_data$aa_malaria_mort_rate > 0),]
+mortality_scam_mod <- scam(log_aa_malaria_mort_rate ~ s(logit_malaria_pfpr, k = 10, bs = "mpi") + 
+                             log_gdppc_mean + 
+                             A0_af,
+                           data = mod_df,
+                           optimizer = "efs",      # Faster optimizer
+                           control = list(maxit = 300))  # Limit iterations
+
+mod_df <- past_data[which(past_data$aa_malaria_inc_rate > 0),]
+incidence_scam_mod <- scam(log_aa_malaria_inc_rate ~ s(logit_malaria_pfpr, k = 10, bs = "mpi") + 
+                             log_gdppc_mean + A0_af,
+                           data = mod_df,
+                           optimizer = "efs",      # Faster optimizer
+                           control = list(maxit = 300))  # Limit iterations
+
+mod_df <- past_data[which(past_data$base_malaria_mort_rate > 0),]
+mortality_base_scam_mod <- scam(log_base_malaria_mort_rate ~ s(logit_malaria_pfpr, k = 10, bs = "mpi") + 
+                                  log_gdppc_mean + 
+                                  A0_af,
+                                data = mod_df,
+                                optimizer = "efs",      # Faster optimizer
+                                control = list(maxit = 300))  # Limit iterations
+
+mod_df <- past_data[which(past_data$base_malaria_inc_rate  > 0),]
+incidence_base_scam_mod <- scam(log_base_malaria_inc_rate ~ s(logit_malaria_pfpr, k = 10, bs = "mpi") + 
+                                  log_gdppc_mean + A0_af,
+                                data = mod_df,
+                                optimizer = "efs",      # Faster optimizer
+                                control = list(maxit = 300))  # Limit iterations
+
+
+model_names <- c("malaria_pfpr_mod", "mortality_scam_mod", "incidence_scam_mod", "mortality_base_scam_mod",
+                 "incidence_base_scam_mod")
+
+save(list = model_names, file = glue("{data_path}/2025_07_08_malaria_models.RData"))
+
+
+
+
+
+percentiles = seq(0, 1, by = 0.05)
+mal_dah_perc = sapply(percentiles, function(p) {
+  quantile(past_data$mal_DAH_total_per_capita, p, na.rm = TRUE)
+})
+
+mal_dah_perc = unique(mal_dah_perc)
+
+bin_df <- data.frame(bin_start = head(mal_dah_perc, -1),
+                     bin_end = tail(mal_dah_perc, -1),
+                     mean_residual = NA,
+                     Q1 = NA,
+                     Q3 = NA)
+for (i in bin_df$bin_start){
+  tmp_locs <- which(past_data$mal_DAH_total_per_capita >= i & 
+                        past_data$mal_DAH_total_per_capita < (i + 0.01))
+  bin_df$mean_residual[which(bin_df$bin_start == i)] <- mean(malaria_pfpr_mod$residuals[tmp_locs])
+  bin_df$Q1[which(bin_df$bin_start == i)] <- quantile(malaria_pfpr_mod$residuals[tmp_locs], 0.25)
+  bin_df$Q3[which(bin_df$bin_start == i)] <- quantile(malaria_pfpr_mod$residuals[tmp_locs], 0.75)
+}
+
+
+par(mfrow=c(3,1))
+plot(malaria_pfpr_mod, select = 2)
+plot(bin_df$bin_start+bin_df$bin_end, bin_df$mean_residual, type = 'n',xlim = c(0, max(bin_df$bin_end)), ylim = c(min(bin_df$Q1), max(bin_df$Q3)))
+abline(h = 0, lty = 2)
+for (i in seq_along(bin_df$bin_start)){
+  lines(c(bin_df$bin_start[i], bin_df$bin_end[i]), 
+        c(bin_df$mean_residual[i], bin_df$mean_residual[i]),
+        col = "blue", lwd = 2)
+  lines(rep((bin_df$bin_start[i] + bin_df$bin_end[i]) / 2, 2), 
+          c(bin_df$Q1[i], bin_df$Q3[i]),
+          col = "red", lwd = 2)
+}
+plot(bin_df$bin_start+1e-6, bin_df$mean_residual, type = 'n', xlim = c(min(bin_df$bin_start) + 1e-6, max(bin_df$bin_end)), ylim = c(min(bin_df$Q1), max(bin_df$Q3)), log = 'x')
+abline(h = 0, lty = 2)
+for (i in seq_along(bin_df$bin_start)){
+  lines(c(bin_df$bin_start[i]+1e-6, bin_df$bin_end[i]), 
+        c(bin_df$mean_residual[i], bin_df$mean_residual[i]),
+        col = "blue", lwd = 2)
+  lines(rep((bin_df$bin_start[i]+1e-6 + bin_df$bin_end[i]) / 2, 2), 
+        c(bin_df$Q1[i], bin_df$Q3[i]),
+        col = "red", lwd = 2)
+}
+
+