ihmeuw
diff --git a/‎Jenkinsfile‎
Lines changed: 1 addition & 0 deletions b/‎Jenkinsfile‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/vivarium_testing_utils/automated_validation/constants.py‎
Lines changed: 21 additions & 0 deletions b/‎src/vivarium_testing_utils/automated_validation/constants.py‎
Lines changed: 21 additions & 0 deletions
diff --git a/‎src/vivarium_testing_utils/automated_validation/data_transformation/age_groups.py‎
Lines changed: 39 additions & 23 deletions b/‎src/vivarium_testing_utils/automated_validation/data_transformation/age_groups.py‎
Lines changed: 39 additions & 23 deletions
diff --git a/‎src/vivarium_testing_utils/automated_validation/data_transformation/utils.py‎
Lines changed: 43 additions & 11 deletions b/‎src/vivarium_testing_utils/automated_validation/data_transformation/utils.py‎
Lines changed: 43 additions & 11 deletions
diff --git a/‎src/vivarium_testing_utils/automated_validation/interface.py‎
Lines changed: 27 additions & 1 deletion b/‎src/vivarium_testing_utils/automated_validation/interface.py‎
Lines changed: 27 additions & 1 deletion
diff --git a/‎tests/automated_validation/conftest.py‎
Lines changed: 20 additions & 16 deletions b/‎tests/automated_validation/conftest.py‎
Lines changed: 20 additions & 16 deletions
@@ -29,5 +29,6 @@ library("vivarium_build_utils@${get_vbu_version()}")
 
 reusable_pipeline(
     scheduled_branches: ["main", "epic/auto-validation"],
+    requires_slurm: true,
     skip_doc_build: true
 )
@@ -1,6 +1,7 @@
 from __future__ import annotations
 
 from enum import Enum
+from typing import NamedTuple
 
 DRAW_PREFIX = "draw_"
 
@@ -24,3 +25,23 @@ def from_str(cls, source: str) -> DataSource:
 
 LOCATION_ARTIFACT_KEY = "population.location"
 POPULATION_STRUCTURE_ARTIFACT_KEY = "population.structure"
+
+
+class InputDataIndexNames(NamedTuple):
+    LOCATION_ID: str = "location_id"
+    SEX_ID: str = "sex_id"
+    AGE_GROUP_ID: str = "age_group_id"
+    YEAR_ID: str = "year_id"
+    PARAMETER: str = "parameter"
+    CAUSE_ID: str = "cause_id"
+    AFFECTED_ENTITY: str = "affected_entity"
+    LOCATION: str = "location"
+    SEX: str = "sex"
+    AGE_GROUP: str = "age_group"
+    AGE_START: str = "age_start"
+    AGE_END: str = "age_end"
+    YEAR_START: str = "year_start"
+    YEAR_END: str = "year_end"
+
+
+INPUT_DATA_INDEX_NAMES = InputDataIndexNames()
@@ -5,9 +5,7 @@
 import pandas as pd
 from loguru import logger
 
-AGE_GROUP_COLUMN = "age_group"
-AGE_START_COLUMN = "age_start"
-AGE_END_COLUMN = "age_end"
+from vivarium_testing_utils.automated_validation.constants import INPUT_DATA_INDEX_NAMES
 
 AgeTuple = tuple[str, int | float, int | float]
 AgeRange = tuple[int | float, int | float]
@@ -316,12 +314,19 @@ def from_dataframe(cls, df: pd.DataFrame) -> AgeSchema:
         -------
             An AgeSchema with the specified age groups.
         """
-        has_names = AGE_GROUP_COLUMN in df.index.names
-        has_ranges = AGE_START_COLUMN in df.index.names and AGE_END_COLUMN in df.index.names
+        has_age_group = INPUT_DATA_INDEX_NAMES.AGE_GROUP in df.index.names
+        has_age_range = (
+            INPUT_DATA_INDEX_NAMES.AGE_START in df.index.names
+            and INPUT_DATA_INDEX_NAMES.AGE_END in df.index.names
+        )
 
         # Usually this occurs for the artifact population.age_bins
-        if has_names and has_ranges:
-            levels = [AGE_GROUP_COLUMN, AGE_START_COLUMN, AGE_END_COLUMN]
+        if has_age_group and has_age_range:
+            levels = [
+                INPUT_DATA_INDEX_NAMES.AGE_GROUP,
+                INPUT_DATA_INDEX_NAMES.AGE_START,
+                INPUT_DATA_INDEX_NAMES.AGE_END,
+            ]
             age_groups = list(
                 df.index.droplevel(list(set(df.index.names) - set(levels)))
                 .reorder_levels(levels)
@@ -330,17 +335,17 @@ def from_dataframe(cls, df: pd.DataFrame) -> AgeSchema:
 
             return cls.from_tuples(age_groups)
         # Most artifact dataframes have age start/end but not age group
-        elif has_ranges:
-            levels = [AGE_START_COLUMN, AGE_END_COLUMN]
+        elif has_age_range:
+            levels = [INPUT_DATA_INDEX_NAMES.AGE_START, INPUT_DATA_INDEX_NAMES.AGE_END]
             age_groups = (
                 df.index.droplevel(list(set(df.index.names) - set(levels)))
                 .reorder_levels(levels)
                 .unique()
             )
             return cls.from_ranges(age_groups)
         # Most simulation dataframes have age group but not start/end
-        elif has_names:
-            levels = [AGE_GROUP_COLUMN]
+        elif has_age_group:
+            levels = [INPUT_DATA_INDEX_NAMES.AGE_GROUP]
             age_groups = list(
                 df.index.droplevel(list(set(df.index.names) - set(levels))).unique()
             )
@@ -355,12 +360,16 @@ def to_dataframe(self) -> pd.DataFrame:
         Convert the AgeSchema to a DataFrame with age group names and their start and end ages.
         """
         data = {
-            AGE_GROUP_COLUMN: [group.name for group in self.age_groups],
-            AGE_START_COLUMN: [group.start for group in self.age_groups],
-            AGE_END_COLUMN: [group.end for group in self.age_groups],
+            INPUT_DATA_INDEX_NAMES.AGE_GROUP: [group.name for group in self.age_groups],
+            INPUT_DATA_INDEX_NAMES.AGE_START: [group.start for group in self.age_groups],
+            INPUT_DATA_INDEX_NAMES.AGE_END: [group.end for group in self.age_groups],
         }
         return pd.DataFrame(data).set_index(
-            [AGE_GROUP_COLUMN, AGE_START_COLUMN, AGE_END_COLUMN]
+            [
+                INPUT_DATA_INDEX_NAMES.AGE_GROUP,
+                INPUT_DATA_INDEX_NAMES.AGE_START,
+                INPUT_DATA_INDEX_NAMES.AGE_END,
+            ]
         )
 
     def _validate(self) -> None:
@@ -428,7 +437,11 @@ def _format_dataframe(target_schema: AgeSchema, df: pd.DataFrame) -> pd.DataFram
     """
     source_age_schema = AgeSchema.from_dataframe(df)
     index_names = list(df.index.names)
-    for age_group_indices in [AGE_GROUP_COLUMN, AGE_START_COLUMN, AGE_END_COLUMN]:
+    for age_group_indices in [
+        INPUT_DATA_INDEX_NAMES.AGE_GROUP,
+        INPUT_DATA_INDEX_NAMES.AGE_START,
+        INPUT_DATA_INDEX_NAMES.AGE_END,
+    ]:
         if age_group_indices not in index_names:
             index_names.append(age_group_indices)
     df = pd.merge(
@@ -443,21 +456,22 @@ def _format_dataframe(target_schema: AgeSchema, df: pd.DataFrame) -> pd.DataFram
     if source_age_schema.is_subset(target_schema):
         return (
             pd.merge(
-                df.droplevel([AGE_GROUP_COLUMN]),
+                df.droplevel([INPUT_DATA_INDEX_NAMES.AGE_GROUP]),
                 target_schema.to_dataframe(),
                 left_index=True,
                 right_index=True,
             )
             .reorder_levels(index_names)
-            .droplevel([AGE_START_COLUMN, AGE_END_COLUMN])
+            .droplevel([INPUT_DATA_INDEX_NAMES.AGE_START, INPUT_DATA_INDEX_NAMES.AGE_END])
         )
     else:
         logger.info(
             f"Rebinning DataFrame age groups from {source_age_schema} to {target_schema}."
         )
         # if we don't fit pandera schema SimOutputData, assume the data is rate data and raise an error.
         data = rebin_count_dataframe(
-            target_schema, df.droplevel([AGE_START_COLUMN, AGE_END_COLUMN])
+            target_schema,
+            df.droplevel([INPUT_DATA_INDEX_NAMES.AGE_START, INPUT_DATA_INDEX_NAMES.AGE_END]),
         )
         return data
 
@@ -496,18 +510,20 @@ def rebin_count_dataframe(
         # Unstack the DataFrame to get the age groups as columns
         unstacked_series = (
             df[val_col]
-            .unstack(level=AGE_GROUP_COLUMN, fill_value=0)
+            .unstack(level=INPUT_DATA_INDEX_NAMES.AGE_GROUP, fill_value=0)
             .reindex(columns=transform_matrix.columns, fill_value=0)
         )
 
         # Perform the dot product
         result_matrix_for_col = unstacked_series.dot(transform_matrix.T)
 
-        # Name the column AGE_GROUP_COLUMN for re-stacking
-        result_matrix_for_col.columns.name = AGE_GROUP_COLUMN
+        # Name the column GBD_INDEX_NAMES.AGE_GROUP for re-stacking
+        result_matrix_for_col.columns.name = INPUT_DATA_INDEX_NAMES.AGE_GROUP
 
         # Stack the new age group columns into the index
-        stacked_series_for_col = result_matrix_for_col.stack(level=AGE_GROUP_COLUMN)
+        stacked_series_for_col = result_matrix_for_col.stack(
+            level=INPUT_DATA_INDEX_NAMES.AGE_GROUP
+        )
         stacked_series_for_col.name = val_col
 
         all_results_series.append(stacked_series_for_col)
 
@@ -4,6 +4,9 @@
 
 import pandas as pd
 import pandera as pa
+from vivarium_inputs.globals import DEMOGRAPHIC_COLUMNS, VIVARIUM_COLUMNS
+
+from vivarium_testing_utils.automated_validation.constants import INPUT_DATA_INDEX_NAMES
 
 F = TypeVar("F", bound=Callable[..., Any])
 
@@ -58,24 +61,21 @@ def drop_extra_columns(raw_gbd: pd.DataFrame, data_key: str) -> pd.DataFrame:
             f"No value columns found in the data. Columns found: {raw_gbd.columns.tolist()}"
         )
 
-    gbd_cols = ["location_id", "sex_id", "age_group_id", "year_id", "cause_id"]
-    measure = data_key.split(".")[-1]
-    if measure in ["exposure", "relative_risk"]:
-        gbd_cols.append("parameter")
+    gbd_cols = get_measure_index_names(data_key)
     columns_to_keep = [col for col in raw_gbd.columns if col in gbd_cols + value_cols]
     return raw_gbd[columns_to_keep]
 
 
 def set_gbd_index(data: pd.DataFrame, data_key: str) -> pd.DataFrame:
     """Set the index of a GBD DataFrame based on the data key."""
-    measure = data_key.split(".")[-1]
-    gbd_cols = ["location_id", "sex_id", "age_group_id", "year_id"]
-    if measure in ["exposure", "relative_risk"]:
-        gbd_cols.append("parameter")
-    if measure != "relative_risk" and "cause_id" in data.columns:
-        data = data.drop(columns=["cause_id"])
+    gbd_cols = get_measure_index_names(data_key)
 
-    index_cols = [col for col in gbd_cols if col in data.columns]
+    # CAUSE_ID is expected to be a column when Vivarium Inputs maps all of the IDs to values.
+    index_cols = [
+        col
+        for col in gbd_cols
+        if col in data.columns and col != INPUT_DATA_INDEX_NAMES.CAUSE_ID
+    ]
 
     formatted = data.set_index(index_cols)
     return formatted
@@ -93,3 +93,35 @@ def set_validation_index(data: pd.DataFrame) -> pd.DataFrame:
     data = data.set_index(sorted_data_index)
 
     return data
+
+
+def get_measure_index_names(data_key: str, data_schema: str = "gbd") -> list[str]:
+    """Get the expected index names for a given data key.
+
+    Parameters
+    ----------
+    data_key : str
+        The data key to get the index names for.
+    data_schema : str
+        The data schema type. Either "gbd" or "vivarium". Defaults to "gbd".
+
+    Returns
+    -------
+    list[str]
+        The list of expected index names for the given data key.
+    """
+
+    measure = data_key.split(".")[-1]
+    if data_schema == "gbd":
+        measure_cols = list(DEMOGRAPHIC_COLUMNS)
+    else:
+        measure_cols = list(VIVARIUM_COLUMNS)
+    if measure in ["exposure", "relative_risk"]:
+        measure_cols.append(INPUT_DATA_INDEX_NAMES.PARAMETER)
+    if measure == "relative_risk":
+        if data_schema == "gbd":
+            measure_cols.append(INPUT_DATA_INDEX_NAMES.CAUSE_ID)
+        else:
+            measure_cols.append(INPUT_DATA_INDEX_NAMES.AFFECTED_ENTITY)
+
+    return measure_cols
@@ -21,6 +21,7 @@
 )
 from vivarium_testing_utils.automated_validation.data_transformation.utils import (
     drop_extra_columns,
+    get_measure_index_names,
     set_gbd_index,
     set_validation_index,
 )
@@ -249,9 +250,10 @@ def get_frame(
             sort_by = "percent_error"
 
         if (isinstance(num_rows, int) and num_rows > 0) or num_rows == "all":
-            return self.comparisons[comparison_key].get_frame(
+            data = self.comparisons[comparison_key].get_frame(
                 stratifications, num_rows, sort_by, ascending, aggregate_draws
             )
+            return self.sort_ui_data_index(data, comparison_key)
         else:
             raise ValueError("num_rows must be a positive integer or literal 'all'")
 
@@ -344,3 +346,27 @@ def _format_to_vivarium_inputs_conventions(
         data = vi.split_interval(data, interval_column="year", split_column_prefix="year")
         formatted_data: pd.DataFrame = vi.sort_hierarchical_data(data)
         return formatted_data
+
+    @staticmethod
+    def sort_ui_data_index(data: pd.DataFrame, comparison_key: str) -> pd.DataFrame:
+        """Sort the data for UI display.
+
+        Parameters
+        ----------
+        data
+            The DataFrame to sort.
+        comparison_key
+            The comparison key for logging purposes.
+
+        Returns
+        -------
+            The sorted DataFrame.
+        """
+
+        expected_order = get_measure_index_names(comparison_key, "vivarium")
+        ordered_cols = [col for col in expected_order if col in data.index.names]
+        extra_idx_cols = [col for col in data.index.names if col not in ordered_cols]
+        sorted_index = ordered_cols + extra_idx_cols
+        sorted = data.reorder_levels(sorted_index).sort_index()
+
+        return sorted
@@ -10,6 +10,7 @@
 
 from vivarium_testing_utils.automated_validation.constants import (
     DRAW_INDEX,
+    INPUT_DATA_INDEX_NAMES,
     LOCATION_ARTIFACT_KEY,
     SEED_INDEX,
 )
@@ -21,9 +22,6 @@
     utils,
 )
 from vivarium_testing_utils.automated_validation.data_transformation.age_groups import (
-    AGE_END_COLUMN,
-    AGE_GROUP_COLUMN,
-    AGE_START_COLUMN,
     AgeSchema,
     AgeTuple,
 )
@@ -138,8 +136,8 @@ def _get_artifact_index() -> pd.MultiIndex:
         names=[
             "common_stratify_column",
             "other_stratify_column",
-            AGE_START_COLUMN,
-            AGE_END_COLUMN,
+            INPUT_DATA_INDEX_NAMES.AGE_START,
+            INPUT_DATA_INDEX_NAMES.AGE_END,
         ],
     )
 
@@ -160,11 +158,17 @@ def _create_sample_age_group_df() -> pd.DataFrame:
     """Create sample age group data for testing."""
     return pd.DataFrame(
         {
-            AGE_GROUP_COLUMN: ["0_to_4", "5_to_9", "10_to_14"],
-            AGE_START_COLUMN: [0.0, 5.0, 10.0],
-            AGE_END_COLUMN: [5.0, 10.0, 15.0],
+            INPUT_DATA_INDEX_NAMES.AGE_GROUP: ["0_to_4", "5_to_9", "10_to_14"],
+            INPUT_DATA_INDEX_NAMES.AGE_START: [0.0, 5.0, 10.0],
+            INPUT_DATA_INDEX_NAMES.AGE_END: [5.0, 10.0, 15.0],
         }
-    ).set_index([AGE_GROUP_COLUMN, AGE_START_COLUMN, AGE_END_COLUMN])
+    ).set_index(
+        [
+            INPUT_DATA_INDEX_NAMES.AGE_GROUP,
+            INPUT_DATA_INDEX_NAMES.AGE_START,
+            INPUT_DATA_INDEX_NAMES.AGE_END,
+        ]
+    )
 
 
 @utils.check_io(out=SingleNumericColumn)
@@ -398,9 +402,9 @@ def sample_df_with_ages() -> pd.DataFrame:
             names=[
                 "cause",
                 "disease",
-                AGE_GROUP_COLUMN,
-                AGE_START_COLUMN,
-                AGE_END_COLUMN,
+                INPUT_DATA_INDEX_NAMES.AGE_GROUP,
+                INPUT_DATA_INDEX_NAMES.AGE_START,
+                INPUT_DATA_INDEX_NAMES.AGE_END,
             ],
         ),
     )
@@ -514,8 +518,8 @@ def _artifact_population_structure() -> pd.DataFrame:
         "location",
         "common_stratify_column",
         "other_stratify_column",
-        AGE_START_COLUMN,
-        AGE_END_COLUMN,
+        INPUT_DATA_INDEX_NAMES.AGE_START,
+        INPUT_DATA_INDEX_NAMES.AGE_END,
     ]
     pop = pop.reset_index().set_index(index_order)
 
@@ -613,10 +617,10 @@ def reference_weights() -> pd.DataFrame:
 
 def is_on_slurm() -> bool:
     """Returns True if the current environment is a SLURM cluster."""
-    return not shutil.which("sbatch") is not None
+    return shutil.which("sbatch") is not None
 
 
-NO_GBD_ACCESS = is_on_slurm()
+IS_ON_SLURM = is_on_slurm()
 
 
 @pytest.fixture
Original file line number	Diff line number	Diff line change
`@@ -29,5 +29,6 @@ library("vivarium_build_utils@${get_vbu_version()}")`
`29`	`29`
`30`	`30`	`reusable_pipeline(`
`31`	`31`	`scheduled_branches: ["main", "epic/auto-validation"],`
	`32`	`+ requires_slurm: true,`
`32`	`33`	`skip_doc_build: true`
`33`	`34`	`)`