Yu-Group
diff --git a/‎local_feature_importance/00_ranking_script.sh‎
Lines changed: 5 additions & 0 deletions b/‎local_feature_importance/00_ranking_script.sh‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎local_feature_importance/00_ranking_submit_all.sh‎
Lines changed: 23 additions & 0 deletions b/‎local_feature_importance/00_ranking_submit_all.sh‎
Lines changed: 23 additions & 0 deletions
diff --git a/‎local_feature_importance/00_results_ablation.ipynb‎
Lines changed: 245 additions & 0 deletions b/‎local_feature_importance/00_results_ablation.ipynb‎
Lines changed: 245 additions & 0 deletions
@@ -0,0 +1,5 @@
+#!/bin/bash
+
+command="00_run_ranking.py --nreps 1 --config mdi_local.real_data_${1}_${2}_${3} --split_seed 42 --error_seed 0 --feature_seed ${4} --sample_seed ${5} --ignore_cache --create_rmd --folder_name ${2}_${3}2"
+
+python $command
@@ -0,0 +1,23 @@
+#!/bin/bash
+
+slurm_script="00_ranking_script.sh"
+
+for data_name in "openml_361242" "openml_361243" "openml_361253" "openml_361254" "openml_361259" "openml_361260"; do
+    for dgp in "linear" "linear_lss" "interaction"; do
+        for feature_seed in {1..10}; do
+            for sample_seed in {1..3}; do
+                sbatch $slurm_script "regression" $data_name $dgp $feature_seed $sample_seed
+            done
+        done
+    done
+done
+
+# for data_name in "openml_43" "openml_9978" "openml_361062" "openml_361063" "openml_361069" "openml_361071"; do
+#     for dgp in "logistic_linear" "logistic_linear_lss" "logistic_interaction"; do
+#         for feature_seed in {1..10}; do
+#             for sample_seed in {1..3}; do
+#                 sbatch $slurm_script "classification" $data_name $dgp $feature_seed $sample_seed
+#             done
+#         done
+#     done
+# done
@@ -0,0 +1,245 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "d14a6520",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import pandas as pd\n",
+    "import os\n",
+    "pd.set_option('display.max_columns', None)\n",
+    "import sys\n",
+    "sys.path.append('..')\n",
+    "sys.path.append('../..')\n",
+    "sys.path.append('.')\n",
+    "sys.path.append('./scripts')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "af3cd88f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def load_selection_results(task=\"regression\"):\n",
+    "    if task == \"regression\":\n",
+    "        datasets = ['openml_361242', 'openml_361243', 'openml_361253', 'openml_361254', 'openml_361259', 'openml_361260']\n",
+    "        result_cols = [\"RF_Regressor_R2_keep_0.1\", \"RF_Regressor_R2_keep_0.2\", \"RF_Regressor_R2_keep_0.3\", \"RF_Regressor_R2_keep_0.4\"]\n",
+    "    elif task == \"classification\":\n",
+    "        datasets = ['openml_361062', 'openml_361063', 'openml_361069', 'openml_361071', 'openml_43', 'openml_9978']\n",
+    "        result_cols = [\"RF_Classifier_AUROC_keep_0.1\", \"RF_Classifier_AUROC_keep_0.2\", \"RF_Classifier_AUROC_keep_0.3\", \"RF_Classifier_AUROC_keep_0.4\"]\n",
+    "    combined_df = pd.DataFrame()\n",
+    "    split_seeds = [1,2,3,4]\n",
+    "    sample_seeds = [1,2,3,4,5]\n",
+    "    for data in datasets:\n",
+    "        ablation_directory =f\"./results_new/mdi_local.real_data_{task}_{data}/{data}_selection/varying_sample_row_n\"\n",
+    "        for split_seed in split_seeds:\n",
+    "            for sample_seed in sample_seeds:\n",
+    "                df = pd.read_csv(os.path.join(ablation_directory, f\"seed_{split_seed}_{sample_seed}/results.csv\"))\n",
+    "                df[\"data\"] = data\n",
+    "                combined_df = pd.concat([combined_df, df], ignore_index=True)\n",
+    "    combined_df = combined_df.groupby(['fi', 'data'])[result_cols].mean().reset_index()\n",
+    "    return combined_df\n",
+    "\n",
+    "def load_stability_results(task=\"regression\"):\n",
+    "    if task == \"regression\":\n",
+    "        datasets = ['openml_361242', 'openml_361243', 'openml_361253', 'openml_361254', 'openml_361259', 'openml_361260']\n",
+    "    elif task == \"classification\":\n",
+    "        datasets = ['openml_361062', 'openml_361063', 'openml_361069', 'openml_361071', 'openml_43', 'openml_9978']\n",
+    "    result_cols = [\"avg_10_features\", \"avg_20_features\", \"avg_30_features\", \"avg_40_features\"]\n",
+    "    combined_df = pd.DataFrame()\n",
+    "    split_seeds = [1,2,3]\n",
+    "    sample_seeds = [1,2,3,4,5]\n",
+    "    for data in datasets:\n",
+    "        ablation_directory =f\"./results_new/mdi_local.real_data_{task}_{data}_stability/{data}_stability/varying_sample_row_n\"\n",
+    "        for split_seed in split_seeds:\n",
+    "            for sample_seed in sample_seeds:\n",
+    "                df = pd.read_csv(os.path.join(ablation_directory, f\"seed_{split_seed}_{sample_seed}/results.csv\"))\n",
+    "                df[\"data\"] = data\n",
+    "                combined_df = pd.concat([combined_df, df], ignore_index=True)\n",
+    "    combined_df = combined_df.groupby(['fi', 'data'])[result_cols].mean().reset_index()\n",
+    "    return combined_df"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "1bdcd077",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def compute_selection_ablation_rank_results(regression_results_df, classification_results_df, method=\"lmdi+\", baselines=['LIME', 'Treeshap']):\n",
+    "    baselines.append(method)\n",
+    "    \n",
+    "    regression_results_df = regression_results_df[regression_results_df[\"fi\"].isin(baselines)]\n",
+    "    datasets = ['openml_361242', 'openml_361243', 'openml_361253', 'openml_361254', 'openml_361259', 'openml_361260']\n",
+    "    result_cols = [\"RF_Regressor_R2_keep_0.1\", \"RF_Regressor_R2_keep_0.2\", \"RF_Regressor_R2_keep_0.3\", \"RF_Regressor_R2_keep_0.4\"]\n",
+    "    rank_results_regression = pd.DataFrame()\n",
+    "    for data in datasets:\n",
+    "        df_data = regression_results_df[regression_results_df[\"data\"] == data]\n",
+    "        ranked_df = df_data.copy()\n",
+    "        for col in result_cols:\n",
+    "            ranked_df[col] = df_data[col].rank(ascending=False, method='min')\n",
+    "        rank_results_regression = pd.concat([rank_results_regression, ranked_df], ignore_index=True)\n",
+    "    rank_results_regression.columns = ['fi', 'data', 'top_0.1', 'top_0.2', 'top_0.3', 'top_0.4']\n",
+    "\n",
+    "    classification_results_df = classification_results_df[classification_results_df[\"fi\"].isin(baselines)]\n",
+    "    datasets = ['openml_361062', 'openml_361063', 'openml_361069', 'openml_361071', 'openml_43', 'openml_9978']\n",
+    "    result_cols = [\"RF_Classifier_AUROC_keep_0.1\", \"RF_Classifier_AUROC_keep_0.2\", \"RF_Classifier_AUROC_keep_0.3\", \"RF_Classifier_AUROC_keep_0.4\"]\n",
+    "    rank_results_classification = pd.DataFrame()\n",
+    "    for data in datasets:\n",
+    "        df_data = classification_results_df[classification_results_df[\"data\"] == data]\n",
+    "        ranked_df = df_data.copy()\n",
+    "        for col in result_cols:\n",
+    "            ranked_df[col] = df_data[col].rank(ascending=False, method='min')\n",
+    "        rank_results_classification = pd.concat([rank_results_classification, ranked_df], ignore_index=True)\n",
+    "    rank_results_classification.columns = ['fi', 'data', 'top_0.1', 'top_0.2', 'top_0.3', 'top_0.4']\n",
+    "    \n",
+    "    rank_results = pd.concat([rank_results_regression, rank_results_classification], ignore_index=True)\n",
+    "    rank_results_avg = rank_results.groupby('fi')[['top_0.1', 'top_0.2', 'top_0.3', 'top_0.4']].mean().sort_values(by='top_0.1').reset_index()\n",
+    "    rank_results_avg = rank_results_avg[rank_results_avg[\"fi\"] == method]\n",
+    "    return rank_results, rank_results_avg\n",
+    "\n",
+    "def compute_stability_ablation_rank_results(regression_results_df, classification_results_df, method=\"lmdi+\", baselines=['LIME', 'Treeshap']):\n",
+    "    baselines.append(method)\n",
+    "    \n",
+    "    regression_results_df = regression_results_df[regression_results_df[\"fi\"].isin(baselines)]\n",
+    "    datasets = ['openml_361242', 'openml_361243', 'openml_361253', 'openml_361254', 'openml_361259', 'openml_361260']\n",
+    "    result_cols = [\"avg_10_features\", \"avg_20_features\", \"avg_30_features\", \"avg_40_features\"]\n",
+    "    rank_results_regression = pd.DataFrame()\n",
+    "    for data in datasets:\n",
+    "        df_data = regression_results_df[regression_results_df[\"data\"] == data]\n",
+    "        ranked_df = df_data.copy()\n",
+    "        for col in result_cols:\n",
+    "            ranked_df[col] = df_data[col].rank(ascending=True, method='min')\n",
+    "        rank_results_regression = pd.concat([rank_results_regression, ranked_df], ignore_index=True)\n",
+    "    rank_results_regression.columns = ['fi', 'data', 'top_0.1', 'top_0.2', 'top_0.3', 'top_0.4']\n",
+    "\n",
+    "    classification_results_df = classification_results_df[classification_results_df[\"fi\"].isin(baselines)]\n",
+    "    datasets = ['openml_361062', 'openml_361063', 'openml_361069', 'openml_361071', 'openml_43', 'openml_9978']\n",
+    "    result_cols = [\"avg_10_features\", \"avg_20_features\", \"avg_30_features\", \"avg_40_features\"]\n",
+    "    rank_results_classification = pd.DataFrame()\n",
+    "    for data in datasets:\n",
+    "        df_data = classification_results_df[classification_results_df[\"data\"] == data]\n",
+    "        ranked_df = df_data.copy()\n",
+    "        for col in result_cols:\n",
+    "            ranked_df[col] = df_data[col].rank(ascending=True, method='min')\n",
+    "        rank_results_classification = pd.concat([rank_results_classification, ranked_df], ignore_index=True)\n",
+    "    rank_results_classification.columns = ['fi', 'data', 'top_0.1', 'top_0.2', 'top_0.3', 'top_0.4']\n",
+    "    \n",
+    "    rank_results = pd.concat([rank_results_regression, rank_results_classification], ignore_index=True)\n",
+    "    rank_results_avg = rank_results.groupby('fi')[['top_0.1', 'top_0.2', 'top_0.3', 'top_0.4']].mean().sort_values(by='top_0.1').reset_index()\n",
+    "    rank_results_avg = rank_results_avg[rank_results_avg[\"fi\"] == method]\n",
+    "    return rank_results, rank_results_avg"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "8b8e639a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "regression_results_df = load_selection_results(task=\"regression\")\n",
+    "classification_results_df = load_selection_results(task=\"classification\")\n",
+    "compute_selection_ablation_rank_results(regression_results_df, classification_results_df, method=\"lmdi\", baselines=['LIME', 'Treeshap'])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "f6877a17",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "compute_selection_ablation_rank_results(regression_results_df, classification_results_df, method=\"Ablation_model0\", baselines=['LIME', 'Treeshap'])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "1ceb8528",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "compute_selection_ablation_rank_results(regression_results_df, classification_results_df, method=\"Ablation_model1\", baselines=['LIME', 'Treeshap'])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "d9fb85f3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "compute_selection_ablation_rank_results(regression_results_df, classification_results_df, method=\"lmdi+\", baselines=['LIME', 'Treeshap'])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "9771e9d8",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "regression_results_df = load_stability_results(task=\"regression\")\n",
+    "classification_results_df = load_stability_results(task=\"classification\")\n",
+    "compute_stability_ablation_rank_results(regression_results_df, classification_results_df, method=\"lmdi\", baselines=['LIME', 'Treeshap'])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "6ca28024",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "compute_stability_ablation_rank_results(regression_results_df, classification_results_df, method=\"Ablation_model0\", baselines=['LIME', 'Treeshap'])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "6e2a1ed1",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "compute_stability_ablation_rank_results(regression_results_df, classification_results_df, method=\"Ablation_model1\", baselines=['LIME', 'Treeshap'])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "c6b6aa35",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "compute_stability_ablation_rank_results(regression_results_df, classification_results_df, method=\"lmdi+\", baselines=['LIME', 'Treeshap'])"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "mdi",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}