Add test for new bootstrapping method

mkstratos · mkstratos · commit 4dcac7f5c220 · 2025-09-19T17:30:20.000-04:00
diff --git a/detclim/notebooks/BootstrapTest.ipynb b/detclim/notebooks/BootstrapTest.ipynb
@@ -0,0 +1,290 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "770901da-bd6a-4e00-b935-f888f5038fdc",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import xarray as xr\n",
+    "import matplotlib.pyplot as plt\n",
+    "from pathlib import Path\n",
+    "import numpy as np\n",
+    "import scipy.stats as sts\n",
+    "import json\n",
+    "import random\n",
+    "from functools import partial\n",
+    "import multiprocessing as mp\n",
+    "\n",
+    "from dask.distributed import Client"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "fc2afdae-6b08-4212-b4a4-95ff22ded4e7",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def ks_all_times(data, ens_ids):\n",
+    "    \"\"\"Perform K-S test on two arrays across all times in the array.\n",
+    "\n",
+    "    Parameters\n",
+    "    ----------\n",
+    "    data_1, data_2 : array_like\n",
+    "        Arrays of data for testing, dimension 2 (typically [ensemble, time]),\n",
+    "        with time dimension as the rightmost dimension.\n",
+    "\n",
+    "    Returns\n",
+    "    -------\n",
+    "    ks_test_output : `da.array`\n",
+    "        Dask array with shape [data_n.shape[1], 2] of 2 sample K-S test\n",
+    "        results (statstic, p-value)\n",
+    "\n",
+    "    \"\"\"\n",
+    "    data_1 = data.isel(exp=0, ens=ens_ids[0])\n",
+    "    data_2 = data.isel(exp=1, ens=ens_ids[1])\n",
+    "\n",
+    "    ks_test = np.vectorize(sts.mstats.ks_2samp, signature=\"(n),(n)->(),()\")\n",
+    "    _, ks_pval = ks_test(data_1.T, data_2.T)\n",
+    "\n",
+    "    return xr.DataArray(\n",
+    "        data=ks_pval, dims=(\"time\",), coords={\"time\": data.time}\n",
+    "    )\n",
+    "ks_test_vec = np.vectorize(sts.mstats.ks_2samp, signature=\"(n),(n)->(),()\")\n",
+    "def ks_vec(data_1, data_2):\n",
+    "    return ks_test_vec(data_1, data_2)\n",
+    "\n",
+    "def randomise_new(ens_min, ens_max, ens_size, with_repl=False, ncases=2):\n",
+    "    ens_idx = sorted(range(ens_min, ens_max + 1))\n",
+    "    assert len(ens_idx) > ens_size, \"ENSEMBLE SIZE MUST BE SMALLER THAN ENSEMBLE RANGE\"\n",
+    "    if not with_repl:\n",
+    "        selected = [\n",
+    "            random.sample(ens_idx, ens_size)\n",
+    "            for _ in range(ncases)\n",
+    "        ]\n",
+    "    else:\n",
+    "        selected = [\n",
+    "            [random.randint(ens_min, ens_max) for _ in range(ens_size)]\n",
+    "            for _ in range(ncases)\n",
+    "        ]\n",
+    "    return selected\n",
+    "\n",
+    "\n",
+    "def rolling_mean_data(data, period_len=12, time_var=\"time\"):\n",
+    "    select = {time_var: period_len}\n",
+    "    return data.rolling(**select).mean().dropna(time_var)\n",
+    "\n",
+    "\n",
+    "def ks_bootstrap(idx, data):\n",
+    "    return data.apply(ks_all_times, ens_ids=idx)\n",
+    "\n",
+    "\n",
+    "def cvm_2samp(data_x, data_y):\n",
+    "    \"\"\"Perform a 2 sample Cramer von Mises test, map output to a tuple.\"\"\"\n",
+    "    _res = sts.cramervonmises_2samp(data_x, data_y)\n",
+    "    return _res.pvalue\n",
+    "    \n",
+    "\n",
+    "cvm_test_vec = np.vectorize(cvm_2samp, signature=\"(n),(n)->()\")\n",
+    "\n",
+    "\n",
+    "def cvm_all_times(data_c, ens_ids):\n",
+    "    \"\"\"Perform a 2 sample Cramer von Mises test on all times.\"\"\"\n",
+    "\n",
+    "    data_1 = data_c.isel(exp=0, ens=ens_ids[0])\n",
+    "    data_2 = data_c.isel(exp=1, ens=ens_ids[1])\n",
+    "\n",
+    "    cvm_pval = cvm_test_vec(data_1.T, data_2.T)\n",
+    "\n",
+    "    return xr.DataArray(\n",
+    "        data=cvm_pval, dims=(\"time\",), coords={\"time\": data_c.time}\n",
+    "    )\n",
+    "\n",
+    "def cvm_bootstrap(idx, data):\n",
+    "    return data.apply(cvm_all_times, ens_ids=idx)\n",
+    "\n",
+    "def anderson_pval(data_1, data_2):\n",
+    "    try:\n",
+    "        _res = sts.anderson_ksamp([data_1, data_2], method=sts.PermutationMethod(n_resamples=1000))\n",
+    "    except ValueError:\n",
+    "        return 1.\n",
+    "    return _res.pvalue\n",
+    "\n",
+    "anderson_test_vec = np.vectorize(anderson_pval, signature=\"(n),(n)->()\")\n",
+    "\n",
+    "def anderson_all_times(data, ens_ids):\n",
+    "    data_1 = data.isel(exp=0, ens=ens_ids[0])\n",
+    "    data_2 = data.isel(exp=1, ens=ens_ids[1])\n",
+    "    _pval = anderson_test_vec(data_1.T, data_2.T)\n",
+    "\n",
+    "    return xr.DataArray(\n",
+    "        data=_pval, dims=(\"time\",), coords={\"time\": data.time}\n",
+    "    )\n",
+    "\n",
+    "    \n",
+    "def anderson_bootstrap(idx, data):\n",
+    "    return data.apply(anderson_all_times, ens_ids=idx)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "c855932b-f28b-426b-964f-d193d26453b6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%time\n",
+    "scratch = Path(\"/home/mikek/Code/2025-09-16.F2010.ne30pg2_r05_oECv3_aavgs\")\n",
+    "in_dirs = sorted(scratch.glob(\"*\"))\n",
+    "_ds_ctl = xr.open_mfdataset(\n",
+    "    sorted(in_dirs[1].glob(\"*.nc\")), combine=\"nested\", concat_dim=\"ens\"\n",
+    ")\n",
+    "\n",
+    "_ds_exp = xr.open_mfdataset(\n",
+    "    sorted(in_dirs[0].glob(\"*.nc\")), combine=\"nested\", concat_dim=\"ens\"\n",
+    ")\n",
+    "\n",
+    "_ds_all = xr.concat([_ds_ctl, _ds_exp], dim=\"exp\")\n",
+    "dvars = json.loads(\n",
+    "    open(\"../new_vars.json\", \"r\", encoding=\"utf-8\").read()\n",
+    ")[\"default\"]\n",
+    "\n",
+    "_ds_all_mean = _ds_all[dvars].map(rolling_mean_data, period_len=12).load()\n",
+    "_emin = _ds_all_mean.ens.values.min()\n",
+    "_emax = _ds_all_mean.ens.values.max()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "60cf23e0-2b84-473c-82a0-a05fbffb2a9f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "ninst = 100\n",
+    "ens_size = 20\n",
+    "ens_sel = [randomise_new(_emin, _emax, ens_size=ens_size, ncases=2) for _ in range(ninst)]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "358e3df8-a194-4cb5-a1dd-866e97ca87e0",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%time\n",
+    "ks_bootsrap_part = partial(ks_bootstrap, data=_ds_all_mean[dvars])\n",
+    "with mp.Pool(16) as pool:\n",
+    "    pvals_out_ks = xr.concat(pool.map(ks_bootsrap_part, ens_sel), dim=\"iter\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "6d037a0a-c29f-46ce-a46a-4e7027c6ee9b",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%time\n",
+    "anderson_bootstrap_part = partial(anderson_bootstrap, data=_ds_all_mean[dvars])\n",
+    "with mp.Pool(16) as pool:\n",
+    "    pvals_out_anderson = xr.concat(pool.map(anderson_bootstrap_part, ens_sel), dim=\"iter\")\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "6e154409-cbc1-4a2d-ae99-0e7440606280",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%time\n",
+    "cvm_bootstrap_part = partial(cvm_bootstrap, data=_ds_all_mean[dvars])\n",
+    "with mp.Pool(16) as pool:\n",
+    "    pvals_out_cvm = xr.concat(pool.map(cvm_bootstrap_part, ens_sel), dim=\"iter\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "4599831c-1bee-41e6-bb95-0279ff133033",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "pvals_all = {\n",
+    "    \"ks\": np.array([pvals_out_ks.isel(time=2)[_var].values for _var in pvals_out_ks.data_vars]),\n",
+    "    \"cvm\": np.array([pvals_out_cvm.isel(time=2)[_var].values for _var in pvals_out_cvm.data_vars]),\n",
+    "    \"anderson\": np.array([pvals_out_anderson.isel(time=2)[_var].values for _var in pvals_out_anderson.data_vars]),\n",
+    "}\n",
+    "\n",
+    "fig, axis = plt.subplots(1, 3, figsize=(12, 5), sharey=True)\n",
+    "for idx, pvals_out in enumerate(pvals_all):\n",
+    "    pvals = pvals_all[pvals_out]\n",
+    "    pvals.sort(axis=0)\n",
+    "    _ = axis[idx].semilogy(pvals, color=\"grey\", lw=0.5)\n",
+    "    _ = axis[idx].semilogy(pvals.mean(axis=1), color=\"k\")\n",
+    "    _ = axis[idx].axhline(0.05, ls=\"--\", color=\"green\")\n",
+    "    axis[idx].set_title(pvals_out)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "065536c6-edc8-4b09-b624-1257792a38b5",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "nreject = {\n",
+    "    mode: [(pvals_all[mode][:, i] < 0.05).sum() for i in range(pvals_all[mode].shape[1])]\n",
+    "    for mode in pvals_all\n",
+    "}"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "c8ab0556-e334-45f9-81c4-421622d0ba91",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "plt.figure(figsize=(12, 5))\n",
+    "for idx, mode in enumerate(nreject):\n",
+    "    plt.subplot(1, 3, idx + 1)\n",
+    "    plt.hist(nreject[mode], bins=15, edgecolor=\"k\")\n",
+    "    plt.title(mode)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "0c6d4bfc-5699-429e-9a84-313399b6d19b",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.13.7"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}