save working progress

selmanozleyen · selmanozleyen · commit d0f5f8255315 · 2025-06-04T12:51:57.000+02:00
diff --git a/play.ipynb b/play.ipynb
@@ -0,0 +1,175 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%load_ext autoreload\n",
+    "%autoreload 2"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "\"\"\"Tests for verifying process/thread usage in parallelized functions.\"\"\"\n",
+    "\n",
+    "from __future__ import annotations\n",
+    "\n",
+    "import numpy as np\n",
+    "import pytest  # type: ignore[import]\n",
+    "import numba\n",
+    "import dask.array as da\n",
+    "from typing import Callable\n",
+    "from functools import partial\n",
+    "\n",
+    "from squidpy._utils import parallelize, Signal\n",
+    "\n",
+    "\n",
+    "\n",
+    "# Functions to be parallelized\n",
+    "\n",
+    "@numba.njit(parallel=True)\n",
+    "def numba_parallel_func(x, y) -> np.ndarray:\n",
+    "    return x * 2 + y\n",
+    "\n",
+    "@numba.njit(parallel=False)\n",
+    "def numba_serial_func(x, y) -> np.ndarray:\n",
+    "    return x * 2 + y\n",
+    "\n",
+    "def dask_func(x, y) -> np.ndarray:\n",
+    "    return (da.from_array(x) * 2 + y).compute()\n",
+    "\n",
+    "def vanilla_func(x, y) -> np.ndarray:\n",
+    "    return x * 2 + y\n",
+    "\n",
+    "# Mock runner function\n",
+    "\n",
+    "def mock_runner(x, y, queue, func):\n",
+    "    for i in range(len(x)):\n",
+    "        x[i] = func(x[i], y)\n",
+    "        if queue is not None:\n",
+    "            queue.put(Signal.UPDATE)\n",
+    "    if queue is not None:\n",
+    "        queue.put(Signal.FINISH)\n",
+    "    return x\n",
+    "\n",
+    "\n",
+    "@pytest.fixture(params=[\"numba_parallel\", \"numba_serial\", \"dask\", \"vanilla\"])\n",
+    "def func(request) -> Callable:\n",
+    "    return {\n",
+    "        \"numba_parallel\": numba_parallel_func,\n",
+    "        \"numba_serial\": numba_serial_func,\n",
+    "        \"dask\": dask_func,\n",
+    "        \"vanilla\": vanilla_func,\n",
+    "    }[request.param]\n",
+    "\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "application/vnd.jupyter.widget-view+json": {
+       "model_id": "4f5ca04ed21c48cbb923359030b6fefb",
+       "version_major": 2,
+       "version_minor": 0
+      },
+      "text/plain": [
+       "  0%|          | 0/8 [00:00<?, ?/s]"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "8 8\n",
+      "8 8\n"
+     ]
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/Users/selman/miniforge3/envs/squidpy/lib/python3.11/site-packages/dask/dataframe/__init__.py:31: FutureWarning: The legacy Dask DataFrame implementation is deprecated and will be removed in a future version. Set the configuration option `dataframe.query-planning` to `True` or None to enable the new Dask Dataframe implementation and silence this warning.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "8 8\n",
+      "8 8\n",
+      "8 8\n",
+      "8 8\n",
+      "8 8\n",
+      "8 8\n"
+     ]
+    },
+    {
+     "ename": "AssertionError",
+     "evalue": "Expected: [array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21])] but got [array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21])]. Length mismatch",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[31m---------------------------------------------------------------------------\u001b[39m",
+      "\u001b[31mAssertionError\u001b[39m                            Traceback (most recent call last)",
+      "\u001b[36mCell\u001b[39m\u001b[36m \u001b[39m\u001b[32mIn[8]\u001b[39m\u001b[32m, line 9\u001b[39m\n\u001b[32m      7\u001b[39m p_func = parallelize(runner, arr1, n_jobs=\u001b[32m2\u001b[39m, backend=\u001b[33m\"\u001b[39m\u001b[33mloky\u001b[39m\u001b[33m\"\u001b[39m, use_ixs=\u001b[38;5;28;01mFalse\u001b[39;00m, n_splits=\u001b[38;5;28mlen\u001b[39m(arr1))\n\u001b[32m      8\u001b[39m result = p_func(arr2)[\u001b[32m0\u001b[39m]\n\u001b[32m----> \u001b[39m\u001b[32m9\u001b[39m \u001b[38;5;28;01massert\u001b[39;00m \u001b[38;5;28mlen\u001b[39m(result) == \u001b[38;5;28mlen\u001b[39m(expected), \u001b[33mf\u001b[39m\u001b[33m\"\u001b[39m\u001b[33mExpected: \u001b[39m\u001b[38;5;132;01m{\u001b[39;00mexpected\u001b[38;5;132;01m}\u001b[39;00m\u001b[33m but got \u001b[39m\u001b[38;5;132;01m{\u001b[39;00mresult\u001b[38;5;132;01m}\u001b[39;00m\u001b[33m. Length mismatch\u001b[39m\u001b[33m\"\u001b[39m\n\u001b[32m     10\u001b[39m \u001b[38;5;28;01mfor\u001b[39;00m i \u001b[38;5;129;01min\u001b[39;00m \u001b[38;5;28mrange\u001b[39m(\u001b[38;5;28mlen\u001b[39m(arr1)):\n\u001b[32m     11\u001b[39m     \u001b[38;5;28;01massert\u001b[39;00m np.all(result[i] == expected[i]), \u001b[33mf\u001b[39m\u001b[33m\"\u001b[39m\u001b[33mExpected \u001b[39m\u001b[38;5;132;01m{\u001b[39;00mexpected[i]\u001b[38;5;132;01m}\u001b[39;00m\u001b[33m but got \u001b[39m\u001b[38;5;132;01m{\u001b[39;00mresult[i]\u001b[38;5;132;01m}\u001b[39;00m\u001b[33m\"\u001b[39m\n",
+      "\u001b[31mAssertionError\u001b[39m: Expected: [array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21])] but got [array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21]), array([ 0,  3,  6,  9, 12, 15, 18, 21])]. Length mismatch"
+     ]
+    }
+   ],
+   "source": [
+    "n = 8\n",
+    "func = numba_parallel_func\n",
+    "arr1 = [np.arange(n) for _ in range(n)]\n",
+    "arr2 = np.arange(n)\n",
+    "runner = partial(mock_runner, func=func)\n",
+    "# expected = [func(arr1[i], arr2) for i in range(len(arr1))]\n",
+    "p_func = parallelize(runner, arr1, n_jobs=2, backend=\"loky\", use_ixs=False, n_splits=len(arr1))\n",
+    "result = p_func(arr2)[0]\n",
+    "assert len(result) == len(expected), f\"Expected: {expected} but got {result}. Length mismatch\"\n",
+    "for i in range(len(arr1)):\n",
+    "    assert np.all(result[i] == expected[i]), f\"Expected {expected[i]} but got {result[i]}\"\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "squidpy",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.11.11"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/tests/utils/test_parallelize.py b/tests/utils/test_parallelize.py
@@ -0,0 +1,66 @@
+"""Tests for verifying process/thread usage in parallelized functions."""
+
+from __future__ import annotations
+
+import numpy as np
+import pytest  # type: ignore[import]
+import numba
+import dask.array as da
+from typing import Callable
+from functools import partial
+
+from squidpy._utils import parallelize, Signal
+
+
+
+# Functions to be parallelized
+
+@numba.njit(parallel=True)
+def numba_parallel_func(x, y) -> np.ndarray:
+    return x * 2 + y
+
+@numba.njit(parallel=False)
+def numba_serial_func(x, y) -> np.ndarray:
+    return x * 2 + y
+
+def dask_func(x, y) -> np.ndarray:
+    return (da.from_array(x) * 2 + y).compute()
+
+def vanilla_func(x, y) -> np.ndarray:
+    return x * 2 + y
+
+# Mock runner function
+
+def mock_runner(x, y, queue, func):
+    for i in range(len(x)):
+        print(len(x[i]), len(y))
+        x[i] = func(x[i], y)
+        if queue is not None:
+            queue.put(Signal.UPDATE)
+    if queue is not None:
+        queue.put(Signal.FINISH)
+    return x
+
+
+@pytest.fixture(params=["numba_parallel", "numba_serial", "dask", "vanilla"])
+def func(request) -> Callable:
+    return {
+        "numba_parallel": numba_parallel_func,
+        "numba_serial": numba_serial_func,
+        "dask": dask_func,
+        "vanilla": vanilla_func,
+    }[request.param]
+
+
+@pytest.mark.parametrize("n_jobs", [1, 2, 8])
+def test_parallelize_loky(func, n_jobs):
+    n = 8
+    arr1 = [np.arange(n) for _ in range(n)]
+    arr2 = np.arange(n)
+    runner = partial(mock_runner, func=func)
+    expected = [func(arr1[i], arr2) for i in range(len(arr1))]
+    p_func = parallelize(runner, arr1, n_jobs=n_jobs, backend="loky", use_ixs=False)
+    result = p_func(arr2)[0]
+    assert len(result) == len(expected), f"Expected: {expected} but got {result}. Length mismatch"
+    for i in range(len(arr1)):
+        assert np.all(result[i] == expected[i]), f"Expected {expected[i]} but got {result[i]}"