Merge pull request #211 from scverse/2.0.8

PauBadiaM · web-flow · commit 38b50dcb97f1 · 2025-07-08T23:39:11.000-07:00
2.1.0 changes
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -8,7 +8,60 @@ and this project adheres to [Semantic Versioning][].
 [keep a changelog]: https://keepachangelog.com/en/1.0.0/
 [semantic versioning]: https://semver.org/spec/v2.0.0.html
 
-## 2.0.8
+## 2.1.0
+
+### Changes
+
+- Updated logo
+- `decoupler._download._download` now returns bytes instead of a dataframe. To transform to `pandas.DataFrame` use `decoupler._download._bytes_to_pandas`
+- Enrichment methods and pseudobulking now work with backed AnnData objects, useful when working with big datasets and memory is limited
+
+### Bugfixes
+- Fixed error in `pl.obsm` where default value of `cmap_obs` was not properly set.
+
+## 2.0.7
+
+### Changes
+- Added `pre-commit` functionality to the repository
+
+## 2.0.6
+
+### Changes
+- Modified links and paths to follow scverse's repository
+
+## 2.0.5
+
+### Bugfixes
+- Fixed error message when extra dependencies where not installed
+
+## 2.0.4
+
+### Bugfixes
+- Fixed `dcor` import bug as an external dependency
+
+## 2.0.3
+
+### Bugfixes
+- Fixed error in `pp.pseudobulk` when obs columns were not categorical
+
+## 2.0.2
+
+### Changes
+- Allowed ordering functions (`pp.bin_order`, `pl.order` and `pl.order_targets`) not to be bound between 0 and 1
+- Added ipywidgets as dependency
+- Silenced xgboost warnings
+
+### Bugfixes
+- Handled corner case in `bm.metric.auc` when scores are all 0
+- Fixed error in `bm.metric.hmean` when metrics were str instead of list
+- Fixed error when `obs` column is a list in `pp.pseudobulk`
+
+## 2.0.1
+
+### Bugfixes
+- Fixed an error in `pp.pseudobulk` when handling empty samples or features
+
+## 2.0.0
 
 Major update to accomodate the scverse template {cite}`scverse`.
 
diff --git a/README.md b/README.md
@@ -1,5 +1,5 @@
 # decoupler - Ensemble of methods to infer enrichment scores
-<img src="https://github.com/saezlab/decoupleR/blob/master/inst/figures/logo.svg?raw=1" align="right" width="120" class="no-scaled-link" />
+<img src="https://raw.githubusercontent.com/scverse/decoupler/refs/heads/2.0.8/docs/_static/images/logo.svg" align="right" width="120" class="no-scaled-link" />
 
 
 [![Tests][badge-tests]][tests]
diff --git a/docs/_static/images/logo.png b/docs/_static/images/logo.png
diff --git a/docs/_static/images/logo.svg b/docs/_static/images/logo.svg
diff --git a/pyproject.toml b/pyproject.toml
@@ -4,7 +4,7 @@ requires = [ "hatchling" ]
 
 [project]
 name = "decoupler"
-version = "2.0.8"
+version = "2.1.0"
 description = "Python package to perform enrichment analysis from omics data."
 readme = "README.md"
 license = { file = "LICENSE" }
@@ -66,6 +66,7 @@ optional-dependencies.test = [
   "gseapy",
   "igraph",
   "ipywidgets",
+  "memory-profiler",
   "pytest",
   "scanpy",
   "statsmodels",
diff --git a/src/decoupler/_download.py b/src/decoupler/_download.py
@@ -13,8 +13,7 @@
 def _download(
     url: str,
     verbose: bool = False,
-    **kwargs,
-) -> pd.DataFrame:
+) -> bytes:
     assert isinstance(url, str), "url must be str"
     # Download with progress bar
     m = f"Downloading {url}"
@@ -27,9 +26,13 @@ def _download(
                 if chunk:
                     chunks.append(chunk)
                     pbar.update(len(chunk))
-    # Read into pandas
+    # Read into bytes
     data = io.BytesIO(b"".join(chunks))
-    df = pd.read_csv(data, **kwargs)
     m = "Download finished"
     _log(m, level="info", verbose=verbose)
+    return data
+
+
+def _bytes_to_pandas(data: bytes, **kwargs) -> pd.DataFrame:
+    df = pd.read_csv(data, **kwargs)
     return df
diff --git a/src/decoupler/ds/_bulk.py b/src/decoupler/ds/_bulk.py
@@ -1,7 +1,7 @@
 from anndata import AnnData
 
 from decoupler._docs import docs
-from decoupler._download import _download
+from decoupler._download import _bytes_to_pandas, _download
 from decoupler._log import _log
 
 
@@ -38,7 +38,8 @@ def hsctgfb(
         "https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE151251&format=file&"
         "file=GSE151251%5FHSCs%5FCtrl%2Evs%2EHSCs%5FTGFb%2Ecounts%2Etsv%2Egz"
     )
-    adata = _download(url, compression="gzip", sep="\t", verbose=verbose)
+    adata = _download(url, verbose=verbose)
+    adata = _bytes_to_pandas(adata, compression="gzip", sep="\t")
     # Transform to AnnData
     adata = adata.drop_duplicates("GeneName").set_index("GeneName").iloc[:, 5:].T
     adata.columns.name = None
@@ -92,9 +93,11 @@ def knocktf(
     assert isinstance(thr_fc, int | float) or thr_fc is None, "thr_fc must be numeric or None"
     # Download
     url = "https://zenodo.org/record/7035528/files/knockTF_expr.csv?download=1"
-    adata = _download(url, sep=",", index_col=0, verbose=verbose)
+    adata = _download(url, verbose=verbose)
+    adata = _bytes_to_pandas(adata, sep=",", index_col=0)
     url = "https://zenodo.org/record/7035528/files/knockTF_meta.csv?download=1"
-    obs = _download(url, sep=",", index_col=0, verbose=verbose)
+    obs = _download(url, verbose=verbose)
+    obs = _bytes_to_pandas(obs, sep=",", index_col=0)
     obs = obs.rename(columns={"TF": "source"}).assign(type_p=-1)
     # Make anndata
     adata = AnnData(X=adata, obs=obs)
diff --git a/src/decoupler/mt/_run.py b/src/decoupler/mt/_run.py
@@ -55,21 +55,33 @@ def _run(
 ) -> tuple[pd.DataFrame, pd.DataFrame] | AnnData | None:
     _log(f"{name} - Running {name}", level="info", verbose=verbose)
     # Process data
-    mat, obs, var = extract(data, layer=layer, raw=raw, empty=empty, verbose=verbose)
-    sparse = sps.issparse(mat)
+    mat, obs, var = extract(data, layer=layer, raw=raw, empty=empty, verbose=verbose, bsize=bsize)
+    issparse = sps.issparse(mat)
+    isbacked = isinstance(mat, tuple)
     # Process net
     net = prune(features=var, net=net, tmin=tmin, verbose=verbose)
     # Handle stat type
     if adj:
         sources, targets, adjm = adjmat(features=var, net=net, verbose=verbose)
-        # Handle sparse
-        if sparse:
+        # Handle batches
+        if issparse or isbacked:
             nbatch = int(np.ceil(obs.size / bsize))
             es, pv = [], []
             for i in tqdm(range(nbatch), disable=not verbose):
+                if i == 0 and verbose:
+                    batch_verbose = True
+                else:
+                    batch_verbose = False
                 srt, end = i * bsize, i * bsize + bsize
-                bmat = mat[srt:end].toarray()
-                bes, bpv = func(bmat, adjm, verbose=verbose, **kwargs)
+                if sps.issparse(mat):
+                    bmat = mat[srt:end].toarray()
+                else:
+                    bmat, msk_col = mat
+                    bmat = bmat[srt:end, :]
+                    if sps.issparse(bmat):
+                        bmat = bmat.toarray()
+                    bmat = bmat[:, msk_col]
+                bes, bpv = func(bmat, adjm, verbose=batch_verbose, **kwargs)
                 es.append(bes)
                 pv.append(bpv)
             es = np.vstack(es)
@@ -79,7 +91,23 @@ def _run(
             es = pd.DataFrame(es, index=obs, columns=sources)
     else:
         sources, cnct, starts, offsets = idxmat(features=var, net=net, verbose=verbose)
-        es, pv = func(mat, cnct, starts, offsets, verbose=verbose, **kwargs)
+        if isbacked:
+            nbatch = int(np.ceil(obs.size / bsize))
+            es, pv = [], []
+            for i in tqdm(range(nbatch), disable=not verbose):
+                if i == 0 and verbose:
+                    batch_verbose = True
+                else:
+                    batch_verbose = False
+                srt, end = i * bsize, i * bsize + bsize
+                bmat, msk_col = mat
+                bmat = bmat[srt:end, msk_col]
+                bes, bpv = func(bmat, cnct, starts, offsets, verbose=batch_verbose, **kwargs)
+                es.append(bes)
+                pv.append(bpv)
+            es = np.vstack(es)
+        else:
+            es, pv = func(mat, cnct, starts, offsets, verbose=verbose, **kwargs)
         es = pd.DataFrame(es, index=obs, columns=sources)
     # Handle pvals and FDR correction
     if test:
diff --git a/src/decoupler/op/_collectri.py b/src/decoupler/op/_collectri.py
@@ -1,7 +1,7 @@
 import pandas as pd
 
 from decoupler._docs import docs
-from decoupler._download import _download
+from decoupler._download import _bytes_to_pandas, _download
 from decoupler.op._dtype import _infer_dtypes
 from decoupler.op._translate import translate
 
@@ -45,6 +45,7 @@ def collectri(
     """
     url = "https://zenodo.org/records/8192729/files/CollecTRI_regulons.csv?download=1"
     ct = _download(url, verbose=verbose)
+    ct = _bytes_to_pandas(ct)
     # Update resources
     resources = []
     for str_res in ct["resources"]:
diff --git a/src/decoupler/op/_dorothea.py b/src/decoupler/op/_dorothea.py
@@ -1,7 +1,7 @@
 import pandas as pd
 
 from decoupler._docs import docs
-from decoupler._download import URL_INT, _download
+from decoupler._download import URL_INT, _bytes_to_pandas, _download
 from decoupler._log import _log
 from decoupler.op._dtype import _infer_dtypes
 from decoupler.op._translate import translate
@@ -71,7 +71,8 @@ def dorothea(
     url = URL_INT + url_ext
     m = f"dorothea - Accessing DoRothEA (levels {str_levels}) with {license} license and weights={weights}"
     _log(m, level="info", verbose=verbose)
-    do = _download(url, sep="\t", verbose=verbose)
+    do = _download(url, verbose=verbose)
+    do = _bytes_to_pandas(do, sep="\t")
     # Filter extra columns
     do = do[
         [
diff --git a/src/decoupler/op/_hallmark.py b/src/decoupler/op/_hallmark.py
@@ -1,7 +1,7 @@
 import pandas as pd
 
 from decoupler._docs import docs
-from decoupler._download import _download
+from decoupler._download import _bytes_to_pandas, _download
 from decoupler.op._dtype import _infer_dtypes
 from decoupler.op._translate import translate
 
@@ -38,7 +38,8 @@ def hallmark(
         hm
     """
     url = "https://static.omnipathdb.org/tables/msigdb-hallmark.tsv.gz"
-    hm = _download(url, sep="\t", compression="gzip", verbose=verbose)
+    hm = _download(url, verbose=verbose)
+    hm = _bytes_to_pandas(hm, sep="\t", compression="gzip")
     hm = hm[["geneset", "genesymbol"]]
     hm["geneset"] = hm["geneset"].str.replace("HALLMARK_", "")
     hm["genesymbol"] = hm["genesymbol"].str.replace("COMPLEX:", "").str.split("_")
diff --git a/src/decoupler/op/_resource.py b/src/decoupler/op/_resource.py
@@ -2,7 +2,7 @@
 import requests
 
 from decoupler._docs import docs
-from decoupler._download import URL_DBS, _download
+from decoupler._download import URL_DBS, _bytes_to_pandas, _download
 from decoupler._log import _log
 from decoupler.op._dtype import _infer_dtypes
 from decoupler.op._translate import translate
@@ -87,7 +87,8 @@ def resource(
     _log(m, level="info", verbose=verbose)
     # Download
     url = URL_DBS + f"{name}&license={license}"
-    df = _download(url, sep="\t", verbose=verbose)
+    df = _download(url, verbose=verbose)
+    df = _bytes_to_pandas(df, sep="\t")
     # Process
     labels = df["label"].unique()
     for label in labels:
diff --git a/src/decoupler/op/_translate.py b/src/decoupler/op/_translate.py
@@ -4,7 +4,7 @@
 import pandas as pd
 
 from decoupler._docs import docs
-from decoupler._download import _download
+from decoupler._download import _bytes_to_pandas, _download
 from decoupler._log import _log
 
 
@@ -183,7 +183,8 @@ def translate(
         target_col = "fruit fly_symbol"
     # Process orthologs
     url = f"https://ftp.ebi.ac.uk/pub/databases/genenames/hcop/human_{target_organism}_hcop_fifteen_column.txt.gz"
-    map_df = _download(url, low_memory=False, compression="gzip", sep="\t", verbose=verbose)
+    map_df = _download(url, verbose=verbose)
+    map_df = _bytes_to_pandas(map_df, low_memory=False, compression="gzip", sep="\t")
     map_df = pd.read_csv(url, sep="\t", low_memory=False)
     map_df["evidence"] = map_df["support"].apply(lambda x: len(x.split(",")))
     map_df = map_df[map_df["evidence"] >= min_evidence]
diff --git a/src/decoupler/pl/_filter_by_expr.py b/src/decoupler/pl/_filter_by_expr.py
@@ -48,6 +48,8 @@ def filter_by_expr(
     assert isinstance(adata, AnnData), "adata must be AnnData"
     # Extract inputs
     X, _, _ = extract(adata, empty=False)
+    isbacked = isinstance(X, tuple)
+    assert not isbacked, "adata is in backed mode, reload adata without backed='r'"
     obs = adata.obs
     # Minimum sample size cutoff
     min_sample_size = _min_sample_size(
diff --git a/src/decoupler/pp/anndata.py b/src/decoupler/pp/anndata.py
@@ -116,10 +116,11 @@ def swap_layer(
     return cdata
 
 
-def _validate_X(X: np.ndarray | sps.csr_matrix, mode: str = "sum", skip_checks: bool = False) -> None:
+def _validate_X(X: np.ndarray | sps.csr_matrix | tuple, mode: str = "sum", skip_checks: bool = False) -> None:
     assert isinstance(skip_checks, bool), "skip_checks must be bool"
     skip_checks = type(mode) is dict or callable(mode) or skip_checks
-    if not skip_checks:
+    isbacked = isinstance(X, tuple)
+    if not skip_checks and not isbacked:
         if isinstance(X, sps.csr_matrix):
             any_neg = (X.data < 0).any()
         else:
@@ -218,6 +219,7 @@ def _psbulk(
     mode: Callable,
     verbose: bool = False,
 ) -> tuple[np.ndarray, np.ndarray, np.ndarray, np.ndarray]:
+    isbacked = isinstance(X, tuple)
     # Init empty variables
     psbulk = np.zeros((n_rows, n_cols))
     props = np.zeros((n_rows, n_cols))
@@ -231,8 +233,12 @@ def _psbulk(
             tmp = obs[obs[sample_col] == smp].drop_duplicates().values
             new_obs.loc[smp, :] = tmp
             # Get cells from specific sample
-            profile = X[(obs[sample_col] == smp).values]
-            if isinstance(X, sps.csr_matrix):
+            if isbacked:
+                bX, msk_col = X
+                profile = bX[(obs[sample_col] == smp).values, :][:, msk_col]
+            else:
+                profile = X[(obs[sample_col] == smp).values]
+            if isinstance(profile, sps.csr_matrix):
                 profile = profile.toarray()
             # Skip if few cells or not enough counts
             ncell = profile.shape[0]
@@ -256,8 +262,12 @@ def _psbulk(
         for grp in groups:
             for smp in smples:
                 # Get cells from specific sample and group
-                profile = X[((obs[sample_col] == smp) & (obs[groups_col] == grp)).values]
-                if isinstance(X, sps.csr_matrix):
+                if isbacked:
+                    bX, msk_col = X
+                    profile = bX[((obs[sample_col] == smp) & (obs[groups_col] == grp)).values][:, msk_col]
+                else:
+                    profile = X[((obs[sample_col] == smp) & (obs[groups_col] == grp)).values]
+                if isinstance(profile, sps.csr_matrix):
                     profile = profile.toarray()
                 # Skip if few cells or not enough counts
                 ncell = profile.shape[0]
@@ -579,6 +589,8 @@ def filter_by_expr(
     assert isinstance(min_prop, int | float) and 1 >= min_prop >= 0, "min_prop must be numeric and between 0 and 1"
     # Extract inputs
     X, _, var_names = extract(adata, empty=False)
+    isbacked = isinstance(X, tuple)
+    assert not isbacked, "adata is in backed mode, reload adata without backed='r'"
     obs = adata.obs
     # Minimum sample size cutoff
     min_sample_size = _min_sample_size(
diff --git a/src/decoupler/pp/data.py b/src/decoupler/pp/data.py
diff --git a/tests/mt/test_decouple.py b/tests/mt/test_decouple.py
diff --git a/tests/pp/test_anndata.py b/tests/pp/test_anndata.py
diff --git a/tests/test_download.py b/tests/test_download.py