initial filtering

rxu17 · rxu17 · commit 799d2aaff210 · 2025-01-23T10:08:15.000-08:00
diff --git a/genie/database_to_staging.py b/genie/database_to_staging.py
@@ -682,6 +682,20 @@ def store_gene_panel_files(
     return genePanelEntities
 
 
+def filter_out_germline_variants(input_data : pd.DataFrame, status_col : str) -> pd.DataFrame:
+    """Filters out germline variants given a status col. Genie pipeline
+        cannot have any of these variants.
+
+    Args:
+        input_data (pd.DataFrame): input data with germline variants to filter out
+        status_col (str): status column for the data
+
+    Returns:
+        pd.DataFrame: filtered out germline variant data
+    """
+    return input_data[input_data[status_col] != "GERMLINE"].reset_index(drop=True)
+
+
 # TODO: add to load.py
 def store_sv_files(
     syn: synapseclient.Synapse,
@@ -735,6 +749,7 @@ def store_sv_files(
                 )
 
     sv_df = sv_df[sv_df["SAMPLE_ID"].isin(keep_for_merged_consortium_samples)]
+    sv_df = filter_out_germline_variants(input_data = sv_df, status_col = "SV_Status")
     sv_df.rename(columns=transform._col_name_to_titlecase, inplace=True)
     sv_text = process_functions.removePandasDfFloat(sv_df)
     sv_path = os.path.join(GENIE_RELEASE_DIR, "data_sv.txt")
diff --git a/tests/test_database_to_staging.py b/tests/test_database_to_staging.py
@@ -3,8 +3,10 @@
 import os
 from unittest import mock
 from unittest.mock import patch
+import pytest
 
 import pandas as pd
+from pandas.testing import assert_frame_equal
 import synapseclient
 
 from genie import database_to_staging, extract, load
@@ -106,3 +108,43 @@ def test_store_assay_info_files(syn):
             used=f"{FILEVIEW_SYNID}.2",
         )
         assert wes_ids == ["A"]
+
+
+@pytest.mark.parametrize(
+    "input_data, filter_col, expected_result",
+    [
+        (
+            pd.DataFrame(
+                dict(
+                    SV_Status=["GERMLINE", "GERMLINE"], Sample_ID=["GENIE-1", "GENIE-2"]
+                )
+            ),
+            "SV_Status",
+            pd.DataFrame(columns=["SV_Status", "Sample_ID"]),
+        ),
+        (
+            pd.DataFrame(
+                dict(
+                    SV_Status=["GERMLINE", "SOMATIC"], Sample_ID=["GENIE-1", "GENIE-2"]
+                )
+            ),
+            "SV_Status",
+            pd.DataFrame(dict(SV_Status=["SOMATIC"], Sample_ID=["GENIE-2"])),
+        ),
+        (
+            pd.DataFrame(
+                dict(SV_Status=["SOMATIC", "SOMATIC"], Sample_ID=["GENIE-1", "GENIE-2"])
+            ),
+            "SV_Status",
+            pd.DataFrame(
+                dict(SV_Status=["SOMATIC", "SOMATIC"], Sample_ID=["GENIE-1", "GENIE-2"])
+            ),
+        ),
+    ],
+    ids=["all_germline", "some_germline", "no_germline"],
+)
+def test_that_filter_out_germline_variants_returns_expected(
+    input_data, filter_col, expected_result
+):
+    result = database_to_staging.filter_out_germline_variants(input_data, filter_col)
+    assert_frame_equal(result, expected_result, check_index_type = False)