[Cherry-Pick-Main][Server] Catch another edge case for compute_feature_stats (#48)

mkaliberda · web-flow · commit c18aad476693 · 2025-01-15T17:19:09.000-08:00
diff --git a/func_tests/pytest_tests/pipeline_tests/test_Loading_a_Trained_Neuron_Array.py b/func_tests/pytest_tests/pipeline_tests/test_Loading_a_Trained_Neuron_Array.py
@@ -123,6 +123,8 @@ def test_LoadTrainedNeuron(dsk_random_project, DataDir):
 
     results, stats = dsk.pipeline.execute()
 
+    print(results)
+
     results.summarize()
     model = results.configurations[0].models[0]
     assert model.neurons == neuron_array
diff --git a/src/server/datamanager/sandbox.py b/src/server/datamanager/sandbox.py
@@ -143,9 +143,12 @@ def calculate_feature_stats(feature_data, feature_table, label_column, sandbox_u
     if not isinstance(feature_data, DataFrame):
         return {}
 
-    feature_statistics = model_generator.compute_feature_stats(
-        feature_data[selected_feature_cols], label_in_df=False
-    )
+    feature_statistics = {}
+    if label_column and label_column in feature_data.columns:
+        selected_feature_cols.append(label_column)
+        feature_statistics = model_generator.compute_feature_stats(
+            feature_data[selected_feature_cols]
+        )
 
     feature_summary = (
         selected_features.where(notnull(selected_features), NA)
diff --git a/src/server/library/model_generators/model_generator.py b/src/server/library/model_generators/model_generator.py
@@ -280,29 +280,27 @@ def compute_outliers(d):
     return outliers
 
 
-def compute_feature_stats(df, label_in_df=True):
+def compute_feature_stats(df):
     """This assumes that the last column in the dataframe is the label column"""
 
-    if label_in_df:
-        columns = df.columns[:-1]
-    else:
-        columns = df.columns
+    label = df.columns[-1]
+    features_names = df.columns[:-1]
 
-    g = df.groupby(columns)
+    g = df.groupby(label)
 
     M = {}
     for k, v in g.groups.items():
         M[k] = (
-            g.get_group(k)[columns]
+            g.get_group(k)[features_names]
             .describe(percentiles=[0.045, 0.25, 0.5, 0.75, 0.955])
             .round(2)
             .fillna(0)
             .to_dict()
         )
 
-        outliers = compute_outliers(g.get_group(k)[columns])
+        outliers = compute_outliers(g.get_group(k)[features_names])
         for feature in M[k].keys():
-            M[k][feature]["median"] = g.get_group(k)[columns][feature].median()
+            M[k][feature]["median"] = g.get_group(k)[features_names][feature].median()
             M[k][feature]["outlier"] = outliers[feature]
 
     l = {k: {} for k in M[next(iter(M))].keys()}