rvandewater · rvandewater · Oct 30, 2024 · Oct 30, 2024 · Oct 30, 2024 · Nov 15, 2024
diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml
diff --git a/configs/prediction_models/LGBMClassifier.gin b/configs/prediction_models/LGBMClassifier.gin
@@ -6,11 +6,54 @@ include "configs/prediction_models/common/MLCommon.gin"
 # Train params
 train_common.model = @LGBMClassifier
 
+# Hyperparameter tuning configuration
 model/hyperparameter.class_to_tune = @LGBMClassifier
-model/hyperparameter.colsample_bytree = (0.33, 1.0)
-model/hyperparameter.max_depth = (3, 7)
-model/hyperparameter.min_child_samples = 1000
-model/hyperparameter.n_estimators = 100000
-model/hyperparameter.num_leaves = (8, 128, "log", 2)
-model/hyperparameter.subsample = (0.33, 1.0)
-model/hyperparameter.subsample_freq = 1
+
+# Core tree parameters
+model/hyperparameter.n_estimators = (500, 2000, 5000, 10000, 100000)
+model/hyperparameter.max_depth = (3, 5, 7, 10, 15)
+model/hyperparameter.num_leaves = (8, 16, 31, 64, 128, 256, "log", 2)
+model/hyperparameter.min_child_samples = (10, 20, 50, 100, 500, 1000)
+model/hyperparameter.min_child_weight = (1e-3, 10.0, "log")
+
-model/hyperparameter.n_estimators = (500, 2000, 5000, 10000, 100000)
-model/hyperparameter.max_depth = (3, 5, 7, 10, 15)
-model/hyperparameter.num_leaves = (8, 16, 31, 64, 128, 256, "log", 2)
-model/hyperparameter.min_child_samples = (10, 20, 50, 100, 500, 1000)
-model/hyperparameter.min_child_weight = (1e-3, 10.0, "log")
+# configs/prediction_models/LGBMClassifier.gin
+
+model/hyperparameter.n_estimators = (500, 20000, "log")
+model/hyperparameter.max_depth = (3, 5, 7, 10, 15)
+model/hyperparameter.num_leaves = (8, 256, "log")
+model/hyperparameter.min_child_samples = (10, 20, 50, 100, 500, 1000)
+model/hyperparameter.min_child_weight = (1e-3, 10.0, "log")
-model/hyperparameter.n_estimators = (500, 2000, 5000, 10000, 100000)
-model/hyperparameter.max_depth = (3, 5, 7, 10, 15)
-model/hyperparameter.num_leaves = (8, 16, 31, 64, 128, 256, "log", 2)
-model/hyperparameter.min_child_samples = (10, 20, 50, 100, 500, 1000)
-model/hyperparameter.min_child_weight = (1e-3, 10.0, "log")
+# configs/prediction_models/LGBMClassifier.gin
+
+model/hyperparameter.n_estimators = (500, 20000, "log")
+model/hyperparameter.max_depth = (3, 5, 7, 10, 15)
+model/hyperparameter.num_leaves = (8, 256, "log")
+model/hyperparameter.min_child_samples = (10, 20, 50, 100, 500, 1000)
+model/hyperparameter.min_child_weight = (1e-3, 10.0, "log")
+# Learning rate and regularization
+model/hyperparameter.learning_rate = (0.01, 0.3, "log")
+model/hyperparameter.reg_alpha = (1e-6, 1.0, "log")
+model/hyperparameter.reg_lambda = (1e-6, 1.0, "log")
+
+# Sampling parameters
+model/hyperparameter.subsample = (0.4, 1.0)
+model/hyperparameter.subsample_freq = (0, 1, 5, 10)
+model/hyperparameter.colsample_bytree = (0.4, 1.0)
+model/hyperparameter.colsample_bynode = (0.4, 1.0)
+
-# Sampling parameters
-model/hyperparameter.subsample = (0.4, 1.0)
-model/hyperparameter.subsample_freq = (0, 1, 5, 10)
-model/hyperparameter.colsample_bytree = (0.4, 1.0)
-model/hyperparameter.colsample_bynode = (0.4, 1.0)
-# Sampling parameters
-model/hyperparameter.subsample = (0.4, 1.0)
-model/hyperparameter.subsample_freq = (0, 1, 5, 10)
-model/hyperparameter.colsample_bytree = (0.4, 1.0)
-model/hyperparameter.colsample_bynode = (0.4, 1.0)
+# Boosting parameters
+model/hyperparameter.boosting_type = ["gbdt", "dart"]
+
+# Advanced DART parameters (active when boosting_type="dart")
+model/hyperparameter.drop_rate = (0.1, 0.5)
+model/hyperparameter.max_drop = (10, 50)
+model/hyperparameter.skip_drop = (0.1, 0.9)
+
+# GOSS parameters (active when boosting_type="goss")
+model/hyperparameter.top_rate = (0.1, 0.5)
+model/hyperparameter.other_rate = (0.05, 0.2)
+
-# Boosting parameters
-model/hyperparameter.boosting_type = ["gbdt", "dart"]
-
-# Advanced DART parameters (active when boosting_type="dart")
-model/hyperparameter.drop_rate = (0.1, 0.5)
-model/hyperparameter.max_drop = (10, 50)
-model/hyperparameter.skip_drop = (0.1, 0.9)
-
-# GOSS parameters (active when boosting_type="goss")
-model/hyperparameter.top_rate = (0.1, 0.5)
-model/hyperparameter.other_rate = (0.05, 0.2)
+# Boosting parameters
+model/hyperparameter.boosting_type = ["gbdt", "dart", "goss"]
+
+# Advanced DART parameters (active when boosting_type="dart")
+model/hyperparameter.drop_rate = (0.1, 0.5)
+model/hyperparameter.max_drop = (10, 50)
+model/hyperparameter.skip_drop = (0.1, 0.9)
+
+# GOSS parameters (active when boosting_type="goss")
+model/hyperparameter.top_rate = (0.1, 0.5)
+model/hyperparameter.other_rate = (0.05, 0.2)
-# Boosting parameters
-model/hyperparameter.boosting_type = ["gbdt", "dart"]
-
-# Advanced DART parameters (active when boosting_type="dart")
-model/hyperparameter.drop_rate = (0.1, 0.5)
-model/hyperparameter.max_drop = (10, 50)
-model/hyperparameter.skip_drop = (0.1, 0.9)
-
-# GOSS parameters (active when boosting_type="goss")
-model/hyperparameter.top_rate = (0.1, 0.5)
-model/hyperparameter.other_rate = (0.05, 0.2)
+# Boosting parameters
+model/hyperparameter.boosting_type = ["gbdt", "dart"]
+
+# Advanced DART parameters (active when boosting_type="dart")
+model/hyperparameter.drop_rate = (0.1, 0.5)
+model/hyperparameter.max_drop = (10, 50)
+model/hyperparameter.skip_drop = (0.1, 0.9)
-# Boosting parameters
-model/hyperparameter.boosting_type = ["gbdt", "dart"]
-
-# Advanced DART parameters (active when boosting_type="dart")
-model/hyperparameter.drop_rate = (0.1, 0.5)
-model/hyperparameter.max_drop = (10, 50)
-model/hyperparameter.skip_drop = (0.1, 0.9)
-
-# GOSS parameters (active when boosting_type="goss")
-model/hyperparameter.top_rate = (0.1, 0.5)
-model/hyperparameter.other_rate = (0.05, 0.2)
+# Boosting parameters
+model/hyperparameter.boosting_type = ["gbdt", "dart", "goss"]
+
+# Advanced DART parameters (active when boosting_type="dart")
+model/hyperparameter.drop_rate = (0.1, 0.5)
+model/hyperparameter.max_drop = (10, 50)
+model/hyperparameter.skip_drop = (0.1, 0.9)
+
+# GOSS parameters (active when boosting_type="goss")
+model/hyperparameter.top_rate = (0.1, 0.5)
+model/hyperparameter.other_rate = (0.05, 0.2)
-# Boosting parameters
-model/hyperparameter.boosting_type = ["gbdt", "dart"]
-
-# Advanced DART parameters (active when boosting_type="dart")
-model/hyperparameter.drop_rate = (0.1, 0.5)
-model/hyperparameter.max_drop = (10, 50)
-model/hyperparameter.skip_drop = (0.1, 0.9)
-
-# GOSS parameters (active when boosting_type="goss")
-model/hyperparameter.top_rate = (0.1, 0.5)
-model/hyperparameter.other_rate = (0.05, 0.2)
+# Boosting parameters
+model/hyperparameter.boosting_type = ["gbdt", "dart"]
+
+# Advanced DART parameters (active when boosting_type="dart")
+model/hyperparameter.drop_rate = (0.1, 0.5)
+model/hyperparameter.max_drop = (10, 50)
+model/hyperparameter.skip_drop = (0.1, 0.9)
+# Performance and stability
+model/hyperparameter.feature_fraction = (0.4, 1.0)
+model/hyperparameter.bagging_fraction = (0.4, 1.0)
+model/hyperparameter.bagging_freq = (0, 1, 5, 10)
+model/hyperparameter.min_split_gain = (1e-6, 1.0, "log")
+
-# Performance and stability
-model/hyperparameter.feature_fraction = (0.4, 1.0)
-model/hyperparameter.bagging_fraction = (0.4, 1.0)
-model/hyperparameter.bagging_freq = (0, 1, 5, 10)
-model/hyperparameter.min_split_gain = (1e-6, 1.0, "log")
+# Performance and stability
+model/hyperparameter.feature_fraction = (0.4, 1.0)
+model/hyperparameter.bagging_fraction = (0.4, 1.0)
+model/hyperparameter.bagging_freq = (0, 1, 5, 10)
+model/hyperparameter.min_split_gain = (1e-6, 1.0, "log")
+model/hyperparameter.feature_fraction_bynode = (0.4, 1.0)
-# Performance and stability
-model/hyperparameter.feature_fraction = (0.4, 1.0)
-model/hyperparameter.bagging_fraction = (0.4, 1.0)
-model/hyperparameter.bagging_freq = (0, 1, 5, 10)
-model/hyperparameter.min_split_gain = (1e-6, 1.0, "log")
+# Performance and stability
+model/hyperparameter.feature_fraction = (0.4, 1.0)
+model/hyperparameter.bagging_fraction = (0.4, 1.0)
+model/hyperparameter.bagging_freq = (0, 1, 5, 10)
+model/hyperparameter.min_split_gain = (1e-6, 1.0, "log")
+model/hyperparameter.feature_fraction_bynode = (0.4, 1.0)
+# Categorical handling
+model/hyperparameter.cat_smooth = (1.0, 100.0, "log")
+model/hyperparameter.cat_l2 = (1.0, 100.0, "log")
+
+# Early stopping and validation
+model/hyperparameter.early_stopping_rounds = 100
+model/hyperparameter.eval_metric = ["binary_logloss", "auc", "binary_error"]
+
-# Early stopping and validation
-model/hyperparameter.early_stopping_rounds = 100
-model/hyperparameter.eval_metric = ["binary_logloss", "auc", "binary_error"]
+        # Wire through Gin hyperparameters for early stopping and evaluation metrics
+        callbacks = []
+        # Use Gin’s early_stopping_rounds if set
+        if getattr(self.hparams, "early_stopping_rounds", None):
+            callbacks.append(lgbm.early_stopping(self.hparams.early_stopping_rounds, verbose=True))
+
+        # Override the eval_metric on the model if configured
+        if getattr(self.hparams, "eval_metric", None):
+            # scikit-learn wrapper will pass this metric to the Booster
+            self.model.set_params(eval_metric=self.hparams.eval_metric)
+
+        self.model = self.model.fit(
+            train_data,
+            train_labels,
+            eval_set=(val_data, val_labels),
+            callbacks=callbacks,
+        )
-# Early stopping and validation
-model/hyperparameter.early_stopping_rounds = 100
-model/hyperparameter.eval_metric = ["binary_logloss", "auc", "binary_error"]
+        # Wire through Gin hyperparameters for early stopping and evaluation metrics
+        callbacks = []
+        # Use Gin’s early_stopping_rounds if set
+        if getattr(self.hparams, "early_stopping_rounds", None):
+            callbacks.append(lgbm.early_stopping(self.hparams.early_stopping_rounds, verbose=True))
+
+        # Override the eval_metric on the model if configured
+        if getattr(self.hparams, "eval_metric", None):
+            # scikit-learn wrapper will pass this metric to the Booster
+            self.model.set_params(eval_metric=self.hparams.eval_metric)
+
+        self.model = self.model.fit(
+            train_data,
+            train_labels,
+            eval_set=(val_data, val_labels),
+            callbacks=callbacks,
+        )
+# Class imbalance handling
+model/hyperparameter.is_unbalance = [True, False]
+model/hyperparameter.scale_pos_weight = (0.1, 10.0, "log")
+
-# Class imbalance handling
-model/hyperparameter.is_unbalance = [True, False]
-model/hyperparameter.scale_pos_weight = (0.1, 10.0, "log")
+# Class imbalance handling (prefer explicit weighting)
+model/hyperparameter.is_unbalance = [False]
+model/hyperparameter.scale_pos_weight = (0.1, 10.0, "log")
-# Class imbalance handling
-model/hyperparameter.is_unbalance = [True, False]
-model/hyperparameter.scale_pos_weight = (0.1, 10.0, "log")
+# Class imbalance handling (prefer explicit weighting)
+model/hyperparameter.is_unbalance = [False]
+model/hyperparameter.scale_pos_weight = (0.1, 10.0, "log")
diff --git a/configs/prediction_models/RUSBClassifier.gin b/configs/prediction_models/RUSBClassifier.gin
@@ -1,14 +1,28 @@
-# Settings for ImbLearn Balanced Random Forest Classifier.
+# Settings for ImbLearn RUSBoost Classifier (Random Under-sampling with Boosting)
 
 # Common settings for ML models
 include "configs/prediction_models/common/MLCommon.gin"
 
 # Train params
 train_common.model = @RUSBClassifier
 
+# Hyperparameter tuning configuration
 model/hyperparameter.class_to_tune = @RUSBClassifier
-model/hyperparameter.n_estimators = (10, 50, 100, 200, 500)
-model/hyperparameter.learning_rate = (0.005, 1, "log")
-model/hyperparameter.sampling_strategy = "auto"
 
-train_common.model = @RUSBClassifier
-
-# Hyperparameter tuning configuration
-model/hyperparameter.class_to_tune = @RUSBClassifier
-model/hyperparameter.n_estimators = (10, 50, 100, 200, 500)
-model/hyperparameter.learning_rate = (0.005, 1, "log")
-model/hyperparameter.sampling_strategy = "auto"
+train_common.model = @XGBEnsembleClassifier
+
+# Hyperparameter tuning configuration
+model/hyperparameter.class_to_tune = @XGBEnsembleClassifier
-train_common.model = @RUSBClassifier
-
-# Hyperparameter tuning configuration
-model/hyperparameter.class_to_tune = @RUSBClassifier
-model/hyperparameter.n_estimators = (10, 50, 100, 200, 500)
-model/hyperparameter.learning_rate = (0.005, 1, "log")
-model/hyperparameter.sampling_strategy = "auto"
+train_common.model = @XGBEnsembleClassifier
+
+# Hyperparameter tuning configuration
+model/hyperparameter.class_to_tune = @XGBEnsembleClassifier
+# Number of estimators (boosting rounds)
+model/hyperparameter.n_estimators = (50, 100, 200, 300, 500)
+
+# Learning rate for boosting
+model/hyperparameter.learning_rate = (0.01, 2.0, "log")
+
+# Sampling strategy for random under-sampling
+model/hyperparameter.sampling_strategy = ["auto", "majority", "not minority"]
+
+# Base estimator parameters (typically DecisionTreeClassifier)
+model/hyperparameter.base_estimator__max_depth = [1, 2, 3, 4, 5, 6]
+model/hyperparameter.base_estimator__min_samples_split = [2, 5, 10, 20]
+model/hyperparameter.base_estimator__min_samples_leaf = [1, 2, 5, 10]
+
+# Replacement strategy for under-sampling
+model/hyperparameter.replacement = [True, False]
 
diff --git a/configs/prediction_models/XGBClassifier.gin b/configs/prediction_models/XGBClassifier.gin
@@ -8,10 +8,14 @@ train_common.model = @XGBClassifier
 
 model/hyperparameter.class_to_tune = @XGBClassifier
 model/hyperparameter.learning_rate = (0.01, 0.1, "log")
-model/hyperparameter.n_estimators = [50, 100, 250, 500, 750, 1000,1500,2000]
+model/hyperparameter.n_estimators = [50, 100, 250, 500, 750, 1000,1500,2000, 2500, 3000, 3500, 4000, 4500, 5000]
 model/hyperparameter.max_depth = [3, 5, 10, 15]
 model/hyperparameter.scale_pos_weight = [1, 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 99, 100, 1000]
-model/hyperparameter.min_child_weight = [1, 0.5]
+model/hyperparameter.min_child_weight = [0.1, 0.5, 1, 2, 5, 10]
 model/hyperparameter.max_delta_step = [0, 1, 2, 3, 4, 5, 10]
 model/hyperparameter.colsample_bytree = [0.1, 0.25, 0.5, 0.75, 1.0]
-model/hyperparameter.eval_metric = "aucpr"
+# model/hyperparameter.eval_metric = "aucpr"
+model/hyperparameter.gamma = [0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0, 2.0]
+# model/hyperparameter.early_stopping_rounds = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
+model/hyperparameter.reg_lambda = [0, 0.01, 0.1, 1, 10, 100]
+model/hyperparameter.reg_alpha = [0, 0.01, 0.1, 1, 10, 100]
diff --git a/configs/prediction_models/XGBClassifierGPU.gin b/configs/prediction_models/XGBClassifierGPU.gin
@@ -0,0 +1,21 @@
+# Settings for XGBoost classifier.
+
+# Common settings for ML models
+include "configs/prediction_models/common/MLCommon.gin"
+
+# Train params
+train_common.model = @XGBClassifierGPU
+
+model/hyperparameter.class_to_tune = @XGBClassifierGPU
+model/hyperparameter.learning_rate = (0.01, 0.1, "log")
+model/hyperparameter.n_estimators = [50, 100, 250, 500, 750, 1000,1500,2000, 2500, 3000, 3500, 4000, 4500, 5000]
+model/hyperparameter.max_depth = [3, 5, 10, 15]
+model/hyperparameter.scale_pos_weight = [1, 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 99, 100, 1000]
+model/hyperparameter.min_child_weight = [0.1, 0.5, 1, 2, 5, 10]
+model/hyperparameter.max_delta_step = [0, 1, 2, 3, 4, 5, 10]
+model/hyperparameter.colsample_bytree = [0.1, 0.25, 0.5, 0.75, 1.0]
+# model/hyperparameter.eval_metric = "aucpr"
+model/hyperparameter.gamma = [0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0, 2.0]
+# model/hyperparameter.early_stopping_rounds = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
+model/hyperparameter.reg_lambda = [0, 0.01, 0.1, 1, 10, 100]
+model/hyperparameter.reg_alpha = [0, 0.01, 0.1, 1, 10, 100]
diff --git a/configs/prediction_models/common/MLTuning.gin b/configs/prediction_models/common/MLTuning.gin
@@ -1,5 +1,6 @@
 # Hyperparameter tuner settings for classical Machine Learning.
 tune_hyperparameters.scopes = ["model"]
 tune_hyperparameters.n_initial_points = 5
-tune_hyperparameters.n_calls = 30
-tune_hyperparameters.folds_to_tune_on = 5
+tune_hyperparameters.n_calls = 100
+tune_hyperparameters.folds_to_tune_on = 1
+tune_hyperparameters.repetitions_to_tune_on = 5
diff --git a/configs/tasks/BinaryClassification.gin b/configs/tasks/BinaryClassification.gin
@@ -22,6 +22,12 @@ preprocess.preprocessor = @base_classification_preprocessor
 preprocess.modality_mapping = %modality_mapping
 preprocess.vars = %vars
 preprocess.use_static = True
+preprocess.required_segments = ["OUTCOME", "STATIC"]
+preprocess.file_names = {
+    "DYNAMIC": "dyn.parquet",
+    "OUTCOME": "outc.parquet",
+    "STATIC": "sta.parquet",
+}
 
 # SELECTING DATASET
 include "configs/tasks/common/Dataloader.gin"

diff --git a/configs/tasks/common/Dataloader.gin b/configs/tasks/common/Dataloader.gin
@@ -3,6 +3,8 @@ PredictionPandasDataset.vars = %vars
 PredictionPandasDataset.ram_cache = True
 PredictionPolarsDataset.vars = %vars
 PredictionPolarsDataset.ram_cache = True
+PredictionPolarsDataset.mps = True
 # Imputation
 ImputationPandasDataset.vars = %vars
-ImputationPandasDataset.ram_cache = True
+ImputationPandasDataset.ram_cache = True
+PredictionPolarsDataset.mps = True
diff --git a/demo_data/mortality24/mimic_demo_static/attrition.csv b/demo_data/mortality24/mimic_demo_static/attrition.csv
@@ -0,0 +1,3 @@
+incl_n,excl_n_total,excl_n
+125,10,7
+99,34,26
diff --git a/docs/Makefile b/docs/Makefile
@@ -0,0 +1,20 @@
+# Minimal makefile for Sphinx documentation
+#
+
+# You can set these variables from the command line, and also
+# from the environment for the first two.
+SPHINXOPTS    ?=
+SPHINXBUILD   ?= sphinx-build
+SOURCEDIR     = source
+BUILDDIR      = build
+
+# Put it first so that "make" without argument is like "make help".
+help:
+	@$(SPHINXBUILD) -M help "$(SOURCEDIR)" "$(BUILDDIR)" $(SPHINXOPTS) $(O)
+
+.PHONY: help Makefile
+
+# Catch-all target: route all unknown targets to Sphinx using the new
+# "make mode" option.  $(O) is meant as a shortcut for $(SPHINXOPTS).
+%: Makefile
+	@$(SPHINXBUILD) -M $@ "$(SOURCEDIR)" "$(BUILDDIR)" $(SPHINXOPTS) $(O)
diff --git a/docs/make.bat b/docs/make.bat
@@ -0,0 +1,35 @@
+@ECHO OFF
+
+pushd %~dp0
+
+REM Command file for Sphinx documentation
+
+if "%SPHINXBUILD%" == "" (
+	set SPHINXBUILD=sphinx-build
+)
+set SOURCEDIR=source
+set BUILDDIR=build
+
+%SPHINXBUILD% >NUL 2>NUL
+if errorlevel 9009 (
+	echo.
+	echo.The 'sphinx-build' command was not found. Make sure you have Sphinx
+	echo.installed, then set the SPHINXBUILD environment variable to point
+	echo.to the full path of the 'sphinx-build' executable. Alternatively you
+	echo.may add the Sphinx directory to PATH.
+	echo.
+	echo.If you don't have Sphinx installed, grab it from
+	echo.https://www.sphinx-doc.org/
+	exit /b 1
+)
+
+if "%1" == "" goto help
+
+%SPHINXBUILD% -M %1 %SOURCEDIR% %BUILDDIR% %SPHINXOPTS% %O%
+goto end
+
+:help
+%SPHINXBUILD% -M help %SOURCEDIR% %BUILDDIR% %SPHINXOPTS% %O%
+
+:end
+popd
diff --git a/docs/requirements.txt b/docs/requirements.txt
@@ -0,0 +1,4 @@
+sphinx
+sphinx-rtd-theme
+sphinx-autoapi
+sphinx-autobuild