Add support for cross-validation of ML models

AntonisKl · AntonisKl · commit 0611f1c3061d · 2025-04-09T11:49:53.000+02:00
diff --git a/README.md b/README.md
@@ -11,7 +11,7 @@ ExeKGLib is a Python library that simplifies the construction and execution of M
 
 ## 🌟 Features
 
-1. **🔨 Construct** data analytics pipelines that take tabular files (e.g. CSV) as input and process the data using a variety of [available tasks and methods](https://boschresearch.github.io/ExeKGLib/supported-methods/).
+1. **🔨 Construct** data analytics pipelines that take tabular files (e.g. CSV) as input and process the data using a variety of [available tasks and methods](https://boschresearch.github.io/ExeKGLib/supported-tasks-and-methods/).
 2. **💾 Save** the constructed pipelines as ExeKGs in RDF Turtle format.
 3. **▶️ Execute** the generated ExeKGs.
 
@@ -45,11 +45,17 @@ For detailed installation instructions, refer to the [installation page](https:/
 ## 🚀 Getting started
 
 [//]: # (--8<-- [start:gettingstarted])
-We provide [example Python files and a JSON file](https://github.com/boschresearch/ExeKGLib/tree/main/examples) that can be used to create the following pipelines:
+We provide [example Python and JSON files](https://github.com/boschresearch/ExeKGLib/tree/main/examples) that can be used to create the following pipelines:
 
-1. **🧠 ML pipeline**: Loads a CSV dataset, concatenates selected features, splits the data into training and testing sets, trains a Support Vector Classifier model, tests the model, calculates performance metrics (accuracy, F1 score, precision, and recall), and visualizes the results in bar plots.
-2. **📊 Statistics pipeline**: Loads a specific feature from a CSV dataset, calculates its mean and standard deviation, and visualizes the feature's values using a line plot and the calculated statistics using a bar plot.
-3. **📈 Visualization pipeline**: The pipeline loads two numerical features from a CSV dataset and visualizes each feature's values using separate line plots.
+1. **🧠 ML pipeline**:
+    1. `ml_pipeline_creation[from_json].py` and `MLPipeline.json`: Loads a CSV dataset, concatenates selected features, splits the data into training and testing sets, trains a Support Vector Classifier model, tests the model, calculates performance metrics (accuracy, F1 score, precision, and recall), and visualizes the results in bar plots.
+    2. `MLPipelineExtended.json`: An extended version of the above ML pipeline that adds a data splitting step for Stratified K-Fold Cross-Validation. Then, it trains and tests the model using the cross-validation technique and visualizes the validation and test F1 scores in bar plots.
+2. **📊 Statistics pipeline**:
+    - `stats_pipeline_creation.py`: Loads a specific feature from a CSV dataset, calculates its mean and standard deviation, and visualizes the feature's values using a line plot and the calculated statistics using a bar plot.
+3. **📈 Visualization pipeline**:
+    - `visu_pipeline_creation.py`: The pipeline loads two numerical features from a CSV dataset and visualizes each feature's values using separate line plots.
+
+> 🗒️ **Note**: The naming convention for output names (used as inputs for subsequent tasks) in `.json` files can be found in `exe_kg_lib/utils/string_utils.py`. Look for `TASK_OUTPUT_NAME_REGEX`.
 
 [//]: # (--8<-- [end:gettingstarted])
 
diff --git a/examples/MLPipeline.json b/examples/MLPipeline.json
@@ -1,7 +1,7 @@
 {
     "name": "MLPipeline",
-    "input_data_path": "/PATH/TO/THIS/DIR/data/dummy_data.csv",
-    "output_plots_dir": "/PATH/TO/THIS/DIR/plots/MLPipeline",
+    "input_data_path": "C:\\Users\\klr2rng\\Documents\\projects\\ExeKGLib-internal\\examples\\data\\dummy_data.csv",
+    "output_plots_dir": "C:\\Users\\klr2rng\\Documents\\projects\\ExeKGLib-internal\\examples\\plots\\MLPipeline",
     "data_entities": [
         {
             "name": "feature_1",
@@ -69,7 +69,7 @@
             },
             "input_data_entity_dict": {
                 "DataInDataSplittingX": [
-                    "DataOutConcatenatedData_Concatenation1_ConcatenationMethod"
+                    "DataOutConcatenatedData_Concatenation1_MLPipeline_ConcatenationMethod"
                 ],
                 "DataInDataSplittingY": [
                     "label"
@@ -91,10 +91,10 @@
             },
             "input_data_entity_dict": {
                 "DataInTrainX": [
-                    "DataOutSplittedTrainDataX_DataSplitting1_TrainTestSplitMethod"
+                    "DataOutSplittedTrainDataX_DataSplitting1_MLPipeline_TrainTestSplitMethod"
                 ],
                 "DataInTrainY": [
-                    "DataOutSplittedTrainDataY_DataSplitting1_TrainTestSplitMethod"
+                    "DataOutSplittedTrainDataY_DataSplitting1_MLPipeline_TrainTestSplitMethod"
                 ]
             },
             "output_names": [
@@ -108,10 +108,10 @@
             "method_params_dict": {},
             "input_data_entity_dict": {
                 "DataInTestModel": [
-                    "DataOutTrainModel_BinaryClassification1_SVCMethod"
+                    "DataOutTrainModel_BinaryClassification1_MLPipeline_SVCMethod"
                 ],
                 "DataInTestX": [
-                    "DataOutSplittedTestDataX_DataSplitting1_TrainTestSplitMethod"
+                    "DataOutSplittedTestDataX_DataSplitting1_MLPipeline_TrainTestSplitMethod"
                 ]
             },
             "output_names": [
@@ -125,10 +125,10 @@
             "method_params_dict": {},
             "input_data_entity_dict": {
                 "DataInRealY": [
-                    "DataOutSplittedTestDataY_DataSplitting1_TrainTestSplitMethod"
+                    "DataOutSplittedTestDataY_DataSplitting1_MLPipeline_TrainTestSplitMethod"
                 ],
                 "DataInPredictedY": [
-                    "DataOutPredictedValueTest_Test1_TestMethod"
+                    "DataOutPredictedValueTest_Test1_MLPipeline_TestMethod"
                 ]
             },
             "output_names": [
@@ -142,10 +142,10 @@
             "method_params_dict": {},
             "input_data_entity_dict": {
                 "DataInRealY": [
-                    "DataOutSplittedTestDataY_DataSplitting1_TrainTestSplitMethod"
+                    "DataOutSplittedTestDataY_DataSplitting1_MLPipeline_TrainTestSplitMethod"
                 ],
                 "DataInPredictedY": [
-                    "DataOutPredictedValueTest_Test1_TestMethod"
+                    "DataOutPredictedValueTest_Test1_MLPipeline_TestMethod"
                 ]
             },
             "output_names": [
@@ -159,10 +159,10 @@
             "method_params_dict": {},
             "input_data_entity_dict": {
                 "DataInRealY": [
-                    "DataOutSplittedTestDataY_DataSplitting1_TrainTestSplitMethod"
+                    "DataOutSplittedTestDataY_DataSplitting1_MLPipeline_TrainTestSplitMethod"
                 ],
                 "DataInPredictedY": [
-                    "DataOutPredictedValueTest_Test1_TestMethod"
+                    "DataOutPredictedValueTest_Test1_MLPipeline_TestMethod"
                 ]
             },
             "output_names": [
@@ -176,10 +176,10 @@
             "method_params_dict": {},
             "input_data_entity_dict": {
                 "DataInRealY": [
-                    "DataOutSplittedTestDataY_DataSplitting1_TrainTestSplitMethod"
+                    "DataOutSplittedTestDataY_DataSplitting1_MLPipeline_TrainTestSplitMethod"
                 ],
                 "DataInPredictedY": [
-                    "DataOutPredictedValueTest_Test1_TestMethod"
+                    "DataOutPredictedValueTest_Test1_MLPipeline_TestMethod"
                 ]
             },
             "output_names": [
@@ -206,8 +206,8 @@
             },
             "input_data_entity_dict": {
                 "DataInToPlot": [
-                    "DataOutScore_PerformanceCalculation1_AccuracyScoreMethod",
-                    "DataOutScore_PerformanceCalculation2_F1ScoreMethod"
+                    "DataOutScore_PerformanceCalculation1_MLPipeline_AccuracyScoreMethod",
+                    "DataOutScore_PerformanceCalculation2_MLPipeline_F1ScoreMethod"
                 ]
             },
             "output_names": []
@@ -221,8 +221,8 @@
             },
             "input_data_entity_dict": {
                 "DataInToPlot": [
-                    "DataOutScore_PerformanceCalculation3_PrecisionScoreMethod",
-                    "DataOutScore_PerformanceCalculation4_RecallScoreMethod"
+                    "DataOutScore_PerformanceCalculation3_MLPipeline_PrecisionScoreMethod",
+                    "DataOutScore_PerformanceCalculation4_MLPipeline_RecallScoreMethod"
                 ]
             },
             "output_names": []
diff --git a/examples/MLPipelineExtended.json b/examples/MLPipelineExtended.json
@@ -0,0 +1,221 @@
+{
+    "name": "MLPipelineExtended",
+    "input_data_path": "C:\\Users\\klr2rng\\Documents\\projects\\ExeKGLib-internal\\examples\\data\\dummy_data.csv",
+    "output_plots_dir": "C:\\Users\\klr2rng\\Documents\\projects\\ExeKGLib-internal\\examples\\plots\\MLPipelineExtended",
+    "data_entities": [
+        {
+            "name": "feature_1",
+            "source": "feature_1",
+            "data_semantics": "Numerical",
+            "data_structure": "Vector"
+        },
+        {
+            "name": "feature_2",
+            "source": "feature_2",
+            "data_semantics": "Numerical",
+            "data_structure": "Vector"
+        },
+        {
+            "name": "feature_3",
+            "source": "feature_3",
+            "data_semantics": "Numerical",
+            "data_structure": "Vector"
+        },
+        {
+            "name": "feature_4",
+            "source": "feature_4",
+            "data_semantics": "Numerical",
+            "data_structure": "Vector"
+        },
+        {
+            "name": "feature_5",
+            "source": "feature_5",
+            "data_semantics": "Numerical",
+            "data_structure": "Vector"
+        },
+        {
+            "name": "label",
+            "source": "label",
+            "data_semantics": "Categorical",
+            "data_structure": "Vector"
+        }
+    ],
+    "tasks": [
+        {
+            "kg_schema_short": "ml",
+            "task_type": "Concatenation",
+            "method_type": "ConcatenationMethod",
+            "method_params_dict": {},
+            "input_data_entity_dict": {
+                "DataInConcatenation": [
+                    "feature_1",
+                    "feature_2",
+                    "feature_3",
+                    "feature_4",
+                    "feature_5"
+                ]
+            },
+            "output_names": [
+                "DataOutConcatenatedData"
+            ]
+        },
+        {
+            "kg_schema_short": "ml",
+            "task_type": "DataSplitting",
+            "method_type": "TrainTestSplitMethod",
+            "method_params_dict": {
+                "hasParamTestSize": 0.2,
+                "hasParamRandomState": 0
+            },
+            "input_data_entity_dict": {
+                "DataInDataSplittingX": [
+                    "DataOutConcatenatedData_Concatenation1_MLPipeline_ConcatenationMethod"
+                ],
+                "DataInDataSplittingY": [
+                    "label"
+                ]
+            },
+            "output_names": [
+                "DataOutSplittedTestDataX",
+                "DataOutSplittedTestDataY",
+                "DataOutSplittedTrainDataX",
+                "DataOutSplittedTrainDataY"
+            ]
+        },
+        {
+            "kg_schema_short": "ml",
+            "task_type": "DataSplitting",
+            "method_type": "StratifiedKFoldMethod",
+            "method_params_dict": {
+                "hasParamNSplits": 3
+            },
+            "input_data_entity_dict": {
+                "DataInDataSplittingX": [
+                    "DataOutSplittedTrainDataX_DataSplitting1_MLPipeline_TrainTestSplitMethod"
+                ],
+                "DataInDataSplittingY": [
+                    "DataOutSplittedTrainDataY_DataSplitting1_MLPipeline_TrainTestSplitMethod"
+                ]
+            },
+            "output_names": [
+                "DataOutSplittedTestDataX",
+                "DataOutSplittedTestDataY",
+                "DataOutSplittedTrainDataX",
+                "DataOutSplittedTrainDataY"
+            ]
+        },
+        {
+            "kg_schema_short": "ml",
+            "task_type": "BinaryClassification",
+            "method_type": "SVCMethod",
+            "method_params_dict": {
+                "hasParamRandomState": 0
+            },
+            "input_data_entity_dict": {
+                "DataInTrainX": [
+                    "DataOutSplittedTrainDataX_DataSplitting2_MLPipeline_StratifiedKFoldMethod"
+                ],
+                "DataInTrainY": [
+                    "DataOutSplittedTrainDataY_DataSplitting2_MLPipeline_StratifiedKFoldMethod"
+                ]
+            },
+            "output_names": [
+                "DataOutTrainModel"
+            ]
+        },
+        {
+            "kg_schema_short": "ml",
+            "task_type": "Test",
+            "method_type": "TestMethod",
+            "method_params_dict": {},
+            "input_data_entity_dict": {
+                "DataInTestModel": [
+                    "DataOutTrainModel_BinaryClassification1_MLPipeline_SVCMethod"
+                ],
+                "DataInTestX": [
+                    "DataOutSplittedTestDataX_DataSplitting2_MLPipeline_StratifiedKFoldMethod"
+                ]
+            },
+            "output_names": [
+                "DataOutPredictedValueTest"
+            ]
+        },
+        {
+            "kg_schema_short": "ml",
+            "task_type": "Test",
+            "method_type": "TestMethod",
+            "method_params_dict": {},
+            "input_data_entity_dict": {
+                "DataInTestModel": [
+                    "DataOutTrainModel_BinaryClassification1_MLPipeline_SVCMethod"
+                ],
+                "DataInTestX": [
+                    "DataOutSplittedTestDataX_DataSplitting1_MLPipeline_TrainTestSplitMethod"
+                ]
+            },
+            "output_names": [
+                "DataOutPredictedValueTest"
+            ]
+        },
+        {
+            "kg_schema_short": "ml",
+            "task_type": "PerformanceCalculation",
+            "method_type": "F1ScoreMethod",
+            "method_params_dict": {},
+            "input_data_entity_dict": {
+                "DataInRealY": [
+                    "DataOutSplittedTestDataY_DataSplitting2_MLPipeline_StratifiedKFoldMethod"
+                ],
+                "DataInPredictedY": [
+                    "DataOutPredictedValueTest_Test1_MLPipeline_TestMethod"
+                ]
+            },
+            "output_names": [
+                "DataOutScore"
+            ]
+        },
+        {
+            "kg_schema_short": "ml",
+            "task_type": "PerformanceCalculation",
+            "method_type": "F1ScoreMethod",
+            "method_params_dict": {},
+            "input_data_entity_dict": {
+                "DataInRealY": [
+                    "DataOutSplittedTestDataY_DataSplitting1_MLPipeline_TrainTestSplitMethod"
+                ],
+                "DataInPredictedY": [
+                    "DataOutPredictedValueTest_Test2_MLPipeline_TestMethod"
+                ]
+            },
+            "output_names": [
+                "DataOutScore"
+            ]
+        },
+        {
+            "kg_schema_short": "visu",
+            "task_type": "CanvasCreation",
+            "method_type": "CanvasMethod",
+            "method_params_dict": {
+                "hasParamLayout": "2 1",
+                "hasParamFigureSize": "10 10"
+            },
+            "input_data_entity_dict": {},
+            "output_names": []
+        },
+        {
+            "kg_schema_short": "visu",
+            "task_type": "BarPlotting",
+            "method_type": "BarMethod",
+            "method_params_dict": {
+                "hasParamTitle": "Validation F1-score and Test F1-score"
+            },
+            "input_data_entity_dict": {
+                "DataInToPlot": [
+                    "DataOutScore_PerformanceCalculation1_MLPipeline_F1ScoreMethod",
+                    "DataOutScore_PerformanceCalculation2_MLPipeline_F1ScoreMethod"
+                ]
+            },
+            "output_names": []
+        }
+    ]
+}
diff --git a/exe_kg_lib/classes/exe_kg_mixins/exe_kg_construction_mixin.py b/exe_kg_lib/classes/exe_kg_mixins/exe_kg_construction_mixin.py
@@ -200,6 +200,7 @@ def add_task(
             method_parent.iri, self.top_level_schema.namespace_prefix, self.input_kg
         )
 
+        initial_method_params_dict = method_params_dict.copy()
         provided_params_num = len(method_params_dict)
         added_params_num = 0
         # add data properties to the task with given values
@@ -227,7 +228,7 @@ def add_task(
             kg_schema_short,
             task,
             method,
-            method_params_dict,
+            initial_method_params_dict,
             input_data_entity_dict,
             output_names,
         )
diff --git a/exe_kg_lib/classes/tasks/ml_tasks.py b/exe_kg_lib/classes/tasks/ml_tasks.py
diff --git a/exe_kg_lib/utils/kg_creation_utils.py b/exe_kg_lib/utils/kg_creation_utils.py