Remove diabetes dataset references and switch tests to synthetic regression data (#1361)

mrDzurb · web-flow · commit b6b528b10f5e · 2026-03-09T17:44:33.000-07:00
diff --git a/ads/dataset/dataset_browser.py b/ads/dataset/dataset_browser.py
@@ -5,26 +5,27 @@
 # Licensed under the Universal Permissive License v 1.0 as shown at https://oss.oracle.com/licenses/upl/
 
 
-from __future__ import print_function, absolute_import
+from __future__ import absolute_import, print_function
 
-import re, pathlib, os
+import os
+import pathlib
+import re
 import urllib.parse
 from abc import ABC, abstractmethod
 from os import listdir
-from os.path import isfile, isdir, join, getsize
-from typing import List, Set, Tuple, Dict
-
-import requests
+from os.path import getsize, isdir, isfile, join
+from typing import Dict, List, Set, Tuple
 
 import pandas as pd
+import requests
 import sklearn.datasets as sk_datasets
 
-from ads.dataset import helper
-from ads.common.utils import inject_and_copy_kwargs
 from ads.common.decorator.runtime_dependency import (
-    runtime_dependency,
     OptionalDependency,
+    runtime_dependency,
 )
+from ads.common.utils import inject_and_copy_kwargs
+from ads.dataset import helper
 
 
 class DatasetBrowser(ABC):
@@ -318,7 +319,7 @@ def open(self, name: str, **kwargs):
 
 class SklearnDatasets(DatasetBrowser):
 
-    sklearn_datasets = ["breast_cancer", "diabetes", "iris", "wine", "digits"]
+    sklearn_datasets = ["breast_cancer", "iris", "wine", "digits"]
 
     def __init__(self):
         super(DatasetBrowser, self).__init__()
diff --git a/docs/source/user_guide/loading_data/connect_legacy.rst b/docs/source/user_guide/loading_data/connect_legacy.rst
@@ -327,7 +327,7 @@ To see which dataset is available from scikit-learn, use:
 
 .. parsed-literal::
 
-    ['boston', 'breast_cancer', 'diabetes', 'iris', 'wine', 'digits']
+    ['boston', 'breast_cancer', 'iris', 'wine', 'digits']
 
 Datasets are provided as a convenience.  Datasets are considered Third Party Content and are not considered Materials under Your agreement with Oracle applicable to the Services. Review the `dataset license <https://github.com/scikit-learn/scikit-learn/blob/master/COPYING>`__.
 
@@ -336,4 +336,3 @@ To explore one of the datasets, use ``open()`` specifying the name of the datase
 .. code-block:: python3
 
   ds = sklearn.open('wine')
-
diff --git a/tests/integration/opctl/opctl_tests_files/linear_reg_test/main.py b/tests/integration/opctl/opctl_tests_files/linear_reg_test/main.py
@@ -1,21 +1,23 @@
 #!/usr/bin/env python
 
-# Copyright (c) 2023 Oracle and/or its affiliates.
+# Copyright (c) 2023, 2025 Oracle and/or its affiliates.
 # Licensed under the Universal Permissive License v 1.0 as shown at https://oss.oracle.com/licenses/upl/
 
 import argparse
-import numpy as np
-from sklearn import datasets, linear_model
+
+from sklearn import linear_model
+from sklearn.datasets import make_regression
 from sklearn.metrics import mean_squared_error, r2_score
 from sklearn.model_selection import train_test_split
 
 
 def main(test_size):
-    diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)
-    diabetes_X = diabetes_X[:, np.newaxis, 2]
+    X, y = make_regression(
+        n_samples=442, n_features=1, n_informative=1, noise=10.0, random_state=42
+    )
 
     X_train, X_test, y_train, y_test = train_test_split(
-        diabetes_X, diabetes_y, test_size=test_size
+        X, y, test_size=test_size
     )
 
     # Create linear regression object
@@ -25,14 +27,14 @@ def main(test_size):
     regr.fit(X_train, y_train)
 
     # Make predictions using the testing set
-    diabetes_y_pred = regr.predict(X_test)
+    y_pred = regr.predict(X_test)
 
     # The coefficients
     print("Coefficients: \n", regr.coef_)
     # The mean squared error
-    print("Mean squared error: %.2f" % mean_squared_error(y_test, diabetes_y_pred))
+    print("Mean squared error: %.2f" % mean_squared_error(y_test, y_pred))
     # The coefficient of determination: 1 is perfect prediction
-    print("Coefficient of determination: %.2f" % r2_score(y_test, diabetes_y_pred))
+    print("Coefficient of determination: %.2f" % r2_score(y_test, y_pred))
 
 
 if __name__ == "__main__":
diff --git a/tests/unitary/with_extras/model/test_model_metadata_mixin.py b/tests/unitary/with_extras/model/test_model_metadata_mixin.py
@@ -1,17 +1,17 @@
 #!/usr/bin/env python
 
-# Copyright (c) 2022, 2023 Oracle and/or its affiliates.
+# Copyright (c) 2022, 2025 Oracle and/or its affiliates.
 # Licensed under the Universal Permissive License v 1.0 as shown at https://oss.oracle.com/licenses/upl/
 
 import os
 import shutil
 from unittest.mock import patch
 
-import numpy as np
 import pytest
 import sklearn
 import xgboost
-from sklearn import datasets, linear_model
+from sklearn import linear_model
+from sklearn.datasets import make_regression
 
 from ads.feature_engineering.schema import Schema
 from ads.model.framework.sklearn_model import SklearnModel
@@ -22,19 +22,17 @@
 
 class TestMetadataMixin:
     def setup_method(cls):
-        # Load the diabetes dataset
-        diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)
-
-        # Use only one feature
-        diabetes_X = diabetes_X[:, np.newaxis, 2]
+        X, y = make_regression(
+            n_samples=442, n_features=1, n_informative=1, noise=10.0, random_state=42
+        )
 
         # Split the data into training/testing sets
-        cls.diabetes_X_train = diabetes_X[:-20]
-        cls.diabetes_X_test = diabetes_X[-20:]
+        cls.X_train = X[:-20]
+        cls.X_test = X[-20:]
 
         # Split the targets into training/testing sets
-        cls.diabetes_y_train = diabetes_y[:-20]
-        cls.diabetes_y_test = diabetes_y[-20:]
+        cls.y_train = y[:-20]
+        cls.y_test = y[-20:]
 
         # Create linear regression object
         regr = linear_model.LinearRegression()
@@ -43,8 +41,8 @@ def setup_method(cls):
 
         xgb_regr = XGBRegressor()
         # Train the model using the training sets
-        cls.rgr = regr.fit(cls.diabetes_X_train, cls.diabetes_y_train)
-        cls.xgb_rgr = xgb_regr.fit(cls.diabetes_X_train, cls.diabetes_y_train)
+        cls.rgr = regr.fit(cls.X_train, cls.y_train)
+        cls.xgb_rgr = xgb_regr.fit(cls.X_train, cls.y_train)
 
     def test_metadata_generic_model(self):
         model = GenericModel(self.rgr, artifact_dir="~/test_generic")
@@ -132,8 +130,8 @@ def test_metadata_sklearn_model(self, mock_get_service_packs):
         )
         model.populate_metadata(
             use_case_type="other",
-            X_sample=self.diabetes_X_test,
-            y_sample=self.diabetes_y_test,
+            X_sample=self.X_test,
+            y_sample=self.y_test,
         )
 
         assert model.metadata_custom.get("ModelSerializationFormat").value == "joblib"
@@ -185,8 +183,8 @@ def test_metadata_xgboost_model(self, mock_get_service_packs):
         )
         model.populate_metadata(
             use_case_type="binary_classification",
-            X_sample=self.diabetes_X_test,
-            y_sample=self.diabetes_y_test,
+            X_sample=self.X_test,
+            y_sample=self.y_test,
         )
         assert (
             model.metadata_custom.get("CondaEnvironment").value