opendatahub-io
diff --git a/‎tests/model_serving/model_server/conftest.py‎
Lines changed: 6 additions & 0 deletions b/‎tests/model_serving/model_server/conftest.py‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎tests/model_serving/model_server/metrics/utils.py‎ b/‎tests/model_serving/model_server/metrics/utils.py‎
diff --git a/‎tests/model_serving/model_server/model_mesh/conftest.py‎ b/‎tests/model_serving/model_server/model_mesh/conftest.py‎
diff --git a/‎tests/model_serving/model_server/serverless/conftest.py‎
Lines changed: 68 additions & 0 deletions b/‎tests/model_serving/model_server/serverless/conftest.py‎
Lines changed: 68 additions & 0 deletions
diff --git a/‎tests/model_serving/model_server/serverless/test_canary_rollout.py‎
Lines changed: 99 additions & 0 deletions b/‎tests/model_serving/model_server/serverless/test_canary_rollout.py‎
Lines changed: 99 additions & 0 deletions
diff --git a/‎tests/model_serving/model_server/serverless/test_concurrency_auto_scale.py‎
Lines changed: 71 additions & 0 deletions b/‎tests/model_serving/model_server/serverless/test_concurrency_auto_scale.py‎
Lines changed: 71 additions & 0 deletions
diff --git a/‎tests/model_serving/model_server/serverless/test_multiple_projects_in_ns.py‎
Lines changed: 71 additions & 0 deletions b/‎tests/model_serving/model_server/serverless/test_multiple_projects_in_ns.py‎
Lines changed: 71 additions & 0 deletions
@@ -148,6 +148,12 @@ def s3_models_inference_service(
     if (enable_auth := request.param.get("enable-auth")) is not None:
         isvc_kwargs["enable_auth"] = enable_auth
 
+    if (scale_metric := request.param.get("scale-metric")) is not None:
+        isvc_kwargs["scale_metric"] = scale_metric
+
+    if (scale_target := request.param.get("scale-target")) is not None:
+        isvc_kwargs["scale_target"] = scale_target
+
     with create_isvc(**isvc_kwargs) as isvc:
         yield isvc
 
 
@@ -1,7 +1,21 @@
+from typing import Any, Generator
+
 import pytest
 from _pytest.fixtures import FixtureRequest
+from kubernetes.dynamic import DynamicClient
 from ocp_resources.inference_service import InferenceService
 from ocp_resources.resource import ResourceEditor
+from ocp_resources.namespace import Namespace
+from ocp_resources.secret import Secret
+from ocp_resources.serving_runtime import ServingRuntime
+
+from tests.model_serving.model_server.serverless.utils import wait_for_canary_rollout
+from tests.model_serving.model_server.utils import run_inference_multiple_times
+from utilities.constants import ModelFormat, Protocols
+from utilities.inference_utils import Inference
+from utilities.manifests.caikit_tgis import CAIKIT_TGIS_INFERENCE_CONFIG
+from utilities.constants import KServeDeploymentType, ModelName, ModelStoragePath
+from utilities.inference_utils import create_isvc
 
 
 @pytest.fixture(scope="class")
@@ -19,3 +33,57 @@ def inference_service_patched_replicas(
     ).update()
 
     return ovms_serverless_inference_service
+
+
+@pytest.fixture
+def inference_service_updated_canary_config(
+    request: FixtureRequest, s3_models_inference_service: InferenceService
+) -> Generator[InferenceService, Any, Any]:
+    canary_percent = request.param["canary-traffic-percent"]
+    predictor_config = {
+        "spec": {
+            "predictor": {"canaryTrafficPercent": canary_percent},
+        }
+    }
+
+    if model_path := request.param.get("model-path"):
+        predictor_config["spec"]["predictor"]["model"] = {"storage": {"path": model_path}}
+
+    with ResourceEditor(patches={s3_models_inference_service: predictor_config}):
+        wait_for_canary_rollout(isvc=s3_models_inference_service, percentage=canary_percent)
+        yield s3_models_inference_service
+
+
+@pytest.fixture
+def multiple_tgis_inference_requests(s3_models_inference_service: InferenceService) -> None:
+    run_inference_multiple_times(
+        isvc=s3_models_inference_service,
+        inference_config=CAIKIT_TGIS_INFERENCE_CONFIG,
+        inference_type=Inference.ALL_TOKENS,
+        protocol=Protocols.HTTPS,
+        model_name=ModelFormat.CAIKIT,
+        iterations=50,
+        run_in_parallel=True,
+    )
+
+
+@pytest.fixture(scope="class")
+def s3_flan_small_hf_caikit_serverless_inference_service(
+    request: FixtureRequest,
+    admin_client: DynamicClient,
+    model_namespace: Namespace,
+    serving_runtime_from_template: ServingRuntime,
+    models_endpoint_s3_secret: Secret,
+) -> Generator[InferenceService, Any, Any]:
+    with create_isvc(
+        client=admin_client,
+        name=f"{ModelName.FLAN_T5_SMALL}-model",
+        namespace=model_namespace.name,
+        runtime=serving_runtime_from_template.name,
+        storage_key=models_endpoint_s3_secret.name,
+        storage_path=ModelStoragePath.FLAN_T5_SMALL_HF,
+        model_format=serving_runtime_from_template.instance.spec.supportedModelFormats[0].name,
+        deployment_mode=KServeDeploymentType.SERVERLESS,
+        external_route=True,
+    ) as isvc:
+        yield isvc
@@ -0,0 +1,99 @@
+import pytest
+
+from tests.model_serving.model_server.serverless.utils import verify_canary_traffic
+from tests.model_serving.model_server.utils import verify_inference_response
+from utilities.constants import (
+    KServeDeploymentType,
+    ModelAndFormat,
+    ModelName,
+    ModelStoragePath,
+    Protocols,
+    RuntimeTemplates,
+)
+from utilities.inference_utils import Inference
+from utilities.manifests.pytorch import PYTORCH_TGIS_INFERENCE_CONFIG
+from utilities.manifests.tgis_grpc import TGIS_INFERENCE_CONFIG
+
+pytestmark = [pytest.mark.serverless, pytest.mark.sanity]
+
+
+@pytest.mark.polarion("ODS-2371")
+@pytest.mark.parametrize(
+    "model_namespace, serving_runtime_from_template, s3_models_inference_service",
+    [
+        pytest.param(
+            {"name": "serverless-canary-rollout"},
+            {
+                "name": "tgis-runtime",
+                "template-name": RuntimeTemplates.TGIS_GRPC_SERVING,
+                "multi-model": False,
+                "enable-http": False,
+                "enable-grpc": True,
+            },
+            {
+                "name": f"{ModelName.BLOOM_560M}-model",
+                "deployment-mode": KServeDeploymentType.SERVERLESS,
+                "model-dir": f"{ModelStoragePath.BLOOM_560M_CAIKIT}/artifacts",
+                "external-route": True,
+            },
+        )
+    ],
+    indirect=True,
+)
+class TestServerlessCanaryRollout:
+    def test_serverless_before_model_update(
+        self,
+        s3_models_inference_service,
+    ):
+        """Test inference with Bloom before model is updated."""
+        verify_inference_response(
+            inference_service=s3_models_inference_service,
+            inference_config=PYTORCH_TGIS_INFERENCE_CONFIG,
+            inference_type=Inference.ALL_TOKENS,
+            protocol=Protocols.GRPC,
+            model_name=ModelAndFormat.BLOOM_560M_CAIKIT,
+            use_default_query=True,
+        )
+
+    @pytest.mark.parametrize(
+        "inference_service_updated_canary_config",
+        [
+            pytest.param(
+                {"canary-traffic-percent": 30, "model-path": ModelStoragePath.FLAN_T5_SMALL_HF},
+            )
+        ],
+        indirect=True,
+    )
+    def test_serverless_during_canary_rollout(self, inference_service_updated_canary_config):
+        """Test inference during canary rollout"""
+        verify_canary_traffic(
+            isvc=inference_service_updated_canary_config,
+            inference_config=TGIS_INFERENCE_CONFIG,
+            model_name=ModelAndFormat.FLAN_T5_SMALL_CAIKIT,
+            inference_type=Inference.ALL_TOKENS,
+            protocol=Protocols.GRPC,
+            iterations=20,
+            expected_percentage=30,
+            tolerance=10,
+        )
+
+    @pytest.mark.parametrize(
+        "inference_service_updated_canary_config",
+        [
+            pytest.param(
+                {"canary-traffic-percent": 100},
+            )
+        ],
+        indirect=True,
+    )
+    def test_serverless_after_canary_rollout(self, inference_service_updated_canary_config):
+        """Test inference after canary rollout"""
+        verify_canary_traffic(
+            isvc=inference_service_updated_canary_config,
+            inference_config=TGIS_INFERENCE_CONFIG,
+            model_name=ModelAndFormat.FLAN_T5_SMALL_CAIKIT,
+            inference_type=Inference.ALL_TOKENS,
+            protocol=Protocols.GRPC,
+            iterations=5,
+            expected_percentage=100,
+        )
@@ -0,0 +1,71 @@
+import pytest
+
+from tests.model_serving.model_server.serverless.utils import (
+    inference_service_pods_sampler,
+)
+from utilities.constants import (
+    KServeDeploymentType,
+    ModelFormat,
+    ModelInferenceRuntime,
+    ModelStoragePath,
+    RuntimeTemplates,
+    Timeout,
+)
+
+pytestmark = [
+    pytest.mark.serverless,
+    pytest.mark.sanity,
+    pytest.mark.usefixtures("valid_aws_config"),
+]
+
+
+@pytest.mark.parametrize(
+    "model_namespace, serving_runtime_from_template, s3_models_inference_service",
+    [
+        pytest.param(
+            {"name": "serverless-auto-scale"},
+            {
+                "name": f"{ModelInferenceRuntime.CAIKIT_TGIS_RUNTIME}",
+                "template-name": RuntimeTemplates.CAIKIT_TGIS_SERVING,
+                "multi-model": False,
+                "enable-http": True,
+            },
+            {
+                "name": f"{ModelFormat.CAIKIT}-auto-scale",
+                "deployment-mode": KServeDeploymentType.SERVERLESS,
+                "model-dir": ModelStoragePath.FLAN_T5_SMALL_CAIKIT,
+                "scale-metric": "concurrency",
+                "scale-target": 1,
+            },
+        )
+    ],
+    indirect=True,
+)
+class TestConcurrencyAutoScale:
+    @pytest.mark.dependency(name="test_auto_scale_using_concurrency")
+    def test_auto_scale_using_concurrency(
+        self,
+        admin_client,
+        s3_models_inference_service,
+        multiple_tgis_inference_requests,
+    ):
+        """Verify model is successfully scaled up based on concurrency metrics (KPA)"""
+        for pods in inference_service_pods_sampler(
+            client=admin_client,
+            isvc=s3_models_inference_service,
+            timeout=Timeout.TIMEOUT_1MIN,
+        ):
+            if pods:
+                if len(pods) > 1 and all([pod.status == pod.Status.RUNNING for pod in pods]):
+                    return
+
+    @pytest.mark.dependency(requires=["test_auto_scale_using_concurrency"])
+    def test_pods_scaled_down_when_no_requests(self, admin_client, s3_models_inference_service):
+        """Verify auto-scaled pods are deleted when there are no inference requests"""
+        for pods in inference_service_pods_sampler(
+            client=admin_client,
+            isvc=s3_models_inference_service,
+            timeout=Timeout.TIMEOUT_4MIN,
+        ):
+            if pods and len(pods) == 1:
+                return
@@ -0,0 +1,71 @@
+import pytest
+
+from tests.model_serving.model_server.utils import run_inference_multiple_times
+from utilities.constants import (
+    KServeDeploymentType,
+    ModelAndFormat,
+    ModelName,
+    ModelStoragePath,
+    Protocols,
+    RuntimeTemplates,
+)
+from utilities.inference_utils import Inference
+from utilities.manifests.pytorch import PYTORCH_TGIS_INFERENCE_CONFIG
+from utilities.manifests.tgis_grpc import TGIS_INFERENCE_CONFIG
+
+pytestmark = [pytest.mark.serverless, pytest.mark.sanity]
+
+
+@pytest.mark.polarion("ODS-2371")
+@pytest.mark.parametrize(
+    "model_namespace, serving_runtime_from_template, s3_models_inference_service",
+    [
+        pytest.param(
+            {"name": "serverless-multi-tgis-models"},
+            {
+                "name": "tgis-runtime",
+                "template-name": RuntimeTemplates.TGIS_GRPC_SERVING,
+                "multi-model": False,
+                "enable-http": False,
+                "enable-grpc": True,
+            },
+            {
+                "name": f"{ModelName.BLOOM_560M}-model",
+                "deployment-mode": KServeDeploymentType.SERVERLESS,
+                "model-dir": f"{ModelStoragePath.BLOOM_560M_CAIKIT}/artifacts",
+                "external-route": True,
+            },
+        )
+    ],
+    indirect=True,
+)
+@pytest.mark.usefixtures("s3_flan_small_hf_caikit_serverless_inference_service")
+class TestServerlessMultipleProjectsInNamespace:
+    def test_serverless_multi_tgis_models_inference_bloom(
+        self,
+        s3_models_inference_service,
+    ):
+        """Test inference with Bloom Caikit model when multiple models in the same namespace"""
+        run_inference_multiple_times(
+            isvc=s3_models_inference_service,
+            inference_config=PYTORCH_TGIS_INFERENCE_CONFIG,
+            model_name=ModelAndFormat.BLOOM_560M_CAIKIT,
+            inference_type=Inference.ALL_TOKENS,
+            protocol=Protocols.GRPC,
+            run_in_parallel=True,
+            iterations=5,
+        )
+
+    def test_serverless_multi_tgis_models_inference_flan(
+        self, s3_flan_small_hf_caikit_serverless_inference_service, s3_models_inference_service
+    ):
+        """Test inference with Flan Caikit model when multiple models in the same namespace"""
+        run_inference_multiple_times(
+            isvc=s3_flan_small_hf_caikit_serverless_inference_service,
+            inference_config=TGIS_INFERENCE_CONFIG,
+            model_name=ModelAndFormat.FLAN_T5_SMALL_CAIKIT,
+            inference_type=Inference.ALL_TOKENS,
+            protocol=Protocols.GRPC,
+            run_in_parallel=True,
+            iterations=5,
+        )