opendatahub-io
diff --git a/‎tests/conftest.py‎
Lines changed: 6 additions & 3 deletions b/‎tests/conftest.py‎
Lines changed: 6 additions & 3 deletions
diff --git a/‎tests/model_explainability/lm_eval/test_lm_eval.py‎
Lines changed: 11 additions & 3 deletions b/‎tests/model_explainability/lm_eval/test_lm_eval.py‎
Lines changed: 11 additions & 3 deletions
diff --git a/‎tests/model_explainability/lm_eval/utils.py‎
Lines changed: 21 additions & 5 deletions b/‎tests/model_explainability/lm_eval/utils.py‎
Lines changed: 21 additions & 5 deletions
diff --git a/‎tests/model_serving/model_runtime/model_validation/__snapshots__/test_modelvalidation/TestVLLMModelcarRaw.test_oci_modelcar_raw_openai_inference[modelcar-granite-3-1-8b-base-quantized-w4a161.5-raw].1.json‎
Lines changed: 0 additions & 50 deletions b/‎tests/model_serving/model_runtime/model_validation/__snapshots__/test_modelvalidation/TestVLLMModelcarRaw.test_oci_modelcar_raw_openai_inference[modelcar-granite-3-1-8b-base-quantized-w4a161.5-raw].1.json‎
Lines changed: 0 additions & 50 deletions
diff --git a/‎tests/model_serving/model_runtime/model_validation/__snapshots__/test_modelvalidation/TestVLLMModelcarRaw.test_oci_modelcar_raw_openai_inference[modelcar-granite-3-1-8b-base-quantized-w4a161.5-raw].json‎
Lines changed: 0 additions & 24 deletions b/‎tests/model_serving/model_runtime/model_validation/__snapshots__/test_modelvalidation/TestVLLMModelcarRaw.test_oci_modelcar_raw_openai_inference[modelcar-granite-3-1-8b-base-quantized-w4a161.5-raw].json‎
Lines changed: 0 additions & 24 deletions
diff --git a/‎tests/model_serving/model_runtime/model_validation/__snapshots__/test_modelvalidation/TestVLLMModelcarRaw.test_oci_modelcar_raw_openai_inference[modelcar-llama-3-1-8b-instruct1.5-raw].1.json‎
Lines changed: 0 additions & 50 deletions b/‎tests/model_serving/model_runtime/model_validation/__snapshots__/test_modelvalidation/TestVLLMModelcarRaw.test_oci_modelcar_raw_openai_inference[modelcar-llama-3-1-8b-instruct1.5-raw].1.json‎
Lines changed: 0 additions & 50 deletions
diff --git a/‎tests/model_serving/model_runtime/model_validation/__snapshots__/test_modelvalidation/TestVLLMModelcarRaw.test_oci_modelcar_raw_openai_inference[modelcar-llama-3-1-8b-instruct1.5-raw].json‎
Lines changed: 0 additions & 24 deletions b/‎tests/model_serving/model_runtime/model_validation/__snapshots__/test_modelvalidation/TestVLLMModelcarRaw.test_oci_modelcar_raw_openai_inference[modelcar-llama-3-1-8b-instruct1.5-raw].json‎
Lines changed: 0 additions & 24 deletions
diff --git a/‎tests/model_serving/model_runtime/model_validation/__snapshots__/test_modelvalidation/TestVLLMModelcarRaw.test_oci_modelcar_raw_openai_inference[modelcar-mistral-7b-instruct-v0-3-quantized-w4a161.5-raw].1.json‎
Lines changed: 0 additions & 50 deletions b/‎tests/model_serving/model_runtime/model_validation/__snapshots__/test_modelvalidation/TestVLLMModelcarRaw.test_oci_modelcar_raw_openai_inference[modelcar-mistral-7b-instruct-v0-3-quantized-w4a161.5-raw].1.json‎
Lines changed: 0 additions & 50 deletions
diff --git a/‎tests/model_serving/model_runtime/model_validation/__snapshots__/test_modelvalidation/TestVLLMModelcarRaw.test_oci_modelcar_raw_openai_inference[modelcar-mistral-7b-instruct-v0-3-quantized-w4a161.5-raw].json‎
Lines changed: 0 additions & 24 deletions b/‎tests/model_serving/model_runtime/model_validation/__snapshots__/test_modelvalidation/TestVLLMModelcarRaw.test_oci_modelcar_raw_openai_inference[modelcar-mistral-7b-instruct-v0-3-quantized-w4a161.5-raw].json‎
Lines changed: 0 additions & 24 deletions
diff --git a/‎tests/model_serving/model_runtime/model_validation/__snapshots__/test_modelvalidation/TestVLLMModelcarServerless.test_oci_modelcar_serverless_openai_inference[modelcar-granite-3-1-8b-base-quantized-w4a161.5-serverless].1.json‎
Lines changed: 0 additions & 50 deletions b/‎tests/model_serving/model_runtime/model_validation/__snapshots__/test_modelvalidation/TestVLLMModelcarServerless.test_oci_modelcar_serverless_openai_inference[modelcar-granite-3-1-8b-base-quantized-w4a161.5-serverless].1.json‎
Lines changed: 0 additions & 50 deletions
@@ -201,10 +201,13 @@ def ci_s3_bucket_endpoint(pytestconfig: pytest.Config) -> str:
 
 
 @pytest.fixture(scope="session")
-def serving_argument(pytestconfig: pytest.Config, modelcar_yaml_config: dict[str, Any] | None) -> list[str]:
+def serving_argument(pytestconfig: pytest.Config, modelcar_yaml_config: dict[str, Any] | None) -> tuple[list[str], int]:
     if modelcar_yaml_config:
-        arg = modelcar_yaml_config.get("serving_argument", [])
-        return arg if isinstance(arg, list) else [arg]
+        val = modelcar_yaml_config.get("serving_arguments", {})
+        if isinstance(val, dict):
+            args = val.get("args", [])
+            gpu_count = val.get("gpu_count", 1)
+        return args, gpu_count
 
     raw_arg = pytestconfig.option.serving_argument
     try:
 
@@ -9,15 +9,23 @@
 
 LMEVALJOB_COMPLETE_STATE: str = "Complete"
 
-LMEVAL_TASKS: List[str] = get_lmeval_tasks(min_downloads=10000)
+TIER1_LMEVAL_TASKS: List[str] = get_lmeval_tasks(min_downloads=10000)
+
+TIER2_LMEVAL_TASKS: List[str] = list(
+    set(get_lmeval_tasks(min_downloads=0.70, max_downloads=10000)) - set(TIER1_LMEVAL_TASKS)
+)
 
 
 @pytest.mark.parametrize(
     "model_namespace, lmevaljob_hf",
     [
         pytest.param(
-            {"name": "test-lmeval-hf"},
-            {"task_list": {"taskNames": LMEVAL_TASKS}},
+            {"name": "test-lmeval-hf-tier1"},
+            {"task_list": {"taskNames": TIER1_LMEVAL_TASKS}},
+        ),
+        pytest.param(
+            {"name": "test-lmeval-hf-tier2"},
+            {"task_list": {"taskNames": TIER2_LMEVAL_TASKS}},
         ),
         pytest.param(
             {"name": "test-lmeval-hf-custom-task"},
 
@@ -36,30 +36,46 @@ def get_lmevaljob_pod(client: DynamicClient, lmevaljob: LMEvalJob, timeout: int
     return lmeval_pod
 
 
-def get_lmeval_tasks(min_downloads: int = 10000) -> List[str]:
+def get_lmeval_tasks(min_downloads: int | float, max_downloads: int | float | None = None) -> List[str]:
     """
     Gets the list of supported LM-Eval tasks that have above a certain number of minimum downloads on HuggingFace.
 
     Args:
-        min_downloads: The minimum number of downloads
+        min_downloads: The minimum number of downloads or the percentile of downloads to use as a minimum
+        max_downloads: The maximum number of downloads or the percentile of downloads to use as a maximum
 
     Returns:
         List of LM-Eval task names
     """
-    if min_downloads < 1:
+    if min_downloads <= 0:
         raise ValueError("Minimum downloads must be greater than 0")
 
     lmeval_tasks = pd.read_csv(filepath_or_buffer="tests/model_explainability/lm_eval/data/new_task_list.csv")
 
-    # filter for tasks that either exceed (min_downloads OR exist on the OpenLLM leaderboard)
-    # AND exist on LMEval AND do not include image data
+    if isinstance(min_downloads, float):
+        if not 0 <= min_downloads <= 1:
+            raise ValueError("Minimum downloads as a percentile must be between 0 and 1")
+        min_downloads = lmeval_tasks["HF dataset downloads"].quantile(q=min_downloads)
 
+    # filter for tasks that either exceed min_downloads OR exist on the OpenLLM leaderboard
+    # AND exist on LMEval AND do not include image data
     filtered_df = lmeval_tasks[
         lmeval_tasks["Exists"]
         & (lmeval_tasks["Dataset"] != "MMMU/MMMU")
         & ((lmeval_tasks["HF dataset downloads"] >= min_downloads) | (lmeval_tasks["OpenLLM leaderboard"]))
     ]
 
+    # if max_downloads is provided, filter for tasks that have less than
+    # or equal to the maximum number of downloads
+    if max_downloads is not None:
+        if max_downloads <= 0 or max_downloads > max(lmeval_tasks["HF dataset downloads"]):
+            raise ValueError("Maximum downloads must be greater than 0 and less than the maximum number of downloads")
+        if isinstance(max_downloads, float):
+            if not 0 <= max_downloads <= 1:
+                raise ValueError("Maximum downloads as a percentile must be between 0 and 1")
+            max_downloads = lmeval_tasks["HF dataset downloads"].quantile(q=max_downloads)
+        filtered_df = filtered_df[filtered_df["HF dataset downloads"] <= max_downloads]
+
     # group tasks by dataset and extract the task with shortest name in the group
     unique_tasks = filtered_df.loc[filtered_df.groupby("Dataset")["Name"].apply(lambda x: x.str.len().idxmin())]