work on lamastack evals tests

adolfo-ab · adolfo-ab · commit 6395477647f0 · 2025-08-21T14:48:19.000+02:00
diff --git a/tests/llama_stack/conftest.py b/tests/llama_stack/conftest.py
@@ -84,7 +84,7 @@ def llama_stack_server_config(
             "name": "llama-stack",
             "port": 8321,
         },
-        "distribution": {"image": "quay.io/ruimvieira/llama-stack-odh:latest"},
+        "distribution": {"image": "quay.io/ruimvieira/llama-stack-lmeval-fix:latest"},
         "storage": {
             "size": "20Gi",
         },
diff --git a/tests/llama_stack/eval/test_lmeval_provider.py b/tests/llama_stack/eval/test_lmeval_provider.py
@@ -38,7 +38,8 @@ def test_lmeval_register_benchmark(self, llama_stack_client):
             dataset_id=trustyai_lmeval_arc_easy,
             scoring_functions=["string"],
             provider_id=LlamaStackProviders.Eval.TRUSTYAI_LMEVAL,
-            metadata={"tokenized_request": False, "tokenizer": "google/flan-t5-small"},
+            provider_benchmark_id="string",
+            metadata={"tokenized_requests": False, "tokenizer": "google/flan-t5-small"},
         )
 
         benchmarks = llama_stack_client.benchmarks.list()
@@ -52,12 +53,12 @@ def test_llamastack_run_eval(self, patched_trustyai_operator_configmap_allow_onl
             benchmark_id=f"{LlamaStackProviders.Eval.TRUSTYAI_LMEVAL}::arc_easy",
             benchmark_config={
                 "eval_candidate": {
-                    "type": "model",
                     "model": "qwen",
+                    "type": "model",
                     "provider_id": LlamaStackProviders.Eval.TRUSTYAI_LMEVAL,
                     "sampling_params": {"temperature": 0.7, "top_p": 0.9, "max_tokens": 256},
                 },
-                "num_examples": 10,
+                "num_examples": 100,
             },
         )