Adapt LLM Judge catalog

martinscooper · martinscooper · commit ab736be30f04 · 2025-03-17T16:59:19.000-03:00
Signed-off-by: Martín Santillán Cooper &lt;msantillancooper@ibm.com&gt;
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/azure_openai/gpt_4o.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/azure_openai/gpt_4o.json
@@ -1,13 +1,13 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
         "credentials": {
             "api_base": "https://eteopenai.azure-api.net/openai/deployments/gpt-4o-2024-08-06/chat/completions?api-version=2024-08-01-preview"
         },
-        "model": "azure/gpt-4o-2024-08-06"
+        "model": "gpt-4o-2024-08-06"
     },
     "evaluator_name": "GPT4",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/azure_openai/o1_mini.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/azure_openai/o1_mini.json
@@ -1,13 +1,13 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
         "credentials": {
-            "api_base": "https://eteopenai.azure-api.net/openai/deployments/o1-mini-2024-09-12/chat/completions?api-version=2024-08-01-preview"
+            "api_base": "https://eteopenai.azure-api.net/openai/deployments/o1-mini/chat/completions?api-version=2024-08-01-preview"
         },
-        "model": "azure/o1-mini-2024-09-12"
+        "model": "o1-mini"
     },
     "evaluator_name": "O1_MINI",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/azure_openai/o1_preview.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/azure_openai/o1_preview.json
@@ -1,13 +1,13 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
         "credentials": {
-            "api_base": "https://eteopenai.azure-api.net/openai/deployments/o1-preview-2024-09-12/chat/completions?api-version=2024-08-01-preview"
+            "api_base": "https://eteopenai.azure-api.net/openai/deployments/o1-preview/chat/completions?api-version=2024-08-01-preview"
         },
-        "model": "azure/o1-preview-2024-09-12"
+        "model": "o1-preview"
     },
     "evaluator_name": "O1_PREVIEW",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/openai/gpt_4o.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/openai/gpt_4o.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model": "openai/gpt-4o-2024-08-06"
+        "model": "gpt-4o-2024-08-06"
     },
     "evaluator_name": "GPT4",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/openai/o1_mini.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/openai/o1_mini.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model": "openai/o1-mini-2024-09-12"
+        "model": "o1-mini"
     },
     "evaluator_name": "O1_MINI",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/openai/o1_preview.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/openai/o1_preview.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model": "openai/o1-preview-2024-09-12"
+        "model": "o1-preview"
     },
     "evaluator_name": "O1_PREVIEW",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/granite3_0_8b.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/granite3_0_8b.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "rits_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model_name": "ibm-granite/granite-3.0-8b-instruct"
+        "model": "granite-3-8b-instruct"
     },
     "evaluator_name": "GRANITE3_8B",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/granite3_1_8b.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/granite3_1_8b.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "rits_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model_name": "ibm-granite/granite-3.1-8b-instruct"
+        "model": "granite-3-1-8b-instruct"
     },
     "evaluator_name": "GRANITE3_1_8B",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/llama3_1_405b.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/llama3_1_405b.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "rits_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model_name": "meta-llama/llama-3-1-405b-instruct-fp8"
+        "model": "llama-3-1-405b-instruct-fp8"
     },
     "evaluator_name": "LLAMA3_1_405B",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/llama3_1_70b.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/llama3_1_70b.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "rits_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model_name": "meta-llama/llama-3-1-70b-instruct"
+        "model": "llama-3-1-70b-instruct"
     },
     "evaluator_name": "LLAMA3_1_70B",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/llama3_1_8b.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/llama3_1_8b.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "rits_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model_name": "meta-llama/Llama-3.1-8B-Instruct"
+        "model": "llama-3-1-70b-instruct"
     },
     "evaluator_name": "LLAMA3_1_8B",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/mixtral8_22b.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/mixtral8_22b.json
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/mixtral8_7b.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/mixtral8_7b.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "rits_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model_name": "mistralai/mixtral-8x7B-instruct-v0.1"
+        "model": "mixtral-8x7b-instruct"
     },
     "evaluator_name": "MIXTRAL8_7b",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/mixtral_large.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/rits/mixtral_large.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "rits_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model_name": "mistralai/mistral-large-instruct-2407"
+        "model": "mistral-large-instruct"
     },
     "evaluator_name": "MIXTRAL_LARGE",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/watsonx/granite3_0_8b.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/watsonx/granite3_0_8b.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model": "watsonx/ibm/granite-3-8b-instruct"
+        "model": "granite-3-8b-instruct"
     },
     "evaluator_name": "GRANITE3_8B",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/watsonx/llama3_1_405b.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/watsonx/llama3_1_405b.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model": "watsonx/meta-llama/llama-3-405b-instruct"
+        "model": "llama-3-1-405b-instruct-fp8"
     },
     "evaluator_name": "LLAMA3_1_405B",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/watsonx/llama3_1_70b.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/watsonx/llama3_1_70b.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model": "watsonx/meta-llama/llama-3-1-70b-instruct"
+        "model": "llama-3-1-70b-instruct"
     },
     "evaluator_name": "LLAMA3_1_70B",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/watsonx/llama3_1_8b.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/watsonx/llama3_1_8b.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model": "watsonx/meta-llama/llama-3-1-8b-instruct"
+        "model": "llama-3-1-70b-instruct"
     },
     "evaluator_name": "LLAMA3_1_8B",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/watsonx/mixtral8_7b.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/watsonx/mixtral8_7b.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model": "watsonx/mistralai/mixtral-8x7b-instruct-v01"
+        "model": "mixtral-8x7b-instruct"
     },
     "evaluator_name": "MIXTRAL8_7b",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/direct/watsonx/mixtral_large.json b/src/unitxt/catalog/metrics/llm_as_judge/direct/watsonx/mixtral_large.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_direct",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model": "watsonx/mistralai/mistral-large"
+        "model": "mistral-large-instruct"
     },
     "evaluator_name": "MIXTRAL_LARGE",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/azure_openai/gpt_4o.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/azure_openai/gpt_4o.json
@@ -1,13 +1,13 @@
 {
     "__type__": "llm_judge_pairwise",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
         "credentials": {
             "api_base": "https://eteopenai.azure-api.net/openai/deployments/gpt-4o-2024-08-06/chat/completions?api-version=2024-08-01-preview"
         },
-        "model": "azure/gpt-4o-2024-08-06"
+        "model": "gpt-4o-2024-08-06"
     },
     "evaluator_name": "GPT4",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/azure_openai/o1_mini.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/azure_openai/o1_mini.json
@@ -1,13 +1,13 @@
 {
     "__type__": "llm_judge_pairwise",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
         "credentials": {
-            "api_base": "https://eteopenai.azure-api.net/openai/deployments/o1-mini-2024-09-12/chat/completions?api-version=2024-08-01-preview"
+            "api_base": "https://eteopenai.azure-api.net/openai/deployments/o1-mini/chat/completions?api-version=2024-08-01-preview"
         },
-        "model": "azure/o1-mini-2024-09-12"
+        "model": "o1-mini"
     },
     "evaluator_name": "O1_MINI",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/azure_openai/o1_preview.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/azure_openai/o1_preview.json
@@ -1,13 +1,13 @@
 {
     "__type__": "llm_judge_pairwise",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
         "credentials": {
-            "api_base": "https://eteopenai.azure-api.net/openai/deployments/o1-preview-2024-09-12/chat/completions?api-version=2024-08-01-preview"
+            "api_base": "https://eteopenai.azure-api.net/openai/deployments/o1-preview/chat/completions?api-version=2024-08-01-preview"
         },
-        "model": "azure/o1-preview-2024-09-12"
+        "model": "o1-preview"
     },
     "evaluator_name": "O1_PREVIEW",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/openai/gpt_4o.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/openai/gpt_4o.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_pairwise",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model": "openai/gpt-4o-2024-08-06"
+        "model": "gpt-4o-2024-08-06"
     },
     "evaluator_name": "GPT4",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/openai/o1_mini.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/openai/o1_mini.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_pairwise",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model": "openai/o1-mini-2024-09-12"
+        "model": "o1-mini"
     },
     "evaluator_name": "O1_MINI",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/openai/o1_preview.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/openai/o1_preview.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_pairwise",
     "inference_engine": {
-        "__type__": "lite_llm_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model": "openai/o1-preview-2024-09-12"
+        "model": "o1-preview"
     },
     "evaluator_name": "O1_PREVIEW",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/granite3_0_8b.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/granite3_0_8b.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_pairwise",
     "inference_engine": {
-        "__type__": "rits_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model_name": "ibm-granite/granite-3.0-8b-instruct"
+        "model": "granite-3-8b-instruct"
     },
     "evaluator_name": "GRANITE3_8B",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/granite3_1_8b.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/granite3_1_8b.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_pairwise",
     "inference_engine": {
-        "__type__": "rits_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model_name": "ibm-granite/granite-3.1-8b-instruct"
+        "model": "granite-3-1-8b-instruct"
     },
     "evaluator_name": "GRANITE3_1_8B",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/llama3_1_405b.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/llama3_1_405b.json
@@ -1,10 +1,10 @@
 {
     "__type__": "llm_judge_pairwise",
     "inference_engine": {
-        "__type__": "rits_inference_engine",
+        "__type__": "cross_provider_inference_engine",
         "max_tokens": 1024,
         "seed": 42,
-        "model_name": "meta-llama/llama-3-1-405b-instruct-fp8"
+        "model": "llama-3-1-405b-instruct-fp8"
     },
     "evaluator_name": "LLAMA3_1_405B",
     "generate_summaries": false
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/llama3_1_70b.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/llama3_1_70b.json
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/llama3_1_8b.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/llama3_1_8b.json
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/mixtral8_22b.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/mixtral8_22b.json
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/mixtral8_7b.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/mixtral8_7b.json
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/mixtral_large.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/rits/mixtral_large.json
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/watsonx/granite3_0_8b.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/watsonx/granite3_0_8b.json
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/watsonx/llama3_1_405b.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/watsonx/llama3_1_405b.json
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/watsonx/llama3_1_70b.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/watsonx/llama3_1_70b.json
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/watsonx/llama3_1_8b.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/watsonx/llama3_1_8b.json
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/watsonx/mixtral8_7b.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/watsonx/mixtral8_7b.json
diff --git a/src/unitxt/catalog/metrics/llm_as_judge/pairwise/watsonx/mixtral_large.json b/src/unitxt/catalog/metrics/llm_as_judge/pairwise/watsonx/mixtral_large.json