fix(mmmu): lazy-load judge server to avoid OpenAI API key error on module import

mathCrazyy · mathCrazyy · commit 18dd0c3300fa · 2026-05-11T15:27:47.000+08:00
The judge server was initialized at module import time, causing
OpenAI API errors in CI environments where OPENAI_API_KEY is not set.
Now the server is created on first use via _get_judge_server() instead.
diff --git a/lmms_eval/tasks/mmmu/utils.py b/lmms_eval/tasks/mmmu/utils.py
@@ -30,11 +30,15 @@
 API_TYPE = os.getenv("API_TYPE", "openai")
 MODEL_VERSION = os.getenv("MODEL_VERSION", "gpt-4o-2024-11-20")
 
-# Initialize the judge server
-server_config = ServerConfig(
-    model_name=MODEL_VERSION,
-)
-server = get_server(server_name=API_TYPE, config=server_config)
+_server = None
+
+
+def _get_judge_server():
+    global _server
+    if _server is None:
+        server_config = ServerConfig(model_name=MODEL_VERSION)
+        _server = get_server(server_name=API_TYPE, config=server_config)
+    return _server
 
 
 def replace_images_tokens(input_string):
@@ -188,7 +192,7 @@ def mmmu_reasoning_process_results(doc, results):
 
         try:
             # Use the llm_judge API for binary evaluation
-            result = server.evaluate_binary(question=formatted_question, answer=str(answer), prediction=pred, output_format="0/1")
+            result = _get_judge_server().evaluate_binary(question=formatted_question, answer=str(answer), prediction=pred, output_format="0/1")
 
             # Parse the result
             if result["success"]: