NVIDIA-NeMo · ekmb · Oct 20, 2025 · Oct 17, 2025 · Oct 20, 2025 · coderabbitai
diff --git a/nemo_skills/dataset/simpleqa/__init__.py b/nemo_skills/dataset/simpleqa/__init__.py
@@ -15,7 +15,7 @@
 # settings that define how evaluation should be done by default (all can be changed from cmdline)
 DATASET_GROUP = "math"
 METRICS_TYPE = "simpleqa"
-EVAL_ARGS = "++eval_type=simpleqa "
+EVAL_ARGS = "++eval_type=math "
 GENERATION_ARGS = "++prompt_config=generic/default "
 EVAL_SPLIT = "verified"
 

diff --git a/nemo_skills/dataset/simpleqa/prepare.py b/nemo_skills/dataset/simpleqa/prepare.py
@@ -29,7 +29,7 @@ def format_entry(entry: dict, idx: int) -> dict:
     return {
         "id": entry.get("id", f"simpleqa_{idx}"),
         "metadata": eval(entry["metadata"]),
-        "problem": entry["problem"],
+        "question": entry["problem"],
         "expected_answer": entry["answer"],
     }
 
@@ -39,7 +39,7 @@ def format_entry_verified(entry: dict, idx: int) -> dict:
     return {
         "id": entry.get("original_index", f"simpleqa_{idx}"),
         "metadata": entry.to_dict(),
-        "problem": entry["problem"],
+        "question": entry["problem"],
         "expected_answer": entry["answer"],
     }
 

diff --git a/nemo_skills/prompt/config/judge/simpleqa.yaml b/nemo_skills/prompt/config/judge/simpleqa.yaml
@@ -70,7 +70,7 @@ user: |-
 
     Here is a new example. Simply reply with either CORRECT, INCORRECT, NOT ATTEMPTED. Don't apologize or correct yourself if there was a mistake; we are just trying to grade the answer.
     ```
-    Question: {problem}
+    Question: {question}
     Gold target: {expected_answer}
     Predicted answer: {predicted_answer}
     ```