[tts] Restore math scorer canonicalization on main

taivu1998 · taivu1998 · commit 9a0c247b6452 · 2026-04-22T10:42:55.000-07:00
diff --git a/lib/marin/src/marin/test_time_scaling/scorers.py b/lib/marin/src/marin/test_time_scaling/scorers.py
@@ -4,8 +4,10 @@
 from __future__ import annotations
 
 from dataclasses import dataclass
+import re
 
-from marin.rl.math_utils import grade_answer, last_boxed_only_string, normalize_answer
+from marin.rl.environments.tinker_environments.math_grading import extract_boxed, grade_answer, normalize_answer
+from marin.rl.math_utils import last_boxed_only_string
 from marin.test_time_scaling.config import ScoringMode
 
 
@@ -18,6 +20,22 @@ class CandidateScore:
     is_correct: bool | None
 
 
+_SIMPLE_FRAC_PATTERN = re.compile(r"^\\(?:dfrac|tfrac|frac)\{([^{}]+)\}\{([^{}]+)\}$")
+
+
+def _normalize_extracted_answer(answer: str) -> str:
+    normalized = normalize_answer(answer)
+    if normalized is None:
+        return answer
+
+    match = _SIMPLE_FRAC_PATTERN.fullmatch(normalized)
+    if match is None:
+        return normalized
+
+    numerator, denominator = match.groups()
+    return f"{numerator}/{denominator}"
+
+
 def score_candidate_text(text: str, expected_answer: str | None, scoring_mode: ScoringMode) -> CandidateScore:
     """Score a generated candidate against the prompt's configured scoring mode."""
 
@@ -34,6 +52,7 @@ def score_candidate_text(text: str, expected_answer: str | None, scoring_mode: S
     if boxed is None:
         return CandidateScore(extracted_answer=None, parse_valid=False, is_correct=False if expected_answer else None)
 
-    extracted_answer = normalize_answer(boxed)
-    is_correct = grade_answer(boxed, expected_answer) if expected_answer is not None else None
+    extracted_answer_raw = extract_boxed(boxed)
+    extracted_answer = _normalize_extracted_answer(extracted_answer_raw)
+    is_correct = grade_answer(extracted_answer_raw, expected_answer) if expected_answer is not None else None
     return CandidateScore(extracted_answer=extracted_answer, parse_valid=True, is_correct=is_correct)