Run pre-commit hook

dbobrenko · dbobrenko · commit f89a31504a90 · 2025-04-24T19:41:58.000Z
diff --git a/prompting/rewards/exact_match.py b/prompting/rewards/exact_match.py
@@ -141,7 +141,6 @@ async def reward(
                 if score_contains_mean < VERIFICATION_THRESH_CONTAINS:
                     raise ValueError(f"Logits contains mean score is below threshold: {score_contains_mean:.2f}")
 
-
                 timing_verified.append(timings)
                 smooth_reward = self.smooth_timings_reward(timings)
                 # Min-max scale logits reward, e.g from [0.95; 1.0] to [0.0, 1.0].
@@ -219,9 +218,7 @@ def smooth_timings_reward(timings_uid: list[float], min_reward: float = MIN_SMOO
 
     @staticmethod
     def verify_logit_contains(
-        candidate_token: str,
-        candidate_logits: dict[str, float],
-        gt_logits: dict[str, float]
+        candidate_token: str, candidate_logits: dict[str, float], gt_logits: dict[str, float]
     ) -> float:
         """Verify if the selected token and logprobs are present in the verification output."""
         if candidate_token not in candidate_logits.keys():
@@ -234,9 +231,7 @@ def verify_logit_contains(
 
     @staticmethod
     def verify_logit_similarity(
-        original_logits: dict[str, float],
-        verification_logits: dict[str, float],
-        fill_value: float = -100.0
+        original_logits: dict[str, float], verification_logits: dict[str, float], fill_value: float = -100.0
     ) -> float:
         all_tokens = sorted(set(original_logits) | set(verification_logits))
         orig_vec = np.array([original_logits.get(t, fill_value) for t in all_tokens], dtype=np.float64)
@@ -252,4 +247,4 @@ def softmax(x: np.ndarray) -> np.ndarray:
 
         orig_unit = orig_prob / np.linalg.norm(orig_prob)
         verif_unit = verif_prob / np.linalg.norm(verif_prob)
-        return float(np.dot(orig_unit, verif_unit))
+        return float(np.dot(orig_unit, verif_unit))
diff --git a/tests/prompting/rewards/test_exact_match.py b/tests/prompting/rewards/test_exact_match.py
@@ -8,10 +8,9 @@
 from prompting.rewards.exact_match import (
     INCORRECT_PENALTY,
     MIN_SMOOTH_PENALTY_SCALE,
+    NO_EOS_PENALTY,
     VERIFICATION_THRESH_SIM,
-    VERIFICATION_THRESH_CONTAINS,
     LogitsRewardModel,
-    NO_EOS_PENALTY,
 )
 from prompting.rewards.reward import BatchRewardOutput
 from prompting.tasks.base_task import BaseTextTask
@@ -110,14 +109,8 @@ async def test_correct_completion(model_manager, task):
 
     with (
         patch("prompting.rewards.exact_match.MIN_VERIFY_TOKENS", 2),
-        patch(
-            "prompting.rewards.exact_match.LogitsRewardModel.verify_logit_similarity",
-            return_value=1
-        ),
-        patch(
-            "prompting.rewards.exact_match.LogitsRewardModel.verify_logit_contains",
-            return_value=1
-        ),
+        patch("prompting.rewards.exact_match.LogitsRewardModel.verify_logit_similarity", return_value=1),
+        patch("prompting.rewards.exact_match.LogitsRewardModel.verify_logit_contains", return_value=1),
     ):
         reward_model = LogitsRewardModel()
         result = await reward_model.reward(
@@ -156,10 +149,7 @@ def mock_verify_sim(original_logits, verification_logits):
     with (
         patch("prompting.rewards.exact_match.MIN_VERIFY_TOKENS", 2),
         patch("prompting.rewards.exact_match.LogitsRewardModel.verify_logit_similarity", side_effect=mock_verify_sim),
-        patch(
-            "prompting.rewards.exact_match.LogitsRewardModel.verify_logit_contains",
-            return_value=1
-        ),
+        patch("prompting.rewards.exact_match.LogitsRewardModel.verify_logit_contains", return_value=1),
     ):
         reward_model = LogitsRewardModel()
         result = await reward_model.reward(
@@ -260,7 +250,7 @@ def test_smooth_reward_scale():
         (0.3, 0.3, 0.0),
         # At max boundary.
         (1.0, 0.3, 1.0),
-    ]
+    ],
 )
 def test_rescale_various_cases(value, min_value, expected):
     assert LogitsRewardModel.rescale(value, min_value=min_value) == pytest.approx(expected)
@@ -272,14 +262,14 @@ def test_rescale_various_cases(value, min_value, expected):
         # All valid.
         ([[0.1, 1.0], [5.0, 0.1], [6.5]], 0.55),
         # Mixed values.
-        ([[ -1.0, 0.5], [2.0, 0.1]], 1.05),
+        ([[-1.0, 0.5], [2.0, 0.1]], 1.05),
         # All negative.
         ([[-3.0, -0.1], [-2.5]], 1e-6),
         # Empty lists.
         ([[], []], 1e-6),
         # Zeros included.
         ([[0.0, -1.0], [0.0]], 0.0),
-    ]
+    ],
 )
 def test_fastest_timing_various_cases(values, expected):
     assert LogitsRewardModel.fastest_timing(values) == pytest.approx(expected)