Improve Answer-Judge metrics (#507)

smahdavi4 · Kipok · web-flow · commit 3f2445d80c90 · 2025-06-06T09:05:49.000-07:00
Co-authored-by: Igor Gitman &lt;igitman@nvidia.com&gt;
diff --git a/nemo_skills/evaluation/metrics/answer_judgement_metrics.py b/nemo_skills/evaluation/metrics/answer_judgement_metrics.py
@@ -14,18 +14,49 @@
 
 from nemo_skills.evaluation.metrics.base import BaseMetrics
 from nemo_skills.evaluation.metrics.utils import is_correct_judgement
+from functools import partial
+from collections import defaultdict
 
+is_correct_judgement_or_none = partial(is_correct_judgement, return_none=True)
 
 class AnswerJudgementMetrics(BaseMetrics):
+    def __init__(self):
+        super().__init__()
+        # Store individual TP/FP/FN/TN values as N x K matrix (N datapoints, K samples each)
+        self.total_positives = 0
+        self.individual_metrics = defaultdict(lambda: defaultdict(lambda: defaultdict(dict)))
+    
+    def reset(self):
+        super().reset()
+        self.individual_metrics = defaultdict(lambda: defaultdict(lambda: defaultdict(dict)))
+    
     def _get_score_dict(self, prediction: dict) -> dict[str, bool | int | float]:
-        gt_judgement = is_correct_judgement(prediction['expected_judgement'])
-        pred_judgement = is_correct_judgement(prediction['judgement'])
+        gt_judgement = is_correct_judgement_or_none(prediction['expected_judgement'])
+        pred_judgement = is_correct_judgement_or_none(prediction['judgement'])
 
         return {'correct_judgements': gt_judgement == pred_judgement}
 
+    def _store_individual_metrics(self, agg_key, pred_judgement, gt_judgement, sample_idx=0):
+        """Store individual TP/FP/FN/TN values in N x K matrix structure."""
+        is_fp = pred_judgement is True and gt_judgement is False
+        is_fn = pred_judgement is False and gt_judgement is True
+        is_tp = pred_judgement is True and gt_judgement is True
+        is_tn = pred_judgement is False and gt_judgement is False
+        
+        # Store in N x K matrix: [datapoint_idx][sample_idx]
+        # This is hacky, but the only way to access the datapoint_idx
+        datapoint_idx = self.total - 1
+        self.individual_metrics[agg_key][datapoint_idx][sample_idx] = {
+            'tp': float(is_tp),
+            'fp': float(is_fp), 
+            'fn': float(is_fn),
+            'tn': float(is_tn)
+        }
+
     def _update_fp_fn(self, metrics_dict, pred_judgement, gt_judgement, divide_by=1):
         is_fp = pred_judgement is True and gt_judgement is False
         is_fn = pred_judgement is False and gt_judgement is True
+        
         metrics_dict['false_positives'] += float(is_fp) / divide_by
         metrics_dict['false_negatives'] += float(is_fn) / divide_by
 
@@ -42,8 +73,9 @@ def _update_score_metrics_for_majority(
     ):
         assert score_method == 'correct_judgements'
         # expected answer is always the same for all predictions, so just take the first one
-        gt_judgement = is_correct_judgement(predictions[0]['expected_judgement'])
+        gt_judgement = is_correct_judgement_or_none(predictions[0]['expected_judgement'])
         self._update_fp_fn(eval_dict[f"majority@{k}"], majority_answer, gt_judgement)
+        self._store_individual_metrics(f"majority@{k}", majority_answer, gt_judgement)
 
     def _update_score_metrics_for_pass(
         self,
@@ -57,16 +89,22 @@ def _update_score_metrics_for_pass(
     ):
         assert score_method == 'correct_judgements'
         # expected answer is always the same for all predictions, so just take the first one
-        gt_judgement = is_correct_judgement(predictions[0]['expected_judgement'])
-        pred_judgement = is_correct_judgement(predictions[0]['judgement'])
-        # if pass is not correct, means all predictions are the same and wrong
-        if not pass_score:
-            self._update_fp_fn(eval_dict[f"pass@{k}"], pred_judgement, gt_judgement)
+        gt_judgement = is_correct_judgement_or_none(predictions[0]['expected_judgement'])
+        pred_judgements = [is_correct_judgement_or_none(pred['judgement']) for pred in predictions[:k]]
+        if gt_judgement in pred_judgements:
+            pred_judgement = gt_judgement
+        else:
+            not_none_pred_judgements = [pred_judgement for pred_judgement in pred_judgements if pred_judgement is not None]
+            pred_judgement = not_none_pred_judgements[0] if not_none_pred_judgements else None
 
-        for pred in predictions[:k]:
-            gt_judgement = is_correct_judgement(pred['expected_judgement'])
-            pred_judgement = is_correct_judgement(pred['judgement'])
+        self._update_fp_fn(eval_dict[f"pass@{k}"], pred_judgement, gt_judgement)
+        self._store_individual_metrics(f"pass@{k}", pred_judgement, gt_judgement)
+
+        for sample_idx, pred in enumerate(predictions[:k]):
+            gt_judgement = is_correct_judgement_or_none(pred['expected_judgement'])
+            pred_judgement = is_correct_judgement_or_none(pred['judgement'])
             self._update_fp_fn(eval_dict[f"pass@1[{k}]"], pred_judgement, gt_judgement, divide_by=k)
+            self._store_individual_metrics(f"pass@1[{k}]", pred_judgement, gt_judgement, sample_idx)
 
     def update(self, predictions):
         """Updating the evaluation results with the current element.
@@ -76,12 +114,69 @@ def update(self, predictions):
                 The content of the file is benchmark specific.
         """
         super().update(predictions)
-        predicted_answers = [is_correct_judgement(pred['judgement']) for pred in predictions]
+        self.total_positives += float(is_correct_judgement_or_none(predictions[0]['expected_judgement']) is True)
+        predicted_answers = [is_correct_judgement_or_none(pred['judgement']) for pred in predictions]
         self._compute_pass_at_k(predictions=predictions, predicted_answers=predicted_answers)
         self._compute_majority_at_k(predictions=predictions, predicted_answers=predicted_answers)
 
+    def _compute_precision_recall_f1(self, datapoint_metrics):
+        """Compute unbiased precision, recall, F1 by averaging over K samples."""
+        # Find the maximum number of samples K across all datapoints
+        max_k = max(len(sample_metrics) for sample_metrics in datapoint_metrics.values())
+        
+        # Compute metrics for each of the K samples, then average across K
+        sample_precision_values = []
+        sample_recall_values = []
+        sample_f1_values = []
+        
+        for sample_idx in range(max_k):
+            # Aggregate TP, FP, FN across all N datapoints for sample k
+            total_tp, total_fp, total_fn = 0, 0, 0
+            
+            for sample_metrics in datapoint_metrics.values():
+                metrics = sample_metrics[sample_idx]
+                total_tp += metrics['tp']
+                total_fp += metrics['fp']
+                total_fn += metrics['fn']
+            
+            # Compute precision for sample k
+            if total_tp + total_fp > 0:
+                sample_precision = total_tp / (total_tp + total_fp)
+            else:
+                sample_precision = 1.0
+            sample_precision_values.append(sample_precision)
+            
+            # Compute recall for sample k
+            if self.total_positives > 0:
+                sample_recall = total_tp / self.total_positives
+            else:
+                sample_recall = 1.0
+            sample_recall_values.append(sample_recall)
+            
+            # Compute F1 for sample k
+            if sample_precision + sample_recall > 0:
+                sample_f1 = 2 * (sample_precision * sample_recall) / (sample_precision + sample_recall)
+            else:
+                sample_f1 = 0.0
+            sample_f1_values.append(sample_f1)
+        
+        # Average across all K samples
+        return {
+            'precision': 100 * sum(sample_precision_values) / max_k,
+            'recall': 100 * sum(sample_recall_values) / max_k,
+            'f1': 100 * sum(sample_f1_values) / max_k,
+        }
+
     def get_metrics(self):
         # renaming no_answer to invalid_judgements
         for agg_metric_dict in self.eval_dict.values():
             agg_metric_dict["invalid_judgements"] = agg_metric_dict.pop("no_answer")
-        return super().get_metrics()
+        
+        metrics_dict = super().get_metrics()
+
+        # Compute unbiased precision, recall, F1 by averaging over K samples
+        for agg_key, datapoint_metrics in self.individual_metrics.items():
+            if agg_key in metrics_dict:
+                metrics_dict[agg_key].update(self._compute_precision_recall_f1(datapoint_metrics))
+                
+        return metrics_dict
diff --git a/nemo_skills/evaluation/metrics/utils.py b/nemo_skills/evaluation/metrics/utils.py
@@ -36,9 +36,9 @@ def read_predictions(predictions, line_idx, file_handles):
 def is_correct_judgement(judgement, return_none=False) -> Union[bool, None]:
     if 'Judgement:' in judgement:
         verdict = judgement.split('Judgement:')[-1].strip()
-        if verdict.lower() == 'yes':
+        if verdict.lower().startswith('yes'):
             return True
-        elif verdict.lower() == 'no':
+        elif verdict.lower().startswith('no'):
             return False
     
     if return_none:
diff --git a/tests/data/eval_outputs/eval-results/metrics.json-test b/tests/data/eval_outputs/eval-results/metrics.json-test
@@ -5,88 +5,121 @@
       "avg_tokens": 189,
       "correct_judgements": 41.666666666666664,
       "false_positives": 8.333333333333334,
-      "false_negatives": 50.0,
-      "invalid_judgements": 0.0
+      "false_negatives": 33.333333333333336,
+      "invalid_judgements": 16.666666666666668,
+      "precision": 66.66666666666666,
+      "recall": 28.57142857142857,
+      "f1": 40.0
     },
     "pass@1[1]": {
       "num_entries": 12,
       "avg_tokens": 189,
       "correct_judgements": 41.666666666666664,
       "false_positives": 8.333333333333334,
-      "false_negatives": 50.0,
-      "invalid_judgements": 0.0
+      "false_negatives": 33.333333333333336,
+      "invalid_judgements": 16.666666666666668,
+      "precision": 66.66666666666666,
+      "recall": 28.57142857142857,
+      "f1": 40.0
     },
     "pass@2": {
       "num_entries": 12,
       "avg_tokens": 189,
-      "correct_judgements": 58.333333333333336,
-      "false_positives": 0.0,
-      "false_negatives": 41.666666666666664,
-      "invalid_judgements": 0.0
+      "correct_judgements": 50.0,
+      "false_positives": 8.333333333333334,
+      "false_negatives": 33.333333333333336,
+      "invalid_judgements": 8.333333333333334,
+      "precision": 75.0,
+      "recall": 42.857142857142854,
+      "f1": 54.54545454545454
     },
     "pass@1[2]": {
       "num_entries": 12,
       "avg_tokens": 189,
-      "correct_judgements": 41.666666666666664,
-      "false_positives": 8.333333333333334,
-      "false_negatives": 50.0,
-      "invalid_judgements": 0.0
+      "correct_judgements": 37.5,
+      "false_positives": 16.666666666666668,
+      "false_negatives": 25.0,
+      "invalid_judgements": 20.833333333333332,
+      "precision": 58.33333333333333,
+      "recall": 35.71428571428571,
+      "f1": 43.07692307692308
     },
     "pass@3": {
       "num_entries": 12,
       "avg_tokens": 189,
-      "correct_judgements": 66.66666666666667,
-      "false_positives": 0.0,
-      "false_negatives": 33.333333333333336,
-      "invalid_judgements": 0.0
+      "correct_judgements": 58.333333333333336,
+      "false_positives": 16.666666666666668,
+      "false_negatives": 25.0,
+      "invalid_judgements": 0.0,
+      "precision": 66.66666666666666,
+      "recall": 57.14285714285714,
+      "f1": 61.53846153846153
     },
     "pass@1[3]": {
       "num_entries": 12,
       "avg_tokens": 189,
-      "correct_judgements": 44.444444444444436,
-      "false_positives": 5.5555555555555545,
-      "false_negatives": 49.99999999999998,
-      "invalid_judgements": 0.0
+      "correct_judgements": 41.666666666666664,
+      "false_positives": 19.444444444444443,
+      "false_negatives": 22.222222222222218,
+      "invalid_judgements": 16.666666666666664,
+      "precision": 57.93650793650793,
+      "recall": 42.857142857142854,
+      "f1": 47.765567765567766
     },
     "pass@4": {
       "num_entries": 12,
       "avg_tokens": 189,
       "correct_judgements": 66.66666666666667,
-      "false_positives": 0.0,
-      "false_negatives": 33.333333333333336,
-      "invalid_judgements": 0.0
+      "false_positives": 8.333333333333334,
+      "false_negatives": 25.0,
+      "invalid_judgements": 0.0,
+      "precision": 80.0,
+      "recall": 57.14285714285714,
+      "f1": 66.66666666666666
     },
     "pass@1[4]": {
       "num_entries": 12,
       "avg_tokens": 189,
       "correct_judgements": 43.75,
-      "false_positives": 4.166666666666667,
-      "false_negatives": 52.083333333333336,
-      "invalid_judgements": 0.0
+      "false_positives": 18.75,
+      "false_negatives": 22.916666666666668,
+      "invalid_judgements": 14.583333333333334,
+      "precision": 58.45238095238094,
+      "recall": 42.857142857142854,
+      "f1": 48.324175824175825
     },
     "majority@2": {
       "num_entries": 12,
       "avg_tokens": 189,
-      "correct_judgements": 41.666666666666664,
-      "false_positives": 0.0,
-      "false_negatives": 58.333333333333336,
-      "invalid_judgements": 0.0
+      "correct_judgements": 50.0,
+      "false_positives": 8.333333333333334,
+      "false_negatives": 33.333333333333336,
+      "invalid_judgements": 8.333333333333334,
+      "precision": 75.0,
+      "recall": 42.857142857142854,
+      "f1": 54.54545454545454
     },
     "majority@3": {
       "num_entries": 12,
       "avg_tokens": 189,
       "correct_judgements": 41.666666666666664,
-      "false_positives": 0.0,
-      "false_negatives": 58.333333333333336,
-      "invalid_judgements": 0.0
+      "false_positives": 25.0,
+      "false_negatives": 33.333333333333336,
+      "invalid_judgements": 0.0,
+      "precision": 50.0,
+      "recall": 42.857142857142854,
+      "f1": 46.15384615384615
     },
     "majority@4": {
       "num_entries": 12,
       "avg_tokens": 189,
-      "correct_judgements": 41.666666666666664,
-      "false_positives": 0.0,
-      "false_negatives": 58.333333333333336,
-      "invalid_judgements": 0.0
+      "correct_judgements": 58.333333333333336,
+      "false_positives": 16.666666666666668,
+      "false_negatives": 25.0,
+      "invalid_judgements": 0.0,
+      "precision": 66.66666666666666,
+      "recall": 57.14285714285714,
+      "f1": 61.53846153846153
     }
   },
   "arena-hard": {
diff --git a/tests/data/eval_outputs/summarize_results_output.txt b/tests/data/eval_outputs/summarize_results_output.txt
@@ -1,9 +1,9 @@
 Please see metrics.json for MT-bench per-category breakdown
------------------------------------------------------ answer-judge -----------------------------------------------------
-evaluation_mode | num_entries | avg_tokens | correct_judgements | false_positives | false_negatives | invalid_judgements
-pass@1[4]       | 12          | 189        | 43.75%             | 4.17%           | 52.08%          | 0.00%             
-majority@4      | 12          | 189        | 41.67%             | 0.00%           | 58.33%          | 0.00%             
-pass@4          | 12          | 189        | 66.67%             | 0.00%           | 33.33%          | 0.00%             
+-------------------------------------------------------------------- answer-judge --------------------------------------------------------------------
+evaluation_mode | num_entries | avg_tokens | correct_judgements | false_positives | false_negatives | invalid_judgements | precision | recall | f1    
+pass@1[4]       | 12          | 189        | 43.75%             | 18.75%          | 22.92%          | 14.58%             | 58.45%    | 42.86% | 48.32%
+majority@4      | 12          | 189        | 58.33%             | 16.67%          | 25.00%          | 0.00%              | 66.67%    | 57.14% | 61.54%
+pass@4          | 12          | 189        | 66.67%             | 8.33%           | 25.00%          | 0.00%              | 80.00%    | 57.14% | 66.67%
 
 
 ----------------------------------------- arena-hard -----------------------------------------
diff --git a/tests/test_metrics.py b/tests/test_metrics.py
@@ -68,4 +68,15 @@ def test_metrics(tmp_path):
         metrics = json.load(f)
     with open(metrics_ref_path, "r") as f:
         metrics_ref = json.load(f)
-    assert metrics == metrics_ref, "metrics.json does not match metrics.json-test"
+
+    def check_metrics_equal(metrics1, metrics2, path=""):
+        if isinstance(metrics1, dict) and isinstance(metrics2, dict):
+            assert set(metrics1.keys()) == set(metrics2.keys()), f"Keys mismatch at {path}"
+            for k in metrics1:
+                check_metrics_equal(metrics1[k], metrics2[k], f"{path}.{k}")
+        elif isinstance(metrics1, (int, float)) and isinstance(metrics2, (int, float)):
+            assert abs(metrics1 - metrics2) < 1e-6, f"Value mismatch at {path}: {metrics1} != {metrics2}"
+        else:
+            assert metrics1 == metrics2, f"Type mismatch at {path}: {type(metrics1)} != {type(metrics2)}"
+
+    check_metrics_equal(metrics, metrics_ref)