fix: omit multi-turn invalid reasons

hvagadia · hvagadia · commit c2da058ad335 · 2026-06-11T13:54:53.000-07:00
diff --git a/src/inference_endpoint/commands/benchmark/execute.py b/src/inference_endpoint/commands/benchmark/execute.py
@@ -965,14 +965,6 @@ def finalize_benchmark(ctx: BenchmarkContext, bench: BenchmarkResult) -> None:
         }
         if accuracy_scores:
             results["accuracy_scores"] = accuracy_scores
-            invalid_reasons = [
-                f"{name}: {score['invalid_reason']}"
-                for name, score in accuracy_scores.items()
-                if score.get("valid") is False
-            ]
-            if invalid_reasons:
-                results["valid"] = False
-                results["invalid_reasons"] = invalid_reasons
         if ctx.collect_responses:
             results["responses"] = collector.responses
         if collector.errors:
diff --git a/src/inference_endpoint/evaluation/scoring.py b/src/inference_endpoint/evaluation/scoring.py
@@ -603,20 +603,6 @@ def score(self) -> tuple[float | None, int]:
         }
         if excluded_turns:
             result["excluded_turns"] = excluded_turns
-        if not valid:
-            reasons: list[str] = []
-            if not expected:
-                reasons.append("no expected assistant turns found")
-            if not observed_repeats:
-                reasons.append("no matching completed turns found")
-            if missing_outputs:
-                reasons.append(
-                    f"{missing_outputs}/{len(expected_outputs)} expected turn(s) "
-                    "missing output"
-                )
-            if not n_scored:
-                reasons.append("no scorable turns found")
-            result["invalid_reason"] = "; ".join(reasons)
 
         out_path = self.report_dir / self.scores_filename
         out_path.parent.mkdir(parents=True, exist_ok=True)