Fix run_clm.py for streaming datasets (#2309)

pbielak · Piotr Bielak · web-flow · commit f5ed4bf1e67d · 2025-10-17T18:14:02.000+02:00
Co-authored-by: Piotr Bielak &lt;pbielak@habana.ai&gt;
diff --git a/examples/language-modeling/run_clm.py b/examples/language-modeling/run_clm.py
@@ -766,7 +766,7 @@ def compute_metrics(eval_preds):
         metrics = trainer.evaluate()
 
         if data_args.streaming:
-            metrics["eval_samples"] = max_eval_samples
+            metrics["eval_samples"] = training_args.max_steps * training_args.per_device_eval_batch_size
         else:
             max_eval_samples = (
                 data_args.max_eval_samples if data_args.max_eval_samples is not None else len(eval_dataset)