fix test

sbalandi · sbalandi · commit 8cab9bf5a68e · 2026-03-20T13:20:00.000Z
diff --git a/tools/who_what_benchmark/tests/test_cli_text.py b/tools/who_what_benchmark/tests/test_cli_text.py
@@ -10,6 +10,7 @@
 from transformers import AutoTokenizer
 from optimum.intel.openvino import OVModelForCausalLM, OVWeightQuantizationConfig
 
+from test_cli_image import get_similarity
 from conftest import convert_text_model, run_wwb
 
 
@@ -279,9 +280,10 @@ def test_text_genai_json_string_config():
 
 @pytest.mark.parametrize(
     ("model_id"),
-    [("TinyLlama/TinyLlama-1.1B-Chat-v1.0")],
+    [("optimum-intel-internal-testing/tiny-random-Phi3ForCausalLM")],
 )
 def test_text_chat_model(model_id, tmp_path):
+    SIMILARITY_THRESHOLD = 0.9
     temp_file_name = tmp_path / "gt.csv"
     chat_model_path = convert_text_model(model_id, model_id.split("/")[1], _convert_base)
 
@@ -322,6 +324,9 @@ def test_text_chat_model(model_id, tmp_path):
     assert (outputs_path / "metrics_per_question.csv").exists()
     assert (outputs_path / "metrics.csv").exists()
     assert (outputs_path / "target.csv").exists()
+    
+    similarity = get_similarity(output)
+    assert similarity >= SIMILARITY_THRESHOLD
 
     outputs_path = tmp_path / "genai"
     output = run_wwb(
@@ -345,3 +350,5 @@ def test_text_chat_model(model_id, tmp_path):
     assert (outputs_path / "metrics_per_question.csv").exists()
     assert (outputs_path / "metrics.csv").exists()
     assert (outputs_path / "target.csv").exists()
+    similarity = get_similarity(output)
+    assert similarity >= SIMILARITY_THRESHOLD
diff --git a/tools/who_what_benchmark/whowhatbench/whowhat_metrics.py b/tools/who_what_benchmark/whowhatbench/whowhat_metrics.py
@@ -35,7 +35,7 @@ def evaluate_similarity(model, data_gold, data_prediction):
     # in chat mode - gold, prediction are list of answers
     metric_per_chat_answer_list = []
     metric_per_question = []
-    for i, gold, prediction in tqdm(
+    for i, (gold, prediction) in tqdm(
         enumerate(zip(answers_gold, answers_prediction)),
         total=min(len(answers_gold), len(answers_prediction)),
         desc="Similarity evaluation",