[WWB]: align phi3_v (openvinotoolkit#1853)

Wovchena · AlexKoff88 · web-flow · commit 222e2cc2bd58 · 2025-03-06T17:22:12.000+04:00
Improve similarity score from 0.83 to 0.93.

Ticket 162669

---------

Co-authored-by: Alexander Kozlov &lt;kozzzloff@list.ru&gt;
diff --git a/tools/who_what_benchmark/whowhatbench/visualtext_evaluator.py b/tools/who_what_benchmark/whowhatbench/visualtext_evaluator.py
@@ -30,6 +30,19 @@ def prepare_default_data(num_samples=None):
     )
 
 
+def fix_phi3_v_eos_token_id(model_type, tokenizer):
+    """
+    phi3_v configs aren't consistent. Override the default
+    eos_token_id with the one from a tokenizer similar to
+    an example in
+    https://huggingface.co/microsoft/Phi-3.5-vision-instruct
+    """
+    if 'phi3_v' == model_type:
+        return {"eos_token_id": tokenizer.eos_token_id}
+    else:
+        return dict()
+
+
 @register_evaluator("visual-text")
 class VisualTextEvaluator(TextEvaluator):
     def __init__(
@@ -121,6 +134,7 @@ def default_gen_answer(
             inputs = preprocess_inputs(prompt, image, processor, tokenizer, config=model.config)
             tokens = model.generate(
                 **inputs,
+                **fix_phi3_v_eos_token_id(model.config.model_type, tokenizer),
                 do_sample=False,
                 max_new_tokens=max_new_tokens,
                 tokenizer=tokenizer,
diff --git a/tools/who_what_benchmark/whowhatbench/wwb.py b/tools/who_what_benchmark/whowhatbench/wwb.py
@@ -13,6 +13,7 @@
 
 from whowhatbench.model_loaders import load_model
 from whowhatbench import EVALUATOR_REGISTRY
+from whowhatbench.visualtext_evaluator import fix_phi3_v_eos_token_id
 
 # Configure logging
 logging.basicConfig(level=logging.INFO)
@@ -334,7 +335,13 @@ def genai_gen_inpainting(model, prompt, image, mask, num_inference_steps, genera
 
 def genai_gen_visual_text(model, prompt, image, processor, tokenizer, max_new_tokens, crop_question):
     image_data = ov.Tensor(np.array(image)[None])
-    out = model.generate(prompt, image=image_data, do_sample=False, max_new_tokens=max_new_tokens)
+    out = model.generate(
+        prompt,
+        **fix_phi3_v_eos_token_id(model.config.model_type, tokenizer),
+        image=image_data,
+        do_sample=False,
+        max_new_tokens=max_new_tokens
+    )
     return out.texts[0]