Add VisRes Bench benchmark (CVPR 2026) (#1245)

dunghuynhandy · web-flow · commit eb2cffebdf83 · 2026-03-10T21:27:26.000+08:00
* add visres tasks

* add citation

* fix pre-commit
diff --git a/lmms_eval/tasks/visres_bench/README.md b/lmms_eval/tasks/visres_bench/README.md
@@ -0,0 +1,103 @@
+# VisRes-Bench
+
+[VisRes-Bench](https://huggingface.co/datasets/tiiuae/visres_bench) is a visual reasoning benchmark with tasks at three difficulty levels. This folder defines lmms-eval tasks for all dataset configs.
+
+**Dataset:** `tiiuae/visres_bench` (Hugging Face). A valid Hugging Face token may be required; set `HUGGINGFACE_HUB_TOKEN` or run `huggingface-cli login` before evaluation.
+
+---
+
+## Running the tasks
+
+Use the `--tasks` argument with one of the group names or a single task name. Example with `accelerate launch`:
+
+```bash
+# From the lmms-eval repo root
+accelerate launch --num_processes=1 -m lmms_eval \
+    --model <your_model> \
+    --model_args <your_args> \
+    --tasks <TASK_OR_GROUP> \
+    --batch_size 1
+```
+
+### Run all tasks (27 tasks)
+
+```bash
+--tasks visres_bench
+```
+
+Includes every config: all level-1 (including random_sampling), all level-2, and all level-3 tasks.
+
+---
+
+### Run Level 1 only (8 tasks, no random_sampling)
+
+```bash
+--tasks visres_bench_level_1
+```
+
+Tasks: `visres_bench_level_1_global_occlusion_50`, `visres_bench_level_1_global_occlusion_70`, `visres_bench_level_1_global_occlusion_80`, `visres_bench_level_1_edges`, `visres_bench_level_1_brightness`, `visres_bench_level_1_blur`, `visres_bench_level_1_rotation`, `visres_bench_level_1_location`.
+
+---
+
+### Run Level 2 only (12 tasks)
+
+```bash
+--tasks visres_bench_level_2
+```
+
+Tasks: `visres_bench_level_2_uniform_count`, `visres_bench_level_2_count_progression`, `visres_bench_level_2_uniform_orientation`, `visres_bench_level_2_count_2_same_1_diff`, `visres_bench_level_2_orientation_2same_1diff`, `visres_bench_level_2_uniform_color`, `visres_bench_level_2_count_arithmetic`, `visres_bench_level_2_count_minmax`, `visres_bench_level_2_orientation_3_diff`, `visres_bench_level_2_color_2same_1diff`, `visres_bench_level_2_color_3_diff`, `visres_bench_level_2_count_3_diff`.
+
+---
+
+### Run Level 3 only (5 tasks)
+
+```bash
+--tasks visres_bench_level_3
+```
+
+Tasks: `visres_bench_level_3_spiral_color_orientation`, `visres_bench_level_3_coupled_color_count`, `visres_bench_level_3_independent_color_object_rientation`, `visres_bench_level_3_coupled_color_orientation`, `visres_bench_level_3_Independent_count_object_color`.
+
+---
+
+## Single task
+
+To run one config only, use the full task name, e.g.:
+
+```bash
+--tasks visres_bench_level_1_global_occlusion_50
+```
+
+---
+
+## Question type (guided vs generic)
+
+The default prompt uses the **guided_question** column. To use **generic_question** instead, pass the format that selects it (e.g. `--format generic` if your runner supports it). The default template defines:
+
+- `default`: `question_column: guided_question`
+- `generic`: `question_column: generic_question`
+
+---
+
+## Summary
+
+| Group                 | Description              | # tasks |
+|-----------------------|--------------------------|--------:|
+| `visres_bench`        | All configs              | 27      |
+| `visres_bench_level_1`| Level 1, no random_sampling | 8   |
+| `visres_bench_level_2`| Level 2 only             | 12      |
+| `visres_bench_level_3`| Level 3 only             | 5       |
+
+---
+
+## Citation
+
+If you use VisRes-Bench in your work, please cite:
+
+```bibtex
+@article{tortei2025visres,
+  title={VisRes Bench: On Evaluating the Visual Reasoning Capabilities of VLMs},
+  author={T{\"o}rtei, Brigitta Malagurski and Dahou, Yasser and Huynh, Ngoc Dung and Para, Wamiq Reyaz and Khac, Ph{\'u}c H L{\^e} and Singh, Ankit and Chaybouti, Sofian and Narayan, Sanath},
+  journal={arXiv preprint arXiv:2512.21194},
+  year={2025}
+}
+```
diff --git a/lmms_eval/tasks/visres_bench/_default_template_visres_bench_yaml b/lmms_eval/tasks/visres_bench/_default_template_visres_bench_yaml
@@ -0,0 +1,29 @@
+dataset_path: tiiuae/visres_bench
+dataset_kwargs:
+  token: True
+
+output_type: generate_until
+test_split: test
+
+doc_to_text: !function utils.visres_bench_doc_to_text
+doc_to_visual: !function utils.visres_bench_doc_to_visual
+process_results: !function utils.vp_process_results
+doc_to_target: "answer"
+
+metric_list:
+  - metric: exact_match
+    aggregation: mean
+    higher_is_better: true
+    ignore_case: true
+    ignore_punctuation: true
+
+# Switch question column: guided_question (default) or generic_question
+lmms_eval_specific_kwargs:
+  default:
+    question_column: guided_question
+    pre_prompt: ""
+    post_prompt: ""
+  generic:
+    question_column: generic_question
+    pre_prompt: ""
+    post_prompt: ""
diff --git a/lmms_eval/tasks/visres_bench/_visres_bench.yaml b/lmms_eval/tasks/visres_bench/_visres_bench.yaml
@@ -0,0 +1,30 @@
+group: visres_bench
+task:
+  - visres_bench_level_1_global_occlusion_50
+  - visres_bench_level_1_global_occlusion_70
+  - visres_bench_level_1_global_occlusion_80
+  - visres_bench_level_1_edges
+  - visres_bench_level_1_location_random_sampling
+  - visres_bench_level_1_brightness
+  - visres_bench_level_1_blur
+  - visres_bench_level_1_rotation
+  - visres_bench_level_1_rotation_random_sampling
+  - visres_bench_level_1_edges_random_sampling
+  - visres_bench_level_1_location
+  - visres_bench_level_2_uniform_count
+  - visres_bench_level_2_count_progression
+  - visres_bench_level_2_uniform_orientation
+  - visres_bench_level_2_count_2_same_1_diff
+  - visres_bench_level_2_orientation_2same_1diff
+  - visres_bench_level_2_uniform_color
+  - visres_bench_level_2_count_arithmetic
+  - visres_bench_level_2_count_minmax
+  - visres_bench_level_2_orientation_3_diff
+  - visres_bench_level_2_color_2same_1diff
+  - visres_bench_level_2_color_3_diff
+  - visres_bench_level_2_count_3_diff
+  - visres_bench_level_3_spiral_color_orientation
+  - visres_bench_level_3_coupled_color_count
+  - visres_bench_level_3_independent_color_object_rientation
+  - visres_bench_level_3_coupled_color_orientation
+  - visres_bench_level_3_Independent_count_object_color
diff --git a/lmms_eval/tasks/visres_bench/_visres_bench_level_1.yaml b/lmms_eval/tasks/visres_bench/_visres_bench_level_1.yaml
@@ -0,0 +1,10 @@
+group: visres_bench_level_1
+task:
+  - visres_bench_level_1_global_occlusion_50
+  - visres_bench_level_1_global_occlusion_70
+  - visres_bench_level_1_global_occlusion_80
+  - visres_bench_level_1_edges
+  - visres_bench_level_1_brightness
+  - visres_bench_level_1_blur
+  - visres_bench_level_1_rotation
+  - visres_bench_level_1_location
diff --git a/lmms_eval/tasks/visres_bench/_visres_bench_level_2.yaml b/lmms_eval/tasks/visres_bench/_visres_bench_level_2.yaml
@@ -0,0 +1,14 @@
+group: visres_bench_level_2
+task:
+  - visres_bench_level_2_uniform_count
+  - visres_bench_level_2_count_progression
+  - visres_bench_level_2_uniform_orientation
+  - visres_bench_level_2_count_2_same_1_diff
+  - visres_bench_level_2_orientation_2same_1diff
+  - visres_bench_level_2_uniform_color
+  - visres_bench_level_2_count_arithmetic
+  - visres_bench_level_2_count_minmax
+  - visres_bench_level_2_orientation_3_diff
+  - visres_bench_level_2_color_2same_1diff
+  - visres_bench_level_2_color_3_diff
+  - visres_bench_level_2_count_3_diff
diff --git a/lmms_eval/tasks/visres_bench/_visres_bench_level_3.yaml b/lmms_eval/tasks/visres_bench/_visres_bench_level_3.yaml
@@ -0,0 +1,7 @@
+group: visres_bench_level_3
+task:
+  - visres_bench_level_3_spiral_color_orientation
+  - visres_bench_level_3_coupled_color_count
+  - visres_bench_level_3_independent_color_object_rientation
+  - visres_bench_level_3_coupled_color_orientation
+  - visres_bench_level_3_Independent_count_object_color
diff --git a/lmms_eval/tasks/visres_bench/utils.py b/lmms_eval/tasks/visres_bench/utils.py
@@ -0,0 +1,37 @@
+# Utils for visres_bench
+def visres_bench_doc_to_text(doc, prompt_kwargs=None):
+    """Use question_column in lmms_eval_specific_kwargs to switch guided vs generic question."""
+    if prompt_kwargs is None:
+        prompt_kwargs = {}
+    question_column = prompt_kwargs.get("question_column", "guided_question")
+    text = doc.get(question_column)
+    pre_prompt = prompt_kwargs.get("pre_prompt", "")
+    post_prompt = prompt_kwargs.get("post_prompt", "")
+    return f"{pre_prompt}{text}{post_prompt}"
+
+
+def visres_bench_doc_to_visual(doc):
+    if not doc.get("images", None):
+        return None
+    imgs = doc["images"]
+    if isinstance(imgs, list):
+        return [img.convert("RGB") for img in imgs]
+    return [imgs.convert("RGB")]
+
+
+def vp_process_results(doc, result):
+    answer = doc["answer"]
+    result = result[0]
+    result = result.split(")")[0]
+    if answer == result:
+        accuracy = 1
+    else:
+        accuracy = 0
+
+    return {
+        "exact_match": accuracy,
+        "submission": {
+            "image": doc["id"],
+            "answer": result,
+        },
+    }
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_1_blur.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_1_blur.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_1_blur
+dataset_name: level_1_blur
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_1_brightness.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_1_brightness.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_1_brightness
+dataset_name: level_1_brightness
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_1_edges.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_1_edges.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_1_edges
+dataset_name: level_1_edges
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_1_edges_random_sampling.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_1_edges_random_sampling.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_1_edges_random_sampling
+dataset_name: level_1_edges_random_sampling
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_1_global_occlusion_50.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_1_global_occlusion_50.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_1_global_occlusion_50
+dataset_name: level_1_global_occlusion_50
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_1_global_occlusion_70.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_1_global_occlusion_70.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_1_global_occlusion_70
+dataset_name: level_1_global_occlusion_70
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_1_global_occlusion_80.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_1_global_occlusion_80.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_1_global_occlusion_80
+dataset_name: level_1_global_occlusion_80
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_1_location.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_1_location.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_1_location
+dataset_name: level_1_location
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_1_location_random_sampling.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_1_location_random_sampling.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_1_location_random_sampling
+dataset_name: level_1_location_random_sampling
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_1_rotation.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_1_rotation.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_1_rotation
+dataset_name: level_1_rotation
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_1_rotation_random_sampling.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_1_rotation_random_sampling.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_1_rotation_random_sampling
+dataset_name: level_1_rotation_random_sampling
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_2_color_2same_1diff.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_2_color_2same_1diff.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_2_color_2same_1diff
+dataset_name: level_2_color_2same_1diff
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_2_color_3_diff.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_2_color_3_diff.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_2_color_3_diff
+dataset_name: level_2_color_3_diff
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_2_count_2_same_1_diff.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_2_count_2_same_1_diff.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_2_count_2_same_1_diff
+dataset_name: level_2_count_2_same_1_diff
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_2_count_3_diff.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_2_count_3_diff.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_2_count_3_diff
+dataset_name: level_2_count_3_diff
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_2_count_arithmetic.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_2_count_arithmetic.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_2_count_arithmetic
+dataset_name: level_2_count_arithmetic
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_2_count_minmax.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_2_count_minmax.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_2_count_minmax
+dataset_name: level_2_count_minmax
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_2_count_progression.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_2_count_progression.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_2_count_progression
+dataset_name: level_2_count_progression
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_2_orientation_2same_1diff.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_2_orientation_2same_1diff.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_2_orientation_2same_1diff
+dataset_name: level_2_orientation_2same_1diff
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_2_orientation_3_diff.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_2_orientation_3_diff.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_2_orientation_3_diff
+dataset_name: level_2_orientation_3_diff
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_2_uniform_color.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_2_uniform_color.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_2_uniform_color
+dataset_name: level_2_uniform_color
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_2_uniform_count.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_2_uniform_count.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_2_uniform_count
+dataset_name: level_2_uniform_count
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_2_uniform_orientation.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_2_uniform_orientation.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_2_uniform_orientation
+dataset_name: level_2_uniform_orientation
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_3_Independent_count_object_color.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_3_Independent_count_object_color.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_3_Independent_count_object_color
+dataset_name: level_3_Independent_count_object_color
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_3_coupled_color_count.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_3_coupled_color_count.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_3_coupled_color_count
+dataset_name: level_3_coupled_color_count
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_3_coupled_color_orientation.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_3_coupled_color_orientation.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_3_coupled_color_orientation
+dataset_name: level_3_coupled_color_orientation
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_3_independent_color_object_rientation.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_3_independent_color_object_rientation.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_3_independent_color_object_rientation
+dataset_name: level_3_independent_color_object_rientation
+include: _default_template_visres_bench_yaml
diff --git a/lmms_eval/tasks/visres_bench/visres_bench_level_3_spiral_color_orientation.yaml b/lmms_eval/tasks/visres_bench/visres_bench_level_3_spiral_color_orientation.yaml
@@ -0,0 +1,3 @@
+task: visres_bench_level_3_spiral_color_orientation
+dataset_name: level_3_spiral_color_orientation
+include: _default_template_visres_bench_yaml

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+task: visres_bench_level_1_blur`
	`2`	`+dataset_name: level_1_blur`
	`3`	`+include: _default_template_visres_bench_yaml`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+task: visres_bench_level_1_brightness`
	`2`	`+dataset_name: level_1_brightness`
	`3`	`+include: _default_template_visres_bench_yaml`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+task: visres_bench_level_1_edges`
	`2`	`+dataset_name: level_1_edges`
	`3`	`+include: _default_template_visres_bench_yaml`