feat: add LLaVA-OneVision2 chat model wrapper

yiyexy · yiyexy · commit 62583d7e01bf · 2026-05-19T16:54:19.000+08:00
Register llava_onevision2_chat (key: llava_onevision2) targeting the
released checkpoint lmms-lab-encoder/LLaVA-OneVision2-8B-Instruct.
The wrapper loads via AutoModelForImageTextToText with trust_remote_code
so the bundled processing pipeline (patch_positions, RoPE block layout,
frame sampling + smart_resize, per-frame timestamp expansion) is used
exactly as during training.

- New: lmms_eval/models/chat/llava_onevision2.py
- Register in lmms_eval/models/__init__.py
- Example launch script: examples/models/llava_onevision2.sh
- Documented under docs/advanced/throughput_metrics.md as a backend
  that logs throughput via log_metrics().
diff --git a/docs/advanced/throughput_metrics.md b/docs/advanced/throughput_metrics.md
@@ -57,12 +57,13 @@ All chat backends listed below log throughput-oriented metrics (`total_gen_token
 - `llava_hf` (`/lmms_eval/models/chat/llava_hf.py`)
 - `internvl_hf` (`/lmms_eval/models/chat/internvl_hf.py`)
 - `llava_onevision1_5` (`/lmms_eval/models/chat/llava_onevision1_5.py`)
+- `llava_onevision2` (`/lmms_eval/models/chat/llava_onevision2.py`)
 - `thyme` (`/lmms_eval/models/chat/thyme.py`)
 
 TTFT/TPOT coverage is narrower:
 
 - **Native TTFT/TPOT in run summary**: `vllm`, `vllm_generate`
-- **Throughput-only (no native TTFT/TPOT in summary)**: `sglang`, `openai`, `async_openai`, `huggingface`, `qwen2_5_vl`, `qwen3_vl`, `llava_hf`, `internvl_hf`, `llava_onevision1_5`, `thyme`
+- **Throughput-only (no native TTFT/TPOT in summary)**: `sglang`, `openai`, `async_openai`, `huggingface`, `qwen2_5_vl`, `qwen3_vl`, `llava_hf`, `internvl_hf`, `llava_onevision1_5`, `llava_onevision2`, `thyme`
 
 ## Usage
 
diff --git a/examples/models/llava_onevision2.sh b/examples/models/llava_onevision2.sh
@@ -0,0 +1,11 @@
+export HF_HOME="~/.cache/huggingface"
+
+# pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.git
+# pip install qwen-vl-utils
+
+# Example: MLVU-dev with best config (min_pixels = max_pixels = 102400, max_num_frames = 384)
+accelerate launch --num_processes=8 --main_process_port 12399 -m lmms_eval \
+    --model=llava_onevision2 \
+    --model_args=pretrained=lmms-lab-encoder/LLaVA-OneVision2-8B-Instruct,attn_implementation=flash_attention_2,messages_format=timestamp,max_new_tokens=16,fps=1,max_num_frames=384,min_pixels=102400,max_pixels=102400 \
+    --tasks=mlvu_dev \
+    --batch_size=1
diff --git a/lmms_eval/models/__init__.py b/lmms_eval/models/__init__.py
@@ -133,6 +133,7 @@
     "async_hf_model": "AsyncHFModel",
     "longvila": "LongVila",
     "llava_onevision1_5": "Llava_OneVision1_5",
+    "llava_onevision2": "Llava_OneVision2",
 }
 
 MODEL_ALIASES: dict[str, tuple[str, ...]] = {
diff --git a/lmms_eval/models/chat/llava_onevision2.py b/lmms_eval/models/chat/llava_onevision2.py

Original file line number	Diff line number	Diff line change
`@@ -133,6 +133,7 @@`
`133`	`133`	`"async_hf_model": "AsyncHFModel",`
`134`	`134`	`"longvila": "LongVila",`
`135`	`135`	`"llava_onevision1_5": "Llava_OneVision1_5",`
	`136`	`+ "llava_onevision2": "Llava_OneVision2",`
`136`	`137`	`}`
`137`	`138`
`138`	`139`	`MODEL_ALIASES: dict[str, tuple[str, ...]] = {`