Disable chunked prefill for vision model

muskansh-google · muskansh-google · commit c564119ffb0a · 2026-03-19T18:30:18.000Z
diff --git a/examples/multi_modal_inference.py b/examples/multi_modal_inference.py
@@ -44,6 +44,7 @@ def run_qwen_vl(questions: list[str], modality: str,
         max_model_len=args.max_model_len,
         tensor_parallel_size=args.tensor_parallel_size,
         gpu_memory_utilization=args.gpu_memory_utilization,
+        enable_chunked_prefill=False,
         max_num_seqs=5,
         mm_processor_kwargs={
             "size": {