VLLM支持问题

### System Info / 系統信息

cuda==12.4


### Who can help? / 谁可以帮助到您？

@sixsixcoder 

### Information / 问题信息

- [x] The official example scripts / 官方的示例脚本
- [x] My own modified scripts / 我自己修改的脚本和任务

### Reproduction / 复现过程

使的脚本如下，图片为[app_1.png](https://github.com/THUDM/CogAgent/blob/main/assets/app_1.png)

`
from PIL import Image
from vllm import LLM, SamplingParams
import os
import torch.distributed as dist

os.environ["CUDA_VISIBLE_DEVICES"]="3"

model_name = "/data/models/cogagent-9b-20241220"

def procress_inputs():
    task = "搜索并选择 icloud\n"
    platform_str = "(Platform: Mac)\n"
    history_str = "\nHistory steps: "
    format_str = "(Answer in Action-Operation-Sensitive format.)"
    prompt = f"Task: {task}{history_str}\n{platform_str}{format_str}"
    return prompt

llm = LLM(model=model_name,
          tensor_parallel_size=1,
          max_model_len=8192,
          trust_remote_code=True,
          enforce_eager=True,
        #   hf_overrides={"architectures": ["GLM4VForCausalLM"]}
          )
stop_token_ids = [151329, 151336, 151338]
sampling_params = SamplingParams(temperature=0.2,
                                 max_tokens=1024,
                                 stop_token_ids=stop_token_ids)

prompt = procress_inputs()
image = Image.open("/data/codes/CogAgent/img/app_1.png").convert('RGB')
inputs = {
    "prompt": prompt,
    "multi_modal_data": {"image": image}
    }
outputs = llm.generate(inputs, sampling_params=sampling_params)

for o in outputs:
    generated_text = o.outputs[0].text
    print(generated_text)


dist.destroy_process_group()
`

## 使用python==3.11,vllm==0.7.3, 打开hf_overrides，出现错误，信息如下
[rank0]: Traceback (most recent call last):
[rank0]:   File "/data/codes/CogAgent/app/vllm_demo.py", line 38, in <module>
[rank0]:     outputs = llm.generate(inputs, sampling_params=sampling_params)
[rank0]:               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/data/miniforge3/envs/cog-vllm-2/lib/python3.11/site-packages/vllm/utils.py", line 1057, in inner
[rank0]:     return fn(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/data/miniforge3/envs/cog-vllm-2/lib/python3.11/site-packages/vllm/entrypoints/llm.py", line 461, in generate
[rank0]:     self._validate_and_add_requests(
[rank0]:   File "/data/miniforge3/envs/cog-vllm-2/lib/python3.11/site-packages/vllm/entrypoints/llm.py", line 1330, in _validate_and_add_requests
[rank0]:     self._add_request(
[rank0]:   File "/data/miniforge3/envs/cog-vllm-2/lib/python3.11/site-packages/vllm/entrypoints/llm.py", line 1348, in _add_request
[rank0]:     self.llm_engine.add_request(
[rank0]:   File "/data/miniforge3/envs/cog-vllm-2/lib/python3.11/site-packages/vllm/utils.py", line 1057, in inner
[rank0]:     return fn(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/data/miniforge3/envs/cog-vllm-2/lib/python3.11/site-packages/vllm/engine/llm_engine.py", line 756, in add_request
[rank0]:     preprocessed_inputs = self.input_preprocessor.preprocess(
[rank0]:                           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/data/miniforge3/envs/cog-vllm-2/lib/python3.11/site-packages/vllm/inputs/preprocess.py", line 762, in preprocess
[rank0]:     return self._process_decoder_only_prompt(
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/data/miniforge3/envs/cog-vllm-2/lib/python3.11/site-packages/vllm/inputs/preprocess.py", line 711, in _process_decoder_only_prompt
[rank0]:     prompt_comps = self._prompt_to_llm_inputs(
[rank0]:                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/data/miniforge3/envs/cog-vllm-2/lib/python3.11/site-packages/vllm/inputs/preprocess.py", line 365, in _prompt_to_llm_inputs
[rank0]:     return self._process_multimodal(
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/data/miniforge3/envs/cog-vllm-2/lib/python3.11/site-packages/vllm/inputs/preprocess.py", line 273, in _process_multimodal
[rank0]:     return mm_processor.apply(prompt, mm_data, mm_processor_kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/data/miniforge3/envs/cog-vllm-2/lib/python3.11/site-packages/vllm/multimodal/processing.py", line 1275, in apply
[rank0]:     self._validate_mm_placeholders(mm_placeholders, mm_item_counts)
[rank0]:   File "/data/miniforge3/envs/cog-vllm-2/lib/python3.11/site-packages/vllm/multimodal/processing.py", line 1186, in _validate_mm_placeholders
[rank0]:     raise RuntimeError(
[rank0]: RuntimeError: Expected there to be 1 prompt replacements corresponding to 1 image items, but instead found 0 prompt replacements! Either the prompt text has missing/incorrect tokens for multi-modal inputs, or there is a problem with your implementation of merged multi-modal processor for this model (usually arising from an inconsistency between `_call_hf_processor` and `_get_prompt_replacements`).


## 使用python==3.10, vllm==0.6.6时 可正常运行，但输出为空

![Image](https://github.com/user-attachments/assets/ba0ef64d-c9b3-4f68-b4f3-4c457cb8707c)

### Expected behavior / 期待表现

Action: 打开浏览器并访问https://www.apple.com，以便进行后续操作。
Grounded Operation: LAUNCH(app='Apple', url='https://www.apple.com')
<<一般操作>>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

VLLM支持问题 #47

System Info / 系統信息

Who can help? / 谁可以帮助到您？

Information / 问题信息

Reproduction / 复现过程

使用python==3.11,vllm==0.7.3, 打开hf_overrides，出现错误，信息如下

使用python==3.10, vllm==0.6.6时可正常运行，但输出为空

Expected behavior / 期待表现

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

VLLM支持问题 #47

Description

System Info / 系統信息

Who can help? / 谁可以帮助到您？

Information / 问题信息

Reproduction / 复现过程

使用python==3.11,vllm==0.7.3, 打开hf_overrides，出现错误，信息如下

使用python==3.10, vllm==0.6.6时 可正常运行，但输出为空

Expected behavior / 期待表现

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions

使用python==3.10, vllm==0.6.6时可正常运行，但输出为空