两种评测方式结果差别很大是怎么回事。

如采用intnernvl3-1b-instruct ，在docvqa, mustard, ocrbench, textvqa 上进行测试。
**方式 1.** 
启动服务: CUDA_VISIBLE_DEVICES=6,7 vllm serve /vlm/pretrain_models/OpenGVLab/InternVL3-1B --dtype auto --port 8000   --gpu_memory_utilization 0.4 --tensor-parallel-size 2 --pipeline-parallel-size 1
python3 -m lmms_eval \
    --model openai_compatible \
    --model_args "api_base=http://localhost:8000,api_key=EMPTY,model_version=/vlm/pretrain_models/OpenGVLab/InternVL3-1B" \
    --tasks textvqa,docvqa,ocrbench,mmstar\
    --batch_size 1 \
    --log_samples \
    --output_path ./logs/2025.07.02 \
    --limit 100

**方式 2.**
export CUDA_VISIBLE_DEVICES=0,1,2,3
TASK=$1
CKPT_PATH=$2
echo $TASK
TASK_SUFFIX="${TASK//,/_}"
echo $TASK_SUFFIX

accelerate launch --num_processes 4 --main_process_port 12380 -m lmms_eval \
    --model internvl2 \
    --model_args pretrained=$CKPT_PATH \
    --tasks $TASK \
    --batch_size 1 \
    --log_samples \
    --log_samples_suffix $TASK_SUFFIX \
    --output_path ./2025.07.02/ \

<img width="1280" height="266" alt="Image" src="https://github.com/user-attachments/assets/e392dcdd-7376-4ea5-87ad-2977f1a6ce81" />

<img width="1096" height="244" alt="Image" src="https://github.com/user-attachments/assets/1a3d582a-cb62-41a6-b545-12df275db084" />

我做了以下事情来排查原因：
1. 固定seed；
2. 统一图片读取为RGB 
3. 修改internvl3-1b 下的config 去除template 中的system prompt
4. 同一batch_size 为 1.
均没有拉近这个差距，请问是为什么呢 

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

两种评测方式结果差别很大是怎么回事。 #751

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

两种评测方式结果差别很大是怎么回事。 #751

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions