Skip to content

两种评测方式结果差别很大是怎么回事。 #751

@mathCrazyy

Description

@mathCrazyy

如采用intnernvl3-1b-instruct ,在docvqa, mustard, ocrbench, textvqa 上进行测试。
方式 1.
启动服务: CUDA_VISIBLE_DEVICES=6,7 vllm serve /vlm/pretrain_models/OpenGVLab/InternVL3-1B --dtype auto --port 8000 --gpu_memory_utilization 0.4 --tensor-parallel-size 2 --pipeline-parallel-size 1
python3 -m lmms_eval
--model openai_compatible
--model_args "api_base=http://localhost:8000,api_key=EMPTY,model_version=/vlm/pretrain_models/OpenGVLab/InternVL3-1B"
--tasks textvqa,docvqa,ocrbench,mmstar
--batch_size 1
--log_samples
--output_path ./logs/2025.07.02
--limit 100

方式 2.
export CUDA_VISIBLE_DEVICES=0,1,2,3
TASK=$1
CKPT_PATH=$2
echo $TASK
TASK_SUFFIX="${TASK//,/_}"
echo $TASK_SUFFIX

accelerate launch --num_processes 4 --main_process_port 12380 -m lmms_eval
--model internvl2
--model_args pretrained=$CKPT_PATH
--tasks $TASK
--batch_size 1
--log_samples
--log_samples_suffix $TASK_SUFFIX
--output_path ./2025.07.02/ \

Image Image

我做了以下事情来排查原因:

  1. 固定seed;
  2. 统一图片读取为RGB
  3. 修改internvl3-1b 下的config 去除template 中的system prompt
  4. 同一batch_size 为 1.
    均没有拉近这个差距,请问是为什么呢

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions