RM 训练支持多模态模型吗 #7068

SakurajimaMaiii · 2025-02-25T15:18:03Z

SakurajimaMaiii
Feb 25, 2025

使用 llamafactory 训练 RM, 微调 Qwen2-VL-7B-Instruct

NUM_GPUS=8
deepspeed --num_gpus $NUM_GPUS  train.py \
          --deepspeed ../examples/deepspeed/ds_z2_config.json \
          --template qwen2_vl \
          --stage rm \
          --model_name_or_path /app/model/Qwen2-VL-7B-Instruct \
          --do_train \
          --finetuning_type full \
          --freeze_vision_tower \
          --freeze_multi_modal_projector \
          --dataset xxx \
          --tokenized_path /app/extra_data/xx \
          --dataset_dir /app/extra_data \
          --output_dir /app/logs/xxx \
          --logging_steps 1 \
          --save_steps 1 \
          --max_steps 1 \
          --save_total_limit 20 \
          --plot_loss \
          --per_device_train_batch_size 8 \
          --gradient_accumulation_steps 1 \
          --learning_rate 1.0e-5 \
          --num_train_epochs 1.0 \
          --lr_scheduler_type cosine \
          --flash_attn fa2 \
          --gradient_checkpointing \
          --cutoff_len 2048 \
          --save_strategy "steps" \
          --bf16 True

发现保存的模型用 AutoModelForCausalLMWithValueHead.from_pretrained 加载会报如下的错误：

raise ValueError(
ValueError: Unrecognized configuration class <class 'transformers.models.qwen2_vl.configuration_qwen2_vl.Qwen2VLConfig'> for this kind of AutoModel: AutoModelForCausalLM.
Model type should be one of AriaTextConfig, BambaConfig, BartConfig, BertConfig, BertGenerationConfig, BigBirdConfig, BigBirdPegasusConfig, BioGptConfig, BlenderbotConfig, BlenderbotSmallConfig, BloomConfig, CamembertConfig, LlamaConfig, CodeGenConfig, CohereConfig, Cohere2Config, CpmAntConfig, CTRLConfig, Data2VecTextConfig, DbrxConfig, DiffLlamaConfig, ElectraConfig, Emu3Config, ErnieConfig, FalconConfig, FalconMambaConfig, FuyuConfig, GemmaConfig, Gemma2Config, GitConfig, GlmConfig, GotOcr2Config, GPT2Config, GPT2Config, GPTBigCodeConfig, GPTNeoConfig, GPTNeoXConfig, GPTNeoXJapaneseConfig, GPTJConfig, GraniteConfig, GraniteMoeConfig, GraniteMoeSharedConfig, HeliumConfig, JambaConfig, JetMoeConfig, LlamaConfig, MambaConfig, Mamba2Config, MarianConfig, MBartConfig, MegaConfig, MegatronBertConfig, MistralConfig, MixtralConfig, MllamaConfig, MoshiConfig, MptConfig, MusicgenConfig, MusicgenMelodyConfig, MvpConfig, NemotronConfig, OlmoConfig, Olmo2Config, OlmoeConfig, OpenLlamaConfig, OpenAIGPTConfig, OPTConfig, PegasusConfig, PersimmonConfig, PhiConfig, Phi3Config, PhimoeConfig, PLBartConfig, ProphetNetConfig, QDQBertConfig, Qwen2Config, Qwen2MoeConfig, RecurrentGemmaConfig, ReformerConfig, RemBertConfig, RobertaConfig, RobertaPreLayerNormConfig, RoCBertConfig, RoFormerConfig, RwkvConfig, Speech2Text2Config, StableLmConfig, Starcoder2Config, TransfoXLConfig, TrOCRConfig, WhisperConfig, XGLMConfig, XLMConfig, XLMProphetNetConfig, XLMRobertaConfig, XLMRobertaXLConfig, XLNetConfig, XmodConfig, ZambaConfig, Zamba2Con

上面给出的 config 和 qwen 有关的只有 Qwen2Config, Qwen2MoeConfig,
但是相同的代码，换成文本数据，微调 Qwen2-7B-instruct，保存的模型就可以使用 AutoModelForCausalLMWithValueHead.from_pretrained 加载。
让我比较疑惑的是，训练是可以正常启动的，也就是说

path = "HF_MODELS/Qwen2-VL-7B-Instruct"
model = Qwen2VLForConditionalGeneration.from_pretrained(path)
model = AutoModelForCausalLMWithValueHead.from_pretrained(model)
print(model)

上面的代码是可以正常运行的。
不知道有没有人尝试过训练多模态的 RM 模型。

另外想问下 llamafactory/model/model_utils/valuehead.py 下面的 prepare_valuehead_model 有用吗，因为我看 trl 代码 trl/models/modeling_value_head.py 下面 AutoModelForCausalLMWithValueHead 的 forward 好像并不需要去改原来代码的 lm head 似乎就可以正常运行。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

RM 训练支持多模态模型吗 #7068

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 0 comments

Select a reply

RM 训练支持多模态模型吗 #7068

SakurajimaMaiii Feb 25, 2025

Replies: 0 comments

SakurajimaMaiii
Feb 25, 2025