train_llava数据集构建的问题

请教一下，关于train_llava的代码。为什么[final_inputs_ids] (https://github.com/yuanzhoulvpi2017/zero_nlp/blob/main/train_llava/train_llava/data.py#L128) 使用pad_token_id进行填充，而[final_label_ids]( https://github.com/yuanzhoulvpi2017/zero_nlp/blob/main/train_llava/train_llava/data.py#L143) 使用 ignore_idx进行填充？ 为啥不是都用pad_token_id填充呢？

还有为啥ignore_idx 等于-100，模型是怎么知道-100是ignore_idx的呢？每个llm都知道-100是要忽略的值吗？比如llama，qwen之类的。

感谢！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

train_llava数据集构建的问题 #193

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

train_llava数据集构建的问题 #193

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions