ms-swift内置的模型,你可以直接通过指定model_id或者model_path来使用:--model <model_id_or_path>。ms-swift会根据model_id/model_path的后缀和config.json文件来判断model_type。
每种model_type都有唯一的模型结构、template和加载方式。当然,你也可以手动传入--model_type、--template来进行覆盖。ms-swift已支持的model_type和template可以查看支持的模型与数据集。
以下介绍如何注册一个新模型和对应的template。最佳实践参考注册多模态模型最佳实践。
自定义模型通常使用模型注册的方式进行,可以参考内置模型、内置对话模板或者examples的示例代码。你可以通过指定--custom_register_path xxx.py解析外置注册的内容(方便pip install而非git clone的用户)。
register_model会在MODEL_MAPPING中注册模型,调用函数register_model(model_meta)即可完成模型注册,其中model_meta将存储模型的元信息。ModelMeta的参数列表如下:
- model_type: 必填项。模型类型,也是唯一ID。
- model_groups: 必填项。罗列ModelScope/HuggingFace的模型id和模型本地路径。运行run_model_info.py文件将自动产生支持的模型文档以及自动根据
--model后缀匹配model_type。 - template: 必填项。命令行不额外指定
--template时的默认template类型。 - get_function: 必填项。模型和tokenizer/processor(多模态模型)的加载函数。LLM通常设置为
get_model_tokenizer_with_flash_attn即可。 - model_arch: 模型架构。默认为None。多模态模型训练需要设置该参数来确定llm/vit/aligner的前缀。
- architectures: config.json中的architectures项,用于自动匹配模型对应的model_type。默认为
[]。 - additional_saved_files: 全参数训练和merge-lora时需要额外保存的文件。默认为
[]。 - torch_dtype: 模型加载时未传入
torch_dtype时的默认dtype。默认为None,从config.json中读取。 - is_multimodal: 是否是多模态模型,默认为False。
- ignore_patterns: 从hub端下载文件需要忽略的文件patterns,默认为
[]。
register_template会在TEMPLATE_MAPPING中注册对话模板,调用函数register_template(template_meta)即可完成对话模板注册,其中template_meta将存储template的元信息。TemplateMeta的参数列表如下:
- template_type: 必填项。对话模板类型,也是唯一ID。
- prefix: 必填项。对话模板的前缀,通常包含system、bos_token等部分,独立于多轮对话而产生的对话模板循环。例如qwen的prefix为
[]。 - prompt: 必填项。表示对话模板中的
{{RESPONSE}}之前的对话部分。我们使用{{QUERY}}代表user询问部分的填充符。例如qwen的prompt为['<|im_start|>user\n{{QUERY}}<|im_end|>\n<|im_start|>assistant\n']。 - chat_sep: 必填项。多轮对话中每轮的分隔符。若设置为None,则该template不支持多轮对话。例如qwen的chat_sep为
['<|im_end|>\n']。 - suffix: 默认为
[['eos_token_id']]。对话模板的后缀部分,独立于多轮对话而产生的对话模板循环,通常为eos_token。例如qwen的suffix为['<|im_end|>']。 - template_cls: 默认为
Template。通常在定义多模态模型的template时需要进行自定义,自定义_encode、_post_encode、_data_collator函数。 - system_prefix: 默认为None。含system的对话模板前缀。我们使用
{{SYSTEM}}作为system的填充符。例如qwen的system_prefix为['<|im_start|>system\n{{SYSTEM}}<|im_end|>\n']。- 注意:若system为空时,
prefix可以被system_prefix替代,则可以将prefix写为含system的前缀,而无需设置system_prefix。 - 若prefix不含
{{SYSTEM}}且未设置system_prefix,则该template不支持system。
- 注意:若system为空时,
- default_system: 默认为None。不传入
--system时使用的默认system。例如qwen的default_system为'You are a helpful assistant.'。 - stop_words: 默认为
[]。除了eos_token和suffix[-1]的额外停止符。例如qwen的stop_words为['<|endoftext|>']。- 注意:推理时,输出的response将会过滤eos_token和
suffix[-1],但是会保留额外的stop_words。
- 注意:推理时,输出的response将会过滤eos_token和