自定义模型

ms-swift内置的模型，你可以直接通过指定model_id或者model_path来使用：--model <model_id_or_path>。ms-swift会根据model_id/model_path的后缀和config.json文件来判断model_type。

每种model_type都有唯一的模型结构、template和加载方式。当然，你也可以手动传入--model_type、--template来进行覆盖。ms-swift已支持的model_type和template可以查看支持的模型与数据集。

以下介绍如何注册一个新模型和对应的template。最佳实践参考注册多模态模型最佳实践。

模型注册

自定义模型通常使用模型注册的方式进行，可以参考内置模型、内置对话模板或者examples的示例代码。你可以通过指定--custom_register_path xxx.py解析外置注册的内容（方便pip install而非git clone的用户）。

register_model会在MODEL_MAPPING中注册模型，调用函数register_model(model_meta)即可完成模型注册，其中model_meta将存储模型的元信息。ModelMeta的参数列表如下：

model_type: 必填项。模型类型，也是唯一ID。
model_groups: 必填项。罗列ModelScope/HuggingFace的模型id和模型本地路径。运行run_model_info.py文件将自动产生支持的模型文档以及自动根据--model后缀匹配model_type。
template: 必填项。命令行不额外指定--template时的默认template类型。
get_function: 必填项。模型和tokenizer/processor（多模态模型）的加载函数。LLM通常设置为get_model_tokenizer_with_flash_attn即可。
model_arch: 模型架构。默认为None。多模态模型训练需要设置该参数来确定llm/vit/aligner的前缀。
architectures: config.json中的architectures项，用于自动匹配模型对应的model_type。默认为[]。
additional_saved_files: 全参数训练和merge-lora时需要额外保存的文件。默认为[]。
torch_dtype: 模型加载时未传入torch_dtype时的默认dtype。默认为None，从config.json中读取。
is_multimodal: 是否是多模态模型，默认为False。
ignore_patterns: 从hub端下载文件需要忽略的文件patterns，默认为[]。

register_template会在TEMPLATE_MAPPING中注册对话模板，调用函数register_template(template_meta)即可完成对话模板注册，其中template_meta将存储template的元信息。TemplateMeta的参数列表如下：

template_type: 必填项。对话模板类型，也是唯一ID。
prefix: 必填项。对话模板的前缀，通常包含system、bos_token等部分，独立于多轮对话而产生的对话模板循环。例如qwen的prefix为[]。
prompt: 必填项。表示对话模板中的{{RESPONSE}}之前的对话部分。我们使用{{QUERY}}代表user询问部分的填充符。例如qwen的prompt为['<|im_start|>user\n{{QUERY}}<|im_end|>\n<|im_start|>assistant\n']。
chat_sep: 必填项。多轮对话中每轮的分隔符。若设置为None，则该template不支持多轮对话。例如qwen的chat_sep为['<|im_end|>\n']。
suffix: 默认为[['eos_token_id']]。对话模板的后缀部分，独立于多轮对话而产生的对话模板循环，通常为eos_token。例如qwen的suffix为['<|im_end|>']。
template_cls: 默认为Template。通常在定义多模态模型的template时需要进行自定义，自定义_encode、_post_encode、_data_collator函数。
system_prefix: 默认为None。含system的对话模板前缀。我们使用{{SYSTEM}}作为system的填充符。例如qwen的system_prefix为['<|im_start|>system\n{{SYSTEM}}<|im_end|>\n']。
- 注意：若system为空时，prefix可以被system_prefix替代，则可以将prefix写为含system的前缀，而无需设置system_prefix。
- 若prefix不含{{SYSTEM}}且未设置system_prefix，则该template不支持system。
default_system: 默认为None。不传入--system时使用的默认system。例如qwen的default_system为'You are a helpful assistant.'。
stop_words: 默认为[]。除了eos_token和suffix[-1]的额外停止符。例如qwen的stop_words为['<|endoftext|>']。
- 注意：推理时，输出的response将会过滤eos_token和suffix[-1]，但是会保留额外的stop_words。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

自定义模型

模型注册

FilesExpand file tree

自定义模型.md

Latest commit

History

自定义模型.md

File metadata and controls

自定义模型

模型注册