中文 | English
Zhinao-ChineseModernBert系列是针对高推理速度要求、严苛内存限制的工业级场景,从头预训练的中文Base级基座模型与语义嵌入模型。本系列基于ModernBert高效架构与Qwen2Tokenizer分词器,依托超大规模中英文语料完成全流程预训练,在保持Base级参数量(除Embedding外约100M参数)轻量化优势的同时,实现了对同量级模型的全面超越,甚至性能优于更大参数量的主流模型,为中文NLP理解任务、语义检索、向量数据库、RAG检索增强等场景提供高性价比的开箱即用解决方案。
本项目包含两个核心模型:
- Zhinao-ChineseModernBert:通用中文理解基座,基于两阶段掩码语言建模(MLM)预训练,支持最长1536序列长度,适配各类中文NLU下游任务。
- Zhinao-ChineseModernBert-Embedding:专业中文语义嵌入模型,在基座的基础上做两阶段Embedding训练,支持最长512序列长度,专为语义检索、向量表征、相似度计算等场景深度优化。
- 采用ModernBert高效Transformer架构从头预训练,针对高吞吐推理、长文本处理场景做了深度优化,相比传统Bert架构实现显著的推理速度提升,内存占用更友好。
- 适配Qwen2Tokenizer大词表分词器,大幅降低中文及中英夹杂文本的OOV(未登录词)率,分词精度更高,对网络用语、专业术语、中英混合场景的适配性更强。
基于1T Tokens高质量中英文语料完成预训练,以中文语料为核心(占比超65%),辅以英文语料,全面通用互联网、科技、金融、医疗、法律、教育、代码等多领域场景,模型语义理解能力与跨域泛化性远超同量级模型。
- Zhinao-ChineseModernBert综合性能超越RoBERTa-wwm-large等大参数量模型。
- Zhinao-ChineseModernBert-Embedding为CMTEB基准榜单Base级参数量最优模型,综合性能超越Qwen3-Embedding-0.6B等主流大参数量嵌入模型,在检索、聚类、相似度计算等核心任务上表现突出。
| 模型全称 | 核心定位 | 预训练数据规模 | 最大序列长度 | 核心适用场景 | 核心优势 |
|---|---|---|---|---|---|
| Zhinao-ChineseModernBert | 通用中文理解基座 | 1T Tokens 中英文MLM预训练 | 1536 | 文本分类、实体识别、情感分析、关系抽取、长文本理解等各类NLU任务 | Base级参数量,长文本友好,推理速度快,内存占用低 |
| Zhinao-ChineseModernBert-Embedding | 专业中文语义嵌入模型 | 1T Tokens RetroMAE预训练 + 检索预训练 + 中英文MTEB微调 | 512 | 语义检索、向量数据库、RAG检索增强、文本相似度计算、聚类、重排序等场景 | CMTEB Base级参数量 SOTA,向量表征精度高,中英夹杂适配性强,检索性能领先 |
- MLM预训练 (1T Tokens) 本模型基于ModernBert架构,采用Masked Language Modeling (MLM)作为预训练目标,从头完成全流程预训练,无任何第三方基座权重依赖。
- 预训练语料:1T Tokens高质量中英文语料,覆盖通用新闻、百科、书籍、对话、代码、法律、专业文献等多个领域,经过严格的数据清洗、去重、质量过滤,保障预训练语料的多样性与纯净度。
- 序列长度:预训练阶段以8192长度做数据切片,适配长文本理解场景,解决传统Bert类模型长文本建模能力不足的痛点。
- 训练优化:采用分布式预训练框架,结合动态WWM掩码策略、混合精度训练、梯度累积等优化手段,保障预训练的稳定性与收敛效果。
- RetroMAE 预训练
- 预训练语料:在一阶段语料的基础上,增加下游业务常用的中短长度的文本语料。
- 序列长度:以自然段落切分语料,最大序列长度为1536。
- 采用RetroMAE自监督预训练目标,针对句子级语义表征做专项优化,通过双向掩码重建与自编码学习,强化模型对句子整体语义的建模能力,解决传统MLM预训练对句级表征适配性不足的问题。
本模型在Zhinao-ChineseModernBert通用基座的基础上,针对语义表征场景完成两阶段Embedding训练,实现从通用语义理解到精准向量表征的能力跃迁:
- 检索预训练 基于数亿级中英文检索和翻译语料做对比学习预训练,构建正负样本对的语义区分能力,深度适配下游检索、相似度计算等核心场景,大幅提升模型的跨域泛化性。
- MTEB中英文全任务微调 基于CMTEB与MTEB全维度任务相关数据集,完成多任务有监督微调,对齐检索、聚类、分类、STS、重排序等核心任务的优化目标,进一步提升模型在真实业务场景中的落地效果,达到多场景即开即用的目的。
Zhinao-ChineseModernBert在CLUE基准榜单上,实现了以Base级参数量(除Embedding外约100M参数)综合性能超越RoBERTa-wwm-large等大参数量模型,为资源有限的业务场景提供更多可选项。
| model | params | afqmc | tnews | iflytek | cmnli | wsc | csl | ocnli | c3 | mean |
|---|---|---|---|---|---|---|---|---|---|---|
| ChineseModernBERT(large) | ~310M | 73.87 | 56.90 | 60.15 | 83.96 | 52.10 | 86.20 | 79.10 | 82.65 | 71.87 |
| RoBERTa-wwm-large | ~310M | 76.55 | 58.61 | 62.98 | 82.12 | 74.60 | 82.13 | 78.20 | 73.82 | 73.63 |
| RoBERTa-wwm-ext(base) | ~90M | 74.04 | 56.94 | 60.31 | 80.51 | 67.80 | 81.00 | 74.72 | 66.50 | 70.23 |
| Zhinao-ChineseModernBERT(base) | ~110M | 76.99 | 57.51 | 59.56 | 83.82 | 78.95 | 85.70 | 79.08 | 75.42 | 74.63 |
Zhinao-ChineseModernBert-Embedding在CMTEB基准榜单上,登顶Base级参数量(除Embedding外约100M参数)模型最优排名,综合性能超越Qwen3-Embedding-0.6B等主流大参数量嵌入模型。
| Model Name | Params | Dimension | Classification | Clustering | Pair Classification | Reranking | Retrieval | STS | Mean Task Type |
|---|---|---|---|---|---|---|---|---|---|
| bge-base-zh-v1.5 | ~90M | 1024 | 71.79 | 47.49 | 73.18 | 65.02 | 69.41 | 51.67 | 63.07 |
| piccolo-base-zh | ~90M | 768 | 70.05 | 47.12 | 70.17 | 66.68 | 71.20 | 54.39 | 63.27 |
| setlla-base-zh-v3-1792d | ~90M | 1792 | 74.40 | 53.29 | 82.50 | 67.84 | 72.28 | 61.92 | 68.71 |
| setlla-large-zh-v3.5-1792d | ~310M | 1792 | 74.66 | 54.31 | 82.92 | 68.45 | 73.52 | 51.93 | 69.30 |
| Qwen3-Embedding-0.6B | ~596M | 1024 | 71.4 | 68.74 | 76.42 | 62.58 | 71.03 | 54.52 | 67.45 |
| 360Zhinao-Embedding-Base | ~110M | 768 | 73.50 | 65.36 | 86.15 | 67.99 | 69.32 | 60.29 | 70.16 |
注:测评代码与详细测评指标可查看eval_mteb.py与CMTEB leaderboard,模型综合性能实现同量级领先,超越600M参数量的Qwen3-Embedding-0.6B模型。
推荐使用Python 3.10+,核心依赖如下:
pip install torch>=2.6.0 transformers>=4.56.2 sentence-transformers>=5.1.2我们已将模型权重开源至主流模型平台,可通过以下地址获取:
| 模型 | Hugging Face 地址 |
|---|---|
| Zhinao-ChineseModernBert | 🤗 |
| Zhinao-ChineseModernBert-Embedding | 🤗 |
基座支持Hugging Face Transformers直接加载,需微调后方可用于下游任务。详见clue_evaluator.py
from sentence_transformers import SentenceTransformer
# 加载模型
model = SentenceTransformer("qihoo360/360Zhinao-Embedding-Base")
# 推荐使用flash attention
# model = SentenceTransformer("qihoo360/360Zhinao-Embedding-Base",
# model_kwargs={"attn_implementation": "flash_attention_2", "dtype": torch.bfloat16})
# 输入文本(原生支持中文、英文、中英混合文本)
sentences = [
"这是一个中文测试句子",
"This is an English test sentence",
"这是一个中英夹杂的test sentence",
]
# 生成语义embedding向量
embeddings = model.encode(sentences, prompt="Instruct: Retrieve semantically similar text.\nQuery: ")
# 输出结果
print(f"生成的向量维度: {embeddings.shape}")
print(embeddings@embeddings.T)from sentence_transformers import SentenceTransformer, util
# 加载模型
model = SentenceTransformer("qihoo360/360Zhinao-Embedding-Base")
# 待匹配的查询语句与候选文档
query = "什么是语义嵌入模型?"
docs = [
"语义嵌入模型是将文本转化为高维向量的AI模型,可用于计算文本间的语义相似度",
"大语言模型是能够生成自然语言文本的AI模型,广泛应用于对话、写作等场景",
"计算机视觉模型用于处理图像数据,实现图像分类、目标检测等功能",
]
# 生成向量
query_embedding = model.encode(query, prompt="Instruct: Given a Chinese search query, retrieve web passages that answer the question.\nQuery: ")
doc_embeddings = model.encode(docs)
# 计算余弦相似度并输出结果
cos_scores = util.cos_sim(query_embedding, doc_embeddings)[0]
for i, score in enumerate(cos_scores):
print(f"文档{i+1} 相似度: {score:.4f} | 内容: {docs[i]}")- 序列长度限制:Zhinao-ChineseModernBert支持1536序列长度,理论上可在8192的长度范围内微调,Zhinao-ChineseModernBert-Embedding最大支持512序列长度,超长度文本建议根据场景做合理截断或分块处理。
- 语言适配范围:模型以中文预训练为主、英文为辅,核心优化中文及中英夹杂场景,纯英文专业场景建议使用英文原生嵌入模型。
- Embedding模型的prompt:Embedding模型采用了通用的Prompt设置,各任务的prompt见config_sentence_transformers.json,其他任务建议搭配prompt使用。
- 合规使用:模型仅可用于合法合规的科研与工业场景,严禁用于危害国家安全、网络暴力、虚假信息传播等违法违规场景,使用时请遵守相关法律法规与开源许可证协议。
- 免责声明:模型基于公开语料预训练,我们已尽力保障数据的合规性与模型的安全性,但不对模型输出的内容承担任何法律责任,模型输出不代表我们的立场与观点。
本项目模型权重与代码基于 Apache 2.0 许可证 开源,可免费用于学术研究与商业用途,详细条款请查看LICENSE文件。
如果本项目对您的研究或工作有帮助,请引用我们的项目:
@misc{zhinao-chinesemodernbert,
title={Zhinao-ChineseModernBert: Chinese Foundation & Vector Embedding Model for High-Throughput, Low-Memory Scenarios},
author={zhinao team},
year={2026},
howpublished={\url{https://github.com/your-repo/zhinao-chinesemodernbert}},
}- 感谢ModernBert团队开源的高效Transformer架构,为本项目提供了坚实的架构基础
- 感谢Qwen团队开源的Qwen2Tokenizer,为本项目提供了优秀的分词体系
- 感谢CLUE、MTEB、CMTEB提供的权威中文NLP测评基准
- 感谢开源社区为中文NLP发展做出的贡献