Skip to content

Latest commit

 

History

History
49 lines (34 loc) · 3.36 KB

File metadata and controls

49 lines (34 loc) · 3.36 KB

Alibaba Cloud (阿里云)

阿里巴巴云是全球领先的云计算与人工智能科技公司,其核心 LLM 品牌为 通义千问 (Tongyi Qianwen),英文名 Qwen。Qwen 系列以其强大的开源生态和中文处理能力著称,并在数学、代码和长文本处理等领域展现出世界级的性能。

核心模型 (Core Models)

通义千问 (Qwen / Tongyi Qianwen)

Qwen 是阿里巴巴云自主研发的大语言模型,分为三个主要系列:

  • Qwen-Max: 当前最强的闭源商业版本,通常拥有千亿级参数规模。在 reasoning (推演)、coding (代码) 和 math (数学) 等任务上表现优异,可与 GPT-4o、Claude 3.5 Sonnet 和 DeepSeek-V3 相媲美。
  • Qwen-Turbo / Plus: 平衡性能与成本的中等规模模型,广泛应用于企业级 API 调用。
  • Qwen-VL: 视觉语言模型,具备极强的图像理解与多模态交互能力。

Qwen 开源系列 (Open Weights)

Qwen 系列采取极为激进的开源策略,不仅发布权重,还包括训练代码和微调脚本,极大地推动了中文 LLM 社区的发展。

  • Qwen-7B / 14B / 72B: 第一代开源模型,奠定了其在开源界的地位。
  • Qwen1.5 系列: 2024年初发布的全面升级版本,不仅性能提升,还扩展了上下文窗口至 32k/128k。
  • Qwen2 / Qwen2.5 系列: 2024年中至2025年初发布。Qwen2.5-72B 在多个权威榜单(如 OpenCompass, MMLU)上超越了 Llama 3.1-70B,成为当时最强的开源模型之一。
    • Qwen2.5-Coder: 专注于代码生成的特化版本,在 HumanEval 等代码基准测试中表现出色,甚至优于部分更大参数的通用模型。
    • Qwen2.5-Math: 专注于数学解题能力的特化版本。

下一代模型 (Next-Gen)

  • Qwen3 (2025年):
    • Qwen3-4B: 作为新一代 SLM 的前哨发布,性能进一步压缩,适合端侧。
    • Qwen3.5-397B-A17B (MoE): 搜索结果中提及的旗舰 MoE 模型,总参数近 400B,激活参数 17B,支持原生视觉语言融合 (Native Vision-Language Fusion)。

技术特点

  • 多语言能力: 除中文外,对英语和其他多语种的支持也非常优秀。
  • 长文本: 支持极长的上下文窗口(如 32k, 128k, 甚至 1M token),适合文档分析和长对话。
  • Agent: 在 Tool Use (工具调用) 和 Agent (智能体) 任务上表现突出,常作为构建复杂 Agent 系统的基座模型。

产品与生态

  • 通义千问 App: 面向 C 端用户的对话助手。
  • 阿里云百炼 (Model Studio): 企业级大模型开发平台,提供模型训练、微调、部署的一站式服务。
  • ModelScope (魔搭社区): 类似于 Hugging Face 的开源模型社区,汇聚了大量中国本土的 AI 模型和数据集。

关键事件

  • 2023年4月: 通义千问 (Tongyi Qianwen) 开启企业邀测。
  • 2023年9月: 正式向全社会开放服务。
  • 2023/2024: 持续开源 Qwen-7B, Qwen-14B, Qwen-72B 等多个尺寸的模型,迅速成为开源社区的主流选择。
  • 2024年: 发布 Qwen2 和 Qwen2.5 系列,巩固了其在开源领域的领导地位,Qwen2.5-72B 成为开源模型的新标杆。
  • 2025年1月: 发布 Qwen2.5-Max,进一步提升推理能力,对标 DeepSeek-V3 等顶尖模型。
  • 2025年2月: Qwen 3 系列开始崭露头角,进一步探索多模态融合与 MoE 架构的潜力。