Skip to content

Latest commit

 

History

History
1600 lines (1258 loc) · 163 KB

File metadata and controls

1600 lines (1258 loc) · 163 KB

🤖 Awesome AI Agents 2026 · 中文版

Awesome GitHub stars License: MIT PRs Welcome Last Updated Resources Audited English 日本語

2026 年 AI 模型、Agent 框架、工具、协议与资源精选清单 —— 这是 Agent 真正成为基础设施的一年。

覆盖:基础大模型、多模态生成、Agent 协议(MCP / A2A)、编程 Agent、计算机使用、生成式 AI 等。

🏷️ 状态图例

每条目可能携带一个或多个状态标签,便于读者一眼判断成熟度:

  • 🆕 New — 60 天内加入,效果尚待沉淀
  • 📦 Archived — 仓库已归档,仅作历史参考,不再更新
  • 💤 Stale — 6 个月以上无提交,可能仍可用但已不再活跃维护
  • ⚠️ Unverified — 新提交且第三方使用证据有限(star 少 / 单作者 / 同款 PR 批量铺货)。仅作可见性收录,不背书,使用前请自行评估
  • 🇨🇳 Chinese ecosystem — 中国大陆团队主导或主要面向中文市场的项目
  • 🔥 Hot — 近 30 天 GitHub stars 增长 >20%,社区热度高涨。
  • Updated — 近 14 天内有显著新版本发布或重要功能迭代。
  • 🧪 Experimental — 有潜力但尚不适合生产环境,建议仅用于 R&D 探索。
  • 💰 Freemium — 核心功能免费,规模扩展或高级功能需付费。
  • 🔐 Audited — 已通过独立第三方安全审计或形式化验证。
  • 🇨🇳 China-first — 主要面向中文语言、国内合规或国产云基础设施。

基础大模型 · 多模态 · 协议 · 框架 · IDE 与构建器 · 记忆 · 工具 · 沙箱 · 安全 · RAG · 编程 · Physical AI · 仿真 · 评测 · Computer Use · 浏览器与 Web · 语音 · 个人 · 手机 · 企业 · 评估 · 研究工具 · 学习 · 中国生态 · 对比 · 2026 看点 · 时间线


🚀 从这里开始

初次接触 AI Agent? 按这个路径走:

  1. 📖 損清概念 — Agent 和普通聊天機器人到底有什么区别
  2. 🗺️ 找到你的场景场景指南
  3. 🧩 复制经过验证的技术栈技术栈免调
  4. 🔍 选对工具对比表
  5. ⚠️ 避开常见陷阱反推荐清单

已在开发? 快速跳转:


目录


🧠 基础大模型 2026

为整个 AI 生态提供动力的大语言模型,按厂商组织。20+ 家厂商共 65+ 个模型。

OpenAI

  • GPT-5.5 - 🆕 2026-04-23 发布(代号 "Spud")。OpenAI 面向 Agent 任务的新一代旗舰:编程、在线研究、数据分析、自主工具调用。推理稳定性与长任务执行力大幅提升。ChatGPT Plus / Pro / Business / Enterprise 可用。
  • GPT-5.5 Pro - 🆕 2026-04-23。并行测试期算力变体,更高准确率。Pro / Business / Enterprise。
  • GPT-5.5-Cyber - 🆕 2026-04-30。GPT-5.5 的网络安全特化版本,通过 OpenAI Trusted Access for Cyber (TAC) 计划仅向防御者、政府、关键基础设施运营方、安全厂商开放,不对公众发布。
  • GPT-5.4 - 2026-03 发布。1M token 上下文,编程、Computer Use、工具检索均强。BenchLM 94,SWE-bench Verified 77.2%,OSWorld 75%(超过人类基线)。
  • GPT-5.4 Pro - GPT-5.4 的高准确率变体。BenchLM 92。
  • GPT-5.3 - 2026 年初。包括 GPT-5.3 Instant(对话)和 GPT-5.3-Codex(编程)。
  • GPT-5.2 - 2025-12 发布。SOTA 推理 + 长上下文 + 视觉。
  • GPT-5 - 2025-08 发布,ChatGPT 默认模型,替代 GPT-4o。多模态 + gpt-5 / mini / nano 三档变体。
  • GPT-4o - Omni 模型,原生支持文本/视觉/音频。2026-02 从 ChatGPT 下线,API 仍可用。
  • o3 / o4-mini - 思维链推理模型。2025-04 发布。
  • Codex CLI - OpenAI 出品的开源终端编程 Agent。GitHub stars
  • OpenAI Deployment Company (DeployCo) - 🆕 2026-05-11。OpenAI 控股的企业 AI 落地服务公司,$4B+ 启动资金,TPG / Advent / Bain Capital / Brookfield / Goldman Sachs / SoftBank 与 Bain & Company / Capgemini / McKinsey 等共投。围绕 Forward Deployed Engineers 体系,并吸收 Tomoro 咨询团队(~150 人)。
  • Codex on Mobile - 🆕 2026-05-14。ChatGPT iOS / Android 远程操控 Mac 上的 Codex 桌面 App —— 查看输出、批准操作、切换模型、启动新任务,文件 / 凭据 / 权限仍留在本机。Free / Plus / Go 预览。
  • OpenAI ↔ Malta 合作 - 🆕 2026-05-16。首次国家级合作:完成马耳他大学开发的 2 小时 AI 素养课程后,所有 14 岁以上马耳他公民 / 居民可免费获得 1 年 ChatGPT Plus。"OpenAI for Countries" 计划的首站。
  • OpenAI ↔ Dell Codex 合作 - 🆕 2026-05-18。借助 Dell 的混合云 / 本地部署能力,Codex 首次走出公有云,面向需要数据主权 / 合规隔离的强监管行业。
  • ChatGPT 安全系统更新 - 🆕 2026-05-18。ChatGPT 加入跨会话的潜在风险跟踪(自杀 / 自伤 / 伤他),能识别微妙、逐步升级的变化。
  • OpenAI Guaranteed Capacity(算力年发) - 🆕 2026-05-19。面向企业 AI 产品 / Agent / Workflow 的长期算力预订产品:1 / 2 / 3 年期,期限越长折扣越高。对度 Anthropic Priority Tier 的产品化回应。
  • OpenAI ↔ Google SynthID + C2PA 内容源头验证 - 🆕 2026-05-19。OpenAI 联手 Google,为 ChatGPT/Sora 生成的图片加上 SynthID 跨平台水印,加入 C2PA,并预览一个公开的 "这张图是 OpenAI 生成的吗" 验证器。两家顶级 lab 首次在水印上互通。

Anthropic

  • Claude Opus 4.7 - 🆕 2026-04-16 发布。SWE-bench Verified 87.6% 的工程能力,视觉增强、主动代码验证。支持 /think xhigh 推理档位。1M token 上下文。
  • Claude Opus 4.6 - 2026-02 发布。1M token 上下文,14.5 小时任务执行。LMArena 对话榜首。
  • Claude Sonnet 4.6 - 2026-02 发布。前沿编程与 Agent 表现,1M token 上下文。
  • Claude Mythos Preview - 🆕 2026-04 受邀研究预览。BenchLM 99(榜首),SWE-bench Verified 93.9%。Project Glasswing 合作伙伴专属。
  • Claude Opus 4 - 2025-05 发布。
  • Claude Sonnet 4 - 2025-05 发布。
  • Claude Code - Anthropic 出品、运行在终端里的 Agent 化编程工具。Opus 4.7 + /think xhigh
  • Claude Security - 🆕 2026-05-01 公测。Opus 4.7 驱动的企业级代码漏洞扫描器:扫整个代码库,生成有置信度评分、严重程度、复现步骤、修复建议的补丁。Enterprise 用户在 claude.ai/security 使用。
  • Anthropic ↔ SpaceX Colossus 1 - 🆕 2026-05-06。Anthropic 拿下 SpaceX Memphis 数据中心 Colossus 1 全部算力(22 万+ NVIDIA H100 / H200 / GB200,300+ MW)用于 Claude Opus 推理;Claude Code 5 小时速率上限翻倍,Pro / Max 取消高峰期限流。
  • Claude for Legal - 🆕 2026-05-12。Claude Cowork 之上的法律垂直栈:20+ 个 MCP 连接器(iManage、NetDocuments、DocuSign、Ironclad、LexisNexis、Westlaw、Harvey、Everlaw、Relativity、CourtListener 等)+ 12 个执业领域 plugin(商事、雇佣、隐私、产品、公司、AI 治理、诉讼助理、备考律考)。原生集成 Word / Outlook / Excel / PowerPoint。
  • Claude for Small Business - 🆕 2026-05-13。Claude Cowork 中的中小企业开关 —— 15 个预置 Agent 工作流,覆盖财务 / 运营 / 销售 / 营销 / HR / 客服;原生连 QuickBooks、PayPal、HubSpot、Canva、DocuSign、Google Workspace、Microsoft 365。配套免费课程 + 美国 10 城线下工作坊巡讲。
  • Anthropic ↔ Gates Foundation $200M - 🆕 2026-05-14。4 年 $200M 合作:资助 + Claude 使用额度 + Anthropic 工程师投入到全球健康、生命科学、教育、农业,所有产出工具公开免费;首批方向包括小儿麻痹 / HPV / 子痫前期疫苗研发与农业版 Claude。
  • Anthropic ↔ PwC 战略扩张 - 🆕 2026-05-14。PwC 全球铺开 Claude Code + Claude Cowork,认证 30,000 名员工,共建 "Agentic Enterprise" 卓越中心;聚焦 Agent 构建、AI 原生并购,以及财务 / 供应链 / HR 重塑。
  • Anthropic ↔ 金融稳定委员会(FSB)就 Claude Mythos 进行汇报 - 🆕 2026-05-18。Anthropic 首次向 G20 级别的金融稳定监管机构介绍顶级模型(Claude Mythos)的攻击性网络能力,为金融系统风险评估提供依据。
  • Code with Claude 2026 会议录像上线 - 🆕 2026-05-18 发布。5 月 6 日的开发者大会全部场次公开:Claude Code 路线图、Claude Developer Platform 更新、Managed Agents 的 dreaming 与多 Agent 编排、合作伙伴部署。
  • 《Widening the conversation on frontier AI》 - 🆕 2026-05-19。Anthropic 发布与宗教 / 哲学 / 原住民传统等“智慧传统”就顶级 AI 安全展开对话的框架,公共参与系列后续。
  • Bristol Myers Squibb ↔ Anthropic Claude Enterprise - 🆕 2026-05-20。BMS 将 Claude Enterprise 作为 30,000+ 员工的共享智能平台,嵌入药物发现 / 开发 / 交付的全链路。全球前 5 大药企中首个全公司级 Claude 部署。
  • Claude Opus 4.8 - 🆕 2026-05-28。Opus 重大迭代:代码库级别的迁移能力、更准的 Agent 判断,推出研究预览的「动态工作流」能在单 session 里并发几百个子 Agent,加入手动调节推理投入的「努力控制」面板;Fast 模式价格降 3 倍,输入 / 输出仍为 $5 / $25 每百万 token。Anthropic 原生、Amazon Bedrock、AWS Claude Platform、Google Cloud、Microsoft Foundry 上线。同时预告面向小范围企业的 Mythos 级别新一代模型。

Google DeepMind

  • Gemini 3.1 Pro - 2026-02 发布。BenchLM 94,GPQA Diamond 94.3%(世界纪录),ARC-AGI 2 77.1%。Google 最强模型,旗舰定价 $2/1M tokens
  • Gemini 3.1 Flash Live - 🆕 2026-04。语音助手与交互式 Agent 的实时多模态流式接口,低延迟长上下文。
  • Gemini 3.1 Flash-Lite (GA) - 🆕 2026-05-08。Gemini API / AI Studio / Vertex AI 全面 GA。Gemini 3 家族中最快、最省的型号,面向超低延迟代码补全、实时 UX、Agent 开发工具;质量持平 Gemini 2.5 Flash,成本明显更低。
  • Gemini 3.5 Flash - 🆕 2026-05-19 — Google I/O 2026。推出即成为 Gemini App + Google 搜索 AI Mode 的默认模型,官方称输出 token 速度 约 4 倍于同类顶级模型,在关键 benchmark 上超越 Gemini 3.1 Pro。Gemini 3.5 Pro 预计 6 月上线。
  • Gemini Omni / Omni Flash - 🆕 2026-05-19 — Google I/O 2026。DeepMind 面向 AGI 的新世界模型家族,Omni Flash 能从任意输入输出任意模态(首以视频起步,后续拓展到图像与文本),与 Gemini Robotics / Genie 路线一脉相承。
  • Gemini Omni Flash · 对话式视频编辑上线 - 🆕 2026-05-28。Omni Flash 面向消费者推送,在 Gemini App、Google FlowYouTube Shorts 里作为编辑引擎:用文字 / 语音 / 图像 / 音频提示完成电影式推拉镜、背景替换、天气改动等操作,不再需要传统非线性编辑。
  • Gemini Spark(24/7 个人 AI Agent) - 🆕 2026-05-19 — Google I/O 2026。云端 24/7 常驻的个人 AI Agent,首期接入 Gmail / Chat,后续加入 ~30+ 个第三方工具(Adobe / Dropbox / Uber 等)以 MCP 協议调用。限 Google AI Ultra 付费用户。
  • Google AI Ultra($100/月) - 🆕 2026-05-19 — Google I/O 2026。新的消费者顶端订阅层级,面向开发者 / 创作者 / 重度用户,解锁 Gemini Spark、最高 Gemini 3.5 额度以及即将发布的 Gemini 3.5 Pro。
  • Gemini 3.1 Flash / Flash Lite - 高吞吐应用的高性价比选择。
  • Gemini 4 (Open) - 🆕 2026-04 发布。开源家族:2B / 4B / 26B / 31B 变体。科学推理与文档理解强,本地部署友好。
  • Gemini 2.5 Pro / Flash - 2025-06 GA。Thinking 模型,1M 上下文。
  • Gemma 4 31B - 🆕 2026-04。GPQA Diamond 84.3%。端侧推理首选开源权重之一。GitHub stars
  • Gemma 3 - 上一代开源家族。
  • Gemini Robotics ER-1.6 - 🆕 2026-04-14。机器人 AI 模型,空间与物理推理增强。Agile Robotics 实地部署。

Meta

  • Muse Spark - 🆕 2026-04-09。Meta Superintelligence Labs (MSL) 首个模型。原生多模态推理,驱动 Meta AI 应用、智能眼镜,以及 Facebook / Instagram / WhatsApp / Messenger 中的功能。
  • Llama 4 Scout - 109B 总参(17B 激活),16 专家 MoE,10M token 上下文,多模态。单 H100 可跑。
  • Llama 4 Maverick - 400B 总参(17B 激活),128 专家,1M 上下文。多模态超过 GPT-4o。
  • Llama 4 Behemoth - 2T 总参(288B 激活)。Meta 最强模型,对标顶级闭源。
  • Llama 3.3 70B - 强指令跟随,Llama Community License。

Sakana AI

  • Sakana RL Conductor - 🆕 论文 2026-04-27 / Fugu beta 2026-04 末至 2026-05 初。基于 Qwen2.5-7B 的 RL 训练编排模型,用强化学习把子任务分发给 GPT-5、Claude Sonnet 4、Gemini 2.5 Pro 等。LiveCodeBench 83.9%、GPQA-Diamond 87.5% SOTA,每次查询约 1.8K token,远低于其他多 Agent 合奏。
  • Sakana Fugu - 🆕 2026-04-24 / 25 公测。把 RL Conductor 研究产品化的多 Agent 编排商用服务,兼容 OpenAI 接口,分 Fugu Mini(低延迟)和 Fugu Ultra(最大性能)两档;在 SWE-Pro、GPQA-D、ALE-Bench 表现亮眼。

Zyphra

  • ZAYA1-8B - 🆕 2026-05-06。MoE 推理模型(激活参数 <1B),完全在 AMD Instinct MI300X 集群上训练。Apache 2.0 权重已在 Hugging Face,并在 Zyphra Cloud 提供 serverless 端点;强调每激活参数的智能密度。
  • ZAYA1-8B-Diffusion-Preview - 🆕 2026-05-14。首个从自回归 LLM 转换得来的 MoE 扩散语言模型,也是首个在 AMD GPU 上训练的扩散 LM。每步生成 16 个 token,相比自回归基线最多 7.7× 推理加速;采用 Zyphra 的 TiDAR 训练配方 + CCA 注意力。

Mistral AI

  • Mistral Large 3 - 675B 总 / 41B 激活 MoE,256K 上下文。多模态旗舰开源。2025-12 发布。
  • Mistral Medium 3.1 - 企业级前沿密集模型。多模态,128K,支持 80+ 编程语言。2025-08 发布。
  • Mistral Small 4 - 🆕 2026-03。119B 总 / 6B 激活。融合推理 + 多模态 + 编程的混合模型。
  • Magistral 1.2 - 🆕 2026 推理家族。透明、多语言推理。
  • Devstral 2 - 🆕 2026 Agent 编程模型。当前最佳开源编程 Agent 模型。
  • Codestral - 22B 编程模型,80+ 语言,32K 上下文。2024-05 发布。
  • Pixtral Large - 124B 多模态 + 1B 视觉编码器,128K 上下文,支持 30+ 高分辨率图像。
  • Ministral 3B/8B/14B - 端侧紧凑模型。
  • Mistral Forge - 🆕 2026-03 自定义 LLM 训练平台。

DeepSeek 🇨🇳

  • DeepSeek Agent Harness 团队 - 🆕 2026-05-19。DeepSeek 从 Jane Street 挨角一名资深工程师,为新设的 "AI harness" 团队搭建把 DeepSeek V4 所能生产化为 能收费的自主 Agent 的硬调度 / 程序化套件 —— 首个明确信号:DeepSeek 开始从原生模型 R&D 跳到 Agent 产品化。
  • DeepSeek-V4-Pro - 🆕 2026-04-24。1.6T 总 / 49B 激活 MoE,1M 上下文。MIT。Agent、世界知识、推理领域开源标杆。
  • DeepSeek-V4-Flash - 🆕 2026-04-24。284B 总 / 13B 激活 MoE,1M 上下文。MIT。性价比层。
  • DeepSeek-V3.2 - 2025-12 发布。671B MoE,V3.2 Speciale 推理增强。
  • DeepSeek-R2 - 2026 推理模型。R1 后继,对标 GPT-5、Gemini 3 Pro。
  • DeepSeek-R1 - 2025-01 发布的思维链推理模型。
  • DeepSeek-Coder-V2 - 编程模型,对标 GPT-4。GitHub stars

Alibaba (Qwen) 🇨🇳

  • Qwen 3.7-Max - 🆕 2026-05-20 — 阿里云杭州峰会。为 AI Agent 量身打造的新一代顶级:代理型编程、复杂推理、「长静间距」多步任务能力;同期亊相新的 T-Head 珄武 M890 AI 算力芯片与全栈 AI 基础设施升级。面向全球开发者 / 企业即将上线。
  • Qwen 3.7-Max-Preview / Plus-Preview - 🆕 2026-05-18。杭州峰会前的预览梯队;LM Arena 上文本 + 视觉双赛道均为中文世界最高分中国模型。
  • Qwen3.6-27B - 🆕 2026-04-22。27B 密集多模态。开源。Agent 编程 + 思维上下文保持。
  • Qwen3.6-Max-Preview - 🆕 2026-04-18。闭源前沿预览。1M 上下文,中文模型编程榜顶尖。
  • Qwen3.6-35B-A3B - 🆕 2026-04-15。MoE 35B 总 / 3B 激活。Apache 2.0。稳定性与实用性增强。
  • Qwen3.6-Plus - 🆕 2026-04-02。闭源旗舰。token 性价比高,长上下文 + 工具调用 + Agent 表现强。
  • Tianma (天马) AI - 🆕 2026-04-27 公测。阿里图生视频模型。角色一致性强,运动质量高。
  • Qwen3.5 Max Pro - 2026-04。高性能旗舰。
  • Qwen3.5 Omni Plus - 2026-04。统一文本 + 图像输入的全模态基座。
  • Qwen3-Max-Thinking - 阿里最强思维模型。1T+ 参数。
  • Qwen3.5-Omni - 2026-03。完全全模态:文/视/听/动。113 种语言识别,256K 上下文。
  • Qwen3-Coder-Next - 2026-02。开源编程 Agent 模型,MoE 80B 总 / 3B 激活。
  • Qwen3 235B-A22B - 双模式推理 MoE。数学、代码、常识强。
  • Qwen2.5 Coder 32B - 顶级开源编程模型。GitHub stars

xAI (Grok)

Microsoft (Phi)

  • Phi-4-reasoning-vision-15B - 🆕 2026-03。15B 多模态,选择性思维链推理。端侧友好。
  • Phi-4 - 14B SLM,推理水平媲美更大模型。MIT。
  • Phi-4-mini - 3.8B 密集,128K 上下文。推理 / 数学 / 编程 / 函数调用都强。
  • Phi-4-multimodal - 5.6B 首个多模态 Phi(语音 + 视觉 + 文本)。

Cohere

  • Command A - 🆕 2026-04 发布。111B 开源权重,256K 上下文。Agent / 多语言 / 编程聚焦。
  • Command R+ - 企业级 RAG 模型,128K 上下文,10 种语言,带引用 grounded generation。
  • Command R - 经济型 RAG 模型。

Baidu (ERNIE / 文心) 🇨🇳

  • ERNIE 5.0 - 🆕 2026-01 发布。2.4T MoE(每次激活 <3%)。原生全模态。LMArena 中文模型第一。
  • ERNIE 4.5 - 2025 多模态前作。中文与推理强。

Zhipu AI / Z.ai (GLM) 🇨🇳

  • GLM-5.1 - 🆕 2026-04-07。744B MoE / 40B 激活,200K 上下文。MIT。SWE-Bench Pro 第一。完全在华为昇腾上训练,不依赖 NVIDIA
  • GLM-5 Reasoning - 🆕 2026-04。BenchLM 85 —— 开源最高分。SWE-Bench Pro 超过 GPT-5.4 与 Claude Opus 4.6。
  • GLM-5V-Turbo - 🆕 2026-04。原生多模态 Agent —— 视觉、视频片段、文本输入。性价比平衡。
  • GLM-5 - 2026-02 发布。744B 参数,Agent 能力前沿。MIT。
  • GLM-4.7 - 2025 末发布。SWE-Bench 持平 Claude Opus 4。

MiniMax 🇨🇳

Moonshot AI (Kimi) 🇨🇳

  • Kimi K2.6 - 🆕 2026-04-20~21。1T MoE / 32B 激活,256K 上下文。编程增强、长任务执行、最大 1000 个 Agent 协作集群。支持 thinking.keep="all" 持久推理。OpenClaw v2026.4.20+ 默认模型。
  • Kimi K2.5 - 2026-01 至 02。1T 总 / 32B 激活 MoE。原生多模态,最多 100 个并行子 Agent。开源。⚠️ 2026-05-25 停止支持,请迁移到 K2.6。
  • Kimi Code - 基于 K2.5/K2.6 的高级编程层,面向终端工作流。

ByteDance (Doubao / 豆包) 🇨🇳

  • Doubao-Seed-2.0 Pro - 🆕 2026-02 发布。前沿推理与复杂 Agent。和 GPT-5.2 同级,成本约低 90%。
  • Doubao-Seed-2.0 Lite - 🆕 通用生产负载。性能效率均衡。
  • Doubao-Seed-2.0 Code - 🆕 软件开发:代码生成、调试、评审。
  • BAGEL - 🆕 字节开源多模态模型,文图视频统一理解 + 生成。

Amazon (Nova)

  • Nova 2 Pro - 🆕 Amazon 最强推理模型。文 / 图 / 视频 / 语音输入。Agent 编程与长程规划。
  • Nova 2 Lite - 🆕 1M token 上下文 + 可调 "thinking effort"。
  • Nova 2 Sonic - 🆕 实时语音对语音模型。1M 上下文,多语言。
  • Nova Act - 🆕 浏览器 Web 任务 Agent 服务(Nova 2 Lite 驱动)。
  • Nova Forge - 🆕 自定义 Nova 训练服务。

NVIDIA (Nemotron)

  • Nemotron 3 Ultra - 🆕 2026-03(GTC)。前沿推理,Blackwell 上 5 倍吞吐。
  • Nemotron 3 Super - 🆕 2026-03。120B 总 / 12B 激活。1M 上下文。
  • Nemotron 3 Nano - 经济型 Transformer-Mamba 混合 MoE。
  • Nemotron 3 Nano Omni - 🆕 2026-04-28。30B-A3B 混合 MoE。原生多模态。同类开源 omni 模型 9 倍吞吐。霸榜 6 项排行(MMlongbench-Doc / OCRBenchV2 / WorldSense / DailyOmni / VoiceBench)。

Tencent (Hunyuan) 🇨🇳

  • Hunyuan Hy3 Preview - 🆕 2026-04-23。295B 总 / 21B 激活 MoE,256K 上下文。GitHub / Hugging Face / ModelScope / GitCode 同步开源。"快慢思维融合" 架构,推理效率提升 40%。原生支持 vLLM 与 SGLang。腾讯元宝 / CodeBuddy / QQ / 腾讯文档已集成。OpenRouter 免费预览中。GitHub stars

Apple

  • Apple Foundation Models (AFM) - 端侧(~3B)+ 服务器版本,Apple Intelligence 内核。隐私优先,离线可用。
  • OpenELM - 开源高效语言模型(270M~3B),Apple Silicon 端侧。

Samsung

  • Samsung Gauss 2.3 - 🆕 Galaxy S26 端侧 AI。Gauss 2.3 Think + Gauss O Flash 双变体。Agent 能力。

Inflection AI

01.AI 🇨🇳

  • Yi-Lightning - MoE,RTX 4090 上 200+ tokens/s。中英双语强,Apache 2.0。2024-10 发布。

中国科学院 🇨🇳

  • ScienceOne 100 / 磐石100 - 🆕 2026-04-28~29。中科院科研 AI 系统。"磐石" 基础模型 + 文献罗盘 + 创新评估引擎 + 2000+ 工具 Agent 工厂。覆盖数学 / 物理 / 生物 / 材料 / 天文 / 航天 / 地球科学。50+ 中科院研究所、100+ 科研场景使用。
  • OpenAI Daybreak - 🆕 2026 年 5 月 12 日。整合 GPT-5.5 + GPT-5.5-Cyber + Trusted-Access-for-Cyber 的网络防御平台,提供 AI 驱动的漏洞检测与补丁验证;预览版已向欧盟政府与安全厂商开放。
  • GPT-5.5 Instant - 🆕 2026 年 5 月 5 日。ChatGPT 新默认模型,效率优先升级,高风险提示词幻觉率下降约 50%;免费用户可用。
  • Claude Finance Agents - 🆕 2026 年 5 月 5 日。基于 Opus 4.7 的 10 个金融领域专业 Agent,覆盖 pitchbook 撰写、KYC、月结、交易筛查等。可作为 Claude Cowork 插件、Claude Code skill 或 Managed-Agents cookbook 部署。
  • Claude Add-ins / Dreaming / Outcomes / Multi-agent orchestration - 🆕 2026 年 5 月 8 日(Code with Claude 2026)。Anthropic 一次性发布 Add-ins、跨会话的定期记忆回顾("Dreaming")、基于评分细则的 "Outcomes",以及主 Agent + 子 Agent 编排模型,配备共享文件系统与可审计 trace。
  • Mistral Medium 3.5 - 🆕 2026 年 4 月 29 日。Dense 128B 开放权重模型,256K 上下文,Modified MIT 许可。统一指令跟随、推理与代码能力。
  • Voxtral TTS - 🆕 2026 年 3 月 26 日。基于 Ministral 3B 的 4B 参数开放权重 TTS;多语种,专为语音 Agent 优化延迟。
  • Llama 5 - 🆕 2026 年 4 月 8 日。Meta 超级智能实验室发布的 600B+ 参数开源旗舰;"递归自我改进" 研究路线。官方宣称在推理、代码、自主 Agent 行为上超越主流闭源模型。
  • Meta Muse Spark - 🆕 2026 年 4 月 8-9 日。Meta 超级智能实验室首个公开模型;长上下文多模态底座。
  • Llama 4 Scout / Maverick - 2025 年 4 月发布的 MoE 旗舰系列,Scout 支持 1000 万 token 上下文;至今仍是许多企业栈的生产兜底模型。
  • MiniMax M2.7 - 🇨🇳 🆕 2026 年 3 月。自演化闭源 LLM,针对 Agent 框架搭建、记忆更新、工作流迭代优化;SWE-bench 类任务大幅提升。
  • MiniMax M2.5 - 🇨🇳 2026 年 2 月。230B 参数旗舰,主打 "真实世界生产力" 与高性价比。
  • Hailuo 02 - 🇨🇳 🆕 2026 年 3 月。原生 1080p 文/图生视频,训练语料显著扩充。
  • MiniMax Music 2.6 - 🇨🇳 🆕 2026 年 4 月。主打翻唱生成方向,低频还原显著改进;全球 beta。
  • Doubao 2.0 - 🇨🇳 🆕 2026 年 2 月。面向 Agent 时代的升级,专注真实任务执行;驱动字节跳动多款消费级 AI 应用。
  • Seedance 2.0 - 🇨🇳 🆕 2026 年 2 月。多模态电影级视频生成,2K 分辨率,比 Seedance 1.5 快约 30%。
  • Step 3.5 Flash - 🇨🇳 🆕 2026 年 2 月。约 196B 参数的紧凑推理 + Agent 模型;以小搏大,对标更大体量的中国厂商旗舰。
  • Baichuan-M3 Plus - 🇨🇳 🆕 2026 年 1 月。证据锚定的医疗 LLM,幻觉率显著降低;面向国内医疗机构提供免费 API。
  • Grok 4.3 GA - 🆕 2026 年 5 月。Grok 4.3 在 Microsoft Foundry 与 OCI Generative AI 上 GA;xAI 面向 Agent 工作负载的旗舰,工具调用与长链推理能力升级。

🎨 多模态与生成式 AI

生成与编辑图像、视频、音频、音乐的工具与模型。

图像生成

  • ChatGPT Images 2.0 - 🆕 2026-04。免费层。细节、文字理解、迭代编辑增强。
  • gpt-image-2 - 🆕 OpenAI 最新图像 API。支持 2K/4K 提示。OpenClaw v2026.4.21 默认。
  • DALL·E 3 - 集成在 ChatGPT 中迭代生成。
  • Midjourney V7 - 仍是艺术风格生成第一梯队。
  • Stable Diffusion 3.5 - 开源图像生成,连贯性与提示跟随增强。
  • Flux - 💤 Stale(2025-07 起无更新)。Black Forest Labs 开源模型。GitHub stars
  • Ideogram 3.0 - 文字渲染与设计向特别强。
  • Gemini 3 Pro Image - Gemini 内原生图像生成。
  • Recraft V3 - 设计师向专业图像生成。
  • Seedance 2.0 - 🇨🇳 🆕 字节下一代图像 / 动画生成 API。

视频生成

  • Kling VIDEO 3.0 - 🇨🇳 🆕 快手出品。真人动作 + 嘴型 + 音画同步,最长 15 秒。
  • Hailuo AI - 🇨🇳 🆕 MiniMax 出品。文生 / 图生视频 + AI 主播 + 配音 + 角色一致性。
  • Veo 2 - 🆕 Google DeepMind 高保真视频生成。
  • Runway Gen-4 - 🆕 专业视频生成与编辑,角色风格一致。
  • Pika 2.0 - 🆕 创意短视频,场景与特效控制。
  • LTX Studio - 🆕 AI 电影化视频创作平台。
  • Tianma (天马) AI - 🇨🇳 🆕 2026-04-27 公测。阿里图生视频。
  • Sora - ⚠️ 2026-04 关停。OpenAI 文生视频模型,因成本与战略关停。
  • Runway Agent - 🆕 2026-05-13。对话式 Agent,接过写好的脚本为你递交一段多镜头完成品视频:分镜脚本→生成→剪接→配音全路贯通,底层调用 Gen-4 / Gen-4 Turbo / Aleph 编辑。首个可用的「提示词到粗剪」产业级 Agent。

音频与音乐

  • ElevenLabs - AI 语音合成 + 克隆 + 对话 AI 头部。
  • Suno V4 - 🆕 文本到音乐,高保真人声 + 配器。
  • Udio - 🆕 商用级音乐生成。
  • OpenAI Audio Models - GPT-4o 内的原生音频理解 + 生成。
  • Stability Audio - 开源音频音乐生成。
  • Bark - 💤 Stale(2024-08 起无更新)。开源文本到音频。GitHub stars
  • Midjourney V8.1 - 🆕 2026 年 4 月 30 日。新增 2K 高清出图与新版 Raw 模式选项;V8(含 3D 生成)据传将于 2026 年晚些时候发布。
  • Flux 2 Pro / Flex / Dev / Klein - 🆕 2025 年 11 月。Black Forest Labs 的下一代家族;SOTA 画质、多参考一致性,文本渲染显著提升。
  • Recraft V4 - 🆕 2026 年 2 月 17 日。从零重构;提示准确度大幅改进;支持可编辑 SVG 矢量输出。
  • Nano Banana 2 (Gemini 3 Pro Image) - 🆕 Google 的透明背景友好图像模型;通过 OpenClaw image_generate 暴露使用。
  • Kling IMAGE 3.0 - 🇨🇳 🆕 2026 年 4 月 23 日。快手出品的院线级原生 4K 图像生成。
  • Sora 2 (via Runway) - 🆕 OpenAI 的 Sora 应用于 2026 年 4 月关停,但 Sora 2 Pro 已自 2026 年 4 月 7 日起集成进 Runway。
  • ElevenLabs Eleven v3 + ElevenAgents - 🆕 2026 年定位为 "互联网的音频层"——支持 70+ 语言、带情绪 Audio Tag 的 TTS,加上首个通过 AIUC-1 认证的 ElevenAgents 语音 Agent 平台,含多模态消息、会话主题发现、工具调用前的语音控制。
  • Cartesia Sonic 3 / 3.5 - 🆕 2026。基于状态空间模型的 TTS,首音延迟约 40-90ms;驱动 2026 年 4 月发布的 Line Agents 语音 Agent 平台。
  • Deepgram Nova-3 + Aura-2 + Flux Multilingual - 🆕 2026 年 4 月。45+ 语言的 STT,TTS 延迟低于 200ms,会话式 STT 支持通话中 10 种语言的实时切换。
  • MiniMax Music 2.6 - 🇨🇳 🆕 2026 年 4 月。主打翻唱生成方向,低频还原显著改进。
  • Voxtral TTS - 🆕 2026 年 3 月 26 日。Mistral 开放权重的 4B TTS,专为语音 Agent 的低延迟而生。

🔗 Agent 协议与标准

让 Agent 跨工具、跨框架互联互通的开放标准。

Model Context Protocol (MCP)

  • MCP Specification - 🆕 "AI 的 USB-C" —— Anthropic 主推、用于让 LLM 接入工具与数据源的开放协议。2025-12 捐赠给 Linux Foundation 旗下 Agentic AI Foundation。
  • MCP 2026-07 Release Candidate - 🆕 2026 年 5 月发布,正式版计划 7 月 28 日上线。MCP 下一大版升级候选版:无状态协议核心(可横向扩展、服务端更简单)、新增扩展机制、服务端渲染 UI 的 MCP Apps能力、Tasks 下沉为扩展、与 OAuth / OpenID Connect 对齐的授权强化。
  • MCP Servers - 官方参考 MCP 服务实现。GitHub stars
  • MCP TypeScript SDK - 官方 TypeScript SDK。GitHub stars
  • MCP Python SDK - 官方 Python SDK。GitHub stars
  • mcp.so - 🆕 社区 MCP 服务目录。
  • mcp-gateway - MCP 网关,统一路由 / 认证 / 限流。GitHub stars

Agent-to-Agent Protocol (A2A)

  • A2A Protocol - 🆕 Google 主导的 Agent 间通信开放标准。让不同框架的 Agent 互相发现、委派、协作。Linux Foundation 治理,2026 年已有 150+ 合作组织。GitHub stars
  • A2A Course (DeepLearning.AI) - 🆕 免费课程:用 A2A 构建多 Agent 系统。

其他标准


🏗️ Agent 框架

用来构建自主 AI Agent 的框架与库。

  • Koog 1.0 - 🆕 2026-05-28 · KotlinConf 2026。JetBrains 针对 Kotlin + Java 的开源 Agent 框架进入稳定 1.0,并带有一年的 API 稳定性保证。Kotlin Multiplatform 跨端部署(JVM / Android / iOS / JS / WASM)、Java 互操作无需包装模块、Android 本地 LiteRT、OpenTelemetry 跨端可观测、图状工作流、Spring Boot / Ktor 集成,提供商 OpenAI / Anthropic / Google / Bedrock 均原生支持。Apache-2.0。 GitHub stars
  • LangChain - 上下文感知推理应用的基础框架。GitHub stars
  • LangGraph - 把 Agent 建模为有状态、多 actor 协作的图。v0.3.19(2026-04-27):预制 Agent 拆出 langgraph-prebuilt —— Supervisor / Swarm / LangMem / Trustcall。Agent 工作流的生产级标准。GitHub stars
  • CrewAI - 角色扮演式 Agent 团队编排。GitHub stars
  • Microsoft Agent Framework - 🆕 AutoGen + Semantic Kernel 合并的统一框架。多 Agent + 企业能力。2026 Q1 GA。
  • AutoGen - 微软多 Agent 对话框架(已并入 Microsoft Agent Framework)。GitHub stars
  • Google Agent Development Kit (ADK) - 🆕 与 Gemini + Vertex AI 深度集成的模块化框架。层级 Agent 组合。GitHub stars
  • OpenAI Agents SDK - 🆕 2026-04-15 升级 —— 原生沙箱、MCP、子 Agent handoff、Codex 文件操作。生产级多 Agent。GitHub stars
  • MetaGPT - 🇨🇳 给 LLM 分配 SOP 软件团队角色(PM / 架构师 / 工程师)。GitHub stars
  • Mastra - 🆕 TypeScript 优先的 Agent 框架,工作流驱动 + 内置可观测性。GitHub stars
  • AgentGPT - 📦 Archived(2025-04)。浏览器中部署 Agent。第一波代表项目,仅作历史参考。GitHub stars
  • BabyAGI - 用 LLM 创建、排序、执行任务的 AI 任务管理。GitHub stars
  • SuperAGI - 💤 Stale(2025-01 起无更新)。开源自主 Agent 框架。GitHub stars
  • Semantic Kernel - 把 LLM 嵌入应用。C# / Python / Java。GitHub stars
  • Phidata (Agno) - 多模态 Agent + 记忆 + 知识 + 工具 + 推理。GitHub stars
  • DSPy - "编程而不是写 prompt" 的语言模型框架。GitHub stars
  • OpenClaw - 🆕 个人 AI Agent 平台:技能、记忆、多渠道消息、Dreaming(三阶段记忆巩固)、Canvas / A2UI、ACP 编程 harness 集成、Standing Orders。v2026.5.12(2026-05-14)支持 Opus 4.7、Kimi K2.6、/think xhigh,新增 native model identity 注入、隔离 Telegram polling worker、MEMORY.md 自动压缩、protected config paths。GitHub stars
  • Dify - 🇨🇳 开源 LLM 应用开发平台 + 可视化 Agent 构建。GitHub stars
  • Haystack Agents - 端到端 LLM 框架,Agent 流水线。GitHub stars
  • Vellum AI - 🆕 闭源 SaaS 生产级 Agent 框架:Prompt 构建 / 评测 / 版本 / 可观测性一体。
  • FastAgency - 🆕 高速推理 + 生产规模化框架。GitHub stars
  • Rasa - 强意图识别 + 对话管理的开源对话 AI。GitHub stars
  • Lindy - 🆕 商务用户向无代码 Agent,可视化工作流。
  • Octomind - 🆕 Rust 开源 AI Agent 运行时。多模型(13+),社区贡献的领域 Agent(开发 / 医疗 / 法律 / DevOps),支持 MCP 运行时自扩展。Apache 2.0。GitHub stars
  • Microsoft AI Agent Governance Toolkit - 🆕 2026-04-03。开源治理工具包,把运行时安全策略以策略即代码方式应用到 LangChain / AutoGen 等框架。
  • Bernstein - 🆕 Python 编排器,统一管理 40+ 个 CLI 编程 Agent(Claude Code、Codex、Gemini CLI、Cursor、Aider 等)。一次 LLM 计划调用后,调度、git worktree 隔离、质量闸门、HMAC 链式审计都是确定性的。Apache 2.0。GitHub stars
  • Genkit Middleware - 🆕 2026-05-14。Google 为开源 Genkit 框架增加中间件体系 —— 在 generate / model / tool 三层给出可组合 hooks:重试、模型降级、工具人工审批、SKILL.md 技能注入、限定范围的文件访问。先支持 TS / Go / Dart,Python 跟进中。
  • LlamaIndex ↔ Google Agents API 集成 - 🆕 2026-05-20。LlamaIndex 为 Google 刚发布的 Agents API 交付模板,在沙箱化 Linux 环境里暴露 LlamaParse / LiteParse 处理非结构化文档;同期上线的还有沙箱运行时 Sandboxed-Lit 与面向 Agent 的首个 OCR 评测集 ParseBench
  • Microsoft Agent 365 - 🆕 2026 年 5 月 1 日 GA。面向 AI Agent 的企业级可观测、治理与安全平台;2026 年 5 月更新加入面向 Agent 的 SASE、威胁检测/阻断与 Agent 威胁狩猎工作流。
  • Ontheia - 自托管开源 AI Agent 平台。多模型供应商(Claude / OpenAI / Gemini / Ollama),原生支持 MCP,Chain Engine 可视化工作流编排,长期记忆(pgvector),多用户 RBAC,架构层面合规 GDPR。AGPL-3.0。 GitHub stars

🛠️ Agent IDE 与可视化构建器

用来设计、调试、上线 Agent 工作流的可视化(或低代码)环境。

  • LangGraph Studio - LangGraph 的可视化调试器:步进状态、回放回合、中途改写消息。
  • Dify - 🇨🇳 拖拽式 Agent 工作流构建。生产级使用最广。GitHub stars
  • Agenta - 🆕 一体化 LLMOps:prompt playground + 管理 + 评测 + 可观测性。GitHub stars
  • Vellum AI - 闭源 SaaS。
  • Cozeloop - 🇨🇳 🆕 字节 Coze 团队开源的 Agent 优化平台。Apache 2.0。GitHub stars
  • Restack - 持久化 Agent 运行时 + 可视化编辑(Temporal 风格 replay)。开源示例:restackio/examples-python
  • Bisheng - 🇨🇳 企业级开源 LLM DevOps:工作流 / RAG / Agent / 微调 / 数据集 / 评测 / 可观测性。Apache 2.0。GitHub stars
  • n8n - 通用工作流自动化,2026 年常被当作 Agent 画布用。400+ 集成 + 原生 AI 节点。Fair-code。GitHub stars
  • Mastra - 🆕 强约束风格的 TypeScript Agent 框架,自带 RAG、可观测性、MCP 与可视化工作流构建器;21K+ stars。 GitHub stars
  • VoltAgent - 🆕 端到端 TypeScript AI Agent 工程平台,覆盖记忆、RAG、guardrail、MCP、语音与工作流。 GitHub stars

🧠 Agent 记忆

让 Agent 拥有持久记忆与上下文管理的系统。

  • Letta (MemGPT) - 长期记忆 + 自定义工具的 LLM 服务。GitHub stars
  • Mem0 - LLM 应用的自我提升记忆层。GitHub stars
  • Zep - AI 助理与 Agent 的长期记忆。GitHub stars
  • agent-memory - 跨会话上下文持久化的轻量 Agent 记忆框架。GitHub stars
  • LangMem - LangChain Agent 的长期记忆库。GitHub stars
  • Motorhead - 💤 Stale(2025-07 起无更新)。LLM 的记忆 + 上下文管理服务。GitHub stars
  • ChromaDB - AI 原生开源向量数据库。GitHub stars
  • Cognee - 用图 + LLM + 向量检索得到确定性输出。GitHub stars
  • LangGraph Memory - 🆕 LangGraph 内置的持久化与 checkpoint。GitHub stars
  • Graphiti - 🆕 时序感知的知识图记忆。GitHub stars
  • Claude Managed Agents Memory - 🆕 2026-04-23 公测。把读写记忆挂载到 Agent 文件系统,实现跨会话学习。
  • Mem0g (graph variant) - 🆕 Mem0 的图增强姊妹版,擅长多跳问答;截至 2026 年初已有 21+ 框架集成。
  • Claude Managed Agents Memory - 🆕 2026 年 4 月 23 日 公测。Anthropic 托管 Agent 运行时内置的跨会话持久记忆能力。

🔌 工具与 API 集成

让 Agent 接入外部服务与 API 的协议与工具。

  • Model Context Protocol (MCP) - 工具调用的事实标准。GitHub stars
  • mcp-gateway - MCP 网关。GitHub stars
  • Composio - 150+ 工具 + 托管认证一体化 Agent 集成平台。GitHub stars
  • Toolhouse - AI 工具云:存储、管理、执行工具。
  • LangChain Tools - LangChain 生态广泛的工具集成。GitHub stars
  • Arcade AI - AI Agent 工具调用平台。GitHub stars
  • E2B - AI Agent 的开源云沙箱。GitHub stars
  • Browser Use - 让 AI Agent 操控浏览器。GitHub stars
  • Firecrawl - 🆕 把网站变成 LLM-ready 数据。GitHub stars
  • Crawl4AI - 🆕 LLM 友好的开源爬虫。GitHub stars
  • Stagehand - 🆕 Browserbase 出品的 AI 浏览器自动化。GitHub stars
  • AgentQL - 🆕 用语义化查询语言操控网页。
  • StackOne - 🆕 HR / CRM / ATS 统一 API。
  • The Colony - ⚠️ Unverified。自称 Agent 间社交网络 + REST API + Python / TS / Go SDK + MCP server。组织与 SDK 仓库均 <30 天,0~2 star,单维护者;同款 PR 投了 15+ 个 awesome 列表。仅作可见性收录,使用前请自行评估。GitHub stars
  • AWS MCP Server - 🆕 2026 年 5 月 6 日 GA。AWS 官方托管的 MCP 服务器,让编码 Agent 安全可审计地调用任意 AWS API;多步操作可在沙箱化 Python 环境中执行,用 agent skills 取代传统 "agent SOP"。AWS 第一方出品。
  • Google Workspace MCP Server - 🆕 2026 年 5 月 1 日起逐步上线。Workspace 原生 MCP 服务器,将 Gmail / Drive / Calendar / Docs / Sheets 暴露给 MCP 客户端,OAuth 范围由管理员控制并带审计日志。
  • iManage MCP Server - 🆕 2026 年 5 月 14 日。iManage 知识工作平台的原生 MCP 入口,任何 AI 客户端无需定制即可安全读写 iManage 文档。首家面向公众的法律/专业服务 SaaS MCP server。
  • Power Platform Canvas Authoring MCP Server - 🆕 2026 年 5 月 14 日。Microsoft Power Platform 将 Canvas Apps 的 authoring 能力暴露为 MCP 服务器,Copilot / Claude Code 可通过自然语言驱动 InfoPath → Canvas Apps 迁移。

🧪 Agent 沙箱与计算隔离

让 Agent 安全执行生成代码 / shell 命令的隔离运行时。一旦让 Agent 自由活动,这是必备基础设施。

  • E2B - AI 生成代码的开源云沙箱。OpenAI Agents SDK 默认执行层。GitHub stars
  • Daytona - 🆕 弹性、安全的 AI 生成代码运行基础设施。每个 Agent 任务一个隔离的开发环境。AGPL-3.0。GitHub stars
  • Modal - 流行的 Agent 计算 + GPU 任务 + Python 沙箱 Serverless 平台。modal-client 是官方 SDK。GitHub stars
  • Microsandbox - 🆕 本地、可编程的 microVM 沙箱。隐私优先,本机执行,不依赖云。GitHub stars
  • SandboxFusion - 🇨🇳 字节多语言代码执行沙箱,面向 Agent / 模型评测流水线。Apache 2.0。GitHub stars
  • Northflank - 通用容器 PaaS,常被用作 Agent 运行时(每任务临时环境 + GPU 池)。
  • Firecracker - E2B / Daytona / 多数 Agent 沙箱底层的 microVM 内核。自建沙箱时是基础原语。GitHub stars

🛡️ Agent 安全

抵御 prompt 注入、数据泄漏、滥用的工具与框架。

  • prompt-firewall - LLM prompt 防火墙:检测 + 拦截注入。GitHub stars
  • LLM Guard - LLM 输入输出扫描安全工具包。GitHub stars
  • Rebuff - 📦 Archived(2024-08)。自我加固 prompt 注入检测器。GitHub stars
  • Guardrails AI - LLM 输出验证与纠正。GitHub stars
  • NeMo Guardrails - 给 LLM 对话系统加可编程护栏的工具包。GitHub stars
  • Vigil - 💤 Stale(2024-01 起无更新)。LLM 安全扫描器。GitHub stars
  • Lakera Guard - 企业级 AI 安全平台。
  • Garak - NVIDIA 出品的 LLM 漏洞扫描器。GitHub stars
  • Invariant Guardrails - 🆕 Agent 运行时策略执行 + 安全检查。GitHub stars
  • Prompt Armor - 🆕 企业级 prompt 注入实时检测。
  • Descope MCP Auth - 🆕 MCP 服务的认证与授权层。
  • AgentDojo - 🆕 ETH 苏黎世评测工具调用 Agent 的 prompt 注入攻防的研究基准。GitHub stars
  • ModelScan - 扫描 ML 模型权重文件(Pickle / PyTorch / TF)的反序列化攻击。GitHub stars
  • PyRIT - 微软自动化红队框架。GitHub stars
  • RAMPART - 🆕 2026 年 5 月 20 日。Microsoft 出品的 pytest 原生、面向 Agentic AI 的安全/可靠性测试框架。开发者侧白盒,与 PyRIT 互补——跨提示注入探针、良性失败断言、危害类别覆盖、统计阈值(如 80%+ 的运行需达到安全标准)。可直接接入 CI/CD。MIT。 GitHub stars
  • Clarity (Microsoft) - 🆕 2026 年 5 月 20 日。RAMPART 的姊妹工具。AI Agent 的结构化设计评审工具——在写代码前生成关于意图、风险与行为的 "living artifacts"。Microsoft AI Red Team 的内部实践开源版。
  • Nobulex - ⚠️ 未验证。 AI Agent 行为的密码学回执(Ed25519 双签名 + 哈希链审计日志)。MIT。其双向回执原语已 合并 进 Microsoft Agent Governance Toolkit(PR #1302、#1333)。同一份投稿同期发往 15+ awesome list;提交者宣称的 "4,500 npm 月下载" 与 registry 实际数据不符(@nobulex/mcp-server 审计时仅约 19/月)。基于 Microsoft 的采用列入,仅作可见度参考,依赖前请自行评估。 GitHub stars

🔍 RAG 与知识库

Agent 的检索增强生成与知识管理系统。

  • LlamaIndex - LLM 应用的数据框架:摄取 / 结构化 / 访问私有数据。GitHub stars
  • LangChain Retrievers - LangChain 的检索器与文档加载器集合。GitHub stars
  • Haystack - 端到端 RAG。GitHub stars
  • Unstructured - 文档预处理与提取。GitHub stars
  • Weaviate - 开源向量数据库。GitHub stars
  • Qdrant - Rust 实现的高性能向量搜索。GitHub stars
  • Milvus - 大规模向量数据库。GitHub stars
  • Pinecone - 托管向量数据库 SaaS。
  • Chroma - AI 原生开源向量数据库。GitHub stars
  • Vanna - 📦 Archived(2026-02)。RAG-for-SQL:自然语言对话数据库。GitHub stars
  • LightRAG - 🇨🇳 港大 HKUDS 的图式 RAG。GitHub stars
  • Docling - IBM 文档转换工具,PDF / DOCX / HTML 等。GitHub stars
  • Kotaemon - 开源 RAG UI。GitHub stars
  • R2R - 端到端 RAG 服务,企业级。GitHub stars
  • RAGFlow - 🇨🇳 深度文档理解 RAG。GitHub stars
  • Morphik - 🆕 面向包含表格、图表的多模态文档的 RAG 引擎;2026 年快速崛起,是处理复杂 PDF 的 LlamaIndex 替代方案。 GitHub stars
  • Cognee - 🆕 在 Agent 摄取文档过程中实时构建知识图谱的记忆 + 推理引擎;2026 年长时研究型 Agent 栈的热门选择。 GitHub stars

💻 编程 Agent

终端 / CLI Agent

  • Claude Code - 直接在终端里运行的 Agent 编程工具。Opus 4.7 + /think xhigh。SWE-bench 80.9%。
  • Codex CLI - OpenAI 出品,开源终端编程 Agent。GitHub stars
  • Aider - Git-aware 终端 AI 编程伙伴。GitHub stars
  • Goose - Block 出品的开源 Agent 编程 CLI。GitHub stars

IDE Agent

  • Cursor 3.09 - 🆕 2026-04-03 更新。Agent 模式增强,支持 Vibe Coding。
  • Kilo Code - 🇨🇳 🆕 2026-04 中文社区流行的 Cursor 替代。默认 MiniMax 模型。
  • Cursor - 2026-02 更新支持 8 个并行 Agent。
  • Windsurf - Codeium 的 Agent 化 IDE。
  • Cline - VS Code 自主编程 Agent。GitHub stars
  • Continue - 开源 AI 编程助手(VS Code + JetBrains)。GitHub stars
  • GitHub Copilot - 2026 初支持 Agent 模式,gh copilot 终端集成。
  • Kiro - AWS 自主 Agent。Spec-driven,最多 10 个并发任务。
  • Amazon Q Developer - AWS 生态深度集成。
  • Visual Studio 2026 Agent Mode + Skills - 🆕 VS 2026 Insiders 2026-05-12 – 15。Copilot Chat "Agent Mode" 现在能在 Visual Studio 2026 里发现、管理、创建可复用的 Copilot Skill,能看到整个解决方案的上下文,还能执行终端命令与调用外部工具。

自主软件工程师

  • Cursor 3.4 云 Agent 环境 - 🆕 2026-05-13。为云上 Agent / 自动化提供多仓库环境、带 build secrets 的 Dockerfile 配置、快 70% 的镜像层缓存、每个环境独立的版本历史 + 回滚、审计日志、限定范围的出网 / secrets。
  • Devin 3.0 - 🆕 Cognition。动态重新规划、自愈代码、遗留代码迁移。多模态输入(UI 截图、视频)。
  • OpenHands - 自托管的开源 Agent 软件开发平台。GitHub stars
  • SWE-agent - 把 LLM 变成能修复 GitHub issue 的工程师。GitHub stars
  • Devika - 💤 Stale(2025-09 起无更新)。开源 Devin 替代。GitHub stars
  • GPT Engineer - 📦 Archived(2025-05)。第一波自主编程项目,仅作历史参考。GitHub stars
  • Codegen - 🆕 程序化代码操作 + 跨文件重构 SDK。GitHub stars
  • Qodo - 🆕 AI 代码评审平台:质量 + 安全 + 测试生成。
  • Codex Security - 🆕 2026 年 3 月。应用安全 Agent,负责发现并修复软件漏洞;OSS 维护者可通过 Codex-for-OSS 计划使用。
  • Gemini CLI - 🆕 Google 的终端优先编码 Agent,擅长大上下文重构。 GitHub stars
  • Grok Build - 🆕 2026 年 5 月 14 日(早期 beta)。xAI 的 Agent 化 CLI 编码工具,由 grok-code-fast-1 驱动。子 Agent 并行运行于隔离环境,每日发布 release notes,仅 SuperGrok Heavy 订阅可用(首 6 个月每月 99 美元,之后 300 美元)。xAI 对 Claude Code / Codex CLI 的正面回应。
  • Antigravity CLI - 🆕 2026 年 5 月 19 日(Google I/O 2026)。Antigravity 2.0 的轻量 CLI 伴侣——直接从终端创建并使用 Google 的 Agent harness。支持 macOS / Linux / Windows。
  • Roo Code - 🆕 开源 VS Code 扩展,跨多文件读写、执行命令,model-agnostic;除自带 API 外免费。
  • Void - 🆕 VS Code 的开源 fork,定位为开源版 Cursor;数据留在本地,自带模型。 GitHub stars
  • JetBrains Rider AI Test-Writing Skill - 🆕 2026 年 5 月 22 日。JetBrains Rider 新增的 AI Assistant skill,把 .NET 代码覆盖率数据喂给 Claude Code / Codex,让 Agent 聚焦未覆盖分支,降低测试生成的 AI 成本。
  • Devin 2.2 - 🆕 2026 年 2 月。沙箱化 terminal + editor + browser;商业化产品(Core 20 美元/月,Team 500 美元/月)。
  • Google Antigravity 2.0 - 🆕 2026 年 5 月 19 日(Google I/O 2026)。独立桌面应用(macOS / Linux / Windows),可并行编排多个 Agent。新增 cron 化的定时任务、长跑异步任务、动态子 Agent,以及与 AI Studio / Android / Firebase 的集成。配套的 Antigravity SDK 支持自部署 harness;企业版集成进 Gemini Enterprise Agent Platform。

🤖 Physical AI / 具身智能

能感知、推理、在物理世界中行动的 AI —— 人形机器人、工厂自动化、Physical AI 基础设施。继语言 Agent 之后的下一波。

基础模型与研究

人形机器人

  • Tesla Optimus Gen3 - 🆕 2026 夏季量产。
  • Figure 04 - 🆕 2026-05-13。Brett Adcock 宕告 Figure 04 设计定型,零部件已开始交付,使用 Helix VLA 型号。
  • Helix 02 包裹分拧 72h 运行 - 🆕 2026-05-13 – 16。Figure F.03 机器人队靠 Helix 02 完全自主在包裹分拧线上运行:首天 8 小时 ~22K 包裹,24 小时 ↑到 ~30K,压力测试下约 72 小时 ~88K 包裹后出现机械故障。首份公开的家用型人形机器人连续作业证据。
  • Figure F.03 vs 人类 8 小时分拧挑战 - 🆕 2026-05-18。Figure 首场公开的人机对决:在同一条分拧线上,人类员工以 12,924 件(2.79 秒 / 件)势均微赢 F.03 机器人的 12,732 件(2.83 秒 / 件)。这是到目前为止公开资料中人与机器在实际产业任务上最贴近的一次。
  • Boston Dynamics Atlas 100 磅操作 + 现代集团 25K 刷屏计划 - 🆕 2026-05-18 / 19。Boston Dynamics 发布视频与技术博文,展示 Atlas 通过强化学习 + 大规模仿真能举起并携带 超 100 磅负荷(冰箱 / 洗衣机),全身控制能适应重量转移,不依赖逐件识别。现代汽车集团承诺从 2028 年起在 Hyundai/Kia 工厂部署 25,000+ 台 Atlas
  • Unitree G1 进驻 JAL 羽田机场 - 🆕 2026-05。日本航空在羽田启动地面运作试点(行李装卸 / 集装箱运输 / 机舱清洁),官方定义为 全球首家在运营航空业务中录用双足机器人的航司。同一周美国国会推动将 Unitree 列入实体清单,embodied AI 供应链加速地缘政治化。
  • Honour (荣耀) Humanoid - 🇨🇳 🆕 2026 年人形半马世界纪录。
  • Zhiyuan (智元) AGIBOT - 🇨🇳 🆕 2026-04 新本体 + 基模 + 解决方案。把 2026 称为 "Deployment Year Zero"。
  • Unitree H 系列 - 🇨🇳 国产 Boston Dynamics 对手,2026 持续迭代。
  • Agile Robotics - 🆕 Gemini Robotics ER-1.6 部署伙伴。德国机器人公司。
  • Shenzhen Humanoid Pilot Line - 🇨🇳 🆕 2026-04-12 首条人形机器人中试线(深圳乐聚 + 东方精工)。2 小时一台,年 500~1000 台。佛山 1 万台 / 年大规模工厂同步规划中。

消费级机器人 / 可穿戴

自动驾驶

  • Tesla FSD v13 - L4 部署扩展。
  • Waymo - 美国多城市 L4 商业化推进。
  • WeRide / Pony.ai / Baidu Apollo - 🇨🇳 中国 L4 车队扩区。
  • Tesla Optimus Gen3 (V3) - 🆕 AWE 2026 上海首秀。首款量产 Optimus;Fremont 产线 2026 年 1 月启动,初期目标 5-10 万台/年,初始售价约 3 万美元,2026 年底开放小批量外部销售。37 关节,1.2 m/s 步速,22 自由度手部。
  • Figure 03 (Helix AI) - 🆕 2025 年末发布,2026 年量产爬坡。Figure 首款专为家用设计的型号:柔性纺织外壳、无线充电、触觉传感。2026 年 5 月演示:两台 F.03 仅靠视觉协作,2 分钟内自主完成清扫房间和铺床。
  • Figure 02 + Helix 02 - 🆕 2026 年 1 月。Helix 02 扩展了全身自主能力(装卸洗碗机、叠衣服);BotQ 工厂额定年产能 1.2 万台。
  • Unitree G1 + H1-2 - 🆕 CES 2026。G1 跳舞 / 拳击 / 滑冰演示,2 月放出自主功夫展示;5'8" 的 H1-2 工业版可达 7.4 mph。宇树 2026 年人形出货目标 2 万台。
  • Unitree R1 Air - 🆕 消费级人形机器人,售价 4,900 美元——能跑、翻滚、倒立行走。
  • Unitree Gen 2 (lifelike skin) - 🆕 拟真人造皮肤,内嵌压力 / 温度 / 触觉传感器。
  • Unitree GD01 - 🆕 2026 年 5 月。接近 10 英尺的载人机甲;驾驶员操控,可在双足与四足模式切换。售价人民币 390 万元起(约 65 万美元)。预示具身 Agent 栈开始向操作员驾驶形态分叉。

🎮 Agent 仿真与世界模型

Agent 在仿真世界中训练、观察、应力测试的研究环境。世界模型 / 具身研究渗透到语言 Agent 设计中后越来越重要。

  • Generative Agents - 💤 斯坦福经典 Smallville(Park et al., 2023)。25 个 LLM 角色 + 记忆 + 反思 + 计划。后续多 Agent 论文几乎都借鉴此实现。GitHub stars
  • Voyager - 💤 Minecraft 终生学习 Agent —— GPT-4 + skill library + curriculum(Wang et al., 2023)。开放式 Agent 评测的经典。GitHub stars
  • SWE-Gym - 用真实 GitHub issue 训练 SWE Agent 的开放环境,SWE-bench 配套。GitHub stars
  • WebArena - 真实可复现的 Web 环境(Reddit / 购物 / GitLab 克隆),OSWorld 与多数浏览器 Agent 论文使用。
  • WorkArena - ServiceNow 出品的企业工作场景 Web Agent 基准。GitHub stars
  • Genie 3 / Genie 4 - Google DeepMind 可玩 3D 世界模型,从 prompt 生成。闭源研究。
  • NVIDIA Cosmos - 具身 AI / 机器人的世界模型基础,生成物理合理的视频未来。GitHub stars

📊 评测与 Leaderboard

跟踪前沿 AI 能力的标准评测套件与实时榜单。

  • BenchLM - 🆕 多家基准聚合榜单。2026-04 榜首:Claude Mythos 99,Gemini 3.1 Pro / GPT-5.4 并列 94,Claude Opus 4.6 / GPT-5.4 Pro 92,GLM-5 Reasoning 85(开源最高)。
  • SWE-bench Verified - 真实 GitHub issue 修复基准。2026-04 榜首:Claude Mythos 93.9%,Claude Opus 4.7 87.6%。
  • GPQA Diamond - 💤 数据集仓 2024-09 起无更新。专家级科学推理。2026-04 榜首:Gemini 3.1 Pro 94.3%(世界纪录)、Claude Opus 4.7 94.2%。
  • ARC-AGI 2 - 抽象推理。Gemini 3.1 Pro 77.1%。
  • OSWorld - 桌面 GUI 操作。GPT-5.4 75%(超过人类基线)。
  • LMArena(前 Chatbot Arena) - 众包对话偏好。Opus 4.6 当前领先。
  • MMLU-Pro - MMLU 加难版。GitHub stars
  • LiveCodeBench - 持续更新的竞赛风编程基准。
  • AIME 2025 / Humanity's Last Exam (HLE) - 数学 / 博士级综合推理。
  • Terminal-Bench - CLI Agent 评测。Codex CLI 77.3%。
  • Wolfram LLM Benchmarking Project - 英文规格 → Wolfram Language 代码生成。
  • GDPval / GDPval-MM - 🆕 2026 年 2 月。OpenAI 推出的经济价值 benchmark,覆盖 44 个职业 / 9 个行业,含 1,320 个专家构建任务。2026 年 5 月榜首:GPT-5.5 在 GDPval-MM 上 84.9%。
  • Hieroglyphic Benchmark - 🆕 横向 / 抽象推理 benchmark;Gemini 3.5 "Snowbunny" 80%(泄露版)。
  • LLM-Stats Live Leaderboard - 🆕 实时更新的跨 benchmark 模型对比看板。

🖥️ Computer Use / 桌面 Agent

能看屏幕、控鼠键、自动操作 OS 级软件的 Agent。纯浏览器 Agent 见 🌐 浏览器与 Web Agent

  • Claude Computer Use - 🆕 Anthropic "Desktop Intelligence",看屏幕 + 用鼠标键盘。
  • OpenAI Operator - 🆕 浏览器 Agent,订票、填表、网页任务。
  • Google Project Mariner - 📦 已关闭(2026-05-04)。浏览器 Agent 研究项目,能力已合入 Gemini Agent。
  • Microsoft Copilot Agents - 🆕 Microsoft 365 上的自主后台 Agent。
  • Open Interpreter - 让 LLM 在本地跑代码的自然语言接口。GitHub stars
  • Manus AI - 🇨🇳 🆕 通用自主 Agent,云本地混合,研究 / 编程 / 复杂任务。
  • Genspark - 🆕 mixture-of-agents 全能工作 Agent,能打电话。
  • Perplexity Computer - 🆕 多模型编排 + 本地文件访问,研究向。
  • Beam AI - 🆕 自学习桌面 Agent。
  • ChatGPT Workspace Agents - 🆕 研究预览 2026-04-22,2026-05-06 走积分计费,2026-05-07 支持 EKM。OpenAI 为企业推出的 Custom GPTs 后继 —— 云端 Agent,能访问文件、执行代码、原生接 Slack / Google Drive / Salesforce,可调度周期任务;Business / Enterprise / Edu / Teachers 可用,底层走 Codex。

🌐 浏览器与 Web Agent

真实浏览器中工作的 Agent —— 导航、点击、抓取、跨页流程。

  • Browser Use - 2026 年开源浏览器 Agent 事实标准。92K star。GitHub stars
  • Stagehand - Browserbase 出品的"浏览器 Agent SDK":类型化 act / extract / observe,跑在 Playwright 上。MIT。GitHub stars
  • Steel Browser - 🆕 AI Agent 专用开源浏览器 API:自带 session 持久化 + 代理轮换。Apache 2.0。GitHub stars
  • Skyvern - 用 LLM + 视觉自动化网页流程。AGPL-3.0。GitHub stars
  • AgentQL - 查询语言 + Playwright 集成。动态 / 杂乱页面健壮。GitHub stars
  • Hyperbrowser MCP - 🆕 托管无头浏览器 + 标准 MCP 工具接入 Claude / GPT / LangChain。GitHub stars
  • Playwright MCP - 🆕 微软官方 Playwright MCP server。生产级即插即用。GitHub stars
  • MultiOn - 托管浏览器 Agent,原生 Reasoning + Memory。闭源。
  • Browserbase - AI Agent 专用浏览器云:隐身、持久化、验证码、可观测性。

🗣️ 语音与多模态 Agent

  • ElevenLabs - AI 语音合成 + 对话 Agent。
  • Vapi - 语音 AI Agent 平台。GitHub stars
  • Retell AI - 生产级对话语音 AI。
  • Bland AI - 企业级 AI 电话平台。
  • LiveKit Agents - 实时多模态 Agent(语音 + 视频 + 数据)。GitHub stars
  • Pipecat - 开源语音多模态对话框架。GitHub stars
  • Vocode - 💤 Stale(2024-11 起无更新)。GitHub stars
  • Bolna - 端到端开源语音 AI。GitHub stars
  • Cartesia - 🆕 实时低延迟语音 AI。
  • Meta Voice AI - 🆕 收购 PlayHT/Play.ai 后的 Meta 语音技术。原 Play.ai 平台 2025-12-31 关停。
  • Sesame - 🆕 情绪感知 + 自然对话的语音 AI 伙伴。
  • OpenYabby - 🆕 开源 macOS 语音驱动多 Agent 编排器 — Realtime API + CLI 子进程 + 多通道协调。主 Agent 规划任务并委派给子 Agent 进行评审和 QA。MIT。GitHub stars
  • ElevenAgents - 🆕 ElevenLabs 全栈语音 Agent 平台(2026 年 4-5 月更新):支持 MCP、多模态消息、会话主题发现、知识库检索、工具调用前的语音控制。首个获 AIUC-1 认证的语音 Agent 平台。
  • Cartesia Line - 🆕 2026 年 4 月。基于 Sonic 3 TTS + Ink STT 的代码优先语音 Agent 平台;首音延迟约 40-90ms。
  • Deepgram Voice Agent API - 🆕 单一端点打包 STT(Nova-3)+ LLM 路由 + TTS(Aura-2)+ Flux 会话式 STT,支持通话中 10 种语言切换。
  • OpenAI Realtime API (GPT-Realtime-2) - 🆕 2026 年 5 月 8 日。GPT-5 级推理能力的语音版,支持并行工具调用;生产级语音 Agent 取代上一代 Realtime 模型。

📱 个人 AI Agent

  • OpenClaw - 🆕 多渠道、本地运行的个人 AI Agent 平台。GitHub stars
  • Rabbit R1 - 大动作模型驱动的硬件 AI 助理。
  • Limitless - 个性化 AI(前 Rewind)。
  • Open Interpreter - 自然语言计算机接口。GitHub stars
  • 01 Light - 💤 Stale(2024-11 起无更新)。开源语音电脑接口。GitHub stars
  • Leon - 自托管开源个人助理。GitHub stars
  • Khoj - 你的笔记 / 文档 / 图片的"第二大脑"AI。GitHub stars
  • Humane AI Pin - 无屏幕环境计算的可穿戴 AI。
  • Arahi AI - 🆕 个人生产力 + 业务自动化助理。
  • Lindy AI - 🆕 邮件 / 日历 / 工作流的无代码 Agent。
  • MuleRun - 🆕 周期任务的常驻 Agent。
  • Gemini Intelligence - 🆕 2026 年 5 月 12 日(Android Show: I/O Edition)。主动式 Agent AI 能力贯穿 Googlebooks 笔电、Wear OS、Android Auto、Android XR,首发于最新 Samsung Galaxy + Pixel。可基于购物清单自动生成购物车、预订单车课程,以及通过 Rambler STT 移除口头禅。
  • Gemini Spark - 🆕 2026 年 5 月 14 日(I/O 前的爆料 / 洞察)。Gemini 应用内即将上线的品牌化 Agent 能力,可自主跑完多步流程;构建在 Gemini 3.1 Pro 推理栈之上。
  • QwenPaw - 🆕 🇨🇳 2026 年 5 月由 CoPaw 改名。Qwen / AgentScope 生态下可自托管的个人助手。本地优先记忆、热加载 skills、多 Agent 协作、多通道(钉钉 / 飞书 / 微信 / Discord / Telegram),自带工具守卫和 skill 扫描器。Apache-2.0。 GitHub stars

📱 手机 Agent

操控 Android / iOS 的 GUI Agent —— 桌面 Computer Use 之后的下一前沿。

  • Mobile-Agent - 🇨🇳 阿里多模态手机控制 Agent 家族(v1 → v3 + Mobile-Agent-E / V)。Android 基准 SOTA。GitHub stars
  • AppAgent - 💤 腾讯多模态智能体,通过点 / 滑操作 App。早期影响力实现。GitHub stars
  • Apple Intelligence - iOS / iPadOS / macOS 端侧 Agent 层。App Intents + 屏幕感知动作。
  • Samsung Galaxy AI / Bixby 2.0 - Galaxy S26 端侧 Gauss。
  • Google Gemini for Android - 全面替换 Google Assistant,包括系统意图与 Workspace。
  • Magma - 微软研究多模态 Agent 基座,统一 UI / 机器人 / 物理动作。

🏢 企业级 Agent 平台

  • Salesforce Agentforce - CRM 自主 Agent —— 销售 / 客服 / 营销。
  • Microsoft Copilot Studio - 企业 Copilot 与 Agent 构建。
  • Gemini Enterprise Agent Platform - 🆕 2026-04-22(Google Cloud Next '26)。Vertex AI 进化为统一企业 Agent 中心。Gemini 3.1 Pro/Flash + Lyria 3 + 第三方模型(Claude Opus / Sonnet / Haiku)。
  • Google Vertex AI Agent Builder - 企业生成式 AI Agent 构建。
  • Amazon Bedrock Agents - 多步任务 Agent。
  • ServiceNow AI Agents - 🆕 ITSM Agent + AI Control Tower。
  • IBM watsonx Orchestrate - 跨企业应用的 AI 助理平台。
  • Oracle AI Agents - 🆕 与 Oracle Fusion Cloud ERP 集成。
  • Moveworks - 跨系统企业 copilot。
  • UiPath Agentic Automation - 🆕 在 RPA 之上叠加 Agent 推理。
  • AgentX - 🆕 即插即用的企业 Agent 自动化。
  • OutSystems - 🆕 关键应用快速构建 + Agent 治理。
  • Sema4.ai - 🆕 Python 优先 + 内置治理的企业 Agent 平台。
  • SAP Business AI Platform + Joule Studio 2.0 - 🆕 SAP Sapphire 2026(2026-05-11 – 13)。SAP 把 BTP + Business Data Cloud + Business AI 合并为一个平台,重新定位 Joule 为 Agent 操作层。Joule Studio 2.0(2026-06 起陆续到达客户)可以用 LangGraph / AutoGen 类框架底座着 SAP 的实时业务数据构建 Agent;Autonomous Suite 带来 50+ 领域 Joule Assistant 与 200+ Agent。
  • Microsoft Agent 365 + Microsoft 365 E7 - 🆕 2026-05-01 GA,5 月持续补充。以身份为中心的 AI Agent 控制面:独立 $15/用户/月,或 $99/用户/月随新推的 Microsoft 365 E7 "Frontier" 套套;5 月补丁加上了 AWS Bedrock + Google Cloud 注册表同步、Intune / Defender 预览策略,以及 Agent 专用 SASE。
  • OpenAI Guaranteed Capacity(算力年发) - 🆕 2026-05-19。面向企业 AI 产品 / Agent / Workflow 的长期算力预订产品(可选 1/2/3 年期,期限越长折扣越高)—— 面向 GPT-5.5 级 Agent 的企业部署降低成本 / 产能不确定性,OpenAI 对 Anthropic Priority Tier 的产品化回应。
  • Bristol Myers Squibb ↔ Claude Enterprise - 🆕 2026-05-20。BMS 将 Claude Enterprise 作为 30,000+ 员工的共享智能平台,嵌入药物发现 / 开发 / 交付的全链路。全球前 5 大药企中首个全公司级 Claude 部署。
  • Kore.ai Artemis Agent Platform - 🆕 2026 年 5 月 22 日(Azure 上线)。AI 原生的企业级 Agent 平台,核心是新的 YAML 风格 Agent Blueprint Language (ABL),用于声明式多 Agent 工作流。Kore.ai 对 Copilot Studio 与 Agentforce 的结构性挑战。
  • FPT Flezi Foundry™ - 🆕 2026 年 5 月 22 日。AI 增强的交付平台,两种受治理的 Service-as-a-Software 模式——Agentic Development Lifecycle (ADLC) 覆盖完整 SDLC 的 Agent 团队,以及 Agentic Managed Services (AMS) 把事故处置 Agent 叠加在现有 ITOps 之上。

📊 Agent 评估与可观测性

  • LangSmith - LangChain 的官方调试 / 评测 / 监控平台。
  • LangSmith SDK - 客户端 SDK。GitHub stars
  • Langfuse - 开源 LLM 工程平台:可观测性 + 评测 + prompt 管理。GitHub stars
  • Helicone - 开源 LLM 可观测性。GitHub stars
  • Arize Phoenix - 开源 LLM 可观测性 + 评测。GitHub stars
  • Braintrust - LLM 评测 + 优化平台。
  • LMArena (formerly LMSYS Chatbot Arena) - 🆕 众包 LLM 偏好投票。
  • Patronus AI - 🆕 自动 LLM 评测 + 红队。
  • DeepEval - Pytest 风格的 LLM 评测框架,14+ 内置指标。Apache 2.0。GitHub stars
  • Agenta - 🆕 一体化开源 LLMOps。GitHub stars
  • AutoEvals - 独立的最佳实践评测器库(事实性 / JSON 有效性 / 语义相似度等)。Braintrust 出品。GitHub stars
  • BenchClaw - ⚠️ Unverified。自称多维度 Agent 评测。8 个 awesome 列表 7 个拒收,2 star 单维护者。仅作可见性收录GitHub stars
  • PromptEden - ⚠️ Unverified。商业 SaaS:监控 ChatGPT / Claude / Gemini / Perplexity / Copilot / Grok 如何描述你的品牌。同款 PR 同日投了 10 个 awesome 列表。仅作可见性收录
  • AgentBench - 评估 LLM 作为 Agent 表现的多维 benchmark。 GitHub stars
  • Braintrust - 企业级 AI 产品构建栈——评估、提示词 playground、日志一体化。 GitHub stars
  • OpenLLMetry - 基于 OpenTelemetry 的开源 LLM 可观测性方案。 GitHub stars
  • Weights & Biases Weave - 用于开发、评估与监控 AI 应用的工具包。 GitHub stars
  • SWE-bench - 评估 LLM 在真实软件工程问题上能力的 benchmark。 GitHub stars
  • Terminal-Bench - 🆕 面向终端编码 Agent 的评估 benchmark。由 Harbor Framework 维护。 GitHub stars

🔬 AI 研究工具

  • Hugging Face Transformers - 模型与训练工具的事实标准库。GitHub stars
  • vLLM - 高吞吐 LLM 推理与服务。GitHub stars
  • SGLang - 高性能 LLM 推理引擎。GitHub stars
  • llama.cpp - C/C++ 高性能 LLM 推理。GitHub stars
  • Ollama - 本地跑 LLM 的最简单方法。GitHub stars
  • LM Studio - 桌面本地 LLM GUI,多提供商。
  • OpenRouter - 一个 API 统一访问 100+ LLM。
  • Unsloth - 2 倍运行、节省 70% 显存的 LLM 微调。GitHub stars
  • MLX - Apple Silicon 上的机器学习框架。GitHub stars
  • Weights & Biases - ML 实验跟踪 + 模型管理。
  • Label Studio - 多类型数据标注平台。GitHub stars
  • DSPy - 编程代替 prompt 工程。GitHub stars
  • Hugging Face - AI 社区平台——汇集模型、数据集与 Spaces,是 ML 研究的事实标准枢纽。

📚 学习资源

论文

课程与教程

精选列表


🇨🇳 中国 AI 生态

中国大陆团队主导或主要面向中文市场的重要项目。列出是因为中国技术栈越来越形成独立生态,有自己的框架、模型、开发者文化。

中国友出品的基础模型(Qwen / DeepSeek / GLM / Doubao / Kimi / Hunyuan / ERNIE)已直接列在 🧠 基础大模型 下。

Agent 平台与框架

  • Dify - 开源 LLM 应用开发平台 + 可视化 Agent 构建。中文技术圈主流低代码 Agent 画布。GitHub stars
  • Lobe Chat - 多 Agent 聊天工作区 + 插件 / Agent 市场。最高 star 的 TypeScript AI 项目之一。Apache-2.0。GitHub stars
  • Cozeloop - 🆕 字节 Coze 团队开源的 Agent 优化平台。GitHub stars
  • AgentScope - 阿里 ModelScope 多 Agent 框架 + 可视化调试 + 分布式执行。Apache-2.0。GitHub stars
  • Bisheng - 开源企业级 LLM DevOps:工作流 / RAG / Agent / 微调 / 评测。Apache-2.0。GitHub stars
  • MetaGPT - SOP 角色多 Agent(PM / 架构师 / 工程师)。DeepWisdom 出品。GitHub stars

RAG / 知识

  • FastGPT - 知识库优先的 LLM 平台:数据摄入 / RAG / 可视化工作流。GitHub stars
  • QAnything - 💤 网易有道出品,针对任意本地文档的问答引擎。GitHub stars
  • RAGFlow - 深度文档理解的 RAG 引擎 —— 扫描 PDF 、表格、图表处理能力强。GitHub stars
  • LightRAG - 港大 HKUDS 轻量图式 RAG。GitHub stars

个人与生产力

  • AppFlowy - 开源 Notion 替代品 + AI 工作区。AGPL-3.0。GitHub stars
  • Manus AI - 通用自主 Agent(北京 Butterfly Effect)。中文技术圈 2026 最受关注的 Agent 产品之一。
  • Coze (扣才) - 字节无代码 Agent 构建。国内面向消费者;国际版为 coze.com。
  • 通义千问 Agent - 阿里大众消费者 Agent,集成在淘宝 / 钉钉 / 夸克。
  • Doubao Agents - 字节豆包模型上的主力消费者助手。

开发者工具

  • Kilo Code - 2026 中文社区热门的 Cursor 替代。默认 MiniMax 模型。
  • Cherry Studio - 中文开发者圈装机量最高的开源桌面 LLM 客户端,多提供商 + 知识库。GitHub stars
  • ScienceOne 100 / 磐石100 - 🆕 中科院科研推理 Agent 系统,50+ 中科院研究所、100+ 科研场景、带 2000+ 研究工具。

📝 横向对比表

2026 年最常见的“该选哪个?”决策矩阵。

🏗️ Agent 框架(开源向)

框架 语言 多 Agent 状态 / 图 流式 License 适合场景
LangGraph Python / JS ✅ 原生 ✅ 一等公民 MIT 生产级有状态工作流
CrewAI Python ✅ 角色扮演 ⚠️ 任务图 MIT 角色化 Agent 团队
AutoGen / Microsoft Agent Framework Python / .NET ✅ 对话 ⚠️ Group Chat CC-BY-4.0 / MIT 企业多 Agent 对话
OpenAI Agents SDK Python ✅ handoff MIT OpenAI 原生生产
Mastra TypeScript ✅ workflows Elastic-2.0 TypeScript 优先
Google ADK Python / Java ✅ 层级 ⚠️ Apache-2.0 Gemini + Vertex AI
DSPy Python ⚠️ 模块 ⚠️ 编程式 MIT 程序化 prompt 优化
Phidata / Agno Python ✅ teams MPL-2.0 多模态 Agent + 记忆

🧪 沙箱(运行 Agent 生成代码)

沙箱 部署 冷启动 语言 持久化 License 适合场景
E2B 云(托管) ~150ms Python / Node / shell per-session Apache-2.0 OpenAI Agents SDK / 生产
Daytona 云 / 自托管 ~500ms 多语言 持久化 workspace AGPL-3.0 长任务开发
Modal 云(托管) ~200ms Python function-scoped 闭源 GPU + Serverless Agent
Microsandbox 本地 microVM ~100ms 多语言 per-session Apache-2.0 隐私优先的本地开发
SandboxFusion 自托管 ~300ms 20+ 语言 临时 Apache-2.0 评测 / 基准流水线

🌐 浏览器 Agent 栈

思路 部署 优势 License
Browser Use Vision + DOM(Playwright) 自托管 92K star,社区第一 MIT
Stagehand 类型化 act / extract / observe Browserbase / 自托管 强类型 + 结构化输出 MIT
Steel Browser 无头 Chrome API 自托管 / 云 session + proxy + captcha Apache-2.0
Skyvern Vision 优先 自托管 抗动态页面强 AGPL-3.0
AgentQL 查询语言 SDK + 自托管 语义化 selector MIT
Playwright MCP MCP 原生 自托管 MCP 客户端即插即用 Apache-2.0

📊 评估与可观测性

工具 自托管 OpenTelemetry 评测套件 Prompt 管理 License
Langfuse MIT
Helicone ⚠️ 基础 Apache-2.0
Arize Phoenix ⚠️ Elastic-2.0
LangSmith ❌(仅云) 闭源
Braintrust ❌(仅云) 闭源
DeepEval ✅(库) ⚠️ 依赖 Confident Apache-2.0
Agenta Apache-2.0
OpenLLMetry ✅(插件) ✅ 原生 Apache-2.0

💻 编程 Agent —— 头部选择

工具 形态 开源 免费层 SWE-bench 适合场景
Claude Code CLI / IDE ⚠️ Pro 80.9% 长期工程
Codex CLI CLI n/a(Terminal-Bench 77.3%) OpenAI 原生 shell
Cursor IDE ✅(限制) n/a 配对编程体验
Cline VS Code 扩展 ✅(BYO) n/a 开源 IDE 替代
Aider CLI ✅(BYO) Polyglot 强 Git-aware 重构
Devin 3.0 领先 完全托管长任务
OpenHands 自托管 有竞争力 自部署 SWE Agent

表格于 2026-05-05 验证。数据变化请提 PR。


💰 基础大模型 — API 价格与上下文窗口

价格单位:USD/百万 token。数据:2026-05-20。

模型 厂商 上下文窗口 输入 $/1M 输出 $/1M 适用场景
GPT-4o OpenAI 128K $2.50 $10.00 广泛工具调用、视觉、广泛生态
GPT-4o-mini OpenAI 128K $0.15 $0.60 大规模简单任务
Claude Sonnet 4.6 Anthropic 200K $3.00 $15.00 编程 Agent、复杂推理
Claude Opus 4.7 Anthropic 200K $5.00 $25.00 最难推理任务
Claude Haiku 4.5 Anthropic 200K $1.00 $5.00 Anthropic 生态快速任务
Gemini 2.5 Flash Google 1M $0.30 $2.50 性价比高的多模态
Gemini 2.5 Pro Google 2M $1.25 $10.00 超长文本、多模态
Gemini 2.5 Flash-Lite Google 1M $0.10 $0.40 极低成本大量请求
DeepSeek V3.2 DeepSeek 128K $0.14 $0.28 低成本编程推理
Qwen3 235B A22B 阿里巴巴 131K ~$0.29 ~$1.15 最强中文+编程 MoE
Kimi K2.6 Moonshot AI 262K ~$0.60 ~$2.50 中文+超长上下文
Grok 4 xAI 256K $3.00 $15.00 X/Twitter 生态、推理
Grok 4.20 xAI 2M $2.00 $6.00 超长上下文、Agent 任务

💻 基础大模型 — 本地部署

Q4_K_M 量化下的估算显存。速度因硬件而异。

模型 参数量 最小显存(Q4) 速度(tok/s) 推荐量化 中文能力 适用场景
Qwen3.6-27B 27B dense ~17 GB ~23(M5 Max) Q4_K_M / FP8 ⭐⭐⭐⭐⭐ 编程、中文、Agent
Qwen3 235B A22B 235B MoE ~40 GB(激活) ~15–20 Q2_K / Q4_K_M ⭐⭐⭐⭐⭐ 本地最强质量
Llama 3.3 70B 70B dense ~42 GB ~12–18 Q4_K_M ⭐⭐☆☆☆ 最强英文开源
DeepSeek V3-671B 671B MoE ~40 GB(激活) ~10–15 Q2_K ⭐⭐⭐⭐☆ 开源编程冠军
Gemma 4 27B 27B dense ~17 GB ~20–25 Q4_K_M ⭐⭐⭐☆☆ 多语言推理 Apache-2.0
Phi-4 14B 14B dense ~9 GB ~35–45 Q4_K_M ⭐⭐☆☆☆ 8–16GB 显存编程首选
Mistral Small 4 24B 24B dense ~14 GB ~25–30 Q4_K_M ⭐⭐⭐☆☆ 多语言、函数调用

🧠 Agent 记忆系统

系统 存储 检索 本地 自托管 时序支持 许可证 适合场景
Mem0 向量+图谱 语义 Apache-2.0 任意 LLM 应用即插即用
Basic Memory Markdown 文件 关键词+嵌入 ⚠️ MIT 可读,兼容 Obsidian
Graphiti 时序知识图谱 图谱遍历 ⭐ 原生 Apache-2.0 时间感知的 Agent 记忆
Zep 向量+摘要 语义 Apache-2.0 生产级对话 Agent 记忆
Memary 知识图谱 图谱+语义 ⚠️ MIT 开源 Agent 记忆层
Letta (MemGPT) 分层存储 分页检索 Apache-2.0 无限上下文幻觉的长期记忆

🎙️ 语音与音频模型

模型/服务 STT TTS 实时 本地 延迟 语言 许可证
ElevenLabs v3 ⭐⭐⭐⭐⭐ ~200ms 32+ 闭源
Whisper v3(本地) ⭐⭐⭐⭐★ ~1s 99 MIT
Deepgram Nova-3 ⭐⭐⭐⭐⭐ <100ms 30+ 闭源
Gemini Live API ⭐ 原生 <300ms 30+ 闭源
OpenAI Realtime ⭐ 原生 ~300ms 57 闭源
MiniMax TTS ⭐⭐⭐⭐☆ ~200ms 20+ 闭源
Kokoro ⭐⭐⭐⭐☆ ~100ms 8 Apache-2.0
Voxtral ⭐⭐⭐⭐☆ 批量 20+ Apache-2.0

🎨 图片生成模型

模型 最大分辨率 API/本地 真实感 适用场景 大致价格
DALL-E 3 1024×1024 API 指令遵循 $0.04/张(标准)
gpt-image-2 2048×2048 API 非常高 API 工作流、4K $0.04–$0.17/张
Flux 2 Pro 2K+ API ⭐高 写实、快速 ~$0.05/张
Midjourney V8 2K+ 仅网页 艺术风格最强 艺术创作 $10–$120/月
Stable Diffusion 3.5 2K 本地+API 良好 开源、自托管 Apache-2.0
Ideogram 3 2K API+网页 良好 图内文字最强 免费增值

🎥 视频生成模型

模型 最大时长 分辨率 API/本地 适用场景 状态
Veo 3.1 2分钟 4K API(Vertex) 最高保真度 GA(Google)
Kling VIDEO 3.0 3分钟 1080p API+网页 电影风格领先 GA(快手)
Runway Gen-4 10s/片段 1080p API+网页 精确运动控制 GA
Pika 2.0 10s 1080p 网页 创意/社交媒体 GA
Seedance 2.0 60s 1080p API 快速、高性价比 GA(字节)
Hailuo 02 60s 1080p 网页+API 平滑动作 GA(MiniMax)
Sora 2026.4 已废弃

🔍 RAG 框架

框架 语言 向量库 混合检索 流式 许可证 适合场景
LlamaIndex Python 任意 MIT 生产级 RAG、文档流水线
Haystack Python 任意 Apache-2.0 搜索密集的 RAG
LangChain LCEL Python/JS 任意 MIT 适应性强、大生态
RAGFlow Python 内置 Apache-2.0 深度文档解析、OCR
Cognee Python 向量+图谱 ⚠️ Apache-2.0 知识图谱+RAG 混合
txtai Python 内置 Apache-2.0 轻量嵌入优先

🗄️ 向量数据库

数据库 自托管 规模 混合检索 许可证 适合场景
Qdrant 大规模 Apache-2.0 最全面开源向量库
Weaviate 大规模 BSD-3 多模态、GraphQL
Pinecone 大规模 闭源 托管、最易上手
Chroma ⚠️ 中等 Apache-2.0 快速原型、Python 原生
Milvus 十亿级 Apache-2.0 生产级十亿规模
pgvector 中等 ⚠️ PostgreSQL 现有 Postgres 扩展
FAISS 大规模 MIT 内存内 GPU 加速搜索

📱 个人 AI 助手(2026)

工具 开源 本地模型 记忆 多渠道 自托管 适合场景
OpenClaw ✅ 原生 ✅(TG/Discord/WA) 全能自托管个人 Agent
Khoj ⚠️ 研究、笔记、日历
Jan.ai 离线 ChatGPT 替代品
Claude.ai Pro ✅ Projects 最强推理+MCP工具
Perplexity ⚠️ 搜索优先、带引用

🔌 MCP 服务器 — 主要集成

MCP 服务器 类别 认证 安全审计 许可证
GitHub MCP 开发/代码 OAuth ✅(GitHub) MIT
Playwright MCP 浏览器 无(本地) ⚠️ Apache-2.0
Filesystem MCP 文件 无(本地) ⚠️ 需沙箱 MIT
Brave Search MCP 搜索 API密钥 MIT
Slack MCP 通讯 OAuth MIT
Notion MCP 笔记 OAuth MIT
PostgreSQL MCP 数据库 连接串 ⚠️ 建议只读 MIT
Google Maps MCP 地理 API密钥 MIT

部署前建议用 mcp-scan(Invariant Labs)对任意 MCP 服务器进行安全扫描。


🏢 企业级 Agent 平台

平台 开源 MCP A2A 自托管 合规 适合场景
Microsoft Agent Framework ⚠️ ⚠️(Azure) SOC2, ISO Azure 原生企业
Salesforce Agentforce ⚠️ SOC2, GDPR Salesforce CRM 组织
SAP Joule ⚠️ SOC2 SAP ERP 环境
Google Gemini Enterprise SOC2, FedRAMP Google Workspace
IBM watsonx ⚠️ ⚠️ ✅(本地) FedRAMP, HIPAA 合规/本地企业
Dify Enterprise ✅(CE) SOC2(云) 多模型低代码

📏 嵌入模型

MTEB = 大规模文本嵌入基准排行最高分(英文,2026-05 近似)。

模型 维度 上下文 本地 API 语言 许可证 MTEB ≈
OpenAI text-embedding-3-large 3072 8K 多语言 闭源 ~64
Cohere embed-v4 1024 512 多语言 闭源 ~66
BGE-M3 1024 8K 多语言 MIT ~65
Jina-embeddings-v3 1024 8K 多语言 CC-BY-NC ~65
Nomic-embed-text-v2 768 8K 多语言 Apache-2.0 ~62
Voyage-3 1024 32K 多语言 闭源 ~67

🛡️ Agent 安全工具

工具 MCP 扫描 提示词注入防御 审计日志 自托管 许可证
mcp-scan ⭐ 原生 MIT
Lakera Guard ⭐⭐⭐⭐⭐ 闭源
Zenity 闭源
Prompt Armor ⭐⭐⭐⭐☆ 闭源
Azure AI Content Safety ❌(Azure) 闭源
Rebuff ⭐⭐⭐⭐☆ MIT

🖥️ 电脑使用与桌面 Agent

工具 系统 视觉 本地 API 开源 适合场景
Claude Desktop Intelligence Mac/Linux 最全面屏幕 Agent
UFO(微软) Windows 可选 Windows 原生自动化
OSWorld 多平台 可选 跨平台基准+Agent
Screenpipe Mac/Linux 屏幕记忆、隐私优先

🤖 Physical AI 平台

平台 类型 开源 SDK 仿真 适合场景
NVIDIA Isaac GR00T N1.5 人形机基础模型 ⚠️(权重) ✅ Isaac Sim 通用人形机基础模型
ROS 2 Jazzy 机器人操作系统 ✅ Gazebo 标准机器人中间件
Gemini Robotics 灵巧操作 ⚠️ 视觉+语言+灵巧操作
Unitree SDK2 四足/人形 ⚠️ Go2, H1, G1 开发
Boston Dynamics API 四足 Spot 工业部署
Genesis Sim 仿真平台 ⭐ 原生 超高速物理仿真

🇨🇳 中文大模型横向对比

模型 厂商 上下文 中文能力≈ 编程 开源权重 输入 $/1M
Qwen3 235B A22B 阿里 131K 顶级 ⭐⭐⭐⭐⭐ ✅ Apache-2.0 ~$0.29
DeepSeek V3.2 DeepSeek 128K 非常高 ⭐⭐⭐⭐⭐ ✅ MIT $0.14
Kimi K2.6 Moonshot AI 262K ⭐⭐⭐⭐☆ ~$0.60
GLM-5.1 智谱 AI 128K ⭐⭐⭐⭐☆ ⚠️ 部分 ~$0.50
混元 Pro 腾讯 256K ⭐⭐⭐⭐☆ ~$0.45
豆包 Pro 256K 字节 256K ⭐⭐⭐☆☆ ~$0.80
ERNIE 5 百度 128K ⭐⭐⭐☆☆ ~$0.70

📦 Agent 框架 — TypeScript / JavaScript

框架 多 Agent 流式 MCP A2A stars ≈ 许可证
Mastra ~12K Elastic-2.0
Vercel AI SDK ⚠️ ~12K Apache-2.0
LangChain.js ~14K MIT
Genkit ~3K Apache-2.0
OpenAI Agents SDK (Node) ~2K MIT
Flowise ~35K Apache-2.0

📊 元对比 — 编排/框架/IDE 分类

类型 典型工具 适合对象 抽象级别 灵活性
编排平台 Dify, n8n, Flowise 非工程师、快速上线 极高 中低
Agent 框架 LangGraph, CrewAI, Mastra 工程师自定义 中等
Agent IDE Claude Code, Cursor, Cline 开发者配对 非常高
低代码构建器 Voiceflow, Botpress 业务/产品团队 极高
AI 原生平台 Vertex AI Agent Builder 企业托管基础设施 中等

📱 移动端 AI 框架

框架 iOS Android 本地模型 端上推理 许可证 适合场景
MLX ⭐ Apple Silicon MIT Apple 原生快速 LLM
llama.cpp(移动) MIT 全平台通用本地 LLM
MediaPipe Apache-2.0 端上 ML(视觉/NLP)
Core ML ✅(ANE) Apple SDK iOS/macOS 原生推理
Google AI Edge Apache-2.0 Gemma Nano 端上
Qualcomm AI Hub ✅(骁龙 NPU) SDK 骁龙芯片优化部署

所有对比表数据来源:2026-05-20。数据变化请提 PR。



🗺️ 场景指南 — 我应该用什么…

50+ 场景与工具对应。每周更新。


🏗️ 构建类:编程 Agent

创业公司要一个最低成本高质量的编程 AgentClaude Code(CLI)+ E2B 沙箱 + Langfuse 可观测。SWE-bench 80.9%。中等使用量 ~$200/月。

企业级编程 Agent(有安全控制)

  • GitHub Copilot Enterprise — GitHub 已深度集成、IP 赔偿、SSO/SAML。→ 已在 GitHub Enterprise 上
  • Cursor Business — 隐私模式、代码不离开企业。→ 需要 IDE 优先体验
  • Devin 3.0 — 自动重规划、全自动。→ 完全托管长任务

要一个完全开源的编程 Agent(无厂商锁定)

  • OpenHands — MIT 许可,自部署、自带模型选择。
  • Cline(VS Code 插件)— BYO 密钥,社区活跃。
  • Aider — Git-aware CLI 重构。

浏览器自动化 / 网页抓取 Agent

  • Browser Use — 92K stars,业界最大社区。
  • Stagehand — 强类型 + 结构化输出。
  • Skyvern — Vision 优先,抵抗动态页面。

文档处理 / PDF 分析 AgentLlamaIndex + Gemini 2.5 Pro(2M 上下文)或 Claude Opus 4.7 + Unstructured.io

客户服务 Agent

  • Dify — 无代码、内置 RAG、自托管。
  • LangGraph + Zendesk MCP — 工程师主导的业务。
  • Salesforce Agentforce — CRM 原生。

深度研究 AgentPerplexity Deep Research(托管)或 OpenHands + Tavily + Claude Opus 4.7

数据分析 / BI Agent

  • Julius AI — 无需工程师,托管。
  • LangChain + Pandas Agent — 完全自定义。

Computer Use / 桌面 Agent

  • Claude Desktop Intelligence — macOS/Linux 最全面。
  • UFO(微软)— Windows 原生。
  • Screenpipe — 本地隐私优先。

语音 / 对话 Agent

  • Gemini Live API — <300ms 延迟。
  • OpenAI Realtime API — 原生语音 + 工具调用。
  • LiveKit + Whisper + ElevenLabs v3 — 完全自托管。

多 Agent 编排系统

  • LangGraph — Python 生产级有状态图式工作流。
  • Google ADK — 层级 Agent + Gemini 生态。
  • Mastra — TypeScript 优先。

个人 AI 助手(自托管)OpenClaw — 多渠道、记忆、cron、MCP、全套自托管。

个人 AI 助手(托管/开箱即用)

  • Claude.ai Pro — 最强推理+MCP工具。
  • Perplexity Pro — 搜索为主。

RAG 应用LlamaIndex + Qdrant + Cohere embed-v4 + BGE reranker

金融分析 AgentLangChain + yfinance MCP + Claude Sonnet 4.6 + 结构化输出验证。

法律文档 AgentClaude Opus 4.7(200K 上下文)+ LlamaIndex + pgvector。必须保留人工审核。

创意写作助手Claude Opus 4.7(最佳散文质量)或 Gemini 2.5 Pro(2M 上下文)。

安全扫描 AgentSemgrep + Claude Sonnet 4.6 + mcp-scan


🧠 模型选择类

需要最强模型做复杂推理

  • Claude Opus 4.7 (/think xhigh) — $5/$25/1M。
  • Gemini 2.5 Pro — 2M 上下文,$1.25/$10。
  • GPT-4o — 广泛生态,$2.50/$10。

需要最快最便宜的模型(简单高频任务)

  • Gemini 2.5 Flash-Lite — $0.10/$0.40/1M。
  • DeepSeek V3.2 — $0.14/$0.28/1M,惊人的性价比。

需要最强中文能力

  • Qwen3 235B A22B — 中文评测居首。
  • Kimi K2.6 — 262K 上下文。
  • DeepSeek V3.2 — 开源权重中文编程。

需要本地/离线模型(16GB 显存)

  • Qwen3.6-27B Q4_K_M — ~17GB,最佳 16GB 首选。
  • Phi-4 14B — ~9GB,编程首选。

需要本地/离线模型(40GB+)

  • Llama 3.3 70B Q4_K_M — ~42GB。
  • Qwen3 235B A22B Q2 — MoE 主力。

需要最强编程能力Claude Sonnet 4.6(通过 Claude Code,SWE-bench 80.9%)。

需要超长上下文 (500K+)

  • Gemini 2.5 Pro — 2M 上下文。
  • Kimi K2.6 — 262K。

需要开源权重模型(MIT/Apache)

  • Llama 3.3 70B (Apache-2.0)、DeepSeek V3.2 (MIT)、Qwen3 235B A22B (Apache-2.0)。

🏗️ 基础设施类

全本地运行(隐私优先,零云端)Ollama + Open WebUI + Qdrant + Qwen3.6-27B(16GB)/ Llama 3.3 70B(40GB+)。

压缩 API 费用(每月 <$50)DeepSeek V3.2 + Gemini 2.5 Flash + Anthropic Batch API 折扣。

企业资源伸缩Google Vertex AIAzure OpenAI + LiteLLM 路由网关。

集群 / 受监控环境部署Ollama + 开源权重 + IBM watsonxAzure Government

避免厂商锁定LiteLLM(统一 API 路由)+ LangGraph + BGE-M3 嵌入


📊 评估与监控类

评估 Agent 输出质量DeepEval + Langfuse

调试 Agent 失败原因Langfuse trace + Arize Phoenix 根因分析。

实时监控生产 AgentLangfuse(OpenTelemetry,自托管)或 Helicone

A/B 测试不同模型BraintrustLangSmith

对自定义任务进行 benchmark → DeepEval + 自己的黄金测试集(50 个示例起步)。

评估 MCP 服务器安全mcp-scan(Invariant Labs)。


🌍 生态选择类

OpenAI 生态 → OpenAI Agents SDK + GPT-4o + E2B + LangSmith。

Anthropic 生态 → Claude Code + Claude Sonnet/Opus + MCP + Langfuse。

Google 生态 → Google ADK + Gemini 2.5 Pro/Flash + Vertex AI。

国内市场 → Qwen3 235B(DashScope)+ RAGFlow + Milvus + Langfuse。

TypeScript 优先 → Mastra + Vercel AI SDK + Gemini 2.5 Flash + Qdrant。

全开源栈 → Ollama + Llama 3.3 70B + LangGraph + Qdrant + Langfuse。


📋 技术栈免调 — 经过验证的工具组合

# 配方名 技术栈 适合对象
1 轻量编程 Agent Claude Code + E2B + Langfuse 独立开发/创业,性价比最高
2 开源 SWE Agent OpenHands + Ollama + Qwen3.6-27B + Qdrant 全本地,隐私优先
3 企业级 RAG LlamaIndex + Qdrant + Cohere embed-v4 + Langfuse + Claude Sonnet 4.6 内部文档生产问答
4 语音助手流水线 LiveKit + Whisper + Claude Sonnet 4.6 + ElevenLabs v3 定制品牌语音 AI
5 浏览器自动化 Browser Use + Stagehand + Claude Sonnet 4.6 + Langfuse 可靠网页抓取
6 本地隐私栈 Ollama + Qwen3.6-27B + Open WebUI + Qdrant + n8n 零云端、离线部署
7 TypeScript Agent Mastra + Vercel AI SDK + Gemini 2.5 Flash + Qdrant TS 优先生产 SaaS
8 国内市场栈 Qwen3 235B API + RAGFlow + Milvus + Langfuse 国内部署,ICP 合规

⚠️ 反推荐 — 不应该用在哪里

❌ 不要用 ❌ 用于 ✅ 改用 原因
LangChain v0.x 新的生产 Agent LangGraph 旧版 chain 已废弃
AutoGPT(旧) 生产工作负载 OpenHands / LangGraph 体系过时,可靠性差
GPT-3.5-Turbo 复杂推理 Gemini 2.5 Flash / Claude Haiku 4.5 已超龄,同价有更好选择
Pinecone Starter 自托管/成本敏感 Qdrant / pgvector 2025 年已取消免费档、开源更便宜
LLM 直接做实时股票交易 金融执行 确定性规则引擎 LLM 会幻觉数字,对实盘交易破坏性极大
ChatGPT Plus 生产 API 工作流 OpenAI API 直接调用 无 SLA、无配额控制
Hugging Face 免费推理 生产负载 Modal / 自托管 Ollama 免费层极限,冷启动 >30s
Agent 无人工审核 医疗/法律决策 任意模型 + 必须人工审核 无模型可靠性足够高
Midjourney 程序化/API 图片生成 gpt-image-2 / Flux 2 Pro API Midjourney 无公开 API
Sora 视频生成 Kling VIDEO 3.0 / Veo 3.1 Sora 2026.4 已停运
不带 reranker 的向量检索 高精度 RAG 向量 DB + BGE reranker 纯向量召回率只有 ~70%

🌟 2026 年值得关注的 Agent 项目

塑造 2026 年 AI Agent 格局的里程碑与事件。

  • Model Context Protocol (MCP) - 成为 Agent 工具互联互通的事实标准。已损赠给 Linux Foundation。GitHub stars
  • A2A Protocol - 🆕 Google A2A 让跨框架 Agent 协作,150+ 合作伙伴。GitHub stars
  • Claude Code - SWE-bench 80.9%,成为 2026 终端编程 Agent 首选。
  • Kiro - 🆕 AWS 发布的自主编程 Agent,可同时管理 10 个任务。
  • Devin 3.0 - 🆕 动态重规划、自愉合代码、遗留代码迁移。
  • Microsoft Agent Framework - 🆕 AutoGen + Semantic Kernel 合并。
  • OpenAI Codex CLI - OpenAI 进入开源终端 Agent 赛道。GitHub stars
  • Browser Use - 让 AI Agent 自然使用网页的突破性项目。GitHub stars
  • Claude Computer Use - 🆕 Claude "Desktop Intelligence"。
  • Manus AI - 🇨🇳 🆕 通用自主 Agent,能处理研究 / 编程 / 复杂工作流。
  • OpenHands - 开源 SWE Agent 平台大量采用。GitHub stars
  • Dify - 🇨🇳 低代码 LLM Agent 平台走向主流。GitHub stars
  • Cline - VS Code 自主编程 Agent。GitHub stars
  • Mem0 - Agent 架构中的记忆层必备。GitHub stars
  • Sora 停服 - 🆕 OpenAI 2026-04 关闭 Sora,战略转向企业 + 推理。
  • Kling VIDEO 3.0 - 🇨🇳 🆕 快手出品,Sora 停服后的领先视频平台。
  • Cohere + Aleph Alpha 合并 - 🆕 2026-04-24。东西合作 “主权 AI”,多伦多 + 德国双总部,$20B 估值 + $600M 资金。
  • ScienceOne 100 / 磐石100 - 🇨🇳 🆕 2026-04-28~29。中科院专业科研 AI 系统。
  • Google 投资 Anthropic $40B - 🆕 2026-04。$10B 初始 + 最高 $30B,含 5GW 算力。
  • OpenAI Deployment Company (DeployCo) - 🆕 2026-05-11。OpenAI 拆出 $4B+ 企业部署服务公司(TPG / Bain Capital / Brookfield / Advent / Goldman Sachs / SoftBank + Bain & Company / Capgemini / McKinsey)并吸收 Tomoro 咨询,标志着 AI 厂商竞争向服务 + Forward Deployed Engineers 转向。
  • Anthropic ↔ SpaceX Colossus 1 - 🆕 2026-05-06。Anthropic 拿下 SpaceX 300+ MW / 22 万 GPU 的 Colossus 1 所有可用算力;SpaceX 在收购 xAI 后重新定位为 AI 基础设施提供商,Anthropic 则翻倍付费计划下 Claude Code 的限流。
  • DeepSeek $4B 国家背景轮次 - 🆕 2026-05-16。中国国家人工智能产业投资基金 + 大基金三期 + 腾讯 接近完成对 DeepSeek 首次外部轮次,~$4B 金额在 ~$50B 估值上,也是大基金三期已知首次 LLM 投资。
  • 教宗利奥 14 世 → 梵蒂冈 AI 委员会 - 🆕 2026-05-16。教宗利奥 14 世发布 rescriptum 设立梵蒂冈跨部门 AI 委员会(人类整体发展部统筹,叠加信仰部、文化与教育部、传信部、宿呀领生命 / 科学 / 社会科学馆),任期 1 年可续;首份 AI 为题的通谕即将发布。
  • Google I/O 2026 — Gemini 3.5 + Omni + Spark + AI Ultra - 🆕 2026-05-19。Google 今年最大的 Agent + AGI 发布会:Gemini 3.5 Flash GA (默认模型)、Gemini Omni 世界模型家族、Gemini Spark 24/7 个人 Agent(~30+ MCP 接入的第三方工具)以及新 Google AI Ultra $100/月级别。Pichai 公布 Google 每月处理 3.2 千万亿个 token
  • 阿里云杭州峰会 — Qwen 3.7-Max + 珄武 M890 - 🆕 2026-05-20。阿里推出 Qwen 3.7-Max(面向长静间距任务的代理型编程顶级型)、T-Head 珄武 M890 AI 计算芯片以及全栈 AI 基础设施升级——中国迫迫“AI 工厂”的代表作。
  • OpenAI Guaranteed Capacity(算力年发) - 🆕 2026-05-19。面向企业 AI 产品 / Agent / Workflow 的长期算力预订产品(可选 1 / 2 / 3 年期,期限越长折扣越高):OpenAI 对 Anthropic Priority Tier 与顶级模型推理供给吃紧的产品化回应。

📅 2026 AI 时间线

2026 年 AI 重要里程碑。

时间 事件 分类
2026-01 AMD Ryzen AI 400 在 CES 发布 —— 主流 AI PC 及 60 TOPS NPU 硬件
2026-02 Claude Opus 4.6 发布 —— Agent 团队能力 模型
2026-02 Claude Sonnet 4.6 发布 —— 1M 上下文,Agent 检索 模型
2026-02 Gemini 3.1 Pro 发布 模型
2026-02 Qwen3.5 系列发布 —— 原生多模态 + Agent 编程 模型
2026-02 Qwen3-Coder-Next 发布 —— 80B MoE 编程 Agent 模型 模型
2026-02 Cursor 支持 8 个并行 Agent 工具
2026-02 GitHub Copilot 扩展 Agent 模式与模型 工具
2026-03 Gemini 3.1 Flash Lite 面向开发者发布 模型
2026-03 Mistral Forge 发布 —— 自定义 LLM 训练平台 平台
2026-03 Microsoft Agent Framework(AutoGen + Semantic Kernel)目标 GA 框架
2026-03 DeepSeek 宣布使用最新英伟达芯片训练新模型 模型
2026-03 MCP 2026 路线图发布 —— 重点生产规模化与治理 协议
2026-03 Sora 关闭公告(4 月 26 日应用下架) 事件
2026-04-02 阿里巴巴发布 Qwen3.6-Plus 闭源旗舰 模型
2026-04-03 Microsoft AI Agent Governance Toolkit 开源 工具
2026-04-06 Microsoft Agent Framework 正式宣布 框架
2026-04-07 智谱 GLM-5.1 开源 —— 744B MoE,华为昂腾训练 模型
2026-04-08~09 Meta Muse Spark 发布 —— MSL 首个模型 模型
2026-04 Claude Mythos Preview —— 受控网络安全研究模型(BenchLM 99,SWE-bench 93.9%) 模型
2026-04 Sora 应用正式关闭 事件
2026-04-14 Gemini Robotics ER-1.6 升级机器人 AI,增强空间推理 机器人
2026-04-15 Qwen3.6-35B-A3B 开源(Apache 2.0) 模型
2026-04-16 Claude Opus 4.7 发布 —— SWE-bench Verified 87.6%,/think xhigh 模型
2026-04-18 Qwen3.6-Max-Preview 发布 模型
2026-04-20~21 Kimi K2.6 发布 —— 1T MoE,1000-Agent 集群 模型
2026-04-22 Qwen3.6-27B 开源 —— 27B 密集多模态 模型
2026-04-23 腾讯开源 Hunyuan Hy3 Preview —— 295B/21B MoE,256K 上下文 模型
2026-04-23 Claude Managed Agents Memory 公测 —— 跨会话记忆 工具
2026-04-23 OpenAI 发布 GPT-5.5 —— 代理 / 推理升级 模型
2026-04-24 DeepSeek V4 Pro & Flash 发布 —— 1.6T MoE,1M 上下文,MIT 模型
2026-04-24 Cohere 与德国 Aleph Alpha 合并,$20B 估值 + $600M 资金 产业
2026-04-27 阿里天马 AI 图生视频进入公测 模型
2026-04-27 LangGraph v0.3.19 发布,Swarm 预制 Agent 框架
2026-04-28 NVIDIA Nemotron 3 Nano Omni 发布 —— 30B 多模态 模型
2026-04-28~29 中科院 ScienceOne 100 / 磐石100 发布 —— 50+ 中科院研究所 模型
2026-04-30 OpenAI GPT-5.5-Cyber 通过 TAC 计划扣发 模型
2026-04-30 OpenAI 发布 《构建 Agent 实战指南》 资源
2026-05-01 Anthropic Claude Security 公测 —— Opus 4.7 驱动代码库漏洞扫描 工具
2026-05 麦格理银行(Macquarie Bank)报告 7 个月使用 Gemini Enterprise 节约 13 万小时 产业
2026-05 Google 开始为启用车辆推送 Gemini,替代 Google Assistant(英语优先,美国首发) 产业
2026-05-04 Google 关闭 Project Mariner,浏览器 Agent 技术并入 Gemini Agent 工具
2026-05-04 Anthropic + Goldman Sachs + Blackstone 宣布 $1.5B Claude 部署合资公司,向中型华尔街公司派驻 Anthropic 工程师 产业
2026-05-05 OpenAI 把 GPT-5.5 Instant 作为 ChatGPT 新默认模型推出 —— 主打效率,幻觉率降低约 50% 模型
2026-05-05 Anthropic 发布 Claude Finance Agents —— 10 个金融服务专用 Agent(路演簿生成、KYC、月末结账),可作为 Claude Cowork 插件 / Claude Code skill / Managed Agents cookbook 工具
2026-05-05 OpenAI ↔ 普华永道(PwC)合作 —— 金融服务 Agent(预测、支付) 产业
2026-05-07 Google 为 Flow(Veo 视频)准备 Agent Mode —— 视频制作流程自动化 工具
2026-05-08 OpenAI 发布 GPT-Realtime-2 / Realtime-Translate / Realtime-Whisper —— 语音 Agent、实时翻译、实时转录 模型
2026-05-09 OpenAI 在 ChatGPT Enterprise 推出 Workspace Agents —— 跨连接应用的可重复工作流自动化 工具
2026-05-11 OpenAI Deployment Company 成立 —— $4B+ 企业服务子公司,TPG / Bain Capital / Brookfield + Bain & Company / Capgemini / McKinsey 共投;合并 Tomoro 咨询 产业
2026-05-11 – 13 SAP Sapphire 2026 Orlando — SAP Business AI Platform、Joule Studio 2.0、Autonomous Suite(50+ 领域 Assistant + 200+ Agent);Joule Studio 2.0 从 2026-06 起 GA 产业
2026-05-12 Claude for Legal — Claude Cowork 上 20+ 个 MCP 连接器(iManage、NetDocuments、DocuSign、LexisNexis、Westlaw、Harvey、Everlaw、Relativity 等)+ 12 个执业领域 plugin 工具
2026-05-12 – 15 Visual Studio 2026 Insiders — Copilot Chat "Agent Mode" 在 IDE 里引入引导式 Agent Skills 创作 工具
2026-05-13 Claude for Small Business — 15 个预置 Agent 工作流 + QuickBooks / PayPal / HubSpot / Canva / DocuSign / Google Workspace / Microsoft 365 连接器;美国 10 城巡讲 工具
2026-05-13 Cursor 3.4 云 Agent 环境 — 多仓库,带 build secrets 的 Dockerfile 配置,快 70% 镜像缓存,环境版本历史,审计日志,限定出网 / secrets 工具
2026-05-13 – 16 Figure Helix 02 直播 — F.03 + Helix 02 在包裹分拧线压力测试,8 小时 ~22K,24 小时 ~30K,~72 小时 ~88K 包裹 机器人
2026-05-14 Anthropic ↔ Gates Foundation $200M 合作 — 4 年资助 + Claude 额度 + Anthropic 工程,面向全球健康 / 生命科学 / 教育 / 农业 产业
2026-05-14 Anthropic ↔ PwC 联盟扩张 — 全球 Claude Code + Cowork 铺开,认证 30,000 名 PwC 员工,共建 Agentic Enterprise 卓越中心 产业
2026-05-14 Genkit Middleware — Google 为开源 Genkit 加上可组合中间件(TS / Go / Dart) 框架
2026-05-14 Zyphra ZAYA1-8B-Diffusion-Preview — 首个从自回归 LLM 转换得来的 MoE 扩散语言模型;首个在 AMD GPU 上训练的扩散 LM;最多 7.7× 推理加速 模型
2026-05-16 教宗利奥 14 世设立梵蒂冈 AI 委员会 — 跨部门机构,首份 AI 通谕即将发布 产业
2026-05-16 OpenAI ↔ Malta 合作 — 所有 14 岁以上马耳他居民在完成 2 小时 AI 素养课后获得一年免费 ChatGPT Plus("OpenAI for Countries") 产业
2026-05-16 DeepSeek 国家背景 $4B 轮次 — 国家 AI 产业基金 + 大基金三期 + 腾讯 主导,~$50B 估值首次外部轮 产业
2026-05-13 Runway Agent 发布 — 以脚本为输入、在 Gen-4 / Aleph 上端到端交付多镜头完成品视频 工具
2026-05-18 OpenAI ↔ Dell Codex 合作 — Codex 首次进入混合云 / 本地部署,面向需要数据主权的强监管行业 产业
2026-05-18 阿里 Qwen 3.7-Max-Preview / Plus-Preview — LM Arena 上中文世界最高分中国模型(文本 + 视觉双赛道) 模型
2026-05-18 Boston Dynamics Atlas 100 磅操作 — 现代集团承诺从 2028 起在乔治亚部署 25K+ 台 Atlas 机器人
2026-05-18 Figure F.03 vs 人类 8 小时分拧挑战 — 人类以 12,924 微赢 12,732(2.79 vs 2.83 秒 / 件) 机器人
2026-05-18 Anthropic 就 Claude Mythos 向 FSB 汇报 — 顶级 lab 首次向 G20 金融稳定监管机构介绍顶级模型的攻击性网络能力 产业
2026-05-18 ChatGPT 安全系统更新 — 加入跨会话的风险跟踪(自杀 / 自伤 / 伤他) 产业
2026-05-19 Google I/O 2026Gemini 3.5 Flash 上线即成为 Gemini App + Google 搜索 AI Mode 默认模型(官方称输出 token 速度约 4 倍于同类顶级模型);Gemini 3.5 Pro 预计 6 月 模型
2026-05-19 Google I/O 2026Gemini Omni / Omni Flash,DeepMind 面向 AGI 的世界模型家族(任意输入 → 任意输出,视频起步) 模型
2026-05-19 Google I/O 2026Gemini Spark 24/7 个人 AI Agent + ~30+ 个 MCP 接入的第三方工具,限 Google AI Ultra ($100/月) 订阅 工具
2026-05-19 OpenAI Guaranteed Capacity(算力年发) 发布 — 1/2/3 年期企业算力预订产品 产业
2026-05-19 OpenAI ↔ Google SynthID + C2PA 内容源头验证 — 顶级 lab 首次在跨平台 AI 图片水印上互通,附公开验证器预览 产业
2026-05-19 Anthropic:Widening the conversation on frontier AI — 与智慧传统展开顶级 AI 安全对话的框架 产业
2026-05-19 DeepSeek 招募 Jane Street 前工程师组建 AI harness 团队 — DeepSeek 从模型 R&D 向 Agent 产品化转向 产业
2026-05-20 阿里云杭州峰会Qwen 3.7-Max GA,代理型编程与长静间距任务;同期上线 T-Head 珄武 M890 AI 芯片与全栈 AI 基础设施升级 模型
2026-05-20 BMS ↔ Anthropic Claude Enterprise — 30K+ 员工统一标准 Claude Enterprise,首个顶 5 药企全公司级部署 产业
2026-05-20 LlamaIndex ↔ Google Agents API — LlamaParse / LiteParse 进入 Google Agents API 沙箱;Sandboxed-Lit + ParseBench 同期上线 框架
2026-05-20 Microsoft RAMPART + Clarity 开源 — Agentic AI 的 pytest 原生白盒安全 / 可靠性测试框架 + 结构化设计评审伴侣;可直接接入 CI/CD,是 PyRIT 在开发者侧的后续 工具
2026-05-06 AWS MCP Server GA — AWS 托管的 MCP 入口,暴露任意 AWS API、用沙箱 Python 跑多步操作、用 agent skill 取代 SOP;首个超大型云厂商的一方 MCP server 协议
2026-05-01 Google Workspace MCP Server 逐步上线 — Workspace 原生 MCP 服务器,Gmail / Drive / Calendar / Docs / Sheets 都能走 MCP,OAuth 范围由管理员控制 协议
2026-05-14 Grok Build (早期 beta) — xAI 推出的 agentic CLI 编码 Agent,由 grok-code-fast-1 驱动,隔离环境并行子 Agent,限 SuperGrok Heavy 用户 工具
2026-05-14 iManage MCP Server 发布 — 首家身名领域 SaaS 推出对外公开的 MCP 端点 工具
2026-05-19 Google Antigravity 2.0 于 I/O 2026 上线 — 独立桌面端多 Agent 编排、调度 / 异步 / 动态子 Agent、Antigravity CLI + SDK;企业版集成进 Gemini Enterprise Agent Platform 工具
2026-05-22 Kore.ai Artemis Agent Platform 在 Azure 上线 — AI 原生企业 Agent 平台,核心是声明式的 Agent Blueprint Language (ABL) 产业
2026-05-22 FPT Flezi Foundry™ 发布 — “Service-as-a-Software” 治理下的 AI 增强交付平台,提供 Agentic Development Lifecycle (ADLC) 与 Agentic Managed Services (AMS) 两种模式 产业
2026-05-22 JetBrains Rider AI 测试生成 skill — 将 .NET 覆盖率数据喂给 Claude Code / Codex,让 Agent 只写未覆盖分支的测试 工具
2026-05-28 Claude Opus 4.8 Anthropic 发布 — 代码库级迁移、动态工作流预览(并发几百个子 Agent)、努力控制面板、Fast 模式价格降 3 倍;预告 Mythos 级模型 模型
2026-05-28 Koog 1.0 KotlinConf 2026 发布 — JetBrains 的开源 Kotlin / Java AI Agent 框架达到稳定 1.0,Kotlin Multiplatform 部署、跨端 OpenTelemetry 框架
2026-05-28 Gemini Omni Flash 对话式视频编辑 在 Gemini App / Google Flow / YouTube Shorts 上线 — 语音 + 文字驱动的电影式编辑取代传统 NLE 工具
2026-05-29 MCP 2026-07 Release Candidate 发布 — 无状态协议核心、扩展机制、MCP Apps 服务端渲染 UI、OAuth/OIDC 加固,正式版目标7月 28 日 协议
2026-04 Gartner 预计 2026 年底 40% 企业应用嵌入 AI Agent 产业
2026-04 Google 承诺对 Anthropic 跟进最高 $40B 投资(首期 $10B) 产业
2026 持续 A2A Protocol 合作伙伴增至 150+ 协议
2026 持续 85% 开发者经常使用 AI 编程工具 产业
2026 持续 企业 Agent AI 实践加速 —— "Agents as a Service" 兴起 产业

贡献

请阅读 CONTRIBUTING.md反垃圾质量门槛适用于中英日三个版本:自我推广批量铺货 PR 一律拒绝。

License

MIT © Zijian Ni


Made with ❤️ by Zijian Ni · 2026。中文版本与英文版保持同步,发现不一致以英文为准。