-
AI Agent = 人工智能代理(Artificial Intelligence Agent)
-
什么是 AI Agent?
- Agent一词起源于拉丁语中的Agere,意思是“to do”。
- 定义为一种能感知环境、进行决策和执行动作的智能实体。
- 它不仅告诉你“如何做”,更会帮你去做。
-
感知环境、进行决策、执行动作
- AI 通过传感器、摄像头、麦克风等,建立起对外部世界进行感知。
- 通过大模型和N多知识库,用来处理信息,制定计划。
- 大模型本身不能完成这些任务,需要调用外部的工具。
- Eliza
- AutoGPT
- 一个开源项目,允许用户通过提供目标和描述,自动生成并执行任务。它可以自主创建任务列表,并完成这些任务,非常适合自动化复杂的流程。
- https://github.com/Significant-Gravitas/AutoGPT
- MetaGPT
- 一个开源项目,定位在软件开发领域的AI Agent,可以模拟不同的角色(如工程师、产品经理、架构师)来快速创建软件应用程序,如在短时间内制作一个小游戏。
- https://github.com/geekan/MetaGPT
- Qwen-Agent
- 一个开源项目,阿里巴巴的一个基于Qwen2.0的AI Agent框架,具有指令遵循、工具使用、规划和记忆能力,适用于构建各种执行复杂任务的AI代理。
- https://github.com/QwenLM/Qwen-Agent
- TEN-Agent
- https://github.com/TEN-framework/TEN-Agent
- 一个开源项目,首款集成OpenAI实时API的多模态AI代理框架,旨在提供高性能、低延迟的实时音视频交互体验。通过利用RTC(实时通信)技术和AI噪声抑制,TEN-Agent实现了流畅的语音和视频对话,适用于多种应用场景。使用案例 https://x.com/vista8/status/1867379854976630806
| 特性 | Eliza | AutoGPT | MetaGPT | Qwen-Agent |
|---|---|---|---|---|
| 开发者 | Joseph Weizenbaum | Toran Bruce Richards | Sirui Hong | 阿里巴巴(KwaiAgents团队) |
| 主要功能 | 模拟心理治疗对话 | 自动化任务执行、工具调用、内容生成 | 软件开发全流程自动化、任务分解、代码生成 | 任务规划、工具调用、自然语言处理 |
| 架构 | 基于规则的对话系统 | 单智能体,基于GPT-4/GPT-3.5 | 多智能体系统,角色扮演(产品经理、架构师等) | 多智能体框架,强调任务分解和合作 |
| 适用场景 | 心理健康咨询、教育 | 内容创作、研究、自动化任务 | 软件开发、项目管理 | 通用AI Agent,适合各种复杂任务 |
| 语言模型 | 不依赖特定模型 | 依赖GPT-4和GPT-3.5 | 主要基于GPT-4,但支持其他模型 | 基于Qwen模型(如Qwen-7B、Baichuan2-13B) |
| 开源状态 | 开源 | 开源 | 开源 | 部分开源(提供微调数据和评测工具) |
| 任务自动化 | 低(对话驱动) | 高(自主任务执行) | 高(端到端软件开发流程) | 中(依赖于具体任务和工具调用) |
| 社区支持 | 历史悠久但较少更新 | 活跃,有许多分支和改进 | 社区活跃,不断引入新功能 | 社区支持较少,但有官方维护 |
| 学习能力 | 无(静态规则) | 通过API学习,但依赖外部工具 | 通过元编程和SOP学习,支持复杂任务的自适应 | 通过指令微调和模板生成提升学习能力 |
| 协作能力 | 无(单一角色) | 低(主要依赖单一智能体) | 高(多角色协作,模拟软件公司工作流程) | 高(支持多智能体协作和角色扮演) |
| 代码生成 | 无 | 支持,但主要是单一任务的代码生成 | 支持完整软件开发流程,包括代码审查和优化 | 支持,但更强调任务规划和执行 |
| 文档生成 | 无 | 有限(根据任务生成简单文档) | 高(用户故事、竞争分析、API文档等) | 支持,但不如MetaGPT详细 |
| 部署难易度 | 简单(文本基础) | 中等(需API密钥和外部工具配置) | 中等至高(需要配置多智能体和SOP) | 中等(需要模型微调和工具集成) |
| 成本 | 低(无API成本) | 高(取决于API调用频率和模型选择) | 中至高(取决于任务复杂度和API调用) | 中(微调和运行成本取决于使用规模) |
| 适用性 | 教育和心理咨询场景 | 个人和创意项目 | 中小型软件开发项目、项目管理 | 需要复杂任务处理和协作的场景 |
- 基于浏览器的自动化操作 https://github.com/browser-use/browser-use
- 图形化系统自动识别 https://github.com/microsoft/OmniParser/
- 基于图形化系统界面的自动化操作 https://github.com/asweigart/pyautogui
- 自动化工作流 https://github.com/n8n-io/n8n
- autoMate https://github.com/yuruotong1/autoMate