Skip to content

丰富agent种类 #1

@polypopopo

Description

@polypopopo

背景与目标:
为了构建一个多功能的AI助手生态系统,我们计划首先实现五个核心的、功能独立的Agent。这些Agent将作为基础模块,展示AI在特定任务上的能力,并为未来更复杂的集成和自动化流程打下基础。

开发时使用llama.cpp或者ollama进行模型的调用


1. 图像识别 Agent

  • 核心目标: 实现一个能够理解图片内容并生成描述的智能体。
  • 功能描述:
    • 输入: 支持常见格式(如 JPG, PNG)的图片文件或图片URL链接。
    • 处理: 利用多模态大模型(如 GPT-4V, Gemini Vision 或开源替代品)分析图片。
    • 输出: 生成对图片的自然语言描述。描述程度可以分为两个可选的模式:
      • 基础模式: 描述图片中的主要物体、人物、场景和主要动作。
      • 详细模式: 在基础之上,包含对颜色、氛围、场景布局、可能隐含的文本内容以及整体意境的更深入描述,简易完成即可。

2. 桌面控制 Agent

  • 核心目标: 通过自然语言指令,实现对电脑桌面的一些基础自动化操作。
  • 功能描述:
    • 基础功能: 用户通过语音或文字下达简单指令,Agent能够执行相应的桌面操作。例如:
      • 打开应用: “请打开浏览器。”
      • 控制媒体: “播放音乐”、“暂停视频”。
      • 基础系统操作: “调节音量到50%”、“截屏”。
    • 进阶功能(可选): 执行简单的文件管理,如“在桌面上新建一个名为‘项目’的文件夹”。
  • 技术要点: 使用脚本语言(如Python的pyautoguios模块)来模拟键盘和鼠标操作,先在hyprland或者windows上实现。

3. 翻译 Agent

  • 核心目标: 实现一个在多种语言间进行准确、上下文感知的翻译智能体。
  • 功能描述:
    • 多语言支持: 至少支持中、英、日、法等几种主流语言之间的互译。
    • 上下文理解: 能够处理并翻译短句、长段落,并保持上下文连贯性。
    • 风格调节: 提供简单的翻译风格选项,例如“正式书面语”或“日常口语”,以适应不同场景。
    • 术语一致性: 在单次会话或指定任务中,对特定词汇(如人名、专业术语)的翻译保持一致。

4. 面试官 Agent

  • 核心目标: 模拟一个特定岗位的面试官,与用户进行模拟面试。
  • 功能描述:
    • 岗位定制: 允许用户输入一个目标职位(如“Java后端工程师”、“市场营销实习生”),Agent 将据此生成相关问题。
    • 交互式问答: 逐一提出问题,等待用户回答(文本形式),并根据用户的回答进行适当的追问或引导。
    • 基础反馈: 在模拟面试结束后,能提供一份简单的反馈报告,可能包括:回答的完整性、与岗位的相关性、以及一些通用的改进建议。

5. 消息检测与回复 Agent

  • 核心目标: 实现对接收到的消息(如短信、邮件、聊天信息)进行智能分析和自动生成回复建议。
  • 功能描述:
    • 消息分类: 能够判断消息的意图和紧急程度,例如:问候、提问、投诉、通知、垃圾信息。
    • 情感分析: 初步判断消息发送者的情绪(需要搭建情绪判断机制)。
    • 回复建议: 根据消息内容和分析结果,自动生成2-3个合适的回复选项供用户选择。
    • 自动回复: 对于非常明确且简单的消息(如“收到谢谢”)进行,实现即可。

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions