-
Notifications
You must be signed in to change notification settings - Fork 0
Open
Description
背景与目标:
为了构建一个多功能的AI助手生态系统,我们计划首先实现五个核心的、功能独立的Agent。这些Agent将作为基础模块,展示AI在特定任务上的能力,并为未来更复杂的集成和自动化流程打下基础。
开发时使用llama.cpp或者ollama进行模型的调用
1. 图像识别 Agent
- 核心目标: 实现一个能够理解图片内容并生成描述的智能体。
- 功能描述:
- 输入: 支持常见格式(如 JPG, PNG)的图片文件或图片URL链接。
- 处理: 利用多模态大模型(如 GPT-4V, Gemini Vision 或开源替代品)分析图片。
- 输出: 生成对图片的自然语言描述。描述程度可以分为两个可选的模式:
- 基础模式: 描述图片中的主要物体、人物、场景和主要动作。
- 详细模式: 在基础之上,包含对颜色、氛围、场景布局、可能隐含的文本内容以及整体意境的更深入描述,简易完成即可。
2. 桌面控制 Agent
- 核心目标: 通过自然语言指令,实现对电脑桌面的一些基础自动化操作。
- 功能描述:
- 基础功能: 用户通过语音或文字下达简单指令,Agent能够执行相应的桌面操作。例如:
- 打开应用: “请打开浏览器。”
- 控制媒体: “播放音乐”、“暂停视频”。
- 基础系统操作: “调节音量到50%”、“截屏”。
- 进阶功能(可选): 执行简单的文件管理,如“在桌面上新建一个名为‘项目’的文件夹”。
- 基础功能: 用户通过语音或文字下达简单指令,Agent能够执行相应的桌面操作。例如:
- 技术要点: 使用脚本语言(如Python的
pyautogui、os模块)来模拟键盘和鼠标操作,先在hyprland或者windows上实现。
3. 翻译 Agent
- 核心目标: 实现一个在多种语言间进行准确、上下文感知的翻译智能体。
- 功能描述:
- 多语言支持: 至少支持中、英、日、法等几种主流语言之间的互译。
- 上下文理解: 能够处理并翻译短句、长段落,并保持上下文连贯性。
- 风格调节: 提供简单的翻译风格选项,例如“正式书面语”或“日常口语”,以适应不同场景。
- 术语一致性: 在单次会话或指定任务中,对特定词汇(如人名、专业术语)的翻译保持一致。
4. 面试官 Agent
- 核心目标: 模拟一个特定岗位的面试官,与用户进行模拟面试。
- 功能描述:
- 岗位定制: 允许用户输入一个目标职位(如“Java后端工程师”、“市场营销实习生”),Agent 将据此生成相关问题。
- 交互式问答: 逐一提出问题,等待用户回答(文本形式),并根据用户的回答进行适当的追问或引导。
- 基础反馈: 在模拟面试结束后,能提供一份简单的反馈报告,可能包括:回答的完整性、与岗位的相关性、以及一些通用的改进建议。
5. 消息检测与回复 Agent
- 核心目标: 实现对接收到的消息(如短信、邮件、聊天信息)进行智能分析和自动生成回复建议。
- 功能描述:
- 消息分类: 能够判断消息的意图和紧急程度,例如:问候、提问、投诉、通知、垃圾信息。
- 情感分析: 初步判断消息发送者的情绪(需要搭建情绪判断机制)。
- 回复建议: 根据消息内容和分析结果,自动生成2-3个合适的回复选项供用户选择。
- 自动回复: 对于非常明确且简单的消息(如“收到谢谢”)进行,实现即可。
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels