Replies: 1 comment
-
|
示例效果: |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
概述
本 RFC 描述了在
@lobechat/prompts包中使用 promptfoo 进行 AI 提示词质量保证的规范和最佳实践。动机
为什么需要提示词测试?
为什么选择 Promptfoo?
技术规范
目录结构
测试配置文件格式
每个提示词测试目录包含:
eval.yaml 示例
prompt.ts 示例
断言类型
1. llm-rubric - LLM 评判
使用 AI 模型评估输出质量:
适用场景:
2. contains / contains-any - 包含检查
适用场景:
3. not-contains - 排除检查
适用场景:
4. javascript - 自定义逻辑
适用场景:
工作流程
1. 创建新的提示词测试
2. 运行测试
3. 查看结果
4. 迭代优化
基于测试结果优化提示词:
src/chains/中的实现最佳实践
测试用例设计
1. 覆盖多种场景
2. 多语言测试
3. 多模型验证
断言设计
1. 组合使用多种断言
2. 指定评判模型
性能优化
1. 使用缓存
2. 并发控制
promptfoo 默认并发 5 个请求,可在配置中调整。
3. 成本控制
gpt-5-mini等便宜模型CI/CD 集成
GitHub Actions 示例
进展
Beta Was this translation helpful? Give feedback.
All reactions