Agent 性能测试、安全性评估和基准测试框架的模式分析。
Agent Evaluation 涵盖:
- 基准测试:Agent 评估的标准化任务和指标
- 安全性测试:对抗性测试、红队测试、后门检测
- 性能监控:运行时可观测性和性能跟踪
- 行为分析:Agent 决策过程的可解释性
| 主题 | 描述 | 文档数 |
|---|---|---|
| Seed-driven Evaluation | 基于 Seed 的自适应行为评估模式 | 1 |
| Production Tracing & Eval | 生产级 trace 与可定制评估方案 | 3 |
| 文档 | 描述 | 优先级 |
|---|---|---|
| Opik Bloom 集成 | 评估框架与观测平台集成,Bloom 后门检测与 Opik 可观测性结合 | P1 |
| Android Bench 架构 | ACEBench 工具使用基准测试架构分析 | P2 |
| Production Trace 与 Eval | Langfuse 生产级 trace 与评估方案 | P2 |
| 主题 | 描述 | 潜在来源 |
|---|---|---|
| seed-driven-evaluation | Seed-driven 自适应行为评估 | bloom |
| benchmarks | 标准化基准测试框架 | agent-bench, SWE-bench |
| adversarial-testing | 对抗性测试方法 | 各框架安全测试 |
| performance-metrics | 性能指标和评估维度 | 通用 |
| 仓库 | 描述 |
|---|---|
| bloom | Backdooring LLMs for multi-agent environments |
| langfuse | 生产级 trace + 可定制 eval 长期方案 |
添加 bloom 的后门检测分析:
mkdir -p docs/learns/evaluation/backdoor-detection
# 创建 bloom-backdoor-analysis.md最后更新:2026-03-21