Name	Name	Last commit message	Last commit date
parent directory ..
seed-driven-evaluation	seed-driven-evaluation
README.md	README.md
android-bench-architecture.md	android-bench-architecture.md
opik-bloom-integration.md	opik-bloom-integration.md
production-trace-eval-langfuse.md	production-trace-eval-langfuse.md

Name

Last commit message

Last commit date

seed-driven-evaluation

README.md

android-bench-architecture.md

opik-bloom-integration.md

production-trace-eval-langfuse.md

Agent Evaluation 学习笔记

Agent 性能测试、安全性评估和基准测试框架的模式分析。

定义

Agent Evaluation 涵盖：

基准测试：Agent 评估的标准化任务和指标
安全性测试：对抗性测试、红队测试、后门检测
性能监控：运行时可观测性和性能跟踪
行为分析：Agent 决策过程的可解释性

已索引主题

主题	描述	文档数
Seed-driven Evaluation	基于 Seed 的自适应行为评估模式	1
Production Tracing & Eval	生产级 trace 与可定制评估方案	3

其他文档

文档	描述	优先级
Opik Bloom 集成	评估框架与观测平台集成，Bloom 后门检测与 Opik 可观测性结合	P1
Android Bench 架构	ACEBench 工具使用基准测试架构分析	P2
Production Trace 与 Eval	Langfuse 生产级 trace 与评估方案	P2

建议添加的主题

主题	描述	潜在来源
seed-driven-evaluation	Seed-driven 自适应行为评估	bloom
benchmarks	标准化基准测试框架	agent-bench, SWE-bench
adversarial-testing	对抗性测试方法	各框架安全测试
performance-metrics	性能指标和评估维度	通用

仓库	描述
bloom	Backdooring LLMs for multi-agent environments
langfuse	生产级 trace + 可定制 eval 长期方案

添加笔记

在相应主题子目录下创建文档
遵循学习笔记模板
使用标签：evaluation, <主题>
更新本 README 索引
更新主索引

示例

添加 bloom 的后门检测分析：

mkdir -p docs/learns/evaluation/backdoor-detection
# 创建 bloom-backdoor-analysis.md

查看贡献指南 →

最后更新：2026-03-21

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

Agent Evaluation 学习笔记

定义

已索引主题

其他文档

建议添加的主题

相关仓库

添加笔记

示例

FilesExpand file tree

evaluation

Directory actions

More options

Directory actions

More options

Latest commit

History

evaluation

Folders and files

parent directory

README.md

Agent Evaluation 学习笔记

定义

已索引主题

其他文档

建议添加的主题

相关仓库

添加笔记

示例