Agent Eval: Replace existing eval framework

## Replace Existing Eval Framework

The existing `src/gaia/eval/` (~9,200 lines) is replaced entirely by the new agent eval framework. No backwards compatibility.

### Files to Remove
- [ ] `src/gaia/eval/eval.py` (3,336 lines) — old Evaluator class
- [ ] `src/gaia/eval/groundtruth.py` (~1,000 lines) — old ground truth generator
- [ ] `src/gaia/eval/batch_experiment.py` (2,367 lines) — old batch runner
- [ ] `src/gaia/eval/transcript_generator.py` — not needed
- [ ] `src/gaia/eval/email_generator.py` — not needed
- [ ] `src/gaia/eval/fix_code_testbench/` — replaced by eval scenarios

### Files to Keep (absorbed into new framework)
- [ ] `src/gaia/eval/claude.py` — ClaudeClient (Anthropic SDK wrapper)
- [ ] `src/gaia/eval/config.py` — MODEL_PRICING + DEFAULT_CLAUDE_MODEL
- [ ] `src/gaia/eval/pdf_document_generator.py` → rename to `pdf_generator.py`

### CLI Changes
- [ ] Remove: `gaia eval`, `gaia groundtruth`, `gaia report`, `gaia create-template`, `gaia visualize`
- [ ] Add: `gaia eval agent` with flags `--fix`, `--audit-only`, `--generate-corpus`, `--compare`, `--resume`

### New Files
- [ ] `src/gaia/eval/runner.py` — AgentEvalRunner
- [ ] `src/gaia/eval/audit.py` — Architecture audit
- [ ] `src/gaia/eval/scorecard.py` — Scorecard generation + comparison
- [ ] `src/gaia/eval/webapp/` — Rewritten eval webapp

### Reference
- Plan: `docs/plans/agent-ui-eval-benchmark.md` §1.3 (Disposition table)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Agent Eval: Replace existing eval framework #573

Replace Existing Eval Framework

Files to Remove

Files to Keep (absorbed into new framework)

CLI Changes

New Files

Reference

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Agent Eval: Replace existing eval framework #573

Description

Replace Existing Eval Framework

Files to Remove

Files to Keep (absorbed into new framework)

CLI Changes

New Files

Reference

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions