[Feature] Add Modern Evaluation Metrics Framework

## Problem Statement

any-guardrail currently has no evaluation framework or metrics. This makes it impossible to:
- Measure guardrail performance scientifically
- Compare different guardrail models
- Validate improvements
- Benchmark against competitors

## Current State

- No evaluation metrics (checked codebase)
- Only basic pass/fail in `GuardrailOutput.valid`
- No benchmarking system
- No performance measurement

## Proposed Solution

Add comprehensive evaluation framework with modern metrics:

```python
from any_guardrail.evaluation import Evaluator

evaluator = Evaluator()
results = evaluator.evaluate(
    guardrail,
    test_data,
    metrics=['accuracy', 'f1', 'latency']
)

print(results)
# {
#   'accuracy': 0.92,
#   'f1_score': 0.89,
#   'latency_ms': 45,
#   'confusion_matrix': [[...]]
# }
```

## Features to Add

1. **Basic Metrics**:
   - Accuracy, Precision, Recall, F1
   - Confusion matrices
   - ROC curves

2. **Advanced Metrics**:
   - Semantic similarity (BERTScore)
   - Cross-lingual consistency
   - Latency and throughput

3. **Benchmarking**:
   - Standard test sets
   - Comparison reports
   - CI/CD integration

## Implementation Plan

```python
# src/any_guardrail/evaluation/
├── metrics.py       # Core metrics
├── benchmarks.py    # Standard datasets
├── reporter.py      # Generate reports
└── __init__.py
```

## Why This Matters

- Can't improve what you can't measure
- Users need to compare guardrail performance
- Required for research papers and publications
- Essential for production deployment decisions

## References

- [scikit-learn metrics](https://scikit-learn.org/stable/modules/model_evaluation.html)
- [BERTScore](https://github.com/Tiiiger/bert_score)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feature] Add Modern Evaluation Metrics Framework #109

Problem Statement

Current State

Proposed Solution

Features to Add

Implementation Plan

Why This Matters

References

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

[Feature] Add Modern Evaluation Metrics Framework #109

Description

Problem Statement

Current State

Proposed Solution

Features to Add

Implementation Plan

Why This Matters

References

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions