Dieses Repository enthält eine umfassende Testsuite und Benchmarking-Umgebung für verschiedene AI-Coding-Assistenten und OpenCode-Plugins. Das Ziel ist es, Metriken wie Ausführungsgeschwindigkeit, Token-Verbrauch und Code-Qualität in isolierten Docker-Umgebungen zu vergleichen.
Wir vergleichen die Leistung von AI Agents in standardisierten Szenarien.
| Tool | Verzeichnis | Status | Beschreibung |
|---|---|---|---|
| Ralphy | /ralphy |
✅ Ready | PRD-Orchestrator mit striktem Workflow |
| OpenClaw | /openclaw |
🔧 Setup | Autonomer Agent für komplexe Aufgaben |
| Oh My OpenCode | /ohmyopencode |
⏳ Pending | Plugin-Sammlung und Hilfsmittel |
| BMAD Method | /bmadmethod |
⏳ Pending | Experimentelle Methodik |
- Docker & Docker Compose
- OpenCode CLI (optional, für lokale Entwicklung)
- Node.js 20+
Jeder Agent befindet sich in seinem eigenen Verzeichnis mit einem passenden Dockerfile und run.sh Skript.
Beispiel: Starten von Ralphy
cd ralphy
./run.shBeispiel: Starten von OpenClaw
cd openclaw
./run.shDas Projekt nutzt eine strikte Namenskonvention für Docker-Container, um Konflikte zu vermeiden und Filterung zu erleichtern.
- Images:
benchmark/<tool-name>(z.B.benchmark/ralphy) - Container:
benchmark--<tool-name>(z.B.benchmark--ralphy) - Labels:
project=benchmark,component=<tool-name>
Alle aktiven Benchmark-Container anzeigen:
docker ps --filter 'label=project=benchmark'Alle Agents werden gegen denselben Satz von Aufgaben getestet, um Vergleichbarkeit zu gewährleisten.
Detaillierte Aufgabenbeschreibung: 📄 benchmark/standard_tasks.md
- Setup: Initialisierung der Umgebung.
- Implementation: Umsetzung eines Features (z.B. Weather CLI).
- Refactoring: Code-Verbesserung.
- Testing: Schreiben und Ausführen von Tests.
Detaillierte Analysen und Gedanken zur Architektur finden sich im Ordner my_idea.
Erstellt von Enving