feat(observability): add docker-compose for prometheus/grafana and create L2 support playbook

testeadoroficial · testeadoroficial · commit 98a702e3df67 · 2026-04-12T23:04:55.000-04:00
diff --git a/SUPPORT_PLAYBOOK.md b/SUPPORT_PLAYBOOK.md
@@ -0,0 +1,46 @@
+# BESSAI Support Playbook (L2)
+
+Este Runbook proporciona instrucciones de triaje rápido para el equipo de nivel 2 (L2 Support) en operaciones de despliegue y contención de incidentes del Gateway BESSAI-Edge.
+
+## 🛠 Diagnóstico: Alta Latencia (bess_fleet_latency_ms > 100ms)
+
+**Síntoma:** Grafana dispara la alerta `HighFleetLatency` para un `site_id` específico.
+**Impacto:** Los setpoints del VPP están experimentando retrasos considerables, arriesgando multas del mercado si la latencia rebasa los tiempos de inercia inyectables.
+
+### Pasos de Mitigación:
+1. **Verificar métricas en Grafana**:
+   - Acudir al Dashboard `BESSAI Fleet Overview`.
+   - Filtrar por `site_id` para aislar el nodo problemático.
+2. **Revisar logs de Pod**:
+   ```bash
+   kubectl logs deployment/bessai-edge --tail=100 | grep -i "latency\|error\|timeout"
+   ```
+3. **Comprobar cuellos de botella CPU / I/O**:
+   ```bash
+   kubectl top pods -n bessai-pilot
+   ```
+   Si la CPU está por encima del 85%, el HPA está asfixiado.
+4. **Escalar manualmente (Mitigación Inmediata)**:
+   Si HPA está atascado u oscilando:
+   ```bash
+   kubectl scale deployment bessai-edge --replicas=6 -n bessai-pilot
+   ```
+
+## 🔋 Diagnóstico: Aumento de Degradación (bess_battery_degradation)
+
+**Síntoma:** El score de degradación en un sitio escala a >1% drásticamente en menos de 24 horas.
+**Causa probable:** Curva de despacho extrema desde el optimizador (SocSwing extremo repetitivo).
+### Acción L2:
+- Contactar de inmediato con Operaciones (Mercado Técnico).
+- Desactivar inyecciones en el bloque afectado mediante Dashboard para aislar celda.
+
+---
+
+## ✅ Checklist Pre-Despliegue
+
+Antes de aplicar un nuevo `helm upgrade`, L2 o DevOps deben ratificar los siguientes checkpoints en `Staging`:
+
+- [ ] Validar `bess_fleet_latency_ms` (p99) <100ms utilizando `analyze_locust.py`.
+- [ ] Confirmar `bess_battery_degradation` <1% en la simulación de pre-producción.
+- [ ] Revisar alertas preexistentes en Prometheus (`http://prometheus:9090/alerts`) que indiquen inestabilidad.
+- [ ] Asegurarse de que el `readinessProbe` local devuelve HTTP 200 en `/metrics`.
diff --git a/docker-compose.yml b/docker-compose.yml
@@ -0,0 +1,34 @@
+version: '3.8'
+
+services:
+  # BESSAI Edge Gateway (Multi-Worker Emulation)
+  bessai-edge:
+    build: .
+    container_name: bessai-edge
+    ports:
+      - "8000:8000"
+    deploy:
+      replicas: 1  # Escalable en producción
+    # Override the command to use multiple workers if gunicorn/uvicorn is added
+    # command: ["gunicorn", "-w", "4", "-k", "aiohttp.GunicornWebWorker", "demo_server:app"]
+
+  # Prometheus TSDB
+  prometheus:
+    image: prom/prometheus:latest
+    container_name: prometheus
+    ports:
+      - "9090:9090"
+    volumes:
+      - ./prometheus.yml:/etc/prometheus/prometheus.yml
+
+  # Grafana Dashboard
+  grafana:
+    image: grafana/grafana:latest
+    container_name: grafana
+    ports:
+      - "3000:3000"
+    depends_on:
+      - prometheus
+    environment:
+      - GF_SECURITY_ADMIN_USER=admin
+      - GF_SECURITY_ADMIN_PASSWORD=admin
diff --git a/prometheus.yml b/prometheus.yml
@@ -0,0 +1,10 @@
+global:
+  scrape_interval: 5s
+  evaluation_interval: 15s
+
+scrape_configs:
+  - job_name: 'bessai-edge'
+    static_configs:
+      - targets: ['bessai-edge:8000']
+        labels:
+          deployment: "local-pilot"