Skip to content

Commit d139251

Browse files
committed
Update Documentation
1 parent dea3cd4 commit d139251

1 file changed

Lines changed: 45 additions & 7 deletions

File tree

README.md

Lines changed: 45 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -6,17 +6,55 @@ Els resultats estan compartits a https://www.softcatala.org/la-intelligencia-art
66
## Estructura del projecte
77

88
```
9-
model-eval/
10-
├── llm/ # Avaluació de models LLM
11-
│ ├── model.py # Pipeline d'avaluació per a un model
12-
│ ├── run_evals.py # Orquestrador per executar múltiples models
13-
│ └── summarize_results.py
14-
└── asr/ # Avaluació de models ASR
15-
└── hf-eval.py # Avaluació de WER/CER sobre FLEURS
9+
ai-eval-catalan/
10+
├── render_bar_charts.py # Genera gràfics de barres HTML
11+
├── render_tables.py # Genera taules HTML de resultats
12+
├── bar_chart_template.jinja # Plantilla per als gràfics de barres
13+
├── llm/ # Avaluació de models LLM
14+
│ ├── model.py # Pipeline d'avaluació per a un model
15+
│ ├── run_evals.py # Orquestrador per executar múltiples models
16+
│ ├── summarize_results.py # Genera el JSON i HTML de resultats
17+
│ ├── table_template.jinja # Plantilla per a la taula de resultats
18+
│ └── evals/ # Resultats JSON per model
19+
├── asr/ # Avaluació de models ASR
20+
│ ├── hf-eval.py # Avaluació de WER/CER sobre FLEURS
21+
│ ├── run_evals.py # Orquestrador per executar múltiples models
22+
│ ├── summarize_results.py # Genera el JSON i HTML de resultats
23+
│ ├── table_template.jinja # Plantilla per a la taula de resultats
24+
│ └── evals/ # Resultats JSON per model
25+
└── mt/ # Avaluació de traducció automàtica
26+
└── mt.py # Avaluació de models MT
1627
```
1728

1829
---
1930

31+
## Publicació automàtica de resultats (CI/CD)
32+
33+
Quan es fa un push a qualsevol branca, el workflow de GitHub Actions `.github/workflows/publish-llms-json.yml` executa automàticament els passos següents:
34+
35+
1. **Genera els fitxers de dades** a partir dels resultats JSON individuals de `llm/evals/` i `asr/evals/`:
36+
- `llm/summarize_results.py``llm/llms.json`
37+
- `asr/summarize_results.py``asr/asrs.json`
38+
39+
2. **Genera els fitxers HTML** de taules i gràfics de barres:
40+
- `render_tables.py``llm/llms_table.html`, `asr/asrs_table.html`
41+
- `render_bar_charts.py``llm/llms_bar.html`, `asr/asrs_bar.html`
42+
43+
3. **Puja els fitxers a la branca `prod-data`**, que actua com a repositori de dades en producció:
44+
```
45+
prod-data/
46+
├── llms.json
47+
├── llms_table.html
48+
├── llms_bar.html
49+
├── asrs.json
50+
├── asrs_table.html
51+
└── asrs_bar.html
52+
```
53+
54+
La web de [Softcatalà](https://www.softcatala.org) llegeix directament els fitxers de la branca `prod-data` per mostrar els resultats actualitzats.
55+
56+
---
57+
2058
## LLM — Avaluació de models de llenguatge
2159

2260
El pipeline `llm/model.py` avalua models GGUF (via `llama-server`) i models de l'API de Google AI (Gemini/Gemma) sobre benchmarks de català:

0 commit comments

Comments
 (0)