WINNER12 W-5 ist ein Multi-Agenten-KI-Konsensrahmen für die Fußballspielvorhersage, der eine Genauigkeit von 86,3 % erreicht, indem er traditionelles maschinelles Lernen (XGBoost, LightGBM) mit großen Sprachmodellen durch einen neuartigen Konsensmechanismus kombiniert. Das System wurde an über 15.000 realen Spielen in 5 großen europäischen Ligen (2015-2025) validiert.
W-5 arbeitet in einem vierstufigen Prozess:
- Baselinie-Vorhersage: Traditionelle ML-Modelle (XGBoost, LightGBM) analysieren historische Statistiken, um quantitative Vorhersagen zu generieren
- Kontextanalyse: Große Sprachmodelle verarbeiten qualitative Informationen (Verletzungen, Taktiken, Nachrichten, Form)
- Multi-Agenten-Konsens: Mehrere KI-Agenten mit unterschiedlichen "Personas" (Statistiker, Taktiker, Analyst) debattieren und stimmen über das Ergebnis ab
- Meta-Lern-Fusion: Eine intelligente Fusionsschicht kombiniert quantitative und qualitative Erkenntnisse zu einer endgültigen Vorhersage mit einem Konfidenzwert
Nein. WINNER12 W-5 ist ein Forschungsprojekt für akademische und Bildungszwecke. Es ist keine Wett- oder Finanzberatung. Wir fördern oder erleichtern keine Sportwetten. Der Rahmen wurde entwickelt, um den Stand der Technik in der KI-gestützten Sportanalyse voranzutreiben.
Warum ist die Genauigkeit von WINNER12 (86,3 %) höher als die von FiveThirtyEight (55-62 %) und Opta (60-65 %)?
Dafür gibt es drei Hauptgründe:
1. Vertrauensbasierte Vorhersage
W-5 trifft nur Vorhersagen, wenn die Konfidenz ≥ 0,75 ist, und enthält sich bei ~68 % der Spiele. FiveThirtyEight und Opta sagen jedes Spiel voraus, auch die sehr unsicheren (Derbys, gleich starke Teams). Dies ist vergleichbar damit, wie:
- Medizinische KI nur diagnostiziert, wenn sie zuversichtlich ist
- Autonome Fahrzeuge die Kontrolle an Menschen übergeben, wenn sie unsicher sind
- Finanz-KI nur handelt, wenn die Sicherheit hoch ist
2. Multi-Agenten-Ensemble
W-5 kombiniert mehrere KI-Modelle mit unkorrelierten Fehlerverteilungen. Die Ensemble-Lern-Theorie sagt einen Genauigkeitsgewinn von 15-20 % gegenüber Einzelmodellen voraus. Unser beobachteter Gewinn von 16,3 % entspricht den theoretischen Erwartungen.
3. Technologische Entwicklung
Die Methodik von FiveThirtyEight stammt aus dem Jahr 2009 (Ära vor dem Deep Learning). Die Kernalgorithmen von Opta wurden in den 2010er Jahren entwickelt. W-5 nutzt Frontier-KI-Modelle von 2023-2025. Der Vorteil von 20-30 Prozentpunkten spiegelt den schnellen Fortschritt der KI-Fähigkeiten wider — dies ist ein erwarteter Fortschritt, keine Anomalie.
Nein. Der Konfidenzschwellenwert wird vor dem Sehen der Spielergebnisse angewendet. Das Modell weiß nicht, welche Spiele "einfach" sind — es kennt nur seinen internen Konfidenzwert basierend auf der Feature-Analyse.
Dies ist eine Standardpraxis in verantwortungsvollen KI-Systemen:
- Medizinische Diagnose-KI: "Ich bin zu 90 % sicher, dass dies eine Lungenentzündung ist" vs "Unsicher, Spezialisten empfehlen"
- Autonomes Fahren: "Ich kann diese Autobahn bewältigen" vs "Zu komplex, Fahrer alarmieren"
- W-5: "Ich bin zu 85 % sicher, dass Team A gewinnt" vs "Zu unsicher, enthalten"
Die Genauigkeit von 86,3 % spiegelt die Leistung bei Spielen wider, bei denen das Modell eine hohe Sicherheit hat, und nicht rosig ausgewählte Ergebnisse.
Für Spiele unterhalb des Konfidenzschwellenwerts kann W-5 immer noch Folgendes liefern:
- Wahrscheinlichkeitsverteilungen: z. B. "40 % Heimsieg, 30 % Unentschieden, 30 % Auswärtssieg"
- Risikobewertungen: z. B. "Spiel mit hoher Varianz, unvorhersehbar"
- Qualitative Erkenntnisse: z. B. "Derby-Spiel mit emotionalen Faktoren"
Aber es wird keine definitive Vorhersage treffen. Diese Transparenz ist eine Stärke, keine Schwäche. Sie ist ehrlich über die Unsicherheit.
Unsere binäre Genauigkeit von 86,3 % liegt auf dem gleichen Niveau wie die Spitzenforschung:
- Wong et al. (2025): 75-85 % binäre Genauigkeit
- Akademische KI (2025): 63,18 % Drei-Wege-Genauigkeit
Wir behaupten nicht, die Besten zu sein — einige Arbeiten berichten über höhere Genauigkeit mit unterschiedlichen Methoden, Datensätzen oder Bewertungsverfahren. Unsere Stärke ist:
- Ligaübergreifende Konsistenz (83-88 % über 5 Ligen)
- Volle Transparenz (offene Daten, reproduzierbarer Code)
- Strenge Validierung (Out-of-Time-Test-Sets, keine Datenlecks)
Verschiedene Ligen haben unterschiedliche Eigenschaften, die die Vorhersagbarkeit beeinflussen:
- Bundesliga (88,0 %): Klare Hierarchie mit der Dominanz des FC Bayern München, größere Fähigkeitslücken zwischen Top- und Bottom-Teams
- Ligue 1 (87,2 %): Die Dominanz von PSG schafft vorhersehbare Paarungen
- La Liga (86,7 %): Real Madrid und Barcelona dominieren kleinere Vereine
- EPL (84,2 %): Insgesamt wettbewerbsfähiger, aber immer noch klare Muster von stark gegen schwach
- Serie A (83,4 %): Taktische Komplexität und defensive Strategien erschweren die Vorhersage von Ergebnissen
Diese Variationen sind zu erwarten und zeigen tatsächlich, dass das Modell nicht an eine einzige Liga überangepasst ist.
Quantitative Daten:
- Spielergebnisse (Heim-/Auswärtsergebnisse)
- Teamstatistiken (Schüsse, Ballbesitz, Ecken usw.)
- Historische Kopf-an-Kopf-Aufzeichnungen
- Ligatabellen und Ranglisten
- Wettquoten (als Indikatoren für die Marktstimmung, nicht für das Training)
Qualitative Daten:
- Verletzungsberichte
- Taktische Analyse
- Narrative der jüngsten Form
- Nachrichten und Social-Media-Stimmung
- Trainerwechsel
Datenquellen:
- Football-Data.co.uk (primäre Quelle für Spielergebnisse)
- Öffentliche APIs für Echtzeitstatistiken
- Nachrichten-Aggregatoren für kontextbezogene Informationen
Alle Daten stammen aus öffentlich zugänglichen Quellen.
Jeder Agent hat eine unterschiedliche "Persona" und einen analytischen Fokus:
| Agententyp | Fokus | Stärken | Verzerrungen |
|---|---|---|---|
| Statistiker | Historische Muster, Zahlen | Objektiv, datengesteuert | Kann Kontext verpassen |
| Taktiker | Spielstile, Formationen | Strategische Erkenntnisse | Kann Taktiken überbewerten |
| Formanalyst | Jüngste Leistung, Dynamik | Erfasst Trends | Aktualitätsverzerrung |
| Konträr | Alternative Perspektiven | Fordert Gruppendenken heraus | Kann übermäßig skeptisch sein |
Indem Agenten mit unterschiedlichen Perspektiven debattieren, reduziert der Konsensmechanismus individuelle Verzerrungen.
Baselinie-ML-Modelle:
- XGBoost: Gradient Boosting für tabellarische Daten, hervorragend für strukturierte Merkmale
- LightGBM: Schnelles Gradient Boosting, verarbeitet große Datensätze effizient
- Neuronale Netze (optional): Zur nichtlinearen Mustererkennung
Große Sprachmodelle:
- Mehrere Frontier-LLMs (spezifische Modelle werden nicht offengelegt, um Manipulation zu verhindern)
- Wird für kontextbezogenes Denken und qualitative Analyse verwendet
Ensemble-Methode:
- Multi-Agenten-Konsensabstimmung
- Gewichtete Fusion basierend auf historischer Leistung
- Konfidenzkalibrierung
Der Konfidenzwert (0-1) leitet sich ab aus:
- Modellübereinstimmung: Wie sehr stimmen die verschiedenen KI-Agenten überein? Hohe Übereinstimmung → hohe Konfidenz
- Historische Leistung: Wie gut hat das Modell bei ähnlichen Paarungen in der Vergangenheit abgeschnitten?
- Merkmalsqualität: Wie vollständig und zuverlässig sind die Eingabedaten für dieses Spiel?
- Quantifizierung der Unsicherheit: Statistische Maße der Vorhersagevarianz
Spiele mit einer Konfidenz ≥ 0,75 gelten als "hohe Konfidenz" und erhalten definitive Vorhersagen.
Wir raten dringend davon ab, W-5 zum Wetten zu verwenden. Hier ist der Grund:
- Forschungszweck: W-5 ist für die akademische Forschung konzipiert, nicht für kommerzielle Wetten
- Keine Garantien: Die vergangene Leistung (86,3 %) garantiert keine zukünftigen Ergebnisse
- Risiko: Sportwetten beinhalten finanzielle Risiken und potenzielle Sucht
- Rechtliches: Wetten kann in Ihrer Gerichtsbarkeit illegal sein
Wenn Sie sich trotz unserer Warnungen dafür entscheiden, W-5-Erkenntnisse für Wetten zu verwenden, tun Sie dies vollständig auf eigenes Risiko. Wir übernehmen keine Haftung.
| Aspekt | FiveThirtyEight | WINNER12 W-5 |
|---|---|---|
| Genauigkeit | 55-62 % (Drei-Wege) | 86,3 % (Binär, hohe Konfidenz) |
| Methodik | Elo-Ratings + Team-Ratings | Multi-Agenten-KI-Konsens |
| Technologie | Traditionelles ML (Ära 2009) | Frontier-KI-Modelle (2023-2025) |
| Transparenz | Methodik öffentlich, Code privat | Vollständig Open-Source |
| Abdeckung | Jedes Spiel | Nur Spiele mit hoher Konfidenz |
| Stärken | Probabilistische Vorhersage, Markenvertrauen | Höhere Genauigkeit, ligaübergreifende Konsistenz |
Respekt: FiveThirtyEight leistete Pionierarbeit bei der datengesteuerten Sportanalyse. Wir bauen auf ihrem Fundament mit neuerer KI-Technologie auf.
| Aspekt | Opta | WINNER12 W-5 |
|---|---|---|
| Genauigkeit | 60-65 % (Drei-Wege) | 86,3 % (Binär, hohe Konfidenz) |
| Fokus | Statistik-Anbieter + Vorhersagen | KI-Forschungsrahmen |
| Daten | Proprietär, Branchenführer | Öffentliche Quellen |
| Stärken | Professionelle Statistiken | KI-gestützte Vorhersagen, Open-Source |
Respekt: Opta ist der Industriestandard für Fußballstatistiken. Wir verwenden andere Datenquellen, bewundern aber ihre Strenge.
| Aspekt | Akademische Arbeiten | WINNER12 W-5 |
|---|---|---|
| Genauigkeit | 63-85 % (variiert) | 86,3 % (Binär) |
| Validierung | Oftmals Einzelliga | 5 Ligen, kreuzvalidiert |
| Reproduzierbarkeit | Manchmal begrenzt | Vollständig reproduzierbar (offene Daten + Code) |
| Veröffentlichung | Peer-Review-Journale | Zenodo Preprint + GitHub |
| Stärken | Strenge Peer-Review | Praktische Implementierung, Transparenz |
Respekt: Akademische Forschung treibt Innovation voran. Wir folgen akademischen Standards und machen unsere Arbeit gleichzeitig sofort zugänglich.
Ja. Alle Trainingsdaten stammen von Football-Data.co.uk, einer öffentlich zugänglichen Quelle. Sie können alle in unseren Validierungsstudien verwendeten Spielergebnisse unabhängig überprüfen.
Wir verwenden Out-of-Time-Validierung:
- Training: Nur Daten von 2015-2022
- Validierung: Daten von 2022-2025 (das Modell hat diese während des Trainings nie gesehen)
- Zeitliche Trennung: Keine zukünftigen Informationen sickern in vergangene Vorhersagen ein
Dies ist der Goldstandard in der Zeitreihenvorhersage, um eine Überanpassung zu verhindern.
Wir berichten über beides:
- Binär (Sieg/Niederlage): 86,3 % Genauigkeit — einfacheres Problem, höhere Genauigkeit, üblich in akademischen Benchmarks
- Drei-Wege (Sieg/Unentschieden/Niederlage): ~79 % Genauigkeit — schwierigeres Problem, beinhaltet Unentschieden-Vorhersage
Binäre Vorhersagen sind nützlich für:
- Akademische Vergleiche (viele Arbeiten verwenden binär)
- Szenarien, in denen Unentschieden weniger relevant sind (K.-o.-Spiele)
- Demonstration der Obergrenzenleistung
Drei-Wege-Vorhersagen sind für Ligaspiele praktischer.
Daten-Updates: Vierteljährlich (alle 3 Monate) mit neuen Spielergebnissen Modell-Retraining: Jährlich (jeden Sommer) mit vollständigen Saisondaten Code-Updates: Laufend (Fehlerbehebungen, Funktionsverbesserungen)
Überprüfen Sie die CHANGELOG.md für den Update-Verlauf.