Modelle von Dixon-Coles und Poisson in der Fußballprognose
Fußballtore folgen überraschend vorhersehbaren statistischen Mustern. Die Poisson-Verteilung ist seit den 1950er Jahren das Rückgrat der Torschussmodelle, und durch die Dixon-Coles-Korrektur wurde sie für die Neuzeit verfeinert. So funktionieren diese Modelle — und wie ExPrysm mit maschinellem Lernen auf ihnen aufbaut.
Einführung in die statistische Fußballprognose
Fußballspiele statistisch vorherzusagen bedeutet, die Wahrscheinlichkeit jedes möglichen Ergebnisses abzuschätzen — nicht einen Gewinner auszuwählen. Die Grundlage der meisten torbasierten Modelle ist eine einfache Beobachtung: Die Anzahl der Tore, die eine Mannschaft in einem Spiel erzielt, folgt ziemlich genau einer Poisson-Verteilung.
Diese Erkenntnis, die zuerst von Moroney (1956) dokumentiert und später von Maher (1982) formalisiert wurde, ermöglicht es uns, eine vollständige Wahrscheinlichkeitsmatrix für jedes Spiel zu erstellen, wenn wir die erwarteten Tore der einzelnen Teams abschätzen können (λ). Aus dieser Matrix kann jeder Markt — 1X2, BTTS, Über/Unter, richtiges Ergebnis, asiatisches Handicap — mathematisch abgeleitet werden.
Die Poisson-Verteilung und Fußball
Die Poisson-Verteilung modelliert die Wahrscheinlichkeit, dass eine bestimmte Anzahl von Ereignissen in einem festen Intervall auftritt, wenn Ereignisse unabhängig voneinander mit einer konstanten Durchschnittsrate auftreten. Beim Fußball ist das „Ereignis“ ein Tor und die „Pause“ ein Spiel.
Die Wahrscheinlichkeit von genau k Ziele bei einer erwarteten Rate λ sind:
P (X = k) = (λk × e−λ) / k!
Wobei λ die erwartete Anzahl von Toren ist, e ≈ 2.71828, und k! ist die Faktorielle von k.
Warum funktioniert das beim Fußball? Tore sind relativ selten (in der Regel 1—3 pro Team und Spiel). Sie treten innerhalb eines Spiels etwas unabhängig voneinander auf, und die durchschnittliche Quote variiert je nach Teamstärke und Kontext. Diese Eigenschaften stimmen gut mit den Annahmen von Poisson überein.
P (0 Tore) = 22,3%
P (1 Tor) = 33,5%
P (2 Tore) = 25,1%
P (3 Tore) = 12,6%
P (4 Tore oder mehr) = 6,5%
Unabhängiges Poisson-Modell
Der einfachste Ansatz geht davon aus, dass Heim- und Auswärtstore unabhängig voneinander sind. Wenn wir λ schätzenZuhause und λabseits unabhängig davon ist die Wahrscheinlichkeit einer bestimmten Punktzahl (i, j) einfach:
P (Heim=I, weg=J) = PZuhause(i) × Pabseits(j)
Dadurch wird eine vollständige Scoreline-Wahrscheinlichkeitsmatrix generiert. Zum Beispiel mit λZuhause = 1,6 und λabseits = 1.1:
| Auswärts 0 | Auswärts 1 | Auswärts 2 | Auswärts 3 | |
|---|---|---|---|---|
| Zuhause 0 | 6.7% | 7.4% | 4.1% | 1.5% |
| Zuhause 1 | 10.8% | 11.8% | 6.5% | 2.4% |
| Zuhause 2 | 8.6% | 9.5% | 5.2% | 1.9% |
| Zuhause 3 | 4.6% | 5.1% | 2.8% | 1.0% |
From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.
Einschränkungen der Unabhängigkeit
Das unabhängige Modell hat einen bekannten Fehler: Es unterschätzt die Wahrscheinlichkeit von Unentschieden mit niedrigen Punktzahlen (insbesondere 0-0 und 1-1). Im echten Fußball treten diese Punktzahlen häufiger auf, als das unabhängige Modell vorhersagt. Hier kamen Dixon und Coles ins Spiel.
Die Dixon-Coles-Korrektur
In ihrer wegweisenden Arbeit aus dem Jahr 1997 führten Mark Dixon und Stuart Coles einen Korrekturfaktor α (rho) ein, der die gemeinsame Wahrscheinlichkeit für Ergebnisse mit niedriger Punktzahl anpasst. Die wichtigste Erkenntnis: Heim- und Auswärtstore sind nicht völlig unabhängig — taktische und psychologische Faktoren stellen eine Korrelation her, insbesondere in engen Spielen mit wenigen Treffern.
Die Korrektur bezieht sich auf vier spezifische Punktzahlen:
| Punktestand | Korrekturfaktor |
|---|---|
| 0-0 | 1 + λh × λa × ρ |
| 1-0 | 1 − λa × ρ |
| 0-1 | 1 − λh × ρ |
| 1-1 | 1 + ρ |
Wenn α negativ ist (was normalerweise der Fall ist, etwa −0,03 bis −0,10), steigen die Wahrscheinlichkeiten 0-0 und 1-1, während 1-0 und 0-1 abnehmen. Dies entspricht besser den beobachteten Frequenzen in realen Spieldaten.
Die Dixon-Coles-Korrektur hat eine geringe Größenordnung, ist aber im Vergleich zu Tausenden von Vorhersagen aussagekräftig. Sie wirkt sich in erster Linie auf Märkte mit einem korrekten Ergebnis und auf Märkte mit einem Wert unter 0,5/1,5 aus, in denen Ergebnisse mit niedrigen Punktzahlen dominieren.
So verwendet ExPrysm Poisson
ExPrysm verwendet nicht den klassischen Poisson-Ansatz, bei dem Angriffs- und Verteidigungsparameter anhand historischer Durchschnittswerte geschätzt werden. Stattdessen verwendet es einen Ansatz des maschinellen Lernens, der leistungsfähiger und flexibler ist:
Der Vorteil dieses Ansatzes gegenüber dem klassischen Dixon-Coles besteht darin, dass CatBoost nichtlineare Beziehungen zwischen Merkmalen und erwarteten Zielen erfassen kann. Es geht nicht von einem festen Angriffs-/Verteidigungsparameter pro Team aus — stattdessen lernt es, wie 53 verschiedene Kontextmerkmale zusammenwirken, um die erwartete Torquote für jedes einzelne Spiel zu ermitteln.
Produktion Ensemble
Für die Vorhersage des Endergebnisses (1X2) verwendet ExPrysm ein Produktionsensemble, das zwei Herangehensweisen kombiniert:
P (Ergebnis) = 0,70 × PCatBoost MS + 0,30 × PPoisson
Der CatBoost-Klassifikator für Spielergebnisse (69 Features, class_weights= [1.0, 1.3, 1.0]) liefert das Primärsignal, während die von Poisson abgeleiteten Wahrscheinlichkeiten eine ergänzende Perspektive aus dem Zielmodell hinzufügen.
Vom Poisson zum Markt
Sobald Sie die Score-Wahrscheinlichkeitsmatrix haben, ist die Ableitung von Marktwahrscheinlichkeiten eine einfache Arithmetik:
BTTS (Beide Teams erzielen ein Tor)
Addieren Sie alle Felder, in denen sowohl Heimtore ≥ 1 als auch Auswärtstore ≥ 1 sind. Äquivalent: P (BTTS) = 1 − P (Heim=0) − P (Auswärts=0) + P (0-0).
Über/Unter Toren
Für Über 2,5: Addieren Sie alle Zellen, in denen Heim + Auswärts ≥ 3 ist. Für Unter 2,5: Addieren Sie alle Zellen, in denen Heim + Auswärts ≤ 2 ist. Dieselbe Logik gilt für jede Zeile (1,5, 3,5 usw.).
Richtiges Ergebnis
Jede Zelle in der Matrix gibt direkt die Wahrscheinlichkeit dieser exakten Punktezahl an. Die wahrscheinlichste Punktezahl ist die Zelle mit dem höchsten Wert.
Asiatisches Handicap
Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.
Aus diesem Grund ist das Poisson-Zielmodell so wertvoll — ein einziges Paar von λ-Werten generiert gleichzeitig Wahrscheinlichkeiten für jeden zielbezogenen Markt. Erfahren Sie mehr über BTTS in unserem BTTS erklärt Führer.
Einschränkungen und Verbesserungen
Kein Modell ist perfekt. Der Poisson-Ansatz weist bekannte Einschränkungen auf, die ExPrysm durch sein Feature-Engineering behebt:
- Zeitlich variierender Angriff/Verteidigung: Die Teamstärke ändert sich im Laufe einer Saison. ExPrysm bewältigt dies durch PI-Bewertungen (täglich aktualisiert) und fortlaufende Formmerkmale und nicht durch statische Durchschnittswerte der Saison.
- Verfall des Heimvorteils: Der Heimvorteil ist seit 2010 im gesamten europäischen Fußball rückläufig und ging in den leeren Stadien der COVID-Ära weiter zurück. Die Modelle von ExPrysm ermitteln den aktuellen Heimvorteil aus aktuellen Daten und gehen nicht von einem festen Wert aus.
- Dynamik zwischen Pokal und Liga: Pokalspiele haben unterschiedliche taktische Profile (vorsichtiger, mehr Verlängerungsszenarien). Zu den Funktionen von ExPrysm gehört auch der Wettkampftyp, um diesen Unterschieden Rechnung zu tragen.
- Annahme der Unabhängigkeit: Der Dixon-Coles-Parameter ist zwar hilfreich, aber Tore innerhalb eines Spiels sind nie wirklich unabhängig. Eine Mannschaft, die mit 1:0 in Führung geht, spielt möglicherweise defensiver. Die nichtlineare Modellierung von CatBoost erfasst diese Dynamik teilweise durch kontextuelle Merkmale.
- Überdispersion: Bei einigen Märkten (Karten, Eckbälle) folgen die Tore Poisson nicht gut, weil die Varianz den Mittelwert übersteigt. ExPrysm verwendet stattdessen die negative binomiale Regression für diese Märkte.
Fazit
Die Poisson-Verteilung ist nach wie vor die eleganteste und praktischste Grundlage für die Modellierung von Fußballtoren. Die Dixon-Coles-Korrektur verfeinert sie für Ergebnisse mit niedrigen Punktzahlen. ExPrysm baut auf dieser Grundlage auf und ersetzt die einfache Parameterschätzung durch die CatBoost-Poisson-Regression. Dabei werden 53 Merkmale verwendet, um erwartete Ziele mit höherer Genauigkeit als mit klassischen Methoden vorherzusagen.
Das Ergebnis ist ein System, das aus einem einzigen Paar vorhergesagter λ-Werte kalibrierte Wahrscheinlichkeiten für jeden torbezogenen Markt generiert, kombiniert mit einem Klassifikator für direkte Spielergebnisse in einem 70/30-Ensemble für die endgültige 1X2-Vorhersage.
Sehen Sie, wie sich diese Modelle in der Praxis verhalten auf der Seite „Leistung“, mit Ergebnissen aus über 7.800 Spielen in über 100 Ligen.