Einführung in die statistische Fußballprognose

Fußballspiele statistisch vorherzusagen bedeutet, die Wahrscheinlichkeit jedes möglichen Ergebnisses abzuschätzen — nicht einen Gewinner auszuwählen. Die Grundlage der meisten torbasierten Modelle ist eine einfache Beobachtung: Die Anzahl der Tore, die eine Mannschaft in einem Spiel erzielt, folgt ziemlich genau einer Poisson-Verteilung.

Diese Erkenntnis, die zuerst von Moroney (1956) dokumentiert und später von Maher (1982) formalisiert wurde, ermöglicht es uns, eine vollständige Wahrscheinlichkeitsmatrix für jedes Spiel zu erstellen, wenn wir die erwarteten Tore der einzelnen Teams abschätzen können (λ). Aus dieser Matrix kann jeder Markt — 1X2, BTTS, Über/Unter, richtiges Ergebnis, asiatisches Handicap — mathematisch abgeleitet werden.

Die Poisson-Verteilung und Fußball

Die Poisson-Verteilung modelliert die Wahrscheinlichkeit, dass eine bestimmte Anzahl von Ereignissen in einem festen Intervall auftritt, wenn Ereignisse unabhängig voneinander mit einer konstanten Durchschnittsrate auftreten. Beim Fußball ist das „Ereignis“ ein Tor und die „Pause“ ein Spiel.

Die Wahrscheinlichkeit von genau k Ziele bei einer erwarteten Rate λ sind:

Poisson-Formel

P (X = k) = (λk × e−λ) / k!

Wobei λ die erwartete Anzahl von Toren ist, e ≈ 2.71828, und k! ist die Faktorielle von k.

Warum funktioniert das beim Fußball? Tore sind relativ selten (in der Regel 1—3 pro Team und Spiel). Sie treten innerhalb eines Spiels etwas unabhängig voneinander auf, und die durchschnittliche Quote variiert je nach Teamstärke und Kontext. Diese Eigenschaften stimmen gut mit den Annahmen von Poisson überein.

Beispiel: λ = 1,5 Tore

P (0 Tore) = 22,3%

P (1 Tor) = 33,5%

P (2 Tore) = 25,1%

P (3 Tore) = 12,6%

P (4 Tore oder mehr) = 6,5%

Unabhängiges Poisson-Modell

Der einfachste Ansatz geht davon aus, dass Heim- und Auswärtstore unabhängig voneinander sind. Wenn wir λ schätzenZuhause und λabseits unabhängig davon ist die Wahrscheinlichkeit einer bestimmten Punktzahl (i, j) einfach:

Gemeinsame Wahrscheinlichkeit

P (Heim=I, weg=J) = PZuhause(i) × Pabseits(j)

Dadurch wird eine vollständige Scoreline-Wahrscheinlichkeitsmatrix generiert. Zum Beispiel mit λZuhause = 1,6 und λabseits = 1.1:

Auswärts 0Auswärts 1Auswärts 2Auswärts 3
Zuhause 06.7%7.4%4.1%1.5%
Zuhause 110.8%11.8%6.5%2.4%
Zuhause 28.6%9.5%5.2%1.9%
Zuhause 34.6%5.1%2.8%1.0%

From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.

Einschränkungen der Unabhängigkeit

Das unabhängige Modell hat einen bekannten Fehler: Es unterschätzt die Wahrscheinlichkeit von Unentschieden mit niedrigen Punktzahlen (insbesondere 0-0 und 1-1). Im echten Fußball treten diese Punktzahlen häufiger auf, als das unabhängige Modell vorhersagt. Hier kamen Dixon und Coles ins Spiel.

Die Dixon-Coles-Korrektur

In ihrer wegweisenden Arbeit aus dem Jahr 1997 führten Mark Dixon und Stuart Coles einen Korrekturfaktor α (rho) ein, der die gemeinsame Wahrscheinlichkeit für Ergebnisse mit niedriger Punktzahl anpasst. Die wichtigste Erkenntnis: Heim- und Auswärtstore sind nicht völlig unabhängig — taktische und psychologische Faktoren stellen eine Korrelation her, insbesondere in engen Spielen mit wenigen Treffern.

Die Korrektur bezieht sich auf vier spezifische Punktzahlen:

PunktestandKorrekturfaktor
0-01 + λh × λa × ρ
1-01 − λa × ρ
0-11 − λh × ρ
1-11 + ρ

Wenn α negativ ist (was normalerweise der Fall ist, etwa −0,03 bis −0,10), steigen die Wahrscheinlichkeiten 0-0 und 1-1, während 1-0 und 0-1 abnehmen. Dies entspricht besser den beobachteten Frequenzen in realen Spieldaten.

Die Dixon-Coles-Korrektur hat eine geringe Größenordnung, ist aber im Vergleich zu Tausenden von Vorhersagen aussagekräftig. Sie wirkt sich in erster Linie auf Märkte mit einem korrekten Ergebnis und auf Märkte mit einem Wert unter 0,5/1,5 aus, in denen Ergebnisse mit niedrigen Punktzahlen dominieren.

So verwendet ExPrysm Poisson

ExPrysm verwendet nicht den klassischen Poisson-Ansatz, bei dem Angriffs- und Verteidigungsparameter anhand historischer Durchschnittswerte geschätzt werden. Stattdessen verwendet es einen Ansatz des maschinellen Lernens, der leistungsfähiger und flexibler ist:

1
CatBoost Poisson-Regression
Zwei separate CatBoost-Modelle (home_goals.cbm und away_goals.cbm) werden mit Poisson-Verlust trainiert, um λ vorherzusagenZuhause und λabseits direkt. Jedes Modell verwendet 53 Funktionen, darunter PI-Bewertungen, Formularmetriken und Kopf-an-Kopf-Statistiken.
2
Generierung der Poisson-Verteilung
Die vorhergesagten λ-Werte werden in die Poisson-Wahrscheinlichkeitsmassenfunktion eingespeist, um eine vollständige Wahrscheinlichkeitsmatrix für das Ergebnis zu erstellen (in der Regel 0—7 Tore für jedes Team).
3
Marktableitung
Die Scoreline-Matrix wird aggregiert, um Wahrscheinlichkeiten für jeden Markt zu ermitteln: BTTS, Über/Unter, korrekter Punktestand, asiatische Handicap-Linien und mehr.

Der Vorteil dieses Ansatzes gegenüber dem klassischen Dixon-Coles besteht darin, dass CatBoost nichtlineare Beziehungen zwischen Merkmalen und erwarteten Zielen erfassen kann. Es geht nicht von einem festen Angriffs-/Verteidigungsparameter pro Team aus — stattdessen lernt es, wie 53 verschiedene Kontextmerkmale zusammenwirken, um die erwartete Torquote für jedes einzelne Spiel zu ermitteln.

Produktion Ensemble

Für die Vorhersage des Endergebnisses (1X2) verwendet ExPrysm ein Produktionsensemble, das zwei Herangehensweisen kombiniert:

Ensemble-Formel

P (Ergebnis) = 0,70 × PCatBoost MS + 0,30 × PPoisson

Der CatBoost-Klassifikator für Spielergebnisse (69 Features, class_weights= [1.0, 1.3, 1.0]) liefert das Primärsignal, während die von Poisson abgeleiteten Wahrscheinlichkeiten eine ergänzende Perspektive aus dem Zielmodell hinzufügen.

Vom Poisson zum Markt

Sobald Sie die Score-Wahrscheinlichkeitsmatrix haben, ist die Ableitung von Marktwahrscheinlichkeiten eine einfache Arithmetik:

BTTS (Beide Teams erzielen ein Tor)

Addieren Sie alle Felder, in denen sowohl Heimtore ≥ 1 als auch Auswärtstore ≥ 1 sind. Äquivalent: P (BTTS) = 1 − P (Heim=0) − P (Auswärts=0) + P (0-0).

Über/Unter Toren

Für Über 2,5: Addieren Sie alle Zellen, in denen Heim + Auswärts ≥ 3 ist. Für Unter 2,5: Addieren Sie alle Zellen, in denen Heim + Auswärts ≤ 2 ist. Dieselbe Logik gilt für jede Zeile (1,5, 3,5 usw.).

Richtiges Ergebnis

Jede Zelle in der Matrix gibt direkt die Wahrscheinlichkeit dieser exakten Punktezahl an. Die wahrscheinlichste Punktezahl ist die Zelle mit dem höchsten Wert.

Asiatisches Handicap

Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.

Aus diesem Grund ist das Poisson-Zielmodell so wertvoll — ein einziges Paar von λ-Werten generiert gleichzeitig Wahrscheinlichkeiten für jeden zielbezogenen Markt. Erfahren Sie mehr über BTTS in unserem BTTS erklärt Führer.

Einschränkungen und Verbesserungen

Kein Modell ist perfekt. Der Poisson-Ansatz weist bekannte Einschränkungen auf, die ExPrysm durch sein Feature-Engineering behebt:

  • Zeitlich variierender Angriff/Verteidigung: Die Teamstärke ändert sich im Laufe einer Saison. ExPrysm bewältigt dies durch PI-Bewertungen (täglich aktualisiert) und fortlaufende Formmerkmale und nicht durch statische Durchschnittswerte der Saison.
  • Verfall des Heimvorteils: Der Heimvorteil ist seit 2010 im gesamten europäischen Fußball rückläufig und ging in den leeren Stadien der COVID-Ära weiter zurück. Die Modelle von ExPrysm ermitteln den aktuellen Heimvorteil aus aktuellen Daten und gehen nicht von einem festen Wert aus.
  • Dynamik zwischen Pokal und Liga: Pokalspiele haben unterschiedliche taktische Profile (vorsichtiger, mehr Verlängerungsszenarien). Zu den Funktionen von ExPrysm gehört auch der Wettkampftyp, um diesen Unterschieden Rechnung zu tragen.
  • Annahme der Unabhängigkeit: Der Dixon-Coles-Parameter ist zwar hilfreich, aber Tore innerhalb eines Spiels sind nie wirklich unabhängig. Eine Mannschaft, die mit 1:0 in Führung geht, spielt möglicherweise defensiver. Die nichtlineare Modellierung von CatBoost erfasst diese Dynamik teilweise durch kontextuelle Merkmale.
  • Überdispersion: Bei einigen Märkten (Karten, Eckbälle) folgen die Tore Poisson nicht gut, weil die Varianz den Mittelwert übersteigt. ExPrysm verwendet stattdessen die negative binomiale Regression für diese Märkte.

Fazit

Die Poisson-Verteilung ist nach wie vor die eleganteste und praktischste Grundlage für die Modellierung von Fußballtoren. Die Dixon-Coles-Korrektur verfeinert sie für Ergebnisse mit niedrigen Punktzahlen. ExPrysm baut auf dieser Grundlage auf und ersetzt die einfache Parameterschätzung durch die CatBoost-Poisson-Regression. Dabei werden 53 Merkmale verwendet, um erwartete Ziele mit höherer Genauigkeit als mit klassischen Methoden vorherzusagen.

Das Ergebnis ist ein System, das aus einem einzigen Paar vorhergesagter λ-Werte kalibrierte Wahrscheinlichkeiten für jeden torbezogenen Markt generiert, kombiniert mit einem Klassifikator für direkte Spielergebnisse in einem 70/30-Ensemble für die endgültige 1X2-Vorhersage.

Sehen Sie, wie sich diese Modelle in der Praxis verhalten auf der Seite „Leistung“, mit Ergebnissen aus über 7.800 Spielen in über 100 Ligen.