Was sind ELO-Bewertungen?

Das ELO-Bewertungssystem wurde in den 1960er Jahren von Arpad Elo erfunden, um Schachspieler zu bewerten. Die Kernidee ist wunderbar einfach: Jedes Team beginnt mit einer Basiswertung (normalerweise 1500), und nach jedem Spiel gewinnt der Gewinner Punkte, während der Verlierer Punkte verliert. Der überwiesene Betrag hängt davon ab, wie überraschend das Ergebnis war.

Wenn ein starkes Team ein schwaches Team besiegt, wechseln nur wenige Punkte den Besitzer — das Ergebnis war zu erwarten. Gewinnt das schwache Team, werden viele Punkte übertragen — die Überraschung enthält mehr Informationen. Im Laufe der Zeit gleichen sich die Bewertungen an, um die wahre Stärke des Teams widerzuspiegeln.

ELO wurde von mehreren Forschern und Organisationen für den Fußball adaptiert, darunter die FIFA (für ihre Weltrangliste bis 2018) und FiveThirtyEight. Es funktioniert gut, weil es im Fußball klare Siege/Unentschieden/Niederlagen gibt und die Teams häufig genug spielen, damit die Bewertungen aktuell bleiben.

So funktioniert ELO

Die ELO-Aktualisierungsregel besteht aus drei Komponenten:

Erwartetes Ergebnis

Vor einem Spiel wird das erwartete Ergebnis für die Heimmannschaft aus der Bewertungsdifferenz berechnet:

Formel für das erwartete Ergebnis

EZuhause = 1 / (1 + 10(Rabseits − RZuhause − HFA)/400)

Dabei ist R die aktuelle Bewertung und HFA die Anpassung des Heimvorteils (in der Regel 50—100 Punkte).

K-Faktor

Der K-Faktor steuert, wie stark sich die Bewertungen nach jedem Spiel ändern. Ein höheres K bedeutet, dass die Bewertungen schneller auf aktuelle Ergebnisse reagieren (volatiler), während ein niedrigeres K bedeutet, dass die Bewertungen stabiler sind, sich aber langsamer anpassen. Typische Werte für Fußball liegen zwischen 20 und 40.

Regel aktualisieren

Nach dem Spiel werden die Bewertungen auf der Grundlage der Differenz zwischen dem tatsächlichen Ergebnis und dem erwarteten Ergebnis aktualisiert:

ELO-Aktualisierung

Rnew = Rold + K × (S)tatsächliche − Eerwartet)

Wo Statsächliche = 1 für einen Sieg, 0,5 für ein Unentschieden, 0 für eine Niederlage.

Beispiel

Team A (Wertung 1650) spielt zu Hause gegen Team B (Wertung 1500). Bei K=30 und HFA=65:

EA = 1 / (1 + 10(1500 − 1650 − 65) /400) = 0.78

Wenn Team A gewinnt: RA = 1650 + 30 × (1 − 0,78) = 1656,6 (+6,6)

Wenn Team B gewinnt: RA = 1650 + 30 × (0 − 0,78) = 1626,6 (−23,4)

Die Überraschung überträgt weit mehr Bewertungspunkte als das erwartete Ergebnis.

ELO im Fußballkontext

Warum es funktioniert

ELO erfasst zwei Dinge gleichzeitig: die zugrundeliegende Teamqualität und die aktuelle Form. Bei einer Mannschaft, die eine Siegesserie hinter sich hat, steigt ihre Wertung, was sowohl eine echte Verbesserung als auch eine Dynamik widerspiegelt. Dies macht ELO zu einer kompakten, informationsreichen Funktion für Prognosemodelle.

Einschränkungen

Die Standard-ELO hat eine grundlegende Einschränkung für den Fußball: Sie gibt eine einzige Zahl pro Team aus. Das bedeutet, dass es nicht zwischen einer Mannschaft unterscheiden kann, die stark im Angriff, aber schwach in der Verteidigung ist, oder einer Mannschaft, die zu Hause und auswärts unterschiedlich abschneidet. Ein Team mit einer Wertung von 1600 kann ein Team mit 3:2 oder ein Team mit 1:0 sein — ELO behandelt sie identisch.

Pi-ratings: Die nächste Entwicklung

2013 veröffentlichten Anthony Constantinou und Norman Fenton einen Artikel, in dem Pi-ratings vorgestellt wurden — ein Bewertungssystem, das speziell für den Fußball entwickelt wurde und die wichtigsten Einschränkungen von ELO berücksichtigt. Statt einer Zahl pro Team gibt es bei den Pi-ratings vier Zahlen:

⚔️
Heimangriff
Angriffsstärke beim Heimspiel
🛡️
Verteidigung zu Hause
Defensive Stärke beim Heimspiel
⚔️
Auswärtsangriff
Angriffsstärke beim Auswärtsspiel
🛡️
Auswärtsverteidigung
Defensivstärke beim Auswärtsspiel

Das Pi-ratings-System verwendet drei wichtige Parameter aus dem Originalpapier:

ParameterWertZweck
b10Basismultiplikator für Rating-Updates
c3Steuert die Empfindlichkeit gegenüber der Tordifferenz
lr0.1Lernrate — wie schnell sich Bewertungen anpassen

Nach jedem Spiel werden alle vier Wertungen für beide Teams auf der Grundlage der erzielten und kassierten Tore aktualisiert. Die Heimangriffswertung erhöht sich, wenn die Mannschaft zu Hause ein Tor erzielt; die Auswärtsverteidigungswertung des Gegners sinkt. Dadurch entsteht ein reichhaltiges, mehrdimensionales Bild der Mannschaftsstärke.

Die PI-Bewertungen werden nach jedem Spieltag schrittweise aktualisiert. ExPrysm führt tägliche Updates durch, um sicherzustellen, dass die Bewertungen die neuesten Ergebnisse widerspiegeln, bevor Vorhersagen generiert werden.

So nutzt ExPrysm Teambewertungen

ExPrysm verwendet keine ELO- oder Pi-ratings als eigenständige Prädiktoren. Stattdessen dienen sie als Funktionen innerhalb der CatBoost-Gradienten-Boosting-Modelle:

  • Ergebnismodell abgleichen: Verwendet unter seinen 69 Funktionen sowohl ELO- als auch Pi-ratings. Der CatBoost-Klassifikator lernt, wie Bewertungsunterschiede mit anderen Merkmalen (Form, Kopf-an-Kopf, Ligaplatzierung) interagieren, um Spielergebnisse vorherzusagen.
  • Zielmodell: Die Poisson-Regressionsmodelle (53 Merkmale) verwenden PI-Werte, um die erwarteten Ziele vorherzusagen. Die Trennung von Angriff und Abwehr ist hier besonders wichtig — die Heimangriffswertung einer Mannschaft gibt direkt Aufschluss darüber, wie viele Tore sie wahrscheinlich erzielen wird.
  • Bedeutung der Funktion: Pi-ratings machen etwa 24,5% der gesamten Merkmalswichtigkeit im Match-Ergebnismodell aus und sind damit die einflussreichste Merkmalsgruppe. Dies bestätigt, dass die Messung der Teamstärke die Grundlage für genaue Vorhersagen ist.

Die wichtigste Designentscheidung in ExPrysm ist, dass die Modelle keine auf Gewinnchancen beruhenden Funktionen verwenden. Die Teambewertungen liefern das „marktunabhängige“ Stärkensignal, das es dem Modell ermöglicht, seine eigenen Wahrscheinlichkeitsschätzungen zu erstellen, ohne an Buchmacherquoten gebunden zu sein.

Vergleich zwischen ELO und Pi-ratings

AspektELOPi-Bewertungen
Werte pro Team14
Trennung von Angriff und VerteidigungNoYes
Startseite/Away SplitNein (fester HFA)Ja (separate Bewertungen)
Verwendete TordifferenzFakultativEingebaut
KomplexitätEinfachMäßig
InterpretierbarkeitSehr hochHoch
InformationsdichteLowHoch
Akademische GrundlageElo (1960er Jahre)Constantinou & Fenton (2013)

Beide Systeme haben einen Wert. ELO bietet eine einfache, interpretierbare Ausgangsbasis — Sie können sofort verstehen, dass ein Team mit einer Bewertung von 1700 stärker ist als ein Team mit einer Bewertung von 1500. PI-Bewertungen bieten umfassendere Informationen, die Modelle für maschinelles Lernen ausnutzen können, insbesondere in Bezug auf Angriff und Verteidigung und die Trennung von Heim und Auswärts.

Praktische Auswirkungen auf Prognosen

Wie wirken sich Bewertungsunterschiede auf Gewinnwahrscheinlichkeiten aus? Hier ist eine ungefähre Abbildung der ELO-Unterschiede:

ELO-UnterschiedStärkerer Teamsieg%Unentschieden%Schwächerer Teamsieg%
0 (gleich)~36%~28%~36%
+100~45%~27%~28%
+200~55%~24%~21%
+300~64%~21%~15%
+400~72%~17%~11%

Dies sind grobe Schätzungen — das CatBoost-Modell von ExPrysm liefert differenziertere Wahrscheinlichkeiten, indem es alle 69 Merkmale zusammen betrachtet, nicht nur den Bewertungsunterschied. Diese Tabelle zeigt jedoch, warum Bewertungen so wertvoll sind: Sie komprimieren die gesamte Spielhistorie einer Mannschaft zu einem einzigen, prädiktiven Signal.

Mit Pi-ratings wird das Modell noch granularer. Eine Mannschaft mit einer hohen Heimangriffswertung, aber einer niedrigen Auswärtsverteidigungswertung wird sehr unterschiedliche Vorhersagen treffen, je nachdem, ob sie zu Hause oder auswärts spielt — etwas, das eine einzelne ELO-Zahl nicht erfassen kann.

Fazit

ELO-Werte bieten ein bewährtes, interpretierbares Maß für die Teamstärke, das seit Jahrzehnten in allen Sportarten funktioniert. Pi-ratings erweitern dieses Konzept um die Dimensionen Angriff/Verteidigung und Heim/Auswärts, die im Fußball gefragt sind. ExPrysm verwendet beide Funktionen in seinen CatBoost-Modellen, bei denen allein die PI-Werte etwa 24,5% der Merkmalsbedeutung ausmachen. Dies bestätigt, dass die genaue Messung der Mannschaftsstärke die wichtigste Zutat bei Fußballvorhersagen ist.

Willst du die gesamte Plattform verstehen? Lesen Sie Was ist ExPrysm? für einen vollständigen Überblick darüber, wie alle Modelle zusammenarbeiten.