Methodology

ELO-Wertungen im Fußball — Messung der Teamstärke für Prognosen

8 Minuten Lesezeit 26. Februar 2026 Technisch

Jedes Prognosemodell benötigt eine Methode, um zu messen, wie stark eine Mannschaft gerade ist — nicht in der letzten Saison, nicht historisch, sondern heute. ELO-Bewertungen bieten eine einfache, elegante Lösung. Pi-ratings gehen noch einen Schritt weiter, indem sie Angriff von Verteidigung und Heim von Auswärts trennen. Hier erfahren Sie, wie beide funktionieren und warum ExPrysm sie zusammen verwendet.

Was sind ELO-Bewertungen?

Das ELO-Bewertungssystem wurde in den 1960er Jahren von Arpad Elo erfunden, um Schachspieler zu bewerten. Die Kernidee ist wunderbar einfach: Jedes Team beginnt mit einer Basiswertung (normalerweise 1500), und nach jedem Spiel gewinnt der Gewinner Punkte, während der Verlierer Punkte verliert. Der überwiesene Betrag hängt davon ab, wie überraschend das Ergebnis war.

Wenn ein starkes Team ein schwaches Team besiegt, wechseln nur wenige Punkte den Besitzer — das Ergebnis war zu erwarten. Gewinnt das schwache Team, werden viele Punkte übertragen — die Überraschung enthält mehr Informationen. Im Laufe der Zeit gleichen sich die Bewertungen an, um die wahre Stärke des Teams widerzuspiegeln.

ELO wurde von mehreren Forschern und Organisationen für den Fußball adaptiert, darunter die FIFA (für ihre Weltrangliste bis 2018) und FiveThirtyEight. Es funktioniert gut, weil es im Fußball klare Siege/Unentschieden/Niederlagen gibt und die Teams häufig genug spielen, damit die Bewertungen aktuell bleiben.

So funktioniert ELO

Die ELO-Aktualisierungsregel besteht aus drei Komponenten:

Erwartetes Ergebnis

Vor einem Spiel wird das erwartete Ergebnis für die Heimmannschaft aus der Bewertungsdifferenz berechnet:

Formel für das erwartete Ergebnis

E_Zuhause = 1 / (1 + 10^{(R_abseits − R_Zuhause − HFA)/400})

Dabei ist R die aktuelle Bewertung und HFA die Anpassung des Heimvorteils (in der Regel 50—100 Punkte).

K-Faktor

Der K-Faktor steuert, wie stark sich die Bewertungen nach jedem Spiel ändern. Ein höheres K bedeutet, dass die Bewertungen schneller auf aktuelle Ergebnisse reagieren (volatiler), während ein niedrigeres K bedeutet, dass die Bewertungen stabiler sind, sich aber langsamer anpassen. Typische Werte für Fußball liegen zwischen 20 und 40.

Regel aktualisieren

Nach dem Spiel werden die Bewertungen auf der Grundlage der Differenz zwischen dem tatsächlichen Ergebnis und dem erwarteten Ergebnis aktualisiert:

ELO-Aktualisierung

R_new = R_old + K × (S)_{tatsächliche} − E_erwartet)

Wo S_{tatsächliche} = 1 für einen Sieg, 0,5 für ein Unentschieden, 0 für eine Niederlage.

Beispiel

Team A (Wertung 1650) spielt zu Hause gegen Team B (Wertung 1500). Bei K=30 und HFA=65:

E_A = 1 / (1 + 10^{(1500 − 1650 − 65) /400}) = 0.78

Wenn Team A gewinnt: R_A = 1650 + 30 × (1 − 0,78) = 1656,6 (+6,6)

Wenn Team B gewinnt: R_A = 1650 + 30 × (0 − 0,78) = 1626,6 (−23,4)

Die Überraschung überträgt weit mehr Bewertungspunkte als das erwartete Ergebnis.

ELO im Fußballkontext

Warum es funktioniert

ELO erfasst zwei Dinge gleichzeitig: die zugrundeliegende Teamqualität und die aktuelle Form. Bei einer Mannschaft, die eine Siegesserie hinter sich hat, steigt ihre Wertung, was sowohl eine echte Verbesserung als auch eine Dynamik widerspiegelt. Dies macht ELO zu einer kompakten, informationsreichen Funktion für Prognosemodelle.

Einschränkungen

Die Standard-ELO hat eine grundlegende Einschränkung für den Fußball: Sie gibt eine einzige Zahl pro Team aus. Das bedeutet, dass es nicht zwischen einer Mannschaft unterscheiden kann, die stark im Angriff, aber schwach in der Verteidigung ist, oder einer Mannschaft, die zu Hause und auswärts unterschiedlich abschneidet. Ein Team mit einer Wertung von 1600 kann ein Team mit 3:2 oder ein Team mit 1:0 sein — ELO behandelt sie identisch.

Pi-ratings: Die nächste Entwicklung

2013 veröffentlichten Anthony Constantinou und Norman Fenton einen Artikel, in dem Pi-ratings vorgestellt wurden — ein Bewertungssystem, das speziell für den Fußball entwickelt wurde und die wichtigsten Einschränkungen von ELO berücksichtigt. Statt einer Zahl pro Team gibt es bei den Pi-ratings vier Zahlen:

⚔️

Heimangriff

Angriffsstärke beim Heimspiel

🛡️

Verteidigung zu Hause

Defensive Stärke beim Heimspiel

⚔️

Auswärtsangriff

Angriffsstärke beim Auswärtsspiel

🛡️

Auswärtsverteidigung

Defensivstärke beim Auswärtsspiel

Das Pi-ratings-System verwendet drei wichtige Parameter aus dem Originalpapier:

Parameter	Wert	Zweck
b	10	Basismultiplikator für Rating-Updates
c	3	Steuert die Empfindlichkeit gegenüber der Tordifferenz
lr	0.1	Lernrate — wie schnell sich Bewertungen anpassen

Nach jedem Spiel werden alle vier Wertungen für beide Teams auf der Grundlage der erzielten und kassierten Tore aktualisiert. Die Heimangriffswertung erhöht sich, wenn die Mannschaft zu Hause ein Tor erzielt; die Auswärtsverteidigungswertung des Gegners sinkt. Dadurch entsteht ein reichhaltiges, mehrdimensionales Bild der Mannschaftsstärke.

Die PI-Bewertungen werden nach jedem Spieltag schrittweise aktualisiert. ExPrysm führt tägliche Updates durch, um sicherzustellen, dass die Bewertungen die neuesten Ergebnisse widerspiegeln, bevor Vorhersagen generiert werden.

So nutzt ExPrysm Teambewertungen

ExPrysm verwendet keine ELO- oder Pi-ratings als eigenständige Prädiktoren. Stattdessen dienen sie als Funktionen innerhalb der CatBoost-Gradienten-Boosting-Modelle:

Ergebnismodell abgleichen: Verwendet unter seinen 69 Funktionen sowohl ELO- als auch Pi-ratings. Der CatBoost-Klassifikator lernt, wie Bewertungsunterschiede mit anderen Merkmalen (Form, Kopf-an-Kopf, Ligaplatzierung) interagieren, um Spielergebnisse vorherzusagen.
Zielmodell: Die Poisson-Regressionsmodelle (53 Merkmale) verwenden PI-Werte, um die erwarteten Ziele vorherzusagen. Die Trennung von Angriff und Abwehr ist hier besonders wichtig — die Heimangriffswertung einer Mannschaft gibt direkt Aufschluss darüber, wie viele Tore sie wahrscheinlich erzielen wird.
Bedeutung der Funktion: Pi-ratings machen etwa 24,5% der gesamten Merkmalswichtigkeit im Match-Ergebnismodell aus und sind damit die einflussreichste Merkmalsgruppe. Dies bestätigt, dass die Messung der Teamstärke die Grundlage für genaue Vorhersagen ist.

Die wichtigste Designentscheidung in ExPrysm ist, dass die Modelle keine auf Gewinnchancen beruhenden Funktionen verwenden. Die Teambewertungen liefern das „marktunabhängige“ Stärkensignal, das es dem Modell ermöglicht, seine eigenen Wahrscheinlichkeitsschätzungen zu erstellen, ohne an Buchmacherquoten gebunden zu sein.

Vergleich zwischen ELO und Pi-ratings

Aspekt	ELO	Pi-Bewertungen
Werte pro Team	1	4
Trennung von Angriff und Verteidigung	No	Yes
Startseite/Away Split	Nein (fester HFA)	Ja (separate Bewertungen)
Verwendete Tordifferenz	Fakultativ	Eingebaut
Komplexität	Einfach	Mäßig
Interpretierbarkeit	Sehr hoch	Hoch
Informationsdichte	Low	Hoch
Akademische Grundlage	Elo (1960er Jahre)	Constantinou & Fenton (2013)

Beide Systeme haben einen Wert. ELO bietet eine einfache, interpretierbare Ausgangsbasis — Sie können sofort verstehen, dass ein Team mit einer Bewertung von 1700 stärker ist als ein Team mit einer Bewertung von 1500. PI-Bewertungen bieten umfassendere Informationen, die Modelle für maschinelles Lernen ausnutzen können, insbesondere in Bezug auf Angriff und Verteidigung und die Trennung von Heim und Auswärts.

Praktische Auswirkungen auf Prognosen

Wie wirken sich Bewertungsunterschiede auf Gewinnwahrscheinlichkeiten aus? Hier ist eine ungefähre Abbildung der ELO-Unterschiede:

ELO-Unterschied	Stärkerer Teamsieg%	Unentschieden%	Schwächerer Teamsieg%
0 (gleich)	~36%	~28%	~36%
+100	~45%	~27%	~28%
+200	~55%	~24%	~21%
+300	~64%	~21%	~15%
+400	~72%	~17%	~11%

Dies sind grobe Schätzungen — das CatBoost-Modell von ExPrysm liefert differenziertere Wahrscheinlichkeiten, indem es alle 69 Merkmale zusammen betrachtet, nicht nur den Bewertungsunterschied. Diese Tabelle zeigt jedoch, warum Bewertungen so wertvoll sind: Sie komprimieren die gesamte Spielhistorie einer Mannschaft zu einem einzigen, prädiktiven Signal.

Mit Pi-ratings wird das Modell noch granularer. Eine Mannschaft mit einer hohen Heimangriffswertung, aber einer niedrigen Auswärtsverteidigungswertung wird sehr unterschiedliche Vorhersagen treffen, je nachdem, ob sie zu Hause oder auswärts spielt — etwas, das eine einzelne ELO-Zahl nicht erfassen kann.

Fazit

ELO-Werte bieten ein bewährtes, interpretierbares Maß für die Teamstärke, das seit Jahrzehnten in allen Sportarten funktioniert. Pi-ratings erweitern dieses Konzept um die Dimensionen Angriff/Verteidigung und Heim/Auswärts, die im Fußball gefragt sind. ExPrysm verwendet beide Funktionen in seinen CatBoost-Modellen, bei denen allein die PI-Werte etwa 24,5% der Merkmalsbedeutung ausmachen. Dies bestätigt, dass die genaue Messung der Mannschaftsstärke die wichtigste Zutat bei Fußballvorhersagen ist.

Willst du die gesamte Plattform verstehen? Lesen Sie Was ist ExPrysm? für einen vollständigen Überblick darüber, wie alle Modelle zusammenarbeiten.