Methodology

Warum Modellkalibrierung bei Fußballvorhersagen wichtiger ist als Genauigkeit

9 Minuten Lesezeit 26. Februar 2026 Technisch

Ein Modell, das zu 60% genau ist, klingt beeindruckend — bis Sie feststellen, dass es bei Vorhersagen, die nur in 55% der Fälle wahr werden, „70% sicher“ lautet. Diese Lücke zwischen der angegebenen Zuverlässigkeit und der tatsächlichen Zuverlässigkeit ist das Kalibrierungsproblem, und sie macht den Unterschied zwischen einem nützlichen und einem gefährlichen Modell aus.

Genauigkeit im Vergleich zur Kalibrierung

Die meisten Menschen bewerten Prognosemodelle nach ihrer Genauigkeit: „Wie viel Prozent der Vorhersagen waren richtig?“ Das ist intuitiv, aber für probabilistische Vorhersagen zutiefst irreführend.

Stellen Sie sich zwei Modelle vor, die 100 Fußballspiele vorhersagen:

Modell	Genauigkeit	Verhalten
Modell A	54%	Sagt jedes Mal die Heimmannschaft voraus
Modell B	54%	Gibt kalibrierte Wahrscheinlichkeiten für jedes Spiel aus

Beide haben die gleiche Genauigkeit, aber Modell B ist weitaus nützlicher. Wenn Modell B „75% Heimsieg“ sagt, bedeutet das, dass von allen Spielen, für die es ~ 75% vorhergesagt hat, ungefähr 75% tatsächlich zu Heimsiegen geführt haben. Modell A gibt Ihnen keine solchen Informationen — es wird einfach immer ein Heimspiel ausgewählt.

Die Genauigkeit gibt an, wie oft das Modell richtig ist. Die Kalibrierung gibt an, wie sehr Sie den ausgegebenen Wahrscheinlichkeiten vertrauen können. Für jeden, der Entscheidungen auf der Grundlage dieser Wahrscheinlichkeiten trifft — insbesondere finanzielle Entscheidungen — ist die Kalibrierung entscheidend.

Was ist Kalibrierung?

Ein Modell ist perfekt kalibriert, wenn für jede von ihm ausgegebene Wahrscheinlichkeit die tatsächliche Häufigkeit des Ereignisses dieser Wahrscheinlichkeit entspricht. Formell:

Definition der Kalibrierung

P (Ergebnis = richtig | Konfidenz = p) = p

Für alle Werte von p zwischen 0 und 1.

In der Praxis bedeutet das:

Wenn das Modell „60% Wahrscheinlichkeit“ angibt, sollte das Ereignis in ~ 60% der Fälle eintreten
Wenn das Modell „Wahrscheinlichkeit von 80%“ angibt, sollte das Ereignis in ~ 80% der Fälle eintreten
Wenn das Modell „30% Wahrscheinlichkeit“ angibt, sollte das Ereignis in ~ 30% der Fälle eintreten

Dies wird anhand eines Zuverlässigkeitsdiagramms (Kalibrierungskurve) veranschaulicht: Sie stellen die vorhergesagte Wahrscheinlichkeit auf der X-Achse gegen die beobachtete Frequenz auf der Y-Achse dar. Ein perfekt kalibriertes Modell erzeugt eine diagonale Linie von (0,0) bis (1,1).

Messen und Kalibrieren

Kurzer Punktestand

Die gebräuchlichste Metrik zur Bewertung probabilistischer Vorhersagen ist der Brier-Score, der 1950 von Glenn Brier eingeführt wurde:

Brier-Score-Formel

BS = (1/N) × σ (p_i − o_i)²

Wo p_i ist die vorhergesagte Wahrscheinlichkeit und o_i ist das tatsächliche Ergebnis (1 oder 0). Niedriger ist besser. Bereich: 0 (perfekt) bis 1 (am schlechtesten).

Der Brier-Score kann in drei Komponenten zerlegt werden:

Komponente	Was es misst	Tor
Kalibrierung (Zuverlässigkeit)	Wie nah die vorhergesagten Wahrscheinlichkeiten an den beobachteten Frequenzen liegen	minimieren
Auflösung (Schärfe)	Wie stark die Prognosen vom Basiszinssatz abweichen	Maximieren
Ungewissheit	Inhärente Unvorhersehbarkeit der Ereignisse (nicht kontrollierbar)	—

Ein Modell kann eine gute Kalibrierung, aber eine schlechte Auflösung haben (bei einem 3-Wege-Markt werden immer ~ 33% für jedes Ergebnis vorhergesagt), oder eine gute Auflösung, aber eine schlechte Kalibrierung (es werden extreme Vorhersagen getroffen, die nicht der Realität entsprechen). Die besten Modelle haben sowohl eine gute Kalibrierung als auch eine gute Auflösung.

Fehler bei der Kalibrierung

Der erwartete Kalibrierungsfehler (ECE) bietet ein direkteres Maß. Es unterteilt Vorhersagen nach Konfidenzniveau und berechnet die gewichtete durchschnittliche Differenz zwischen vorhergesagten und beobachteten Frequenzen:

ECE-Formel

ECE = σ (n_b/N) × |avg(p_b) − avg (o_b)|

Wobei b Bins indiziert, n_b ist die Anzahl der Vorhersagen in Bin (b) und avg (p)_b) und avg (o)_b) sind die vorhergesagten und beobachteten Mittelwerte in diesem Abschnitt.

Warum Kalibrierung beim Wetten wichtig ist

Hier wird die Kalibrierung zu einem finanziellen Problem. Wenn ein Model sagt, dass ein Team eine Gewinnchance von 60% hat und der Buchmacher eine Quote von 55% anbietet, sieht das wie eine Value-Wette aus — ein Vorteil von 5%. Was aber, wenn das Modell zu selbstbewusst ist und die wahre Wahrscheinlichkeit tatsächlich bei 53% liegt? Jetzt setzen Sie auf einen negativen Erwartungswert.

Die Kalibrierungsfalle

Das Model sagt: 60% → Implizite Quote: 1,67

Buchmacherangebote: 1,82 (implizit 55%) → Sieht aus wie ein Wert von +5%

Wahre Wahrscheinlichkeit: 53% → Tatsächlicher Vorteil: − 2% (Wette langfristig verlieren)

Ein zu selbstbewusstes Modell identifiziert systematisch „Werte“, die nicht existieren. Bei Hunderten von Wetten zerstört dies Ihre Bankroll. Ein gut kalibriertes Modell, auch wenn es etwas weniger genau ist, liefert Ihnen zuverlässige Wahrscheinlichkeitsschätzungen, die Sie tatsächlich für Ihre Entscheidungsfindung verwenden können.

Aus diesem Grund konzentriert sich ExPrysm auf die Kalibrierung als primäre Metrik. Ein Modell, das "65%" sagt und bedeutet, dass es unendlich nützlicher ist als eines, das "75%" angibt, aber nur in 60% der Fälle richtig ist.

So kalibriert ExPrysm Modelle

ExPrysm verwendet mehrere Ansätze, um kalibrierte Wahrscheinlichkeitsausgaben sicherzustellen:

CatBoost Native Wahrscheinlichkeiten

CatBoost, das von ExPrysm verwendete Gradienten-Boosting-Framework, erzeugt nativ gut kalibrierte Wahrscheinlichkeiten — besser als die meisten anderen baumbasierten Modelle. Das liegt daran, dass CatBoost geordnete Verstärkungen und symmetrische Bäume verwendet, um Überanpassungen zu reduzieren, die eine Hauptursache für Fehlkalibrierungen sind.

Das Spielergebnismodell verwendet class_weights= [1.0, 1.3, 1.0], um Unentschieden während des Trainings leicht anzuheben. Dadurch wird das bekannte Problem behoben, dass Unentschieden am schwierigsten vorherzusagen sind und in Bezug auf die Modellsicherheit häufig unterrepräsentiert sind.

Isotonische Regression

Für die Post-hoc-Kalibrierung ist die isotonische Regression eine nichtparametrische Methode, die eine monotone Abbildung von den Rohmodellwerten zu kalibrierten Wahrscheinlichkeiten erlernt. Dabei wird eine Stufenfunktion angepasst, die den quadratischen Fehler zwischen vorhergesagten und beobachteten Frequenzen minimiert, wobei die Einschränkung gilt, dass die Funktion nicht abnimmt.

Der Vorteil gegenüber parametrischen Methoden besteht darin, dass bei der isotonischen Regression keine Annahmen über die Form der Kalibrierungskurve getroffen werden — sie kann jedes Muster einer Fehlkalibrierung korrigieren.

Flache Skalierung

Die Platt-Skalierung passt eine logistische Regression an die Rohausgaben des Modells an, um kalibrierte Wahrscheinlichkeiten zu erzeugen. Sie ist einfacher als die isotonische Regression und funktioniert gut, wenn die Fehlkalibrierung einem sigmoiden Muster folgt. Es ist besonders nützlich für binäre Ergebnisse wie BTTS- oder Über-/Unter-Märkte.

Ablesen einer Kalibrierungskurve

Eine Kalibrierungskurve (Zuverlässigkeitsdiagramm) ist die intuitivste Methode zur Bewertung der Modellqualität. So lesen Sie eine:

Muster	Bedeutung	Implikation
Punkte auf der Diagonale	Perfekte Kalibrierung	Die vorhergesagten Wahrscheinlichkeiten entsprechen der Realität
Punkte über der Diagonale	Untermütig	Das Model sagt 50%, aber Ereignisse passieren zu 60% — konservativ
Punkte unter der Diagonale	Übermütig	Das Model sagt 70%, aber Ereignisse passieren zu 55% — gefährlich
S-förmige Kurve	Gemischt	Extrem unterbewusst, in der Mitte zu selbstbewusst (oder umgekehrt)

Für Wettzwecke ist Selbstüberschätzung das gefährlichste Muster. Ein übertriebenes Modell lässt Sie glauben, Sie hätten einen Vorteil, obwohl dies nicht der Fall ist. Unterbewusstsein ist weniger schädlich — Sie verpassen vielleicht einige Value-Bets, aber Sie werden nicht systematisch Geld verlieren.

So sieht eine gute Kalibrierung aus

Bereich 30-40%: Das Modell hat ~ 35% vorhergesagt, tatsächliche Ergebnisrate = 33% ✓

Bereich 50-60%: Das Modell hat ~ 55% vorhergesagt, tatsächliche Ergebnisrate = 57% ✓

Bin 70-80%: Das Modell hat ~ 75% vorhergesagt, tatsächliche Ergebnisrate = 73% ✓

Die beobachtete Häufigkeit jedes Bins liegt nur wenige Prozentpunkte vom vorhergesagten Durchschnitt — das ist ein gut kalibriertes Modell.

Kalibrierungsergebnisse von ExPrysm

ExPrysm veröffentlicht Kalibrierungskurven für alle wichtigen Märkte auf der Seite „Leistung“. Diese Kurven werden aus realen Prognosedaten von über 7.800 Spielen generiert und regelmäßig aktualisiert.

Die wichtigsten Punkte zur Kalibrierung von ExPrysm:

Öffentlich verfügbar: Im Gegensatz zu den meisten Prognosediensten sind die Kalibrierungsdaten von ExPrysm für alle Benutzer sichtbar. Sie können die Zuverlässigkeit des Modells selbst überprüfen.
Granularität auf Marktebene: Separate Kalibrierungskurven werden für das Spielergebnis (1X2), BTTS, Over/Under und andere Märkte bereitgestellt. Jeder Markt hat unterschiedliche Kalibrierungseigenschaften.
Kontinuierliche Überwachung: Die Kalibrierung wird im Laufe der Zeit verfolgt, um Abweichungen zu erkennen. Wenn das Modell aufgrund einer sich ändernden Fußballdynamik falsch kalibriert wird, wird es frühzeitig erkannt.
Kein Rosinenpflücken: Alle Vorhersagen sind in der Kalibrierungsanalyse enthalten — nicht nur die, die das Modell richtig gemacht hat. Dies ist entscheidend für eine ehrliche Bewertung.

Sehen Sie sich die Live-Kalibrierungskurven und Brier-Scores von ExPrysm auf der Seite „Leistung“. Alle Daten stammen aus echten Vorhersagen, nicht aus Backtests.

Fazit

Genauigkeit ist die Metrik, nach der jeder fragt. Kalibrierung ist die Metrik, auf die es wirklich ankommt. Ein gut kalibriertes Modell gibt Ihnen Wahrscheinlichkeiten, denen Sie vertrauen und auf deren Grundlage Sie handeln können. Ein unkalibriertes Modell — egal wie „genau“ es auch sein mag — kann Sie zu systematisch schlechten Entscheidungen führen.

ExPrysm priorisiert die Kalibrierung mithilfe der nativen Wahrscheinlichkeitsschätzung von CatBoost, Post-hoc-Kalibrierungstechniken und der transparenten öffentlichen Berichterstattung über Kalibrierungskurven. Wenn das Modell 65% sagt, sind es 65% — und das ist die Grundlage, auf der alles andere aufgebaut ist.

Möchten Sie verstehen, wie sich Vertrauenswerte auf Wettentscheidungen auswirken? Lesen Sie unsere Wie wählt man Fußballwetten Führer.