Dlaczego kalibracja modelu jest ważniejsza niż dokładność w prognozowaniu piłki nożnej
Model o 60% dokładności brzmi imponująco — dopóki nie zdasz sobie sprawy, że mówi „70% pewności" przy prognozach, które sprawdzają się tylko w 55% przypadków. Ta luka między deklarowaną pewnością a rzeczywistą wiarygodnością to problem kalibracji — i to właśnie ona odróżnia użyteczny model od niebezpiecznego.
Dokładność a kalibracja
Większość ludzi ocenia modele predykcyjne na podstawie dokładności: „Jaki procent prognoz był poprawny?" Jest to intuicyjne, ale głęboko mylące w przypadku prognoz probabilistycznych.
Rozważmy dwa modele prognozujące 100 meczów piłkarskich:
| Model | Dokładność | Zachowanie |
|---|---|---|
| Model A | 54% | Za każdym razem typuje drużynę gospodarzy |
| Model B | 54% | Generuje skalibrowane prawdopodobieństwa dla każdego meczu |
Oba mają tę samą dokładność, ale Model B jest znacznie bardziej użyteczny. Gdy Model B mówi „75% wygrana gospodarzy", oznacza to, że spośród wszystkich meczów, w których przewidywał ~75%, mniej więcej 75% faktycznie zakończyło się wygraną gospodarzy. Model A nie daje takich informacji — po prostu zawsze typuje gospodarzy.
Dokładność mówi ci, jak często model ma rację. Kalibracja mówi ci, ile możesz zaufać generowanym przez niego prawdopodobieństwom. Dla każdego, kto podejmuje decyzje na podstawie tych prawdopodobieństw — zwłaszcza decyzje finansowe — kalibracja jest tym, co naprawdę ma znaczenie.
Czym jest kalibracja?
Model jest doskonale skalibrowany, jeśli dla każdego generowanego przez niego prawdopodobieństwa rzeczywista częstość zdarzenia odpowiada temu prawdopodobieństwu. Formalnie:
P(outcome = correct | confidence = p) = p
Dla wszystkich wartości p między 0 a 1.
W praktyce oznacza to:
- Gdy model mówi „60% prawdopodobieństwo", zdarzenie powinno wystąpić ~60% czasu
- Gdy model mówi „80% prawdopodobieństwo", zdarzenie powinno wystąpić ~80% czasu
- Gdy model mówi „30% prawdopodobieństwo", zdarzenie powinno wystąpić ~30% czasu
Wizualizuje się to za pomocą diagramu wiarygodności (krzywej kalibracji): na osi x zaznacza się przewidywane prawdopodobieństwo, a na osi y — obserwowaną częstość. Doskonale skalibrowany model daje linię prostą od (0,0) do (1,1).
Mierzenie kalibracji
Wynik Briera
Najczęściej stosowaną miarą oceny prognoz probabilistycznych jest wynik Briera (Brier score), wprowadzony przez Glenna Briera w 1950 roku:
BS = (1/N) × Σ(pi − oi)²
Gdzie pi to przewidywane prawdopodobieństwo, a oi to rzeczywisty wynik (1 lub 0). Im niższy, tym lepszy. Zakres: 0 (doskonały) do 1 (najgorszy).
Wynik Briera można rozłożyć na trzy składniki:
| Składnik | Co mierzy | Cel |
|---|---|---|
| Kalibracja (wiarygodność) | Jak bliskie są przewidywane prawdopodobieństwa obserwowanym częstościom | Minimalizować |
| Rozdzielczość (ostrość) | Jak bardzo prognozy odbiegają od bazowej częstości | Maksymalizować |
| Niepewność | Wrodzona nieprzewidywalność zdarzeń (niekontrolowalna) | — |
Model może mieć dobrą kalibrację, ale słabą rozdzielczość (zawsze przewiduje ~33% dla każdego wyniku na rynku trójdrożnym), albo dobrą rozdzielczość, ale słabą kalibrację (skrajne prognozy, które nie odpowiadają rzeczywistości). Najlepsze modele mają zarówno dobrą kalibrację, jak i dobrą rozdzielczość.
Błąd kalibracji
Oczekiwany błąd kalibracji (ECE) zapewnia bardziej bezpośrednią miarę. Grupuje prognozy według poziomu pewności i oblicza ważoną średnią różnicę między przewidywanymi a obserwowanymi częstościami:
ECE = Σ (nb/N) × |avg(pb) − avg(ob)|
Gdzie b indeksuje przedziały, nb to liczba prognoz w przedziale b, a avg(pb) i avg(ob) to średnie przewidywane i obserwowane wartości w tym przedziale.
Dlaczego kalibracja ma znaczenie w zakładach
Tu kalibracja staje się kwestią finansową. Jeśli model mówi, że drużyna ma 60% szans na wygraną, a bukmacher oferuje kurs implikujący 55%, wygląda to jak zakład z wartością — przewaga 5%. Ale co, jeśli model jest zbyt pewny siebie i prawdziwe prawdopodobieństwo wynosi faktycznie 53%? Teraz obstawiasz przy ujemnej oczekiwanej wartości.
Model mówi: 60% → Implikowany kurs: 1,67
Bukmacher oferuje: 1,82 (implikowane 55%) → Wygląda jak +5% wartości
Prawdziwe prawdopodobieństwo: 53% → Rzeczywista przewaga: −2% (przegrana w długim terminie)
Zbyt pewny siebie model systematycznie identyfikuje „wartość", która nie istnieje. Po setkach zakładów niszczy to twój bankroll. Dobrze skalibrowany model, nawet jeśli nieco mniej dokładny, daje wiarygodne szacunki prawdopodobieństwa, których możesz faktycznie używać do podejmowania decyzji.
Dlatego ExPrysm traktuje kalibrację jako podstawową metrykę. Model, który mówi „65%" i to oznacza, jest nieskończenie bardziej użyteczny niż taki, który mówi „75%", ale ma rację tylko w 60% przypadków.
Jak ExPrysm kalibruje modele
ExPrysm stosuje kilka podejść, aby zapewnić skalibrowane wyniki prawdopodobieństwa:
Natywne prawdopodobieństwa CatBoost
CatBoost, framework gradient boosting używany przez ExPrysm, natywnie generuje dobrze skalibrowane prawdopodobieństwa — lepiej niż większość innych modeli opartych na drzewach. Wynika to z faktu, że CatBoost używa ordered boosting i symetrycznych drzew, które redukują przeuczenie, będące główną przyczyną błędnej kalibracji.
Model wyniku meczu używa class_weights=[1.0, 1.3, 1.0], aby nieznacznie zwiększyć wagę remisów podczas treningu. Rozwiązuje to znany problem, że remisy są najtrudniejszym wynikiem do przewidzenia i są często niedoreprezentowane w pewności modelu.
Regresja izotoniczna
Do kalibracji post-hoc regresja izotoniczna jest nieparametryczną metodą, która uczy się monotonicznego odwzorowania surowych wyników modelu na skalibrowane prawdopodobieństwa. Działa poprzez dopasowanie funkcji schodkowej minimalizującej błąd kwadratowy między przewidywanymi a obserwowanymi częstościami, przy założeniu, że funkcja jest niemalejąca.
Przewaga nad metodami parametrycznymi polega na tym, że regresja izotoniczna nie zakłada żadnego kształtu krzywej kalibracji — może korygować każdy wzorzec błędnej kalibracji.
Skalowanie Platta
Skalowanie Platta dopasowuje regresję logistyczną do surowych wyników modelu, aby uzyskać skalibrowane prawdopodobieństwa. Jest prostsze niż regresja izotoniczna i działa dobrze, gdy błędna kalibracja ma kształt sigmoidalny. Jest szczególnie przydatne dla wyników binarnych, takich jak rynki BTTS lub Over/Under.
Odczytywanie krzywej kalibracji
Krzywa kalibracji (diagram wiarygodności) jest najbardziej intuicyjnym sposobem oceny jakości modelu. Oto jak ją odczytywać:
| Wzorzec | Znaczenie | Implikacja |
|---|---|---|
| Punkty na przekątnej | Doskonała kalibracja | Przewidywane prawdopodobieństwa odpowiadają rzeczywistości |
| Punkty powyżej przekątnej | Zbyt mała pewność | Model mówi 50%, ale zdarzenia zachodzą w 60% — konserwatywny |
| Punkty poniżej przekątnej | Zbyt duża pewność | Model mówi 70%, ale zdarzenia zachodzą w 55% — niebezpieczny |
| Krzywa w kształcie S | Mieszany | Zbyt mała pewność na krańcach, zbyt duża w środku (lub odwrotnie) |
Z punktu widzenia zakładów nadmierna pewność siebie jest najniebezpieczniejszym wzorcem. Zbyt pewny siebie model sprawia, że myślisz, że masz przewagę, gdy jej nie masz. Zbyt mała pewność jest mniej szkodliwa — możesz przegapić niektóre zakłady z wartością, ale nie będziesz systematycznie tracić pieniędzy.
Przedział 30-40%: Model przewidział ~35%, rzeczywista częstość wyniku = 33% ✓
Przedział 50-60%: Model przewidział ~55%, rzeczywista częstość wyniku = 57% ✓
Przedział 70-80%: Model przewidział ~75%, rzeczywista częstość wyniku = 73% ✓
Obserwowana częstość w każdym przedziale mieści się w kilku punktach procentowych od przewidywanej średniej — to dobrze skalibrowany model.
Wyniki kalibracji ExPrysm
ExPrysm publikuje krzywe kalibracji dla wszystkich głównych rynków na stronie Wyniki. Krzywe te są generowane na podstawie rzeczywistych danych prognoz z ponad 7 800 meczów i są regularnie aktualizowane.
Kluczowe informacje o kalibracji ExPrysm:
- Publicznie dostępne: W przeciwieństwie do większości serwisów z prognozami, dane kalibracji ExPrysm są widoczne dla wszystkich użytkowników. Możesz samodzielnie zweryfikować wiarygodność modelu.
- Szczegółowość na poziomie rynku: Osobne krzywe kalibracji są dostępne dla wyniku meczu (1X2), BTTS, Over/Under i innych rynków. Każdy rynek ma inne charakterystyki kalibracji.
- Ciągłe monitorowanie: Kalibracja jest śledzona w czasie, aby wykryć dryf. Jeśli model stanie się źle skalibrowany z powodu zmieniającej się dynamiki piłki nożnej, zostanie to szybko wykryte.
- Bez selekcji danych: Wszystkie prognozy są uwzględniane w analizie kalibracji — nie tylko te, które model przewidział poprawnie. Jest to kluczowe dla rzetelnej oceny.
Zobacz na żywo krzywe kalibracji i wyniki Briera ExPrysm na stronie Wyniki. Wszystkie dane pochodzą z rzeczywistych prognoz, nie z backtestów.
Podsumowanie
Dokładność to metryka, o którą wszyscy pytają. Kalibracja to metryka, która naprawdę ma znaczenie. Dobrze skalibrowany model daje prawdopodobieństwa, którym możesz ufać i na których możesz działać. Nieskalibrowany model — bez względu na to, jak jest „dokładny" — może prowadzić do systematycznie złych decyzji.
ExPrysm priorytetowo traktuje kalibrację poprzez natywne szacowanie prawdopodobieństwa przez CatBoost, techniki kalibracji post-hoc oraz przejrzyste publiczne raportowanie krzywych kalibracji. Gdy model mówi 65%, oznacza to 65% — i to jest fundament, na którym opiera się wszystko inne.
Chcesz zrozumieć, jak wyniki pewności przekładają się na decyzje zakładowe? Przeczytaj nasz poradnik Jak wybierać zakłady piłkarskie.