Dokładność a kalibracja

Większość ludzi ocenia modele predykcyjne na podstawie dokładności: „Jaki procent prognoz był poprawny?" Jest to intuicyjne, ale głęboko mylące w przypadku prognoz probabilistycznych.

Rozważmy dwa modele prognozujące 100 meczów piłkarskich:

ModelDokładnośćZachowanie
Model A54%Za każdym razem typuje drużynę gospodarzy
Model B54%Generuje skalibrowane prawdopodobieństwa dla każdego meczu

Oba mają tę samą dokładność, ale Model B jest znacznie bardziej użyteczny. Gdy Model B mówi „75% wygrana gospodarzy", oznacza to, że spośród wszystkich meczów, w których przewidywał ~75%, mniej więcej 75% faktycznie zakończyło się wygraną gospodarzy. Model A nie daje takich informacji — po prostu zawsze typuje gospodarzy.

Dokładność mówi ci, jak często model ma rację. Kalibracja mówi ci, ile możesz zaufać generowanym przez niego prawdopodobieństwom. Dla każdego, kto podejmuje decyzje na podstawie tych prawdopodobieństw — zwłaszcza decyzje finansowe — kalibracja jest tym, co naprawdę ma znaczenie.

Czym jest kalibracja?

Model jest doskonale skalibrowany, jeśli dla każdego generowanego przez niego prawdopodobieństwa rzeczywista częstość zdarzenia odpowiada temu prawdopodobieństwu. Formalnie:

Definicja kalibracji

P(outcome = correct | confidence = p) = p

Dla wszystkich wartości p między 0 a 1.

W praktyce oznacza to:

  • Gdy model mówi „60% prawdopodobieństwo", zdarzenie powinno wystąpić ~60% czasu
  • Gdy model mówi „80% prawdopodobieństwo", zdarzenie powinno wystąpić ~80% czasu
  • Gdy model mówi „30% prawdopodobieństwo", zdarzenie powinno wystąpić ~30% czasu

Wizualizuje się to za pomocą diagramu wiarygodności (krzywej kalibracji): na osi x zaznacza się przewidywane prawdopodobieństwo, a na osi y — obserwowaną częstość. Doskonale skalibrowany model daje linię prostą od (0,0) do (1,1).

Mierzenie kalibracji

Wynik Briera

Najczęściej stosowaną miarą oceny prognoz probabilistycznych jest wynik Briera (Brier score), wprowadzony przez Glenna Briera w 1950 roku:

Wzór na wynik Briera

BS = (1/N) × Σ(pi − oi

Gdzie pi to przewidywane prawdopodobieństwo, a oi to rzeczywisty wynik (1 lub 0). Im niższy, tym lepszy. Zakres: 0 (doskonały) do 1 (najgorszy).

Wynik Briera można rozłożyć na trzy składniki:

SkładnikCo mierzyCel
Kalibracja (wiarygodność)Jak bliskie są przewidywane prawdopodobieństwa obserwowanym częstościomMinimalizować
Rozdzielczość (ostrość)Jak bardzo prognozy odbiegają od bazowej częstościMaksymalizować
NiepewnośćWrodzona nieprzewidywalność zdarzeń (niekontrolowalna)

Model może mieć dobrą kalibrację, ale słabą rozdzielczość (zawsze przewiduje ~33% dla każdego wyniku na rynku trójdrożnym), albo dobrą rozdzielczość, ale słabą kalibrację (skrajne prognozy, które nie odpowiadają rzeczywistości). Najlepsze modele mają zarówno dobrą kalibrację, jak i dobrą rozdzielczość.

Błąd kalibracji

Oczekiwany błąd kalibracji (ECE) zapewnia bardziej bezpośrednią miarę. Grupuje prognozy według poziomu pewności i oblicza ważoną średnią różnicę między przewidywanymi a obserwowanymi częstościami:

Wzór na ECE

ECE = Σ (nb/N) × |avg(pb) − avg(ob)|

Gdzie b indeksuje przedziały, nb to liczba prognoz w przedziale b, a avg(pb) i avg(ob) to średnie przewidywane i obserwowane wartości w tym przedziale.

Dlaczego kalibracja ma znaczenie w zakładach

Tu kalibracja staje się kwestią finansową. Jeśli model mówi, że drużyna ma 60% szans na wygraną, a bukmacher oferuje kurs implikujący 55%, wygląda to jak zakład z wartością — przewaga 5%. Ale co, jeśli model jest zbyt pewny siebie i prawdziwe prawdopodobieństwo wynosi faktycznie 53%? Teraz obstawiasz przy ujemnej oczekiwanej wartości.

Pułapka kalibracji

Model mówi: 60% → Implikowany kurs: 1,67

Bukmacher oferuje: 1,82 (implikowane 55%) → Wygląda jak +5% wartości

Prawdziwe prawdopodobieństwo: 53% → Rzeczywista przewaga: −2% (przegrana w długim terminie)

Zbyt pewny siebie model systematycznie identyfikuje „wartość", która nie istnieje. Po setkach zakładów niszczy to twój bankroll. Dobrze skalibrowany model, nawet jeśli nieco mniej dokładny, daje wiarygodne szacunki prawdopodobieństwa, których możesz faktycznie używać do podejmowania decyzji.

Dlatego ExPrysm traktuje kalibrację jako podstawową metrykę. Model, który mówi „65%" i to oznacza, jest nieskończenie bardziej użyteczny niż taki, który mówi „75%", ale ma rację tylko w 60% przypadków.

Jak ExPrysm kalibruje modele

ExPrysm stosuje kilka podejść, aby zapewnić skalibrowane wyniki prawdopodobieństwa:

Natywne prawdopodobieństwa CatBoost

CatBoost, framework gradient boosting używany przez ExPrysm, natywnie generuje dobrze skalibrowane prawdopodobieństwa — lepiej niż większość innych modeli opartych na drzewach. Wynika to z faktu, że CatBoost używa ordered boosting i symetrycznych drzew, które redukują przeuczenie, będące główną przyczyną błędnej kalibracji.

Model wyniku meczu używa class_weights=[1.0, 1.3, 1.0], aby nieznacznie zwiększyć wagę remisów podczas treningu. Rozwiązuje to znany problem, że remisy są najtrudniejszym wynikiem do przewidzenia i są często niedoreprezentowane w pewności modelu.

Regresja izotoniczna

Do kalibracji post-hoc regresja izotoniczna jest nieparametryczną metodą, która uczy się monotonicznego odwzorowania surowych wyników modelu na skalibrowane prawdopodobieństwa. Działa poprzez dopasowanie funkcji schodkowej minimalizującej błąd kwadratowy między przewidywanymi a obserwowanymi częstościami, przy założeniu, że funkcja jest niemalejąca.

Przewaga nad metodami parametrycznymi polega na tym, że regresja izotoniczna nie zakłada żadnego kształtu krzywej kalibracji — może korygować każdy wzorzec błędnej kalibracji.

Skalowanie Platta

Skalowanie Platta dopasowuje regresję logistyczną do surowych wyników modelu, aby uzyskać skalibrowane prawdopodobieństwa. Jest prostsze niż regresja izotoniczna i działa dobrze, gdy błędna kalibracja ma kształt sigmoidalny. Jest szczególnie przydatne dla wyników binarnych, takich jak rynki BTTS lub Over/Under.

Odczytywanie krzywej kalibracji

Krzywa kalibracji (diagram wiarygodności) jest najbardziej intuicyjnym sposobem oceny jakości modelu. Oto jak ją odczytywać:

WzorzecZnaczenieImplikacja
Punkty na przekątnejDoskonała kalibracjaPrzewidywane prawdopodobieństwa odpowiadają rzeczywistości
Punkty powyżej przekątnejZbyt mała pewnośćModel mówi 50%, ale zdarzenia zachodzą w 60% — konserwatywny
Punkty poniżej przekątnejZbyt duża pewnośćModel mówi 70%, ale zdarzenia zachodzą w 55% — niebezpieczny
Krzywa w kształcie SMieszanyZbyt mała pewność na krańcach, zbyt duża w środku (lub odwrotnie)

Z punktu widzenia zakładów nadmierna pewność siebie jest najniebezpieczniejszym wzorcem. Zbyt pewny siebie model sprawia, że myślisz, że masz przewagę, gdy jej nie masz. Zbyt mała pewność jest mniej szkodliwa — możesz przegapić niektóre zakłady z wartością, ale nie będziesz systematycznie tracić pieniędzy.

Jak wygląda dobra kalibracja

Przedział 30-40%: Model przewidział ~35%, rzeczywista częstość wyniku = 33% ✓

Przedział 50-60%: Model przewidział ~55%, rzeczywista częstość wyniku = 57% ✓

Przedział 70-80%: Model przewidział ~75%, rzeczywista częstość wyniku = 73% ✓

Obserwowana częstość w każdym przedziale mieści się w kilku punktach procentowych od przewidywanej średniej — to dobrze skalibrowany model.

Wyniki kalibracji ExPrysm

ExPrysm publikuje krzywe kalibracji dla wszystkich głównych rynków na stronie Wyniki. Krzywe te są generowane na podstawie rzeczywistych danych prognoz z ponad 7 800 meczów i są regularnie aktualizowane.

Kluczowe informacje o kalibracji ExPrysm:

  • Publicznie dostępne: W przeciwieństwie do większości serwisów z prognozami, dane kalibracji ExPrysm są widoczne dla wszystkich użytkowników. Możesz samodzielnie zweryfikować wiarygodność modelu.
  • Szczegółowość na poziomie rynku: Osobne krzywe kalibracji są dostępne dla wyniku meczu (1X2), BTTS, Over/Under i innych rynków. Każdy rynek ma inne charakterystyki kalibracji.
  • Ciągłe monitorowanie: Kalibracja jest śledzona w czasie, aby wykryć dryf. Jeśli model stanie się źle skalibrowany z powodu zmieniającej się dynamiki piłki nożnej, zostanie to szybko wykryte.
  • Bez selekcji danych: Wszystkie prognozy są uwzględniane w analizie kalibracji — nie tylko te, które model przewidział poprawnie. Jest to kluczowe dla rzetelnej oceny.

Zobacz na żywo krzywe kalibracji i wyniki Briera ExPrysm na stronie Wyniki. Wszystkie dane pochodzą z rzeczywistych prognoz, nie z backtestów.

Podsumowanie

Dokładność to metryka, o którą wszyscy pytają. Kalibracja to metryka, która naprawdę ma znaczenie. Dobrze skalibrowany model daje prawdopodobieństwa, którym możesz ufać i na których możesz działać. Nieskalibrowany model — bez względu na to, jak jest „dokładny" — może prowadzić do systematycznie złych decyzji.

ExPrysm priorytetowo traktuje kalibrację poprzez natywne szacowanie prawdopodobieństwa przez CatBoost, techniki kalibracji post-hoc oraz przejrzyste publiczne raportowanie krzywych kalibracji. Gdy model mówi 65%, oznacza to 65% — i to jest fundament, na którym opiera się wszystko inne.

Chcesz zrozumieć, jak wyniki pewności przekładają się na decyzje zakładowe? Przeczytaj nasz poradnik Jak wybierać zakłady piłkarskie.