Wprowadzenie do statystycznego prognozowania piłki nożnej

Statystyczne prognozowanie meczów piłkarskich oznacza szacowanie prawdopodobieństwa każdego możliwego wyniku — a nie wskazywanie zwycięzcy. Podstawą większości modeli opartych na golach jest proste spostrzeżenie: liczba goli strzelonych przez drużynę w meczu dość dobrze odpowiada rozkładowi Poisson.

Ta obserwacja, po raz pierwszy udokumentowana przez Moroneya (1956) i sformalizowana przez Mahera (1982), pozwala zbudować pełną macierz prawdopodobieństwa dla dowolnego meczu, jeśli potrafimy oszacować oczekiwaną liczbę goli (λ) każdej drużyny. Z tej macierzy można matematycznie wyprowadzić każdy rynek — 1X2, BTTS, Over/Under, dokładny wynik, Asian Handicap.

Rozkład Poisson a piłka nożna

Rozkład Poisson modeluje prawdopodobieństwo wystąpienia określonej liczby zdarzeń w ustalonym przedziale czasu, gdy zdarzenia zachodzą niezależnie ze stałą średnią częstotliwością. W piłce nożnej „zdarzeniem" jest gol, a „przedziałem" — jeden mecz.

Prawdopodobieństwo dokładnie k goli przy oczekiwanej częstości λ wynosi:

Wzór Poisson

P(X = k) = (λk × e−λ) / k!

Gdzie λ to oczekiwana liczba goli, e ≈ 2,71828, a k! to silnia k.

Dlaczego to działa w piłce nożnej? Gole są stosunkowo rzadkimi zdarzeniami (zazwyczaj 1–3 na drużynę w meczu), w pewnym stopniu niezależnymi od siebie w trakcie meczu, a średnia częstość zależy od siły drużyny i kontekstu. Te właściwości dobrze odpowiadają założeniom rozkładu Poisson.

Przykład: λ = 1,5 gola

P(0 goli) = 22,3%

P(1 gol) = 33,5%

P(2 gole) = 25,1%

P(3 gole) = 12,6%

P(4+ goli) = 6,5%

Niezależny model Poisson

Najprostsze podejście zakłada, że gole gospodarzy i gości są niezależne. Jeśli oszacujemy λhome i λaway oddzielnie, prawdopodobieństwo dowolnego konkretnego wyniku (i, j) wynosi po prostu:

Prawdopodobieństwo łączne

P(Gospodarze=i, Goście=j) = Phome(i) × Paway(j)

Daje to pełną macierz prawdopodobieństwa wyników. Na przykład dla λhome = 1,6 i λaway = 1,1:

Goście 0Goście 1Goście 2Goście 3
Gospodarze 06,7%7,4%4,1%1,5%
Gospodarze 110,8%11,8%6,5%2,4%
Gospodarze 28,6%9,5%5,2%1,9%
Gospodarze 34,6%5,1%2,8%1,0%

Z tej macierzy można zsumować komórki, aby uzyskać prawdopodobieństwo dowolnego rynku. Wygrana gospodarzy = suma wszystkich komórek, gdzie i > j. Remis = suma przekątnej. Wygrana gości = suma, gdzie j > i.

Ograniczenia założenia niezależności

Niezależny model ma znany mankament: zaniża prawdopodobieństwo nisko punktowanych remisów (zwłaszcza 0:0 i 1:1). W rzeczywistej piłce nożnej te wyniki zdarzają się częściej, niż przewiduje model niezależny. Tu właśnie wkroczyli Dixon i Coles.

Korekta Dixon-Coles

W swoim przełomowym artykule z 1997 roku Mark Dixon i Stuart Coles wprowadzili współczynnik korekcyjny ρ (rho), który dostosowuje prawdopodobieństwo łączne dla nisko punktowanych wyników. Kluczowa obserwacja: gole gospodarzy i gości nie są w pełni niezależne — czynniki taktyczne i psychologiczne tworzą korelację, szczególnie w wyrównanych, nisko punktowanych meczach.

Korekta dotyczy czterech konkretnych wyników:

WynikWspółczynnik korekcyjny
0-01 + λh × λa × ρ
1-01 − λa × ρ
0-11 − λh × ρ
1-11 + ρ

Gdy ρ jest ujemne (co zazwyczaj ma miejsce, w zakresie od −0,03 do −0,10), prawdopodobieństwa wyników 0:0 i 1:1 rosną, a 1:0 i 0:1 maleją. Lepiej odpowiada to obserwowanym częstościom w rzeczywistych danych meczowych.

Korekta Dixon-Coles jest niewielka pod względem wartości, ale istotna w skali tysięcy prognoz. Wpływa przede wszystkim na rynki dokładnego wyniku oraz Under 0,5/1,5, gdzie dominują nisko punktowane wyniki.

Jak ExPrysm wykorzystuje Poisson

ExPrysm nie stosuje klasycznego podejścia Poisson polegającego na szacowaniu parametrów ataku i obrony na podstawie historycznych średnich. Zamiast tego używa podejścia opartego na uczeniu maszynowym, które jest bardziej wydajne i elastyczne:

1
Regresja Poisson CatBoost
Dwa oddzielne modele CatBoost (home_goals.cbm i away_goals.cbm) są trenowane z funkcją straty Poisson, aby bezpośrednio przewidywać λhome i λaway. Każdy model wykorzystuje 53 cechy, w tym Pi-ratings, wskaźniki formy i statystyki bezpośrednich spotkań.
2
Generowanie rozkładu Poisson
Przewidywane wartości λ są wprowadzane do funkcji masy prawdopodobieństwa Poisson w celu wygenerowania pełnej macierzy prawdopodobieństwa wyników (zazwyczaj 0–7 goli dla każdej drużyny).
3
Wyprowadzanie rynków
Macierz wyników jest agregowana w celu uzyskania prawdopodobieństw dla każdego rynku: BTTS, Over/Under, dokładny wynik, linie Asian Handicap i inne.

Przewaga tego podejścia nad klasycznym Dixon-Coles polega na tym, że CatBoost potrafi uchwycić nieliniowe zależności między cechami a oczekiwanymi golami. Nie zakłada stałego parametru ataku/obrony dla każdej drużyny — zamiast tego uczy się, jak 53 różne cechy kontekstowe oddziałują na siebie, aby wygenerować oczekiwaną liczbę goli dla każdego konkretnego meczu.

Produkcyjny zespół modeli

Do ostatecznej prognozy wyniku meczu (1X2) ExPrysm używa produkcyjnego zespołu łączącego dwa podejścia:

Wzór zespołu modeli

P(wynik) = 0,70 × PCatBoost MS + 0,30 × PPoisson

Klasyfikator wyników meczów CatBoost (69 cech, class_weights=[1,0, 1,3, 1,0]) dostarcza głównego sygnału, podczas gdy prawdopodobieństwa wyprowadzone z modelu Poisson dodają uzupełniającą perspektywę z modelu goli.

Od Poisson do rynków

Gdy mamy macierz prawdopodobieństwa wyników, wyprowadzenie prawdopodobieństw rynkowych to prosta arytmetyka:

BTTS (Obie drużyny strzelają)

Zsumuj wszystkie komórki, gdzie zarówno gole gospodarzy ≥ 1, jak i gole gości ≥ 1. Równoważnie: P(BTTS) = 1 − P(gospodarze=0) − P(goście=0) + P(0:0).

Over/Under gole

Dla Over 2,5: zsumuj wszystkie komórki, gdzie gospodarze + goście ≥ 3. Dla Under 2,5: zsumuj wszystkie komórki, gdzie gospodarze + goście ≤ 2. Ta sama logika dotyczy dowolnej linii (1,5, 3,5 itd.).

Dokładny wynik

Każda komórka macierzy bezpośrednio podaje prawdopodobieństwo tego konkretnego wyniku. Najbardziej prawdopodobny wynik to komórka o najwyższej wartości.

Asian Handicap

Zastosuj handicap do każdego wyniku i określ wygraną/przegraną/zwrot dla każdej komórki. Zsumuj prawdopodobieństwa ważone wynikiem. Na przykład Gospodarze −1,5: zsumuj wszystkie komórki, gdzie (gospodarze − goście) > 1,5.

Dlatego model goli Poisson jest tak cenny — jedna para wartości λ generuje jednocześnie prawdopodobieństwa dla każdego rynku związanego z golami. Dowiedz się więcej o BTTS w naszym przewodniku BTTS — wyjaśnienie.

Ograniczenia i ulepszenia

Żaden model nie jest doskonały. Podejście Poisson ma znane ograniczenia, które ExPrysm rozwiązuje poprzez inżynierię cech:

  • Zmienna w czasie siła ataku/obrony: Siła drużyny zmienia się w trakcie sezonu. ExPrysm radzi sobie z tym poprzez Pi-ratings (aktualizowane codziennie) i kroczące wskaźniki formy, zamiast statycznych średnich sezonowych.
  • Zanikanie przewagi własnego boiska: Przewaga własnego boiska maleje w europejskiej piłce nożnej od 2010 roku i jeszcze bardziej spadła podczas meczów bez publiczności w erze COVID. Modele ExPrysm uczą się aktualnej przewagi własnego boiska z najnowszych danych, zamiast zakładać stałą wartość.
  • Dynamika pucharu a ligi: Mecze pucharowe mają inne profile taktyczne (bardziej ostrożne, więcej scenariuszy z dogrywką). Cechy ExPrysm uwzględniają typ rozgrywek, aby uchwycić te różnice.
  • Założenie niezależności: Choć parametr ρ Dixon-Coles pomaga, gole w meczu nigdy nie są naprawdę niezależne. Drużyna, która wychodzi na prowadzenie 1:0, może grać bardziej defensywnie. Nieliniowe modelowanie CatBoost częściowo uchwytuje te dynamiki poprzez cechy kontekstowe.
  • Nadmierne rozproszenie: W przypadku niektórych rynków (kartki, rzuty rożne) gole nie podążają dobrze za Poisson, ponieważ wariancja przekracza średnią. ExPrysm używa dla tych rynków regresji ujemnej dwumianowej.

Podsumowanie

Rozkład Poisson pozostaje najbardziej elegancką i praktyczną podstawą modelowania goli w piłce nożnej. Korekta Dixon-Coles udoskonala go dla nisko punktowanych wyników. ExPrysm buduje na tym fundamencie, zastępując proste szacowanie parametrów regresją Poisson CatBoost — używając 53 cech do przewidywania oczekiwanych goli z większą dokładnością niż metody klasyczne.

Rezultatem jest system generujący skalibrowane prawdopodobieństwa dla każdego rynku związanego z golami z jednej pary przewidywanych wartości λ, połączony z bezpośrednim klasyfikatorem wyników meczów w zespole 70/30 dla ostatecznej prognozy 1X2.

Zobacz, jak te modele sprawdzają się w praktyce na stronie Wyniki, z rezultatami z ponad 7800 meczów w ponad 300 ligach.