Modele Dixon-Coles i Poisson w prognozowaniu piłki nożnej
Gole w piłce nożnej podążają za zaskakująco przewidywalnymi wzorcami statystycznymi. Rozkład Poisson stanowi fundament modeli strzelania goli od lat 50. XX wieku, a korekta Dixon-Coles udoskonaliła go na potrzeby współczesnej ery. Oto jak działają te modele — i jak ExPrysm buduje na nich z wykorzystaniem uczenia maszynowego.
Wprowadzenie do statystycznego prognozowania piłki nożnej
Statystyczne prognozowanie meczów piłkarskich oznacza szacowanie prawdopodobieństwa każdego możliwego wyniku — a nie wskazywanie zwycięzcy. Podstawą większości modeli opartych na golach jest proste spostrzeżenie: liczba goli strzelonych przez drużynę w meczu dość dobrze odpowiada rozkładowi Poisson.
Ta obserwacja, po raz pierwszy udokumentowana przez Moroneya (1956) i sformalizowana przez Mahera (1982), pozwala zbudować pełną macierz prawdopodobieństwa dla dowolnego meczu, jeśli potrafimy oszacować oczekiwaną liczbę goli (λ) każdej drużyny. Z tej macierzy można matematycznie wyprowadzić każdy rynek — 1X2, BTTS, Over/Under, dokładny wynik, Asian Handicap.
Rozkład Poisson a piłka nożna
Rozkład Poisson modeluje prawdopodobieństwo wystąpienia określonej liczby zdarzeń w ustalonym przedziale czasu, gdy zdarzenia zachodzą niezależnie ze stałą średnią częstotliwością. W piłce nożnej „zdarzeniem" jest gol, a „przedziałem" — jeden mecz.
Prawdopodobieństwo dokładnie k goli przy oczekiwanej częstości λ wynosi:
P(X = k) = (λk × e−λ) / k!
Gdzie λ to oczekiwana liczba goli, e ≈ 2,71828, a k! to silnia k.
Dlaczego to działa w piłce nożnej? Gole są stosunkowo rzadkimi zdarzeniami (zazwyczaj 1–3 na drużynę w meczu), w pewnym stopniu niezależnymi od siebie w trakcie meczu, a średnia częstość zależy od siły drużyny i kontekstu. Te właściwości dobrze odpowiadają założeniom rozkładu Poisson.
P(0 goli) = 22,3%
P(1 gol) = 33,5%
P(2 gole) = 25,1%
P(3 gole) = 12,6%
P(4+ goli) = 6,5%
Niezależny model Poisson
Najprostsze podejście zakłada, że gole gospodarzy i gości są niezależne. Jeśli oszacujemy λhome i λaway oddzielnie, prawdopodobieństwo dowolnego konkretnego wyniku (i, j) wynosi po prostu:
P(Gospodarze=i, Goście=j) = Phome(i) × Paway(j)
Daje to pełną macierz prawdopodobieństwa wyników. Na przykład dla λhome = 1,6 i λaway = 1,1:
| Goście 0 | Goście 1 | Goście 2 | Goście 3 | |
|---|---|---|---|---|
| Gospodarze 0 | 6,7% | 7,4% | 4,1% | 1,5% |
| Gospodarze 1 | 10,8% | 11,8% | 6,5% | 2,4% |
| Gospodarze 2 | 8,6% | 9,5% | 5,2% | 1,9% |
| Gospodarze 3 | 4,6% | 5,1% | 2,8% | 1,0% |
Z tej macierzy można zsumować komórki, aby uzyskać prawdopodobieństwo dowolnego rynku. Wygrana gospodarzy = suma wszystkich komórek, gdzie i > j. Remis = suma przekątnej. Wygrana gości = suma, gdzie j > i.
Ograniczenia założenia niezależności
Niezależny model ma znany mankament: zaniża prawdopodobieństwo nisko punktowanych remisów (zwłaszcza 0:0 i 1:1). W rzeczywistej piłce nożnej te wyniki zdarzają się częściej, niż przewiduje model niezależny. Tu właśnie wkroczyli Dixon i Coles.
Korekta Dixon-Coles
W swoim przełomowym artykule z 1997 roku Mark Dixon i Stuart Coles wprowadzili współczynnik korekcyjny ρ (rho), który dostosowuje prawdopodobieństwo łączne dla nisko punktowanych wyników. Kluczowa obserwacja: gole gospodarzy i gości nie są w pełni niezależne — czynniki taktyczne i psychologiczne tworzą korelację, szczególnie w wyrównanych, nisko punktowanych meczach.
Korekta dotyczy czterech konkretnych wyników:
| Wynik | Współczynnik korekcyjny |
|---|---|
| 0-0 | 1 + λh × λa × ρ |
| 1-0 | 1 − λa × ρ |
| 0-1 | 1 − λh × ρ |
| 1-1 | 1 + ρ |
Gdy ρ jest ujemne (co zazwyczaj ma miejsce, w zakresie od −0,03 do −0,10), prawdopodobieństwa wyników 0:0 i 1:1 rosną, a 1:0 i 0:1 maleją. Lepiej odpowiada to obserwowanym częstościom w rzeczywistych danych meczowych.
Korekta Dixon-Coles jest niewielka pod względem wartości, ale istotna w skali tysięcy prognoz. Wpływa przede wszystkim na rynki dokładnego wyniku oraz Under 0,5/1,5, gdzie dominują nisko punktowane wyniki.
Jak ExPrysm wykorzystuje Poisson
ExPrysm nie stosuje klasycznego podejścia Poisson polegającego na szacowaniu parametrów ataku i obrony na podstawie historycznych średnich. Zamiast tego używa podejścia opartego na uczeniu maszynowym, które jest bardziej wydajne i elastyczne:
Przewaga tego podejścia nad klasycznym Dixon-Coles polega na tym, że CatBoost potrafi uchwycić nieliniowe zależności między cechami a oczekiwanymi golami. Nie zakłada stałego parametru ataku/obrony dla każdej drużyny — zamiast tego uczy się, jak 53 różne cechy kontekstowe oddziałują na siebie, aby wygenerować oczekiwaną liczbę goli dla każdego konkretnego meczu.
Produkcyjny zespół modeli
Do ostatecznej prognozy wyniku meczu (1X2) ExPrysm używa produkcyjnego zespołu łączącego dwa podejścia:
P(wynik) = 0,70 × PCatBoost MS + 0,30 × PPoisson
Klasyfikator wyników meczów CatBoost (69 cech, class_weights=[1,0, 1,3, 1,0]) dostarcza głównego sygnału, podczas gdy prawdopodobieństwa wyprowadzone z modelu Poisson dodają uzupełniającą perspektywę z modelu goli.
Od Poisson do rynków
Gdy mamy macierz prawdopodobieństwa wyników, wyprowadzenie prawdopodobieństw rynkowych to prosta arytmetyka:
BTTS (Obie drużyny strzelają)
Zsumuj wszystkie komórki, gdzie zarówno gole gospodarzy ≥ 1, jak i gole gości ≥ 1. Równoważnie: P(BTTS) = 1 − P(gospodarze=0) − P(goście=0) + P(0:0).
Over/Under gole
Dla Over 2,5: zsumuj wszystkie komórki, gdzie gospodarze + goście ≥ 3. Dla Under 2,5: zsumuj wszystkie komórki, gdzie gospodarze + goście ≤ 2. Ta sama logika dotyczy dowolnej linii (1,5, 3,5 itd.).
Dokładny wynik
Każda komórka macierzy bezpośrednio podaje prawdopodobieństwo tego konkretnego wyniku. Najbardziej prawdopodobny wynik to komórka o najwyższej wartości.
Asian Handicap
Zastosuj handicap do każdego wyniku i określ wygraną/przegraną/zwrot dla każdej komórki. Zsumuj prawdopodobieństwa ważone wynikiem. Na przykład Gospodarze −1,5: zsumuj wszystkie komórki, gdzie (gospodarze − goście) > 1,5.
Dlatego model goli Poisson jest tak cenny — jedna para wartości λ generuje jednocześnie prawdopodobieństwa dla każdego rynku związanego z golami. Dowiedz się więcej o BTTS w naszym przewodniku BTTS — wyjaśnienie.
Ograniczenia i ulepszenia
Żaden model nie jest doskonały. Podejście Poisson ma znane ograniczenia, które ExPrysm rozwiązuje poprzez inżynierię cech:
- Zmienna w czasie siła ataku/obrony: Siła drużyny zmienia się w trakcie sezonu. ExPrysm radzi sobie z tym poprzez Pi-ratings (aktualizowane codziennie) i kroczące wskaźniki formy, zamiast statycznych średnich sezonowych.
- Zanikanie przewagi własnego boiska: Przewaga własnego boiska maleje w europejskiej piłce nożnej od 2010 roku i jeszcze bardziej spadła podczas meczów bez publiczności w erze COVID. Modele ExPrysm uczą się aktualnej przewagi własnego boiska z najnowszych danych, zamiast zakładać stałą wartość.
- Dynamika pucharu a ligi: Mecze pucharowe mają inne profile taktyczne (bardziej ostrożne, więcej scenariuszy z dogrywką). Cechy ExPrysm uwzględniają typ rozgrywek, aby uchwycić te różnice.
- Założenie niezależności: Choć parametr ρ Dixon-Coles pomaga, gole w meczu nigdy nie są naprawdę niezależne. Drużyna, która wychodzi na prowadzenie 1:0, może grać bardziej defensywnie. Nieliniowe modelowanie CatBoost częściowo uchwytuje te dynamiki poprzez cechy kontekstowe.
- Nadmierne rozproszenie: W przypadku niektórych rynków (kartki, rzuty rożne) gole nie podążają dobrze za Poisson, ponieważ wariancja przekracza średnią. ExPrysm używa dla tych rynków regresji ujemnej dwumianowej.
Podsumowanie
Rozkład Poisson pozostaje najbardziej elegancką i praktyczną podstawą modelowania goli w piłce nożnej. Korekta Dixon-Coles udoskonala go dla nisko punktowanych wyników. ExPrysm buduje na tym fundamencie, zastępując proste szacowanie parametrów regresją Poisson CatBoost — używając 53 cech do przewidywania oczekiwanych goli z większą dokładnością niż metody klasyczne.
Rezultatem jest system generujący skalibrowane prawdopodobieństwa dla każdego rynku związanego z golami z jednej pary przewidywanych wartości λ, połączony z bezpośrednim klasyfikatorem wyników meczów w zespole 70/30 dla ostatecznej prognozy 1X2.
Zobacz, jak te modele sprawdzają się w praktyce na stronie Wyniki, z rezultatami z ponad 7800 meczów w ponad 300 ligach.