Модели Диксона-Коулза и Пуассона в футбольном прогнозировании
Футбольные голы следуют удивительно предсказуемым статистическим схемам. Распределение Пуассона составляло основу моделей забитых голов с 1950-х годов, а поправка Диксона-Коулза усовершенствовала его в соответствии с требованиями современной эпохи. Вот как работают эти модели и как ExPrysm использует их с помощью машинного обучения.
Введение в статистический футбольный прогноз
Статистическое прогнозирование футбольных матчей означает оценку вероятности каждого возможного исхода, а не выбор победителя. В основе большинства моделей, основанных на голах, лежит простое наблюдение: количество голов, забитых командой в матче, достаточно хорошо соответствует распределению Пуассона.
Это понимание, впервые задокументированное Морони (1956), а затем формализованное Махером (1982), позволяет нам построить полную матрицу вероятностей для любого матча, если мы сможем оценить ожидаемые голы каждой команды (l). На основе этой матрицы можно математически рассчитать все рыночные показатели — 1X2, ставки ставок, ставки «больше/меньше», точный счет, азиатский гандикап.
Распределение Пуассона и футбол
Распределение Пуассона моделирует вероятность возникновения заданного количества событий за фиксированный интервал, когда события происходят независимо друг от друга с постоянной средней скоростью. В футболе «событие» — это гол, а «интервал» — один матч.
Вероятность ровно k цели с учетом ожидаемой скорости l равны:
P (X = k) = (lk × e−λ) / k!
Где l — ожидаемое количество голов, e ≈ 2,71828 и k! является факториалом k.
Почему это работает в футболе? Голы — это относительно редкие события (обычно 1—3 гола на команду за матч), в ходе матча они происходят независимо друг от друга, а среднее количество голов зависит от силы команды и условий игры. Эти характеристики полностью соответствуют предположениям Пуассона.
(0 голов) = 22,3%
P (1 гол) = 33,5%
P (2 гола) = 25,1%
P (3 гола) = 12,6%
P (4 гола и более) = 6,5%
Независимая модель Пуассона
Самый простой подход предполагает, что голы дома и на выезде независимы. Если мы оценим lглавная и lпрочь по отдельности вероятность любого конкретного результата (i, j) проста:
P (дом = I, путь = J) = Pглавная(i) × Pпрочь(j)
Таким образом создается матрица вероятностей с полной оценочной линией. Например, с помощью lглавная = 1,6 и λпрочь = 1.1:
| В гостях 0 | В гостях 1 | В гостях 2 | В гостях 3 | |
|---|---|---|---|---|
| Главная 0 | 6.7% | 7.4% | 4.1% | 1.5% |
| Дом 1 | 10.8% | 11.8% | 6.5% | 2.4% |
| Дом 2 | 8.6% | 9.5% | 5.2% | 1.9% |
| Дом 3 | 4.6% | 5.1% | 2.8% | 1.0% |
From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.
Ограничения независимости
Независимая модель имеет известный недостаток: она недооценивает вероятность ничьих с наименьшим количеством очков (особенно 0:0 и 1:1). В реальном футболе такие результаты встречаются чаще, чем предсказывает независимая модель. Здесь на помощь пришли Диксон и Коулз.
Коррекция Диксона-Коулза
В своей эпохальной статье 1997 года Марк Диксон и Стюарт Коулз представили поправочный коэффициент □ (rho), который регулирует общую вероятность результатов с низкими баллами. Ключевой вывод: голы хозяев и гостей не могут быть полностью независимыми друг от друга — тактические и психологические факторы создают корреляцию, особенно в напряженных матчах с низким количеством результативных матчей.
Исправление относится к четырем конкретным показателям:
| Счет | Коэффициент коррекции |
|---|---|
| 0-0 | 1 + λh × λa × ρ |
| 1-0 | 1 − λa × ρ |
| 0-1 | 1 − λh × ρ |
| 1-1 | 1 + ρ |
Когда □ отрицательное (что обычно составляет от -0,03 до -0,10), вероятности 0-0 и 1:1 увеличиваются, а значения 1-0 и 0-1 уменьшаются. Это лучше соответствует наблюдаемым частотам в реальных данных совпадений.
Коррекция Диксона-Коулза невелика по величине, но значима для тысяч прогнозов. В первую очередь она влияет на точный балл и рынки с показателями менее 0,5/1,5, где преобладают результаты с низкими показателями.
Как ExPrysm использует Poisson
ExPrysm не использует классический пуассоновский подход к оценке параметров атаки и защиты на основе средних исторических значений. Вместо этого используется более мощный и гибкий подход машинного обучения:
Преимущество этого подхода по сравнению с классическим подходом Dixon-Coles заключается в том, что CatBoost может фиксировать нелинейные зависимости между функциями и ожидаемыми целями. Он не предполагает фиксированного параметра атаки и защиты для каждой команды, а изучает, как 53 различных контекстных функции влияют на ожидаемое количество голов в каждом конкретном матче.
Концертный ансамбль
Для прогнозирования итогового результата матча (1X2) ExPrysm использует продюсерский ансамбль, сочетающий два подхода:
P (результат) = 0,70 × PCatBoost MS + 0,30 × ЛПуассон
Классификатор результатов матчей CatBoost (69 функций, class_weights= [1.0, 1.3, 1.0]) обеспечивает основной сигнал, а вероятности, полученные из Пуассона, дополняют модель голов.
От Пуассона до рынков
После того как у вас есть матрица вероятностей с оценочной линией, вычисление рыночных вероятностей представляет собой простую арифметику:
BTTS (обе команды забьют гол)
Просуммируйте все ячейки, где голы хозяев ≥ 1 и голы на выезде ≥ 1. Эквивалентно: P (BTS) = 1 − P (домашняя команда = 0) − P (в гостях = 0) + P (0-0).
Цели «больше/меньше»
Для более 2,5: суммируйте все ячейки, где дома и в гостях ≥ 3. Для значений меньше 2,5: суммируйте все ячейки, где дома и в гостях ≤ 2. Та же логика применима к любой строке (1.5, 3.5 и т. д.).
Точный результат
Каждая ячейка матрицы напрямую определяет вероятность этой точной оценки. Наиболее вероятной оценочной линией является ячейка с наибольшим значением.
Азиатский гандикап
Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.
Вот почему модель целей Пуассона так ценна: одна пара значений l генерирует вероятности для всех рынков, связанных с целями, одновременно. Узнайте больше о BTTS в нашем Объяснение BTTS путеводитель.
Ограничения и улучшения
Ни одна модель не идеальна. Подход Пуассона имеет известные ограничения, которые ExPrysm устраняет с помощью разработки функций:
- Разные во времени атака/защита: Сила команды меняется в течение сезона. ExPrysm решает эту проблему с помощью рейтингов PI (обновляемых ежедневно) и функций скользящих форм, а не статических средних сезонных значений.
- Снижение преимуществ дома: С 2010 года преимущество хозяев в европейском футболе снижалось, а еще больше снизилось из-за пустых стадионов в эпоху COVID-19. Модели ExPrysm позволяют определить текущее преимущество хозяев на основе последних данных, а не принимать фиксированное значение.
- Динамика кубков и лиг: Кубковые матчи имеют разные тактические характеристики (более осторожные сценарии, больше сценариев дополнительного времени). Функции ExPrysm включают в себя тип соревнований, чтобы учесть эти различия.
- Предположение о независимости: Хотя параметр Диксона-Коулза и помогает, голы в матче никогда не бывают по-настоящему независимыми. Команда, которая играет со счетом 1:0, может играть более эффективно в обороне. Нелинейное моделирование CatBoost частично отражает эту динамику с помощью контекстных функций.
- Чрезмерное диспергирование: На некоторых рынках (карты, угловые) голы Пуассона не соответствуют ожиданиям Пуассона, поскольку разница превышает среднее значение. Вместо этого ExPrysm использует отрицательную биномиальную регрессию для этих рынков.
Заключение
Распределение Пуассона остается самой элегантной и практичной основой для моделирования футбольных голов. Поправка Диксона-Коулза позволяет улучшить результаты с наименьшим количеством очков. ExPrysm основывается на этой основе, заменяя простую оценку параметров регрессией Пуассона по методу CatBoost, используя 53 функции для прогнозирования ожидаемых целей с большей точностью, чем классические методы.
В результате получилась система, которая генерирует откалиброванные вероятности на каждом рынке, связанном с голами, на основе одной пары прогнозируемых значений l в сочетании с классификатором результатов прямого совпадения в ансамбле 70/30 для окончательного прогноза 1X2.
Посмотрите, как эти модели работают на практике на Страница производительности, с результатами более 7800 матчей в более чем 100 лигах.