Моделі Діксона-Коула та Пуассона у прогнозуванні футболу
Футбольні голи дотримуються дивно передбачуваних статистичних моделей. Розподіл Пуассона був основою моделей забивання голів з 1950-х років, і корекція Діксона-Коулза вдосконалила його для сучасної епохи. Ось як працюють ці моделі — і як ExPrysm будує на них за допомогою машинного навчання.
Вступ до статистичного прогнозування футболу
Статистичне прогнозування футбольних матчів означає оцінку ймовірності кожного можливого результату, а не вибір переможця. Основою більшості моделей, заснованих на голах, є просте спостереження: кількість голів, які команда забиває в матчі, досить добре відповідає розподілу Пуассона.
Це розуміння, вперше задокументоване Мороні (1956), а пізніше формалізоване Махером (1982), дозволяє нам побудувати повну матрицю ймовірностей для будь-якого матчу, якщо ми зможемо оцінити очікувані голи кожної команди (λ). З цієї матриці кожен ринок - 1X2, BTTS, Over/Under, правильний бал, азіатський гандикап - можна отримати математично.
Розподіл Пуассона та футбол
Розподіл Пуассона моделює ймовірність того, що задана кількість подій відбудеться у фіксованому інтервалі, коли події відбуваються незалежно з постійною середньою швидкістю. Для футболу «подія» - це гол, а «інтервал» - один матч.
Імовірність точно k голи за очікуваною ставкою λ дорівнює:
П (Х = к) = (λk × e−λ) / k!
Де λ - очікувана кількість голів, e ≈ 2.71828, і к! є факторіалом k.
Чому це працює для футболу? Голи є відносно рідкісними подіями (зазвичай 1—3 на команду на матч), вони відбуваються дещо незалежно один від одного протягом матчу, а середній показник залежить від сили команди та контексту. Ці властивості добре узгоджуються з припущеннями Пуассона.
П (0 голів) = 22,3%
П (1 гол) = 33,5%
П (2 голи) = 25,1%
П (3 голи) = 12,6%
П (4+ голів) = 6,5%
Незалежна модель Пуассона
Найпростіший підхід передбачає, що домашні та виїзні цілі незалежні. Якщо ми оцінимо λдім і λгеть окремо ймовірність будь-якої конкретної лінії показників (i, j) просто:
P (домі=I, далеко = J) = Pдім(i) × Пгеть(j)
Це генерує повну матрицю ймовірностей. Наприклад, з λдім = 1,6 і λгеть = 1.1:
| У гостях 0 | У гостях 1 | В гостях 2 | У гостях 3 | |
|---|---|---|---|---|
| Головна 0 | 6.7% | 7.4% | 4.1% | 1.5% |
| Головна 1 | 10.8% | 11.8% | 6.5% | 2.4% |
| Головна 2 | 8.6% | 9.5% | 5.2% | 1.9% |
| Головна 3 | 4.6% | 5.1% | 2.8% | 1.0% |
From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.
Обмеження незалежності
Незалежна модель має відомий недолік: вона недооцінює ймовірність нічиї з низькими рахунками (особливо 0-0 та 1-1). У реальному футболі ці показники трапляються частіше, ніж передбачає незалежна модель. Тут втрутилися Діксон і Коулз.
Корекція Діксона-Коула
У своїй знаковій роботі 1997 року Марк Діксон та Стюарт Коулз представили корекційний коефіцієнт ρ (rho), який коригує спільну ймовірність результатів з низькою оцінкою. Ключове розуміння: домашні та виїзні голи не повністю незалежні - тактичні та психологічні фактори створюють кореляцію, особливо в жорстких матчах з низьким рівнем балів.
Корекція застосовується до чотирьох конкретних показників:
| Лінія показу | Коефіцієнт корекції |
|---|---|
| 0-0 | 1 + λh × λa × ρ |
| 1-0 | 1 − λa × ρ |
| 0-1 | 1 − λh × ρ |
| 1-1 | 1 + ρ |
Коли ρ є негативним (що зазвичай становить приблизно від -0,03 до -0,10), ймовірності 0-0 та 1-1 збільшуються, а 1-0 та 0-1 зменшуються. Це краще відповідає спостережуваним частотам у реальних даних матчу.
Корекція Діксона-Коула невелика за величиною, але значуща для тисяч прогнозів. Це в першу чергу впливає на правильний бал і ринки під 0,5/1,5, де домінують результати з низькою оцінкою.
Як ExPrysm використовує Пуассон
ExPrysm не використовує класичний підхід Пуассона для оцінки параметрів атаки та захисту з історичних середніх показників. Натомість він використовує підхід машинного навчання, який є більш потужним та гнучким:
Перевага такого підходу перед класичним Dixon-Coles полягає в тому, що CatBoost може фіксувати нелінійні зв'язки між особливостями та очікуваними цілями. Він не передбачає фіксованого параметра атаки/захисту для кожної команди - натомість він дізнається, як 53 різні контекстні функції взаємодіють, щоб створити очікувану швидкість голів для кожного конкретного матчу.
Виробничий ансамбль
Для прогнозування остаточного результату матчу (1X2) ExPrysm використовує виробничий ансамбль, який поєднує два підходи:
P (результат) = 0,70 × PКетбуст МС + 0,30 × ППуассон
Класифікатор результатів матчу CatBoost (69 ознак, class_weights= [1.0, 1.3, 1.0]) забезпечує основний сигнал, тоді як ймовірності, отримані від Пуассона, додають додаткову перспективу з моделі цілей.
Від Пуассона до ринків
Після того, як у вас є матриця ймовірностей шкали, виведення ринкових ймовірностей є простою арифметикою:
BTTS (обидві команди заб'ють)
Підсумуйте всі клітинки, де обидва домашні голи ≥ 1 та голи на виїзді ≥ 1. Еквівалентно: P (BTTS) = 1 - P (дома = 0) - P (далеко = 0) + P (0-0).
Пере/менше голів
Для понад 2,5: підсумуйте всі клітинки, де вдома + далеко ≥ 3. Для Under 2.5: підсумуйте всі клітинки, де домів+далеко ≤ 2. Така ж логіка відноситься і до будь-якого рядка (1.5, 3.5 і т.д.).
Правильний бал
Кожна клітинка в матриці безпосередньо дає ймовірність цієї точної лінії показників. Найбільш ймовірною лінією показників є клітинка з найвищим значенням.
Азійський гандикап
Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.
Ось чому модель цілей Пуассона настільки цінна - одна пара значень λ генерує ймовірності для кожного ринку, пов'язаного з цілями одночасно. Дізнайтеся більше про BTTS в нашому Пояснення BTTS керівництво.
Обмеження та вдосконалення
Жодна модель не є ідеальною. Підхід Пуассона має відомі обмеження, які ExPrysm вирішує за допомогою своєї інженерії функцій:
- Часова атака/оборона: Сила команди змінюється протягом сезону. ExPrysm вирішує це за допомогою рейтингів PI (оновлюється щодня) та функцій постійної форми, а не статичних середніх сезонів.
- Розпад переваг будинку: Домашня перевага зменшується в європейському футболі з 2010 року і ще більше знизилася під час порожніх стадіонів епохи COVID. Моделі ExPrysm вивчають поточну перевагу будинку з останніх даних, а не припускають фіксоване значення.
- Динаміка кубка проти ліги: Кубкові матчі мають різні тактичні профілі (більш обережні, більше сценаріїв додаткового часу). Функції ExPrysm включають тип конкуренції для фіксації цих відмінностей.
- Припущення про незалежність: Хоча параметр Dixon-Coles ρ допомагає, голи в матчі ніколи не є справді незалежними. Команда, яка піде нагору з рахунком 1:0, може грати більш захисно. Нелінійне моделювання CatBoost частково фіксує цю динаміку за допомогою контекстних функцій.
- Надмірна дисперсія: На деяких ринках (карти, кути) голи не відповідають Пуассону, оскільки дисперсія перевищує середнє значення. Натомість ExPrysm використовує негативну біноміальну регресію для цих ринків.
Висновок
Розподіл Пуассона залишається найбільш елегантною та практичною основою для моделювання футбольних воріт. Корекція Діксона-Коула вдосконалює її для результатів з низькою оцінкою. ExPrysm спирається на цю основу, замінюючи просту оцінку параметрів регресією CatBoost Пуассона - використовуючи 53 функції для прогнозування очікуваних цілей з більшою точністю, ніж класичні методи.
Результатом є система, яка генерує калібровані ймовірності на кожному ринку, пов'язаному з цілями, з однієї пари прогнозованих значень λ в поєднанні з класифікатором результатів прямого матчу в ансамблі 70/30 для остаточного прогнозування 1X2.
Подивіться, як ці моделі працюють на практиці на Сторінка продуктивності, з результатами 7,800+ матчів у 100+ лігах.