Methodology

Моделі Діксона-Коула та Пуассона у прогнозуванні футболу

10 хв читання Лютого 26, 2026 Технічні

Футбольні голи дотримуються дивно передбачуваних статистичних моделей. Розподіл Пуассона був основою моделей забивання голів з 1950-х років, і корекція Діксона-Коулза вдосконалила його для сучасної епохи. Ось як працюють ці моделі — і як ExPrysm будує на них за допомогою машинного навчання.

Вступ до статистичного прогнозування футболу

Статистичне прогнозування футбольних матчів означає оцінку ймовірності кожного можливого результату, а не вибір переможця. Основою більшості моделей, заснованих на голах, є просте спостереження: кількість голів, які команда забиває в матчі, досить добре відповідає розподілу Пуассона.

Це розуміння, вперше задокументоване Мороні (1956), а пізніше формалізоване Махером (1982), дозволяє нам побудувати повну матрицю ймовірностей для будь-якого матчу, якщо ми зможемо оцінити очікувані голи кожної команди (λ). З цієї матриці кожен ринок - 1X2, BTTS, Over/Under, правильний бал, азіатський гандикап - можна отримати математично.

Розподіл Пуассона та футбол

Розподіл Пуассона моделює ймовірність того, що задана кількість подій відбудеться у фіксованому інтервалі, коли події відбуваються незалежно з постійною середньою швидкістю. Для футболу «подія» - це гол, а «інтервал» - один матч.

Імовірність точно k голи за очікуваною ставкою λ дорівнює:

Формула Пуассона

П (Х = к) = (λ^k × e^−λ) / k!

Де λ - очікувана кількість голів, e ≈ 2.71828, і к! є факторіалом k.

Чому це працює для футболу? Голи є відносно рідкісними подіями (зазвичай 1—3 на команду на матч), вони відбуваються дещо незалежно один від одного протягом матчу, а середній показник залежить від сили команди та контексту. Ці властивості добре узгоджуються з припущеннями Пуассона.

Приклад: λ = 1,5 голи

П (0 голів) = 22,3%

П (1 гол) = 33,5%

П (2 голи) = 25,1%

П (3 голи) = 12,6%

П (4+ голів) = 6,5%

Незалежна модель Пуассона

Найпростіший підхід передбачає, що домашні та виїзні цілі незалежні. Якщо ми оцінимо λ_дім і λ_геть окремо ймовірність будь-якої конкретної лінії показників (i, j) просто:

Спільна ймовірність

P (домі=I, далеко = J) = P_дім(i) × П_геть(j)

Це генерує повну матрицю ймовірностей. Наприклад, з λ_дім = 1,6 і λ_геть = 1.1:

	У гостях 0	У гостях 1	В гостях 2	У гостях 3
Головна 0	6.7%	7.4%	4.1%	1.5%
Головна 1	10.8%	11.8%	6.5%	2.4%
Головна 2	8.6%	9.5%	5.2%	1.9%
Головна 3	4.6%	5.1%	2.8%	1.0%

From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.

Обмеження незалежності

Незалежна модель має відомий недолік: вона недооцінює ймовірність нічиї з низькими рахунками (особливо 0-0 та 1-1). У реальному футболі ці показники трапляються частіше, ніж передбачає незалежна модель. Тут втрутилися Діксон і Коулз.

Корекція Діксона-Коула

У своїй знаковій роботі 1997 року Марк Діксон та Стюарт Коулз представили корекційний коефіцієнт ρ (rho), який коригує спільну ймовірність результатів з низькою оцінкою. Ключове розуміння: домашні та виїзні голи не повністю незалежні - тактичні та психологічні фактори створюють кореляцію, особливо в жорстких матчах з низьким рівнем балів.

Корекція застосовується до чотирьох конкретних показників:

Лінія показу	Коефіцієнт корекції
0-0	1 + λ_h × λ_a × ρ
1-0	1 − λ_a × ρ
0-1	1 − λ_h × ρ
1-1	1 + ρ

Коли ρ є негативним (що зазвичай становить приблизно від -0,03 до -0,10), ймовірності 0-0 та 1-1 збільшуються, а 1-0 та 0-1 зменшуються. Це краще відповідає спостережуваним частотам у реальних даних матчу.

Корекція Діксона-Коула невелика за величиною, але значуща для тисяч прогнозів. Це в першу чергу впливає на правильний бал і ринки під 0,5/1,5, де домінують результати з низькою оцінкою.

Як ExPrysm використовує Пуассон

ExPrysm не використовує класичний підхід Пуассона для оцінки параметрів атаки та захисту з історичних середніх показників. Натомість він використовує підхід машинного навчання, який є більш потужним та гнучким:

Регресія Пуассона CatBoost

Дві окремі моделі CatBoost (home_goals.cbm та away_goals.cbm) тренуються з втратою Пуассона для прогнозування λ_дім і λ_геть безпосередньо. Кожна модель використовує 53 функції, включаючи рейтинги PI, метрики форм та статистику від голови до голови.

Генерація розподілу Пуассона

Передбачені значення λ подаються в функцію маси ймовірності Пуассона для створення повної матриці ймовірностей результату (зазвичай 0—7 голів для кожної команди).

Ринкова деривація

Матриця показників агрегується, щоб отримати ймовірності для кожного ринку: BTTS, Over/Under, правильний бал, азіатські лінії гандикапу тощо.

Перевага такого підходу перед класичним Dixon-Coles полягає в тому, що CatBoost може фіксувати нелінійні зв'язки між особливостями та очікуваними цілями. Він не передбачає фіксованого параметра атаки/захисту для кожної команди - натомість він дізнається, як 53 різні контекстні функції взаємодіють, щоб створити очікувану швидкість голів для кожного конкретного матчу.

Виробничий ансамбль

Для прогнозування остаточного результату матчу (1X2) ExPrysm використовує виробничий ансамбль, який поєднує два підходи:

Формула ансамблю

P (результат) = 0,70 × P_{Кетбуст МС} + 0,30 × П_{Пуассон}

Класифікатор результатів матчу CatBoost (69 ознак, class_weights= [1.0, 1.3, 1.0]) забезпечує основний сигнал, тоді як ймовірності, отримані від Пуассона, додають додаткову перспективу з моделі цілей.

Від Пуассона до ринків

Після того, як у вас є матриця ймовірностей шкали, виведення ринкових ймовірностей є простою арифметикою:

BTTS (обидві команди заб'ють)

Підсумуйте всі клітинки, де обидва домашні голи ≥ 1 та голи на виїзді ≥ 1. Еквівалентно: P (BTTS) = 1 - P (дома = 0) - P (далеко = 0) + P (0-0).

Пере/менше голів

Для понад 2,5: підсумуйте всі клітинки, де вдома + далеко ≥ 3. Для Under 2.5: підсумуйте всі клітинки, де домів+далеко ≤ 2. Така ж логіка відноситься і до будь-якого рядка (1.5, 3.5 і т.д.).

Правильний бал

Кожна клітинка в матриці безпосередньо дає ймовірність цієї точної лінії показників. Найбільш ймовірною лінією показників є клітинка з найвищим значенням.

Азійський гандикап

Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.

Ось чому модель цілей Пуассона настільки цінна - одна пара значень λ генерує ймовірності для кожного ринку, пов'язаного з цілями одночасно. Дізнайтеся більше про BTTS в нашому Пояснення BTTS керівництво.

Обмеження та вдосконалення

Жодна модель не є ідеальною. Підхід Пуассона має відомі обмеження, які ExPrysm вирішує за допомогою своєї інженерії функцій:

Часова атака/оборона: Сила команди змінюється протягом сезону. ExPrysm вирішує це за допомогою рейтингів PI (оновлюється щодня) та функцій постійної форми, а не статичних середніх сезонів.
Розпад переваг будинку: Домашня перевага зменшується в європейському футболі з 2010 року і ще більше знизилася під час порожніх стадіонів епохи COVID. Моделі ExPrysm вивчають поточну перевагу будинку з останніх даних, а не припускають фіксоване значення.
Динаміка кубка проти ліги: Кубкові матчі мають різні тактичні профілі (більш обережні, більше сценаріїв додаткового часу). Функції ExPrysm включають тип конкуренції для фіксації цих відмінностей.
Припущення про незалежність: Хоча параметр Dixon-Coles ρ допомагає, голи в матчі ніколи не є справді незалежними. Команда, яка піде нагору з рахунком 1:0, може грати більш захисно. Нелінійне моделювання CatBoost частково фіксує цю динаміку за допомогою контекстних функцій.
Надмірна дисперсія: На деяких ринках (карти, кути) голи не відповідають Пуассону, оскільки дисперсія перевищує середнє значення. Натомість ExPrysm використовує негативну біноміальну регресію для цих ринків.

Висновок

Розподіл Пуассона залишається найбільш елегантною та практичною основою для моделювання футбольних воріт. Корекція Діксона-Коула вдосконалює її для результатів з низькою оцінкою. ExPrysm спирається на цю основу, замінюючи просту оцінку параметрів регресією CatBoost Пуассона - використовуючи 53 функції для прогнозування очікуваних цілей з більшою точністю, ніж класичні методи.

Результатом є система, яка генерує калібровані ймовірності на кожному ринку, пов'язаному з цілями, з однієї пари прогнозованих значень λ в поєднанні з класифікатором результатів прямого матчу в ансамблі 70/30 для остаточного прогнозування 1X2.

Подивіться, як ці моделі працюють на практиці на Сторінка продуктивності, з результатами 7,800+ матчів у 100+ лігах.