Modelos de Dixon-Coles y Poisson en la predicción del fútbol
Los goles de fútbol siguen patrones estadísticos sorprendentemente predecibles. La distribución de Poisson ha sido la columna vertebral de los modelos de anotación de goles desde la década de 1950, y la corrección de Dixon-Coles la perfeccionó para adaptarla a la era moderna. Así es como funcionan estos modelos y cómo ExPrysm se basa en ellos con el aprendizaje automático.
Introducción a la predicción estadística del fútbol
Predecir estadísticamente los partidos de fútbol significa estimar la probabilidad de cada resultado posible, no elegir un ganador. La base de la mayoría de los modelos basados en goles es una observación simple: el número de goles que marca un equipo en un partido sigue razonablemente bien la distribución de Poisson.
Esta idea, documentada por primera vez por Moroney (1956) y formalizada más tarde por Maher (1982), nos permite construir una matriz de probabilidad completa para cualquier partido si podemos estimar los goles esperados de cada equipo (λ). A partir de esa matriz, todos los mercados (1X2, BTTS, más/menos, puntuación correcta, hándicap asiático) pueden derivarse matemáticamente.
La distribución de Poisson y el fútbol
La distribución de Poisson modela la probabilidad de que un número determinado de eventos ocurran en un intervalo fijo, cuando los eventos ocurren de forma independiente a una tasa promedio constante. En el fútbol, el «evento» es un gol y el «intervalo» es un partido.
La probabilidad de exactamente k las metas dadas una tasa esperada λ son:
P (X = k) = (λk × e−λ) / k!
Donde λ es el número esperado de goles, e ≈ 2.71828, y k! es el factorial de k.
¿Por qué funciona esto para el fútbol? Los goles son eventos relativamente raros (normalmente de 1 a 3 por equipo y partido), se producen de forma algo independiente durante un partido y la tasa promedio varía según la fuerza del equipo y el contexto. Estas propiedades se alinean bien con las suposiciones de Poisson.
P (0 goles) = 22,3%
P (1 objetivo) = 33,5%
P (2 goles) = 25,1%
P (3 goles) = 12,6%
P (más de 4 goles) = 6,5%
Modelo independiente de Poisson
El enfoque más simple supone que los goles en casa y fuera de casa son independientes. Si estimamos λcasa y λlejos separadamente, la probabilidad de cualquier marcador específico (i, j) es simplemente:
P (Inicio = I, lejos = J) = Pcasa(i) × Plejos(j)
Esto genera una matriz de probabilidad de puntuación completa. Por ejemplo, con λcasa = 1.6 y λlejos = 1.1:
| Lejos 0 | Lejos 1 | Lejos 2 | Fuera 3 | |
|---|---|---|---|---|
| Inicio 0 | 6.7% | 7.4% | 4.1% | 1.5% |
| Inicio 1 | 10.8% | 11.8% | 6.5% | 2.4% |
| Inicio 2 | 8.6% | 9.5% | 5.2% | 1.9% |
| Inicio 3 | 4.6% | 5.1% | 2.8% | 1.0% |
From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.
Limitaciones de la independencia
El modelo independiente tiene un defecto conocido: subestima la probabilidad de empates con puntuaciones bajas (especialmente 0-0 y 1-1). En el fútbol real, estos marcadores se producen con más frecuencia de lo que predice el modelo independiente. Aquí es donde intervienen Dixon y Coles.
La corrección de Dixon-Coles
En su histórico artículo de 1997, Mark Dixon y Stuart Coles introdujeron un factor de corrección α (rho) que ajusta la probabilidad conjunta de obtener resultados con puntuaciones bajas. La idea clave es que los goles en casa y los goles a domicilio no son totalmente independientes; los factores tácticos y psicológicos crean una correlación, especialmente en partidos reñidos y con bajas puntuaciones.
La corrección se aplica a cuatro marcadores específicos:
| Marcador | Factor de corrección |
|---|---|
| 0-0 | 1 + λh × λa × ρ |
| 1-0 | 1 − λa × ρ |
| 0-1 | 1 − λh × ρ |
| 1-1 | 1 + ρ |
Cuando α es negativo (lo que suele ser, entre −0,03 y −0,10), las probabilidades de 0-0 y 1-1 aumentan, mientras que las de 1-0 y 0-1 disminuyen. Esto coincide mejor con las frecuencias observadas en los datos de partidos reales.
La corrección de Dixon-Coles es de pequeña magnitud, pero significativa en miles de predicciones. Afecta principalmente a los mercados con una puntuación correcta y a los mercados de menos de 0,5/1,5, en los que predominan los resultados con puntuaciones bajas.
Cómo utiliza ExPrysm Poisson
ExPrysm no utiliza el enfoque clásico de Poisson de estimar los parámetros de ataque y defensa a partir de promedios históricos. En su lugar, utiliza un enfoque de aprendizaje automático que es más potente y flexible:
La ventaja de este enfoque sobre el Dixon-Coles clásico es que CatBoost puede capturar relaciones no lineales entre las características y los objetivos esperados. No se basa en un parámetro fijo de ataque/defensa por equipo, sino que aprende cómo interactúan 53 características contextuales diferentes para generar la tasa de goles esperada para cada partido específico.
Conjunto de producción
Para la predicción del resultado final de la coincidencia (1X2), ExPrysm utiliza un conjunto de producción que combina dos enfoques:
P (resultado) = 0.70 × PCatBoost MS + 0,30 × PÁG.Poisson
El clasificador de resultados de partidos CatBoost (69 características, class_weights= [1.0, 1.3, 1.0]) proporciona la señal principal, mientras que las probabilidades derivadas de Poisson añaden una perspectiva complementaria del modelo de goles.
Del Poisson a los mercados
Una vez que tenga la matriz de probabilidades del marcador, derivar las probabilidades del mercado es aritmética sencilla:
BTTS (Ambos equipos marcarán)
Sume todas las casillas en las que los goles en casa sean ≥ 1 y los goles fuera de casa ≥ 1. Equivalentemente: P (BTTS) = 1 − P (casa=0) − P (ausente=0) + P (0-0).
Más/menos goles
Para más de 2,5: suma todas las celdas en las que está en casa + lejos ≥ 3. Para valores inferiores a 2,5: suma todas las celdas en las que el lugar más cercano sea igual o inferior a 2. La misma lógica se aplica a cualquier línea (1.5, 3.5, etc.).
Puntuación correcta
Cada celda de la matriz da directamente la probabilidad de esa puntuación exacta. La puntuación más probable es la celda con el valor más alto.
Hándicap asiático
Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.
Esta es la razón por la que el modelo de metas de Poisson es tan valioso: un solo par de valores λ genera probabilidades para todos los mercados relacionados con las metas simultáneamente. Obtenga más información sobre BTTS en nuestro Explicación de BTTS guía.
Limitaciones y mejoras
Ningún modelo es perfecto. El enfoque de Poisson tiene limitaciones conocidas que ExPrysm aborda mediante su ingeniería de funciones:
- Ataque/defensa que varían en el tiempo: La fuerza del equipo cambia a lo largo de la temporada. ExPrysm gestiona esta situación mediante clasificaciones por PI (que se actualizan a diario) y funciones de forma continua, en lugar de promedios estáticos de temporada.
- La ventaja de jugar en casa disminuye: La ventaja de jugar en casa ha ido disminuyendo en el fútbol europeo desde 2010, y se redujo aún más durante los estadios vacíos de la era Covid. Los modelos de ExPrysm aprenden la ventaja actual de jugar en casa a partir de datos recientes, en lugar de asumir un valor fijo.
- Dinámica copa vs liga: Los partidos de copa tienen diferentes perfiles tácticos (más cautos, más escenarios de prórroga). Entre las funciones de ExPrysm se incluye el tipo de competición para captar estas diferencias.
- Supuesto de independencia: Si bien el parámetro de Dixon-Coles es útil, los goles de un partido nunca son realmente independientes. Un equipo que gana 1-0 puede jugar más defensivamente. El modelado no lineal de CatBoost captura parcialmente estas dinámicas a través de características contextuales.
- Dispersión excesiva: En algunos mercados (cartas, saques de esquina), los goles no siguen bien a Poisson porque la varianza supera la media. En su lugar, ExPrysm utiliza la regresión binomial negativa para estos mercados.
Conclusión
La distribución de Poisson sigue siendo la base más elegante y práctica para modelar porterías de fútbol. La corrección de Dixon-Coles la refina para obtener resultados con puntuaciones bajas. ExPrysm se basa en esta base al reemplazar la estimación simple de parámetros por la regresión CatBoost Poisson, que utiliza 53 funciones para predecir los objetivos esperados con mayor precisión que los métodos clásicos.
El resultado es un sistema que genera probabilidades calibradas en todos los mercados relacionados con los goles a partir de un solo par de valores λ pronosticados, combinado con un clasificador de resultados de coincidencia directa en un conjunto de 70/30 para la predicción final de 1X2.
Vea cómo funcionan estos modelos en la práctica en Página de rendimiento, con resultados de más de 7.800 partidos en más de 100 ligas.