Por qué la calibración de modelos es más importante que la precisión en las predicciones de fútbol
Un modelo con una precisión del 60% suena impresionante, hasta que te das cuenta de que dice «un 70% de confianza» en predicciones que solo se hacen realidad el 55% de las veces. Esa brecha entre la confianza declarada y la confiabilidad real es el problema de la calibración, y es la diferencia entre un modelo útil y uno peligroso.
Precisión frente a calibración
La mayoría de las personas evalúan los modelos de predicción según su precisión: «¿Qué porcentaje de predicciones fueron correctas?» Esto es intuitivo pero profundamente engañoso para las predicciones probabilísticas.
Considere dos modelos que predicen 100 partidos de fútbol:
| modelo | Precisión | Comportamiento |
|---|---|---|
| Modelo A | 54% | Predice el equipo local en todo momento |
| Modelo B | 54% | Genera probabilidades calibradas para cada partido |
Ambos tienen la misma precisión, pero el modelo B es mucho más útil. Cuando el Modelo B dice «75% de victoria en casa», significa que de todos los partidos en los que pronosticó aproximadamente un 75%, aproximadamente el 75% resultó en victorias en casa. El modelo A no te da esa información, solo que siempre escoge tu casa.
La precisión indica la frecuencia con la que el modelo es correcto. La calibración le indica en qué medida puede confiar en las probabilidades que genera. Para cualquiera que tome decisiones basadas en esas probabilidades, especialmente las decisiones financieras, la calibración es lo que importa.
¿Qué es la calibración?
Un modelo está perfectamente calibrado si, para cada probabilidad que genera, la frecuencia real del evento coincide con esa probabilidad. Formalmente:
P (resultado = correcto | confianza = p) = p
Para todos los valores de p entre 0 y 1.
En la práctica, esto significa:
- Cuando el modelo dice «probabilidad del 60%», el evento debería ocurrir aproximadamente el 60% de las veces
- Cuando el modelo dice «80% de probabilidad», el evento debería ocurrir aproximadamente el 80% de las veces
- Cuando el modelo dice «30% de probabilidad», el evento debería ocurrir aproximadamente el 30% de las veces
Esto se visualiza mediante un diagrama de confiabilidad (curva de calibración): se traza la probabilidad pronosticada en el eje x contra la frecuencia observada en el eje y. Un modelo perfectamente calibrado produce una línea diagonal de (0,0) a (1,1).
Calibración de medición
Puntuación más breve
La métrica más común para evaluar las predicciones probabilísticas es la puntuación de Brier, introducida por Glenn Brier en 1950:
BS = (1/N) × C (pi − oi)²
Dónde pi es la probabilidad pronosticada y oi es el resultado real (1 o 0). Cuanto más bajo es mejor. Rango: 0 (perfecto) a 1 (peor).
La puntuación de Brier se puede descomponer en tres componentes:
| Componente | Qué mide | Gol |
|---|---|---|
| Calibración (confiabilidad) | Qué tan cerca están las probabilidades pronosticadas de las frecuencias observadas | Minimizar |
| Resolución (nitidez) | Cuánto se desvían las predicciones de la tasa base | Maximizar |
| Incertidumbre | Imprevisibilidad inherente de los eventos (no controlable) | — |
Un modelo puede tener una buena calibración pero una resolución deficiente (siempre predice alrededor del 33% para cada resultado en un mercado de 3 vías) o una buena resolución pero una calibración deficiente (hace predicciones extremas que no coinciden con la realidad). Los mejores modelos tienen una buena calibración y una buena resolución.
Error de calibración
El error de calibración esperado (ECE) proporciona una medida más directa. Ordena las predicciones por nivel de confianza y calcula la diferencia promedio ponderada entre las frecuencias pronosticadas y observadas:
ECE = C (n)b/N) × |avg(pb) − promedio (ob)|
Donde b indexa, binarios, nb es el número de predicciones en el contenedor (b) y avg (p)b) y avg (ob) son los valores medios pronosticados y observados en ese contenedor.
Por qué la calibración es importante para las apuestas
Aquí es donde la calibración se convierte en un problema financiero. Si un modelo dice que un equipo tiene un 60% de probabilidades de ganar y la casa de apuestas ofrece cuotas que implican un 55%, parece una apuesta con valor: una ventaja del 5%. Pero, ¿qué pasa si el modelo tiene demasiada confianza y la probabilidad real es, de hecho, del 53%? Ahora estás apostando a un valor esperado negativo.
La modelo dice: 60% → Cuotas implícitas: 1.67
Ofertas de casas de apuestas: 1,82 (55% implícito) → Parece un valor de +5%
Probabilidad real: 53% → Ventaja real: − 2% (apuesta perdedora a largo plazo)
Un modelo con exceso de confianza identifica sistemáticamente el «valor» que no existe. Con cientos de apuestas, esto destruye tus fondos. Un modelo bien calibrado, aunque sea un poco menos preciso, te proporciona estimaciones de probabilidad fiables que puedes utilizar realmente para la toma de decisiones.
Por eso, ExPrysm se centra en la calibración como métrica principal. Un modelo que dice "65%" y significa que es infinitamente más útil que uno que dice "75%" pero solo acierta el 60% de las veces.
Cómo calibra ExPrysm los modelos
ExPrysm utiliza varios enfoques para garantizar resultados probabilísticos calibrados:
Probabilidades nativas de CatBoost
CatBoost, el marco de aumento de gradiente utilizado por ExPrysm, produce probabilidades bien calibradas de forma nativa, mejor que la mayoría de los otros modelos basados en árboles. Esto se debe a que CatBoost usa árboles simétricos y de refuerzo ordenado que reducen el sobreajuste, que es la causa principal de los errores de calibración.
El modelo de resultados de los partidos usa class_weights= [1.0, 1.3, 1.0] para aumentar ligeramente el peso de los sorteos durante el entrenamiento. Esto soluciona el problema conocido de que los empates son el resultado más difícil de predecir y, a menudo, están infrarrepresentados en cuanto a la confianza del modelo.
Regresión isotónica
Para la calibración post-hoc, la regresión isotónica es un método no paramétrico que aprende un mapeo monótono desde las puntuaciones del modelo sin procesar hasta las probabilidades calibradas. Funciona ajustando una función escalonada que minimice el error cuadrático entre las frecuencias pronosticadas y observadas, siempre que la función no sea decreciente.
La ventaja sobre los métodos paramétricos es que la regresión isotónica no hace suposiciones sobre la forma de la curva de calibración; puede corregir cualquier patrón de mala calibración.
Escalado de Platt
La escala de Platt ajusta una regresión logística a los resultados sin procesar del modelo para producir probabilidades calibradas. Es más simple que la regresión isotónica y funciona bien cuando la mala calibración sigue un patrón sigmoideo. Es particularmente útil para resultados binarios como el BTTS o los mercados de valores superados o inferiores.
Lectura de una curva de calibración
Una curva de calibración (diagrama de confiabilidad) es la forma más intuitiva de evaluar la calidad del modelo. A continuación se explica cómo leer una:
| Patrón | Significado | Implicación |
|---|---|---|
| Puntos en diagonal | Calibración perfecta | Las probabilidades previstas coinciden con la realidad |
| Puntos por encima de la diagonal | Con poca confianza | El modelo dice que el 50%, pero los eventos ocurren en un 60%: conservador |
| Puntos por debajo de la diagonal | Demasiado confiado | La modelo dice que el 70%, pero los eventos ocurren el 55%: es peligroso |
| Curva en forma de S | Mixto | Insuficiente confianza en los extremos, exceso de confianza en el medio (o viceversa) |
A los efectos de las apuestas, el exceso de confianza es el patrón más peligroso. Un modelo con exceso de confianza te hace pensar que tienes una ventaja cuando no la tienes. La falta de confianza es menos perjudicial: es posible que te saltes algunas apuestas con valor, pero no perderás dinero de forma sistemática.
Rango 30-40%: modelo pronosticado ~ 35%, tasa de resultados real = 33% ✓
Rango 50-60%: modelo pronosticado ~ 55%, tasa de resultados real = 57% ✓
Rango 70-80%: modelo pronosticado ~ 75%, tasa de resultados real = 73% ✓
La frecuencia observada de cada contenedor está dentro de unos pocos puntos porcentuales del promedio previsto; ese es un modelo bien calibrado.
Resultados de calibración de ExPrysm
ExPrysm publica curvas de calibración para los principales mercados del Página de rendimiento. Estas curvas se generan a partir de datos de predicción reales de más de 7.800 coincidencias y se actualizan periódicamente.
Puntos clave sobre la calibración de ExPrysm:
- Disponible públicamente: A diferencia de la mayoría de los servicios de predicción, los datos de calibración de ExPrysm son visibles para todos los usuarios. Puede verificar la confiabilidad del modelo usted mismo.
- Granularidad a nivel de mercado: Se proporcionan curvas de calibración independientes para el resultado de la coincidencia (1X2), el BTTS, el over/under y otros mercados. Cada mercado tiene características de calibración diferentes.
- Monitorización continua: La calibración se controla a lo largo del tiempo para detectar la deriva. Si el modelo se calibra mal debido a los cambios en la dinámica del fútbol, se detecta pronto.
- No hay que recoger cerezas: Todas las predicciones se incluyen en el análisis de calibración, no solo las que el modelo hizo bien. Esto es fundamental para una evaluación honesta.
Vea las curvas de calibración en tiempo real de ExPrysm y las puntuaciones de Brier en Página de rendimiento. Todos los datos provienen de predicciones reales, no de pruebas retrospectivas.
Conclusión
La precisión es la métrica por la que todos preguntan. La calibración es la métrica que realmente importa. Un modelo bien calibrado le brinda probabilidades en las que puede confiar y en las que puede actuar. Un modelo no calibrado, por «preciso» que sea, puede llevarlo a tomar malas decisiones de forma sistemática.
ExPrysm prioriza la calibración mediante la estimación de probabilidad nativa de CatBoost, las técnicas de calibración post hoc y la presentación de informes públicos transparentes sobre las curvas de calibración. Cuando el modelo dice 65%, significa 65%, y esa es la base sobre la que se basa todo lo demás.
¿Quieres entender cómo los puntajes de confianza se traducen en decisiones de apuestas? Lee nuestro Cómo elegir apuestas de fútbol guía.