Methodology

Por qué la calibración de modelos es más importante que la precisión en las predicciones de fútbol

9 minutos de lectura 26 de febrero de 2026 Técnico

Un modelo con una precisión del 60% suena impresionante, hasta que te das cuenta de que dice «un 70% de confianza» en predicciones que solo se hacen realidad el 55% de las veces. Esa brecha entre la confianza declarada y la confiabilidad real es el problema de la calibración, y es la diferencia entre un modelo útil y uno peligroso.

Precisión frente a calibración

La mayoría de las personas evalúan los modelos de predicción según su precisión: «¿Qué porcentaje de predicciones fueron correctas?» Esto es intuitivo pero profundamente engañoso para las predicciones probabilísticas.

Considere dos modelos que predicen 100 partidos de fútbol:

modelo	Precisión	Comportamiento
Modelo A	54%	Predice el equipo local en todo momento
Modelo B	54%	Genera probabilidades calibradas para cada partido

Ambos tienen la misma precisión, pero el modelo B es mucho más útil. Cuando el Modelo B dice «75% de victoria en casa», significa que de todos los partidos en los que pronosticó aproximadamente un 75%, aproximadamente el 75% resultó en victorias en casa. El modelo A no te da esa información, solo que siempre escoge tu casa.

La precisión indica la frecuencia con la que el modelo es correcto. La calibración le indica en qué medida puede confiar en las probabilidades que genera. Para cualquiera que tome decisiones basadas en esas probabilidades, especialmente las decisiones financieras, la calibración es lo que importa.

¿Qué es la calibración?

Un modelo está perfectamente calibrado si, para cada probabilidad que genera, la frecuencia real del evento coincide con esa probabilidad. Formalmente:

Definición de calibración

P (resultado = correcto | confianza = p) = p

Para todos los valores de p entre 0 y 1.

En la práctica, esto significa:

Cuando el modelo dice «probabilidad del 60%», el evento debería ocurrir aproximadamente el 60% de las veces
Cuando el modelo dice «80% de probabilidad», el evento debería ocurrir aproximadamente el 80% de las veces
Cuando el modelo dice «30% de probabilidad», el evento debería ocurrir aproximadamente el 30% de las veces

Esto se visualiza mediante un diagrama de confiabilidad (curva de calibración): se traza la probabilidad pronosticada en el eje x contra la frecuencia observada en el eje y. Un modelo perfectamente calibrado produce una línea diagonal de (0,0) a (1,1).

Calibración de medición

Puntuación más breve

La métrica más común para evaluar las predicciones probabilísticas es la puntuación de Brier, introducida por Glenn Brier en 1950:

Fórmula de puntuación Brier

BS = (1/N) × C (p_i − o_i)²

Dónde p_i es la probabilidad pronosticada y o_i es el resultado real (1 o 0). Cuanto más bajo es mejor. Rango: 0 (perfecto) a 1 (peor).

La puntuación de Brier se puede descomponer en tres componentes:

Componente	Qué mide	Gol
Calibración (confiabilidad)	Qué tan cerca están las probabilidades pronosticadas de las frecuencias observadas	Minimizar
Resolución (nitidez)	Cuánto se desvían las predicciones de la tasa base	Maximizar
Incertidumbre	Imprevisibilidad inherente de los eventos (no controlable)	—

Un modelo puede tener una buena calibración pero una resolución deficiente (siempre predice alrededor del 33% para cada resultado en un mercado de 3 vías) o una buena resolución pero una calibración deficiente (hace predicciones extremas que no coinciden con la realidad). Los mejores modelos tienen una buena calibración y una buena resolución.

Error de calibración

El error de calibración esperado (ECE) proporciona una medida más directa. Ordena las predicciones por nivel de confianza y calcula la diferencia promedio ponderada entre las frecuencias pronosticadas y observadas:

Fórmula ECE

ECE = C (n)_b/N) × |avg(p_b) − promedio (o_b)|

Donde b indexa, binarios, n_b es el número de predicciones en el contenedor (b) y avg (p)_b) y avg (o_b) son los valores medios pronosticados y observados en ese contenedor.

Por qué la calibración es importante para las apuestas

Aquí es donde la calibración se convierte en un problema financiero. Si un modelo dice que un equipo tiene un 60% de probabilidades de ganar y la casa de apuestas ofrece cuotas que implican un 55%, parece una apuesta con valor: una ventaja del 5%. Pero, ¿qué pasa si el modelo tiene demasiada confianza y la probabilidad real es, de hecho, del 53%? Ahora estás apostando a un valor esperado negativo.

La trampa de la calibración

La modelo dice: 60% → Cuotas implícitas: 1.67

Ofertas de casas de apuestas: 1,82 (55% implícito) → Parece un valor de +5%

Probabilidad real: 53% → Ventaja real: − 2% (apuesta perdedora a largo plazo)

Un modelo con exceso de confianza identifica sistemáticamente el «valor» que no existe. Con cientos de apuestas, esto destruye tus fondos. Un modelo bien calibrado, aunque sea un poco menos preciso, te proporciona estimaciones de probabilidad fiables que puedes utilizar realmente para la toma de decisiones.

Por eso, ExPrysm se centra en la calibración como métrica principal. Un modelo que dice "65%" y significa que es infinitamente más útil que uno que dice "75%" pero solo acierta el 60% de las veces.

Cómo calibra ExPrysm los modelos

ExPrysm utiliza varios enfoques para garantizar resultados probabilísticos calibrados:

Probabilidades nativas de CatBoost

CatBoost, el marco de aumento de gradiente utilizado por ExPrysm, produce probabilidades bien calibradas de forma nativa, mejor que la mayoría de los otros modelos basados en árboles. Esto se debe a que CatBoost usa árboles simétricos y de refuerzo ordenado que reducen el sobreajuste, que es la causa principal de los errores de calibración.

El modelo de resultados de los partidos usa class_weights= [1.0, 1.3, 1.0] para aumentar ligeramente el peso de los sorteos durante el entrenamiento. Esto soluciona el problema conocido de que los empates son el resultado más difícil de predecir y, a menudo, están infrarrepresentados en cuanto a la confianza del modelo.

Regresión isotónica

Para la calibración post-hoc, la regresión isotónica es un método no paramétrico que aprende un mapeo monótono desde las puntuaciones del modelo sin procesar hasta las probabilidades calibradas. Funciona ajustando una función escalonada que minimice el error cuadrático entre las frecuencias pronosticadas y observadas, siempre que la función no sea decreciente.

La ventaja sobre los métodos paramétricos es que la regresión isotónica no hace suposiciones sobre la forma de la curva de calibración; puede corregir cualquier patrón de mala calibración.

Escalado de Platt

La escala de Platt ajusta una regresión logística a los resultados sin procesar del modelo para producir probabilidades calibradas. Es más simple que la regresión isotónica y funciona bien cuando la mala calibración sigue un patrón sigmoideo. Es particularmente útil para resultados binarios como el BTTS o los mercados de valores superados o inferiores.

Lectura de una curva de calibración

Una curva de calibración (diagrama de confiabilidad) es la forma más intuitiva de evaluar la calidad del modelo. A continuación se explica cómo leer una:

Patrón	Significado	Implicación
Puntos en diagonal	Calibración perfecta	Las probabilidades previstas coinciden con la realidad
Puntos por encima de la diagonal	Con poca confianza	El modelo dice que el 50%, pero los eventos ocurren en un 60%: conservador
Puntos por debajo de la diagonal	Demasiado confiado	La modelo dice que el 70%, pero los eventos ocurren el 55%: es peligroso
Curva en forma de S	Mixto	Insuficiente confianza en los extremos, exceso de confianza en el medio (o viceversa)

A los efectos de las apuestas, el exceso de confianza es el patrón más peligroso. Un modelo con exceso de confianza te hace pensar que tienes una ventaja cuando no la tienes. La falta de confianza es menos perjudicial: es posible que te saltes algunas apuestas con valor, pero no perderás dinero de forma sistemática.

Qué aspecto tiene una buena calibración

Rango 30-40%: modelo pronosticado ~ 35%, tasa de resultados real = 33% ✓

Rango 50-60%: modelo pronosticado ~ 55%, tasa de resultados real = 57% ✓

Rango 70-80%: modelo pronosticado ~ 75%, tasa de resultados real = 73% ✓

La frecuencia observada de cada contenedor está dentro de unos pocos puntos porcentuales del promedio previsto; ese es un modelo bien calibrado.

Resultados de calibración de ExPrysm

ExPrysm publica curvas de calibración para los principales mercados del Página de rendimiento. Estas curvas se generan a partir de datos de predicción reales de más de 7.800 coincidencias y se actualizan periódicamente.

Puntos clave sobre la calibración de ExPrysm:

Disponible públicamente: A diferencia de la mayoría de los servicios de predicción, los datos de calibración de ExPrysm son visibles para todos los usuarios. Puede verificar la confiabilidad del modelo usted mismo.
Granularidad a nivel de mercado: Se proporcionan curvas de calibración independientes para el resultado de la coincidencia (1X2), el BTTS, el over/under y otros mercados. Cada mercado tiene características de calibración diferentes.
Monitorización continua: La calibración se controla a lo largo del tiempo para detectar la deriva. Si el modelo se calibra mal debido a los cambios en la dinámica del fútbol, se detecta pronto.
No hay que recoger cerezas: Todas las predicciones se incluyen en el análisis de calibración, no solo las que el modelo hizo bien. Esto es fundamental para una evaluación honesta.

Vea las curvas de calibración en tiempo real de ExPrysm y las puntuaciones de Brier en Página de rendimiento. Todos los datos provienen de predicciones reales, no de pruebas retrospectivas.

Conclusión

La precisión es la métrica por la que todos preguntan. La calibración es la métrica que realmente importa. Un modelo bien calibrado le brinda probabilidades en las que puede confiar y en las que puede actuar. Un modelo no calibrado, por «preciso» que sea, puede llevarlo a tomar malas decisiones de forma sistemática.

ExPrysm prioriza la calibración mediante la estimación de probabilidad nativa de CatBoost, las técnicas de calibración post hoc y la presentación de informes públicos transparentes sobre las curvas de calibración. Cuando el modelo dice 65%, significa 65%, y esa es la base sobre la que se basa todo lo demás.

¿Quieres entender cómo los puntajes de confianza se traducen en decisiones de apuestas? Lee nuestro Cómo elegir apuestas de fútbol guía.