Pourquoi l'étalonnage des modèles est plus important que la précision des prévisions de football
Un modèle précis à 60 % semble impressionnant, jusqu'à ce que vous vous rendiez compte qu'il indique « 70 % de confiance » sur des prédictions qui ne se réalisent que 55 % du temps. Cet écart entre la confiance déclarée et la fiabilité réelle est le problème de l'étalonnage, et c'est la différence entre un modèle utile et un modèle dangereux.
Précision et étalonnage
La plupart des gens évaluent les modèles de prédiction en fonction de leur précision : « Quel pourcentage de prédictions étaient correctes ? » C'est intuitif mais profondément trompeur pour les prévisions probabilistes.
Prenons deux modèles prédisant 100 matchs de football :
| modèle | Exactitude | Comportement |
|---|---|---|
| Modèle A | 54% | Prédit l'équipe locale à chaque fois |
| Modèle B | 54% | Génère des probabilités calibrées pour chaque match |
Les deux ont la même précision, mais le modèle B est bien plus utile. Lorsque le Model B dit « 75 % de victoires à domicile », cela signifie que parmi tous les matchs où il avait prédit environ 75 %, environ 75 % se sont soldés par des victoires à domicile. Le modèle A ne vous donne aucune information de ce type : il s'agit simplement de toujours choisir la maison.
La précision vous indique à quelle fréquence le modèle est correct. L'étalonnage vous indique dans quelle mesure vous pouvez faire confiance aux probabilités qu'il génère. Pour tous ceux qui prennent des décisions sur la base de ces probabilités, en particulier pour les décisions financières, l'étalonnage est ce qui compte.
Qu'est-ce que l'étalonnage ?
Un modèle est parfaitement calibré si, pour chaque probabilité qu'il produit, la fréquence réelle de l'événement correspond à cette probabilité. Formellement :
P (résultat = correct | confiance = p) = p
Pour toutes les valeurs de p comprises entre 0 et 1.
Dans la pratique, cela signifie que :
- Lorsque le modèle indique « 60 % de probabilité », l'événement doit se produire environ 60 % du temps
- Lorsque le modèle indique « 80 % de probabilité », l'événement doit se produire environ 80 % du temps
- Lorsque le modèle indique « 30 % de probabilité », l'événement doit se produire environ 30 % du temps
Ceci est visualisé à l'aide d'un diagramme de fiabilité (courbe d'étalonnage) : vous tracez la probabilité prévue sur l'axe des x par rapport à la fréquence observée sur l'axe des y. Un modèle parfaitement calibré produit une ligne diagonale allant de (0,0) à (1,1).
Étalonnage des mesures
Score de Brier
La métrique la plus courante pour évaluer les prédictions probabilistes est le score de Brier, introduit par Glenn Brier en 1950 :
BS = (1/N) × Σ (pi − oi)²
Où pi est la probabilité prédite et oi est le résultat réel (1 ou 0). Plus c'est bas, mieux c'est. Plage : 0 (parfait) à 1 (pire).
Le score de Brier peut être décomposé en trois composantes :
| Composant | Ce qu'il mesure | Objectif |
|---|---|---|
| Étalonnage (fiabilité) | Dans quelle mesure les probabilités prévues sont-elles proches des fréquences observées ? | Minimiser |
| Résolution (netteté) | Dans quelle mesure les prévisions s'écartent du taux de base | Maximiser |
| Incertitude | Imprévisibilité inhérente des événements (non contrôlable) | — |
Un modèle peut avoir un bon étalonnage mais une faible résolution (prévoir toujours ~ 33 % pour chaque résultat sur un marché à trois voies), ou une bonne résolution mais un mauvais étalonnage (faire des prédictions extrêmes qui ne correspondent pas à la réalité). Les meilleurs modèles ont à la fois un bon étalonnage et une bonne résolution.
Erreur d'étalonnage
L'erreur d'étalonnage attendue (ECE) fournit une mesure plus directe. Il regroupe les prédictions par niveau de confiance et calcule la différence moyenne pondérée entre les fréquences prévues et observées :
CEE = Σ (nb/N) × |avg(pb) − moyenne (ob)|
Où b indexe les groupes, nb est le nombre de prédictions dans la classe b, et la moyenne (pb) et avg (o)b) sont les valeurs moyennes prévues et observées dans cette classe.
Pourquoi le calibrage est important pour les paris
C'est là que l'étalonnage devient une question financière. Si un modèle indique qu'une équipe a 60 % de chances de gagner et que le bookmaker propose une cote de 55 %, cela ressemble à une mise de valeur, soit un avantage de 5 %. Mais que se passe-t-il si le modèle est trop fiable et que la probabilité réelle est en fait de 53 % ? Vous pariez maintenant sur une valeur attendue négative.
Le mannequin dit : 60 % → Cotes implicites : 1,67
Offres du bookmaker : 1,82 (55 % implicite) → Cela ressemble à une valeur de +5 %
Probabilité réelle : 53 % → Avantage réel : −2 % (pari perdant à long terme)
Un modèle trop confiant identifie systématiquement une « valeur » qui n'existe pas. Sur des centaines de paris, cela détruit votre bankroll. Un modèle bien calibré, même s'il est légèrement moins précis, fournit des estimations de probabilité fiables que vous pouvez réellement utiliser pour prendre des décisions.
C'est pourquoi ExPrysm se concentre sur l'étalonnage en tant que métrique principale. Un modèle qui dit « 65 % » et qui signifie qu'il est infiniment plus utile qu'un modèle qui dit « 75 % » mais qui n'a raison que 60 % du temps.
Comment ExPrysm calibre les modèles
ExPrysm utilise plusieurs approches pour garantir des sorties de probabilité calibrées :
Probabilités natives CatBoost
CatBoost, le framework d'amplification de gradient utilisé par ExPrysm, produit des probabilités bien calibrées de manière native, soit mieux que la plupart des autres modèles basés sur des arbres. En effet, CatBoost utilise des arbres de renforcement ordonnés et symétriques qui réduisent le surajustement, qui est l'une des principales causes de mauvais étalonnage.
Le modèle de résultat des matchs utilise class_weights= [1.0, 1.3, 1.0] pour augmenter légèrement les tirages au sort pendant l'entraînement. Cela permet de résoudre le problème connu selon lequel les tirages sont les résultats les plus difficiles à prévoir et sont souvent sous-représentés dans le niveau de confiance des modèles.
Régression isotonique
Pour l'étalonnage post-hoc, la régression isotonique est une méthode non paramétrique qui permet d'apprendre une cartographie monotone à partir des scores bruts du modèle et des probabilités calibrées. Il fonctionne en ajustant une fonction échelonnée qui minimise l'erreur quadratique entre les fréquences prévues et observées, sous la contrainte que la fonction ne soit pas décroissante.
L'avantage par rapport aux méthodes paramétriques est que la régression isotonique ne fait aucune hypothèse quant à la forme de la courbe d'étalonnage. Elle peut corriger tout type de mauvais étalonnage.
Platt Scaling
La mise à l'échelle de Platt applique une régression logistique aux sorties brutes du modèle afin de produire des probabilités calibrées. Elle est plus simple que la régression isotonique et fonctionne bien lorsque le mauvais étalonnage suit un schéma sigmoïde. C'est particulièrement utile pour les résultats binaires tels que le BTTS ou les marchés Over/Under.
Lecture d'une courbe d'étalonnage
Une courbe d'étalonnage (diagramme de fiabilité) est le moyen le plus intuitif d'évaluer la qualité du modèle. Voici comment en lire un :
| Motif | Signification | Implication |
|---|---|---|
| Points sur la diagonale | Étalonnage parfait | Les probabilités prévues correspondent à la réalité |
| Points au-dessus de la diagonale | Inconfiant | Le modèle dit 50 % mais les événements se produisent 60 % — conservateur |
| Points en dessous de la diagonale | Trop confiant | Le modèle dit 70 %, mais les événements se produisent 55 %, ce qui est dangereux |
| Courbe en forme de S | Mixte | Inconfiante dans les extrêmes, trop confiante dans la moyenne (ou vice versa) |
En matière de paris, l'excès de confiance est le schéma le plus dangereux. Un modèle trop confiant vous fait penser que vous avez un avantage alors que ce n'est pas le cas. Le manque de confiance est moins néfaste : vous risquez de rater certains paris intéressants, mais vous ne perdrez pas systématiquement de l'argent.
Echelle de 30 à 40 % : prévision du modèle ~ 35 %, taux de résultat réel = 33 % ✓
Echelle de 50 à 60 % : prévision du modèle ~ 55 %, taux de résultat réel = 57 % ✓
Bin 70-80 % : modèle prédit ~ 75 %, taux de résultat réel = 73 % ✓
La fréquence observée pour chaque casier se situe à quelques points de pourcentage de la moyenne prévue. Il s'agit d'un modèle bien calibré.
Résultats d'étalonnage d'ExPrysm
ExPrysm publie des courbes d'étalonnage pour tous les principaux marchés du Page sur les performances. Ces courbes sont générées à partir de données de prédiction réelles sur plus de 7 800 matchs et sont mises à jour régulièrement.
Points clés concernant l'étalonnage d'ExPrysm :
- Accessible au public : Contrairement à la plupart des services de prédiction, les données d'étalonnage d'ExPrysm sont visibles par tous les utilisateurs. Vous pouvez vérifier vous-même la fiabilité du modèle.
- Granularité au niveau du marché : Des courbes d'étalonnage distinctes sont fournies pour le résultat du match (1X2), le BTTS, le Over/Under et d'autres marchés. Chaque marché possède des caractéristiques d'étalonnage différentes.
- Surveillance continue : L'étalonnage est suivi au fil du temps pour détecter la dérive. Si le modèle est mal calibré en raison de l'évolution de la dynamique du football, il est détecté rapidement.
- Pas de cueillette de cerises : Toutes les prédictions sont incluses dans l'analyse d'étalonnage, et pas seulement celles que le modèle a correctement obtenues. Ceci est essentiel pour une évaluation honnête.
Consultez les courbes d'étalonnage en direct d'ExPrysm et les scores de Brier sur le Page sur les performances. Toutes les données proviennent de prévisions réelles, et non de tests rétroactifs.
Conclusion
La précision est la métrique que tout le monde demande. L'étalonnage est la métrique qui compte réellement. Un modèle bien calibré vous donne des probabilités auxquelles vous pouvez faire confiance et sur lesquelles vous pouvez agir. Un modèle non calibré, aussi « précis » soit-il, peut vous conduire à prendre systématiquement de mauvaises décisions.
ExPrysm donne la priorité à l'étalonnage grâce à l'estimation de probabilité native de CatBoost, à des techniques d'étalonnage post-hoc et à des rapports publics transparents sur les courbes d'étalonnage. Lorsque le modèle indique 65 %, cela signifie 65 %, et c'est la base sur laquelle tout le reste repose.
Vous voulez comprendre comment les scores de confiance se répercutent sur les décisions de paris ? Lisez notre Comment choisir ses paris sur le football guide.