Introduction aux prévisions statistiques sur le football

Prédire les matchs de football de manière statistique signifie estimer la probabilité de chaque résultat possible, et non choisir un gagnant. La base de la plupart des modèles basés sur les buts repose sur une observation simple : le nombre de buts marqués par une équipe au cours d'un match suit assez bien une distribution de Poisson.

Cette idée, documentée pour la première fois par Moroney (1956) puis formalisée par Maher (1982), nous permet de construire une matrice de probabilité complète pour n'importe quel match si nous pouvons estimer les buts attendus de chaque équipe (λ). À partir de cette matrice, chaque marché (1X2, BTTS, Over/Under, score correct, handicap asiatique) peut être dérivé mathématiquement.

La distribution du poisson et le football

La distribution de Poisson modélise la probabilité qu'un nombre donné d'événements se produisent dans un intervalle fixe, lorsque les événements se produisent indépendamment à un rythme moyen constant. Pour le football, « l'événement » est un but et « l'intervalle » est un match.

La probabilité d'exactement k objectifs étant donné un taux attendu λ est :

Formule de Poisson

P (X = k) = (λk × e−λ) / k!

où λ est le nombre de buts escompté, e ≈ 2,71828, et k ! est la factorielle de k.

Pourquoi est-ce que cela fonctionne pour le football ? Les buts sont des événements relativement rares (généralement 1 à 3 par équipe et par match), ils se produisent indépendamment les uns des autres au cours d'un match et le taux moyen varie en fonction de la force de l'équipe et du contexte. Ces propriétés correspondent bien aux hypothèses de Poisson.

Exemple : λ = 1,5 objectif

P (0 but) = 22,3 %

P (1 objectif) = 33,5 %

P (2 objectifs) = 25,1 %

P (3 objectifs) = 12,6 %

P (4 buts et plus) = 6,5 %

Modèle de Poisson indépendant

L'approche la plus simple suppose que les objectifs à domicile et à l'extérieur sont indépendants. Si nous estimons λmaison et λloin séparément, la probabilité d'un score spécifique (i, j) est simplement :

Probabilité conjointe

P (Accueil=I, éloignement=J) = Pmaison(i) × Ploin(j)

Cela génère une matrice de probabilité de score complète. Par exemple, avec λmaison = 1,6 et λloin = 1.1:

À l'extérieur 0À l'extérieur 1À l'extérieur 2À l'extérieur 3
Accueil 06.7%7.4%4.1%1.5%
Accueil 110.8%11.8%6.5%2.4%
Accueil 28.6%9.5%5.2%1.9%
Accueil 34.6%5.1%2.8%1.0%

From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.

Limites de l'indépendance

Le modèle indépendant présente un défaut connu : il sous-estime la probabilité de matchs nuls à faible score (notamment 0-0 et 1-1). Dans le football réel, ces scores sont plus fréquents que ne le prédit le modèle indépendant. C'est là que Dixon et Coles sont intervenus.

La correction Dixon-Coles

Dans leur article historique de 1997, Mark Dixon et Stuart Coles ont introduit un facteur de correction ρ (rho) qui ajuste la probabilité conjointe des résultats à faible score. L'essentiel est que les buts à domicile et à l'extérieur ne sont pas totalement indépendants. Des facteurs tactiques et psychologiques créent une corrélation, en particulier dans les matches serrés où le score est faible.

La correction s'applique à quatre scores spécifiques :

Ligne de pointageFacteur de correction
0-01 + λh × λa × ρ
1-01 − λa × ρ
0-11 − λh × ρ
1-11 + ρ

Lorsque ρ est négatif (ce qui est généralement le cas, entre −0,03 et −0,10), les probabilités de 0-0 et de 1-1 augmentent tandis que 1-0 et 0-1 diminuent. Cela correspond mieux aux fréquences observées dans les données de correspondance réelles.

La correction de Dixon-Coles est de faible amplitude mais significative pour des milliers de prédictions. Cela affecte principalement les marchés à score correct et à moins de 0,5/1,5 où les résultats à faible score dominent.

Comment ExPrysm utilise Poisson

ExPrysm n'utilise pas l'approche classique de Poisson pour estimer les paramètres d'attaque et de défense à partir de moyennes historiques. Il utilise plutôt une approche d'apprentissage automatique plus puissante et plus flexible :

1
Régression de Poisson CatBoost
Deux modèles CatBoost distincts (home_goals.cbm et away_goals.cbm) sont entraînés avec la perte de Poisson pour prédire λmaison et λloin directement. Chaque modèle utilise 53 fonctionnalités, notamment des évaluations PI, des mesures de formulaire et des statistiques en tête-à-tête.
2
Poisson Distribution Generation
Les valeurs λ prédites sont introduites dans la fonction de masse de probabilité de Poisson pour générer une matrice de probabilité complète du score (généralement de 0 à 7 buts pour chaque équipe).
3
Dérivation du marché
La matrice des scores est agrégée pour produire des probabilités pour chaque marché : BTTS, Over/Under, score correct, lignes de handicap asiatiques, etc.

L'avantage de cette approche par rapport à la méthode Dixon-Coles classique est que CatBoost peut capturer des relations non linéaires entre les caractéristiques et les objectifs attendus. Il ne suppose pas un paramètre d'attaque et de défense fixe par équipe. Il apprend plutôt comment 53 caractéristiques contextuelles différentes interagissent pour produire le taux de buts attendu pour chaque match spécifique.

Ensemble de production

Pour la prédiction du résultat final du match (1X2), ExPrysm utilise un ensemble de production qui combine deux approches :

Formule d'ensemble

P (résultat) = 0,70 × PCatBoost MS + 0,30 × PPoisson

Le classificateur de résultats de match CatBoost (69 caractéristiques, class_weights= [1.0, 1.3, 1.0]) fournit le signal principal, tandis que les probabilités dérivées de Poisson ajoutent une perspective complémentaire à partir du modèle des objectifs.

De Poisson aux marchés

Une fois que vous disposez de la matrice de probabilité du score, la dérivation des probabilités de marché est une simple arithmétique :

BTTS (Les deux équipes marquent)

Additionnez toutes les cellules où les buts à domicile sont ≥ 1 et les buts à l'extérieur ≥ 1. De manière équivalente : P (BTTS) = 1 − P (home=0) − P (away = 0) + P (0-0).

Objectifs en deçà ou en deçà

Pour plus de 2,5 : additionnez toutes les cellules où domicile + extérieur ≥ 3. Pour moins de 2,5 : additionnez toutes les cases où domicile + extérieur ≤ 2. La même logique s'applique à n'importe quelle ligne (1,5, 3,5, etc.).

Score correct

Chaque cellule de la matrice donne directement la probabilité de ce score exact. Le score le plus probable est la cellule ayant la valeur la plus élevée.

Handicap asiatique

Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.

C'est pourquoi le modèle des objectifs de Poisson est si précieux : une seule paire de valeurs λ génère simultanément des probabilités pour chaque marché lié aux objectifs. Pour en savoir plus sur le BTTS, consultez notre BTTS expliqué guide.

Limites et améliorations

Aucun modèle n'est parfait. L'approche de Poisson présente des limites connues qu'ExPrysm résout grâce à son ingénierie des fonctionnalités :

  • Attaque/défense variable dans le temps : La force de l'équipe change au cours de la saison. ExPrysm gère cela grâce à des évaluations PI (mises à jour quotidiennement) et à des fonctionnalités de formulaire évolutif plutôt que des moyennes saisonnières statiques.
  • Home Advantage Decay : L'avantage du terrain à domicile est en baisse dans l'ensemble du football européen depuis 2010, et a encore diminué pendant la période de COVID dans les stades vides. Les modèles d'ExPrysm permettent de déterminer l'avantage actuel d'une maison à partir de données récentes plutôt que de supposer une valeur fixe.
  • Dynamique entre la coupe et la ligue : Les matches de coupe ont des profils tactiques différents (scénarios plus prudents, plus de prolongations). Les fonctionnalités d'ExPrysm incluent le type de compétition pour saisir ces différences.
  • Hypothèse d'indépendance : Bien que le paramètre ρ de Dixon-Coles soit utile, les buts d'un match ne sont jamais vraiment indépendants. Une équipe qui a une avance de 1-0 peut jouer de manière plus défensive. La modélisation non linéaire de CatBoost capture partiellement ces dynamiques grâce à des fonctionnalités contextuelles.
  • Surdispersion : Sur certains marchés (cartes, corners), les buts ne suivent pas bien Poisson car la variance dépasse la moyenne. ExPrysm utilise plutôt la régression binomiale négative pour ces marchés.

Conclusion

La distribution de Poisson reste la base la plus élégante et la plus pratique pour la modélisation des buts de football. La correction de Dixon-Coles l'affine pour les résultats à faible score. ExPrysm s'appuie sur cette base en remplaçant l'estimation simple des paramètres par la régression de Poisson CatBoost, qui utilise 53 caractéristiques pour prédire les objectifs attendus avec une plus grande précision que les méthodes classiques.

Le résultat est un système qui génère des probabilités calibrées sur tous les marchés liés aux objectifs à partir d'une seule paire de valeurs λ prévues, combinées à un classificateur de résultats de match direct dans un ensemble 70/30 pour la prédiction finale 1X2.

Découvrez comment ces modèles fonctionnent dans la pratique sur Page sur les performances, avec les résultats de plus de 7 800 matchs dans plus de 100 ligues.