Introduzione alla Previsione Statistica del Calcio

Prevedere le partite di calcio statisticamente significa stimare la probabilità di ogni possibile risultato — non scegliere un vincitore. La base della maggior parte dei modelli basati sui gol è una semplice osservazione: il numero di gol segnati da una squadra in una partita segue ragionevolmente bene una distribuzione di Poisson.

Questa intuizione, documentata per la prima volta da Moroney (1956) e successivamente formalizzata da Maher (1982), ci permette di costruire una matrice di probabilità completa per qualsiasi partita se riusciamo a stimare i gol attesi (λ) di ciascuna squadra. Da quella matrice, ogni mercato — 1X2, BTTS, Over/Under, risultato esatto, Asian Handicap — può essere derivato matematicamente.

La Distribuzione di Poisson e il Calcio

La distribuzione di Poisson modella la probabilità che un dato numero di eventi si verifichi in un intervallo fisso, quando gli eventi accadono indipendentemente a un tasso medio costante. Nel calcio, l'"evento" è un gol e l'"intervallo" è una partita.

La probabilità di esattamente k gol dato un tasso atteso λ è:

Formula di Poisson

P(X = k) = (λk × e−λ) / k!

Dove λ è il numero atteso di gol, e ≈ 2,71828, e k! è il fattoriale di k.

Perché funziona per il calcio? I gol sono eventi relativamente rari (tipicamente 1–3 per squadra per partita), si verificano in modo abbastanza indipendente l'uno dall'altro all'interno di una partita, e il tasso medio varia in base alla forza della squadra e al contesto. Queste proprietà si allineano bene con le ipotesi di Poisson.

Esempio: λ = 1,5 gol

P(0 gol) = 22,3%

P(1 gol) = 33,5%

P(2 gol) = 25,1%

P(3 gol) = 12,6%

P(4+ gol) = 6,5%

Modello di Poisson Indipendente

L'approccio più semplice assume che i gol in casa e in trasferta siano indipendenti. Se stimiamo λhome e λaway separatamente, la probabilità di qualsiasi risultato specifico (i, j) è semplicemente:

Probabilità Congiunta

P(Casa=i, Trasferta=j) = Phome(i) × Paway(j)

Questo genera una matrice completa di probabilità per ogni risultato. Ad esempio, con λhome = 1,6 e λaway = 1,1:

Trasferta 0Trasferta 1Trasferta 2Trasferta 3
Casa 06,7%7,4%4,1%1,5%
Casa 110,8%11,8%6,5%2,4%
Casa 28,6%9,5%5,2%1,9%
Casa 34,6%5,1%2,8%1,0%

Da questa matrice, puoi sommare le celle per ottenere la probabilità di qualsiasi mercato. Vittoria in casa = somma di tutte le celle dove i > j. Pareggio = somma della diagonale. Vittoria in trasferta = somma dove j > i.

Limiti dell'Indipendenza

Il modello indipendente ha un difetto noto: sottostima la probabilità di pareggi a basso punteggio (specialmente 0-0 e 1-1). Nel calcio reale, questi risultati si verificano più frequentemente di quanto il modello indipendente preveda. È qui che Dixon e Coles sono intervenuti.

La Correzione Dixon-Coles

Nel loro fondamentale articolo del 1997, Mark Dixon e Stuart Coles introdussero un fattore di correzione ρ (rho) che aggiusta la probabilità congiunta per i risultati a basso punteggio. L'intuizione chiave: i gol in casa e in trasferta non sono completamente indipendenti — fattori tattici e psicologici creano una correlazione, in particolare nelle partite combattute e a basso punteggio.

La correzione si applica a quattro risultati specifici:

RisultatoFattore di Correzione
0-01 + λh × λa × ρ
1-01 − λa × ρ
0-11 − λh × ρ
1-11 + ρ

Quando ρ è negativo (come tipicamente accade, intorno a −0,03 e −0,10), le probabilità di 0-0 e 1-1 aumentano mentre quelle di 1-0 e 0-1 diminuiscono. Questo corrisponde meglio alle frequenze osservate nei dati reali delle partite.

La correzione Dixon-Coles è piccola in termini di grandezza ma significativa su migliaia di previsioni. Influisce principalmente sui mercati del risultato esatto e Under 0,5/1,5 dove dominano i risultati a basso punteggio.

Come ExPrysm Utilizza Poisson

ExPrysm non utilizza l'approccio classico di Poisson che stima i parametri di attacco e difesa dalle medie storiche. Utilizza invece un approccio di machine learning più potente e flessibile:

1
Regressione Poisson con CatBoost
Due modelli CatBoost separati (home_goals.cbm e away_goals.cbm) vengono addestrati con la perdita di Poisson per prevedere direttamente λhome e λaway. Ogni modello utilizza 53 caratteristiche tra cui Pi-ratings, metriche di forma e statistiche degli scontri diretti.
2
Generazione della Distribuzione di Poisson
I valori λ previsti vengono inseriti nella funzione di massa di probabilità di Poisson per generare una matrice completa di probabilità per ogni risultato (tipicamente 0–7 gol per ciascuna squadra).
3
Derivazione dei Mercati
La matrice dei risultati viene aggregata per produrre probabilità per ogni mercato: BTTS, Over/Under, risultato esatto, linee Asian Handicap e altro ancora.

Il vantaggio di questo approccio rispetto al classico Dixon-Coles è che CatBoost può catturare relazioni non lineari tra le caratteristiche e i gol attesi. Non assume un parametro fisso di attacco/difesa per squadra — invece, apprende come 53 diverse caratteristiche contestuali interagiscono per produrre il tasso di gol atteso per ogni partita specifica.

Ensemble di Produzione

Per la previsione finale del risultato della partita (1X2), ExPrysm utilizza un ensemble di produzione che combina due approcci:

Formula dell'Ensemble

P(esito) = 0,70 × PCatBoost MS + 0,30 × PPoisson

Il classificatore CatBoost del risultato della partita (69 caratteristiche, class_weights=[1.0, 1.3, 1.0]) fornisce il segnale principale, mentre le probabilità derivate da Poisson aggiungono una prospettiva complementare dal modello dei gol.

Da Poisson ai Mercati

Una volta ottenuta la matrice di probabilità dei risultati, derivare le probabilità dei mercati è una semplice operazione aritmetica:

BTTS (Both Teams to Score)

Somma tutte le celle dove i gol in casa ≥ 1 e i gol in trasferta ≥ 1. In modo equivalente: P(BTTS) = 1 − P(casa=0) − P(trasferta=0) + P(0-0).

Over/Under Gol

Per Over 2,5: somma tutte le celle dove casa + trasferta ≥ 3. Per Under 2,5: somma tutte le celle dove casa + trasferta ≤ 2. La stessa logica si applica a qualsiasi linea (1,5, 3,5, ecc.).

Risultato Esatto

Ogni cella nella matrice fornisce direttamente la probabilità di quel preciso risultato. Il risultato più probabile è la cella con il valore più alto.

Asian Handicap

Applica l'handicap a ogni risultato e determina vittoria/sconfitta/rimborso per ogni cella. Somma le probabilità ponderate per l'esito. Ad esempio, Casa −1,5: somma tutte le celle dove (casa − trasferta) > 1,5.

Ecco perché il modello di gol Poisson è così prezioso — una singola coppia di valori λ genera simultaneamente probabilità per ogni mercato legato ai gol. Scopri di più sul BTTS nella nostra guida BTTS Spiegato.

Limiti e Miglioramenti

Nessun modello è perfetto. L'approccio Poisson ha limiti noti che ExPrysm affronta attraverso la sua ingegneria delle caratteristiche:

  • Attacco/difesa variabile nel tempo: La forza della squadra cambia nel corso di una stagione. ExPrysm gestisce questo attraverso i Pi-ratings (aggiornati quotidianamente) e le caratteristiche di forma recente piuttosto che medie stagionali statiche.
  • Declino del vantaggio casalingo: Il vantaggio casalingo è diminuito nel calcio europeo dal 2010, ed è calato ulteriormente durante le partite a porte chiuse dell'era COVID. I modelli di ExPrysm apprendono il vantaggio casalingo attuale dai dati recenti piuttosto che assumere un valore fisso.
  • Dinamiche coppa vs campionato: Le partite di coppa hanno profili tattici diversi (più cauti, più scenari di tempi supplementari). Le caratteristiche di ExPrysm includono il tipo di competizione per catturare queste differenze.
  • Ipotesi di indipendenza: Sebbene il parametro ρ di Dixon-Coles aiuti, i gol all'interno di una partita non sono mai veramente indipendenti. Una squadra che va in vantaggio 1-0 potrebbe giocare in modo più difensivo. La modellazione non lineare di CatBoost cattura parzialmente queste dinamiche attraverso caratteristiche contestuali.
  • Sovradispersione: Per alcuni mercati (cartellini, calci d'angolo), i gol non seguono bene Poisson perché la varianza supera la media. ExPrysm utilizza invece la regressione Binomiale Negativa per questi mercati.

Conclusione

La distribuzione di Poisson rimane la base più elegante e pratica per la modellazione dei gol nel calcio. La correzione Dixon-Coles la perfeziona per i risultati a basso punteggio. ExPrysm si basa su questa fondazione sostituendo la semplice stima dei parametri con la regressione Poisson di CatBoost — utilizzando 53 caratteristiche per prevedere i gol attesi con maggiore precisione rispetto ai metodi classici.

Il risultato è un sistema che genera probabilità calibrate per ogni mercato legato ai gol da una singola coppia di valori λ previsti, combinato con un classificatore diretto del risultato della partita in un ensemble 70/30 per la previsione finale 1X2.

Scopri come questi modelli si comportano nella pratica sulla pagina Performance, con risultati da oltre 7.800 partite in più di 300 campionati.