Accuratezza vs Calibrazione

La maggior parte delle persone valuta i modelli predittivi in base all'accuratezza: "Quale percentuale di previsioni era corretta?" Questo è intuitivo ma profondamente fuorviante per le previsioni probabilistiche.

Considera due modelli che prevedono 100 partite di calcio:

ModelloAccuratezzaComportamento
Modello A54%Prevede sempre la squadra di casa
Modello B54%Fornisce probabilità calibrate per ogni partita

Entrambi hanno la stessa accuratezza, ma il Modello B è molto più utile. Quando il Modello B dice "75% vittoria in casa", significa che tra tutte le partite in cui ha previsto ~75%, circa il 75% si è effettivamente concluso con una vittoria casalinga. Il Modello A non fornisce tale informazione — sceglie sempre la squadra di casa.

L'accuratezza ti dice quanto spesso il modello ha ragione. La calibrazione ti dice quanto puoi fidarti delle probabilità che produce. Per chiunque prenda decisioni basate su quelle probabilità — specialmente decisioni finanziarie — la calibrazione è ciò che conta.

Cos'è la Calibrazione?

Un modello è perfettamente calibrato se, per ogni probabilità che produce, la frequenza effettiva dell'evento corrisponde a quella probabilità. Formalmente:

Definizione di Calibrazione

P(outcome = correct | confidence = p) = p

Per tutti i valori di p compresi tra 0 e 1.

In pratica, questo significa:

  • Quando il modello dice "60% di probabilità", l'evento dovrebbe verificarsi ~60% delle volte
  • Quando il modello dice "80% di probabilità", l'evento dovrebbe verificarsi ~80% delle volte
  • Quando il modello dice "30% di probabilità", l'evento dovrebbe verificarsi ~30% delle volte

Questo viene visualizzato tramite un diagramma di affidabilità (curva di calibrazione): si traccia la probabilità prevista sull'asse x rispetto alla frequenza osservata sull'asse y. Un modello perfettamente calibrato produce una linea diagonale da (0,0) a (1,1).

Misurare la Calibrazione

Brier Score

La metrica più comune per valutare le previsioni probabilistiche è il Brier score, introdotto da Glenn Brier nel 1950:

Formula del Brier Score

BS = (1/N) × Σ(pi − oi

Dove pi è la probabilità prevista e oi è il risultato effettivo (1 o 0). Più basso è meglio. Intervallo: 0 (perfetto) a 1 (peggiore).

Il Brier score può essere scomposto in tre componenti:

ComponenteCosa MisuraObiettivo
Calibrazione (affidabilità)Quanto le probabilità previste si avvicinano alle frequenze osservateMinimizzare
Risoluzione (nitidezza)Quanto le previsioni si discostano dal tasso baseMassimizzare
IncertezzaImprevedibilità intrinseca degli eventi (non controllabile)

Un modello può avere una buona calibrazione ma una scarsa risoluzione (prevedendo sempre ~33% per ogni esito in un mercato a 3 vie), oppure una buona risoluzione ma una scarsa calibrazione (facendo previsioni estreme che non corrispondono alla realtà). I migliori modelli hanno sia una buona calibrazione che una buona risoluzione.

Errore di Calibrazione

L'Expected Calibration Error (ECE) fornisce una misura più diretta. Raggruppa le previsioni per livello di confidenza e calcola la differenza media ponderata tra frequenze previste e osservate:

Formula ECE

ECE = Σ (nb/N) × |avg(pb) − avg(ob)|

Dove b indica i gruppi, nb è il numero di previsioni nel gruppo b, e avg(pb) e avg(ob) sono i valori medi previsti e osservati in quel gruppo.

Perché la Calibrazione Conta nelle Scommesse

È qui che la calibrazione diventa una questione finanziaria. Se un modello dice che una squadra ha il 60% di probabilità di vincere, e il bookmaker offre quote che implicano il 55%, sembra una scommessa di valore — un vantaggio del 5%. Ma cosa succede se il modello è troppo sicuro di sé e la vera probabilità è in realtà il 53%? Ora stai scommettendo con un valore atteso negativo.

La Trappola della Calibrazione

Il modello dice: 60% → Quote implicite: 1,67

Il bookmaker offre: 1,82 (implicito 55%) → Sembra un valore di +5%

Probabilità reale: 53% → Vantaggio effettivo: −2% (scommessa perdente a lungo termine)

Un modello troppo sicuro di sé identifica sistematicamente un "valore" che non esiste. Nel corso di centinaia di scommesse, questo distrugge il tuo bankroll. Un modello ben calibrato, anche se leggermente meno accurato, fornisce stime di probabilità affidabili che puoi effettivamente utilizzare per prendere decisioni.

Ecco perché ExPrysm si concentra sulla calibrazione come metrica primaria. Un modello che dice "65%" e lo intende davvero è infinitamente più utile di uno che dice "75%" ma ha ragione solo il 60% delle volte.

Come ExPrysm Calibra i Modelli

ExPrysm utilizza diversi approcci per garantire output di probabilità calibrati:

Probabilità Native di CatBoost

CatBoost, il framework di gradient boosting utilizzato da ExPrysm, produce probabilità ben calibrate in modo nativo — meglio della maggior parte degli altri modelli basati su alberi. Questo perché CatBoost utilizza l'ordered boosting e alberi simmetrici che riducono l'overfitting, che è la causa principale della miscalibrazione.

Il modello per il risultato della partita utilizza class_weights=[1.0, 1.3, 1.0] per dare un peso leggermente maggiore ai pareggi durante l'addestramento. Questo affronta il problema noto che i pareggi sono il risultato più difficile da prevedere e sono spesso sottorappresentati nella confidenza del modello.

Regressione Isotonica

Per la calibrazione post-hoc, la regressione isotonica è un metodo non parametrico che apprende una mappatura monotona dai punteggi grezzi del modello alle probabilità calibrate. Funziona adattando una funzione a gradini che minimizza l'errore quadratico tra frequenze previste e osservate, soggetta al vincolo che la funzione sia non decrescente.

Il vantaggio rispetto ai metodi parametrici è che la regressione isotonica non fa assunzioni sulla forma della curva di calibrazione — può correggere qualsiasi schema di miscalibrazione.

Platt Scaling

Il Platt scaling adatta una regressione logistica sugli output grezzi del modello per produrre probabilità calibrate. È più semplice della regressione isotonica e funziona bene quando la miscalibrazione segue uno schema sigmoide. È particolarmente utile per esiti binari come i mercati BTTS o Over/Under.

Leggere una Curva di Calibrazione

Una curva di calibrazione (diagramma di affidabilità) è il modo più intuitivo per valutare la qualità del modello. Ecco come leggerla:

SchemaSignificatoImplicazione
Punti sulla diagonaleCalibrazione perfettaLe probabilità previste corrispondono alla realtà
Punti sopra la diagonaleSottoconfidenzaIl modello dice 50% ma gli eventi accadono il 60% delle volte — conservativo
Punti sotto la diagonaleSovraconfidenzaIl modello dice 70% ma gli eventi accadono il 55% delle volte — pericoloso
Curva a SMistoSottoconfidente agli estremi, sovraconfidente al centro (o viceversa)

Per le scommesse, la sovraconfidenza è lo schema più pericoloso. Un modello sovraconfidente ti fa credere di avere un vantaggio quando non ce l'hai. La sottoconfidenza è meno dannosa — potresti perdere alcune scommesse di valore, ma non perderai sistematicamente denaro.

Come Appare una Buona Calibrazione

Gruppo 30-40%: Il modello ha previsto ~35%, tasso di esito effettivo = 33% ✓

Gruppo 50-60%: Il modello ha previsto ~55%, tasso di esito effettivo = 57% ✓

Gruppo 70-80%: Il modello ha previsto ~75%, tasso di esito effettivo = 73% ✓

La frequenza osservata di ogni gruppo è entro pochi punti percentuali dalla media prevista — questo è un modello ben calibrato.

I Risultati di Calibrazione di ExPrysm

ExPrysm pubblica le curve di calibrazione per tutti i principali mercati nella pagina Performance. Queste curve sono generate da dati di previsione reali su 7.800+ partite e vengono aggiornate regolarmente.

Punti chiave sulla calibrazione di ExPrysm:

  • Disponibile pubblicamente: A differenza della maggior parte dei servizi di previsione, i dati di calibrazione di ExPrysm sono visibili a tutti gli utenti. Puoi verificare tu stesso l'affidabilità del modello.
  • Granularità a livello di mercato: Vengono fornite curve di calibrazione separate per il risultato della partita (1X2), BTTS, Over/Under e altri mercati. Ogni mercato ha caratteristiche di calibrazione diverse.
  • Monitoraggio continuo: La calibrazione viene monitorata nel tempo per rilevare derive. Se il modello diventa miscalibrato a causa dei cambiamenti nelle dinamiche del calcio, viene individuato tempestivamente.
  • Nessuna selezione arbitraria: Tutte le previsioni sono incluse nell'analisi di calibrazione — non solo quelle che il modello ha indovinato. Questo è fondamentale per una valutazione onesta.

Visualizza le curve di calibrazione in tempo reale e i Brier score di ExPrysm nella pagina Performance. Tutti i dati provengono da previsioni reali, non da backtest.

Conclusione

L'accuratezza è la metrica che tutti chiedono. La calibrazione è la metrica che conta davvero. Un modello ben calibrato ti fornisce probabilità di cui puoi fidarti e su cui puoi agire. Un modello non calibrato — per quanto "accurato" — può portarti a prendere sistematicamente decisioni sbagliate.

ExPrysm dà priorità alla calibrazione attraverso la stima nativa delle probabilità di CatBoost, tecniche di calibrazione post-hoc e la rendicontazione pubblica trasparente delle curve di calibrazione. Quando il modello dice 65%, intende 65% — e questa è la base su cui è costruito tutto il resto.

Vuoi capire come i punteggi di confidenza si traducono in decisioni di scommessa? Leggi la nostra guida Come Scegliere le Scommesse sul Calcio.