Perché la Calibrazione del Modello Conta Più dell'Accuratezza nelle Previsioni di Calcio
Un modello con il 60% di accuratezza sembra impressionante — finché non si scopre che dice "70% di confidenza" su previsioni che si avverano solo il 55% delle volte. Questo divario tra la fiducia dichiarata e l'affidabilità reale è il problema della calibrazione, ed è la differenza tra un modello utile e uno pericoloso.
Accuratezza vs Calibrazione
La maggior parte delle persone valuta i modelli predittivi in base all'accuratezza: "Quale percentuale di previsioni era corretta?" Questo è intuitivo ma profondamente fuorviante per le previsioni probabilistiche.
Considera due modelli che prevedono 100 partite di calcio:
| Modello | Accuratezza | Comportamento |
|---|---|---|
| Modello A | 54% | Prevede sempre la squadra di casa |
| Modello B | 54% | Fornisce probabilità calibrate per ogni partita |
Entrambi hanno la stessa accuratezza, ma il Modello B è molto più utile. Quando il Modello B dice "75% vittoria in casa", significa che tra tutte le partite in cui ha previsto ~75%, circa il 75% si è effettivamente concluso con una vittoria casalinga. Il Modello A non fornisce tale informazione — sceglie sempre la squadra di casa.
L'accuratezza ti dice quanto spesso il modello ha ragione. La calibrazione ti dice quanto puoi fidarti delle probabilità che produce. Per chiunque prenda decisioni basate su quelle probabilità — specialmente decisioni finanziarie — la calibrazione è ciò che conta.
Cos'è la Calibrazione?
Un modello è perfettamente calibrato se, per ogni probabilità che produce, la frequenza effettiva dell'evento corrisponde a quella probabilità. Formalmente:
P(outcome = correct | confidence = p) = p
Per tutti i valori di p compresi tra 0 e 1.
In pratica, questo significa:
- Quando il modello dice "60% di probabilità", l'evento dovrebbe verificarsi ~60% delle volte
- Quando il modello dice "80% di probabilità", l'evento dovrebbe verificarsi ~80% delle volte
- Quando il modello dice "30% di probabilità", l'evento dovrebbe verificarsi ~30% delle volte
Questo viene visualizzato tramite un diagramma di affidabilità (curva di calibrazione): si traccia la probabilità prevista sull'asse x rispetto alla frequenza osservata sull'asse y. Un modello perfettamente calibrato produce una linea diagonale da (0,0) a (1,1).
Misurare la Calibrazione
Brier Score
La metrica più comune per valutare le previsioni probabilistiche è il Brier score, introdotto da Glenn Brier nel 1950:
BS = (1/N) × Σ(pi − oi)²
Dove pi è la probabilità prevista e oi è il risultato effettivo (1 o 0). Più basso è meglio. Intervallo: 0 (perfetto) a 1 (peggiore).
Il Brier score può essere scomposto in tre componenti:
| Componente | Cosa Misura | Obiettivo |
|---|---|---|
| Calibrazione (affidabilità) | Quanto le probabilità previste si avvicinano alle frequenze osservate | Minimizzare |
| Risoluzione (nitidezza) | Quanto le previsioni si discostano dal tasso base | Massimizzare |
| Incertezza | Imprevedibilità intrinseca degli eventi (non controllabile) | — |
Un modello può avere una buona calibrazione ma una scarsa risoluzione (prevedendo sempre ~33% per ogni esito in un mercato a 3 vie), oppure una buona risoluzione ma una scarsa calibrazione (facendo previsioni estreme che non corrispondono alla realtà). I migliori modelli hanno sia una buona calibrazione che una buona risoluzione.
Errore di Calibrazione
L'Expected Calibration Error (ECE) fornisce una misura più diretta. Raggruppa le previsioni per livello di confidenza e calcola la differenza media ponderata tra frequenze previste e osservate:
ECE = Σ (nb/N) × |avg(pb) − avg(ob)|
Dove b indica i gruppi, nb è il numero di previsioni nel gruppo b, e avg(pb) e avg(ob) sono i valori medi previsti e osservati in quel gruppo.
Perché la Calibrazione Conta nelle Scommesse
È qui che la calibrazione diventa una questione finanziaria. Se un modello dice che una squadra ha il 60% di probabilità di vincere, e il bookmaker offre quote che implicano il 55%, sembra una scommessa di valore — un vantaggio del 5%. Ma cosa succede se il modello è troppo sicuro di sé e la vera probabilità è in realtà il 53%? Ora stai scommettendo con un valore atteso negativo.
Il modello dice: 60% → Quote implicite: 1,67
Il bookmaker offre: 1,82 (implicito 55%) → Sembra un valore di +5%
Probabilità reale: 53% → Vantaggio effettivo: −2% (scommessa perdente a lungo termine)
Un modello troppo sicuro di sé identifica sistematicamente un "valore" che non esiste. Nel corso di centinaia di scommesse, questo distrugge il tuo bankroll. Un modello ben calibrato, anche se leggermente meno accurato, fornisce stime di probabilità affidabili che puoi effettivamente utilizzare per prendere decisioni.
Ecco perché ExPrysm si concentra sulla calibrazione come metrica primaria. Un modello che dice "65%" e lo intende davvero è infinitamente più utile di uno che dice "75%" ma ha ragione solo il 60% delle volte.
Come ExPrysm Calibra i Modelli
ExPrysm utilizza diversi approcci per garantire output di probabilità calibrati:
Probabilità Native di CatBoost
CatBoost, il framework di gradient boosting utilizzato da ExPrysm, produce probabilità ben calibrate in modo nativo — meglio della maggior parte degli altri modelli basati su alberi. Questo perché CatBoost utilizza l'ordered boosting e alberi simmetrici che riducono l'overfitting, che è la causa principale della miscalibrazione.
Il modello per il risultato della partita utilizza class_weights=[1.0, 1.3, 1.0] per dare un peso leggermente maggiore ai pareggi durante l'addestramento. Questo affronta il problema noto che i pareggi sono il risultato più difficile da prevedere e sono spesso sottorappresentati nella confidenza del modello.
Regressione Isotonica
Per la calibrazione post-hoc, la regressione isotonica è un metodo non parametrico che apprende una mappatura monotona dai punteggi grezzi del modello alle probabilità calibrate. Funziona adattando una funzione a gradini che minimizza l'errore quadratico tra frequenze previste e osservate, soggetta al vincolo che la funzione sia non decrescente.
Il vantaggio rispetto ai metodi parametrici è che la regressione isotonica non fa assunzioni sulla forma della curva di calibrazione — può correggere qualsiasi schema di miscalibrazione.
Platt Scaling
Il Platt scaling adatta una regressione logistica sugli output grezzi del modello per produrre probabilità calibrate. È più semplice della regressione isotonica e funziona bene quando la miscalibrazione segue uno schema sigmoide. È particolarmente utile per esiti binari come i mercati BTTS o Over/Under.
Leggere una Curva di Calibrazione
Una curva di calibrazione (diagramma di affidabilità) è il modo più intuitivo per valutare la qualità del modello. Ecco come leggerla:
| Schema | Significato | Implicazione |
|---|---|---|
| Punti sulla diagonale | Calibrazione perfetta | Le probabilità previste corrispondono alla realtà |
| Punti sopra la diagonale | Sottoconfidenza | Il modello dice 50% ma gli eventi accadono il 60% delle volte — conservativo |
| Punti sotto la diagonale | Sovraconfidenza | Il modello dice 70% ma gli eventi accadono il 55% delle volte — pericoloso |
| Curva a S | Misto | Sottoconfidente agli estremi, sovraconfidente al centro (o viceversa) |
Per le scommesse, la sovraconfidenza è lo schema più pericoloso. Un modello sovraconfidente ti fa credere di avere un vantaggio quando non ce l'hai. La sottoconfidenza è meno dannosa — potresti perdere alcune scommesse di valore, ma non perderai sistematicamente denaro.
Gruppo 30-40%: Il modello ha previsto ~35%, tasso di esito effettivo = 33% ✓
Gruppo 50-60%: Il modello ha previsto ~55%, tasso di esito effettivo = 57% ✓
Gruppo 70-80%: Il modello ha previsto ~75%, tasso di esito effettivo = 73% ✓
La frequenza osservata di ogni gruppo è entro pochi punti percentuali dalla media prevista — questo è un modello ben calibrato.
I Risultati di Calibrazione di ExPrysm
ExPrysm pubblica le curve di calibrazione per tutti i principali mercati nella pagina Performance. Queste curve sono generate da dati di previsione reali su 7.800+ partite e vengono aggiornate regolarmente.
Punti chiave sulla calibrazione di ExPrysm:
- Disponibile pubblicamente: A differenza della maggior parte dei servizi di previsione, i dati di calibrazione di ExPrysm sono visibili a tutti gli utenti. Puoi verificare tu stesso l'affidabilità del modello.
- Granularità a livello di mercato: Vengono fornite curve di calibrazione separate per il risultato della partita (1X2), BTTS, Over/Under e altri mercati. Ogni mercato ha caratteristiche di calibrazione diverse.
- Monitoraggio continuo: La calibrazione viene monitorata nel tempo per rilevare derive. Se il modello diventa miscalibrato a causa dei cambiamenti nelle dinamiche del calcio, viene individuato tempestivamente.
- Nessuna selezione arbitraria: Tutte le previsioni sono incluse nell'analisi di calibrazione — non solo quelle che il modello ha indovinato. Questo è fondamentale per una valutazione onesta.
Visualizza le curve di calibrazione in tempo reale e i Brier score di ExPrysm nella pagina Performance. Tutti i dati provengono da previsioni reali, non da backtest.
Conclusione
L'accuratezza è la metrica che tutti chiedono. La calibrazione è la metrica che conta davvero. Un modello ben calibrato ti fornisce probabilità di cui puoi fidarti e su cui puoi agire. Un modello non calibrato — per quanto "accurato" — può portarti a prendere sistematicamente decisioni sbagliate.
ExPrysm dà priorità alla calibrazione attraverso la stima nativa delle probabilità di CatBoost, tecniche di calibrazione post-hoc e la rendicontazione pubblica trasparente delle curve di calibrazione. Quando il modello dice 65%, intende 65% — e questa è la base su cui è costruito tutto il resto.
Vuoi capire come i punteggi di confidenza si traducono in decisioni di scommessa? Leggi la nostra guida Come Scegliere le Scommesse sul Calcio.