Por que a calibração do modelo é mais importante do que a precisão nas previsões de futebol
Um modelo com 60% de precisão parece impressionante — até você perceber que diz "70% de confiança” em previsões que só se concretizam 55% das vezes. Essa lacuna entre a confiança declarada e a confiabilidade real é o problema de calibração e é a diferença entre um modelo útil e um perigoso.
Precisão versus calibração
A maioria das pessoas avalia os modelos de previsão pela precisão: “Qual porcentagem de previsões estava correta?” Isso é intuitivo, mas profundamente enganoso para previsões probabilísticas.
Considere dois modelos que prevêem 100 partidas de futebol:
| modelo | Precisão | Comportamento |
|---|---|---|
| Modelo A | 54% | Prevê a equipe da casa todas as vezes |
| Modelo B | 54% | Produz probabilidades calibradas para cada partida |
Ambos têm a mesma precisão, mas o Modelo B é muito mais útil. Quando o Modelo B diz "75% de vitória em casa”, significa que, entre todas as partidas em que previu ~ 75%, cerca de 75% realmente resultaram em vitórias em casa. O modelo A não fornece essas informações — está sempre escolhendo sua casa.
A precisão indica com que frequência o modelo está correto. A calibração indica o quanto você pode confiar nas probabilidades que ela gera. Para qualquer pessoa que tome decisões com base nessas probabilidades, especialmente decisões financeiras, a calibração é o que importa.
O que é calibração?
Um modelo é perfeitamente calibrado se, para cada probabilidade gerada, a frequência real do evento corresponder a essa probabilidade. Formalmente:
P (resultado = correto | confiança = p) = p
Para todos os valores de p entre 0 e 1.
Na prática, isso significa:
- Quando o modelo diz "60% de probabilidade”, o evento deve ocorrer ~ 60% das vezes
- Quando o modelo diz "80% de probabilidade”, o evento deve ocorrer ~ 80% das vezes
- Quando o modelo diz "30% de probabilidade”, o evento deve ocorrer ~ 30% das vezes
Isso é visualizado usando um diagrama de confiabilidade (curva de calibração): você traça a probabilidade prevista no eixo x em relação à frequência observada no eixo y. Um modelo perfeitamente calibrado produz uma linha diagonal de (0,0) a (1,1).
Calibração de medição
Pontuação de Brier
A métrica mais comum para avaliar previsões probabilísticas é a pontuação de Brier, introduzida por Glenn Brier em 1950:
BS = (1/N) × Σ (pi − oi)²
Onde pi é a probabilidade prevista e oi é o resultado real (1 ou 0). Menor é melhor. Intervalo: 0 (perfeito) a 1 (pior).
A pontuação de Brier pode ser decomposta em três componentes:
| Parte | O que ele mede | Objetivo |
|---|---|---|
| Calibração (confiabilidade) | Quão próximas as probabilidades previstas estão das frequências observadas | Minimize |
| Resolução (nitidez) | Quanto as previsões se desviam da taxa básica | Maximizar |
| Incerteza | Imprevisibilidade inerente dos eventos (não controlável) | — |
Um modelo pode ter boa calibração, mas baixa resolução (sempre prevendo ~ 33% para cada resultado em um mercado triplo) ou boa resolução, mas calibração ruim (fazendo previsões extremas que não correspondem à realidade). Os melhores modelos têm boa calibração e boa resolução.
Erro de calibração
O Erro de Calibração Esperado (ECE) fornece uma medida mais direta. Ele combina as previsões por nível de confiança e calcula a diferença média ponderada entre as frequências previstas e observadas:
ECE = Σ (n)b/N) × |avg(pb) − média (o)b)|
Onde b indexa caixas, nb é o número de previsões em bin b e avg (p)b) e avg (ob) são os valores médios previstos e observados nesse compartimento.
Por que a calibração é importante para apostas
É aqui que a calibração se torna um problema financeiro. Se um modelo diz que uma equipe tem 60% de chance de ganhar, e a casa de apostas oferece chances que implicam 55%, isso parece uma aposta de valor — uma vantagem de 5%. Mas e se o modelo for confiante demais e a probabilidade real for, na verdade, de 53%? Agora você está apostando em um valor esperado negativo.
O modelo diz: 60% → Probabilidade implícita: 1.67
Ofertas de casas de apostas: 1.82 (55% implícito) → Parece um valor de +5%
Probabilidade real: 53% → Vantagem real: − 2% (aposta perdida a longo prazo)
Um modelo superconfiante identifica sistematicamente um “valor” que não existe. Mais de centenas de apostas, isso destrói seu saldo. Um modelo bem calibrado, mesmo que um pouco menos preciso, fornece estimativas de probabilidade confiáveis que você pode realmente usar na tomada de decisões.
É por isso que o ExPrysm se concentra na calibração como uma métrica primária. Um modelo que diz "65%" e significa que é infinitamente mais útil do que um que diz "75%", mas está certo apenas 60% das vezes.
Como o ExPrysm calibra modelos
O ExPrysm usa várias abordagens para garantir saídas de probabilidade calibradas:
Probabilidades nativas do CatBoost
O CatBoost, a estrutura de aumento de gradiente usada pelo ExPrysm, produz probabilidades bem calibradas de forma nativa — melhor do que a maioria dos outros modelos baseados em árvores. Isso ocorre porque o CatBoost usa árvores simétricas e de reforço ordenado que reduzem o sobreajuste, que é a principal causa de calibração incorreta.
O modelo de resultado da partida usa class_weights= [1,0, 1,3, 1,0] para aumentar ligeiramente o peso dos empates durante o treinamento. Isso resolve o problema conhecido de que os empates são o resultado mais difícil de prever e geralmente estão sub-representados na confiança do modelo.
Regressão isotônica
Para calibração post-hoc, a regressão isotônica é um método não paramétrico que aprende um mapeamento monotônico das pontuações brutas do modelo às probabilidades calibradas. Ele funciona ajustando uma função escalonada que minimiza o erro quadrado entre as frequências previstas e observadas, sujeita à restrição de que a função não é decrescente.
A vantagem sobre os métodos paramétricos é que a regressão isotônica não faz suposições sobre a forma da curva de calibração — ela pode corrigir qualquer padrão de calibração incorreta.
Escalabilidade Platt
A escala Platt ajusta uma regressão logística às saídas brutas do modelo para produzir probabilidades calibradas. É mais simples do que a regressão isotônica e funciona bem quando a calibração incorreta segue um padrão sigmóide. É particularmente útil para resultados binários, como BTTS ou mercados Over/Under.
Lendo uma curva de calibração
Uma curva de calibração (diagrama de confiabilidade) é a forma mais intuitiva de avaliar a qualidade do modelo. Veja como ler um:
| Padrão | Significado | Implicação |
|---|---|---|
| Pontos na diagonal | Calibração perfeita | As probabilidades previstas correspondem à realidade |
| Pontos acima da diagonal | Baixo nível de confiança | O modelo diz 50%, mas os eventos acontecem 60% — conservador |
| Pontos abaixo da diagonal | Confiante demais | O modelo diz 70%, mas os eventos acontecem 55% — perigoso |
| Curva em forma de S | Misturado | Inconfiante nos extremos, confiante demais no meio (ou vice-versa) |
Para fins de apostas, o excesso de confiança é o padrão mais perigoso. Um modelo superconfiante faz você pensar que tem uma vantagem quando não tem. A falta de confiança é menos prejudicial — você pode perder algumas apostas de valor, mas não perderá dinheiro sistematicamente.
Compartimento 30-40%: modelo previsto ~ 35%, taxa de resultado real = 33% ✓
Compartimento 50-60%: modelo previsto ~ 55%, taxa de resultado real = 57% ✓
Compartimento 70-80%: modelo previsto ~ 75%, taxa de resultado real = 73% ✓
A frequência observada de cada compartimento está dentro de alguns pontos percentuais da média prevista — esse é um modelo bem calibrado.
Resultados de calibração do ExPrysm
A ExPrysm publica curvas de calibração para todos os principais mercados do Página de desempenho. Essas curvas são geradas a partir de dados reais de previsão em mais de 7.800 partidas e são atualizadas regularmente.
Pontos-chave sobre a calibração do ExPrysm:
- Disponível publicamente: Diferentemente da maioria dos serviços de previsão, os dados de calibração do ExPrysm são visíveis para todos os usuários. Você mesmo pode verificar a confiabilidade do modelo.
- Granularidade em nível de mercado: Curvas de calibração separadas são fornecidas para o resultado da partida (1X2), BTTS, Over/Under e outros mercados. Cada mercado tem características de calibração diferentes.
- Monitoramento contínuo: A calibração é monitorada ao longo do tempo para detectar o desvio. Se o modelo ficar mal calibrado devido à mudança na dinâmica do futebol, ele será detectado cedo.
- Sem escolher a dedo: Todas as previsões estão incluídas na análise de calibração — não apenas aquelas que o modelo acertou. Isso é fundamental para uma avaliação honesta.
Veja as curvas de calibração ao vivo do ExPrysm e as pontuações de Brier no Página de desempenho. Todos os dados são de previsões reais, não de backtests.
Conclusão
A precisão é a métrica sobre a qual todos perguntam. A calibração é a métrica que realmente importa. Um modelo bem calibrado oferece probabilidades nas quais você pode confiar e agir. Um modelo não calibrado — por mais “preciso” que seja — pode levar você a decisões sistematicamente erradas.
O ExPrysm prioriza a calibração por meio da estimativa de probabilidade nativa do CatBoost, técnicas de calibração post-hoc e relatórios públicos transparentes das curvas de calibração. Quando o modelo diz 65%, significa 65% — e essa é a base sobre a qual todo o resto é construído.
Quer entender como as pontuações de confiança se traduzem em decisões de apostas? Leia nosso Como escolher apostas de futebol guia.