Introdução à previsão estatística de futebol

Prever partidas de futebol estatisticamente significa estimar a probabilidade de cada resultado possível — não escolher um vencedor. A base da maioria dos modelos baseados em gols é uma observação simples: o número de gols que uma equipe marca em uma partida segue uma distribuição de Poisson razoavelmente bem.

Essa visão, documentada pela primeira vez por Moroney (1956) e posteriormente formalizada por Maher (1982), nos permite construir uma matriz de probabilidade completa para qualquer partida se pudermos estimar os gols esperados de cada equipe (λ). A partir dessa matriz, cada mercado — 1X2, BTTS, acima/abaixo, pontuação correta, desvantagem asiática — pode ser derivado matematicamente.

A distribuição de Poisson e o futebol

A distribuição de Poisson modela a probabilidade de um determinado número de eventos ocorrer em um intervalo fixo, quando os eventos acontecem independentemente a uma taxa média constante. Para o futebol, o “evento” é um gol e o “intervalo” é uma partida.

A probabilidade de exatamente k metas dadas uma taxa esperada λ são:

Fórmula de Poisson

P (X = k) = (λk × e−λ) / k!

Onde λ é o número esperado de gols, e ≈ 2,71828 e k! é o fatorial de k.

Por que isso funciona para o futebol? Os gols são eventos relativamente raros (normalmente de 1 a 3 por equipe por partida), ocorrem de forma independente um do outro em uma partida e a taxa média varia de acordo com a força e o contexto da equipe. Essas propriedades se alinham bem com as suposições de Poisson.

Exemplo: λ = 1,5 gols

P (0 gols) = 22,3%

P (1 gol) = 33,5%

P (2 gols) = 25,1%

P (3 gols) = 12,6%

P (mais de 4 gols) = 6,5%

Modelo independente de Poisson

A abordagem mais simples pressupõe que os gols em casa e fora sejam independentes. Se estimarmos λcasa e λlonge separadamente, a probabilidade de qualquer pontuação específica (i, j) é simplesmente:

Probabilidade conjunta

P (casa = i, fora = J) = Pcasa(i) × Plonge(j)

Isso gera uma matriz de probabilidade de pontuação completa. Por exemplo, com λcasa = 1,6 e λlonge = 1.1:

Fora 0Fora 1Fora 2Fora 3
Início 06.7%7.4%4.1%1.5%
Início 110.8%11.8%6.5%2.4%
Início 28.6%9.5%5.2%1.9%
Início 34.6%5.1%2.8%1.0%

From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.

Limitações da independência

O modelo independente tem uma falha conhecida: ele subestima a probabilidade de empates com baixa pontuação (especialmente 0-0 e 1-1). No futebol real, esses placares ocorrem com mais frequência do que o modelo independente prevê. Foi aqui que Dixon e Coles intervieram.

A correção de Dixon-Coles

Em seu artigo marcante de 1997, Mark Dixon e Stuart Coles introduziram um fator de correção ρ (rho) que ajusta a probabilidade conjunta de resultados com baixa pontuação. A visão principal: gols em casa e fora de casa não são totalmente independentes — fatores táticos e psicológicos criam uma correlação, especialmente em partidas apertadas e com poucos gols.

A correção se aplica a quatro linhas de pontuação específicas:

PontuaçãoFator de correção
0-01 + λh × λa × ρ
1-01 − λa × ρ
0-11 − λh × ρ
1-11 + ρ

Quando ρ é negativo (o que normalmente é, em torno de −0,03 a −0,10), as probabilidades 0-0 e 1-1 aumentam enquanto 1-0 e 0-1 diminuem. Isso corresponde melhor às frequências observadas em dados de partidas reais.

A correção de Dixon-Coles é pequena em magnitude, mas significativa em relação a milhares de previsões. Isso afeta principalmente a pontuação correta e os mercados abaixo de 0,5/1,5, onde os resultados de baixa pontuação dominam.

Como o ExPrysm usa Poisson

O ExPrysm não usa a abordagem clássica de Poisson para estimar parâmetros de ataque e defesa a partir de médias históricas. Em vez disso, ele usa uma abordagem de aprendizado de máquina que é mais poderosa e flexível:

1
Regressão CatBoost Poisson
Dois modelos CatBoost separados (home_goals.cbm e away_goals.cbm) são treinados com a perda de Poisson para prever λcasa e λlonge diretamente. Cada modelo usa 53 recursos, incluindo classificações de PI, métricas de formulários e estatísticas comparativas.
2
Geração de distribuição de Poisson
Os valores λ previstos são inseridos na função de massa de probabilidade de Poisson para gerar uma matriz de probabilidade completa do placar (normalmente de 0 a 7 gols para cada equipe).
3
Derivação de mercado
A matriz de pontuação é agregada para produzir probabilidades para cada mercado: BTTS, acima/abaixo, pontuação correta, linhas de handicap asiáticas e muito mais.

A vantagem dessa abordagem em relação ao clássico Dixon-Coles é que o CatBoost pode capturar relações não lineares entre recursos e metas esperadas. Ele não assume um parâmetro fixo de ataque/defesa por equipe — em vez disso, ele aprende como 53 recursos contextuais diferentes interagem para produzir a taxa de gols esperada para cada partida específica.

Conjunto de produção

Para a previsão do resultado final da partida (1X2), o ExPrysm usa um conjunto de produção que combina duas abordagens:

Fórmula de conjunto

P (resultado) = 0,70 × PCatBoost MS + 0,30 × PPoisson

O classificador de resultados de partidas CatBoost (69 recursos, class_weights= [1,0, 1,3, 1,0]) fornece o sinal primário, enquanto as probabilidades derivadas de Poisson adicionam uma perspectiva complementar do modelo de metas.

De Poisson aos mercados

Depois de ter a matriz de probabilidade da linha de pontuação, derivar as probabilidades de mercado é uma aritmética simples:

BTTS (ambas as equipes marcarão)

Soma todas as células em que tanto gols em casa ≥ 1 quanto gols fora de casa ≥ 1. Equivalentemente: P (BTTS) = 1 − P (home=0) − P (away=0) + P (0-0).

Mais/Menos gols

Para mais de 2,5: some todas as células em que está em casa+fora ≥ 3. Para menos de 2,5: some todas as células em que casa + fora ≤ 2. A mesma lógica se aplica a qualquer linha (1,5, 3,5 etc.).

Pontuação correta

Cada célula na matriz fornece diretamente a probabilidade dessa pontuação exata. A pontuação mais provável é a célula com o valor mais alto.

Handicap asiático

Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.

É por isso que o modelo de metas de Poisson é tão valioso — um único par de valores λ gera probabilidades para todos os mercados relacionados a metas simultaneamente. Saiba mais sobre o BTTS em nosso Explicação do BTTS guia.

Limitações e melhorias

Nenhum modelo é perfeito. A abordagem de Poisson tem limitações conhecidas que o ExPrysm aborda por meio de sua engenharia de recursos:

  • Ataque/defesa com variação de tempo: A força da equipe muda ao longo da temporada. O ExPrysm lida com isso por meio de classificações de PI (atualizadas diariamente) e recursos de formulários contínuos, em vez de médias estáticas da temporada.
  • Decadência das vantagens domésticas: A vantagem de jogar em casa tem diminuído no futebol europeu desde 2010 e caiu ainda mais durante os estádios vazios da era Covid. Os modelos da ExPrysm aprendem a vantagem atual da casa a partir de dados recentes, em vez de assumir um valor fixo.
  • Dinâmica da Copa x Liga: As partidas da Copa têm perfis táticos diferentes (cenários mais cautelosos, com mais tempo extra). Os recursos do ExPrysm incluem o tipo de competição para capturar essas diferenças.
  • Suposição de independência: Embora o parâmetro ρ de Dixon-Coles ajude, os gols em uma partida nunca são verdadeiramente independentes. Uma equipe que vence por 1 a 0 pode jogar de forma mais defensiva. A modelagem não linear do CatBoost captura parcialmente essas dinâmicas por meio de recursos contextuais.
  • Sobredispersão: Em alguns mercados (cartas, escanteios), os gols não seguem bem Poisson porque a variação excede a média. Em vez disso, o ExPrysm usa regressão binomial negativa para esses mercados.

Conclusão

A distribuição de Poisson continua sendo a base mais elegante e prática para modelagem de gols de futebol. A correção de Dixon-Coles o refina para resultados de baixa pontuação. O ExPrysm se baseia nessa base ao substituir a estimativa simples de parâmetros pela regressão CatBoost Poisson — usando 53 recursos para prever metas esperadas com maior precisão do que os métodos clássicos.

O resultado é um sistema que gera probabilidades calibradas em todos os mercados relacionados a metas a partir de um único par de valores λ previstos, combinado com um classificador de resultados de correspondência direta em um conjunto 70/30 para a previsão final de 1X2.

Veja como esses modelos funcionam na prática no Página de desempenho, com resultados de mais de 7.800 partidas em mais de 100 ligas.