Modelos de Dixon-Coles e Poisson na previsão de futebol
Os gols de futebol seguem padrões estatísticos surpreendentemente previsíveis. A distribuição de Poisson tem sido a espinha dorsal dos modelos de gols desde a década de 1950, e a correção de Dixon-Coles a refinou para a era moderna. Veja como esses modelos funcionam — e como o ExPrysm se baseia neles com o aprendizado de máquina.
Introdução à previsão estatística de futebol
Prever partidas de futebol estatisticamente significa estimar a probabilidade de cada resultado possível — não escolher um vencedor. A base da maioria dos modelos baseados em gols é uma observação simples: o número de gols que uma equipe marca em uma partida segue uma distribuição de Poisson razoavelmente bem.
Essa visão, documentada pela primeira vez por Moroney (1956) e posteriormente formalizada por Maher (1982), nos permite construir uma matriz de probabilidade completa para qualquer partida se pudermos estimar os gols esperados de cada equipe (λ). A partir dessa matriz, cada mercado — 1X2, BTTS, acima/abaixo, pontuação correta, desvantagem asiática — pode ser derivado matematicamente.
A distribuição de Poisson e o futebol
A distribuição de Poisson modela a probabilidade de um determinado número de eventos ocorrer em um intervalo fixo, quando os eventos acontecem independentemente a uma taxa média constante. Para o futebol, o “evento” é um gol e o “intervalo” é uma partida.
A probabilidade de exatamente k metas dadas uma taxa esperada λ são:
P (X = k) = (λk × e−λ) / k!
Onde λ é o número esperado de gols, e ≈ 2,71828 e k! é o fatorial de k.
Por que isso funciona para o futebol? Os gols são eventos relativamente raros (normalmente de 1 a 3 por equipe por partida), ocorrem de forma independente um do outro em uma partida e a taxa média varia de acordo com a força e o contexto da equipe. Essas propriedades se alinham bem com as suposições de Poisson.
P (0 gols) = 22,3%
P (1 gol) = 33,5%
P (2 gols) = 25,1%
P (3 gols) = 12,6%
P (mais de 4 gols) = 6,5%
Modelo independente de Poisson
A abordagem mais simples pressupõe que os gols em casa e fora sejam independentes. Se estimarmos λcasa e λlonge separadamente, a probabilidade de qualquer pontuação específica (i, j) é simplesmente:
P (casa = i, fora = J) = Pcasa(i) × Plonge(j)
Isso gera uma matriz de probabilidade de pontuação completa. Por exemplo, com λcasa = 1,6 e λlonge = 1.1:
| Fora 0 | Fora 1 | Fora 2 | Fora 3 | |
|---|---|---|---|---|
| Início 0 | 6.7% | 7.4% | 4.1% | 1.5% |
| Início 1 | 10.8% | 11.8% | 6.5% | 2.4% |
| Início 2 | 8.6% | 9.5% | 5.2% | 1.9% |
| Início 3 | 4.6% | 5.1% | 2.8% | 1.0% |
From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.
Limitações da independência
O modelo independente tem uma falha conhecida: ele subestima a probabilidade de empates com baixa pontuação (especialmente 0-0 e 1-1). No futebol real, esses placares ocorrem com mais frequência do que o modelo independente prevê. Foi aqui que Dixon e Coles intervieram.
A correção de Dixon-Coles
Em seu artigo marcante de 1997, Mark Dixon e Stuart Coles introduziram um fator de correção ρ (rho) que ajusta a probabilidade conjunta de resultados com baixa pontuação. A visão principal: gols em casa e fora de casa não são totalmente independentes — fatores táticos e psicológicos criam uma correlação, especialmente em partidas apertadas e com poucos gols.
A correção se aplica a quatro linhas de pontuação específicas:
| Pontuação | Fator de correção |
|---|---|
| 0-0 | 1 + λh × λa × ρ |
| 1-0 | 1 − λa × ρ |
| 0-1 | 1 − λh × ρ |
| 1-1 | 1 + ρ |
Quando ρ é negativo (o que normalmente é, em torno de −0,03 a −0,10), as probabilidades 0-0 e 1-1 aumentam enquanto 1-0 e 0-1 diminuem. Isso corresponde melhor às frequências observadas em dados de partidas reais.
A correção de Dixon-Coles é pequena em magnitude, mas significativa em relação a milhares de previsões. Isso afeta principalmente a pontuação correta e os mercados abaixo de 0,5/1,5, onde os resultados de baixa pontuação dominam.
Como o ExPrysm usa Poisson
O ExPrysm não usa a abordagem clássica de Poisson para estimar parâmetros de ataque e defesa a partir de médias históricas. Em vez disso, ele usa uma abordagem de aprendizado de máquina que é mais poderosa e flexível:
A vantagem dessa abordagem em relação ao clássico Dixon-Coles é que o CatBoost pode capturar relações não lineares entre recursos e metas esperadas. Ele não assume um parâmetro fixo de ataque/defesa por equipe — em vez disso, ele aprende como 53 recursos contextuais diferentes interagem para produzir a taxa de gols esperada para cada partida específica.
Conjunto de produção
Para a previsão do resultado final da partida (1X2), o ExPrysm usa um conjunto de produção que combina duas abordagens:
P (resultado) = 0,70 × PCatBoost MS + 0,30 × PPoisson
O classificador de resultados de partidas CatBoost (69 recursos, class_weights= [1,0, 1,3, 1,0]) fornece o sinal primário, enquanto as probabilidades derivadas de Poisson adicionam uma perspectiva complementar do modelo de metas.
De Poisson aos mercados
Depois de ter a matriz de probabilidade da linha de pontuação, derivar as probabilidades de mercado é uma aritmética simples:
BTTS (ambas as equipes marcarão)
Soma todas as células em que tanto gols em casa ≥ 1 quanto gols fora de casa ≥ 1. Equivalentemente: P (BTTS) = 1 − P (home=0) − P (away=0) + P (0-0).
Mais/Menos gols
Para mais de 2,5: some todas as células em que está em casa+fora ≥ 3. Para menos de 2,5: some todas as células em que casa + fora ≤ 2. A mesma lógica se aplica a qualquer linha (1,5, 3,5 etc.).
Pontuação correta
Cada célula na matriz fornece diretamente a probabilidade dessa pontuação exata. A pontuação mais provável é a célula com o valor mais alto.
Handicap asiático
Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.
É por isso que o modelo de metas de Poisson é tão valioso — um único par de valores λ gera probabilidades para todos os mercados relacionados a metas simultaneamente. Saiba mais sobre o BTTS em nosso Explicação do BTTS guia.
Limitações e melhorias
Nenhum modelo é perfeito. A abordagem de Poisson tem limitações conhecidas que o ExPrysm aborda por meio de sua engenharia de recursos:
- Ataque/defesa com variação de tempo: A força da equipe muda ao longo da temporada. O ExPrysm lida com isso por meio de classificações de PI (atualizadas diariamente) e recursos de formulários contínuos, em vez de médias estáticas da temporada.
- Decadência das vantagens domésticas: A vantagem de jogar em casa tem diminuído no futebol europeu desde 2010 e caiu ainda mais durante os estádios vazios da era Covid. Os modelos da ExPrysm aprendem a vantagem atual da casa a partir de dados recentes, em vez de assumir um valor fixo.
- Dinâmica da Copa x Liga: As partidas da Copa têm perfis táticos diferentes (cenários mais cautelosos, com mais tempo extra). Os recursos do ExPrysm incluem o tipo de competição para capturar essas diferenças.
- Suposição de independência: Embora o parâmetro ρ de Dixon-Coles ajude, os gols em uma partida nunca são verdadeiramente independentes. Uma equipe que vence por 1 a 0 pode jogar de forma mais defensiva. A modelagem não linear do CatBoost captura parcialmente essas dinâmicas por meio de recursos contextuais.
- Sobredispersão: Em alguns mercados (cartas, escanteios), os gols não seguem bem Poisson porque a variação excede a média. Em vez disso, o ExPrysm usa regressão binomial negativa para esses mercados.
Conclusão
A distribuição de Poisson continua sendo a base mais elegante e prática para modelagem de gols de futebol. A correção de Dixon-Coles o refina para resultados de baixa pontuação. O ExPrysm se baseia nessa base ao substituir a estimativa simples de parâmetros pela regressão CatBoost Poisson — usando 53 recursos para prever metas esperadas com maior precisão do que os métodos clássicos.
O resultado é um sistema que gera probabilidades calibradas em todos os mercados relacionados a metas a partir de um único par de valores λ previstos, combinado com um classificador de resultados de correspondência direta em um conjunto 70/30 para a previsão final de 1X2.
Veja como esses modelos funcionam na prática no Página de desempenho, com resultados de mais de 7.800 partidas em mais de 100 ligas.