İstatistiksel Futbol Tahminine Giriş

Futbol maçlarını istatistiksel olarak tahmin etmek, olası her sonucun olasılığını tahmin etmek anlamına gelir - bir kazanan seçmek değil. Çoğu gole dayalı modelin temeli basit bir gözlemdir: Bir takımın bir maçta attığı gol sayısı Poisson dağılımını oldukça iyi takip eder.

İlk olarak Moroney (1956) tarafından belgelenen ve daha sonra Maher (1982) tarafından resmileştirilen bu içgörü, her takımın beklenen gollerini (λ) tahmin edebilirsek herhangi bir maç için tam bir olasılık matrisi oluşturmamızı sağlar. Bu matristten, her pazar - 1X2, BTTS, Over/Under, doğru skor, Asya handikap - matematiksel olarak türetilebilir.

Poisson Dağılımı ve Futbol

Poisson dağılımı, olaylar bağımsız olarak sabit bir ortalama hızda gerçekleştiğinde, belirli bir sayıda olayın sabit bir aralıkta meydana gelme olasılığını modeller. Futbol için “olay” bir goldür ve “aralık” bir maçtır.

Tam olarak olasılık k beklenen oran verilen goller λ:

Poisson Formülü

P (X = k) = (λk × e−λ) / k!

Burada λ beklenen gol sayısıdır, e ≈ 2.71828 ve k! k'nin faktöriyelidir.

Bu neden futbol için işe yarıyor? Goller nispeten nadir olaylardır (genellikle maç başına takım başına 1-3), bir maç içinde birbirinden biraz bağımsız olarak meydana gelirler ve ortalama oran takım gücüne ve bağlamına göre değişir. Bu özellikler Poisson varsayımlarıyla iyi uyumludur.

Örnek: λ = 1.5 gol

P (0 gol) = %22.3

P (1 gol) = 33.5

P (2 gol) =% 25.1

P (3 gol) = 12.6%

P (4+ gol) = 6.5%

Bağımsız Poisson Modeli

En basit yaklaşım, ev ve deplasman gollerinin bağımsız olduğunu varsayar. λ tahmin edersekev ve λuzakta ayrı ayrı, herhangi bir belirli puan çizgisinin (i, j) olasılığı basitçe:

Ortak Olasılık

P (Ana sayfa=I, uzak=J) = Pev(i) × Puzakta(j)

Bu, tam bir puan çizgisi olasılık matrisi oluşturur. Örneğin, λ ileev = 1.6 ve λuzakta = 1.1:

Deplasman 0Deplasman 1Deplasman 2Deplasman 3
Ev Sahibi 06.7%7.4%4.1%1.5%
Ev Sahibi 110.8%11.8%6.5%2.4%
Ev Sahibi 28.6%9.5%5.2%1.9%
Ev Sahibi 34.6%5.1%2.8%1.0%

From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.

Bağımsızlığın Sınırlamaları

Bağımsız modelin bilinen bir kusuru vardır: düşük skorlu beraberlik olasılığını hafife alır (özellikle 0-0 ve 1-1). Gerçek futbolda, bu puan çizgileri bağımsız modelin öngördüğünden daha sık meydana gelir. Dixon ve Coles'in devreye girdiği yer burası.

Dixon-Coles Düzeltmesi

Mark Dixon ve Stuart Coles, 1997 dönüm noktası niteliğindeki makalelerinde, düşük puanlı sonuçlar için ortak olasılığı ayarlayan bir düzeltme faktörü ρ (rho) tanıttılar. Temel içgörü: Ev ve deplasman golleri tamamen bağımsız değildir - taktik ve psikolojik faktörler, özellikle sıkı, düşük skorlu maçlarda bir korelasyon yaratır.

Düzeltme dört belirli puan çizgisi için geçerlidir:

Puan çizgisiDüzeltme Faktörü
0-01 + λh × λa × ρ
1-01 − λa × ρ
0-11 − λh × ρ
1-11 + ρ

ρ negatif olduğunda (tipik olarak −0.03 ila −0.10 civarındadır), 0-0 ve 1-1 olasılıkları artarken 1-0 ve 0-1 azalır. Bu, gerçek maç verilerinde gözlemlenen frekanslarla daha iyi eşleşir.

Dixon-Coles düzeltmesi büyüklük olarak küçüktür ancak binlerce tahmin üzerinde anlamlıdır. Öncelikle doğru puanı ve düşük puanlı sonuçların hakim olduğu 0.5/1.5 Altındaki pazarları etkiler.

ExPrysm Poisson'u Nasıl Kullanır?

ExPrysm, saldırı ve savunma parametrelerini tarihsel ortalamalardan tahmin etmek için klasik Poisson yaklaşımını kullanmaz. Bunun yerine, daha güçlü ve esnek bir makine öğrenimi yaklaşımı kullanır:

1
CatBoost Poisson Regresyonu
İki ayrı CatBoost modeli (home_goals.cbm ve away_goals.cbm), λ'yi tahmin etmek için Poisson kaybı ile eğitilirev ve λuzakta doğrudan. Her model, PI derecelendirmeleri, form metrikleri ve kafa kafaya istatistikler dahil olmak üzere 53 özellik kullanır.
2
Poisson Dağılım Üretimi
Tahmin edilen λ değerleri, tam bir puan çizgisi olasılık matrisi oluşturmak için Poisson olasılık kütle fonksiyonuna beslenir (tipik olarak her takım için 0-7 gol).
3
Piyasa Türetimi
Puan çizgisi matrisi, her pazar için olasılıklar üretmek için toplanır: BTTS, Üst/Alt, doğru puan, Asya handikap çizgileri ve daha fazlası.

Bu yaklaşımın klasik Dixon-Coles'a göre avantajı, CatBoost'un özellikler ve beklenen goller arasındaki doğrusal olmayan ilişkileri yakalayabilmesidir. Takım başına sabit bir saldırı/savunma parametresi varsaymaz - bunun yerine, her belirli maç için beklenen gol oranını oluşturmak için 53 farklı bağlamsal özelliğin nasıl etkileşime girdiğini öğrenir.

Production Ensemble

Son maç sonucu (1X2) tahmini için ExPrysm iki yaklaşımı birleştiren bir prodüksiyon topluluğu kullanır:

Topluluk Formülü

P (sonuç) = 0,70 × PCatBoost MS + 0.30 × PPoison

CatBoost maç sonucu sınıflandırıcısı (69 özellik, class_weights= [1.0, 1.3, 1.0]) birincil sinyali sağlarken, Poisson'dan türetilen olasılıklar, goller modelinden tamamlayıcı bir bakış açısı ekler.

Poissondan Markets'e

Puan çizgisi olasılık matrisine sahip olduğunuzda, piyasa olasılıklarını türetmek basit bir aritmetiktir:

BTTS (Her İki Takım Gol Atacak)

Ev sahibi gollerinin ≥ 1 ve deplasman gollerinin ≥ 1 olduğu tüm hücreleri toplayın. Eşdeğer olarak: P (BTTS) = 1 - P (ev = 0) - P (uzakta = 0) + P (0-0).

Üstün/Alt Gol

2.5 üzeri için: ev+uzakta ≥ 3 olan tüm hücreleri toplayın. 2.5 Altında: ev + uzakta ≤ 2 olan tüm hücreleri toplayın. Aynı mantık herhangi bir satır için de geçerlidir (1.5, 3.5, vb.).

Doğru Skor

Matristeki her hücre doğrudan o kesin puan çizgisinin olasılığını verir. En olası puan çizgisi, en yüksek değere sahip hücredir.

Asya Handikap

Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.

Bu nedenle Poisson goller modeli çok değerlidir - tek bir λ değeri çifti, gollerle ilgili her pazar için aynı anda olasılıklar üretir. BTTS hakkında daha fazla bilgi edinin BTTS Açıklaması rehber.

Sınırlamalar ve Geliştirmeler

Hiçbir model mükemmel değildir. Poisson yaklaşımı, ExPrysm'nin özellik mühendisliği aracılığıyla ele aldığı bilinen sınırlamalara sahiptir:

  • Zamanla değişen saldırı/savunma: Takım gücü sezon boyunca değişir. ExPrysm bunu, statik sezon ortalamaları yerine PI derecelendirmeleri (günlük olarak güncellenir) ve yuvarlanan form özellikleri aracılığıyla ele alır.
  • Ev avantajı bozulması: Ev avantajı, 2010'dan bu yana Avrupa futbolunda azalıyor ve COVID dönemindeki boş stadyumlarda daha da düştü. ExPrysm modelleri, sabit bir değer varsaymak yerine mevcut ev avantajını son verilerden öğrenir.
  • Kupa vs lig dinamikleri: Kupa maçlarının farklı taktik profilleri vardır (daha temkinli, daha fazla zaman senaryoları). ExPrysm özellikleri, bu farklılıkları yakalamak için rekabet türünü içerir.
  • Bağımsızlık varsayımı: Dixon-Coles ρ parametresi yardımcı olsa da, bir maçtaki goller asla gerçekten bağımsız değildir. 1-0 üstüne çıkan bir takım daha savunma oynayabilir. CatBoost'un doğrusal olmayan modellemesi, bağlamsal özellikler aracılığıyla bu dinamikleri kısmen yakalar.
  • Aşırı dağılım: Bazı pazarlarda (kartlar, köşeler), varyans ortalamayı aştığı için goller Poisson'ı iyi takip etmez. ExPrysm bunun yerine bu piyasalar için Negatif Binom regresyonu kullanır.

Sonuç

Poisson dağılımı, futbol gol modellemesi için en zarif ve pratik temel olmaya devam ediyor. Dixon-Coles düzeltmesi, düşük puanlı sonuçlar için onu iyileştirir. ExPrysm, basit parametre tahminini CatBoost Poisson regresyonu ile değiştirerek bu temele dayanır - beklenen golleri klasik yöntemlerden daha doğru bir şekilde tahmin etmek için 53 özellik kullanarak.

Sonuç, son 1X2 tahmini için 70/30 toplulukta bir doğrudan maç sonucu sınıflandırıcısı ile birleştirilen tek bir tahmin edilen λ değerinden, hedeflerle ilgili her pazarda kalibre edilmiş olasılıklar üreten bir sistemdir.

Bu modellerin pratikte nasıl performans gösterdiğini görün Performans sayfası, 100'den fazla ligde 7,800'den fazla maçın sonuçlarıyla.