Futbol Tahmininde Dixon-Coles & Poisson Modelleri
Futbol golleri şaşırtıcı derecede öngörülebilir istatistiksel kalıpları takip ediyor. Poisson dağılımı, 1950'lerden beri gol atma modellerinin bel kemiği olmuştur ve Dixon-Coles düzeltmesi onu modern çağ için geliştirmiştir. Bu modellerin nasıl çalıştığı ve ExPrysm'nin makine öğrenimi ile bunların üzerine nasıl geliştirdiği aşağıda açıklanmıştır.
İstatistiksel Futbol Tahminine Giriş
Futbol maçlarını istatistiksel olarak tahmin etmek, olası her sonucun olasılığını tahmin etmek anlamına gelir - bir kazanan seçmek değil. Çoğu gole dayalı modelin temeli basit bir gözlemdir: Bir takımın bir maçta attığı gol sayısı Poisson dağılımını oldukça iyi takip eder.
İlk olarak Moroney (1956) tarafından belgelenen ve daha sonra Maher (1982) tarafından resmileştirilen bu içgörü, her takımın beklenen gollerini (λ) tahmin edebilirsek herhangi bir maç için tam bir olasılık matrisi oluşturmamızı sağlar. Bu matristten, her pazar - 1X2, BTTS, Over/Under, doğru skor, Asya handikap - matematiksel olarak türetilebilir.
Poisson Dağılımı ve Futbol
Poisson dağılımı, olaylar bağımsız olarak sabit bir ortalama hızda gerçekleştiğinde, belirli bir sayıda olayın sabit bir aralıkta meydana gelme olasılığını modeller. Futbol için “olay” bir goldür ve “aralık” bir maçtır.
Tam olarak olasılık k beklenen oran verilen goller λ:
P (X = k) = (λk × e−λ) / k!
Burada λ beklenen gol sayısıdır, e ≈ 2.71828 ve k! k'nin faktöriyelidir.
Bu neden futbol için işe yarıyor? Goller nispeten nadir olaylardır (genellikle maç başına takım başına 1-3), bir maç içinde birbirinden biraz bağımsız olarak meydana gelirler ve ortalama oran takım gücüne ve bağlamına göre değişir. Bu özellikler Poisson varsayımlarıyla iyi uyumludur.
P (0 gol) = %22.3
P (1 gol) = 33.5
P (2 gol) =% 25.1
P (3 gol) = 12.6%
P (4+ gol) = 6.5%
Bağımsız Poisson Modeli
En basit yaklaşım, ev ve deplasman gollerinin bağımsız olduğunu varsayar. λ tahmin edersekev ve λuzakta ayrı ayrı, herhangi bir belirli puan çizgisinin (i, j) olasılığı basitçe:
P (Ana sayfa=I, uzak=J) = Pev(i) × Puzakta(j)
Bu, tam bir puan çizgisi olasılık matrisi oluşturur. Örneğin, λ ileev = 1.6 ve λuzakta = 1.1:
| Deplasman 0 | Deplasman 1 | Deplasman 2 | Deplasman 3 | |
|---|---|---|---|---|
| Ev Sahibi 0 | 6.7% | 7.4% | 4.1% | 1.5% |
| Ev Sahibi 1 | 10.8% | 11.8% | 6.5% | 2.4% |
| Ev Sahibi 2 | 8.6% | 9.5% | 5.2% | 1.9% |
| Ev Sahibi 3 | 4.6% | 5.1% | 2.8% | 1.0% |
From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.
Bağımsızlığın Sınırlamaları
Bağımsız modelin bilinen bir kusuru vardır: düşük skorlu beraberlik olasılığını hafife alır (özellikle 0-0 ve 1-1). Gerçek futbolda, bu puan çizgileri bağımsız modelin öngördüğünden daha sık meydana gelir. Dixon ve Coles'in devreye girdiği yer burası.
Dixon-Coles Düzeltmesi
Mark Dixon ve Stuart Coles, 1997 dönüm noktası niteliğindeki makalelerinde, düşük puanlı sonuçlar için ortak olasılığı ayarlayan bir düzeltme faktörü ρ (rho) tanıttılar. Temel içgörü: Ev ve deplasman golleri tamamen bağımsız değildir - taktik ve psikolojik faktörler, özellikle sıkı, düşük skorlu maçlarda bir korelasyon yaratır.
Düzeltme dört belirli puan çizgisi için geçerlidir:
| Puan çizgisi | Düzeltme Faktörü |
|---|---|
| 0-0 | 1 + λh × λa × ρ |
| 1-0 | 1 − λa × ρ |
| 0-1 | 1 − λh × ρ |
| 1-1 | 1 + ρ |
ρ negatif olduğunda (tipik olarak −0.03 ila −0.10 civarındadır), 0-0 ve 1-1 olasılıkları artarken 1-0 ve 0-1 azalır. Bu, gerçek maç verilerinde gözlemlenen frekanslarla daha iyi eşleşir.
Dixon-Coles düzeltmesi büyüklük olarak küçüktür ancak binlerce tahmin üzerinde anlamlıdır. Öncelikle doğru puanı ve düşük puanlı sonuçların hakim olduğu 0.5/1.5 Altındaki pazarları etkiler.
ExPrysm Poisson'u Nasıl Kullanır?
ExPrysm, saldırı ve savunma parametrelerini tarihsel ortalamalardan tahmin etmek için klasik Poisson yaklaşımını kullanmaz. Bunun yerine, daha güçlü ve esnek bir makine öğrenimi yaklaşımı kullanır:
Bu yaklaşımın klasik Dixon-Coles'a göre avantajı, CatBoost'un özellikler ve beklenen goller arasındaki doğrusal olmayan ilişkileri yakalayabilmesidir. Takım başına sabit bir saldırı/savunma parametresi varsaymaz - bunun yerine, her belirli maç için beklenen gol oranını oluşturmak için 53 farklı bağlamsal özelliğin nasıl etkileşime girdiğini öğrenir.
Production Ensemble
Son maç sonucu (1X2) tahmini için ExPrysm iki yaklaşımı birleştiren bir prodüksiyon topluluğu kullanır:
P (sonuç) = 0,70 × PCatBoost MS + 0.30 × PPoison
CatBoost maç sonucu sınıflandırıcısı (69 özellik, class_weights= [1.0, 1.3, 1.0]) birincil sinyali sağlarken, Poisson'dan türetilen olasılıklar, goller modelinden tamamlayıcı bir bakış açısı ekler.
Poissondan Markets'e
Puan çizgisi olasılık matrisine sahip olduğunuzda, piyasa olasılıklarını türetmek basit bir aritmetiktir:
BTTS (Her İki Takım Gol Atacak)
Ev sahibi gollerinin ≥ 1 ve deplasman gollerinin ≥ 1 olduğu tüm hücreleri toplayın. Eşdeğer olarak: P (BTTS) = 1 - P (ev = 0) - P (uzakta = 0) + P (0-0).
Üstün/Alt Gol
2.5 üzeri için: ev+uzakta ≥ 3 olan tüm hücreleri toplayın. 2.5 Altında: ev + uzakta ≤ 2 olan tüm hücreleri toplayın. Aynı mantık herhangi bir satır için de geçerlidir (1.5, 3.5, vb.).
Doğru Skor
Matristeki her hücre doğrudan o kesin puan çizgisinin olasılığını verir. En olası puan çizgisi, en yüksek değere sahip hücredir.
Asya Handikap
Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.
Bu nedenle Poisson goller modeli çok değerlidir - tek bir λ değeri çifti, gollerle ilgili her pazar için aynı anda olasılıklar üretir. BTTS hakkında daha fazla bilgi edinin BTTS Açıklaması rehber.
Sınırlamalar ve Geliştirmeler
Hiçbir model mükemmel değildir. Poisson yaklaşımı, ExPrysm'nin özellik mühendisliği aracılığıyla ele aldığı bilinen sınırlamalara sahiptir:
- Zamanla değişen saldırı/savunma: Takım gücü sezon boyunca değişir. ExPrysm bunu, statik sezon ortalamaları yerine PI derecelendirmeleri (günlük olarak güncellenir) ve yuvarlanan form özellikleri aracılığıyla ele alır.
- Ev avantajı bozulması: Ev avantajı, 2010'dan bu yana Avrupa futbolunda azalıyor ve COVID dönemindeki boş stadyumlarda daha da düştü. ExPrysm modelleri, sabit bir değer varsaymak yerine mevcut ev avantajını son verilerden öğrenir.
- Kupa vs lig dinamikleri: Kupa maçlarının farklı taktik profilleri vardır (daha temkinli, daha fazla zaman senaryoları). ExPrysm özellikleri, bu farklılıkları yakalamak için rekabet türünü içerir.
- Bağımsızlık varsayımı: Dixon-Coles ρ parametresi yardımcı olsa da, bir maçtaki goller asla gerçekten bağımsız değildir. 1-0 üstüne çıkan bir takım daha savunma oynayabilir. CatBoost'un doğrusal olmayan modellemesi, bağlamsal özellikler aracılığıyla bu dinamikleri kısmen yakalar.
- Aşırı dağılım: Bazı pazarlarda (kartlar, köşeler), varyans ortalamayı aştığı için goller Poisson'ı iyi takip etmez. ExPrysm bunun yerine bu piyasalar için Negatif Binom regresyonu kullanır.
Sonuç
Poisson dağılımı, futbol gol modellemesi için en zarif ve pratik temel olmaya devam ediyor. Dixon-Coles düzeltmesi, düşük puanlı sonuçlar için onu iyileştirir. ExPrysm, basit parametre tahminini CatBoost Poisson regresyonu ile değiştirerek bu temele dayanır - beklenen golleri klasik yöntemlerden daha doğru bir şekilde tahmin etmek için 53 özellik kullanarak.
Sonuç, son 1X2 tahmini için 70/30 toplulukta bir doğrudan maç sonucu sınıflandırıcısı ile birleştirilen tek bir tahmin edilen λ değerinden, hedeflerle ilgili her pazarda kalibre edilmiş olasılıklar üreten bir sistemdir.
Bu modellerin pratikte nasıl performans gösterdiğini görün Performans sayfası, 100'den fazla ligde 7,800'den fazla maçın sonuçlarıyla.