Futbol Tahminlerinde Model Kalibrasyonu Neden Doğruluktan Daha Önemli?
%60 doğru olan bir model etkileyici geliyor - ta ki, zamanın sadece% 55'inde gerçekleşen tahminlerde “%70 kendinden emin” dediğini fark edene kadar. Belirtilen güven ile gerçek güvenilirlik arasındaki bu boşluk kalibrasyon problemidir ve kullanışlı bir model ile tehlikeli olan arasındaki farktır.
Doğruluk ve Kalibrasyon
Çoğu insan tahmin modellerini doğrulukla değerlendirir: “Tahminlerin yüzde kaçı doğruydu?” Bu sezgiseldir ancak olasılıksal tahminler için derinden yanıltıcıdır.
100 futbol maçı öngören iki modeli düşünün:
| Modeli | Doğruluk | Davranış |
|---|---|---|
| Model A | 54% | Ev sahibi takımı her seferinde tahmin eder |
| Model B | 54% | Her maç için kalibre edilmiş olasılıkları çıkarır |
Her ikisi de aynı doğruluğa sahiptir, ancak Model B çok daha kullanışlıdır. Model B “%75 iç saha galibiyeti” dediğinde, yaklaşık %75'i tahmin ettiği tüm maçlar arasında kabaca %75'inin aslında evinde galibiyetlerle sonuçlandığı anlamına gelir. Model A size böyle bir bilgi vermez - sadece her zaman evi seçiyor.
Doğruluk, modelin ne sıklıkla doğru olduğunu söyler. Kalibrasyon, ürettiği olasılıklara ne kadar güvenebileceğinizi söyler. Bu olasılıklara dayalı kararlar veren herkes için - özellikle finansal kararlar - önemli olan kalibrasyondur.
Kalibrasyon Nedir?
Bir model, çıkardığı her olasılık için olayın gerçek frekansı bu olasılıkla eşleşirse mükemmel bir şekilde kalibre edilir. Resmi olarak:
P (sonuç = doğru | güven = p) = p
0 ile 1 arasındaki tüm p değerleri için.
Uygulamada, bu şu anlama gelir:
- Model "%60 olasılık” dediğinde, olay zamanın ~% 60'ı gerçekleşmelidir
- Model "%80 olasılık” dediğinde, olay zamanın ~% 80'i gerçekleşmelidir
- Model "%30 olasılık” dediğinde, olay zamanın ~% 30'u gerçekleşmelidir
Bu, bir güvenilirlik diyagramı (kalibrasyon eğrisi) kullanılarak görselleştirilir: x ekseninde öngörülen olasılığı y ekseninde gözlemlenen frekansa karşı çizersiniz. Mükemmel kalibre edilmiş bir model, (0,0) ila (1,1) arasında çapraz bir çizgi üretir.
Ölçüm Kalibrasyonu
Brier Puanı
Olasılıksal tahminleri değerlendirmek için en yaygın ölçüm, Glenn Brier tarafından 1950'de tanıtılan Brier puanıdır:
BS = (1/N) × Σ (pi − oi)²
Nerede pi tahmin edilen olasılıktır ve oi gerçek sonuçtur (1 veya 0). Düşük daha iyidir. Menzil: 0 (mükemmel) ila 1 (en kötü).
Brier puanı üç bileşene ayrıştırılabilir:
| Bileşen | Ne ölçer | Hedef |
|---|---|---|
| Kalibrasyon (güvenilirlik) | Öngörülen olasılıkların gözlemlenen frekanslara ne kadar yakın olduğu | Küçültme |
| Çözünürlük (netlik) | Tahminler baz orandan ne kadar sapıyor | En üst düzeye çıkarmak |
| Belirsizlik | Olayların doğal öngörülemezliği (kontrol edilemez) | — |
Bir model iyi kalibrasyona sahip olabilir ancak zayıf çözünürlüğe (3 yönlü bir pazarda her sonuç için her zaman ~% 33 tahmin eder) veya iyi çözünürlüğe ancak zayıf kalibrasyona sahip olabilir (gerçekle eşleşmeyen aşırı tahminler yapmak). En iyi modeller hem iyi kalibrasyona hem de iyi çözünürlüğe sahiptir.
Kalibrasyon Hatası
Beklenen Kalibrasyon Hatası (ECE) daha doğrudan bir ölçüm sağlar. Tahminleri güven seviyesine göre toplar ve tahmin edilen ve gözlemlenen frekanslar arasındaki ağırlıklı ortalama farkı hesaplar:
ECE = Σ (nb/N) × |avg(pb) − ortalama (ob)|
B kutuları indekslediği yerde, nb bin b'deki tahmin sayısıdır ve avg (pb) ve avg (ob) o kutuda tahmin edilen ve gözlemlenen ortalama değerlerdir.
Kalibrasyon Bahislerde Neden Önemlidir?
Kalibrasyonun finansal bir sorun haline geldiği yer burasıdır. Bir model, bir takımın %60 kazanma şansına sahip olduğunu söylerse ve bahisçi %55'i ima eden oranlar sunuyorsa, bu bir değerli bahis gibi görünür - %5'lik bir avantaj. Peki ya model aşırı güveniyorsa ve gerçek olasılık gerçekte% 53 ise? Şimdi negatif beklenen değere bahis oynuyorsunuz.
Model diyor ki: 60% → Zımni oranlar: 1.67
Bahisçi teklifleri: 1.82 (zımni 55%) → +5% değer gibi görünüyor
Gerçek olasılık: %53 → Gerçek avantaj: − 2% (uzun vadeli bahis kaybetme)
Aşırı kendine güvenen bir model, var olmayan “değeri” sistematik olarak tanımlar. Yüzlerce bahsin üzerinde, bu paranızı yok eder. İyi kalibre edilmiş bir model, biraz daha az doğru olsa bile, karar verme için gerçekten kullanabileceğiniz güvenilir olasılık tahminleri verir.
Bu nedenle ExPrysm birincil metrik olarak kalibrasyona odaklanır. “%65" yazan ve "%75" diyenden sonsuz derecede daha kullanışlı olduğu, ancak zamanın sadece% 60'ında doğru olduğu anlamına gelen bir model.
ExPrysm Modelleri Nasıl Kalibre Eder?
ExPrysm, kalibre edilmiş olasılık çıktıları sağlamak için çeşitli yaklaşımlar kullanır:
CatBoost Yerel Olasılıklar
ExPrysm tarafından kullanılan gradyan artırma çerçevesi olan CatBoost, yerel olarak iyi kalibre edilmiş olasılıklar üretir - diğer ağaç tabanlı modellerin çoğundan daha iyidir. Bunun nedeni, CatBoost'un yanlış kalibrasyonun birincil nedeni olan aşırı uyumu azaltan düzenli güçlendirme ve simetrik ağaçlar kullanmasıdır.
Maç sonucu modeli, antrenman sırasında hafif ağırlık beraberlikleri için class_weights= [1.0, 1.3, 1.0] kullanır. Bu, beraberliklerin tahmin edilmesi en zor sonuç olduğu ve genellikle model güveninde yeterince temsil edilmediği bilinen sorunu ele alır..
İzotonik Regresyon
Post-hoc kalibrasyon için izotonik regresyon, ham model puanlarından kalibre edilmiş olasılıklara kadar monotonik bir eşlemeyi öğrenen parametrik olmayan bir yöntemdir. Fonksiyonun azalmadığı kısıtlamasına bağlı olarak, tahmin edilen ve gözlemlenen frekanslar arasındaki kare hatayı en aza indiren bir adım işlevi takarak çalışır.
Parametrik yöntemlere göre avantaj, izotonik regresyonun kalibrasyon eğrisinin şekli hakkında hiçbir varsayımda bulunmamasıdır - herhangi bir yanlış kalibrasyon modelini düzeltebilir.
Düz Ölçekleme
Platt ölçeklendirme, kalibre edilmiş olasılıklar üretmek için modelin ham çıktıları üzerinde lojistik bir regresyona uyar. İzotonik regresyondan daha basittir ve yanlış kalibrasyon sigmoid bir model izlediğinde iyi çalışır. Özellikle BTTS veya Over/Under piyasaları gibi ikili sonuçlar için kullanışlıdır.
Kalibrasyon Eğrisini Okuma
Kalibrasyon eğrisi (güvenilirlik diyagramı), model kalitesini değerlendirmenin en sezgisel yoludur. Birini nasıl okuyacağınız aşağıda açıklanmıştır:
| Desen | Anlamı | İfade |
|---|---|---|
| Köşegen üzerindeki noktalar | Mükemmel kalibrasyon | Öngörülen olasılıklar gerçekle eşleşir |
| Köşegenin üstündeki noktalar | Kendine güvenmemek | Model %50 diyor ama olaylar %60 oluyor - muhafazakar |
| Diyagonal altındaki noktalar | Aşırı kendine güvenen | Model %70 diyor ama olaylar %55 oluyor - tehlikeli |
| S-şekilli eğri | Karışık | Aşırılıklarda kendinden emin olmamak, ortada aşırı kendine güvenmek (veya tam tersi) |
Bahis amaçları için aşırı güven en tehlikeli modeldir. Kendine aşırı güvenen bir model, sahip olmadığınızda bir avantajınız olduğunu düşünmenizi sağlar. Güvensizlik daha az zararlıdır - bazı değerli bahisleri kaçırabilirsiniz, ancak sistematik olarak para kaybetmezsiniz.
Bin 30-40: Model tahmin edilen ~% 35, gerçek sonuç oranı =% 33 ✓
Bin %50-60: Model tahmin edilen ~% 55, gerçek sonuç oranı = %57 ✓
Bin% 70-80: Model tahmin edilen ~% 75, gerçek sonuç oranı =% 73 ✓
Her kutunun gözlemlenen frekansı, tahmin edilen ortalamanın birkaç yüzde puanı içindedir - bu iyi kalibre edilmiş bir modeldir.
ExPrysm Kalibrasyon Sonuçları
ExPrysm, dünyadaki tüm büyük pazarlar için kalibrasyon eğrilerini yayınlar Performans sayfası. Bu eğriler 7,800'den fazla maçtaki gerçek tahmin verilerinden oluşturulur ve düzenli olarak güncellenir.
ExPrysm kalibrasyonu ile ilgili önemli noktalar:
- Herkese açık: Çoğu tahmin hizmetinin aksine, ExPrysm kalibrasyon verileri tüm kullanıcılar tarafından görülebilir. Modelin güvenilirliğini kendiniz doğrulayabilirsiniz.
- Pazar düzeyinde ayrıntı düzeyi: Maç sonucu (1X2), BTTS, Üst/Alt ve diğer pazarlar için ayrı kalibrasyon eğrileri sağlanır. Her pazarın farklı kalibrasyon özellikleri vardır.
- Sürekli izleme: Sürüklenmeyi tespit etmek için kalibrasyon zaman içinde izlenir. Değişen futbol dinamikleri nedeniyle model yanlış kalibre edilirse, erken yakalanır.
- Kiraz toplama yok: Tüm tahminler kalibrasyon analizine dahil edilir - sadece modelin doğru yaptığı tahminler değil. Bu dürüst değerlendirme için kritik öneme sahiptir.
ExPrysm'nin canlı kalibrasyon eğrilerini ve Brier puanlarını şu adresten görüntüleyin Performans sayfası. Tüm veriler gerçek tahminlerden alınmıştır, geriye dönük testlerden değil.
Sonuç
Doğruluk, herkesin sorduğu metriktir. Kalibrasyon aslında önemli olan metriktir. İyi kalibre edilmiş bir model size güvenebileceğiniz ve harekete geçebileceğiniz olasılıklar verir. Kalibre edilmemiş bir model - ne kadar “doğru” olursa olsun - sizi sistematik olarak kötü kararlara götürebilir.
ExPrysm, CatBoost'un doğal olasılık tahmini, post-hoc kalibrasyon teknikleri ve kalibrasyon eğrilerinin şeffaf herkese açık raporlaması yoluyla kalibrasyona öncelik verir. Model% 65 dediğinde, bu %65 anlamına gelir - ve diğer her şeyin üzerine inşa edildiği temel budur.
Güven puanlarının bahis kararlarına nasıl dönüştüğünü anlamak ister misiniz? Bizi okuyun Futbol Bahisleri Nasıl Seçilir rehber.