Doğruluk ve Kalibrasyon

Çoğu insan tahmin modellerini doğrulukla değerlendirir: “Tahminlerin yüzde kaçı doğruydu?” Bu sezgiseldir ancak olasılıksal tahminler için derinden yanıltıcıdır.

100 futbol maçı öngören iki modeli düşünün:

ModeliDoğrulukDavranış
Model A54%Ev sahibi takımı her seferinde tahmin eder
Model B54%Her maç için kalibre edilmiş olasılıkları çıkarır

Her ikisi de aynı doğruluğa sahiptir, ancak Model B çok daha kullanışlıdır. Model B “%75 iç saha galibiyeti” dediğinde, yaklaşık %75'i tahmin ettiği tüm maçlar arasında kabaca %75'inin aslında evinde galibiyetlerle sonuçlandığı anlamına gelir. Model A size böyle bir bilgi vermez - sadece her zaman evi seçiyor.

Doğruluk, modelin ne sıklıkla doğru olduğunu söyler. Kalibrasyon, ürettiği olasılıklara ne kadar güvenebileceğinizi söyler. Bu olasılıklara dayalı kararlar veren herkes için - özellikle finansal kararlar - önemli olan kalibrasyondur.

Kalibrasyon Nedir?

Bir model, çıkardığı her olasılık için olayın gerçek frekansı bu olasılıkla eşleşirse mükemmel bir şekilde kalibre edilir. Resmi olarak:

Kalibrasyon Tanımı

P (sonuç = doğru | güven = p) = p

0 ile 1 arasındaki tüm p değerleri için.

Uygulamada, bu şu anlama gelir:

  • Model "%60 olasılık” dediğinde, olay zamanın ~% 60'ı gerçekleşmelidir
  • Model "%80 olasılık” dediğinde, olay zamanın ~% 80'i gerçekleşmelidir
  • Model "%30 olasılık” dediğinde, olay zamanın ~% 30'u gerçekleşmelidir

Bu, bir güvenilirlik diyagramı (kalibrasyon eğrisi) kullanılarak görselleştirilir: x ekseninde öngörülen olasılığı y ekseninde gözlemlenen frekansa karşı çizersiniz. Mükemmel kalibre edilmiş bir model, (0,0) ila (1,1) arasında çapraz bir çizgi üretir.

Ölçüm Kalibrasyonu

Brier Puanı

Olasılıksal tahminleri değerlendirmek için en yaygın ölçüm, Glenn Brier tarafından 1950'de tanıtılan Brier puanıdır:

Brier Skor Formülü

BS = (1/N) × Σ (pi − oi

Nerede pi tahmin edilen olasılıktır ve oi gerçek sonuçtur (1 veya 0). Düşük daha iyidir. Menzil: 0 (mükemmel) ila 1 (en kötü).

Brier puanı üç bileşene ayrıştırılabilir:

BileşenNe ölçerHedef
Kalibrasyon (güvenilirlik)Öngörülen olasılıkların gözlemlenen frekanslara ne kadar yakın olduğuKüçültme
Çözünürlük (netlik)Tahminler baz orandan ne kadar sapıyorEn üst düzeye çıkarmak
BelirsizlikOlayların doğal öngörülemezliği (kontrol edilemez)

Bir model iyi kalibrasyona sahip olabilir ancak zayıf çözünürlüğe (3 yönlü bir pazarda her sonuç için her zaman ~% 33 tahmin eder) veya iyi çözünürlüğe ancak zayıf kalibrasyona sahip olabilir (gerçekle eşleşmeyen aşırı tahminler yapmak). En iyi modeller hem iyi kalibrasyona hem de iyi çözünürlüğe sahiptir.

Kalibrasyon Hatası

Beklenen Kalibrasyon Hatası (ECE) daha doğrudan bir ölçüm sağlar. Tahminleri güven seviyesine göre toplar ve tahmin edilen ve gözlemlenen frekanslar arasındaki ağırlıklı ortalama farkı hesaplar:

ECE Formülü

ECE = Σ (nb/N) × |avg(pb) − ortalama (ob)|

B kutuları indekslediği yerde, nb bin b'deki tahmin sayısıdır ve avg (pb) ve avg (ob) o kutuda tahmin edilen ve gözlemlenen ortalama değerlerdir.

Kalibrasyon Bahislerde Neden Önemlidir?

Kalibrasyonun finansal bir sorun haline geldiği yer burasıdır. Bir model, bir takımın %60 kazanma şansına sahip olduğunu söylerse ve bahisçi %55'i ima eden oranlar sunuyorsa, bu bir değerli bahis gibi görünür - %5'lik bir avantaj. Peki ya model aşırı güveniyorsa ve gerçek olasılık gerçekte% 53 ise? Şimdi negatif beklenen değere bahis oynuyorsunuz.

Kalibrasyon Tuzağı

Model diyor ki: 60% → Zımni oranlar: 1.67

Bahisçi teklifleri: 1.82 (zımni 55%) → +5% değer gibi görünüyor

Gerçek olasılık: %53 → Gerçek avantaj: − 2% (uzun vadeli bahis kaybetme)

Aşırı kendine güvenen bir model, var olmayan “değeri” sistematik olarak tanımlar. Yüzlerce bahsin üzerinde, bu paranızı yok eder. İyi kalibre edilmiş bir model, biraz daha az doğru olsa bile, karar verme için gerçekten kullanabileceğiniz güvenilir olasılık tahminleri verir.

Bu nedenle ExPrysm birincil metrik olarak kalibrasyona odaklanır. “%65" yazan ve "%75" diyenden sonsuz derecede daha kullanışlı olduğu, ancak zamanın sadece% 60'ında doğru olduğu anlamına gelen bir model.

ExPrysm Modelleri Nasıl Kalibre Eder?

ExPrysm, kalibre edilmiş olasılık çıktıları sağlamak için çeşitli yaklaşımlar kullanır:

CatBoost Yerel Olasılıklar

ExPrysm tarafından kullanılan gradyan artırma çerçevesi olan CatBoost, yerel olarak iyi kalibre edilmiş olasılıklar üretir - diğer ağaç tabanlı modellerin çoğundan daha iyidir. Bunun nedeni, CatBoost'un yanlış kalibrasyonun birincil nedeni olan aşırı uyumu azaltan düzenli güçlendirme ve simetrik ağaçlar kullanmasıdır.

Maç sonucu modeli, antrenman sırasında hafif ağırlık beraberlikleri için class_weights= [1.0, 1.3, 1.0] kullanır. Bu, beraberliklerin tahmin edilmesi en zor sonuç olduğu ve genellikle model güveninde yeterince temsil edilmediği bilinen sorunu ele alır..

İzotonik Regresyon

Post-hoc kalibrasyon için izotonik regresyon, ham model puanlarından kalibre edilmiş olasılıklara kadar monotonik bir eşlemeyi öğrenen parametrik olmayan bir yöntemdir. Fonksiyonun azalmadığı kısıtlamasına bağlı olarak, tahmin edilen ve gözlemlenen frekanslar arasındaki kare hatayı en aza indiren bir adım işlevi takarak çalışır.

Parametrik yöntemlere göre avantaj, izotonik regresyonun kalibrasyon eğrisinin şekli hakkında hiçbir varsayımda bulunmamasıdır - herhangi bir yanlış kalibrasyon modelini düzeltebilir.

Düz Ölçekleme

Platt ölçeklendirme, kalibre edilmiş olasılıklar üretmek için modelin ham çıktıları üzerinde lojistik bir regresyona uyar. İzotonik regresyondan daha basittir ve yanlış kalibrasyon sigmoid bir model izlediğinde iyi çalışır. Özellikle BTTS veya Over/Under piyasaları gibi ikili sonuçlar için kullanışlıdır.

Kalibrasyon Eğrisini Okuma

Kalibrasyon eğrisi (güvenilirlik diyagramı), model kalitesini değerlendirmenin en sezgisel yoludur. Birini nasıl okuyacağınız aşağıda açıklanmıştır:

DesenAnlamıİfade
Köşegen üzerindeki noktalarMükemmel kalibrasyonÖngörülen olasılıklar gerçekle eşleşir
Köşegenin üstündeki noktalarKendine güvenmemekModel %50 diyor ama olaylar %60 oluyor - muhafazakar
Diyagonal altındaki noktalarAşırı kendine güvenenModel %70 diyor ama olaylar %55 oluyor - tehlikeli
S-şekilli eğriKarışıkAşırılıklarda kendinden emin olmamak, ortada aşırı kendine güvenmek (veya tam tersi)

Bahis amaçları için aşırı güven en tehlikeli modeldir. Kendine aşırı güvenen bir model, sahip olmadığınızda bir avantajınız olduğunu düşünmenizi sağlar. Güvensizlik daha az zararlıdır - bazı değerli bahisleri kaçırabilirsiniz, ancak sistematik olarak para kaybetmezsiniz.

İyi Kalibrasyon Nasıl Görünüyor

Bin 30-40: Model tahmin edilen ~% 35, gerçek sonuç oranı =% 33 ✓

Bin %50-60: Model tahmin edilen ~% 55, gerçek sonuç oranı = %57 ✓

Bin% 70-80: Model tahmin edilen ~% 75, gerçek sonuç oranı =% 73 ✓

Her kutunun gözlemlenen frekansı, tahmin edilen ortalamanın birkaç yüzde puanı içindedir - bu iyi kalibre edilmiş bir modeldir.

ExPrysm Kalibrasyon Sonuçları

ExPrysm, dünyadaki tüm büyük pazarlar için kalibrasyon eğrilerini yayınlar Performans sayfası. Bu eğriler 7,800'den fazla maçtaki gerçek tahmin verilerinden oluşturulur ve düzenli olarak güncellenir.

ExPrysm kalibrasyonu ile ilgili önemli noktalar:

  • Herkese açık: Çoğu tahmin hizmetinin aksine, ExPrysm kalibrasyon verileri tüm kullanıcılar tarafından görülebilir. Modelin güvenilirliğini kendiniz doğrulayabilirsiniz.
  • Pazar düzeyinde ayrıntı düzeyi: Maç sonucu (1X2), BTTS, Üst/Alt ve diğer pazarlar için ayrı kalibrasyon eğrileri sağlanır. Her pazarın farklı kalibrasyon özellikleri vardır.
  • Sürekli izleme: Sürüklenmeyi tespit etmek için kalibrasyon zaman içinde izlenir. Değişen futbol dinamikleri nedeniyle model yanlış kalibre edilirse, erken yakalanır.
  • Kiraz toplama yok: Tüm tahminler kalibrasyon analizine dahil edilir - sadece modelin doğru yaptığı tahminler değil. Bu dürüst değerlendirme için kritik öneme sahiptir.

ExPrysm'nin canlı kalibrasyon eğrilerini ve Brier puanlarını şu adresten görüntüleyin Performans sayfası. Tüm veriler gerçek tahminlerden alınmıştır, geriye dönük testlerden değil.

Sonuç

Doğruluk, herkesin sorduğu metriktir. Kalibrasyon aslında önemli olan metriktir. İyi kalibre edilmiş bir model size güvenebileceğiniz ve harekete geçebileceğiniz olasılıklar verir. Kalibre edilmemiş bir model - ne kadar “doğru” olursa olsun - sizi sistematik olarak kötü kararlara götürebilir.

ExPrysm, CatBoost'un doğal olasılık tahmini, post-hoc kalibrasyon teknikleri ve kalibrasyon eğrilerinin şeffaf herkese açık raporlaması yoluyla kalibrasyona öncelik verir. Model% 65 dediğinde, bu %65 anlamına gelir - ve diğer her şeyin üzerine inşa edildiği temel budur.

Güven puanlarının bahis kararlarına nasıl dönüştüğünü anlamak ister misiniz? Bizi okuyun Futbol Bahisleri Nasıl Seçilir rehber.