Dəqiqlik və kalibrləmə

Əksər insanlar proqnoz modellərini dəqiqliklə qiymətləndirirlər: “Proqnozların nə faizi düzgün idi?” Bu, ehtimal proqnozları üçün intuitiv, lakin dərin yanıltıcıdır.

100 futbol matçını proqnozlaşdıran iki modeli nəzərdən keçirin:

ModelDəqiqlikDavranış
Model A54%Hər dəfə ev komandasını proqnozlaşdırır
Model B54%Hər matç üçün kalibrlənmiş ehtimalları çıxır

Hər ikisi eyni dəqiqliyə malikdir, lakin Model B daha faydalıdır. Model B “75% ev qələbəsi” deyərkən, bu, ~ 75% -ni proqnozlaşdırdığı bütün matçlar arasında təxminən 75% -i ev qələbələri ilə nəticələndiyini göstərir. Model A sizə belə bir məlumat vermir - sadəcə həmişə ev seçir.

Dəqiqlik modelin nə qədər tez-tez doğru olduğunu söyləyir. Kalibrləmə, onun çıxardığı ehtimallara nə qədər etibar edə biləcəyinizi söyləyir. Bu ehtimallara əsaslanaraq qərarlar verən hər kəs üçün - xüsusən maliyyə qərarları - kalibrləmə vacibdir.

Kalibrləmə nədir?

Bir model, çıxdığı hər ehtimal üçün hadisənin həqiqi tezliyi bu ehtimala uyğun gəlsə, mükəmməl şəkildə kalibrlənir. Rəsmi olaraq:

Kalibrləmə tərifi

P (nəticə = düzgün | güvən = p) = p

0 ilə 1 arasındakı p -nin bütün dəyərləri üçün.

Təcrübədə bu o deməkdir:

  • Modeldə "60% ehtimal” deyildikdə, hadisə vaxtın ~ 60% -i baş verməlidir
  • Modeldə "80% ehtimal” deyildikdə, hadisə vaxtın ~ 80% -i baş verməlidir
  • Modeldə "30% ehtimal” deyildikdə, hadisə vaxtın ~ 30% -i baş verməlidir

Bu, etibarlılıq diaqramından (kalibrləmə əyrisi) istifadə edərək vizuallaşdırılır: y oxundakı müşahidə olunan tezliyə qarşı x-oxunda proqnozlaşdırılan ehtimalı təsvir edirsiniz. Mükəmməl kalibrlənmiş model (0,0) -dən (1,1) -ə qədər diaqonal xətt istehsal edir.

Kalibrləmə ölçülməsi

Brier Score

Ehtimal proqnozlarını qiymətləndirmək üçün ən çox yayılmış metrik, 1950-ci ildə Glenn Brier tərəfindən təqdim edilən Brier balıdır:

Brier Skor Formulu

BS = (1/N) × Σ (pi − oi

Harada pi proqnozlaşdırılan ehtimaldır və oi faktiki nəticədir (1 və ya 0). Aşağı daha yaxşıdır. Aralığı: 0 (mükəmməl) ilə 1 (ən pis) arasında.

Brier skoru üç komponentə bölünə bilər:

KomponentNə ÖlçürMəqsəd
Kalibrləmə (etibarlılıq)Proqnozlaşdırılan ehtimalların müşahidə olunan tezliklərə nə qədər yaxındırMinimallaşdırın
Çözünürlük (kəskinlik)Proqnozlar baza dərəcədən nə qədər kənara çıxırMaksimal edin
qeyri-müəyyənlikHadisələrin özünəməxsus gözlənilməzliyi (nəzarət edilə bilməz)

Bir model yaxşı kalibrləmə, lakin zəif qətnaməyə sahib ola bilər (həmişə 3 tərəfli bazarda hər nəticə üçün ~ 33% proqnozlaşdırır) və ya yaxşı qətnamə, lakin zəif kalibrləmə (reallığa uyğun olmayan həddindən artıq proqnozlar vermək). Ən yaxşı modellər həm yaxşı kalibrləmə, həm də yaxşı qətnaməyə malikdir.

Kalibrləmə xətası

Gözlənilən Kalibrləmə Xətası (ECE) daha birbaşa ölçü təmin edir. Güvən səviyyəsinə görə proqnozları aradan qaldırır və proqnozlaşdırılan və müşahidə olunan tezliklər arasındakı ağırlıqlı orta fərqi hesablayır:

ECE Formula

ECE = Σ (nb/N) × |avg(pb) − orta (ob)|

Harada b qutuları indeksləyir, nb bin b-də proqnozların sayıdır və avg (pb) və ortalama (ob) həmin qutuda proqnozlaşdırılan və müşahidə olunan orta dəyərlərdir.

Niyə kalibrləmə bahis üçün vacibdir

Kalibrləmə maliyyə məsələsinə çevrildiyi yer budur. Bir model bir komandanın qalib gəlmə şansının 60% olduğunu söyləyirsə və bukmeker şirkətinin 55% demək olar ki, bu dəyər bahisinə bənzəyir - 5% üstünlük. Bəs model həddindən artıq inamlıdırsa və əsl ehtimal əslində 53% -dirsə nə olar? İndi gözlənilən mənfi dəyərə bahis edirsiniz.

Kalibrləmə tələsi

Model deyir: 60% → Göründüyü ehtimal: 1.67

Bukmeker təklifləri: 1.82 (nəzərdə tutulur 55%) → Deyəsən +5% dəyəri

Həqiqi ehtimal: 53% → Həqiqi kənar: − 2% (uzunmüddətli mərc itirmək)

Həddindən artıq inamlı bir model sistematik olaraq mövcud olmayan “dəyəri” müəyyənləşdirir. Yüzlərlə bahisdən çox bu, bankınızı məhv edir. Yaxşı kalibrlənmiş bir model, bir az daha dəqiq olsa da, qərar vermək üçün həqiqətən istifadə edə biləcəyiniz etibarlı ehtimal təxminləri verir.

Bu səbəbdən ExPrysm əsas metrik olaraq kalibrləməyə diqqət yetirir. “65%" deyən və "75%" deyəndən sonsuz dərəcədə daha faydalı olduğunu ifadə edən, lakin vaxtın yalnız 60% -də doğru olan bir model.

ExPrysm Modelləri Necə Kalibrlərir

ExPrysm kalibrlənmiş ehtimal çıxışlarını təmin etmək üçün bir neçə yanaşmadan istifadə edir:

CatBoost yerli ehtimalları

ExPrysm tərəfindən istifadə olunan gradient gücləndirmə çərçivəsi olan CatBoost, yerli olaraq yaxşı kalibrlənmiş ehtimallar istehsal edir - digər ağac əsaslı modellərdən daha yaxşıdır. Bunun səbəbi, CatBoost, səhv kalibrləmənin əsas səbəbi olan həddindən artıq uyğunluğu azaldan sifarişli gücləndirici və simmetrik ağaclardan istifadə etməsidir.

Matç nəticəsi modeli məşq zamanı çəki çəkilişləri bir qədər artırmaq üçün class_weights= [1.0, 1.3, 1.0] istifadə edir. Bu, çəkilmələrin proqnozlaşdırılmasının ən çətin nəticə olduğu və çox vaxt model inamında az təmsil olunduğu bilinən məsələni həll edir.

Izotonik reqressiya

Post-hoc kalibrləmə üçün izotonik reqressiya, xam model skorlarından kalibrlənmiş ehtimallara qədər monotonik xəritələşdirməni öyrənən parametrik olmayan bir üsuldur. Funksiyanın azalmaması məhdudiyyətinə tabe olaraq proqnozlaşdırılan və müşahidə olunan tezliklər arasındakı kvadrat səhvini minimuma endirən bir addım funksiyasını uyğunlaşdırmaqla işləyir.

Parametrik metodlardan üstünlük ondan ibarətdir ki, izotonik reqressiya kalibrləmə əyrisinin forması ilə bağlı heç bir fərziyyə vermir - istənilən yanlış kalibrləmə modelini düzəldə bilər.

Platt Scaling

Platt ölçülməsi kalibrlənmiş ehtimallar istehsal etmək üçün modelin xam çıxışlarında logistik bir reqressiyaya uyğundur. Bu, izotonik reqressiyadan daha sadədir və səhv kalibrləmə sigmoid nümunəyə əməl etdikdə yaxşı işləyir. Xüsusilə BTTS və ya Over/Under bazarlar kimi ikili nəticələr üçün faydalıdır.

Kalibrləmə əyrisini oxumaq

Kalibrləmə əyrisi (etibarlılıq diaqramı) model keyfiyyətini qiymətləndirməyin ən intuitiv yoludur. Birini necə oxumaq olar:

NümunəMənasıİmplikasiya
Diaqonal nöqtələrMükəmməl kalibrProqnozlaşdırılan ehtimallar reallığa uyğundur
Diaqonalın yuxarıdakı nöÖzünə inamsızModel deyir ki, 50%, lakin hadisələr 60% baş verir - mühafizəkar
Diaqonal altındakı nöqtələrHəddindən artıq inamlıModel deyir ki, 70%, lakin hadisələr 55% baş verir - təhlükəlidir
S şəkilli əyriQarışıqHəddindən artıq güvənməz, ortada həddindən artıq inamlı (və ya əksinə)

Bahis məqsədləri üçün həddindən artıq güvən ən təhlükəli modeldir. Həddindən artıq inamlı bir model, olmadığınız zaman üstünlüyünüzün olduğunu düşünməyə vadar edir. Özünə inamsızlıq daha az zərərlidir - bəzi dəyərli bahisləri əldən verə bilərsiniz, ancaq sistematik olaraq pul itirməyəcəksiniz.

Yaxşı kalibrləmə necə görünür

Bin 30-40%: Model ~ 35% proqnozlaşdırılır, faktiki nəticə nisbəti = 33% ✓

Bin 50-60%: Model ~ 55% proqnozlaşdırılır, faktiki nəticə nisbəti = 57% ✓

Bin 70-80%: Model ~ 75% proqnozlaşdırılır, faktiki nəticə nisbəti = 73% ✓

Hər bir qutunun müşahidə olunan tezliyi proqnozlaşdırılan ortalamadan bir neçə faiz nöqtəsindədir - bu yaxşı kalibrlənmiş bir modeldir.

ExPrysm-ın Kalibrləmə Nəticələri

ExPrysm bütün əsas bazarlar üçün kalibrləmə əyrilərini dərc edir Performans səhifəsi. Bu əyrilər 7,800+ matç üzrə real proqnoz məlumatlarından yaradılır və müntəzəm olaraq yenilənir.

ExPrysm-nin kalibrlənməsi ilə bağlı əsas məqamlar:

  • İctimaiyyətə açıq: Əksər proqnoz xidmətlərindən fərqli olaraq, ExPrysm-nin kalibrləmə məlumatları bütün istifadəçilər üçün görünür. Modelin etibarlılığını özünüz yoxlaya bilərsiniz.
  • Bazar səviyyəsində dənəvərlik: Matç nəticəsi (1X2), BTTS, Over/Under və digər bazarlar üçün ayrı kalibrləmə əyriləri təmin edilir. Hər bazar fərqli kalibrləmə xüsusiyyətlərinə malikdir.
  • Davamlı monitorinq: Kalibrləmə sürüşməni aşkar etmək üçün zamanla izlənilir. Dəyişən futbol dinamikası səbəbindən model səhv kalibrlənirsə, erkən tutulur.
  • Albalı yığımı yoxdur: Bütün proqnozlar kalibrləmə analizinə daxil edilir - yalnız modelin düzgün aldığı proqnozlar deyil. Bu, dürüst qiymətləndirmə üçün vacibdir.

ExPrysm-ın canlı kalibrləmə əyrilərinə və Brier skorlarına baxın Performans səhifəsi. Bütün məlumatlar geri testlərdən deyil, real proqnozlardan gəlir.

Nəticə

Dəqiqlik hər kəsin soruşduğu metrikdir. Kalibrləmə əslində vacib olan metrikdir. Yaxşı kalibrlənmiş model sizə etibar edə biləcəyiniz və hərəkət edə biləcəyiniz ehtimallar verir. Kalibrlənməmiş bir model - nə qədər “dəqiq” olursa olsun - sizi sistematik olaraq pis qərarlara səbəb ola bilər.

ExPrysm CatBoost-un yerli ehtimal qiymətləndirilməsi, post-hoc kalibrləmə üsulları və kalibrləmə əyrilərinin şəffaf ictimai hesabatı vasitəsilə kalibrləməyə üstünlük verir. Model 65% deyərkən, 65% deməkdir - və hər şeyin üzərində qurulduğu təməl budur.

Güvən ballarının bahis qərarlarına necə çevrildiyini başa düşmək istəyirsiniz? Bizim oxuyun Futbol bahislərini necə seçmək olar bələdçi.