Futbol proqnozunda Dixon-Coles və Poisson Modelləri
Futbol qolları təəccüblü şəkildə proqnozlaşdırıla bilən statistik Poisson paylanması 1950 -ci illərdən bəri qol modelləşdirmənin onurğasıdır və Dixon-Coles düzəldilməsi onu müasir dövr üçün təkmilləşdirdi. Bu modellərin necə işlədiyini və ExPrysm-ın maşın öyrənmə ilə onlara necə qurduğunu izah edirik.
Statistik Futbol Proqnozuna Giriş
Futbol matçlarını statistik olaraq proqnozlaşdırmaq, hər bir mümkün nəticənin ehtimalını qiymətləndirmək deməkdir - qalib seçməmək. Əksər qola əsaslanan modellərin təməli sadə bir müşahidədir: komandanın bir matçda vurduğu qol sayı Poisson paylanmasını kifayət qədər yaxşı izləyir.
Əvvəlcə Moroney (1956) tərəfindən sənədləşdirilən və daha sonra Maher (1982) tərəfindən rəsmiləşdirilən bu fikir, hər bir komandanın gözlənilən qollarını (λ) təxmin edə bilsək, hər bir matç üçün tam ehtimal matrisi qurmağa imkan verir. Bu matrisdən hər bazar - 1X2, BTTS, Over/Under, düzgün bal, Asiya handikapı - riyazi olaraq əldə edilə bilər.
Poisson Paylanması və Futbol
Poisson paylanması, hadisələr müstəqil olaraq sabit orta sürətlə baş verdikdə müəyyən sayda hadisənin sabit bir aralıqda baş vermə ehtimalını modelləşdirir. Futbol üçün “hadisə” qol, “interval” isə bir matçdır.
Tam ehtimalı k gözlənilən dərəcəyə görə qollar λ aşağıdakılardır:
P (X = k) = (λk × e−λ) / k!
Harada λ gözlənilən qol sayıdır, e ≈ 2.71828 və k! k-in faktorialıdır.
Bu niyə futbol üçün işləyir? Qollar nisbətən nadir hadisələrdir (adətən matçda hər komanda başına 1-3), bir matç ərzində bir-birindən bir qədər asılı olmayaraq baş verir və orta dərəcəsi komandanın gücünə və kontekstinə görə dəyişir. Bu xüsusiyyətlər Poisson fərziyyələrinə yaxşı uyğundur.
P (0 qol) = 22.3%
P (1 qol) = 33.5%
P (2 qol) = 25.1%
P (3 qol) = 12.6%
P (4+ qol) = 6.5%
Müstəqil Poisson Modeli
Ən sadə yanaşma ev və səfər qollarının müstəqil olduğunu düşünür. Əgər λ qiymətləndirsəkev və λuzaqda ayrıca, hər hansı bir xüsusi bal xəttinin ehtimalı (i, j) sadəcə:
P (ev = I, uzaq=J) = Pev(i) × Puzaqda(j)
Bu, tam bir bal xətti ehtimal matrisi yaradır. Məsələn, λ iləev = 1.6 və λuzaqda = 1.1:
| Səfər 0 | Səfər 1 | Səfər 2 | Səfər 3 | |
|---|---|---|---|---|
| Ev sahibi 0 | 6.7% | 7.4% | 4.1% | 1.5% |
| Ev sahibi 1 | 10.8% | 11.8% | 6.5% | 2.4% |
| Ev sahibi 2 | 8.6% | 9.5% | 5.2% | 1.9% |
| Ev sahibi 3 | 4.6% | 5.1% | 2.8% | 1.0% |
From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.
Müstəqillik məhdudiyyətləri
Müstəqil modelin məlum bir qüsuru var: aşağı xal vermə ehtimalını aşağı qiymətləndirir (xüsusən 0-0 və 1-1). Həqiqi futbolda bu bal xətləri müstəqil modelin proqnozlaşdırdığından daha tez-tez baş verir. Dixon və Coles'in başladığı yer budur.
Dixon-Coles Düzəlişi
Mark Dixon və Stuart Coles, 1997-ci ilin əlamətdar məqaləsində aşağı bal verən nəticələr üçün birgə ehtimalını tənzimləyən bir düzəliş faktoru ρ (rho) təqdim etdilər. Əsas fikir: evdə və yola düşən qollar tam müstəqil deyil - taktiki və psixoloji amillər xüsusilə sıx, aşağı xal olan matçlarda əlaqə yaradır.
Düzəliş dörd xüsusi bal xəttinə aiddir:
| Skor xətti | Düzəliş faktoru |
|---|---|
| 0-0 | 1 + λh × λa × ρ |
| 1-0 | 1 − λa × ρ |
| 0-1 | 1 − λh × ρ |
| 1-1 | 1 + ρ |
ρ mənfi olduqda (ümumiyyətlə −0.03 ilə −0.10 arasında olur) 0-0 və 1-1 ehtimalları artır, 1-0 və 0-1 azalır. Bu, real uyğunluq məlumatlarında müşahidə olunan tezliklərə daha yaxşı uyğundur.
Dixon-Coles düzəldilməsi böyüklüyü kiçikdir, lakin minlərlə proqnozun üzərində mənalıdır. Bu, ilk növbədə düzgün bala və aşağı ballı nəticələrin üstünlük təşkil etdiyi 0.5/1.5 altındakı bazarlara təsir göstərir.
ExPrysm Poissondan necə istifadə edir
ExPrysm, hücum və müdafiə parametrlərini tarixi ortalamalardan qiymətləndirmək üçün klastik Poisson yanaşmasından istifadə etmir. Bunun əvəzinə daha güclü və çevik bir maşın öyrənmə yanaşmasından istifadə edir:
Bu yanaşmanın klassika Dixon-Coles üzərində üstünlüyü odur ki, CatBoost xüsusiyyətləri və gözlənilən qollar arasında qeyri-xətti əlaqələri ələ keçirə bilər. Komanda başına sabit bir hücum/müdafiə parametrini qəbul etmir - bunun əvəzinə, hər bir matç üçün gözlənilən qol dərəcəsini yaratmaq üçün 53 fərqli kontekstual xüsusiyyətlərin necə qarşılıqlı əlaqədə olduğunu öyrənir.
İstehsal ansamblı
Son oyun nəticəsi (1X2) proqnozu üçün ExPrysm iki yanaşmanı birləşdirən istehsal ansamblından istifadə edir:
P (nəticə) = 0.70 × PCatBoost MS + 0.30 × PPoison
CatBoost matç nəticəsi təsnifatçısı (69 xüsusiyyət, class_weight = [1.0, 1.3, 1.0]) əsas siqnalı təmin edir, Poisson mənşəli ehtimallar isə qollar modelindən tamamlayıcı bir perspektiv əlavə edir.
Poissondan Bazarlara
Skor xətti ehtimal matrisinə sahib olduqdan sonra bazar ehtimallarını əldə etmək sadə arifmetikdir:
BTTS (Hər iki komanda qol verəcək)
Həm ev qolu ≥ 1, həm də yola düşən qol ≥ 1 olduğu bütün hüceyrələri cəmləyin. Ekvivalent olaraq: P (BTTS) = 1 - P (ev = 0) - P (uzaq=0) + P (0-0).
Qollar üstü/altı
2.5-dən yuxarı üçün: ev+uzaqda ≥ 3 olan bütün hüceyrələri cəmləyin. 2.5-dən aşağı olanlar üçün: ev+uzaqda ≤ 2 olan bütün hüceyrələri cəmləyin. Eyni məntiq hər hansı bir xəttə aiddir (1.5, 3.5 və s.).
Düzgün hesab
Matrisdəki hər bir hüceyrə birbaşa dəqiq bal xəttinin ehtimalını verir. Ən ehtimal olunan bal xətti ən yüksək dəyəri olan hüceyrədir.
Asiya Handicapı
Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.
Bu səbəbdən Poisson qollar modeli bu qədər dəyərlidir - tək cüt λ dəyəri eyni vaxtda hər bir qolla əlaqəli bazar üçün ehtimallar yaradır. BTTS haqqında daha çox məlumat əldə edin BTTS izah edildi bələdçi.
Məhdudiyyətlər və inkişaf
Heç bir model mükəmməl deyil. Poisson yanaşması, ExPrysm-ın xüsusiyyət mühəndisliyi ilə həll etdiyi məlum məhdudiyyətlərə malikdir:
- Zamanda dəyişən hücum/müdafiə: Komanda gücü bir mövsüm ərzində dəyişir. ExPrysm bunu statik mövsüm ortalamalarından çox PI-reytinqləri (gündəlik yenilənir) və yuvarlanan forma xüsusiyyətləri vasitəsilə həll edir.
- Ev üstünlüyünün çürüməsi Ev üstünlüyü 2010-cu ildən bəri Avropa futbolunda azalır və COVID dövrünün boş stadionları zamanı daha da azaldı. ExPrysm modelləri sabit bir dəyər qəbul etməkdənsə, cari ev üstünlüyünü son məlumatlardan öyrənirlər.
- Kubok və Liqa dinamikası: Kubok matçları fərqli taktiki profillərə malikdir (daha ehtiyatlı, daha çox əlavə vaxt ssenariləri). ExPrysm-in xüsusiyyətlərinə bu fərqləri ələ keçirmək üçün rəqabət növü daxildir.
- Müstəqillik fərziyyəsi: Dixon-Coles ρ parametri kömək etsə də, matçdakı qollar heç vaxt həqiqətən müstəqil deyil. 1-0 yuxarı qalxan bir komanda daha müdafiə oynaya bilər. CatBoost-un qeyri-xətti modelləşdirilməsi bu dinamikanı kontekstual xüsusiyyətlər vasitəsilə qismən ələ keçirir.
- Həddindən artıq dispersiya: Bəzi bazarlar üçün (kartlar, künclər) qollar Poissonu yaxşı izləmir, çünki fərqlənmə ortalamanı üstələyir. ExPrysm bunun əvəzinə bu bazarlar üçün Mənfi Binomial reqressiyadan istifadə edir.
Nəticə
Poisson paylanması futbol qol modelləşdirilməsi üçün ən zərif və praktik təməl olaraq qalır. Dixon-Coles düzəlişi onu aşağı ballı nəticələr üçün dəqiqləşdirir. ExPrysm sadə parametr qiymətləndirməsini CatBoost Poisson reqressiyası ilə əvəz edərək bu təməl üzərində qurur - gözlənilən qolları klassika metodlardan daha dəqiqliklə proqnozlaşdırmaq üçün 53 xüsusiyyətdən istifadə edir.
Nəticə, son 1X2 proqnozu üçün 70/30 ansamblında birbaşa matç nəticəsi təsnifatçısı ilə birlikdə bir cüt proqnozlaşdırılan λ dəyərlərindən hər bir qol ilə əlaqəli bazarda kalibrlənmiş ehtimallar yaradan bir sistemdir.
Bu modellərin praktikada necə işlədiyinə baxın Performans səhifəsi, 100+ liqada 7,800+ matçın nəticələri ilə.