Чому калібрування моделі має значення більше, ніж точність у футбольних прогнозах
Модель з точністю на 60% звучить вражаюче - поки ви не зрозумієте, що вона говорить «на 70% впевненість» у прогнозах, які збуваються лише у 55% випадків. Цей розрив між заявленою впевненістю та фактичною надійністю є проблемою калібрування, і це різниця між корисною моделлю та небезпечною.
Точність проти калібрування
Більшість людей оцінюють моделі прогнозування за точністю: «Який відсоток прогнозів був правильним?» Це інтуїтивно зрозуміло, але глибоко вводить в оману для ймовірнісних прогнозів.
Розглянемо дві моделі, які передбачають 100 футбольних матчів:
| Модель | точність | Поведінка |
|---|---|---|
| Модель А | 54% | Кожен раз прогнозує домашню команду |
| Модель B | 54% | Виводить калібровані ймовірності для кожного матчу |
Обидва мають однакову точність, але модель B набагато корисніша. Коли модель B говорить «75% виграшу вдома», це означає, що серед усіх матчів, де вона передбачала ~ 75%, приблизно 75% фактично призвели до перемог вдома. Модель А не дає вам такої інформації - вона просто завжди вибирає додому.
Точність говорить про те, як часто модель має рацію. Калібрування говорить вам, наскільки ви можете довіряти ймовірностям, які вона видає. Для тих, хто приймає рішення на основі цих ймовірностей - особливо фінансових рішень - калібрування має значення.
Що таке калібрування?
Модель ідеально відкалібрована, якщо для кожної ймовірності, яку вона видає, фактична частота події відповідає цій ймовірності. Формально:
P (результат = правильний | впевненість = p) = p
Для всіх значень p між 0 і 1.
На практиці це означає:
- Коли модель говорить "60% ймовірності», подія повинна відбуватися ~ 60% часу
- Коли модель говорить "80% ймовірності», подія повинна відбуватися ~ 80% часу
- Коли модель говорить «ймовірність 30%», подія повинна відбуватися ~ 30% часу
Це візуалізується за допомогою діаграми надійності (калібрувальної кривої): ви малюєте прогнозовану ймовірність на осі x проти спостережуваної частоти на осі y. Ідеально відкалібрована модель створює діагональну лінію від (0,0) до (1,1).
Калібрування вимірювання
Оцінка Брієра
Найпоширенішим показником для оцінки ймовірнісних прогнозів є оцінка Брайера, введена Гленном Брайєром у 1950 році:
БС = (1/Н) × Σ (сi − oi)²
Де pi передбачувана ймовірність і oi Це фактичний результат (1 або 0). Нижче - краще. Діапазон: від 0 (ідеальний) до 1 (найгірший).
Оцінка Брайера може бути розкладена на три компоненти:
| Компонент | Що він вимірює | Мета |
|---|---|---|
| Калібрування (надійність) | Наскільки близькі прогнозовані ймовірності до спостережуваних частот | Мінімізувати |
| Роздільна здатність (різкість) | Скільки прогнозів відхиляються від базової ставки | Максимізувати |
| невизначеність | Притаманна непередбачуваність подій (не контрольована) | — |
Модель може мати хорошу калібрування, але погану роздільну здатність (завжди прогнозує ~ 33% для кожного результату на 3-смуговому ринку), або хорошу роздільну здатність, але погану калібрування (роблячи екстремальні прогнози, які не відповідають реальності). Кращі моделі мають як хорошу калібрування, так і хорошу роздільну здатність.
Помилка калібрування
Очікувана помилка калібрування (ECE) забезпечує більш прямий показник. Він об'єднує прогнози за рівнем довіри та обчислює середньозважену різницю між прогнозованими та спостережуваними частотами:
ЄЕС = Σ (nb/N) × |avg(pb) − середнє значення (ob)|
Де b індексує бункери, nb це кількість прогнозів у bin b та avg (pb) і середнє значення (ob) є середніми прогнозованими та спостережуваними значеннями в цьому контейнері.
Чому калібрування має значення для ставок
Тут калібрування стає фінансовим питанням. Якщо модель каже, що команда має 60% шансів на виграш, а букмекерська контора пропонує коефіцієнти, що передбачають 55%, це виглядає як ставка на величину - 5% перевага. Але що робити, якщо модель надмірно впевнена, а справжня ймовірність насправді становить 53%? Тепер ви робите ставку на негативну очікувану вартість.
Модель каже: 60% → Неявні коефіцієнти: 1.67
Пропозиції букмекерської контори: 1.82 (мається на увазі 55%) → Виглядає як +5% значення
Істинна ймовірність: 53% → Фактична перевага: − 2% (довгострокова програшна ставка)
Надмірно впевнена модель систематично визначає «цінність», якої не існує. Понад сотні ставок це знищує ваш банкролл. Добре відкалібрована модель, навіть якщо трохи менш точна, дає вам надійні оцінки ймовірності, які ви насправді можете використовувати для прийняття рішень.
Ось чому ExPrysm зосереджується на калібруванні як основній метриці. Модель, яка говорить "65%" і означає, що вона нескінченно корисніша, ніж та, яка говорить "75%", але правильна лише 60% часу.
Як ExPrysm калібрує моделі
ExPrysm використовує кілька підходів для забезпечення каліброваних результатів ймовірності:
Рідні ймовірності CatBoost
CatBoost, структура посилення градієнта, яка використовується ExPrysm, створює добре відкалібровані ймовірності нативно - краще, ніж більшість інших моделей на основі дерев. Це пов'язано з тим, що CatBoost використовує впорядковані підсилювальні та симетричні дерева, які зменшують перепристосування, що є основною причиною неправильного калібрування.
Модель результатів матчу використовує class_weights= [1.0, 1.3, 1.0] для злегка збільшення ваги під час тренувань. Це вирішує відому проблему, згідно з якою нічиї є найважчим для прогнозування результату і часто недостатньо представлені в довірі моделі.
Ізотонічна регресія
Для пост-хок-калібрування ізотонічна регресія - це непараметричний метод, який вивчає монотонне відображення від необроблених балів моделі до каліброваних ймовірностей. Він працює шляхом встановлення крокової функції, яка мінімізує квадратичну помилку між передбачуваними та спостережуваними частотами, за умови обмеження, що функція не зменшується.
Перевага перед параметричними методами полягає в тому, що ізотонічна регресія не робить припущень щодо форми калібрувальної кривої - вона може виправити будь-яку закономірність неправильного калібрування.
Плоске масштабування
Масштабування Платта відповідає логістичній регресії на вихідних результатах моделі для отримання каліброваних ймовірностей. Це простіше, ніж ізотонічна регресія, і добре працює, коли неправильне калібрування відповідає сигмоїдній схемі. Це особливо корисно для бінарних результатів, таких як ринки BTTS або Over/Under.
Читання калібрувальної кривої
Калібрувальна крива (діаграма надійності) є найбільш інтуїтивно зрозумілим способом оцінки якості моделі. Ось як прочитати один:
| візерунок | Значення | Наслідки |
|---|---|---|
| Точки по діагоналі | Ідеальне калібрування | Прогнозовані ймовірності відповідають реальності |
| Точки вище діагоналі | Невпевнений | Модель каже 50%, але події трапляються 60% - консервативні |
| Точки нижче діагоналі | Надмірно впевнений | Модель каже, що 70%, але події трапляються 55% - небезпечно |
| S-подібна крива | Змішаний | Невпевнений у крайнощах, надмірно впевнений в середині (або навпаки) |
Для цілей ставок надмірна впевненість є найнебезпечнішою схемою. Надмірно впевнена модель змушує вас думати, що у вас є перевага, коли цього немає. Невпевненість менш шкідлива - ви можете пропустити деякі ставки на цінність, але ви не будете систематично втрачати гроші.
Бін 30-40%: модель прогнозована ~ 35%, фактичний коефіцієнт результату = 33% ✓
Бін 50-60%: Модель прогнозована ~ 55%, фактичний коефіцієнт результатів = 57% ✓
Бін 70-80%: модель прогнозована ~ 75%, фактичний коефіцієнт результату = 73% ✓
Частота спостереження кожного контейнера знаходиться в межах кількох процентних пунктів від прогнозованого середнього значення - це добре відкалібрована модель.
Результати калібрування ExPrysm
ExPrysm публікує калібрувальні криві для всіх основних ринків Сторінка продуктивності. Ці криві генеруються на основі реальних даних прогнозування за 7,800+ матчів і регулярно оновлюються.
Ключові моменти щодо калібрування ExPrysm:
- Загальнодоступні: На відміну від більшості сервісів прогнозування, дані калібрування ExPrysm видимі для всіх користувачів. Перевірити надійність моделі можна самостійно.
- Ринкова деталізація: Окремі криві калібрування передбачені для результату матчу (1X2), BTTS, Over/Under та інших ринків. Кожен ринок має різні калібрувальні характеристики.
- Постійний моніторинг: Калібрування відстежується з часом для виявлення дрейфу. Якщо модель стає неправильно каліброваною через зміну футбольної динаміки, її ловлять рано.
- Ніякого збору вишні: Усі прогнози включені в калібрувальний аналіз, а не лише ті, з якими модель помилилася. Це критично важливо для чесної оцінки.
Перегляньте криві калібрування ExPrysm у прямому ефірі та результати Brier на Сторінка продуктивності. Усі дані взяті з реальних прогнозів, а не бектестів.
Висновок
Точність - це метрика, про яку всі запитують. Калібрування - це метрика, яка насправді має значення. Добре відкалібрована модель дає вам ймовірності, яким ви можете довіряти та діяти відповідно до них. Некалібрована модель - незалежно від того, наскільки «точна» - може привести вас до систематично поганих рішень.
ExPrysm надає пріоритет калібруванню за допомогою власної оцінки ймовірностей CatBoost, методів калібрування пост-hoc та прозорої публічної звітності про калібрувальні криві. Коли модель говорить 65%, це означає 65% - і це основа, на якій будується все інше.
Хочете зрозуміти, як показники впевненості перетворюються на рішення щодо ставок? Читайте наш Як вибрати футбольні ставки керівництво.