Точность и калибровка

Большинство людей оценивают модели прогнозирования по точности: «Какой процент прогнозов оказался верным?» Это интуитивно понятно, но для вероятностных прогнозов это глубоко вводит в заблуждение.

Рассмотрим две модели, предсказывающие 100 футбольных матчей:

модельТочностьПоведение
Модель А54%Каждый раз предсказывает команду хозяев поля
Модель B54%Выводит откалиброванные вероятности для каждого матча

Оба имеют одинаковую точность, но модель B гораздо полезнее. Когда модель B говорит: «75% побед хозяев», это означает, что из всех матчей, в которых прогнозировалось около 75%, примерно 75% фактически закончились победами хозяев. Модель А не дает такой информации — вы всегда выбираете хозяев.

Точность показывает, как часто модель верна. Калибровка показывает, насколько можно доверять выводимым ею вероятностям. Для любого, кто принимает решения на основе этих вероятностей, особенно финансовых решений, калибровка — это самое важное.

Что такое калибровка?

Модель идеально откалибрована, если при каждой выводимой вероятности фактическая частота события совпадает с этой вероятностью. Формально:

Определение калибровки

P (результат = правильный | уверенность = p) = p

Для всех значений p от 0 до 1.

На практике это означает:

  • Когда в модели указано «вероятность 60%», событие должно произойти примерно в 60% случаев
  • Когда в модели указано «вероятность 80%», событие должно происходить примерно в 80% случаев
  • Когда в модели указано «вероятность 30%», событие должно произойти примерно в 30% случаев

Это визуализируется с помощью диаграммы надежности (калибровочной кривой): вы строите график прогнозируемой вероятности на оси x и наблюдаемой частоты на оси y. Идеально откалиброванная модель создает диагональную линию от (0,0) до (1,1).

Измерительная калибровка

Оценка Брайера

Наиболее распространенной метрикой для оценки вероятностных прогнозов является оценка Брайера, введенная Гленном Брайером в 1950 году:

Формула оценки Бриера

BS = (1/N) × (p)i − oi

Где pi — это прогнозируемая вероятность и oi это фактический результат (1 или 0). Чем меньше, тем лучше. Диапазон: от 0 (идеальный) до 1 (худший).

Оценку Бриера можно разложить на три компонента:

КомпонентЧто оно измеряетЦель
Калибровка (надежность)Насколько предсказанные вероятности близки к наблюдаемым частотамМинимизировать
Разрешение (резкость)Насколько прогнозы отклоняются от базовой ставкиМаксимизировать
НеопределенностьНепредсказуемость событий, присущая событиям (не поддающаяся контролю)

Модель может иметь хорошую калибровку, но низкое разрешение (всегда прогнозируется около 33% на каждый результат на рынке трехсторонних устройств) или хорошее разрешение, но плохая калибровка (возможность делать экстремальные прогнозы, не соответствующие действительности). Лучшие модели отличаются хорошей калибровкой и хорошим разрешением.

Ошибка калибровки

Ожидаемая ошибка калибровки (ECE) обеспечивает более прямое измерение. Он сопоставляет прогнозы по уровню достоверности и вычисляет средневзвешенную разницу между прогнозируемыми и наблюдаемыми частотами:

Формула ЕЭК

ЕЭК = (n)b/N) × |avg(pb) − среднее (o)b)|

Где b индексирует бункеры, nb — количество прогнозов в бине b и avg (p)b) и среднее (o)b) — средние прогнозируемые и наблюдаемые значения в этом бункере.

Почему калибровка важна для ставок

Здесь калибровка становится финансовой проблемой. Если в модели указано, что шансы команды на победу составляют 60%, а букмекер предлагает коэффициенты, равные 55%, это выглядит как выгодная ставка — преимущество в 5%. Но что, если модель слишком надежна, а реальная вероятность на самом деле составляет 53%? Теперь вы делаете ставку на отрицательное ожидаемое значение.

Калибровочная ловушка

Модель говорит: 60% → Предполагаемые коэффициенты: 1,67

Предложения букмекеров: 1,82 (подразумеваемые 55%) → Похоже, значение +5%

Истинная вероятность: 53% → Фактическое преимущество: − 2% (проигрышная ставка в долгосрочной перспективе)

Сверхуверенная модель систематически определяет «ценность», которой не существует. Более сотни ставок уничтожают ваш банкролл. Хорошо откалиброванная модель, хотя и немного менее точная, дает надежные оценки вероятности, которые вы действительно можете использовать для принятия решений.

Вот почему ExPrysm уделяет основное внимание калибровке как основному показателю. Модель с надписью «65%», что означает, что она гораздо полезнее модели с надписью «75%», но она верна только в 60% случаев.

Как ExPrysm калибрует модели

ExPrysm использует несколько подходов для обеспечения откалиброванных вероятностных выходных данных:

Нативные вероятности CatBoost

CatBoost, фреймворк градиентного бустинга, используемый в ExPrysm, изначально генерирует хорошо откалиброванные вероятности — лучше, чем большинство других древовидных моделей. Это связано с тем, что CatBoost использует упорядоченное повышение и симметричные деревья, позволяющие уменьшить количество перестроек, что является основной причиной неправильной калибровки.

Модель результатов матчей использует class_weights= [1.0, 1.3, 1.0] для незначительного увеличения веса во время тренировки. Таким образом, устранена известная проблема, заключающаяся в том, что ничьи — самый трудный для прогнозирования исход событий, и они часто недооцениваются в достоверности модели.

Изотоническая регрессия

Для постспециальной калибровки изотоническая регрессия — это непараметрический метод, позволяющий изучать монотонное отображение результатов исходной модели и откалиброванных вероятностей. Метод работает путем подбора ступенчатой функции, которая сводит к минимуму квадратичную ошибку между прогнозируемой и наблюдаемой частотами при условии, что эта функция не уменьшается.

Преимущество по сравнению с параметрическими методами заключается в том, что изотоническая регрессия не делает предположений о форме калибровочной кривой — она может исправить любую закономерность неправильной калибровки.

Масштабирование Platt

Масштабирование Платта соответствует логистической регрессии исходных выходных данных модели для получения откалиброванных вероятностей. Это проще изотонической регрессии и хорошо работает, когда неправильная калибровка происходит по сигналу сигмовидной кишки. Это особенно полезно для бинарных исходов, таких как цены BTTS или рынки «больше/меньше».

Чтение калибровочной кривой

Калибровочная кривая (диаграмма надежности) — самый интуитивный способ оценки качества модели. Вот как ее прочитать:

УзорСмыслСледствие
Точки по диагоналиИдеальная калибровкаПрогнозируемые вероятности соответствуют реальности
Точки выше диагоналиНеуверенная в себеМодель говорит, что 50%, но события случаются, 60% — консервативно
Точки ниже диагоналиСлишком самоуверенныйМодель говорит, что 70%, но события случаются, 55% — опасно
S-образная криваяСмешанныйНеуверенность в себе в крайних проявлениях, чрезмерная самоуверенность в себе в середине (или наоборот)

Для ставок чрезмерная самоуверенность — самая опасная модель. Слишком самоуверенная модель заставляет вас думать, что у вас есть преимущество, когда это не так. Неуверенность в себе менее вредна: вы можете упустить некоторые выгодные ставки, но не станете систематически терять деньги.

Как выглядит хорошая калибровка

Корзина 30-40%: прогнозируемая модель ~ 35%, фактический показатель результатов = 33% ✓

Bin 50-60%: прогнозируемая модель ~ 55%, фактический показатель результатов = 57% ✓

Bin 70-80%: прогнозируемая модель ~ 75%, фактический коэффициент результатов = 73% ✓

Наблюдаемая частота каждого бункера находится в пределах нескольких процентных пунктов от прогнозируемого среднего значения — это хорошо откалиброванная модель.

Результаты калибровки ExPrysm

ExPrysm публикует калибровочные кривые для всех основных рынков Страница производительности. Эти кривые формируются на основе реальных прогнозов по более чем 7800 матчам и регулярно обновляются.

Ключевые моменты калибровки ExPrysm:

  • В открытом доступе: В отличие от большинства сервисов прогнозирования, данные калибровки ExPrysm видны всем пользователям. Вы можете убедиться в надежности модели самостоятельно.
  • Детализация на уровне рынка: Отдельные калибровочные кривые представлены для результатов матча (1X2), ставок BTTS, «больше/меньше» и других рынков. Каждый рынок имеет разные калибровочные характеристики.
  • Непрерывный мониторинг: Калибровка отслеживается с течением времени для обнаружения дрейфа. Если модель неправильно откалибрована из-за изменения динамики футбольного мяча, её обнаружат рано.
  • Никакого сбора вишни: В калибровочный анализ включаются все прогнозы, а не только те, которые модель правильно подобрала. Это очень важно для честной оценки.

Ознакомьтесь с калибровочными кривыми ExPrysm в реальном времени и оценками Бриера на Страница производительности. Все данные взяты из реальных прогнозов, а не из бэктестов.

Заключение

Точность — это показатель, о котором все спрашивают. Калибровка — это действительно важный показатель. Хорошо откалиброванная модель дает вам вероятности, которым можно доверять и на основании которых можно действовать. Неоткалиброванная модель, какой бы «точной» она ни была, может привести к систематическим ошибочным решениям.

ExPrysm уделяет приоритетное внимание калибровке с помощью встроенной оценки вероятности CatBoost, методов выборочной калибровки и прозрачной публичной отчетности о калибровочных кривых. Если в модели указано 65%, то это означает 65% — и это основа, на которой построено все остальное.

Хотите узнать, как показатели доверия влияют на решения о размещении ставок? Ознакомьтесь с нашим Как выбирать ставки на футбол путеводитель.