准确度与校准

大多数人通过准确性来评估预测模型:「有多少百分比的预测是正确的?」这对于可能性预测来说是直观的,但深深具误导性。

考虑预测 100 场足球比赛的两个模型:

模型准确度行为
A 型号54%每次都预测主队
B 型号54%输出每场比赛的校准概率

两者都具有相同的准确度,但模型 B 更有用。当模型 B 表示 "75% 主场胜利" 时,这意味著在所有预测到 ~ 75% 的比赛中,大约 75% 实际结果导致主场胜利。模型 A 不会给您这样的信息,只是总是选择回家。

准确度会告诉您模型的正确性。校准会告诉您您可以多信任它输出的概率。对于根据这些概率做出决定的人(尤其是财务决策)对于任何人来说,校正是重要的。

什么是校准?

如果对于它输出的每个概率,事件的实际频率与该概率匹配该概率,则模型将完美校准。正式:

校准定义

P(结果 = 正确 | 信心 = p)= p

对于 0 到 1 之间的所有 p 值。

在实际上,这意味著:

  • 当模型说 "60% 的概率" 时,事件应发生 ~ 60% 的时间
  • 当模型说 "80% 的概率" 时,事件应发生 ~ 80% 的时间
  • 当模型说 "30% 的概率" 时,事件应发生 ~ 30% 的时间

使用可靠性图(校准曲线)可视化这一点:您可以在 x 轴上绘制预测的概率与 y 轴上的观测频率相比。完美校准的模型产生从 (0,0) 到 (1,1) 的对角线。

测量校准

布莱尔得分

评估概率预测最常见的指标是格伦布莱尔分数,1950 年由格伦·布莱尔引入:

布莱尔得分公式

小幅度 = (1/N) × Σ (p)i − oi

其中 pi 是预测的概率和 oi 是实际结果(1 或 0)。较低是更好的。范围:0(完美)到 1(最差)。

布赖尔分数可以分解为三个组成:

元件它衡量什么目标
校准(可靠性)预测的概率与观察频率有多近最小化
解析度(锐利度)预测与基准利率有多少偏差最大化
不确定性事件的固有不可预测性(不可控)

模型可能具有良好的校准,但分辨率不佳(在三向市场中总是预测每个结果的约 33%),或者解析度好,但校准差(进行不匹配现实的极端预测)。最好的型号具有良好的校准和良好的分辨率。

校准错误

预期校正误差 (ECE) 提供更直接的测量。它按信心等级对预测进行分类,并计算预测和观察频率之间的加权平均差异:

ECE 公式

ECE= Σ (nb/N) × |avg(pb)-平均值 (ob)|

其中 b 索引了容器,nb 是 bin b 中的预测数和平均值(pb) 和平均值 (ob)是该资料箱中预测和观察的平均值。

为什么调校对投注重要

这就是校准成为一个财务问题的地方。如果模特说球队有 60% 的机率获胜,而博彩公司提供意味著 55% 的赔率,那么这看起来就像是价值投注 —— 5% 的优势。但是,如果模型过于自信,真实概率实际上是 53%,该怎么办?现在,您正在投注负预期价值。

校准陷阱

模型说:60% → 隐含赔率:1.67

博彩公司优惠:1.82(隐含 55%)→ 看起来价值为 +5%

真实概率:53% → 实际优势:− 2% (长期输下注)

一个过度自信的模型有系统地识别不存在的「值」。超过数百次投注,这会破坏您的资金。经过校准良好的模型,即使准确度稍微不太准确,也可以为您提供可靠的概率估计,您实际上可以用于决策。

这就是为什么 ExPrysm 专注于校准作为主要指标的原因。一种说 "65%" 的模型,意味著它比说 "75%" 的模型无限实用,但只有 60% 的时间正确。

ExPrysm 如何校准模型

ExPrysm 使用几种方法来确保校准的概率输出:

CatBoost 原生概率

ExPrysm 使用的渐层增强框架 CatBoost,本地产生了良好的校准的概率-比大多数其他基于树状模型更好。这是因为 CatBoost 使用有序的增强和对称树,可以减少过度配合,这是错误校准的主要原因。

比赛结果模型在训练期间使用类别 _ 重量 = [1.0, 1.3, 1.0] 进行轻微提升比重。这解决了已知的问题,即抽签是最难预测的结果,并且在模型信心中通常表现不足的问题。

等式回归

对于临机校准,等音回归是一种非参数式方法,可从原始模型分数到校准的概率学习单调映。它通过配合一个步骤函数来最小化预测和观察到的频率之间的平方误差,但受到函数不减少的限制。

与参数式方法相比的优势在于,等声回归不会对校准曲线的形状进行假设 — 它可以更正任何错误校准模式。

平面缩放

Platt 比例调整适合模型原始输出上的物流回归,以产生校准的概率。它比等音回归简单,并且在错误校准遵循环形模式时起作用很好。它对于 BTTS 或超过/低市场等二元结果特别有用。

读取校准曲线

校准曲线(可靠性图)是评估模型品质最直观的方法。以下是如何阅读一个:

图案含义含义
对角线上的点完美校准预测的概率与现实相匹配
对角线上方的点不自信模特说 50%,但事件发生 60% — 保守
对角线下方的点过度自信模特说 70%,但事件发生 55% — 危险
S 形曲线混合极端自信不足,中间过度自信(反之亦然)

对于投注目的而言,过度自信是最危险的模式。一个过度自信的模型会让你认为自己在没有的时候有优势。自信不足的伤害较少 — 您可能会错过一些价值投注,但您不会有系统性地损失金钱。

良好的校准看起来是什么

分区 30-40%:模型预测约 35%,实际结果率 = 33% ✓

50-60%:模型预测约 55%,实际结果率 = 57% ✓

下列 70-80%:模型预测约 75%,实际结果率 = 73% ✓

每个资料箱的观察频率都在预测平均值的几个百分点之内 —— 这是一个经过良好的校准模型。

ExPrysm 的校准结果

ExPrysm 针对所有主要市场发布校准曲线 效能页面。这些曲线是从 7,800 多个比赛中的实际预测数据产生,并定期更新。

关于 ExPrysm 校准的关键要点:

  • 公开可用: 与大多数预测服务不同,所有使用者都可以看到 ExPrysm 的校准资料。您可以自行验证模型的可靠性。
  • 市场级的细微性: 对比赛结果(1X2)、BTTS、超过/低以及其他市场提供了单独的校准曲线。每个市场都有不同的校准特性。
  • 持续监控: 会随著时间的推移追踪校准,以侦测漂移。如果由于足球动态变化而导致模型校准错误,则会很早找到它。
  • 不采摘樱桃: 所有预测都包含在校准分析中,而不仅仅是模型正确的预测。这对于诚实评估至关重要。

查看 ExPrysm 的实时校准曲线和布莱尔分数 效能页面。所有数据都是来自真实的预测,而不是反向测试。

结论

准确性是每个人都要求的指标。校准是实际上重要的指标。校准良好的模型为您提供您可以信任和采取行动的概率。未经校准的模型 — 无论多么「准确」,都可能导致您做出有系统性的错误决策。

ExPrysm 通过 CatBoost 的原生概率估算、临机校准技术以及对校准曲线的透明公开报告来优先考虑校准。当模型说 65% 时,这意味著 65%-这就是其他所有东西都建立的基础。

想了解信心得分如何转化为投注决策?阅读我们的 如何选择足球投注 指南。