Methodology

足球的 ELO 评级 — 测量球队实力以进行预测

阅读时间 8 分钟二零二六年二月二十六日技术

每个预测模型都需要一种方法来衡量球队现在的强大性 —— 不是上赛季，不是历史上，而是今天。ELO 评级提供了一个简单，优雅的解决方案。PI 等级将攻击与防守分开，将主场与客场分离，进一步提升它。以下是两者的工作方式以及 ExPrysm 一起使用它们的原因。

什么是 ELO 评级？

ELO 评级系统是由阿帕德·埃洛在 1960 年代发明，以对象棋选手进行排名。核心理念非常简单：每个球队都以基本评分（通常为 1500）开始，每场比赛后，赢家获得积分，而失败者则失去积分。转移的金额取决于结果的令人惊讶。

如果强大的球队击败弱球队，则少数分换手 —— 结果是预期的。如果弱球队赢得胜利，将多分转移 —— 败者带来更多信息。随著时间的推移，评分会聚合以反映真正的团队实力。

ELO 被几个研究人员和组织改编为足球，包括国际足联（直到 2018 年的世界排名）和 FiveThirtyEight。它的效果很好，因为足球具有明确的胜/平/输结果，球队比赛频繁足以使评分保持最新状态。

ELO 如何运作

ELO 更新规则有三个元件：

预期得分

比赛前，主队的预期比分是根据评分差计算出来：

预期得分公式

E_家 = 1 / (1 + 10^{(R_离开 − R_家 − 四百分之四})

其中 R 是目前额定值，HFA 是主场优势调整（通常是 50—100 分）。

K 系数

K 系数控制每场比赛后的评分变化多少。较高的 K 意味著评分对最近的结果反应更快（更波动），而较低的 K 意味著评级更稳定，但适应速度较慢。足球的典型值介于 20 到 40。

更新规则

比赛结束后，评分会根据实际结果和预期得分之间的差异更新：

ELO 更新

R_new = R_old + K × (秒)_实际 − E_预期)

其中 S_实际 = 1 为胜利，0.5 为平，0 表示输。

例子

A 队（评分 1650）主场对阵 B 队（评分 1500）。如果 K = 30，高度高度为 65：

E_A = 1 / (1 + 10^{(一百五十五 − 一百五十五) /400}) = 0.78

如果 A 队获胜：R_A = 1650 + 30 × (一 − 0.78) = 1656.6 (+6.6)

如果 B 队获胜：R_A = 1650 + 30 × (0 − 0.78) = 1626.6 (−23.4)

失望转移的评分比预期结果多得多。

足球背景中的 ELO

为什么它有效

ELO 同时捕捉两件事：基础的团队品质和最近的表现。连胜的球队将看到其评分上升，反映真正的进步和动力。这使 ELO 成为预测模型的紧凑、资讯丰富的功能。

限制

标准 ELO 对足球有一个基本限制：它每支球队生成一个数字。这意味著它无法区分攻击力强而防守力的球队，或者在主场与客场表现不同的球队。评分 1600 的球队可以是 3-2 球队或 1-0 球队 — ELO 对待他们相同。

Pi 评级：下一次进化

2013 年，安东尼康斯坦蒂诺和诺曼·芬顿发表了一篇论文介绍了 PI 评级-这是专为足球设计的评级系统，解决 ELO 的关键限制。PI 评级保持四个，而不是每支球队一个数字：

⚔️

主场攻击

在主场打球时的攻击力

🛡️

家居防御

在主场打球时的防守力

⚔️

客场攻击

客场比赛时的攻击力

🛡️

客场防守

客场比赛时的防守力

PI 评级系统使用原始论文中的三个关键参数：

参数	价值	目的
b	10	评级更新的基本乘数
c	3	控制对目标差异的灵敏度
lr	0.1	学习率 — 评分的适应速度

每场比赛结束后，两支球队的四个评分都会根据进入和丢失的进球进行更新。当球队在主场进球时，主场攻击评分会增加；对手的客场防守评分降低。这可以为团队实力创造丰富的多维度图片。

PI 评级会在每一场比赛日后逐步更新。ExPrysm 会执行每日更新，以确保评分在产生预测之前反映最新结果。

ExPrysm 如何使用团队评分

ExPrysm 不使用 ELO 或 PI 评级作为独立预测器。相反，它们作为 CatBoost 渐变增强模型中的功能：

比赛结果模型： 其 69 个功能中同时使用 ELO 等级和 PI 等级。CatBoost 分类器会了解评分差异如何与其他功能（表格、头对决、联赛位置）互动，以预测比赛结果。
目标模型： 波亚森回归模型（53 个功能）使用 PI 评级来帮助预测预期进球。攻击/防御分离在这里特别有价值 — 球队的主场攻击评分直接告诉他们的可能会进球数。
功能重要性： PI 评分占比对结果模型中特征重要性的约 24.5%，使它们成为单一最具影响力的特征群组。这证实了团队实力量测是准确预测的基础。

ExPrysm 的关键设计决定是模型不使用基于差数的功能。球队评分提供「无关市场的」强度信号，使模型能够产生自己的概率估计，而不会固定于博彩公司赔率。

ELO 与 Pi 评分比较

外观	ELO	PI 评级
每个团队的价值	1	4
攻击／防御分割	No	Yes
首页/客户分车	否（固定的 HFA）	是（单独的评级）
使用的进球差	可选	内置
复杂性	简单	中等
可解释性	非常高	高
信息密度	Low	高
学术基础	埃洛（1960 年代）	康斯坦丁努和芬顿（2013）

这两个系统都有价值。ELO 提供了一个简单且可解释的基准线 — 您可以立即理解，评分为 1700 的团队比评分 1500 强。PI 评级提供机器学习模型可以利用的更丰富的信息，尤其是攻击/防御和家/客场分离。

对预测的实际影响

评分差异如何转化为获胜机率？以下是来自 ELO 差异的大致映射：

ELO 差异	更强队伍获胜%	抽签率	较弱的队伍获胜%
0 (等于)	~36%	~28%	~36%
+100	~45%	~27%	~28%
+200	~55%	~24%	~21%
+300	~64%	~21%	~15%
+400	~72%	~17%	~11%

这些是粗略估计 — ExPrysm 的 CatBoost 模型通过将所有 69 个功能一起考虑，而不仅仅仅是评级差异来产生更多细微的概率。但这个表格说明了为什么评分如此有价值：它们将球队的整个比赛历史压缩为单一的预测信号。

凭借 PI 评级，该型号变得更加细腻。主场攻击评级高但客场防守等级低的球队会根据他们在主场还是客场比赛而产生非常不同的预测 —— 单一 ELO 数无法捕捉到的情况。

结论

ELO 评级提供了一种经过验证且可解释的团队实力量测量，该测量已在跨运动中有效数十年。PI 评级将这个概念扩大了足球所需的攻击/防御和家/客场维度。ExPrysm 在 CatBoost 模型中使用这两种功能，而 PI 评分仅占功能重要性的约 24.5%，确认准确的球队实力量测是足球预测中最重要的单一元素。

想了解完整的平台？阅读什么是 ExPrysm？了解所有模型如何一起工作的完整概述。