足球统计预测简介

统计预测足球比赛意味著估计每个可能结果的概率,而不是选择赢家。大多数基于目标模型的基础是一个简单的观察:球队在一场比赛中得分的进球数跟著普森分配相当良好。

这种洞察,首先由莫罗尼(1956)记录,后来由马赫(1982)正式化,如果我们可以估计每支球队的预期进球(λ),则允许我们为任何比赛构建一个完整概率矩阵。从该矩阵中,每个市场 — 1X2、BTTS、高/低、正确比分、亚洲让 — 都可以数学方式得出。

波伊森分布和足球

Poisson 分布为特定数目的事件在固定间隔中发生的概率模型,当事件以恒定平均速率独立发生时。对于足球来说,「事件」是一个目标,「间隔」是一场比赛。

准确的概率 k 给定预期比率 λ 的进球是:

普瓦森公式

P(X = k)=(λk × e−λ) / k!

其中 λ 是预期进球数, e ≈ 2.71828,并且 k!是 k 的因数。

为什么这对足球有用?进球是相对罕见的事件(通常每队每场比赛 1:3),它们在比赛中发生在比赛中有些许独立,平均比率因球队实力和情境而异。这些属性与波亚森假设非常相符。

范例:λ = 1.5 球

P(0 球)= 22.3%

P(1 球)= 33.5%

P(2 球)= 25.1%

P(3 球)= 12.6%

P(4 个以上进球)= 6.5%

独立波伊森模型

最简单的方法假设主场和客场目标是独立的。如果我们估计 λ 和 λ离开 单独,任何特定计分线(i,j)的概率简单是:

联合概率

P(主页 = I,距离 = J)= P(i) × P离开(j)

这会产生完整的计分线概率矩阵。例如,使用 λ = 1.6 和 λ离开 = 1.1:

客场 0客场 1客场 2客场 3
首页 06.7%7.4%4.1%1.5%
首页 110.8%11.8%6.5%2.4%
首页 28.6%9.5%5.2%1.9%
首页 34.6%5.1%2.8%1.0%

From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.

独立的限制

独立模型有一个已知的缺点:它低估得分低分平的概率(尤其是 0-0 和 1-1)。在真实的足球中,这些计分线出现的频率比独立模型预测的频率更高。这就是迪克森和科尔斯参与的地方

迪克森-科尔斯校正

在他们 1997 年的里程碑意义的论文中,马克·迪克森和斯图尔特·科尔斯引入了一种校正系数 ρ(rho),可调整低得分结果的联合概率。关键见解:主场和客场进球并不完全独立,战术和心理因素会产生相关性,尤其是在紧密、低分的比赛中。

修正适用于四个特定的计分线:

计分线校正系数
0-01 + λh × λa × ρ
1-01 − λa × ρ
0-11 − λh × ρ
1-11 + ρ

当 ρ 为负值(通常在 −0.03 到 -0.10 左右)时,0-0 和 1-1 的概率会增加,而 1-0 和 0-1 下降。这更好地匹配实际匹配数据中观察到的频率。

迪克森-科尔斯校正的大小很小,但在数千种预测中有意义。它主要影响正确分数和低于 0.5/1.5 的市场,其中低分数结果主导地位。

ExPrysm 如何使用波伊森

ExPrysm 不使用经典的波伊森方法来根据历史平均值估算攻击和防御参数。相反,它使用更强大且灵活的机器学习方法:

1
猫加速波松回归
两个独立的 CatBoost 模型(home_goals.cbm 和外场 _goals.cbm)在波亚森损失进行了训练,以预测 λ 和 λ离开 直接。每个模型都使用 53 个功能,包括 PI 评级、表单指标和对头统计数据。
2
波森分布产生
预测的 λ 值被输入到波亚森概率质量函数中,以产生完整的计分线概率矩阵(通常每个队伍都是 0—7 个进球)。
3
市场衍生
计分线矩阵会汇总,以产生每个市场的概率:BTTS、超过/低、正确分数、亚洲让赛线等。

这种方法相比经典迪克森-科尔斯的优点在于 CatBoost 可以捕捉功能和预期目标之间的非线性关系。它不会假设每个团队固定的攻击/防御参数,而是会学习 53 个不同的情境功能如何互动,以产生每个特定比赛的预期进球率。

制作乐团

对于最终比赛结果(1X2)预测,ExPrysm 使用结合两种方法的制作组合:

乐团公式

P(结果)= 0.70 × P卡特 Boost MS + 0.30 × 每小时普瓦森

CatBoost 比对结果分类器(69 个特征,类别重量 = [1.0,1.3,1.0])提供主要信号,而波伊森衍生的概率从目标模型增加了互补的观点。

从普瓦森到市场

一旦你有得分线概率矩阵,衍生市场概率就是简单的算法:

BTTS(两队都入分)

将主场进球 ≥ 1 和客场进球 ≥ 1 的所有单元进总和。等效:P(BTTS)= 1-P(主页 = 0)-P(远距离 = 0)+ P(0-0)。

超过/低入球

对于 2.5 以上:将家 + 客场 ≥ 3 的所有单元格求和。对于 2.5 以下:将家 + 客户 ≤ 2 的所有单元格求和。相同的逻辑适用于任何行(1.5,3.5 等)。

正确分数

矩阵中的每个单元格直接给出该确切计分线的概率。最可能的计分线是值最高的储存格。

亚洲让赛

Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.

这就是为什么 Poisson 目标模型如此有价值 — 单一对 λ 值同时为每个目标相关市场产生概率。在我们中了解有关 BTTS 的更多信息 BTTS 说明 指南。

限制和改进

没有模型是完美的。Poisson 方法具有已知的限制,ExPrysm 通过其功能工程解决:

  • 时间变化的攻击/防御: 球队实力会在整个赛季中发生变化。ExPrysm 通过 PI 评级(每天更新)和滚动表格功能来处理此问题,而不是静态季节平均值。
  • 主场优势衰退: 自 2010 年以来,欧洲足球的主场优势一直在下降,并在 COVID 时代空白的体育场期间进一步下降。ExPrysm 的模型从最近的数据中学习当前主场优势,而不是假设固定值。
  • 杯对联赛动态: 杯赛具有不同的战术概况(更谨慎,加时场更多)。ExPrysm 的功能包括竞争类型来捕捉这些差异。
  • 独立假设: 尽管迪克森-科尔斯 ρ 参数有帮助,但比赛中的进球永远不会真正独立。1-0 上前的球队可能会更具防御力。CatBoost 的非线性建模通过上下文功能部分捕获这些动态。
  • 过分散: 对于某些市场(卡牌、角球),进球不能跟随波森,因为差异超过平均值。ExPrysm 改为这些市场使用负二项式回归。

结论

波伊森分布仍然是足球进球模型最优雅和最实用的基础。迪克森-科尔斯校正改善了它,以获得低分的结果。ExPrysm 建立在这个基础上,通过将简单的参数估算替换为 CatBoost Poisson 回归,使用 53 个功能来预测预期的目标,比传统方法更准确地预测预期目标。

结果是一个系统,可从单一对预测的 λ 值在每个与目标相关市场产生校准的概率,结合 70/30 组合中的直接匹配结果分类器,用于最终 1X2 预测。

查看这些模型在实践中的表现 效能页面,拥有超过 100 个联赛的 7,800 场比赛的结果。