Methodology

迪克森-科尔斯和波伊森模型在足球预测中

10 分钟阅读二零二六年二月二十六日技术

足球进球遵循令人惊讶的可预测统计模式。自 1950 年代以来，波伊森分布一直是进球模型的骨干，迪克森-科尔斯校正改善了它，适合现代时代。以下说明这些模型的运作方式，以及 ExPrysm 如何在机器学习上构建模型。

足球统计预测简介

统计预测足球比赛意味著估计每个可能结果的概率，而不是选择赢家。大多数基于目标模型的基础是一个简单的观察：球队在一场比赛中得分的进球数跟著普森分配相当良好。

这种洞察，首先由莫罗尼（1956）记录，后来由马赫（1982）正式化，如果我们可以估计每支球队的预期进球（λ），则允许我们为任何比赛构建一个完整概率矩阵。从该矩阵中，每个市场 — 1X2、BTTS、高/低、正确比分、亚洲让 — 都可以数学方式得出。

波伊森分布和足球

Poisson 分布为特定数目的事件在固定间隔中发生的概率模型，当事件以恒定平均速率独立发生时。对于足球来说，「事件」是一个目标，「间隔」是一场比赛。

准确的概率 k 给定预期比率 λ 的进球是：

普瓦森公式

P（X = k）=（λ^k × e^−λ) / k!

其中 λ 是预期进球数， e ≈ 2.71828，并且 k！是 k 的因数。

为什么这对足球有用？进球是相对罕见的事件（通常每队每场比赛 1：3），它们在比赛中发生在比赛中有些许独立，平均比率因球队实力和情境而异。这些属性与波亚森假设非常相符。

范例：λ = 1.5 球

P（0 球）= 22.3%

P（1 球）= 33.5%

P（2 球）= 25.1%

P（3 球）= 12.6%

P（4 个以上进球）= 6.5%

独立波伊森模型

最简单的方法假设主场和客场目标是独立的。如果我们估计 λ_家和 λ_离开单独，任何特定计分线（i，j）的概率简单是：

联合概率

P（主页 = I，距离 = J）= P_家(i) × P_离开(j)

这会产生完整的计分线概率矩阵。例如，使用 λ_家 = 1.6 和 λ_离开 = 1.1:

	客场 0	客场 1	客场 2	客场 3
首页 0	6.7%	7.4%	4.1%	1.5%
首页 1	10.8%	11.8%	6.5%	2.4%
首页 2	8.6%	9.5%	5.2%	1.9%
首页 3	4.6%	5.1%	2.8%	1.0%

From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.

独立的限制

独立模型有一个已知的缺点：它低估得分低分平的概率（尤其是 0-0 和 1-1）。在真实的足球中，这些计分线出现的频率比独立模型预测的频率更高。这就是迪克森和科尔斯参与的地方

迪克森-科尔斯校正

在他们 1997 年的里程碑意义的论文中，马克·迪克森和斯图尔特·科尔斯引入了一种校正系数 ρ（rho），可调整低得分结果的联合概率。关键见解：主场和客场进球并不完全独立，战术和心理因素会产生相关性，尤其是在紧密、低分的比赛中。

修正适用于四个特定的计分线：

计分线	校正系数
0-0	1 + λ_h × λ_a × ρ
1-0	1 − λ_a × ρ
0-1	1 − λ_h × ρ
1-1	1 + ρ

当 ρ 为负值（通常在 −0.03 到 -0.10 左右）时，0-0 和 1-1 的概率会增加，而 1-0 和 0-1 下降。这更好地匹配实际匹配数据中观察到的频率。

迪克森-科尔斯校正的大小很小，但在数千种预测中有意义。它主要影响正确分数和低于 0.5/1.5 的市场，其中低分数结果主导地位。

ExPrysm 如何使用波伊森

ExPrysm 不使用经典的波伊森方法来根据历史平均值估算攻击和防御参数。相反，它使用更强大且灵活的机器学习方法：

猫加速波松回归

两个独立的 CatBoost 模型（home_goals.cbm 和外场 _goals.cbm）在波亚森损失进行了训练，以预测 λ_家和 λ_离开直接。每个模型都使用 53 个功能，包括 PI 评级、表单指标和对头统计数据。

波森分布产生

预测的 λ 值被输入到波亚森概率质量函数中，以产生完整的计分线概率矩阵（通常每个队伍都是 0—7 个进球）。

市场衍生

计分线矩阵会汇总，以产生每个市场的概率：BTTS、超过/低、正确分数、亚洲让赛线等。

这种方法相比经典迪克森-科尔斯的优点在于 CatBoost 可以捕捉功能和预期目标之间的非线性关系。它不会假设每个团队固定的攻击/防御参数，而是会学习 53 个不同的情境功能如何互动，以产生每个特定比赛的预期进球率。

制作乐团

对于最终比赛结果（1X2）预测，ExPrysm 使用结合两种方法的制作组合：

乐团公式

P（结果）= 0.70 × P_{卡特 Boost MS} + 0.30 × 每小时_普瓦森

CatBoost 比对结果分类器（69 个特征，类别重量 = [1.0，1.3，1.0]）提供主要信号，而波伊森衍生的概率从目标模型增加了互补的观点。

从普瓦森到市场

一旦你有得分线概率矩阵，衍生市场概率就是简单的算法：

BTTS（两队都入分）

将主场进球 ≥ 1 和客场进球 ≥ 1 的所有单元进总和。等效：P（BTTS）= 1-P（主页 = 0）-P（远距离 = 0）+ P（0-0）。

超过/低入球

对于 2.5 以上：将家 + 客场 ≥ 3 的所有单元格求和。对于 2.5 以下：将家 + 客户 ≤ 2 的所有单元格求和。相同的逻辑适用于任何行（1.5，3.5 等）。

正确分数

矩阵中的每个单元格直接给出该确切计分线的概率。最可能的计分线是值最高的储存格。

亚洲让赛

Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.

这就是为什么 Poisson 目标模型如此有价值 — 单一对 λ 值同时为每个目标相关市场产生概率。在我们中了解有关 BTTS 的更多信息 BTTS 说明指南。

限制和改进

没有模型是完美的。Poisson 方法具有已知的限制，ExPrysm 通过其功能工程解决：

时间变化的攻击/防御： 球队实力会在整个赛季中发生变化。ExPrysm 通过 PI 评级（每天更新）和滚动表格功能来处理此问题，而不是静态季节平均值。
主场优势衰退： 自 2010 年以来，欧洲足球的主场优势一直在下降，并在 COVID 时代空白的体育场期间进一步下降。ExPrysm 的模型从最近的数据中学习当前主场优势，而不是假设固定值。
杯对联赛动态： 杯赛具有不同的战术概况（更谨慎，加时场更多）。ExPrysm 的功能包括竞争类型来捕捉这些差异。
独立假设： 尽管迪克森-科尔斯 ρ 参数有帮助，但比赛中的进球永远不会真正独立。1-0 上前的球队可能会更具防御力。CatBoost 的非线性建模通过上下文功能部分捕获这些动态。
过分散： 对于某些市场（卡牌、角球），进球不能跟随波森，因为差异超过平均值。ExPrysm 改为这些市场使用负二项式回归。

结论

波伊森分布仍然是足球进球模型最优雅和最实用的基础。迪克森-科尔斯校正改善了它，以获得低分的结果。ExPrysm 建立在这个基础上，通过将简单的参数估算替换为 CatBoost Poisson 回归，使用 53 个功能来预测预期的目标，比传统方法更准确地预测预期目标。

结果是一个系统，可从单一对预测的 λ 值在每个与目标相关市场产生校准的概率，结合 70/30 组合中的直接匹配结果分类器，用于最终 1X2 预测。

查看这些模型在实践中的表现效能页面，拥有超过 100 个联赛的 7,800 场比赛的结果。