Dixon-Coles & Poisson モデルによるサッカー予測
サッカーのゴールは、驚くほど予測可能な統計的パターンに従います。Poisson分布は1950年代からゴール数モデルの基盤となっており、Dixon-Coles補正によって現代向けに洗練されました。これらのモデルがどのように機能するか、そしてExPrysmがそれを機械学習でどのように発展させているかを解説します。
統計的サッカー予測の概要
サッカーの試合を統計的に予測するとは、勝者を選ぶのではなく、各結果の確率を推定することを意味します。ゴールベースのモデルの基盤となるのは、チームが1試合で決めるゴール数がPoisson分布にほぼ従うという単純な観察です。
この知見はMorey(1956年)によって初めて記録され、後にMaher(1982年)によって形式化されました。各チームの期待ゴール数(λ)を推定できれば、あらゆる試合の完全な確率マトリックスを構築できます。そのマトリックスから、1X2、両チーム得点、Over/Under、正確なスコア、アジアンハンディキャップなど、すべての市場を数学的に導出できます。
Poisson分布とサッカー
Poisson分布は、事象が一定の平均レートで独立して発生する場合に、固定された区間内で特定の数の事象が発生する確率をモデル化します。サッカーでは、「事象」がゴールで「区間」が1試合です。
期待レートλが与えられたとき、ちょうどkゴールが入る確率は次の式で表されます:
P(X = k) = (λk × e−λ) / k!
ここでλは期待ゴール数、e ≈ 2.71828、k!はkの階乗です。
なぜこれがサッカーに有効なのでしょうか?ゴールは比較的まれな事象(通常1試合あたり1〜3点)であり、試合内でほぼ独立して発生し、平均レートはチームの強さや状況によって異なります。これらの特性はPoisson分布の前提とよく一致しています。
P(0ゴール) = 22.3%
P(1ゴール) = 33.5%
P(2ゴール) = 25.1%
P(3ゴール) = 12.6%
P(4ゴール以上) = 6.5%
独立Poissonモデル
最もシンプルなアプローチは、ホームとアウェイのゴールが独立していると仮定することです。λhomeとλawayを別々に推定すれば、特定のスコアライン(i, j)の確率は次のように求められます:
P(Home=i, Away=j) = Phome(i) × Paway(j)
これにより、完全なスコアライン確率マトリックスが生成されます。例えば、λhome = 1.6、λaway = 1.1の場合:
| アウェイ 0 | アウェイ 1 | アウェイ 2 | アウェイ 3 | |
|---|---|---|---|---|
| ホーム 0 | 6.7% | 7.4% | 4.1% | 1.5% |
| ホーム 1 | 10.8% | 11.8% | 6.5% | 2.4% |
| ホーム 2 | 8.6% | 9.5% | 5.2% | 1.9% |
| ホーム 3 | 4.6% | 5.1% | 2.8% | 1.0% |
このマトリックスからセルを合計することで、あらゆる市場の確率を求めることができます。ホーム勝利 = i > j となるすべてのセルの合計。引き分け = 対角線の合計。アウェイ勝利 = j > i となるセルの合計。
独立性の限界
独立モデルには既知の欠点があります:低スコアの引き分け(特に0-0と1-1)の確率を過小評価してしまうのです。実際のサッカーでは、これらのスコアラインは独立モデルが予測するよりも高い頻度で発生します。ここでDixonとColesが登場します。
Dixon-Coles補正
1997年の画期的な論文で、Mark DixonとStuart Colesは、低スコアの結果に対する同時確率を調整する補正係数ρ(ロー)を導入しました。重要な洞察は、ホームとアウェイのゴールは完全に独立ではなく、特に接戦で低スコアの試合において、戦術的・心理的要因が相関を生み出すというものです。
この補正は4つの特定のスコアラインに適用されます:
| スコアライン | 補正係数 |
|---|---|
| 0-0 | 1 + λh × λa × ρ |
| 1-0 | 1 − λa × ρ |
| 0-1 | 1 − λh × ρ |
| 1-1 | 1 + ρ |
ρが負の値(通常は−0.03〜−0.10程度)の場合、0-0と1-1の確率が増加し、1-0と0-1の確率が減少します。これにより、実際の試合データで観察される頻度により近い結果が得られます。
Dixon-Coles補正は大きさとしては小さいですが、数千の予測にわたって意味のある効果をもたらします。主に低スコアの結果が支配的な正確なスコアやUnder 0.5/1.5市場に影響します。
ExPrysmにおけるPoisson活用法
ExPrysmは、過去の平均からアタックとディフェンスのパラメータを推定する古典的なPoisson手法を使用していません。代わりに、より強力で柔軟な機械学習アプローチを採用しています:
このアプローチが古典的なDixon-Colesより優れている点は、CatBoostが特徴量と期待ゴール数の間の非線形な関係を捉えられることです。チームごとに固定されたアタック/ディフェンスパラメータを仮定するのではなく、53の異なる文脈的特徴量が特定の試合の期待ゴールレートを生み出すためにどのように相互作用するかを学習します。
本番アンサンブル
最終的な試合結果(1X2)予測には、ExPrysmは2つのアプローチを組み合わせた本番アンサンブルを使用します:
P(outcome) = 0.70 × PCatBoost MS + 0.30 × PPoisson
CatBoostの試合結果分類器(69特徴量、class_weights=[1.0, 1.3, 1.0])が主要なシグナルを提供し、Poissonから導出された確率がゴールモデルの補完的な視点を加えます。
Poissonから市場確率へ
スコアライン確率マトリックスが得られれば、市場確率の導出は単純な計算です:
両チーム得点(両チームがスコア)
ホームゴール ≥ 1 かつ アウェイゴール ≥ 1 となるすべてのセルを合計します。同等の計算式:P(両チーム得点) = 1 − P(home=0) − P(away=0) + P(0-0)。
Over/Under ゴール
Over 2.5の場合:ホーム + アウェイ ≥ 3 となるすべてのセルを合計します。Under 2.5の場合:ホーム + アウェイ ≤ 2 となるすべてのセルを合計します。同じロジックが任意のライン(1.5、3.5など)に適用されます。
正確なスコア
マトリックスの各セルが、そのスコアラインの確率を直接示します。最も確率の高いスコアラインは、最大値を持つセルです。
アジアンハンディキャップ
各スコアラインにハンディキャップを適用し、各セルの勝ち/負け/引き分けを判定します。結果に応じて重み付けした確率を合計します。例えば、ホーム −1.5の場合:(ホーム − アウェイ) > 1.5 となるすべてのセルを合計します。
これがPoisson ゴールモデルが非常に価値ある理由です。λ値のペアひとつから、ゴール関連のすべての市場の確率を同時に生成できます。BTTSについてはBTTS解説ガイドで詳しく学べます。
限界と改善点
完璧なモデルは存在しません。Poissonアプローチには既知の限界があり、ExPrysmは特徴量エンジニアリングを通じてそれらに対処しています:
- 時間変化するアタック/ディフェンス:チームの強さはシーズンを通じて変化します。ExPrysmは静的なシーズン平均ではなく、Pi-ratings(毎日更新)とローリングフォーム特徴量を通じてこれを処理します。
- ホームアドバンテージの低下:ホームアドバンテージは2010年以降ヨーロッパのサッカー全体で低下しており、COVID禍の無観客スタジアム期間中にさらに低下しました。ExPrysmのモデルは固定値を仮定するのではなく、最近のデータから現在のホームアドバンテージを学習します。
- カップ戦対リーグ戦の違い:カップ戦は異なる戦術的プロファイルを持ちます(より慎重で、延長戦のシナリオが多い)。ExPrysmの特徴量にはこれらの違いを捉えるための大会タイプが含まれています。
- 独立性の仮定:Dixon-Colesのρパラメータが助けになりますが、試合内のゴールは決して完全に独立ではありません。1-0でリードしているチームはより守備的にプレーするかもしれません。CatBoostの非線形モデリングは、文脈的特徴量を通じてこれらのダイナミクスを部分的に捉えます。
- 過分散:カードやコーナーなどの一部の市場では、分散が平均を超えるためゴールがPoisson分布に従いません。ExPrysmはこれらの市場には代わりに負の二項回帰を使用します。
まとめ
Poisson分布は、サッカーのゴールモデリングにおいて最もエレガントで実用的な基盤であり続けています。Dixon-Coles補正は低スコアの結果に対してそれを洗練させます。ExPrysmはこの基盤の上に、単純なパラメータ推定をCatBoost Poisson回帰に置き換えることで構築されています。53の特徴量を使用して、古典的な手法よりも高い精度で期待ゴールを予測します。
その結果、予測されたλ値のペアからゴール関連のすべての市場にわたってキャリブレーションされた確率を生成し、最終的な1X2予測のために70/30アンサンブルで直接試合結果分類器と組み合わせるシステムが実現します。
これらのモデルが実際にどのように機能するかは、300以上のリーグにわたる7,800以上の試合の結果を掲載したパフォーマンスページでご確認ください。