サッカーにおけるELOレーティング — 予測のためのチーム強度測定
あらゆる予測モデルには、チームが「今現在」どれほど強いかを測る方法が必要です。先シーズンでも過去の実績でもなく、今日の強さです。ELOレーティングはシンプルかつ洗練された解決策を提供します。Pi-ratingsはさらに一歩進み、攻撃と守備、ホームとアウェイを分離します。両者の仕組みと、ExPrysmがなぜ両方を組み合わせて使用するかを解説します。
ELOレーティングとは?
ELOレーティングシステムは、1960年代にArpad Eloがチェスプレイヤーのランキングのために考案しました。基本的な考え方は非常にシンプルです。すべてのチームは基準レーティング(通常1500)からスタートし、各試合後に勝者がポイントを獲得し、敗者がポイントを失います。移動するポイント量は、結果がどれほど意外だったかによって決まります。
強いチームが弱いチームに勝った場合、移動するポイントはわずかです。その結果は予想通りだったからです。弱いチームが勝った場合、多くのポイントが移動します。番狂わせにはより多くの情報が含まれているからです。時間が経つにつれ、レーティングは真のチーム強度を反映するように収束していきます。
ELOはいくつかの研究者や組織によってサッカーに応用されました。FIFA(2018年まで世界ランキングに使用)やFiveThirtyEightもその一例です。サッカーには明確な勝ち・引き分け・負けの結果があり、チームが十分な頻度で試合を行うためレーティングを最新の状態に保てることから、ELOはサッカーに適しています。
ELOの仕組み
ELOの更新ルールには3つの要素があります。
期待スコア
試合前に、レーティング差からホームチームの期待スコアが計算されます。
Ehome = 1 / (1 + 10(Raway − Rhome − HFA) / 400)
Rは現在のレーティング、HFAはホームアドバンテージの補正値(通常50〜100ポイント)です。
K係数
K係数は、各試合後にレーティングがどれだけ変化するかを制御します。Kが高いほどレーティングは直近の結果に素早く反応し(変動が大きい)、Kが低いほどレーティングは安定しますが適応が遅くなります。サッカーでは通常20〜40の値が使われます。
更新ルール
試合後、実際の結果と期待スコアの差に基づいてレーティングが更新されます。
Rnew = Rold + K × (Sactual − Eexpected)
Sactualは勝利=1、引き分け=0.5、敗北=0です。
チームA(レーティング1650)がホームでチームB(レーティング1500)と対戦。K=30、HFA=65の場合:
EA = 1 / (1 + 10(1500 − 1650 − 65)/400) = 0.78
チームAが勝利した場合:RA = 1650 + 30 × (1 − 0.78) = 1656.6 (+6.6)
チームBが勝利した場合:RA = 1650 + 30 × (0 − 0.78) = 1626.6 (−23.4)
番狂わせは予想通りの結果よりもはるかに多くのレーティングポイントを移動させます。
サッカーにおけるELO
なぜ機能するのか
ELOは2つのことを同時に捉えます。チームの本質的な質と直近のフォームです。連勝中のチームはレーティングが上昇し、真の実力向上とモメンタムの両方を反映します。これにより、ELOは予測モデルにとってコンパクトかつ情報量の豊富な特徴量となります。
限界
標準的なELOにはサッカーにおける根本的な限界があります。チームごとに1つの数値しか生成しないことです。つまり、攻撃は強いが守備が弱いチームや、ホームとアウェイで異なるパフォーマンスを見せるチームを区別できません。レーティング1600のチームが3-2で勝つチームなのか1-0で勝つチームなのか、ELOは同じように扱います。
Pi-ratings:次の進化
2013年、Anthony ConstantinouとNorman FentonはPi-ratingsを紹介する論文を発表しました。これはELOの主要な限界に対処するために、サッカー専用に設計されたレーティングシステムです。チームごとに1つの数値ではなく、Pi-ratingsは4つの値を管理します。
Pi-ratingsシステムは元の論文から3つの主要なパラメータを使用します。
| パラメータ | 値 | 目的 |
|---|---|---|
| b | 10 | レーティング更新の基本乗数 |
| c | 3 | 得点差への感度を制御 |
| lr | 0.1 | 学習率 — レーティングの適応速度 |
各試合後、両チームの4つのレーティングすべてが、得点と失点に基づいて更新されます。ホームでの得点によりホーム攻撃レーティングが上昇し、相手チームのアウェイ守備レーティングが低下します。これにより、チーム強度の豊かな多次元的な全体像が生まれます。
Pi-ratingsは毎試合日後に逐次更新されます。ExPrysmは予測生成前に最新の結果をレーティングに反映させるため、毎日更新を実行しています。
ExPrysmにおけるチームレーティングの活用方法
ExPrysmはELOやPi-ratingsを単独の予測指標として使用しません。代わりに、CatBoost勾配ブースティングモデル内の特徴量として機能させています。
- 試合結果モデル: 69の特徴量の中にELOレーティングとPi-ratingsの両方を使用します。CatBoost分類器は、レーティング差が他の特徴量(フォーム、直接対決、リーグ順位)とどのように相互作用するかを学習し、試合結果を予測します。
- ゴールモデル: Poisson回帰モデル(53特徴量)はPi-ratingsを使って期待ゴール数の予測を補助します。攻撃/守備の分離は特に有用で、チームのホーム攻撃レーティングは得点数の予測に直接役立ちます。
- 特徴量重要度: Pi-ratingsは試合結果モデルの総特徴量重要度の約24.5%を占め、最も影響力のある特徴量グループとなっています。これは、チーム強度の正確な測定が精度の高い予測の基盤であることを裏付けています。
ExPrysmの重要な設計上の決定は、モデルがオッズベースの特徴量を一切使用しないことです。チームレーティングは「市場に依存しない」強度シグナルを提供し、ブックメーカーのオッズに縛られることなく独自の確率推定値を生成できます。
ELO vs Pi-ratings 比較
| 項目 | ELO | Pi-ratings |
|---|---|---|
| チームあたりの値 | 1 | 4 |
| 攻撃/守備の分離 | なし | あり |
| ホーム/アウェイの分離 | なし(固定HFA) | あり(個別レーティング) |
| 得点差の使用 | 任意 | 組み込み済み |
| 複雑さ | シンプル | 中程度 |
| 解釈しやすさ | 非常に高い | 高い |
| 情報密度 | 低い | 高い |
| 学術的根拠 | Elo(1960年代) | Constantinou & Fenton(2013年) |
どちらのシステムにも価値があります。ELOはシンプルで解釈しやすいベースラインを提供します。レーティング1700のチームが1500のチームより強いことはすぐに理解できます。Pi-ratingsは機械学習モデルが活用できるより豊富な情報を提供し、特に攻撃/守備とホーム/アウェイの分離が有効です。
予測への実際の影響
レーティング差は勝利確率にどのように変換されるのでしょうか?ELO差からの大まかな対応表を示します。
| ELO差 | 強いチームの勝率 | 引き分け率 | 弱いチームの勝率 |
|---|---|---|---|
| 0(同等) | 約36% | 約28% | 約36% |
| +100 | 約45% | 約27% | 約28% |
| +200 | 約55% | 約24% | 約21% |
| +300 | 約64% | 約21% | 約15% |
| +400 | 約72% | 約17% | 約11% |
これらはあくまで概算です。ExPrysmのCatBoostモデルは、レーティング差だけでなく69の特徴量すべてを考慮することで、より細かな確率を算出します。しかしこの表は、レーティングがなぜ価値あるものかを示しています。チームの試合履歴全体を、予測力のある単一のシグナルに圧縮できるからです。
Pi-ratingsを使うと、モデルはさらに細かく分析できます。ホーム攻撃レーティングが高くアウェイ守備レーティングが低いチームは、ホームでプレーするかアウェイでプレーするかによって全く異なる予測を生み出します。これは単一のELO数値では捉えられないことです。
まとめ
ELOレーティングは、数十年にわたってスポーツ全般で機能してきた、実績ある解釈しやすいチーム強度の指標です。Pi-ratingsはこの概念を、サッカーが必要とする攻撃/守備とホーム/アウェイの次元で拡張します。ExPrysmはCatBoostモデルの特徴量として両方を使用しており、Pi-ratingsだけで特徴量重要度の約24.5%を占めています。これは、正確なチーム強度測定がサッカー予測において最も重要な要素であることを裏付けています。
プラットフォーム全体を理解したい方は、ExPrysmとは?をお読みください。すべてのモデルがどのように連携しているかを詳しく解説しています。