足球的 ELO 評級 — 測量球隊實力以進行預測
每個預測模型都需要一種方法來衡量球隊現在的強大性 —— 不是上賽季,不是歷史上,而是今天。ELO 評級提供了一個簡單,優雅的解決方案。PI 等級將攻擊與防守分開,將主場與客場分離,進一步提升它。以下是兩者的工作方式以及 ExPrysm 一起使用它們的原因。
什麼是 ELO 評級?
ELO 評級系統是由阿帕德·埃洛在 1960 年代發明,以對象棋選手進行排名。核心理念非常簡單:每個球隊都以基本評分(通常為 1500)開始,每場比賽後,贏家獲得積分,而失敗者則失去積分。轉移的金額取決於結果的令人驚訝。
如果強大的球隊擊敗弱球隊,則少數分換手 —— 結果是預期的。如果弱球隊贏得勝利,將多分轉移 —— 敗者帶來更多信息。隨著時間的推移,評分會聚合以反映真正的團隊實力。
ELO 被幾個研究人員和組織改編為足球,包括國際足聯(直到 2018 年的世界排名)和 FiveThirtyEight。它的效果很好,因為足球具有明確的勝/平/輸結果,球隊比賽頻繁足以使評分保持最新狀態。
ELO 如何運作
ELO 更新規則有三個元件:
預期得分
比賽前,主隊的預期比分是根據評分差計算出來:
E家 = 1 / (1 + 10(R離開 − R家 − 四百分之四)
其中 R 是目前額定值,HFA 是主場優勢調整(通常是 50—100 分)。
K 係數
K 係數控制每場比賽後的評分變化多少。較高的 K 意味著評分對最近的結果反應更快(更波動),而較低的 K 意味著評級更穩定,但適應速度較慢。足球的典型值介於 20 到 40。
更新規則
比賽結束後,評分會根據實際結果和預期得分之間的差異更新:
Rnew = Rold + K × (秒)實際 − E預期)
其中 S實際 = 1 為勝利,0.5 為平,0 表示輸。
A 隊(評分 1650)主場對陣 B 隊(評分 1500)。如果 K = 30,高度高度為 65:
EA = 1 / (1 + 10(一百五十五 − 一百五十五) /400) = 0.78
如果 A 隊獲勝:RA = 1650 + 30 × (一 − 0.78) = 1656.6 (+6.6)
如果 B 隊獲勝:RA = 1650 + 30 × (0 − 0.78) = 1626.6 (−23.4)
失望轉移的評分比預期結果多得多。
足球背景中的 ELO
為什麼它有效
ELO 同時捕捉兩件事:基礎的團隊品質和最近的表現。連勝的球隊將看到其評分上升,反映真正的進步和動力。這使 ELO 成為預測模型的緊湊、資訊豐富的功能。
限制
標準 ELO 對足球有一個基本限制:它每支球隊生成一個數字。這意味著它無法區分攻擊力強而防守力的球隊,或者在主場與客場表現不同的球隊。評分 1600 的球隊可以是 3-2 球隊或 1-0 球隊 — ELO 對待他們相同。
Pi 評級:下一次進化
2013 年,安東尼康斯坦蒂諾和諾曼·芬頓發表了一篇論文介紹了 PI 評級-這是專為足球設計的評級系統,解決 ELO 的關鍵限制。PI 評級保持四個,而不是每支球隊一個數字:
PI 評級系統使用原始論文中的三個關鍵參數:
| 參數 | 價值 | 目的 |
|---|---|---|
| b | 10 | 評級更新的基本乘數 |
| c | 3 | 控制對目標差異的靈敏度 |
| lr | 0.1 | 學習率 — 評分的適應速度 |
每場比賽結束後,兩支球隊的四個評分都會根據進入和丟失的進球進行更新。當球隊在主場進球時,主場攻擊評分會增加;對手的客場防守評分降低。這可以為團隊實力創造豐富的多維度圖片。
PI 評級會在每一場比賽日後逐步更新。ExPrysm 會執行每日更新,以確保評分在產生預測之前反映最新結果。
ExPrysm 如何使用團隊評分
ExPrysm 不使用 ELO 或 PI 評級作為獨立預測器。相反,它們作為 CatBoost 漸變增強模型中的功能:
- 比賽結果模型: 其 69 個功能中同時使用 ELO 等級和 PI 等級。CatBoost 分類器會了解評分差異如何與其他功能(表格、頭對決、聯賽位置)互動,以預測比賽結果。
- 目標模型: 波亞森回歸模型(53 個功能)使用 PI 評級來幫助預測預期進球。攻擊/防禦分離在這裡特別有價值 — 球隊的主場攻擊評分直接告訴他們的可能會進球數。
- 功能重要性: PI 評分佔比對結果模型中特徵重要性的約 24.5%,使它們成為單一最具影響力的特徵群組。這證實了團隊實力量測是準確預測的基礎。
ExPrysm 的關鍵設計決定是模型不使用基於差數的功能。球隊評分提供「無關市場的」強度信號,使模型能夠產生自己的概率估計,而不會固定於博彩公司賠率。
ELO 與 Pi 評分比較
| 外觀 | ELO | PI 評級 |
|---|---|---|
| 每個團隊的價值 | 1 | 4 |
| 攻擊 / 防禦分割 | No | Yes |
| 首頁/客戶分車 | 否(固定的 HFA) | 是(單獨的評級) |
| 使用的進球差 | 可選 | 內置 |
| 複雜性 | 簡單 | 中等 |
| 可解釋性 | 非常高 | 高 |
| 信息密度 | Low | 高 |
| 學術基礎 | 埃洛(1960 年代) | 康斯坦丁努和芬頓(2013) |
這兩個系統都有價值。ELO 提供了一個簡單且可解釋的基準線 — 您可以立即理解,評分為 1700 的團隊比評分 1500 強。PI 評級提供機器學習模型可以利用的更豐富的信息,尤其是攻擊/防禦和家/客場分離。
對預測的實際影響
評分差異如何轉化為獲勝機率?以下是來自 ELO 差異的大致映射:
| ELO 差異 | 更強隊伍獲勝% | 抽籤率 | 較弱的隊伍獲勝% |
|---|---|---|---|
| 0 (等於) | ~36% | ~28% | ~36% |
| +100 | ~45% | ~27% | ~28% |
| +200 | ~55% | ~24% | ~21% |
| +300 | ~64% | ~21% | ~15% |
| +400 | ~72% | ~17% | ~11% |
這些是粗略估計 — ExPrysm 的 CatBoost 模型通過將所有 69 個功能一起考慮,而不僅僅僅是評級差異來產生更多細微的概率。但這個表格說明了為什麼評分如此有價值:它們將球隊的整個比賽歷史壓縮為單一的預測信號。
憑藉 PI 評級,該型號變得更加細膩。主場攻擊評級高但客場防守等級低的球隊會根據他們在主場還是客場比賽而產生非常不同的預測 —— 單一 ELO 數無法捕捉到的情況。
結論
ELO 評級提供了一種經過驗證且可解釋的團隊實力量測量,該測量已在跨運動中有效數十年。PI 評級將這個概念擴大了足球所需的攻擊/防禦和家/客場維度。ExPrysm 在 CatBoost 模型中使用這兩種功能,而 PI 評分僅佔功能重要性的約 24.5%,確認準確的球隊實力量測是足球預測中最重要的單一元素。
想了解完整的平台?閱讀 什麼是 ExPrysm? 了解所有模型如何一起工作的完整概述。