迪克森-科爾斯和波伊森模型在足球預測中
足球進球遵循令人驚訝的可預測統計模式。自 1950 年代以來,波伊森分佈一直是進球模型的骨幹,迪克森-科爾斯校正改善了它,適合現代時代。以下說明這些模型的運作方式,以及 ExPrysm 如何在機器學習上構建模型。
足球統計預測簡介
統計預測足球比賽意味著估計每個可能結果的概率,而不是選擇贏家。大多數基於目標模型的基礎是一個簡單的觀察:球隊在一場比賽中得分的進球數跟著普森分配相當良好。
這種洞察,首先由莫羅尼(1956)記錄,後來由馬赫(1982)正式化,如果我們可以估計每支球隊的預期進球(λ),則允許我們為任何比賽構建一個完整概率矩陣。從該矩陣中,每個市場 — 1X2、BTTS、高/低、正確比分、亞洲讓 — 都可以數學方式得出。
波伊森分佈和足球
Poisson 分佈為特定數目的事件在固定間隔中發生的概率模型,當事件以恆定平均速率獨立發生時。對於足球來說,「事件」是一個目標,「間隔」是一場比賽。
準確的概率 k 給定預期比率 λ 的進球是:
P(X = k)=(λk × e−λ) / k!
其中 λ 是預期進球數, e ≈ 2.71828,並且 k!是 k 的因數。
為什麼這對足球有用?進球是相對罕見的事件(通常每隊每場比賽 1:3),它們在比賽中發生在比賽中有些許獨立,平均比率因球隊實力和情境而異。這些屬性與波亞森假設非常相符。
P(0 球)= 22.3%
P(1 球)= 33.5%
P(2 球)= 25.1%
P(3 球)= 12.6%
P(4 個以上進球)= 6.5%
獨立波伊森模型
最簡單的方法假設主場和客場目標是獨立的。如果我們估計 λ家 和 λ離開 單獨,任何特定計分線(i,j)的概率簡單是:
P(主頁 = I,距離 = J)= P家(i) × P離開(j)
這會產生完整的計分線概率矩陣。例如,使用 λ家 = 1.6 和 λ離開 = 1.1:
| 客場 0 | 客場 1 | 客場 2 | 客場 3 | |
|---|---|---|---|---|
| 首頁 0 | 6.7% | 7.4% | 4.1% | 1.5% |
| 首頁 1 | 10.8% | 11.8% | 6.5% | 2.4% |
| 首頁 2 | 8.6% | 9.5% | 5.2% | 1.9% |
| 首頁 3 | 4.6% | 5.1% | 2.8% | 1.0% |
From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.
獨立的限制
獨立模型有一個已知的缺點:它低估得分低分平的概率(尤其是 0-0 和 1-1)。在真實的足球中,這些計分線出現的頻率比獨立模型預測的頻率更高。這就是迪克森和科爾斯參與的地方
迪克森-科爾斯校正
在他們 1997 年的里程碑意義的論文中,馬克·迪克森和斯圖爾特·科爾斯引入了一種校正係數 ρ(rho),可調整低得分結果的聯合概率。關鍵見解:主場和客場進球並不完全獨立,戰術和心理因素會產生相關性,尤其是在緊密、低分的比賽中。
修正適用於四個特定的計分線:
| 計分線 | 校正係數 |
|---|---|
| 0-0 | 1 + λh × λa × ρ |
| 1-0 | 1 − λa × ρ |
| 0-1 | 1 − λh × ρ |
| 1-1 | 1 + ρ |
當 ρ 為負值(通常在 −0.03 到 -0.10 左右)時,0-0 和 1-1 的概率會增加,而 1-0 和 0-1 下降。這更好地匹配實際匹配數據中觀察到的頻率。
迪克森-科爾斯校正的大小很小,但在數千種預測中有意義。它主要影響正確分數和低於 0.5/1.5 的市場,其中低分數結果主導地位。
ExPrysm 如何使用波伊森
ExPrysm 不使用經典的波伊森方法來根據歷史平均值估算攻擊和防禦參數。相反,它使用更強大且靈活的機器學習方法:
這種方法相比經典迪克森-科爾斯的優點在於 CatBoost 可以捕捉功能和預期目標之間的非線性關係。它不會假設每個團隊固定的攻擊/防禦參數,而是會學習 53 個不同的情境功能如何互動,以產生每個特定比賽的預期進球率。
製作樂團
對於最終比賽結果(1X2)預測,ExPrysm 使用結合兩種方法的製作組合:
P(結果)= 0.70 × P卡特 Boost MS + 0.30 × 每小時普瓦森
CatBoost 比對結果分類器(69 個特徵,類別重量 = [1.0,1.3,1.0])提供主要信號,而波伊森衍生的概率從目標模型增加了互補的觀點。
從普瓦森到市場
一旦你有得分線概率矩陣,衍生市場概率就是簡單的算法:
BTTS(兩隊都入分)
將主場進球 ≥ 1 和客場進球 ≥ 1 的所有單元進總和。等效:P(BTTS)= 1-P(主頁 = 0)-P(遠距離 = 0)+ P(0-0)。
超過/低入球
對於 2.5 以上:將家 + 客場 ≥ 3 的所有單元格求和。對於 2.5 以下:將家 + 客戶 ≤ 2 的所有單元格求和。相同的邏輯適用於任何行(1.5,3.5 等)。
正確分數
矩陣中的每個單元格直接給出該確切計分線的概率。最可能的計分線是值最高的儲存格。
亞洲讓賽
Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.
這就是為什麼 Poisson 目標模型如此有價值 — 單一對 λ 值同時為每個目標相關市場產生概率。在我們中了解有關 BTTS 的更多信息 BTTS 說明 指南。
限制和改進
沒有模型是完美的。Poisson 方法具有已知的限制,ExPrysm 通過其功能工程解決:
- 時間變化的攻擊/防禦: 球隊實力會在整個賽季中發生變化。ExPrysm 通過 PI 評級(每天更新)和滾動表格功能來處理此問題,而不是靜態季節平均值。
- 主場優勢衰退: 自 2010 年以來,歐洲足球的主場優勢一直在下降,並在 COVID 時代空白的體育場期間進一步下降。ExPrysm 的模型從最近的數據中學習當前主場優勢,而不是假設固定值。
- 杯對聯賽動態: 杯賽具有不同的戰術概況(更謹慎,加時場更多)。ExPrysm 的功能包括競爭類型來捕捉這些差異。
- 獨立假設: 儘管迪克森-科爾斯 ρ 參數有幫助,但比賽中的進球永遠不會真正獨立。1-0 上前的球隊可能會更具防禦力。CatBoost 的非線性建模通過上下文功能部分捕獲這些動態。
- 過分散: 對於某些市場(卡牌、角球),進球不能跟隨波森,因為差異超過平均值。ExPrysm 改為這些市場使用負二項式回歸。
結論
波伊森分佈仍然是足球進球模型最優雅和最實用的基礎。迪克森-科爾斯校正改善了它,以獲得低分的結果。ExPrysm 建立在這個基礎上,通過將簡單的參數估算替換為 CatBoost Poisson 回歸,使用 53 個功能來預測預期的目標,比傳統方法更準確地預測預期目標。
結果是一個系統,可從單一對預測的 λ 值在每個與目標相關市場產生校準的概率,結合 70/30 組合中的直接匹配結果分類器,用於最終 1X2 預測。
查看這些模型在實踐中的表現 效能頁面,擁有超過 100 個聯賽的 7,800 場比賽的結果。