足球統計預測簡介

統計預測足球比賽意味著估計每個可能結果的概率,而不是選擇贏家。大多數基於目標模型的基礎是一個簡單的觀察:球隊在一場比賽中得分的進球數跟著普森分配相當良好。

這種洞察,首先由莫羅尼(1956)記錄,後來由馬赫(1982)正式化,如果我們可以估計每支球隊的預期進球(λ),則允許我們為任何比賽構建一個完整概率矩陣。從該矩陣中,每個市場 — 1X2、BTTS、高/低、正確比分、亞洲讓 — 都可以數學方式得出。

波伊森分佈和足球

Poisson 分佈為特定數目的事件在固定間隔中發生的概率模型,當事件以恆定平均速率獨立發生時。對於足球來說,「事件」是一個目標,「間隔」是一場比賽。

準確的概率 k 給定預期比率 λ 的進球是:

普瓦森公式

P(X = k)=(λk × e−λ) / k!

其中 λ 是預期進球數, e ≈ 2.71828,並且 k!是 k 的因數。

為什麼這對足球有用?進球是相對罕見的事件(通常每隊每場比賽 1:3),它們在比賽中發生在比賽中有些許獨立,平均比率因球隊實力和情境而異。這些屬性與波亞森假設非常相符。

範例:λ = 1.5 球

P(0 球)= 22.3%

P(1 球)= 33.5%

P(2 球)= 25.1%

P(3 球)= 12.6%

P(4 個以上進球)= 6.5%

獨立波伊森模型

最簡單的方法假設主場和客場目標是獨立的。如果我們估計 λ 和 λ離開 單獨,任何特定計分線(i,j)的概率簡單是:

聯合概率

P(主頁 = I,距離 = J)= P(i) × P離開(j)

這會產生完整的計分線概率矩陣。例如,使用 λ = 1.6 和 λ離開 = 1.1:

客場 0客場 1客場 2客場 3
首頁 06.7%7.4%4.1%1.5%
首頁 110.8%11.8%6.5%2.4%
首頁 28.6%9.5%5.2%1.9%
首頁 34.6%5.1%2.8%1.0%

From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.

獨立的限制

獨立模型有一個已知的缺點:它低估得分低分平的概率(尤其是 0-0 和 1-1)。在真實的足球中,這些計分線出現的頻率比獨立模型預測的頻率更高。這就是迪克森和科爾斯參與的地方

迪克森-科爾斯校正

在他們 1997 年的里程碑意義的論文中,馬克·迪克森和斯圖爾特·科爾斯引入了一種校正係數 ρ(rho),可調整低得分結果的聯合概率。關鍵見解:主場和客場進球並不完全獨立,戰術和心理因素會產生相關性,尤其是在緊密、低分的比賽中。

修正適用於四個特定的計分線:

計分線校正係數
0-01 + λh × λa × ρ
1-01 − λa × ρ
0-11 − λh × ρ
1-11 + ρ

當 ρ 為負值(通常在 −0.03 到 -0.10 左右)時,0-0 和 1-1 的概率會增加,而 1-0 和 0-1 下降。這更好地匹配實際匹配數據中觀察到的頻率。

迪克森-科爾斯校正的大小很小,但在數千種預測中有意義。它主要影響正確分數和低於 0.5/1.5 的市場,其中低分數結果主導地位。

ExPrysm 如何使用波伊森

ExPrysm 不使用經典的波伊森方法來根據歷史平均值估算攻擊和防禦參數。相反,它使用更強大且靈活的機器學習方法:

1
貓加速波松回歸
兩個獨立的 CatBoost 模型(home_goals.cbm 和外場 _goals.cbm)在波亞森損失進行了訓練,以預測 λ 和 λ離開 直接。每個模型都使用 53 個功能,包括 PI 評級、表單指標和對頭統計數據。
2
波森分佈產生
預測的 λ 值被輸入到波亞森概率質量函數中,以產生完整的計分線概率矩陣(通常每個隊伍都是 0—7 個進球)。
3
市場衍生
計分線矩陣會彙總,以產生每個市場的概率:BTTS、超過/低、正確分數、亞洲讓賽線等。

這種方法相比經典迪克森-科爾斯的優點在於 CatBoost 可以捕捉功能和預期目標之間的非線性關係。它不會假設每個團隊固定的攻擊/防禦參數,而是會學習 53 個不同的情境功能如何互動,以產生每個特定比賽的預期進球率。

製作樂團

對於最終比賽結果(1X2)預測,ExPrysm 使用結合兩種方法的製作組合:

樂團公式

P(結果)= 0.70 × P卡特 Boost MS + 0.30 × 每小時普瓦森

CatBoost 比對結果分類器(69 個特徵,類別重量 = [1.0,1.3,1.0])提供主要信號,而波伊森衍生的概率從目標模型增加了互補的觀點。

從普瓦森到市場

一旦你有得分線概率矩陣,衍生市場概率就是簡單的算法:

BTTS(兩隊都入分)

將主場進球 ≥ 1 和客場進球 ≥ 1 的所有單元進總和。等效:P(BTTS)= 1-P(主頁 = 0)-P(遠距離 = 0)+ P(0-0)。

超過/低入球

對於 2.5 以上:將家 + 客場 ≥ 3 的所有單元格求和。對於 2.5 以下:將家 + 客戶 ≤ 2 的所有單元格求和。相同的邏輯適用於任何行(1.5,3.5 等)。

正確分數

矩陣中的每個單元格直接給出該確切計分線的概率。最可能的計分線是值最高的儲存格。

亞洲讓賽

Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.

這就是為什麼 Poisson 目標模型如此有價值 — 單一對 λ 值同時為每個目標相關市場產生概率。在我們中了解有關 BTTS 的更多信息 BTTS 說明 指南。

限制和改進

沒有模型是完美的。Poisson 方法具有已知的限制,ExPrysm 通過其功能工程解決:

  • 時間變化的攻擊/防禦: 球隊實力會在整個賽季中發生變化。ExPrysm 通過 PI 評級(每天更新)和滾動表格功能來處理此問題,而不是靜態季節平均值。
  • 主場優勢衰退: 自 2010 年以來,歐洲足球的主場優勢一直在下降,並在 COVID 時代空白的體育場期間進一步下降。ExPrysm 的模型從最近的數據中學習當前主場優勢,而不是假設固定值。
  • 杯對聯賽動態: 杯賽具有不同的戰術概況(更謹慎,加時場更多)。ExPrysm 的功能包括競爭類型來捕捉這些差異。
  • 獨立假設: 儘管迪克森-科爾斯 ρ 參數有幫助,但比賽中的進球永遠不會真正獨立。1-0 上前的球隊可能會更具防禦力。CatBoost 的非線性建模通過上下文功能部分捕獲這些動態。
  • 過分散: 對於某些市場(卡牌、角球),進球不能跟隨波森,因為差異超過平均值。ExPrysm 改為這些市場使用負二項式回歸。

結論

波伊森分佈仍然是足球進球模型最優雅和最實用的基礎。迪克森-科爾斯校正改善了它,以獲得低分的結果。ExPrysm 建立在這個基礎上,通過將簡單的參數估算替換為 CatBoost Poisson 回歸,使用 53 個功能來預測預期的目標,比傳統方法更準確地預測預期目標。

結果是一個系統,可從單一對預測的 λ 值在每個與目標相關市場產生校準的概率,結合 70/30 組合中的直接匹配結果分類器,用於最終 1X2 預測。

查看這些模型在實踐中的表現 效能頁面,擁有超過 100 個聯賽的 7,800 場比賽的結果。