準確度與校準

大多數人通過準確性來評估預測模型:「有多少百分比的預測是正確的?」這對於可能性預測來說是直觀的,但深深具誤導性。

考慮預測 100 場足球比賽的兩個模型:

模型準確度行為
A 型號54%每次都預測主隊
B 型號54%輸出每場比賽的校準概率

兩者都具有相同的準確度,但模型 B 更有用。當模型 B 表示 "75% 主場勝利" 時,這意味著在所有預測到 ~ 75% 的比賽中,大約 75% 實際結果導致主場勝利。模型 A 不會給您這樣的信息,只是總是選擇回家。

準確度會告訴您模型的正確性。校準會告訴您您可以多信任它輸出的概率。對於根據這些概率做出決定的人(尤其是財務決策)對於任何人來說,校正是重要的。

什麼是校準?

如果對於它輸出的每個概率,事件的實際頻率與該概率匹配該概率,則模型將完美校準。正式:

校準定義

P(結果 = 正確 | 信心 = p)= p

對於 0 到 1 之間的所有 p 值。

在實際上,這意味著:

  • 當模型說 "60% 的概率" 時,事件應發生 ~ 60% 的時間
  • 當模型說 "80% 的概率" 時,事件應發生 ~ 80% 的時間
  • 當模型說 "30% 的概率" 時,事件應發生 ~ 30% 的時間

使用可靠性圖(校準曲線)可視化這一點:您可以在 x 軸上繪製預測的概率與 y 軸上的觀測頻率相比。完美校準的模型產生從 (0,0) 到 (1,1) 的對角線。

測量校準

布萊爾得分

評估概率預測最常見的指標是格倫布萊爾分數,1950 年由格倫·布萊爾引入:

布萊爾得分公式

小幅度 = (1/N) × Σ (p)i − oi

其中 pi 是預測的概率和 oi 是實際結果(1 或 0)。較低是更好的。範圍:0(完美)到 1(最差)。

布賴爾分數可以分解為三個組成:

元件它衡量什麼目標
校準(可靠性)預測的概率與觀察頻率有多近最小化
解析度(銳利度)預測與基準利率有多少偏差最大化
不確定性事件的固有不可預測性(不可控)

模型可能具有良好的校準,但分辨率不佳(在三向市場中總是預測每個結果的約 33%),或者解析度好,但校準差(進行不匹配現實的極端預測)。最好的型號具有良好的校準和良好的分辨率。

校準錯誤

預期校正誤差 (ECE) 提供更直接的測量。它按信心等級對預測進行分類,並計算預測和觀察頻率之間的加權平均差異:

ECE 公式

ECE= Σ (nb/N) × |avg(pb)-平均值 (ob)|

其中 b 索引了容器,nb 是 bin b 中的預測數和平均值(pb) 和平均值 (ob)是該資料箱中預測和觀察的平均值。

為什麼調校對投注重要

這就是校準成為一個財務問題的地方。如果模特說球隊有 60% 的機率獲勝,而博彩公司提供意味著 55% 的賠率,那麼這看起來就像是價值投注 —— 5% 的優勢。但是,如果模型過於自信,真實概率實際上是 53%,該怎麼辦?現在,您正在投注負預期價值。

校準陷阱

模型說:60% → 隱含賠率:1.67

博彩公司優惠:1.82(隱含 55%)→ 看起來價值為 +5%

真實概率:53% → 實際優勢:− 2% (長期輸下注)

一個過度自信的模型有系統地識別不存在的「值」。超過數百次投注,這會破壞您的資金。經過校準良好的模型,即使準確度稍微不太準確,也可以為您提供可靠的概率估計,您實際上可以用於決策。

這就是為什麼 ExPrysm 專注於校準作為主要指標的原因。一種說 "65%" 的模型,意味著它比說 "75%" 的模型無限實用,但只有 60% 的時間正確。

ExPrysm 如何校準模型

ExPrysm 使用幾種方法來確保校準的概率輸出:

CatBoost 原生概率

ExPrysm 使用的漸層增強框架 CatBoost,本地產生了良好的校準的概率-比大多數其他基於樹狀模型更好。這是因為 CatBoost 使用有序的增強和對稱樹,可以減少過度配合,這是錯誤校準的主要原因。

比賽結果模型在訓練期間使用類別 _ 重量 = [1.0, 1.3, 1.0] 進行輕微提升比重。這解決了已知的問題,即抽籤是最難預測的結果,並且在模型信心中通常表現不足的問題。

等式迴歸

對於臨機校準,等音回歸是一種非參數式方法,可從原始模型分數到校準的概率學習單調映。它通過配合一個步驟函數來最小化預測和觀察到的頻率之間的平方誤差,但受到函數不減少的限制。

與參數式方法相比的優勢在於,等聲迴歸不會對校準曲線的形狀進行假設 — 它可以更正任何錯誤校準模式。

平面縮放

Platt 比例調整適合模型原始輸出上的物流回歸,以產生校準的概率。它比等音回歸簡單,並且在錯誤校準遵循環形模式時起作用很好。它對於 BTTS 或超過/低市場等二元結果特別有用。

讀取校準曲線

校準曲線(可靠性圖)是評估模型品質最直觀的方法。以下是如何閱讀一個:

圖案含義含義
對角線上的點完美校準預測的概率與現實相匹配
對角線上方的點不自信模特說 50%,但事件發生 60% — 保守
對角線下方的點過度自信模特說 70%,但事件發生 55% — 危險
S 形曲線混合極端自信不足,中間過度自信(反之亦然)

對於投注目的而言,過度自信是最危險的模式。一個過度自信的模型會讓你認為自己在沒有的時候有優勢。自信不足的傷害較少 — 您可能會錯過一些價值投注,但您不會有系統性地損失金錢。

良好的校準看起來是什麼

分區 30-40%:模型預測約 35%,實際結果率 = 33% ✓

50-60%:模型預測約 55%,實際結果率 = 57% ✓

下列 70-80%:模型預測約 75%,實際結果率 = 73% ✓

每個資料箱的觀察頻率都在預測平均值的幾個百分點之內 —— 這是一個經過良好的校準模型。

ExPrysm 的校準結果

ExPrysm 針對所有主要市場發佈校準曲線 效能頁面。這些曲線是從 7,800 多個比賽中的實際預測數據產生,並定期更新。

關於 ExPrysm 校準的關鍵要點:

  • 公開可用: 與大多數預測服務不同,所有使用者都可以看到 ExPrysm 的校準資料。您可以自行驗證模型的可靠性。
  • 市場級的細微性: 對比賽結果(1X2)、BTTS、超過/低以及其他市場提供了單獨的校準曲線。每個市場都有不同的校準特性。
  • 持續監控: 會隨著時間的推移追蹤校準,以偵測漂移。如果由於足球動態變化而導致模型校準錯誤,則會很早找到它。
  • 不採摘櫻桃: 所有預測都包含在校準分析中,而不僅僅是模型正確的預測。這對於誠實評估至關重要。

查看 ExPrysm 的實時校準曲線和布萊爾分數 效能頁面。所有數據都是來自真實的預測,而不是反向測試。

結論

準確性是每個人都要求的指標。校準是實際上重要的指標。校準良好的模型為您提供您可以信任和採取行動的概率。未經校準的模型 — 無論多麼「準確」,都可能導致您做出有系統性的錯誤決策。

ExPrysm 通過 CatBoost 的原生概率估算、臨機校準技術以及對校準曲線的透明公開報告來優先考慮校準。當模型說 65% 時,這意味著 65%-這就是其他所有東西都建立的基礎。

想了解信心得分如何轉化為投注決策?閱讀我們的 如何選擇足球投注 指南。