精度とキャリブレーション

ほとんどの人は予測モデルを精度で評価します。「予測の何パーセントが正しかったか?」これは直感的ですが、確率的予測においては非常に誤解を招きやすい指標です。

100試合のサッカーを予測する2つのモデルを考えてみましょう:

モデル精度動作
モデルA54%常にホームチームを予測する
モデルB54%各試合にキャリブレーションされた確率を出力する

どちらも同じ精度ですが、モデルBははるかに有用です。モデルBが「ホーム勝利75%」と言う場合、~75%と予測されたすべての試合のうち、約75%が実際にホーム勝利になることを意味します。モデルAにはそのような情報はありません——ただ常にホームを選んでいるだけです。

精度はモデルがどれだけ正しいかを教えてくれます。キャリブレーションは、モデルが出力する確率をどれだけ信頼できるかを教えてくれます。それらの確率に基づいて意思決定を行う人——特に金銭的な意思決定——にとって、重要なのはキャリブレーションです。

キャリブレーションとは何か?

モデルが出力するすべての確率について、実際のイベントの発生頻度がその確率と一致する場合、そのモデルは完全にキャリブレーションされています。形式的には:

キャリブレーションの定義

P(outcome = correct | confidence = p) = p

0から1の間のすべてのpの値に対して。

実際には、これは次のことを意味します:

  • モデルが「確率60%」と言う場合、そのイベントは約60%の確率で発生するべきである
  • モデルが「確率80%」と言う場合、そのイベントは約80%の確率で発生するべきである
  • モデルが「確率30%」と言う場合、そのイベントは約30%の確率で発生するべきである

これは信頼性ダイアグラム(キャリブレーション曲線)を使って可視化されます。x軸に予測確率、y軸に観測頻度をプロットします。完全にキャリブレーションされたモデルは(0,0)から(1,1)への対角線を描きます。

キャリブレーションの測定

Brierスコア

確率的予測を評価するための最も一般的な指標は、1950年にGlenn Brierが導入したBrierスコアです:

Brierスコアの計算式

BS = (1/N) × Σ(pi − oi

ここでpiは予測確率、oiは実際の結果(1または0)です。低いほど良い。範囲:0(完璧)から1(最悪)。

Brierスコアは3つの要素に分解できます:

要素測定内容目標
キャリブレーション(信頼性)予測確率が観測頻度にどれだけ近いか最小化
解像度(鋭さ)予測がベースレートからどれだけ乖離しているか最大化
不確実性イベントの本質的な予測不可能性(制御不能)

モデルはキャリブレーションが良くても解像度が低い場合があります(3択市場で各結果に常に~33%を予測する)。あるいは解像度が良くてもキャリブレーションが悪い場合もあります(現実と一致しない極端な予測をする)。最良のモデルは、キャリブレーションと解像度の両方が優れています。

キャリブレーション誤差

期待キャリブレーション誤差(ECE)はより直接的な測定値を提供します。予測を確信度レベルでビン分けし、予測頻度と観測頻度の差の加重平均を計算します:

ECEの計算式

ECE = Σ (nb/N) × |avg(pb) − avg(ob)|

ここでbはビンのインデックス、nbはビンb内の予測数、avg(pb)とavg(ob)はそのビン内の予測値と観測値の平均です。

キャリブレーションがベッティングに重要な理由

ここでキャリブレーションは金銭的な問題になります。モデルがあるチームの勝利確率を60%と言い、ブックメーカーが55%を示唆するオッズを提供している場合、それはバリューベット——5%のエッジ——のように見えます。しかし、モデルが過信していて真の確率が実際には53%だったとしたら?今やあなたはマイナスの期待値に賭けていることになります。

キャリブレーションの罠

モデルの予測:60% → 示唆されるオッズ:1.67

ブックメーカーの提供:1.82(55%を示唆)→ +5%のバリューに見える

真の確率:53% → 実際のエッジ:−2%(長期的には負けるベット)

過信したモデルは存在しない「バリュー」を体系的に識別します。何百ものベットを重ねると、これはバンクロールを破壊します。わずかに精度が低くても、よくキャリブレーションされたモデルは、実際に意思決定に使える信頼性の高い確率推定値を提供します。

これがExPrysmがキャリブレーションを主要指標として重視する理由です。「65%」と言ってそれを意味するモデルは、「75%」と言いながら実際には60%しか正しくないモデルより無限に有用です。

ExPrysmのモデルキャリブレーション方法

ExPrysmはキャリブレーションされた確率出力を確保するためにいくつかのアプローチを使用しています:

CatBoostのネイティブ確率

ExPrysmが使用する勾配ブースティングフレームワークであるCatBoostは、他のほとんどのツリーベースモデルよりも優れたキャリブレーションされた確率をネイティブに生成します。これはCatBoostが順序付きブースティングと対称ツリーを使用しており、過学習を減らすためです。過学習はキャリブレーション不良の主な原因です。

試合結果モデルはclass_weights=[1.0, 1.3, 1.0]を使用して、トレーニング中に引き分けをわずかに重み付けします。これは、引き分けが最も予測が難しい結果であり、モデルの確信度で過小評価されることが多いという既知の問題に対処します。

アイソトニック回帰

事後キャリブレーションのために、アイソトニック回帰はノンパラメトリックな手法で、生のモデルスコアからキャリブレーションされた確率への単調なマッピングを学習します。関数が非減少であるという制約のもと、予測頻度と観測頻度の二乗誤差を最小化するステップ関数を適合させることで機能します。

パラメトリック手法に対する利点は、アイソトニック回帰がキャリブレーション曲線の形状について仮定を置かないことです——あらゆるパターンのキャリブレーション不良を修正できます。

Plattスケーリング

Plattスケーリングはモデルの生の出力にロジスティック回帰を適合させてキャリブレーションされた確率を生成します。アイソトニック回帰よりシンプルで、キャリブレーション不良がシグモイドパターンに従う場合に効果的です。BTTSやOver/Underマーケットのような二値結果に特に有用です。

キャリブレーション曲線の読み方

キャリブレーション曲線(信頼性ダイアグラム)はモデルの品質を評価する最も直感的な方法です。読み方は以下の通りです:

パターン意味示唆
対角線上の点完璧なキャリブレーション予測確率が現実と一致している
対角線より上の点過小確信モデルは50%と言うが実際は60%で発生——保守的
対角線より下の点過信モデルは70%と言うが実際は55%で発生——危険
S字曲線混合極端な値では過小確信、中間では過信(またはその逆)

ベッティングの観点では、過信が最も危険なパターンです。過信したモデルは、エッジがないのにあると思わせます。過小確信はそれほど有害ではありません——バリューベットを見逃すかもしれませんが、体系的に損をすることはありません。

良いキャリブレーションの例

ビン30〜40%:モデルの予測~35%、実際の発生率 = 33% ✓

ビン50〜60%:モデルの予測~55%、実際の発生率 = 57% ✓

ビン70〜80%:モデルの予測~75%、実際の発生率 = 73% ✓

各ビンの観測頻度が予測平均から数パーセントポイント以内に収まっている——これがよくキャリブレーションされたモデルです。

ExPrysmのキャリブレーション結果

ExPrysmはすべての主要マーケットのキャリブレーション曲線をパフォーマンスページで公開しています。これらの曲線は7,800試合以上の実際の予測データから生成され、定期的に更新されます。

ExPrysmのキャリブレーションに関する主なポイント:

  • 公開されている:ほとんどの予測サービスとは異なり、ExPrysmのキャリブレーションデータはすべてのユーザーが閲覧できます。モデルの信頼性を自分で確認できます。
  • マーケットレベルの粒度:試合結果(1X2)、両チーム得点、Over/Underおよびその他のマーケットに対して個別のキャリブレーション曲線が提供されます。各マーケットには異なるキャリブレーション特性があります。
  • 継続的な監視:キャリブレーションはドリフトを検出するために時系列で追跡されます。サッカーのダイナミクスの変化によってモデルのキャリブレーションが崩れた場合、早期に検出されます。
  • チェリーピッキングなし:すべての予測がキャリブレーション分析に含まれます——モデルが正解したものだけではありません。これは公正な評価のために重要です。

ExPrysmのライブキャリブレーション曲線とBrierスコアをパフォーマンスページでご覧ください。すべてのデータはバックテストではなく、実際の予測から得られたものです。

まとめ

精度は誰もが尋ねる指標です。キャリブレーションは実際に重要な指標です。よくキャリブレーションされたモデルは、信頼して行動できる確率を提供します。キャリブレーションされていないモデルは——どれだけ「精度が高く」ても——体系的に悪い意思決定につながる可能性があります。

ExPrysmはCatBoostのネイティブ確率推定、事後キャリブレーション技術、およびキャリブレーション曲線の透明な公開報告を通じてキャリブレーションを優先しています。モデルが65%と言う場合、それは65%を意味します——そしてそれがすべての基盤となっています。

確信度スコアがベッティングの意思決定にどのように変換されるかを理解したいですか?サッカーベットの選び方ガイドをお読みください。