نماذج ديكسون كولز وبواسون في التنبؤ بكرة القدم
تتبع أهداف كرة القدم أنماطًا إحصائية يمكن التنبؤ بها بشكل مدهش. كان توزيع Poisson العمود الفقري لنماذج تسجيل الأهداف منذ الخمسينيات من القرن الماضي، وقد أدى تصحيح Dixon-Coles إلى تحسينه ليتناسب مع العصر الحديث. فيما يلي كيفية عمل هذه النماذج - وكيف يعتمد ExPrysm عليها من خلال التعلم الآلي.
مقدمة للتنبؤ الإحصائي لكرة القدم
إن توقع مباريات كرة القدم إحصائيًا يعني تقدير احتمالية كل نتيجة محتملة - وليس اختيار فائز. أساس معظم النماذج القائمة على الأهداف هو ملاحظة بسيطة: عدد الأهداف التي يسجلها الفريق في المباراة يتبع توزيع بواسون جيدًا بشكل معقول.
هذه الرؤية، التي وثقها موروني لأول مرة (1956) وتم إضفاء الطابع الرسمي عليها لاحقًا بواسطة ماهر (1982)، تسمح لنا ببناء مصفوفة احتمالية كاملة لأي مباراة إذا تمكنا من تقدير الأهداف المتوقعة لكل فريق (543). من هذه المصفوفة، يمكن اشتقاق كل سوق - 1X2، BTTS، فائض/أقل، النتيجة الصحيحة، العائق الآسيوي - رياضيًا.
توزيع بواسون وكرة القدم
يمثل توزيع بواسون احتمال حدوث عدد معين من الأحداث في فترة زمنية محددة، عندما تحدث الأحداث بشكل مستقل بمعدل متوسط ثابت. بالنسبة لكرة القدم، «الحدث» هو هدف و «الفاصل الزمني» هو مباراة واحدة.
احتمال بالضبط k الأهداف بالنظر إلى المعدل المتوقع λ هي:
P (X = k) = (1.12)k × e−λ) / k!
حيث هو العدد المتوقع للأهداف، e ≈ 2.71828، وأنا بخير! هو مضروب k.
لماذا يعمل هذا لكرة القدم؟ الأهداف هي أحداث نادرة نسبيًا (عادةً 1-3 لكل فريق في كل مباراة)، وتحدث بشكل مستقل إلى حد ما عن بعضها البعض داخل المباراة، ويختلف متوسط المعدل حسب قوة الفريق والسياق. تتوافق هذه الخصائص جيدًا مع افتراضات Poisson.
P (0 أهداف) = 22.3%
P (هدف واحد) = 33.5٪
P (هدفان) = 25.1٪
P (3 أهداف) = 12.6%
P (أكثر من 4 أهداف) = 6.5٪
نموذج بواسون المستقل
يفترض النهج الأبسط أن أهداف الذهاب والعودة مستقلة. إذا قمنا بتقدير λبيت و λبعيدا بشكل منفصل، فإن احتمال أي نتيجة محددة (i، j) هو ببساطة:
P (الصفحة الرئيسية=I، الطريق=J) = Pبيت(1) × Pبعيدا(j)
يؤدي هذا إلى إنشاء مصفوفة احتمالية كاملة للنتائج. على سبيل المثال، مع λبيت = 1.6 و 1.12بعيدا = 1.1:
| أواي 0 | أواي 1 | أواي 2 | أواي 3 | |
|---|---|---|---|---|
| الصفحة الرئيسية 0 | 6.7% | 7.4% | 4.1% | 1.5% |
| الصفحة الرئيسية 1 | 10.8% | 11.8% | 6.5% | 2.4% |
| الصفحة الرئيسية 2 | 8.6% | 9.5% | 5.2% | 1.9% |
| الصفحة الرئيسية 3 | 4.6% | 5.1% | 2.8% | 1.0% |
From this matrix, you can sum cells to get any market probability. Home win = sum of all cells where i > j. Draw = sum of diagonal. Away win = sum where j > i.
حدود الاستقلال
يحتوي النموذج المستقل على عيب معروف: فهو يقلل من احتمالية التعادلات ذات الدرجات المنخفضة (خاصة 0-0 و 1-1). في كرة القدم الحقيقية، تحدث هذه النتائج بشكل متكرر أكثر مما يتوقعه النموذج المستقل. هذا هو المكان الذي تدخل فيه ديكسون وكولز.
تصحيح ديكسون-كولز
في ورقتهم التاريخية لعام 1997، قدم مارك ديكسون وستيوارت كولز عامل التصحيح (rho) الذي يضبط الاحتمال المشترك للنتائج ذات الدرجات المنخفضة. الفكرة الرئيسية: أهداف الذهاب والإياب ليست مستقلة تمامًا - العوامل التكتيكية والنفسية تخلق ارتباطًا وثيقًا، خاصة في المباريات الضيقة ذات الأهداف المنخفضة.
ينطبق التصحيح على أربعة خطوط محددة:
| خط النتائج | عامل التصحيح |
|---|---|
| 0-0 | 1 + λh × λa × ρ |
| 1-0 | 1 − λa × ρ |
| 0-1 | 1 − λh × ρ |
| 1-1 | 1 + ρ |
عندما تكون سالبة (وهي عادة ما تكون حوالي −0.03 إلى −0.10)، تزداد احتمالات 0-0 و1-1 بينما تنخفض احتمالات 1-0 و0-1. يتطابق هذا بشكل أفضل مع الترددات المرصودة في بيانات المطابقة الحقيقية.
يعد تصحيح Dixon-Coles صغيرًا من حيث الحجم ولكنه مفيد في آلاف التنبؤات. إنه يؤثر بشكل أساسي على النتيجة الصحيحة والأسواق التي تقل عن 0.5/1.5 حيث تهيمن النتائج ذات الدرجات المنخفضة.
كيف تستخدم إكسبريسم بواسون
لا يستخدم ExPrysm نهج Poisson الكلاسيكي لتقدير معايير الهجوم والدفاع من المتوسطات التاريخية. بدلاً من ذلك، يستخدم نهج التعلم الآلي الأكثر قوة ومرونة:
تتمثل ميزة هذا النهج على Dixon-Coles الكلاسيكي في أن CatBoost يمكنه التقاط العلاقات غير الخطية بين الميزات والأهداف المتوقعة. لا يفترض معيار الهجوم/الدفاع الثابت لكل فريق - بدلاً من ذلك، يتعلم كيفية تفاعل 53 ميزة سياقية مختلفة لإنتاج معدل الهدف المتوقع لكل مباراة محددة.
فرقة الإنتاج
للتنبؤ بنتيجة المباراة النهائية (1X2)، يستخدم ExPrysm مجموعة إنتاج تجمع بين طريقتين:
P (النتيجة) = 0.70 × Pكات بوست إم إس + 0.30 × صبواسون
يوفر مصنف نتائج المطابقة CatBoost (69 ميزة، class_weights = [1.0، 1.3، 1.0]) الإشارة الأساسية، بينما تضيف الاحتمالات المشتقة من Poisson منظورًا تكميليًا من نموذج الأهداف.
من بواسون إلى الأسواق
بمجرد حصولك على مصفوفة احتمالية النتيجة، فإن اشتقاق احتمالات السوق يكون حسابًا مباشرًا:
BTTS (كلا الفريقين للتسجيل)
اجمع كل الخلايا التي يكون فيها كلا الهدفين المنزليين ≥ 1 والأهداف الخارجية ≥ 1. بشكل مكافئ: P (BTTS) = 1 − P (المنزل = 0) − P (بعيدًا = 0) + P (0-0).
الأهداف الزائدة/الأقل
لأكثر من 2.5: اجمع كل الخلايا الموجودة في المنزل + بعيدًا ≥ 3. بالنسبة لأقل من 2.5: اجمع كل الخلايا الموجودة في المنزل + بعيدًا ≤ 2. ينطبق نفس المنطق على أي سطر (1.5، 3.5، إلخ).
النتيجة الصحيحة
تعطي كل خلية في المصفوفة بشكل مباشر احتمال تلك النتيجة الدقيقة. النتيجة الأكثر احتمالاً هي الخلية ذات القيمة الأعلى.
الإعاقة الآسيوية
Apply the handicap to each scoreline and determine win/loss/push for each cell. Sum the probabilities weighted by the outcome. For example, Home −1.5: sum all cells where (home − away) > 1.5.
هذا هو السبب في أن نموذج أهداف Poisson ذو قيمة كبيرة - زوج واحد من قيم λ يولد احتمالات لكل سوق متعلق بالأهداف في وقت واحد. تعرف على المزيد حول BTTS في موقعنا شرح BTTS دليل.
القيود والتحسينات
لا يوجد نموذج مثالي. يحتوي نهج Poisson على قيود معروفة يعالجها ExPrysm من خلال هندسة الميزات الخاصة به:
- هجوم/دفاع متغير بمرور الوقت: تتغير قوة الفريق طوال الموسم. يعالج ExPrysm هذا من خلال تقييمات Pi (يتم تحديثها يوميًا) وميزات النموذج المتداول بدلاً من متوسطات الموسم الثابتة.
- تدهور ميزة المنزل: تراجعت ميزة المنزل في كرة القدم الأوروبية منذ عام 2010، وانخفضت أكثر خلال الملاعب الفارغة في حقبة COVID. تتعلم نماذج ExPrysm ميزة المنزل الحالية من البيانات الحديثة بدلاً من افتراض قيمة ثابتة.
- ديناميكيات الكأس مقابل الدوري: تحتوي مباريات الكأس على ملامح تكتيكية مختلفة (سيناريوهات أكثر حذرًا والمزيد من الوقت الإضافي). تتضمن ميزات ExPrysm نوع المنافسة لالتقاط هذه الاختلافات.
- افتراض الاستقلال: في حين أن معيار Dixon-Coles يساعد، فإن الأهداف داخل المباراة لا تكون أبدًا مستقلة حقًا. الفريق الذي يتقدم 1-0 قد يلعب بشكل دفاعي أكثر. تلتقط النمذجة غير الخطية لـ CatBoost جزئيًا هذه الديناميكيات من خلال الميزات السياقية.
- التشتت المفرط: بالنسبة لبعض الأسواق (البطاقات والزوايا)، لا تتبع الأهداف بواسون جيدًا لأن التباين يتجاوز المتوسط. يستخدم ExPrysm الانحدار السلبي ذي الحدين لهذه الأسواق بدلاً من ذلك.
الخاتمة
يظل توزيع Poisson هو الأساس الأكثر أناقة وعملية لنمذجة أهداف كرة القدم. يعمل تصحيح Dixon-Coles على تحسينه للحصول على نتائج منخفضة الدرجات. يعتمد ExPrysm على هذا الأساس من خلال استبدال تقدير المعلمات البسيط بانحدار CatBoost Poisson - باستخدام 53 ميزة للتنبؤ بالأهداف المتوقعة بدقة أكبر من الطرق الكلاسيكية.
والنتيجة هي نظام يولد احتمالات مُعايرة عبر كل سوق متعلق بالأهداف من زوج واحد من قيم 1.12 المتوقعة، جنبًا إلى جنب مع مصنف نتائج المطابقة المباشرة في مجموعة 70/30 للتنبؤ النهائي بـ 1X2.
تعرف على كيفية أداء هذه النماذج عمليًا على صفحة الأداء، مع نتائج أكثر من 7800 مباراة عبر أكثر من 100 دوري.